>Если нужна простота и быстродействие, никаких сложных задач, типа всяких хитрых условий
>переключения в критическое состояние, то юзайте Nagios(хотя и с его помощью
>многое можно сделать). Ой, в чистом Nagios что-то за пределами мониторинга доступности сервисов (с которым, он, бесспорно, справляется превосходно!), делается просто с невероятным сексом.
Связка с тем же кактусом, у которого более-менее нормальные графики, вообще изврат, так-как полной интеграции все равно не получится, по крайней мере в вопросе того, что бы была одна общая БД с историей.
>Если нужен хитрый алгоритм выработки уведомлений, + красивые графики и карты из
>коробки, то ваш выбор Zabbix. Но и в Nagios`е это можно
>прирутить. Не долго.
Долго, честно скажу, что мне через 4 дня надоело, может, конечно, руки кривые :)) (пыталась подружить с кактусом), и представляя общий объем работы, не смотря на то, что раньше я работала с уже развернутым настроенным Nagios, решила, что он не стоит таких усилий.
>Заббикс намного более требовательный к железу из-за мускуля, который нужно тюнить(а если
>у вас много всего мониторится, то тюнинг обязателен), и по тем
>же причинам менее надежный.
MySQL и централизованное хранение данных мониторинга вообще must have, если цель мониторинга не только мониторинг доступности, но и анализ сервисов.
>Выше описанная задача больше подходит для Nagios`а. Для Заббикса придется покупать мощные
>машины, выделять на отдельную машину БД для него с кучей оперативы
>и тюнить мускуль.
У Zabbix рулит распределенный мониторинг. Кроме того, не верю, что контора с, например, 10к серверами не сможет себе позволить под центральный сервер выделить что-то с четыремя 4-8 ядерными сокетами, шестью-восьмью SAS в raid10
>>Не используйте стандартные темплейты, пишите свои.
>>Если решите отредактировать стандартные, без сожаления покромсайте, как минимум, 3/4 итемов. Они, на самом деле, Вам не нужны.
>
>Ясен пень, спасибо кэп, это же не SCOM! Даже смешно, там темплейтов-то
>только под стандартные задачи. Все делается напильником.
Вообще-то и под Nagios плагины часто приходится переписывать под себя.
>> Оставшимся увеличьте время опроса раза в три, или, даже, в тысячи. В самом деле, зачем, например, узнавать каждые тридцать секунд общий объем дисковой подсистемы? Достаточно это делать раз в сутки.
>
>Спасибо кэп =) Опять же, все делается напильником, у всех свои задачи.
>
>Вот в очередной раз вы говорите только в контексте своей работы =)
>У нас проверка item`ов по-умолчанию 3 минуты =) И объем дисковой
>подсистемы может за 3 минуты сильно вырасти,
Мы мониторим объем _свободного_ места тоже раз в три минуты (на некоторых серверах, раз в 8 минут), а проверять общий объем смонтированной ФС(о чем я написала) раз в три минуты, зачем??
Что, кто-то может втихаря залогиниться на локальной консоли, вставить, например, в lvm дополнительный HDD, и втихаря же расширить группу томов, а потом файловые системы? По-моему, это что-то из невероятно-фантастичного :)))
>Да и трафик с интерфейсов сетевых устройств снимать надо
>и на графики смотреть.
Разумеется, с сетевых интерфейсов счетчики нужно снимать как можно чаще. Мы парсим Zabbix-ксом не непосредственно счетчики, а текстовые файлы, которые делаются скриптом на серверах по крону раз в пол-минуты (запускается два скрипта, один делает sleep 30)
Если оборудование, и секюрити-нот-май-проблем, увы, конечно, уже сложнее выкручиваться, что бы снизить нагрузку
>> ... Nagios имхо, страшный хардкор, требующий, для построения нормальной службы мониторинга (не только доступности, но и анализа работы сервисов) невероятное число человеко-часов.
>
>Ха ха, не смешите меня =) Чуть-чуть больше времени, чем тот же
>Zabbix. В Nagios`е тоже есть темплэйты, разница только в том, что
>в первом случае вы жамкаете мышкой и стучите по клавишам. А
>во втором только стучите по клавишам.
Нет, разница в том, что nagios это joe или nano, а Zabbix это Vim или emacs: первые ничего не умеют (но их юзеры и не в претензии), а вторые безмерно навороченные для некоторых :) Имхо, конечно.
>А что по вашему значит "анализ работы сервисов" объясните, пожалуйста.
Есть задача донести информацию о падении сервиса, которая решается Nagios'ом превосходно (расскажу, кстати, что те же эскалации в Zabbix восьмой ветки сейчас поглючивают, и работают только через велосипед, так что, преимущество если и есть, оно сомнительное),
А есть задача проанализировать работу сервисов, например, узнать, сколько точно у Вас был какой-то итем в ночь второй субботы позапрошлого и прошлого месяца, по тому, что у Вас возникло озарение, что серверы по-очереди падают именно примерно в это время.
Вы можете прямо не отходя от кассы сделать развернутый анализ, и только потом лезть ковыряться на syslog сервер, когда уже будете знать, что именно Вам искать.
Так вот, Nagios ничего подобного, без страшного с ним секса, не умеет.
>Есть огромная куча плагинов для различных приложений. Да можете и сами
>написать плагин хоть на шелле. 10 минут. Есть http://www.monitoringexchange.org/ где народ
>выкладывает свои плагины, хотите правьте.
>Как-будто у Zabbix есть все искоробки =)
Мы все проверки для наших сервисов пишем или сами, или сильно перепиливаем готовые.
Для Zabbix, так же как и для Nagios, очень удобно прикручиваются скрипты, запускаемые агентом.