Мониторинг IT-инфраструктуры: как узнать о проблеме раньше сотрудников

Четверг, три часа дня. В бухгалтерии подвисает 1С. Менеджеры замечают, что отгрузки оформляются медленнее обычного. К вечеру все вроде бы восстанавливается, а в пятницу повторяется. В понедельник бухгалтер пишет заявку: «1С тормозит уже неделю». Неделю компания теряла производительность, а никто не сообщал о проблеме. Для интернет-магазина с оборотом 5 миллионов рублей в месяц час простоя — это порядка 7 тысяч рублей потерь.

Люди — плохие датчики. Мониторинг нужен именно затем, чтобы не зависеть от того, заметит ли кто-то проблему и решит ли о ней сообщить.

Что такое мониторинг и как он устроен

По сути, мониторинг — это набор датчиков, которые постоянно снимают показания с серверов, сетевого оборудования и приложений. Температура процессора, загрузка оперативной памяти, свободное место на дисках, количество активных подключений. Данные поступают на центральный сервер, где отображаются в виде графиков и дашбордов. Если какой-то показатель выходит за установленный порог — приходит уведомление.

Мы используем Zabbix — open-source систему мониторинга, которую применяют и в Сбербанке, и в тысячах других компаний по всей стране. Один сервер Zabbix способен обрабатывать более 25 тысяч метрик в секунду. Для малого и среднего бизнеса этого хватает с огромным запасом.

Мы используем Zabbix — open-source систему мониторинга, которую применяют и в Сбербанке, и в тысячах других компаний по всей стране. Один сервер Zabbix способен обрабатывать более 25 тысяч метрик в секунду. Для малого и среднего бизнеса этого хватает с огромным запасом.

Что мы видим на дашборде прямо сейчас у одного из клиентов: 140 лицензий 1С всего, из них 75 выдано, 7 подключено, 56 уникальных пользователей. Загрузка CPU — 13,15% при 24 ядрах. Оперативная память — 97,80%. Суточные графики показывают пики и провалы. Вся картина на одном экране, без звонков и расспросов. Визуализация мониторинга позволяет в разы быстрее оценить текущие потребности в ресурсах и лицензиях.

Зачем это бизнесу

Проблемы находятся до того, как их заметят сотрудники

Сотрудники инертны. Человек может неделями работать в медленной системе, не задумываясь, что что-то не так. Привыкает. Считает, что «так и должно быть». А потом, когда терпение заканчивается и приходит заявка, мы открываем графики мониторинга и видим: проблема началась две недели назад, когда оперативная память на сервере перевалила за 95%.

Мониторинг убирает этот разрыв. Порог в 90% — уведомление пришло, мы увидели, разобрались. Сотрудники ничего не заметили, потому что замечать было нечего.

Диагностика по факту: «Почему тормозило во вторник?»

Даже если сотрудник все-таки написал заявку, описание обычно выглядит так: «1С тормозила где-то после обеда, не помню когда точно». С мониторингом мы открываем суточный график, находим всплеск загрузки CPU в 14:20, видим, что в этот момент запустилось пять фоновых заданий одновременно, — и понимаем причину. Без мониторинга это было бы гадание.

Приходит заявка «1С тормозила после обеда» — мы открываем суточный график, находим всплеск в 14:20, видим пять фоновых заданий, запустившихся одновременно. Причина ясна за минуту. Без мониторинга это было бы гадание.

Планирование вместо авралов

Мониторинг накапливает данные. Через месяц видно, как растет нагрузка. Через три — можно прогнозировать, когда серверу потребуются дополнительные ресурсы. Вместо аврального звонка «у нас все встало, срочно нужен новый сервер» — спокойный разговор: «По графикам видим, что через два-три месяца памяти не хватит. Давайте запланируем расширение».

Для руководителя это другое качество управления. Бюджет предсказуем, сюрпризы реже, решения принимаются на основе данных, а не паники.

Необходимо навести порядок в контроле за IT-инфраструктурой? Обратитесь за консультацией — разберем вашу систему и подберем подходящий вариант мониторинга.

Получить консультацию

Что именно стоит мониторить

Набор метрик зависит от инфраструктуры, но вот минимум для компании, у которой есть сервер с 1С.

Процессор (CPU)

Если загрузка регулярно превышает 80% — сервер работает на пределе. Проведение документов в 1С замедляется, фоновые задания встают в очередь. У того клиента, чей дашборд мы показали выше, — 13%. Запас есть. Но если бы было 85% — мы бы уже обсуждали с клиентом апгрейд или перераспределение задач.

С оперативной памятью (RAM) все интереснее. На том же дашборде — 97,80%. Кажется, что это критично. Но в данном случае это штатная работа: память выделена под кэш базы данных, и так задумано. Когда памяти действительно не хватает, система начинает использовать файл подкачки на диске, и производительность падает в разы. Без мониторинга отличить «нормальные 97%» от «проблемных 97%» невозможно.
Дисковое пространство и ошибки ввода-вывода (I/O)

Два параметра, которые стоит отслеживать вместе. Диск заполняется постепенно: логи 1С, временные файлы, архивы — все это растет незаметно. Мониторинг показывает динамику: заполняется на 2 ГБ в неделю, осталось 30 ГБ — значит, через три-четыре месяца нужно чистить или расширять. Параллельно стоит следить за ошибками I/O: диск может начать «сыпаться» задолго до полного отказа. Если поймать это на ранней стадии, замена — плановая операция на полчаса. Если нет — аварийное восстановление на несколько часов.
Лицензии 1С

У них есть конкретный лимит: купили пакет на сто лицензий — сто первый пользователь просто не войдет в систему. Мониторинг показывает, сколько лицензий выдано и сколько осталось в запасе. Компания растет, нанимает людей — на дашборде видно, что запас тает. А покупка дополнительных лицензий — процесс не мгновенный.

Частые заблуждения

«Мониторинг — это для крупных компаний с дата-центрами»

Zabbix бесплатен и работает на обычном сервере. Настройка базового набора метрик для компании на 20-50 сотрудников занимает день-два. Дорогостоящие системы вроде Datadog или Splunk и правда рассчитаны на крупный бизнес. Но для SMB open-source Zabbix закрывает все потребности.
«У нас и так все работает, зачем следить?»

Пока работает — кажется, что мониторинг не нужен. Но «работает» еще не значит «работает нормально». Сервер может отдавать страницы 1С с задержкой в три секунды, и сотрудники будут молча ждать, потому что «всегда так было». Мониторинг покажет, что три секунды — это заметно медленнее комфортного отклика.
«Настроили один раз — дальше само работает»

Пороги нужно корректировать. Компания растет, нагрузка меняется, добавляются новые сервисы. Тот порог, который год назад был адекватным, сегодня может давать ложные срабатывания или, хуже, пропускать реальные проблемы.

Итог

Мониторинг превращает обслуживание IT из реактивного в проактивное — и дело тут не в красивых графиках на большом экране. Проблема обнаруживается до того, как сотрудник ее заметил. Причину устанавливают за минуты, а не за часы. И главное — ресурсы можно планировать на основе фактических данных, а не по ощущениям.

Компании, у которых стоит мониторинг, тратят на IT-инциденты заметно меньше времени и денег. Не потому что у них лучше оборудование, а потому что они знают о проблемах раньше, чем те становятся авариями. Разница — именно в этом.

Если хотите понять, что происходит с вашей инфраструктурой на самом деле, — свяжитесь с нами. Покажем, как выглядит мониторинг для компании вашего масштаба и что стоит отслеживать в первую очередь.

Требуется снизить количество неожиданных сбоев в IT-системе компании?
Оставьте заявку — поможем настроить мониторинг.