Решение InfraOps - современная инфраструктура для Highload сред

Мы предлагаем комплекс услуг по модернизации ИТ-инфраструктуры для highload проектов компаний уровня enterprise – крупных российских сетевых компаний и госкорпораций
  1. Описание инфраструктуры кодом
  2. Отказоустойчивая СУБД
  3. Единая система сбора и анализа логов
  4. Единая система резервного копирования
  5. Единая система мониторинга и алертинга
  6. Реализация мер информационной безопасности
Для кого это актуально:
  • Госкорпорации различного уровня
  • Интернет-операторы и провайдеры
  • Телекоммуникационные компании
  • Центры обработки данных
  • Продуктовые компании

Компоненты решения InfraOps

  • Аудит инфраструктуры
    1. Удалённый мониторинг текущей инфраструктуры с помощью Prometheus/Grafana
    2. Анализ данных мониторинга и поиск проблем/уязвимостей/багов
    3. Аудит существующей архитектуры, выявление бутылочных горлышек, построение плана улучшений
    4. Оценка существующей инфраструктуры и требований к системе безопасности, выявление уязвимых мест
    5. Оценка того, что необходимо сделать, чтобы ваши ИС адаптировались к новым требованиям, например, увеличению объемов данных или числа пользователей с точки зрения оптимизации работы или необходимости внедрения нового системного ПО
    6. Профессиональная оценка рисков и снижение вероятности их возникновения, построение модели угроз
  • Мониторинг и резервное копирование
    Выстраиваем централизованную систему превентивного мониторинга для контроля функционирования серверов конкретных АИС и процессов сетевого взаимодействия между АИС, систем безопасности функционирования серверов.

    Внедряем централизованный мониторинг событий информационной безопасности и проводим работы по настройке операционных систем.

    Система охватывает все приложения и стеки ПО, серверы, низкоуровневые метрики, бизнес метрики и имеет алерты. У нас лучшие эксперты по мониторингу IT-инфраструктуры с использованием инструментов Prometheus и Grafana
  • Описание инфраструктуры кодом IAC (infrastructure as a code)
    Настройку вычислительной инфраструктуры удобнее, быстрее и безопаснее выполнять декларативно, а не редактировать серверные конфигурации вручную.
    Для этого наши специалисты используют Ansible.
  • Отказоустойчивая СУБД
    В рамках нашего решения мы осуществим кластеризацию PostgreSQL с помощью Patroni, обеспечим переход со standalone MySQL на более производительную Percona XtraDB Cluster (PXC) для MySQL. Обеспечим отказоустойчивость Tarantool – СУБД разработки vk.cloud, а также Aerospike/Cassandra.
  • Система сбора логов (ELK stack)
    Если у вас множество разных информационных систем, которые генерируют огромное количество служебной информации, то встает резонный вопрос, где её хранить.

    Для решения этой задачи есть хранилище для логов на базе Elasticsearch, Logstash и Kibana или ELK Stack. Мы настраиваем отправку всех логов из всех систем в это хранилище, настраиваем и осуществляем мониторинг.
  • ИТ-инфраструктура в облаке
    Поможем осуществить миграцию серверных инфраструктур любого масштаба, как с физических окружений на облачные, так и обратно, с облачных – на физические.

    Кроме того, мы являемся официальными Managed Services партнёрами Vk. Cloud Solutions, Yandex Cloud и Корус Консалтинг CPM, также имеем собственные мощности для оказания IaaS в Public Cloud.
  • Консультации
    Мы консультируем заказчика и, при необходимости, подрядчиков, обслуживающих АИС, в части эксплуатации серверного БПО, ПО виртуализации, ПО СУБД и другого серверного ПО
Лицензии ФСТЭК России
При оказании услуг мы соблюдаем требования законодательства Российской Федерации в области защиты информации, установленные для АИС и организационно-распорядительными документами заказчика. Git in Sky имеет действующую лицензию на право осуществления видов деятельности по предмету закупки:
  • Лицензия ФСТЭК России на право осуществления деятельности по технической защите конфиденциальной информации в части услуг, предусмотренных подпунктом «в» пункта 4 Положения о лицензировании деятельности по технической защите конфиденциальной информации, утвержденного постановлением Правительства Российской Федерации от 03.02.2012 № 79 «О лицензировании деятельности по технической защите конфиденциальной информации», а именно: «услуги по мониторингу информационной безопасности средств и систем информатизации»
  • Лицензия ФСТЭК России на право осуществления деятельности по технической защите конфиденциальной информации в части услуг, предусмотренных подпунктом «е» пункта 4 Положения о лицензировании деятельности по технической защите конфиденциальной информации, утвержденного постановлением Правительства Российской Федерации от 03.02.2012 № 79 «О лицензировании деятельности по технической защите конфиденциальной информации», а именно: «услуги по установке, монтажу, наладке, испытаниям, ремонту средств защиты информации»

Эффекты от внедрения

  • Отказоустойчивость
    99.9% — недоступность сервера не более 5 минут в неделю
    99.99% — недоступность сервера не более 5 минут в месяц
    99.999% — недоступность сервера не более 5 минут в год
  • Производительность
    Мы сможем обеспечить до 30% роста производительности, оптимизируем мощности инфраструктуры

Кейсы

Клиент:
Крупная компания с собственным ЦОД, несколькими десятками блейд-серверов, и несколькими СХД. Количество виртуальных машин в кластере Vmware vSphere более тысячи. Количество пользователей информационных систем - более 4 000 человек.

Проблема:
Периодическое зависание отдельных гипервизоров, до состояния «не отвечает в физической консоли». Зависаниям были подвержены все гипервизоры, вне зависимости от размещенных на них виртуальных машин.

Разумеется, отказы 10-25% аппаратного парка в сутки для бизнеса было огромной проблемой, которую и было поручено решать нам.

Решение:
Была проведена диагностика всей аппаратной части инфраструктуры – без замечаний.

СХД аналогично – без замечаний.

Подняли версию гипервизоров до максимально возможной – безрезультатно.

Параллельно обвязали аппаратную часть инфраструктуры мониторингом, получили первую зацепку: зависание хоста вызывает 100% утилизация CPU на i/o wailt. Логично было предположить, что это поведение связано с системой хранения, но, несмотря на ошибки в журналах гипервизора о потере доступа к одной конкретной системе хранения данных, мониторинг самой СХД, как встроенный, так и внешний, говорили о ее полном здравии.

Сеть хранения была так же проверена – никаких отказов на ней не фиксировалось.

Второй зацепкой стало наблюдение: при обновлении версий гипервизоров мы брали даунтайм у клиентского подразделения информационной безопасности на их виртуальные машины, на которых размещался, в том числе, сканер уязвимостей, и пока виртуальные машины мигрировали на новый гипервизор, отказы гипервизоров временно прекратились.

Опрос сотрудников подразделения ИБ показал, что они занимаются сканированием только рабочих станций и виртуальных машин (но не аппаратного оборудования), и не используют потенциально опасные методы, типа брутфорса или попыток DoS-атак. Во что мы, конечно же, не поверили, и стали средствами vSphere собирать дамп трафика со сканера уязвимостей, направленный в сторону сетевого сегмента, где размещены интерфейсы физического оборудования.

Буквально за несколько часов наблюдений была поймана попытка подбора пароля на ISCSI-интерфейс той самой "проблемной" системы хранения данных, которая, спустя несколько неудачных попыток авторизации, включала режим противодействия брутфорс-атаке и блокировала попытки подключения к ней на несколько минут. Разумеется, в этот момент гипервизор, работавший с данными на СХД, терял к ней связь, получал ошибку ввода-вывода, а далее утилизация процессора стопорила аппаратный хост намертво.

Проблема была сдана заказчику, и в последствии решена блокировкой определенного вида трафика на межсетевом экране сервисного сегмента локальной сети.
Клиенты

Партнёры

Решение InfraOps - это не только услуги по переводу эксплуатационных задач (ТП и обработка инцидентов) на современные рельсы, но это и создание эффективной среды для построения этих процессов. Благодаря синергии: доступная облачная инфраструктура наших партнёров + наши технологии Вы получаете быстрый ROI в горизонте 6-12 месяцев.

Стек технологий

Системы мониторинга и слежения за событиями сети

Оставить заявку для модернизации ИТ-инфраструктуры для highload проектов
Наш специалист свяжется с вами для детального обсуждения задачи

Не пропустите последние новости. Подписывайтесь!