Большие данные – дорого
и сложно?

Большие данные – дорого и сложно
Еще относительно недавно по отношению к работе с большими данными ходило больше слухов, чем реальных историй. На создание технологий и моделей для работы с BigData приложено много усилий, и сейчас можно говорить о том, что существует множество прикладных и реально используемых решений как коммерческих, так и Open Source.

Ранее при работе с данными возникала проблема ограничения емкости и производительности системы. Таким образом, либо приходилось жертвовать архивными данными и удалять их, либо организовывать долгосрочное и бюджетное хранилище, из которого получать данные очень долго.

Системы управления большими данными организованы принципиально иным способом. Их основное отличие — это масштабируемость и децентрализация, которые в конечном итоге приводят к повышенной отказоустойчивости системы. Иными словами, если не хватает мощностей системы — достаточно просто добавить дополнительные узлы не меняя архитектуру системы.

Как ни странно, первыми пробиваться в коммерческое использование на российском рынке стали коробочные решения и готовые продукты, например SAP, MS Azure, Oracle или IBM TDW, которые, ко всему прочему, стоят достаточно дорого.
Дорога в Open Source
Однако, с развитием технологий и популярных веб-сервисов на арену выходят продукты open source, которыми не брезгуют в том числе и именитые корпорации, которые легко могут себе позволить любое коробочное решение с кастомизированной сборкой. Так Twitter, Reddit и многие другие популярные веб-сервисы работают на БД Cassandra.

На базе фреймворка Hadoop можно разработать самые различные варианты «складского» хранения и доступа к данным большого объема. Типичные примеры использования — любые срезы данных большого объема, такие как данные видеокамер в системах видеонаблюдения, снимки телескопов и данные астрономических наблюдений, показания электронных микроскопов и томографов высокого разрешения, организация и хранение документации, а также многие другие решения, необходимые научно-исследовательским предприятиям и крупным компаниям.

Для набирающей популярность сферы интернета вещей (IoT) без решений для работы с большими данными вообще никак не прожить.

Сервисы, отслеживающие пробки и дорожный трафик в реальном времени, логистика и отслеживание грузов, интерактивные карты, собирающие и обрабатывающие данные от пользователей. Анализ больших данных можно использовать для исследований в департаментах R&D на производстве, например моделирование процессов по реальным данным, которые собираются от датчиков, и далее — оптимизация производственных процессов.

Пока что для многих предприятий и отраслей выражение «большие данные» внушает некоторый страх и трепет, а также несет за собой предубеждение, что использование таких систем очень дорого и ненадежно. На самом же деле, если объем данных в оперативном доступе доходит до 1 терабайта — уже стоит подумать о подобных системах, т. к. они обеспечивают на порядок более высокую производительность и отказоустойчивость системы при работе с растущими массивами данных. Использование систем с открытым исходным кодом и стандартных платформ позволит реализовать хранение и оперативный доступ к информации с минимальным бюджетом.

За последние 15-20 лет информационной эры на многих предприятиях накоплен солидный объем данных о клиентах, их заказах, о поставщиках, о работниках, а также иной информации, которая просто копится без особого смысла. Между тем, эти данные можно извлечь из архива и проанализировать. Мы можем построить такую систему, которая позволит анализировать данные в историческом аспекте. Это может иметь под собой дополнительные выгоды — например возможность делать привлекательные предложения для клиентов или повышать эффективность бизнес-процессов в целом. В дальнейшем, все те данные, которые вы привыкли отправлять в архив, можно будет иметь в оперативном доступе для анализа и обработки.


Не пропустите последние новости. Подписывайтесь!