In English

Три кита Big Data

21.08.2012, Комов Алексей
Издание: IT News

Новые технологии для работы с «большими данными» появились в связи с возникновением конкретных проблем с обработкой информации, решение которых существующими методами трудно реализуемо или неэффективно. По оценке компании NetApp, проблематика Big Data включает в себя три обширные области: аналитику, пропускную способность и контент.

Компании, работающие на массовом рынке и обслуживающие большое количество клиентов, сталкиваются с необходимостью их удержания. Для решения этой задачи, по словам Дениса Первушина («АйТи»), необходимо максимально быстро осуществлять детальный анализ клиентских предпочтений исходя из накопленных данных об истории взаимоотношений с тем или иным заказчиком. На основе полученной информации можно сформулировать соответствующие предложения, способные повысить лояльность клиентов. Но, по словам Вячеслава Ковалева, начальника отдела ЦОД компании «Открытые Технологии», мало быстро собрать, обработать и проанализировать данные – не менее важно представить полученные результаты именно в том виде, в каком они будут востребованы менеджерами, принимающими на их основании решения. «Ценность систем, основанных на технологиях Big Data, состоит в качестве и скорости предоставляемой аналитики»,– резюмирует Сергей Лихарев (IBM).

По словам Лоуренса Джеймса (NetApp), для того чтобы все это стало возможным, существующие в большинстве компаний ИС должны быть приведены в соответствие новым нормам обработки данных, а именно обрабатывать потоки данных при помощи множества вычислительных узлов в параллельном режиме.

Параллельная реальность

Именно такой подход лежит в основе новой архитектуры MPP (Massively Parallel Processing –«массово-параллельная обработка»). Он кардинально отличается от традиционных способов работы с данными средствами СУБД, в основе которых лежит архитектура SMP (Symmetric Multi-Processing – «симметричная мультипроцессорная обработка»).

По словам Андрея Пивоварова, руководителя группы перспективных технологий предпроектного консалтинга компании Oracle в СНГ, традиционные технологии обработки данных почти всегда устроены примерно так: есть СХД и сервер, где происходит их обработка, связанные сетевым интерфейсом. Чтобы произвести какую либо манипуляцию над данными, необходимо перекачать их по сети на сервер и там обработать. В случае с большими объемами данных могут возникнуть сразу две проблемы: во-первых, их передача на сервер способна растянуться на долгий срок в силу ограничений пропускной способности сети, а во вторых – на сервере может оказаться недостаточно процессорной емкости для обработки таких объемов информации в разумное время.

Новые технологии класса Big Data позволяют распределять данные по множеству серверов таким образом, чтобы их обработка осуществлялась там же, где они хранятся. По оценке Андрея Пивоварова, это снижает нагрузку на сеть, при этом такая архитектура может масштабироваться практически неограниченно, так как для увеличения ее производительности достаточно просто добавить еще один или несколько вычислительных узлов к кластеру.

Торжество порядка

Высокая пропускная способность систем, через которые проходит поток данных, также является обязательным требованием при построении решений Big Data. Но самой большой проблемой в данной области остается контент, а точнее, его хранение и обработка.

По оценке Александра Котенко («Инфосистемы Джет»), справиться с хранением «больших данных» нынешним технологиям вполне по силам, однако этого недостаточно. С ростом объемов данных возникает ряд новых проблем, которые переводят задачу обработки информации на качественно новый уровень. В частности, появляется необходимость оценивать полезность информации: чтобы эффективно справляться с большими объемами данных, нужно уметь их классифицировать и выделять из общей массы действительно важную для бизнеса информацию. Кроме того, по мере увеличения объема данных возрастает сложность методов их обработки, а также обеспечения целостности и сохранности. Эти задачи осложняются и тем, что, по статистике, 80% данных, важных для бизнеса, неструктурированны. «Традиционные решения и технологии уже не способны удовлетворить потребности заказчика по скорости обработки информации и совокупной стоимости владения»,– констатирует Александр Котенко.

Фундамент «больших данных»

По словам Дмитрия Хорошева, менеджера компании Cisco по развитию бизнеса в области ЦОД, все системы для создания решений класса Big Data, предлагаемые на рынке, можно условно разделить на две среды: инфраструктурную и программную, при этом успех проекта в равной степени зависит от проработанности обеих сред.

Компания Cisco фокусируется на решениях для инфраструктурной среды Big Data: к ним относятся высокопроизводительные коммутаторы с неблокируемой архитектурой и широкая линейка серверов, особенность которых заключается в том, что весь кластер настраивается и управляется как единая система при помощи единого интерфейса. «В применении к задачам Big Data это дает существенное уменьшение сроков ввода системы в эксплуатацию и снижает операционные расходы на поддержку ее функционирования»,– подчеркивает Дмитрий Хорошев.

В качестве примера основы для построения программной среды Дмитрий Лисогор, заместитель генерального директора и руководитель департамента по бизнес-аналитике и технологиям компании SAP в СНГ, приводит систему SAP HANA. Этот инструмент позволяет организациям любого размера анализировать состояние бизнеса, обрабатывая огромные объемы информации практически из любого источника в режиме реального времени. Другим примером может служить реляционная СУБД EMC GreenplumDB, предназначенная для организации хранения и аналитики данных. По словам старшего технического консультанта компании ЕМС в России и СНГ Ильи Гершанова, она обеспечивает высокую скорость загрузки данных и выполнения запросов, которую можно линейно масштабировать путем добавления новых узлов в кластер СУБД.

Объективные сложности

Казалось бы, IT-рынок предлагает достаточно решений, чтобы бизнес не испытывал трудностей с «приручением» Big Data. Однако заказчики с опасением относятся ко всему новому – для его осмысления необходимо время.

«Дать клиенту четкое и обоснованное представление о преимуществах внедрения Big Data – самая большая сложность российского рынка», – убежден Максим Исаев, менеджер по развитию бизнеса ДСР отдела программно-аппаратных комплексов компании IBS. По его словам, вендоры создают решения, которые достаточно легко интегрируются в существующую инфраструктуру, но работа с заказчиком зачастую сопровождается серьезными изменениями его бизнес-процессов из-за необходимости ломать устоявшиеся подходы к работе, в том числе и в IT-подразделениях. В частности, решения Big Data требуют тесного взаимодействия бизнес-подразделений и корпоративных IT-специалистов, поскольку силами IT-команды без поддержки бизнеса внедрить их попросту невозможно. По оценке Максима Исаева, далеко не во всех российских компаниях это взаимодействие выстроено корректно.

Центральный федеральный округ