In English

В поисках сокровищ

23.05.2012, Рагимова Светлана
Издание: КоммерсантЪ
Объемы корпоративных данных растут не по дням, а по часам. Согласно прогнозу исследовательской компании Gartner, рост объемов корпоративной информации составит 650% с 2010 по 2014 год и 85% ее будет неструктурированной. Для обработки всех этих данных понадобятся специальные инструменты. И некоторые из них активно используются уже сейчас.

Космические величины


Каждый день, по подсчетам IBM, в мире создается 2,5 квинтиллиона байт. Причем 90% существующих сегодня данных было сгенерировано за последние два года. "Мы живем в эпоху неструктурированной информации, которая состоит из идей, является разносторонней и наполнена содержанием. Информация не является статичной: она пребывает в постоянной динамике и проникает во все сферы человеческой жизни,— говорит Александр Микоян, генеральный директор НР в России и СНГ. По его словам, уже сегодня неструктурированные данные составляют 85% информации. К примеру, это электронная почта, аудио- и видеоконтент, социальные сети, блоги, записи колл-центров, показания различных сенсоров и многое другое. По словам господина Микояна, к 2020 году объем неструктурированной информации достигнет 35 зетабайт (1 зетабайт = 1 триллион Гб). Причем всю эту информацию невозможно разместить в стандартных базах данных — фактически это полезные ископаемые современности, из которых при грамотном обращении можно извлечь несметные богатства.

Центр исследований в области экономики и бизнеса CEBR по заказу компании SAS подсчитал, что развитие технологий Big Data (больших данных) в ближайшие пять лет может дать экономике Великобритании £216 млрд и создать, прямо или косвенно, 58 тыс. рабочих мест. В R&D-проектах эта технология может помочь созданию новых товаров и услуг и даже новых рынков, что к 2017 году даст экономике страны £24,1 млрд. Прогресс в области выявления случаев мошенничества позволит сэкономить порядка £2 млрд средств государственного бюджета, а повышение эффективности управления производительностью создаст еще £3,6 млрд.

До недавних пор анализ больших объемов данных был либо слишком дорог, либо слишком сложен, занимал очень много времени. Но технологии не стоят на месте. Прорывом в этой области стала разработка Hadoop, которая используется практически во всех решениях, связанных с Big Data, предлагаемых различными вендорами. Это система обработки данных принципиально нового типа, которая их не хранит, а обрабатывает прямо в потоке. Hadoop может работать в "облаке" Amazon, что позволяет задействовать огромные мощности при сравнительно небольших затратах.


Глубинный анализ


Аналитики утверждают, что рано или поздно обработка "больших" данных потребуется во всех областях. Спрос на такие решения будет появляться вместе с ростом объемов накопленной информации.

По мнению экспертов CEBR, извлечение полезных сведений из больших архивов данных, во-первых, приводит к повышению эффективности работы компаний, во-вторых, помогает лучше понять поведение клиентов и, в-третьих, стимулирует появление инноваций. Такие эффекты могут проявиться у любого рода компаний и организаций, работающих с большими массивами информации. Причем совершенно не важно, накоплены ли эти данные у компании внутри или их получают извне.

Вячеслав Архаров, менеджер по развитию бизнеса платформы приложений Microsoft в России, приводит в пример компанию Klout, которая развивает сервис по выявлению лидеров мнений в социальных сетях. Для этого приходится обрабатывать сотни терабайтов информации каждый день и часто в режиме реального времени, а также анализировать все эти данные согласно запросу клиента. Названные задачи не являются сверхординарными, но сложность состоит в том, что их необходимо выполнять очень быстро. Klout использует платформу для хранения и управления информацией SQL Server 2012 и сервис Apache Hadoop.

В финансовом секторе такие решения помогают оценивать риски, выявлять тренды, делать прогнозы. В ритейле — быстро и качественно проводить анализ продаж и поведения заказчиков, в том числе изучая их профили и генерируемый контент в социальных сервисах (Twitter, Facebook, Flickr и т. д.). Фармацевтические компании могут использовать эти технологии для исследования генома человека. Впервые геном был декодирован в 2003 году, на что ушло десять лет. В настоящее время благодаря современным инструментам обработки больших данных эта процедура занимает неделю. Такие же решения могут применяться и в телемедицине: данные пациентов, например снимки, могут анализироваться на предмет выявления отклонений, и к врачу поступают уже проанализированные данные.

Господин Архаров предполагает, что уже сегодня технологии обращения с Big Data могут быть актуальны и для госсектора, например в области обеспечения национальной безопасности (распознавание лиц, поведенческий анализ и т. п.).

В США одним из наиболее перспективных сегментов для Big Data признают сегмент продажи и аренды недвижимости. Это сложный конкурентный рынок, на котором продается множество сопутствующих финансовых услуг и требуется анализ большого количества информации по клиентам.

Денис Первушин, директор департамента бизнес-приложений Oracle компании "АйТи", рассказывает, что сегодня чаще всего потребители подобных решений используют их для задач построения финансово-аналитических систем и маркетинговой аналитики. То есть для тех областей бизнеса, где количество обрабатываемых объектов может достигать десятков и сотен миллионов. Чаще всего этими объектами являются существующие и потенциальные клиенты—физические лица. Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга Oracle СНГ, также считает, что тема Big Data на Западе развивается благодаря повышению клиентоориентированности. "Клиентов, продуктов, транзакций не стало принципиально больше,— говорит господин Пивоваров.— Но компании стали внедрять новые технологии коммуникации с клиентами и собирать и анализировать ту информацию, которая раньше была вне поля зрения аналитиков. Первый пример — поведение клиентов на веб-сайте организации: какие страницы клиент открывает, как переходит, сколько времени задерживается, как заполняет форму и т. п. Второй пример — распознавание речи в процессе переговоров, проводимых по телефону продавцами или сервис-менеджерами, ее семантический разбор, выявление ключевых маркеров и их анализ. И в том, и в другом случае компании используют результаты анализа, в том числе в реальном времени, чтобы лучше продавать, повышать удовлетворенность клиентов, сохранять их лояльность. Интернет и "голос" — это источники гигантских объемов данных о клиентах, и их использование приносит существенную дополнительную прибыль".

К примеру, компания T-Mobile US уменьшила отток абонентов (churn) в прошлом году на 80% за счет ускорения обсчета сценариев маркетинговых программ. Анализ производился по базе данных с информацией о более чем 21 млн абонентов. Ранее эта процедура занимала неделю, а теперь маркетологи T-Mobile US справляются за один день благодаря использованию инструментария SAP HANA.

Одна из крупных мировых корпораций, используя продукты SAS, смогла сократить время на решение задач оптимизации маркетинговых кампаний для 25 млн клиентов и 1 тыс. различных предложений с пяти с половиной часов до менее чем шести минут. Стало возможным проводить моделирование различных сценариев — например, как изменение бюджета или других параметров (скажем, количества операторов в колл-центре) повлияет на доход компании, полученный от целевого маркетинга,— и принимать решения.


Предчувствие блэкаута


Но обработка больших данных используется не только в маркетинге. Американская розничная сеть RedBox, занимающаяся продажами DVD, оптимизировала и ускорила процесс управления складскими остатками, в результате в 2011 году она достигла экономического эффекта в размере $20 млн. Компания RedBull ускорила процесс сбора отчетности с филиалов, находящихся в 39 странах, и сократила время получения одного отчета с 50 минут до 2 минут. А в мексиканском подразделении Colgate использовали SAP HANA, чтобы управлять прибыльностью продаж и анализировать отчетность. Теперь их торговые представители вносят данные о результатах своей работы в реальном времени, что позволяет бизнесу в 100-300 раз быстрее реагировать на любые изменения.

Сергей Лихарев, руководитель направления решений по управлению информацией IBM в России и СНГ, приводит и другие примеры. Так, компания Cisco обрабатывает данные об энергопотреблении домов, поступающие в режиме реального времени, что позволяет снизить энергопотребление и автоматизировать эксплуатацию энергосетей. Она же использует поступающие данные, чтобы автоматизировать эксплуатацию здания и предвидеть нарушения, а также минимизировать стоимость владения зданием. Одна азиатская телеком-компания снижает стоимость среднего чека и повышает удовлетворенность клиентов с помощью анализа подробных записей о вызове (call detail record) в режиме реального времени. Система на основе IBM Infosphere Streams выявляет определенные типы событий, например прерванные звонки, с тем чтобы компания могла предупреждать недовольство клиентов и реагировать на возникающие технические проблемы проактивно.

Андрей Пивоваров рассказывает, что в финансовой сфере Big Data сейчас используется чаще всего в банках для противодействия мошенничествам. Чем больше есть информации для изучения, тем эффективнее удается снижать эти риски. Причем данные для анализа могут быть самого разного происхождения: банковские трансакции, логи веб-сайтов, документы, контент из социальных сетей и т. д. Технологии обработки больших данных позволяют уменьшить стоимость всей системы за счет более низких затрат на хранение и обработку неструктурированной информации. Крупнейший в Европе по размеру рыночной капитализации банк HSBC, внедрив систему SAS по противодействию кредитному мошенничеству, повысил эффективность этой службы в три раза, точность выявления мошенничества — в десять раз. При этом в первые же две недели эксплуатации семь специалистов службы безопасности HSBC выявили новые криминальные группы и схемы с общим потенциальным ущербом более $10 млн.

Банки также анализируют соцсети для отслеживания отношения клиентов к своей компании и даже к конкурентам. "В текстах, которые публикуют пользователи соцсетей, можно автоматически выделять характерные слова и знаки, говорящие о том, что человек относится позитивно или негативно к банку. Агрегируя статистику по тысячам сообщений, можно выявлять всплески негативного отношения во времени, и это дает возможность оперативно проанализировать, например, что случилось в какой-то момент, что вызвало всплеск недовольства клиентов",— рассказывает господин Пивоваров.


Большие планы


В России и СНГ решения для обращения с "большими" данными только начинают находить применение. Аппаратно-программный комплекс Oracle Exadata Database Machine используют банк "Санкт-Петербург" и украинский телекоммуникационный оператор "Киевстар". У компании HP публичных проектов такого рода в России пока нет. Несколько компаний работает с SAP HANA. Так, в "Сургутнефтегазе" система находится в продуктивной эксплуатации с ноября прошлого года. Первый сценарий, который освоила компания,— это оптимизация закупок для снабжения своих удаленных объектов по большому числу номенклатурных позиций. "Работая в традиционном аналитическом хранилище, они отставали с планированием на несколько дней, а с помощью SAP HANA получают все данные в реальном времени" — рассказывает Игорь Богачев, гендиректор SAP СНГ.

Валерий Панкратов, гендиректор SAS Россия/СНГ, утверждает, что в России уже есть первые компании, использующие технологии SAS, но названий пока не раскрывает: "В одном из топ-5 банков России для анализа поведения клиентов и управления кредитными рисками применяются специальные средства для анализа Big Data".

Сергей Мацоцкий, вице-президент IBS Group, считает, что сегодня в нашей стране решения Big Data востребованы в первую очередь в маркетинге и всех сферах, связанных с взаимоотношениями с клиентами в b2c. "Многие потребительские бренды с большими базами клиентов хотят использовать и уже используют анализ этих баз для того, чтобы готовить более сфокусированные и результативные маркетинговые предложения. Многое они могли делать и раньше, но идея Big Data, например, то, что теперь в анализ можно включить неструктурированную информацию о потребителях из социальных сетей и таким образом лучше учитывать их интересы и влиять на их потребительское поведение" — объясняет он.

Вторая перспективная область — все, что связано с анализом огромных объемов финансовых трансакционных данных. По словам господина Мацоцкого, здесь существует спрос со стороны государственных органов, потому что можно реализовать контроль финансовых трансакций в масштабах всей страны. Например, это используется в области финансового мониторинга, финансовой разведки, для анализа налоговой отчетности в налоговой службе.


Борьба за рынок


Спрос на решения в области Big Data будет неизбежно расти вместе с увеличением пропускной способности телекоммуникационных сетей и объемов накопленной бизнесом информации. В технологиях обработки больших данных видят потенциал для своего бизнеса все ведущие поставщики программных решений. Еще два года назад журнал The Economist сообщал, что четыре ключевых ИТ-вендора — Oracle, IBM, Microsoft и SAP — потратили более $15 млрд на фирмы, производящие ПО в области управления и анализа информации. Тогда сегмент Big Data в мире оценивался более чем в $100 млрд и рос как минимум на 10% в год, то есть вдвое быстрее, чем софтверный бизнес в целом.

В 2011 году НР приобрела компании Vertica и Autonomy, которые являются поставщиками аналитических платформ. "Объединение технологий компаний HP, Vertica и Autonomy позволит построить информационную платформу нового поколения,— объясняет господин Микоян.— Эта платформа станет основой для развертывания решений, которые обрабатывают, анализируют, оптимизируют и обеспечивают защиту структурированной и неструктурированной информации".

Тестирование предварительной версии сервиса Isotope, поддерживающего приложения Hadoop на платформах Windows Server и Windows Azure, ведет корпорация Microsoft. В конце 2011 года она представила специальные коннекторы, которые обеспечивают работу Hadoop с базой данной Microsoft SQL Server и хранилищем данных Parallel Datawarehouse. Эти решения позволяют компаниям одинаково успешно работать как с привычными структурированными данными, которые хранятся в базе данных или хранилище данных, так и с неструктурированной информацией. Причем анализ можно проводить с помощью таких привычных инструментов бизнес-аналитики, как Excel и Power Pivot.

Сергей Лихарев рассказывает о преимуществах решений IBM в этой области. По его словам, они заключаются в первую очередь в полноте портфеля по работе с большими данными. "Он самый большой в отрасли и позволяет работать и со структурированными, и с неструктурированными данными. Так, он обеспечивает массивную обработку параллельных данных из Hadoop, обработку потоковых данных (IBM Stream Computing), включая обработку аудио- и видеоинформации в потоковом режиме, хранилища данных и интеграцию и управление данными. Во-вторых, преимущества решений IBM — в уровне разработки",— говорит господин Лихарев. Именно заложенные инструменты по работе с большими объемами данных позволили IBM Watson обыграть двух чемпионов игры Jeopardy (российский аналог — "Своя игра"). Инструменты текстовой аналитики, используемые в Watson, позволяют различать значения слов и даже каламбуры. Не мудрено, что такие решения имеют огромный потенциал применения в SMM (social media marketing).

Сергей Мацоцкий не берется рекомендовать конкретные решения в этой области. По его словам, сейчас практически каждый поставщик программных и аппаратных платформ предлагает свой набор решений для аналитики больших данных. "Нужно рассматривать конкретную задачу и изучать имеющийся опыт внедрений,— говорит господин Мацоцкий.— Опыт пока не очень велик: он есть у отдельных заказчиков и у некоторых интеграторов. Вопрос выбора существует, но это понятный, решаемый вопрос".

Вопрос более сложный, на который заказчику придется ответить, приступая к внедрению решений по обработке Big Data,— что и как он собирается анализировать. Какую бы платформу он ни избрал, необходимо будет создать модель извлечения и загрузки информации из информационных источников и создать команду, которая сможет заниматься решением задач бизнес-анализа. Неизбежно встанет вопрос, какие информационные источники имеются в компании и как навести порядок в этих источниках. "Переход к аналитике больших данных во многом будет связан с появлением людей, специализацией которых будет как раз поиск и формулировка задач для анализа с помощью "больших" данных, поиск и подключение новых источников данных для анализа и решение бизнес-задач с привлечением аналитических инструментов. Откуда эти люди возьмутся, кто их обучит, с какими данными им придется работать — гораздо более сложный вопрос, который придется решать",— заключает господин Мацоцкий.

С технологической точки зрения при внедрении решений Big Data надо иметь в виду два важных момента. Во-первых, задача централизации и быстрой обработки данных — желательно в режиме онлайн. И здесь, безусловно, найдут применение "облачные" подходы, прежде всего благодаря централизации и возможности гибко перераспределять вычислительные ресурсы. Во-вторых, непростой технологической задачей является организация доступа и подключения к внешним источникам данных, в том числе к медиа, социальным сетям и т. д. Тут придется решать вопросы интеграции данных, правильной организации интерфейсов и т. д.

Господин Первушин рассказывает, что, как показывает мировая практика, хорошие результаты достигаются при использовании комплексов, позволяющих одновременно оптимизировать операции ввода-вывода и существенно ускорять выполнение аналитических вычислений. В качестве примера подобных комплексов можно назвать Exa-решения от Oracle: Exadata Database Machine, позволяющая хранить и обрабатывать сотни терабайт информации и выполнять десятки тысяч операций ввода-вывода в секунду, и Exalytics Business Intelligence Machine, предоставляющая возможность выполнять аналитические вычисления над большими объемами данных в оперативной памяти.