In English

Фундамент корпоративного самоанализа

02.04.2001, Автономова Юлия
Издание: КоммерсантЪ iOne
Руководству компаний, чтобы быстро и точно оценивать ситуацию, принимать верные решения и прогнозировать развитие бизнеса, нужны всего несколько ключевых цифр. Предоставлять их должны системы хранилищ данных.

Современные предприятия, автоматизируя свои бизнес-процессы с помощью систем класса ERP, CRM, SCM и прочих, добиваются значительного повышения эффективности работы. В этих системах накапливаются огромные массивы информации. Очевидно, что это богатейшее сырье, анализ которого позволяет выявить закономерности и тенденции, строить прогнозы, чтобы на их основании принимать наилучшие стратегические решения . Но чаще всего оказывается, что в каждой из учетно-управленческих систем данные используются локально. Даже самые совершенные средства формирования отчетов не позволяют увидеть целостную картину деятельности предприятия — одновременно как бы “ с высоты птичьего полета” и в ретроспективе. Тому есть вполне объективные причины, прямо вытекающие из характера систем автоматизации бизнес-процессов (часто их называют системами оперативной обработки транзакций или OLTP-системами).

Прежде всего структура данных, с которыми они работают, оптимизирована в соответствии с логикой выполняемых транзакций. Основная функция подобных систем заключается в одновременном выполнении большого количества коротких и относительно простых транзакций. Большинство запросов к базам данных состоят из команд вставки, обновления, удаления. Запросы на выборку в основном обеспечивают возможность работы с различными справочниками, поэтому они определяются заранее, еще на этапе проектирования системы. Таким образом, критическими для OLTP-приложений являются скорость и надежность выполнения коротких операций обновления данных.

Попытка организовать извлечение данных для анализа непосредственно из рабочей базы часто приводит к конфликтам доступа и задержкам в обслуживании. Кроме того, для удобства анализа часто требуется иное представление данных. Наконец, если в организации для автоматизации бизнес-процессов используется несколько различных систем, возникает проблема увязки данных и приведения их к единому формату.

“ВОСКРЕСИТЕЛЬ” ДАННЫХ

Осознание необходимости “воскресить” данные, похороненные в недрах баз ERP и CRM, чтобы провести на их основе полноценный и эффективный анализ, привело к появлению концепции хранилищ данных (Data Warehousing). Лежащие в ее основе принципы впервые были сформулированы в 1992 году Биллом Инмоном (Bill Inmon) в книге “Building the Data Warehouse”. Согласно определению Инмона, всем хранилищам данных, независимо от особенностей реализации, присущи следующие черты:
  • Предметная ориентированность. Данные структурированы в соответствии с основными аспектами деятельности предприятия (заказчики, продукты, продажи), а не процессами (прием заявок, оформление счетов, отгрузка товара), как в оперативных базах данных. Такая организация данных позволяет значительно упростить и ускорить их анализ.
  • Интегрированность. В хранилище содержатся данные из многих источников. При этом они взаимно согласованы, приведены к единому виду и, где это допустимо, обобщены.
  • Хронологичность. Данные в хранилище привязаны к времени. Они накапливаются в виде “исторических слоев”, что позволяет анализировать тенденции.
  • Неизменность. В отличие от оперативных БД, которые постоянно модифицируются в процессе деятельности предприятия, хранилища данных пополняются лишь периодически. Попав в хранилище, данные хранятся в виде моментального “снимка”.
Дополнительные требования к системам типа Data Warehouse включают полноту и достоверность хранимых данных, высокую скорость доступа к ним, а также возможность формирования и сравнения так называемых срезов данных (slice and dice), которая реализуется в аналитических компонентах (OLAP).

АРХИТЕКТУРА ХРАНИЛИЩА ДАННЫХ

Традиционная архитектура хранилищ данных содержит несколько основных логических или функциональных слоев. Источниками данных служат оперативные (связанные с корпоративными учетными системами), внешние БД и Интернет. Уровень доступа к данным обеспечивает их извлечение из источников независимо от их специфики (платформа, СУБД, структура, формат и т. д.). Средства переноса и преобразования решают задачи по первичному отбору данных и отбраковке некорректных, обеспечению непротиворечивости данных из разных источников, объединению и приведению к общему формату, обобщению и агрегированию. Справочный каталог (репозитарий) содержит метаданные (metadata) — информацию о том, где и как хранятся исходные данные, как они должны быть представлены в хранилище и для пользователя. Использование такого справочника обеспечивает универсальность и “прозрачность” хранилища. Уровень хранения данных, как правило, представлен реляционной СУБД общего назначения, либо специализированной многомерной базой. В некоторых реализациях этот уровень является виртуальным и служит лишь для представления единой модели данных предприятия, физического же хранения копий данных не предусмотрено. Уровень доступа к информации — это связующее звено между хранилищем данных и средствами их анализа. Он предоставляет собой стандартный интерфейс, с помощью которого различные программные пакеты (Excel, Access, SAS и др.) обращаются к хранилищу, чтобы подготовить и получить необходимые для анализа данные. Средства администрирования и управления обеспечивают автоматизацию проектирования хранилища и его обслуживания.

Через два-три года компоненты хранилищ данных будут способны взаимодействовать с источниками информации в режиме real time, причем, благодаря широкому использованию языка XML, не только с традиционными, но и слабоструктурированными данными — текстом, графикой, аудио, видео. В результате к 2006-2007 годам появятся компоненты и архитектурные решения Data Warehouse принципиально нового типа.

Эксперт номера


Тагир Яппаров, президент компании АйТи

На мой взгляд, нынешний взрывной рост интереса к решениям в области хранения данных обусловлен тремя факторами. Объем ежегодно накапливаемой предприятиями информации растет в геометрической прогрессии – ее надо где-то хранить. Повышается роль информации в оперативном бизнесе: ее потеря может привести к заметным убыткам, а для предприятий некоторых отраслей - к краху. Предприятиям требуется более высокое качество управления не только на оперативном, но и на стратегическом уровне. Для этого необходим анализ больших объемов информации, в том числе архивной. Создание корпоративного хранилища данных представляет собой не только технологическую задачу. Оно тесно связано с задачами информационного обеспечения стратегического управления предприятием: управлением корпоративными знаниями, аналитикой, технологиями поддержки принятия управленческих решений, электронными архивами. Долгое время поставщики ИТ-решений убеждали клиентов, что информация - такой же актив компании, как материальные и финансовые активы. Но подавляющее большинство отечественных предприятий относится к этому активу по принципу “и выбросить жалко, и как использовать, непонятно”. На мой взгляд, в России задача создания корпоративных хранилищ данных только начинает ставиться. Недавно в рамках крупного проекта мы попросили заказчика предоставить нам данные по используемым на предприятии компьютерам и серверам. Оказалось, что во многих отделах данные хранились только на рабочих станциях сотрудников. Получается, что накопленная за годы информация доступна лишь ее владельцу. С другой стороны, на одном семинаре мы попросили ИТ-руководителей 20 региональных предприятий проранжировать актуальность стоящих перед ними ИТ-задач. На первое место они поставили “Системы хранения, обработки и анализа информации”. Так что в нашей стране у рынка корпоративных хранилищ информации большое будущее.

НА ВЫХОДЕ ИЗ ХРАНИЛИЩА

Задача любого хранилища данных — повысить качество и скорость принятия решений, превращая информацию в понимание законов бизнеса. Разумеется, для этого над хранилищем нужно надстроить аналитическую “крышу”: систему поддержки принятия решений (Decision Support System / DSS) и управленческую информационную систему (Executive Information System / EIS). DSS-системы обеспечивают руководство информацией для принятия управленческих решений и служат мощным инструментом повышения эффективности работы сотрудников на всех уровнях. С помощью EIS-систем можно получить общее представление о том, как идет бизнес компании. Но сами по себе эти системы ничего не значат, если не организовать их подпитку нужными, а главное, достоверными данными из разных источников. Более того, DSS могут быть даже вредными, если они оперируют с некачественными данными. Поэтому главная задача — грамотно спроектировать и построить хранилище данных, а также обеспечить “чистоту” информационной подпитки. Тогда система становится мощным инструментом для выявления тенденций и прогнозирования развития бизнеса, подготовки к выпуску востребованных рынком продуктов и определения оптимальных сроков их продвижения. Наиболее часто хранилища данных используются для анализа продаж и эффективности маркетинговых акций (во всех отраслях), в производстве — для оптимизации запасов и производственного цикла, в розничной торговле — для управления ассортиментом, выбора поставщиков, на транспорте — для определения наиболее выгодных маршрутов и анализа рисков для водителей, в банковском деле — для анализа рентабельности и оценки рисков, в страховании — для анализа страховых случаев и выявления попыток мошенничества.

Недавно розничная сеть хозяйственных магазинов Home Depot (ежегодный оборот — $56 млрд) приступила к созданию хранилища данных. Оно будет использоваться руководством компании, менеджерами и рядовыми сотрудниками для анализа всех аспектов деятельности — от продаж до политики оплаты труда. По мнению CIO компании Боба Деродеса (Bob DeRodes), Home Depot отстает по внедрению современных технологий от других крупных компаний. Так, торговля через интернет-сайт была организована только в конце 2001 года, после долгих раздумий и колебаний. Но технология хранилищ данных, по мнению руководства, уже достигла той степени зрелости, чтобы компания могла решиться на ее внедрение. Расчетный объем хранилища — 10 Тб, но даже руководители проекта пока не могут сказать, до каких размеров оно вырастет. Запуск хранилища в эксплуатацию намечен на ноябрь. Первая задача, которую оно поможет решить,— оптимизация использования трудовых ресурсов. В начале 2003 года планируется осуществить первую загрузку данных о продажах по более чем 1,5 тыс. магазинов сети. После этого система обеспечит возможность прогнозирования продаж, оптимизации цен, ассортимента и закупок, планирования запасов, использования торговых и складских площадей. Хранилище также станет источником информации для новой управленческой системы, которая позволит руководству постоянно оценивать показатели работы компании.

СТРАТЕГИЯ ПОСТРОЕНИЯ ХРАНИЛИЩ ДАННЫХ

Для обслуживания одного подразделения или аспекта деятельности предприятия можно построить “киоски данных” (data marts), предназначенные для руководителей среднего звена. Киоски получают данные из корпоративного хранилища или непосредственно из оперативных источников. В первом случае построение системы ведется сверху вниз — сначала проектируется и наполняется данными корпоративное хранилище. Это длительный и дорогостоящий процесс. Создание же ряда независимых киосков с последующей консолидацией данных в корпоративном хранилище позволяет внедрять технологию поэтапно, учитывая полученный опыт, и ограниченными силами.

Хранилища данных могут быть централизованными, распределенными и виртуальными. В первом случае для физического хранения используется одна большая база данных. Это самый простой подход. Распределенные храни лища получаются, например, в результате объединения независимых киосков без физического копирования данных в одну БД. Обычно при этом возникает высокая избыточность: с одной стороны, это повышает надежность, с другой — усложняет процедуры пополнения данными. В виртуальных хранилищах вместо СУБД используются программные модули, напрямую связывающие уровень доступа к информации с уровнем преобразования данных, которые физически нигде не накапливаются, а каждый раз извлекаются из источников. На первый взгляд такая схема противоречит концепции использования хранилища для изоляции функций анализа от работы оперативных систем. Тем не менее она часто используется на начальных этапах создания хранилищ, поскольку обеспечивает большую гибкость и позволяет отложить покупку “железа” и СУБД на более поздний срок, когда требования к ним будут уточнены, а перспективы проекта станут яснее.

АНАЛИЗ — НА КАЖДОМ РАБОЧЕМ МЕСТЕ

Ежегодные темпы роста мирового рынка решений для хранилищ данных в ближайшие несколько лет аналитики оценивают на уровне 43 % . Так, в 2003 году объем этого рынка должен достичь $148 млрд, половина этой суммы ($72,7 млрд) придется надолго США, где темпы роста будут несколько ниже средних — 41% в год. Наиболее острая потребность в хранилищах данных ожидается в Японии — годовой рост 50%. В Европе специалисты предсказывают ежегодный прирост рынка на 38%.

По мере реализации проектов по внедрению хранилищ данных объем содержащейся в них информации и число обслуживаемых пользователей стремительно растут. В последние годы объем реально используемых для анализа данных ежегодно увеличивается на 290% . В этом году, по расчетам экспертов, средний объем хранилищ данных должен достичь отметки в 1,2 Тб. Среднее число пользователей одного хранилища оценивается в 2 718 человек, причем одновременно обслужива-ются609,чтона430% больше, чем в прошлом году. Круг сотрудников, получающих возможность анализировать информацию, быстро расширяется. Помимо руководителей высшего звена и аналитиков в процесс вовлекаются и рядовые менеджеры. Специалисты приводят такое сравнение: если раньше 10% сотрудников тратили на анализ 90% своего рабочего времени, то теперь 90% сотрудников получили возможность заниматься анализом, тратя на это 10% времени.

Необходимо отметить, что множество компаний, которые приступили к созданию хранилищ данных на ранних стадиях развития этой технологии или не смогли сделать это достаточно грамотно, постигло разочарование. Так, 33% участников опроса, проведенного Survey.com, признали , что их надежды не оправдались, проект не был закончен или провалился, и только 7% заявили, что результат превзошел все ожидания. Статистика не очень оптимистична, но все больше компаний осознают необходимость создания хранилищ данных. Реальную отдачу от сделанных ранее инвестиций постепенно начинают видеть и первопроходцы-пессимисты. В этом году средний уровень расходов крупных компаний науслуги и продукты, связанные с хранилищами данных, составит около $7 млн. При этом в компаниях среднего масштаба с оборотом $100 млн и менее соответствующие расходы увеличатся в среднем на 333% .

СКЛОННОСТЬ К АНАЛИЗУ СВОЙСТВЕННА МОЛОДЫМ

Началом истории российского рынка хранилищ данных и средств оперативного анализа принято считать 1996 год, когда в России появилось сразу несколько крупных поставщиков продуктов этого класса. Сейчас не только зарубежные, но и собственные разработки предлагают (по крайней мере, заявляют об этом) несколько десятков компаний. Число проектов по организации хранилищ данных в крупных российских компаниях и госструктурах, по имеющимся оценкам, составляет порядка сотни. В апреле 2000 года введено в эксплуатацию хранилище данных на пивоваренной компании “Балтика”. Компания получила возможность проводить анализ плановых и фактических издержек, прибыли и убытков во взаимосвязи с разными факторами (объем производства, продаж, цены на основные ресурсы), складских запасов, ежедневных продаж продукции, кредиторских задолженностей и других параметров. С июля 2000 года информация о всех совершенных авиакомпанией “Пулково” и обслуженных в ее аэропорту рейсах ежедневно поступает в единое хранилище данных. Довольно активно внедряют хранилища данных крупные банки (Альфа-банк, Росбанк, “ Диалог-Оптим” и другие). Крупнейшее в Европе хранилище данных построило МПС, а для министра и его замов создана ситуационная комната, в которой они могут моделировать и прогнозировать ситуацию в отрасли. В рамках проекта по созданию республиканской информационно-аналитической системы (РИАС) в Чувашии планируется организовать хранилище данных, которое позволит формировать агрегированные отчеты, отслеживать ключевые индикаторы, определять узкие места, выявлять взаимосвязи массивов данных. Общая стоимость проекта РИАС — $2,5 млн, но экономия бюджетных средств, по прогнозам администрации президента Чувашии, уже в 2003 году достигнет $1,725 млн. Интегрированная система межкорпоративного хранилища данных реализована в строительном комплексе Москвы.

Более широкому внедрению решений класса Data Warehouse и OLAP, помимо прочего, мешает устоявшийся стереотип, что сначала необходимо автоматизировать все бизнес-процессы, а уже потом думать об интеграции данных. К тому же у руководства “ старой закалки ”, как правило, отсутствует понимание необходимости комплексного анализа деятельности предприятия (возможность которого и обеспечивают хранилища данных). Менеджеры нового поколения относятся к подобным проектам с гораздо большим энтузиазмом.

Центральный федеральный округ