In English

Выделяя из текста смысл

23.10.2009, Романов Дмитрий
Издание: Intelligent Enterpise

Выделяя из текста смысл
При упоминании термина «аналитические системы» у большинства читателей возникают ассоциации с продуктами для статистической обработки и подготовки отчетности, формирования хранилищ данных, технологиями анализа многомерных кубов, средствами для мониторинга ключевых показателей эффективности — словом, всеми теми технологиями, которые имеют обобщающее название Business Intelligence (BI). Однако существует не менее обширный класс приложений, позволяющих анализировать информацию, содержащуюся в неструктурированных документах и представленную в виде текста.


Текстовая специфика

Зачем же нужны подобные информационные системы в современной организации? Какие задачи можно решать с их помощью? Чтобы ответить на этот вопрос, выясним сначала, чем же отличаются друг от друга числовая и текстовая информация.

Основное отличие: текстовая информация менее формализована по сравнению с числовой. И дело даже не в том, что текст может быть представлен на разных языках и в разных кодировках. Проблема глубже — текст, как правило, значительно сложнее разделить на части и «разложить по полочкам» без потери смысла. Формализованная, структурированная, главным образом числовая информация легко представима в виде записей одинаковой структуры, хранимых в базах данных, и ценность такой информации от этого не меняется. Напротив, текстовая информация, документы, контент имеют ценность, только если рассматриваются как целое.

В современных организациях используется большое количество разнообразных приложений, которые порождают и хранят текстовую информацию, — текстовые редакторы, электронная почта, системы электронного документооборота, электронные архивы, корпоративные порталы и т.п. Средства текстовой аналитики наследуют эту особенность и также отличаются гораздо большим разнообразием по сравнению с технологиями для аналитической работы с «числами». Остановимся кратко на некоторых технологиях, применяемых в решениях для анализа текстовой информации.

Одна из наиболее понятных и наглядных технологий(*) — полнотекстовый поиск. Нужно отметить, что современные технологии полнотекстового поиска, применяемые в решениях для текстовой аналитики, существенно отличаются от того, к чему привыкли пользователи поисковых серверов в Интернете. Для анализа текстовой информации нужна модель конкретной предметной области, а часто — и настройка на специфику деятельности конкретной организации. Обычно такая модель представляется в виде семантической сети — взаимосвязанной совокупности терминов и понятий. Простейший вид связей в сети — объединение синонимов, описывающих одно и то же понятие. Более сложные системы текстовой аналитики поддерживают связи типа «часть — целое», «род — вид», «причина — следствие» и т.п.

Другой аспект технологий текстовой аналитики — работа с таксономиями, то есть многоуровневыми иерархическими классификаторами. Каждый элемент таксономии может быть связан с определенной группой терминов семантической сети. Это дает возможность при работе с неструктурированной информацией отойти от простейших «ключевых слов» и приблизиться к «пониманию» смысла документов.

Выделяются два основных подхода к созданию семантических сетей и таксономий. Ручное: моделирование предметной области осуществляется специалистами и экспертами — точно, качественно, но довольно долго и трудоемко. Автоматическое (или полуавтоматическое): семантические сети и таксономии строятся путем анализа частотных характеристик совместной встречаемости терминов в текстах документов. Получается быстро, но не всегда точно, поэтому полученные результаты могут дополнительно корректироваться экс­пертами.

Следующий этап аналитической обработки текста — выделение из текста фактов и объектов (даты, география, названия компаний, ФИО, торговые марки, типовые события и т.п.). Встречаются и более сложные виды анализа. Например, возможно определение так называемой «эмоциональной окраски» информации, которая характеризует отношение автора или комментатора к описываемому событию, процессу, объекту и т.п.

Индексирование документов с применением семантических сетей, таксономий, выделение фактографической информации позволяют решать задачи автоматической классификации. Эти процедуры не меняют содержимого документов — фактически речь идет об отнесении документов к тем или иным категориям. Часто требуется автоматически составить краткое изложение сути большого документа или целого множества документов. На помощь приходят технологии аннотирования или автореферирования. К этой задаче примыкают технологии автоматической генерации связанного текста на естественном языке на основании формализованной информации.

Важная часть технологий текстовой аналитики — визуализация массивов найденной неструктурированной информации. Классический пример неудобной формы представления — плоские списки документов, которые выдают многие поисковые серверы. Несмотря на сложные технологии определения релевантности, часто добраться до нужной информации в таком плоском списке весьма и весьма непросто. Чтобы упростить доступ к неструктурированной информации и сделать его более наглядным, в приложениях текстовой аналитики используются, например, представление массива категорий в виде облака тэгов, многомерные таблицы, отображение массива документов в виде сети, представление в виде сети найденных в документах информационных объектов.

Наконец, создавая корпоративные приложения для текстовой аналитики, приходится решать много дополнительных прикладных задач: обеспечивать индексирование любых источников неструктурированной информации независимо от их местонахождения, форматов и языков хранимых электронных документов, учитывать права доступа пользователей к данным источникам при выдаче результатов аналитической обработки и т.п.

На вооружении у различных департаментов

Итак, разобравшись вкратце с технологиями текстовой аналитики, посмотрим, какие же прикладные задачи можно и нужно решать с помощью этих технологий.

Рассмотрим для начала случай, когда источники неструктурированной текстовой информации находятся вне компании. Внешние информационные ресурсы — это, как правило, различные сайты в Интернете. Реже осуществляется доступ к удаленным файловым системам или базам данных.

Традиционно и уже давно технологии текстовой аналитики, нацеленные на обработку внешних информационных ресурсов, находят самые разнообразные применения в спецслужбах и силовых структурах многих стран. В свою очередь, коммерческие компании с помощью аналогичных подходов решают задачи бизнес-разведки.

Для банков или страховых компаний одна из основных проблем — анализ рисков. Технологии текстовой аналитики помогут в сборе и анализе доступной в Интернете информации о заемщике при рассмотрении заявки на выдачу кредита или оформлении страхового полиса. HR‑службы компаний и специализированные кадровые агентства аналогичным образом смогут значительно улучшить свои процедуры сбора и анализа информации о кандидате на ту или иную вакансию.

Службы маркетинга любой организации получают возможность в автоматическом режиме осуществлять мониторинг действий конкурентов, проводить оценку эффективности собственных рекламных кампаний. А технологии текстовой аналитики помогут ответить на вопрос: «Сколько средств массовой информации и как именно (эмоциональная окраска!) отреагировали на проводимые маркетинговые мероприятия?» Службы продаж наверняка заинтересует возможность оперативно, в автоматическом режиме просматривать информацию на электронных торговых площадках и находить актуальную информацию о проводимых тендерах и аукционах, соотнося ее со спектром продуктов и услуг собственной компании.

Применение текстовой аналитики внутри компании также имеет много вариантов. Один из наиболее востребованных — создание единой корпоративной поисковой системы, которая охватывает все внутренние информационные ресурсы компании, гибко настраивается на специфику деятельности и значительно сокращает время поиска нужной информации.

Средства текстовой аналитики могут стать ядром корпоративной системы управления знаниями, обеспечивая сбор, агрегирование и интеллектуальную маршрутизацию новостных потоков внутри организации, обеспечивая оперативное нахождение экспертов по различным вопросам, мониторинг компетенций персонала. Интересный вариант применения текстовой аналитики — системы правового мониторинга, помогающие юристам находить пробелы и коллизии в массивах нормативных правовых документов и проводить правовую экспертизу проектов таких документов.

Иногда технологии анализа текстовой информации работают «скрытно» от пользователя. Примером может служить контекстно зависимая реклама, «на лету» определяющая тематическую направленность контента просматриваемой Web‑страницы или пользовательского запроса в поисковом сервере и предоставляющая рекламные ссылки в соответствии с выявленной тематикой.

В заключение короткого рассказа о возможностях технологий текстовой аналитики отметим несколько характерных особенностей данных проектов. В отличие от платформ для числовой аналитики, где многие поставщики предлагают примерно одинаковый набор функциональных возможностей, средства для анализа текстовой информации еще не достигли подобной степени унификации. Это вместе с широким спектром решаемых задач приводит к тому, что проекты, связанные с аналитической обработкой неструктурированной информации, отличает высокая степень уникальности.

Из наблюдаемых сейчас тенденций развития данного класса информационных технологий можно отметить сближение технологий числовой и текстовой аналитики, проработку различных подходов к решению проблемы понимания смысла и движение в сторону «искусственного интеллекта», интеграцию технологий текстовой аналитики с социальными сетями, применение возможностей Enterprise 2.0 для классификации и анализа текстовой информации.

(*) На самом деле под внешне простыми интерфейсами скрываются интереснейшие математические алгоритмы, затрагивающие теорию графов, динамические свойства сложных самоорганизующихся сетевых структур, степенные законы распределения и т.п.

Центральный федеральный округ