In English

О поисках в хаосе

25.08.2007, Анищук Наталья
Издание: Финанс
В России появились первые проекты по автоматизации обработки неструктурированной информации. Компании не спешат внедрять ПО, несмотря на трудоемкость ручной работы.

В большинстве своем российские компании используют программное обеспечение, которое оперирует числовыми массивами. Но практически нет проектов по автоматизации обработки и структурирования текстов, аудио - и видеофайлов. Хотя основная деятельность организации может включать в себя работу с ними. По словам директора департамента аналитических систем компании "Айти" Дмитрия Романова, доля неструктурированных данных в системах предприятий, как правило, превышает 80% от общего объема информации, "Букв!" болезней. Представь те архив телекомпании - тысячи текстов, фотографий, записей съемок. Теперь вам нужно найти в нем всю информацию о конкретном человеке. За годы существования телеканала он мелькал в нескольких материалах, причем был не главным действующим лицом. Кто-то из сотрудников помнит "где-то я его у нас видел". Архив сформирован по датам и по ключевым словам. Теоретически поиск в нем может занять недели. На практике обычно находится "ветеран", сужающий диапазон дат, а то и точно помнящий, где хранится информация. Гарантии, что подняты все имеющиеся материалы, никто дать не может.

Другой пример - планирование государственных расходов на обязательное медицинское страхование. В этом процессе основную роль играет статистика -количество пациентов, профили и стадии заболеваний, методы лечения. Исходными данными служат амбулаторные карты больных - история болезни, заключение врачей, результаты исследований, в том числе анализы, рентгеновские снимки. Систематизация такой информации ведется вручную - данные по итогам периода заносятся в числовые таблицы, Отсюда большое количество ошибок, трудность консолидации на уровне Минздравсоцразвития. Расходование средств практически не поддается контролю на соответствие действительности.

На практике. Иностранные организации работают с различными программными решениями, которые могут быть как узкоспециализированными, например для поиска изображения, так и широкого профиля, работающими со всеми видами информации (Convera, Fast Search & Transfer). "Система распознавания образов обращается к определенным базам данных, сверяет полученные изображения и сигнализирует об обнаружении, скажем, террориста, - рассказывает Дмитрий Романов. - Есть системы, которые "улавливают" определенные слова в аудиозаписи. Комплексные продукты достаточно "умны", чтобы в море информации проводить точный поиск и анализ данных, принимая во внимание общий смысл документа, разные языки, прощая орфографические ошибки". Область поиска этих решений может не ограничиваться конкретным архивом, а охватывать интернет-портал, электронную почту, различные бизнес-приложения.

МВД РФ установило систему Convera для поиска противоречий и пробелов в более чем 50 тыс. документах, регулирующих деятельность министерства. Самые ранние из них относятся к 20-30-м годам прошлого века. Планируется, что система будет использоваться в двух направлениях. Первое - поиск несоответствий в документах, который будет служить юристам основой для последующего анализа полноты нормативной базы МВД. Второе - получение обратной связи от подведомственных организаций, имеющих непосредственное отношение к правоприменительной практике, например УВД и ОВД.

Центральный федеральный округ