Информационное обеспечение науки Новые технологии

Е.Н. Васина, О.Л. Голицына, Н.В. Максимов

(РГГУ, Москва)

ОРГАНИЗАЦИЯ ЧЕЛОВЕКО-МАШИННОГО
ПОИСКА ИНФОРМАЦИИ В КОМПЛЕКСНЫХ
БАЗАХ ДАННЫХ

Современные автоматизированные поисковые системы (АИПС), и, в первую очередь, те, которые предназначены для обработки вторичной информации, в большинcтве своем используют в качестве средства доступа к документам термины (ключевые слова, рубрики, заголовки).

Концептуальной основой поиска информации в таких АИПС является предположение, что существуют единые (симметричные) методы формирования тематического описания предмета документа и запроса. Под "темой" обычно подразумевается совокупность понятий, каждое из которых задается упорядоченной совокупностью возможно взвешенных терминов, обозначающих объект или аспект его описания в документе. Таким образом, при поиске соотносятся заданные на множестве терминов базы данных логические выражения понимания индексатором темы документа с выражением понимания потребителем темы запроса.

Учитывая вероятностный характер поиска, обусловленный, в первую очередь, субъективностью построения поисковых образов, сходство между которыми может трактоваться достаточно широко, а также предопределенность вопросно-ответного сценария с жесткой ориентацией на формирование "наилучшего" и "окончательного" поискового образа по запросу, следует констатировать, что средствами традиционных ИПЯ, ориентированных на поиск "по вхождению", построить поисковое предписание, которое обеспечивало бы высокие показатели качества поиска, достаточно трудно даже для профессионала-информационщика.

Определяя требования к АИПС и учитывая реальность практического использования баз данных непрофессионалами, для которых система может провести поиск не лучше, чем они сформулируют запрос, можно сказать, что:

  • при формировании запроса система должна предоставлять пользователю как чисто технологические возможности (например, для оперативного обращения в словари, тезаурусы, документы), так и поисковые. Последние предполагают полномасштабный поиск как по справочным базам данных, базам запросов, так и в основной предметной БД. Тем самым пользователь может оценить качество подготавливаемого запроса и ожидаемых результатов, а также определить стратегию и сформировать план поиска;

  • при проведении поиска система должна предоставлять пользователю модель информационного состояния проблемы, и, с другой стороны, используя данные обратной связи, формировать модель (оценку) знаний и целей пользователя и "предлагать" пути для получения "хорошего" результата, формируя контекст аспектов темы запроса - возможных предметов поиска;

  • сама диалоговая процедура информационного поиска должна быть по существу объяснением процесса получения результата. "Хорошим" результатом, особенно в случае поиска в базах данных вторичной информации, можно было бы считать тот, который на основании объективных данных, предоставляемых системой, дает субъективную уверенность в полноте поиска и в предметном соответствии формально отобранных документов запросу. Причем это соответствие чаще всего устанавливается через умозрительную реконструкцию содержания по поисковым образам, а уверенность в полноте поиска - через исчерпание аспектов запроса и выдач по ним (хотя зачастую пользователь склонен считать поиск успешным и завершенным, если найденные документы подтверждают или опровергают его знания, связанные с запросом).

Основные положения организации человеко-машинного поиска в документальных БД реализованы в АИС IRBIS v 2.1, предназначенной для многофункциональной обработки баз данных разнородных документов.

В системе предусмотрены три способа формирования поискового запроса:

1) язык логических выражений, включая упрощенный сценарий пошагового уточнения запроса;

2) QBE - формулировка задания поисковых выражений по отдельным полям, объединяющимся средствами языка формы документа, в том числе с разновидностью весового поиска "по подобию полей" - аналогов конкретного документа;

3) язык-процесс последовательной кластеризации лексического и документального пространства. При этом пользователь, не вводя логические и другие операторы, а используя только контекстную информацию индексирования документов, получает упорядоченные выдачи.

Т.о., классическая схема поиска документов "по запросу-выражению" расширена до динамически управляемого процесса кластеризации пространства документов и терминов.

Такой процесс обеспечивает реформулировку исходного запроса, сводящуюся к автоматическому формированию задаваемых дескрипторами аспектов проблемы, построенному как на кластеризации контекстного поля (терминов и документов), для чего используются данные обратной связи (оценка выдачи и ранжирование словников), так и на использовании структуры семантического пространства, зафиксированной в рубрикаторах, тезаурусах и документах базы данных.

Несмотря на то, что основной задачей поискового интерфейса является нахождение путей к документу и получение текста, в контексте двойственности цели поискового процесса процедурный интерфейс IRBIS обеспечивает симметричность возможностей: при подготовке ПП можно формировать файл документальной (текстовой) части результата, а при формировании результата (поиске, просмотре, реформулировке запроса) - строить запрос.

Такой подход не заставляет пользователя заботиться об отложенных действиях при оперативной работе с запросом и результатами. При этом процесс поиска построен по принципу "расходящихся кругов", основная задача которого - поиск центров активации искомого образа в семантической сети БД, т.е. построение цепочек документов, которые в свою очередь могут послужить мостом к понятиям (документам), не содержащим терминов исходного запроса.