СОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ ТЕХНОЛОГИИ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ СРЕДСТВ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ

Р.С.НИГМАНУЛЛИН, А.А. СМЕТАННИКОВ

АВТОМАТИЗАЦИЯ СОСТАВЛЕНИЯ И КОРРЕКЦИИ ЗАПРОСА В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЕ

Существуют известные трудности при обращении к базам данных, держащим рефераты или полнотекстовые документы с ненормированной (неизвестной) лексикой. Обращение к таким базам данных с помощью посредников представляется паллиативом. Более удобным средством является интеллектуальная система, способная помочь пользователю получить те и только те документы, которые удовлетворяют его информационную потребность (пертинентные документы).

Один из вариантов такой система предлагается в докладе. На первом этапе контакта с базой данных система предлагает пользователю:

  • листание и отбор пертинентных и непертинентных документов;
  • создание и просмотр словаря терминов из отобранных документов, и выбор терминов для составления поискового предписания (ПП) запроса;

ПП представляет собой булевое выражение, в котором допускается усечение терминов, как справа, так и слева, а также возможности проверки логических условий в форматных полях документа. Просмотр первого результата поиска позволяет выявить отдельные пертинетные и непертинентные документы.

Далее процедура коррекции строится в соответствии с "весовой  логикой" и при этом вычисляется разность множеств терминов из текстов пертинентных и непертинентных документов и автоматически составляется ПП, в котором каждый термин характеризуется весовым коэффициентом (вещественное число со знаком), равным log Р1 (Ti) / P2 (Ti), где Р1(Ti) и Р2(Ti) частоты терминов Ti во множествах пертинентных и непертинентных документах. Этот весовой коэффициент показывает количество информации, которое содержит термин Т в пользу гипотезы о пертинентности документа. Все выдаваемые документы упорядочиваются по убывании суммы весовых коэффициентов, характеризующих документы Wk= log Р1(Ti) k/ Р2(Ti) k , (Сумма от i=1 до N, где N - число терминов в К-ом документе. В ПП указывается Wo - ограничитель выдачи документов по порогу или максимальное число выдаваемых пользователю документов. Затем выданные документы просматриваются вновь и отмечаются пертинентные и непертинентные документы, при этом автоматически уточняются оценки log Р1(Ti) / Р2(Ti), проводится процедура поиска и т.д. Разработанные программные средства действуют в рамках ППП SM 88/9 и показывают хорошие результаты особенно при формировании проблемно-ориентированных баз данных, когда пользователь уже имеет множество пертинентных документов, что позволяет не начинать поиск с нуля.