НОВЫЕ ТЕХНОЛОГИИ В ИНФОРМАЦИОННО-БИБЛИОТЕЧНОМ ОБЕСПЕЧЕНИИ НАУЧНЫХ ИССЛЕДОВАНИЙ

С.Р.БАЖЕНОВ,   Л.К.БОБРОВ,   Н.А.МАЗОВ

СОЗДАНИЕ И ИСПОЛЬЗОВАНИЕ ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ БАЗ ДАННЫХ В АСНТИ СО РАН

В последние годы в технологии информационного обеспечения НИОКР наметился сдвиг от традиционных методов (каковыми, например, являются ИРИ, РП и т.п.) к моделям и методам, ориентированным на реализацию системы информационного обеспечения на базе сети проблемно-ориентированных баз данных (ПОБД). Одним из существенных моментов в данной задаче является технология и методика формирования ПОБД на основе отбора информации из различных баз данных (БД).

Простейшим и наиболее распространенным подходом является формулирование набора поисковых запросов, отражающих тематику ПОБД, и отбор информации на основе данных запросов. Однако при таком подходе предъявляются очень высокие требования к профессиональному уровню информационных работников, занятых индексированием и последующим сопровождением массива поисковых запросов. Поэтому представляется весьма актуальным нахождение таких моделей и методов, которые позволили бы реализовать автоматизированную технологию отбора информации для формирования и пополнения ПОБД.

Помимо детерминированных подходов в задачах отбора информации (или классификации документов) известны методы, базирующиеся на использовании статистических характеристик текстов документов

(I, 2). В качестве таких характеристик могут выступать частота появления терминов в БД, в документе, совместная встречаемость терминов и др. Однако все эти методы (или, по крайней мере, большая часть их) предполагают предварительную формализацию текстов, которая прямо или косвенно связана с процедурами морфологического анализа лексических единиц естественного языка. В большинстве случаев такой анализ осуществляется с использованием задания словарей основ, префиксов, аффиксов, и системы, использующие такой подход, имеют очень громоздкие алгоритмы обработки текстов.

В связи с этим заслуживают внимания статистические методы

выделения основ слов и автоматической классификации, использующие в своей работе частотные характеристики различных фрагментов текстов, которыми могут быть как отдельные слова, так и фрагменты слов. Одно из основных преимуществ таких методов в том, что они свободны от языковых барьеров и позволяют организовать системы автоматического отбора информации без участия специалистов в области базовых языков.

Система ПОБД в АСНТИ СО РАН включает в себя в основном комплекс документальных баз данных, формируемый по тематико-видовому принципу путем отбора вторичных документов из мирового информационного потока, доступ к которому обеспечивается за счет использования сетей передачи данных и обработки отечественных машиночитаемых изданий. Этот комплекс включает в себя как опубликованные документы (статьи, книги и т.п.), так и непубликуемые сведения (патенты, отчеты, диссертации и пр.).

Описываемая система ПОБД может рассматриваться как объект информационного анализа с целью выявления тенденций развития отдельных научных направлений и решения вопросов прогнозирования. Последнее достигается путем формально-логической обработки баз данных и генерирования сведений, необходимых при решении задач анализа информации. Увеличение полноты данных достигается за счет расширения (по сравнению с традиционными системами сбора информации) охвата информационных источников. Контроль достоверности исходных данных для задач математического моделирования может быть осуществлен путем сопоставления получаемых экспериментальных данных (или оценок экспертов) с опубликованными (или непубликуемыми) сведениями, имеющимися в базах данных.

Одним из положительных моментов является то, что на основе использования системы ПОБД может быть существенно улучшено качество комплектования фонда первоисточников.

В АСНТИ СО РАН для обеспечения работы с ПОБД предусмотрено использование ПЭВМ как в качестве оконечных интеллектуальных терминалов сети вычислительного центра коллективного пользования, так и в локальном режиме.

В результате проведения сравнительного анализа различных пакетов прикладных программ (ППП) в качестве базового (типового) ППП для IBM совместимых ПЭВМ был выбран пакет CDS/ISIS/M, разработанный под эгидой ЮНЕСКО и адаптированный в стране Международным центром научно-технической информации (МЦНТИ).

Пакет работает под управлением операционной системы MS-DOS (версий 3.2 и выше). По сравнению с другими программными системами аналогичного назначения CDS/ISIS/M обладает следующими преимуществами:

Все вышеизложенное делает систему весьма популярной для решения информационно-библиографических задач как у нас в стране, так и за рубежом.

Литература

I. Аветисян Д.О, Проблемы информационного поиска. - М.:Финансы и статистика, 1961. - 206 с.

2. О применении статистических методов в процессах обработки документальных баз данных / Елепов Б.C., Баженов С.Р., Мазов Н.А. и др. //Распределенные информационно-вычислительные системы. - Новосибирск. 1987. - С. 28-42.