СОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ ТЕХНОЛОГИИ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ СРЕДСТВ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ

О.С.АЛЕКСАНДРОВА, В.В.ТЮРИКОВ

ВЗАИМОДЕЙСТВИЕ НЕПОДГОТОВЛЕННОГО ПОЛЬЗОВАТЕЛЯ С БАЗАМИ ДАННЫХ (ИЗ ОПЫТА РАБОТЫ ВЫЧИСЛИТЕЛЬНОГО ЦЕНТРА КОЛЛЕКТИВНОГО ПОЛЬЗОВАНИЯ СО АН СССР)

Сетевой режим работы отдельных информационных центров системы АСНТИ в сравнении с привычным локальным режимом взаимодействия с ЭВМ обеспечивает ряд преимуществ, среди которых следует отметить следующие:

  • облегчается доступ к базам данных (БД) и расширяется круг их пользователей;
  • открывается возможность оперативного обмена информацией, между абонентами сети и головным информационным центром;
  • повышается эффективность и экономичность всей системы за счет централизованного ведения БД.

В то же время, использование сетей в АСНТИ требует создания системы взаимодействия, ориентированной на неподготовленного пользователя, т.е. пользователя, профессионально не связанного с программированием и работой ЭВМ.

В настоящей статье рассматривается программный интерфейс взаимодействия пользователей с БД АСНТИ СО АН СССР через Вычислительный центр коллективного пользования (ВЦКП) (I), функционирующий в Сибирском отделении.

В настоящее время активно проводятся работы по созданию автоматизированных систем-посредников (АСП), позволяющих с помощью "дружественного" интерфейса использовать различные БД через сети ЭВМ.

Перед АСП ставится задача комплексной автоматизации процедур подготовки исходных данных, необходимых для формирования запросов и проведения поиска информации в выбранных БД.

Работы по созданию АСП проводятся для интерактивных систем поиска в удаленных БД (2). Постановка и формализация задачи информационного поиска предполагает создание структурированных наборов данных, включающих терминологическую базу пользователя на языке документов в БД, а также списки ограничений на поиск, отражающие лингвистические возможности информационно-поисковой системы (ИПС). Для этого разрабатываются алгоритмы автоматизированного построения терминологической базы пользователя на основе анализа текстов на естественном языке.

Для проведения поиска АСП осуществляет трансляцию подготовленной на 1-м этапе структурированной информации на информационно-поисковый язык (ИПЯ) используемой ИПС. Разрабатываются методы автоматизированного формирования запросов и автоматизации реализации стратегии поиска с использованием реакции БД. Можно упомянуть методы, разрабатываемые во Всесоюзном научно-исследовательское институте прикладных автоматизированных систем (ВНИИПАС) Ю.Р.Пантелеевым, основанные на обратной связи по релевантности. Или алгоритм взаимодействия пользователей с БД, используемый в системе АФОРИЗ в ЛИТНИИНТИ (авторы А.Г.Будрявичюс и Г.А.Ляшкус), согласно которому такое взаимодействие осуществляется посредством динамической процедуры принятия решений о стратегия поиска в БД.

Основной режим работы разрабатываемых систем - диалог на основе динамических меню, в которых список альтернативных действий соответствует текущей задаче с использованием развитых средств помощи. В качестве базовых технических средств для реализации "дружественных" интерфейсов все чаще используются персональные ЭВМ (ПЭВМ).

Постановка задачи информационного поиска с помощью существующего пакета прикладных программ (ППП), включает выделение множества терминов и отношений между ними в виде логических и позиционных операторов ИПЯ, и сводится к следующим операциям:

  • выделение существенных понятий предметной области;
  • точное терминологическое выражение выделенных понятий;
  • построение поискового предписания (ПП) с определением связей между выделенными понятиями и отображающими их терминами.

Термины связываются на основе парадигматических отношений (род-вид, ассоциация, синонимия). Практически почти всегда двух-трех понятий оказывается достаточно для обеспечения удовлетворительных характеристик поиска.

Логика построения описываемого интерфейса соответствует принятому процессу составления ПП. Его функциональные возможности и особенности реализации ориентированы на технологии ведения информационного поиска в условиях использования имеющихся технических и программных средств.

ВЦКП СО АН СССР использует пакетный режим прохождения задач на базовой ЭВМ, т.е. той ЭВМ, в которой сосредоточены основные информационные и вычислительные ресурсы системы. Сам этот пакет на обработку БД готовится на ЭВМ, к которой подключен терминал пользователя и которая играет роль периферийного центра обработки информации (ПЦО). Пакет оформляется в соответствии со стандартными требованиями операционной системы базовой ЭВМ и через систему передачи данных направляется в базовую ЭВМ для выполнения. В качестве базовой ЭВМ используется ЕС-1055 с 200 Мб - накопителями на магнитных дисках. В качестве периферийной ЭВМ - СМ-4, обеспечивающая диалоговую работу пользователя при подготовке данных в режиме разделения времени. В качестве программного обеспечения поиска используется разработанный А.А. Сметанниковым ППП СM-87, сходный по формату входных данных и ИПЯ (3) с широко используемым до недавнего времени в практике АСНТИ ППП АСОД.

Таким образом, пользователь АСНТИ для общения с различными БД системы должен хотя бы минимально знать язык управления заданиями базовой ЭВМ и систему команд периферийной ЭВМ, язык запросов эксплуатируемой ИПС и владеть еще рядом процедур, обеспечивающих безошибочное составление заданий на поиск релевантных документов.

Описываемый интерфейс упрощает и облегчает процесс взаимодействия неподготовленного пользователя с ИПС через сеть ВЦКП СССР. Простота взаимодействия пользователя с системой достигается за счет широкого использования меню-техники и организации вопросно-ответной структуры диалога (приложение I).

Технологический цикл получения информации из БД включает следующие операции, которые должны быть обеспечены автоматизированным интерфейсом:

  • формирование сценария задачи поиска;
  • формирование запроса к БД;
  • передача запроса на выполнение;
  • получение результата.

Сценарий отражает формализованное описание постановки задачи поиска и включает терминологии предметной области и выбираемые пользователем ограничения. Сценарий затем преобразуется в формализованный запрос (ПП), по которому проводится поиск в БД (приложения 2, 3).

Оба эти процесса (выбор стратегии поиска и формулирование ПП) являются наиболее сложной частью технологии автоматизированного документального поиска (4, 5). В описываемом интерфейсе сложность их снижается тем, что пользователю предлагается на выбор тот или иной формат ПП со сценарием описания постановки задачи, трансформируемым затем в формализованный запрос на языке ИПС (приложения 4, 5).

После выбора пользователем из меню наиболее удобного формата ПП в ходе диалога реализуется процедура формирования сценария.

Под форматом понимается канонизированная структура ПП, обеспечивающая определенный вид поиска в БД. Виды поиска могут быть различными: по ключевым словам с логическими отношениями между ними, по элементам библиографического описания (БО) (например, по фамилии автора первоисточника, по индексу рубрикатора, по наименованию журнала и т.п.), по их комбинации.

При составлении сценария пользователю предоставляется возможность семантическую часть ПП (ключевые слова, элементы БО) сформулировать на естественном языке. А операторы, устанавливающие логические отношения между лексическими единицами, так же как и другие операторы языка запросов, проставляются автоматически в соответствии с выбранным форматом ПП.

Набор форматов охватывает все наиболее часто используемые на практике конструкции языка запросов и обеспечивает адекватность использования языковых средств действующей ИПС при обращении к БД, что является основным условием успеха поиска. Кроме того, вложенный в каждый формат фильтр-сценарий, освобождает пользователя от необходимости знать особенности структуры хранения информации в различных БД и их лексического своеобразия.

В системе реализованы различные виды контроля (программный, семантическая, ситуационная корректировка), которые позволяют пользователю гибко вносить необходимые коррективы. При формировании пакета на поиск производится контроль имени БД на наличие его среди имен доступных в данный момент БД. Системой поддерживается автоматическое обновление информации о доступных БД на тех ПЦО, на которых установлен описываемый интерфейс.

К существеньым ограничениям интерфейса следует отнести необходимость разбиения разветвленных логических конструкций ПП на простые составные, что замедляет формулировку ПП.

Однако представляется, что этот недостаток окупается обучающим свойством системы, облегчающим переход пользователя-новичка к самостоятельной работе в сетевом режиме.

Описанная система взаимодействия реализована на языке косвенных командных файлов ОС RSX-IIM. Отдельные программные блоки написаны на языке Ассемблер.

Система легко адаптируема к различиям ИПС. В случае перехода ACHТИ на работу под управлением другой ИПС необходимо произвести соответствующие замены конструкций ПП в программных модулях, ответственных за формирование файлов запросов.

Реализованная система является практическим инструментом, который облегчает знакомство конечного пользователя с технологией информационного поиска, повышает надежность его работа с БД в условиях сети, обеспечивает оперативное получение необходимой информации в удобной для пользователя форме.

Описанный интерфейс является развитием предпринятой ранее попытки реализации подобного подхода с помощью системы ДИЗА (6).

Практический опыт работы с интерфейсом подтверждает возможность его удовлетворительного использования в сетевом режиме эксплуатации.

В заключение подчеркнем, что вследствие недостатка внешней дисковой памяти поиск через описанный интерфейс в условиях функционирования АСНТИ СО АН СССР возможен только в режиме текущего оповещения.

Ретроспективный поиск проводится с магнитных лент. К нему целесообразно приступать только после того, как отлажена система текущего оповещение. Программа ретроспективного поиска является дополнением к описанному интерфейсу и реализует алгоритм формирования пакета на поиск в базах данных, расположенных на магнитных лентах, с внесением необходимых в каждом конкретном случае спецификаций этих баз.

Схема взаимодействия пользователя с документальными базами данных по описанной технологии приведена в приложении 6.

Приложение I

Уровни меню

АСНТИ СО АН СССР

1 СПРАВОЧНАЯ ИНФОРНАЦИЯ

2 СОСТАВЛЕНИЕ ЗАПРОСА НА ПОИСК В БАЗЕ ДАННЫХ

3 ПОЛУЧЕНИЕ РЕЗУЛЬТАТА

4 ЗАВЕРШЕНИЕ РАБОТЫ С АСНТИ

 

СПИСОК СПРАВОЧНЫХ ФУНКЦИИ:

1 ПРОСМОТР ИНСТРУКЦИИ ПО РАБОТЕ С СИСТЕМОЙ В РЕЖИМЕ ВЦКП

2 ПРОСМОТР ОПИСАНИЯ СУЩЕСТВУЮЩИХ БАЗ ДАННЫХ

3 ПРОСМОТР СОСТАВА ДОСТУПНЫХ В НАСТОЯЩЕЕ ВРЕМЯ БАЗ ДАННЫХ

4 ЗАВЕРШЕНИЕ РАБОТЫ СО СПРАВОЧНЫМИ ФУНКЦИЯМИ

 

РАБОЧИЕ ФУНКЦИИ СИСТЕМЫ:

? ПОКАЗАТЬ ПЕРЕЧЕНЬ РАБОЧИХ ФУНКЦИИ

0 ФОРМИРОВАТЬ НОВЫЙ СЦЕНАРИЙ

1 ПОКАЗАТЬ КАТАЛОГ СЦЕНАРИЕВ

2 ПОКАЗАТЬ КАТАЛОГ ЗАПРОСОВ

3 УДАЛИТЬ СЦЕНАРИИ С ЗАДАННЫМ ИМЕНЕМ

4 УДАЛИТЬ ЗАПРОС С ЗАДАННЫМ ИМЕНЕМ

5 ОБ"ЕДИНИТЬ НЕСКОЛЬКО СЦЕНАРИЕВ В ОДИН

7 КОРРЕКТИРОВАТЬ ( ПРОСМОТРЕТЬ ) СЦЕНАРИИ

8 КОРРЕКТИРОВАТЬ ( ПРОСМОТРЕТЬ ) ЗАПРОС

9 ФОРМИРОВАТЬ ЗАПРОС НА ОСНОВЕ СЦЕНАРИЯ

10 ПЕРЕДАТЬ ЗАПРОС НА ВЫПОЛНЕНИЕ

11 СОЗДАТЬ "ПАСПОРТ"

I2 ЗАВЕРШИТЬ РАБОТУ С РАБОЧИМИ ФУНКЦИЯМИ

 

ФУНКЦИИ, СВЯЗАННЫЕ С ПОЛУЧЕНИЕМ РЕЗУЛЬТАТА

1 ПОЛУЧИТЬ РЕЗУЛЬТАТ

2 ПРОСМОТРЕТЬ РЕЗУЛЬТАТ НА ТЕРМИНАЛЕ

3 РАСПЕЧАТАТЬ РЕЗУЛЬТАТ

4 ПОКАЗАТЬ КАТАЛОГ РЕЗУЛЬТАТОВ

5 УДАЛИТЬ РЕЗУЛЬТАТ

6 ЗАДАТЬ ОПОВЕЩЕНИЕ

7 ОТМЕНИТЬ ОПОВЕЩЕНИЕ

8 ЗАВЕРШИТЬ РАРОТУ ПО ПОЛУЧЕНИЮ РЕЗУЛЬТАТА

 

Приложение 2

Пример сценария, соответствующего ему поискового предписания и заглавной части пакета задания (для БД, отличных от БД "Физика")

БАЗА!ДАННЫХ НЕФИЗИКА

ЗАГ!СТРОКА ВОДНЫЕ РАСТВОРЫ ХЛОРИДА ЛИТИЯ

ФОРМАТ Р

ТЕРМИН ВОДН.Р-РЫ

ТЕРМИН ЛИТИЙ ХЛОРИД

СОСТ!ЗАПРОС НЕТ

 

//VCSM6502 JOB (6502,6502,5,,,9),'АЛЕКСАНДРОВА',MSGCLASS=V,

// REGION=350K,MSGLEVEL=(0,0),CLASS=J

/*SETUP ASNTI,CHEM01

// EXEC PSKSM,PR=6502,BD=CH2488,NPCO=09

//PP.SYSUT1 DD *,DCB=BLKSIZE=80

TITLE 650210 ВОДНЫЕ РАСТВОРЫ ХЛОРИДА ЛИТИЯ;

@1 ВОДНЫЕ & P & РЫ(+4);

@2 ЛИТИЙ & ХЛОРИД(+3);

@R @1 & @2

//

Приложение 3

Пример сценария, соответствующего ему поискового предписания и заглавной части пакета задания (для БД "Физика")

БАЗА!ДАННЫХ ФИЗИКА

ЗАГ!СТРОКА ПЛАЗМЕННОЕ ОСАЖДЕНИЕ ДЛЯ И-ТА ТЕПЛОФИЗИКИ

ФОРМАТ IF

СЛОВА CHEMICAL DEPOSITION

РУБРИКА FTMC

РУБРИКА FTHA

РУБРИКА FTMA

РУБРИКА XRHW

ОТНОШЕНИЕ И

СОСТ!ЗАПРОС НЕТ

ЗАГ!СТРОКА ПЛАЗМЕННОЕ ОСАЖДЕНИЕ

ФОРМАТ IF

СЛОВА PLASMA DEPOSITION

РУБРИКИ LTHA

ОТНОШЕНИЕ ИЛИ

СОСТ!ЗАПРОС НЕТ

 

//VCSM6502 JOB (6502,6502,5,,,9),'АЛЕКСАНДРОВА',MSGCLASS=V,

// REOION=350K,MSGLEVEL=(0,0),CLASS=J

/*SETUP ASNT,CHEM01

// EXEC PSKSM,PR=6502,DB=FI1288,NPCO=09

//PP.SYSUT1 DD *,DCB=BLKSIZE=80

TITLE 650210 ПЛАЗМЕННОЕ ОСАЖДЕНИЕ ДЛЯ И -ТА ТЕПЛОФИЗИКИ;

@S CHEMICAL & DEPOSITION;

@R РБШ PAR FTMC, FTHA, FTMA, XRHW;

@Z @S & @R;

TITLE 650211 ПЛАЗМЕННОЕ ОСАЖДЕНИЕ;

@S PLASMA & DEPOSITION;

@R LTHA;

//

Приложение 4

Форматы поисковых предписаний

Под форматом понимаем структуру поискового предписания ( пп ) , обеспечивающего определенный вид поиска в базе данных.

ФОРМАТЫ ПОИСКОВОГО ПРЕДПИСАНИЯ ( ПП ) ДЛЯ БД "НЕФИЗИКА"

О ПОИСК ПО ОДНОЙ ГРУППЕ ТЕРМИНОВ, О? -СПРАВКА;

I ПОИСК ПО РАЗЛИЧНЫМ ГРУППАМ ТЕРМИНОВ ( ДЛЯ ОТДЕЛЬНЫХ СЛОВ ), I? - СПРАВКА;

Р ПОИСК ПО РАЗЛИЧНЫМ ГРУППАМ ТЕРМИНОВ ( ДЛЯ СЛОВОСОЧЕТАНИЙ), Р? - СПРАВКА;

А ПОИСК ПО ФАМИЛИИ АВТОРА ПЕРВОИСТОЧНИКА, А? - СПРАВКА;

J ПОИСК ПО НАЗВАНИЮ ЖУРНАЛА, J? - СПРАВКА;

RО ПОИСК ПО ОДНОЙ ЛОГИЧЕСКОЙ ГРУППЕ ШИФРОВ РУБРИКАТОРА ВИНИТИ, RO? - СПРАВКА;

D ПОИСК ПО ДЕСКРИПТОРАМ, D? - СПРАВКА;

L СВОБОДНОЕ ФОРМУЛИРОВАНИЕ ПОИСКОВОГО ПРЕДПИСАНИЯ НА ЯЗЫКЕ ЗАПРОСОВ СИСТЕМЫ, L? - СПРАВКА.

 

 

ФОРМАТЫ ПОИСКОВЫХ ПРЕДПИСАНИЙ (ПП) ДЛЯ БД "ФИЗИКА"

OF ПОИСК ПО ОДНОЙ ГРУППЕ ТЕРМИНОВ, OF? - СПРАВКА;

IF ПОИСК ПО РАЗЛИЧНЫМ ГРУППАМ ТЕРМИНОВ ( ДЛЯ ОТДЕЛЬНЫХ СЛОВ ),IF? - СПРАВКА;

А ПОИСК ПО ФАМИЛИИ АВТОРА ПЕРВОИСТОЧНИКА, А? - СПРАВКА;

J ПОИСК ПО НАЗВАНИЮ ЖУРНАЛА, J? - СПРАВКА;

FO ПОИСК В БД "ФИЗИКА" ПО РУБРИКАЦИОННЫМ ШИФРАМ, ПРИНАДЛЕЖАЩИМ К ОДНОЙ ЛОГИЧЕСКОЙ ГРУППЕ ИДЕНТИФИЦИРУЕМЫХ ИМИ ПОНЯТИИ. FO? - СПРАВКА;

FP ПОИСК В БД "ФИЗИКА" ПО РУБРИКАЦИОННЫМ ШИФРАМ , ПРИНАДЛЕЖАЩИМ К ОДНОЙ ЛОГИЧЕСКОЙ ГРУППЕ ИДЕНТИФИЦИРУЕМЫХ ИМИ ПОНЯТИЙ, FP? - СПРАВКА;

L СВОБОДНОЕ ФОРМУЛИРОВАНИЕ ПОИСКОВОГО ПРЕДПИСАНИЯ НА ЯЗЫКЕ ЗАПРОСОВ СИСТЕМЫ, L? - СПРАВКА.

 

Приложение 5

Примеры справок, разъясняющие использование форматов

Формат "Р"

Выбранный вами формат обеспечивает выдачу документов, которые содержат все перечисленные терминологические словосочетания одновременно (логическое отношение "И").

Сложные конструкци пп при использовании данного формата разбивайте на простые, в совокупности эквивалентные сложному пп

Пример:

пп типа [(а, в) и (с,d)] разбиваем на 4 пп: [(а) и (с)],

[ (а) и (d)], [(в) и (с)], [(в) и (d)]

Возможное дублирование донутентов по этим составным запросам устраняется программой печати системы

_п_0_м_н_и_т_е_!

Чтобы учесть все возможные словоформы в тексте документа можно делать право - и/или левостороннее усечение по корневой основе

Примр двустороннего усечения - * фтор*

Пример

- вы называете три терминологических словосочетания:

(водн. р-ры) и (литий хлорид) и (теплопроводность), т.к. в результате поиска в бд хотите получить документы, в которых все три словосочетания присутствуют одновременно.

Все термины указаны в нормализованной форме, следовательно, результатом поиска будут документы, в которых эти термины вероятнее всего присутствуют как дескрипторы

Формат "D"

Выбранный вами формат позволяет проводить поиск по дескрипторам. Дескрипторами называются термины или словосочетания, с помощью которых индексируется основное содержание документа. Т.е. дескрипторы классифицируют документ по существу рассматриваемых в нем вопросов. иными словами, дескрипторы составляют поисковый образ документа. они перечисляются в документе БД после заглавия и реферата

_п_0_м_н_и_т_е_!

Дескрипторы представлены в документе в нормализованном виде, т.е. всегда в именительном падеже

Рекомендуется переходить к поиску по дескрипторам после того, как проведен приблизительный поиск по всему тексту документа (т.е. по терминам, входящим в лексикон вашей проблемы), ориентированный на полноту выборки необходимые дескрипторы определяются при просмотре документов, полученных в результате такого поиска

В одном поисковом предписании вы можете назвать не более 4-х слов (отдельных терминов или терминологических словосочетаний).

 

 

Приложение 6

Схема взаимодействия пользователя с документальными базами данных через описываемый интерфейс (пцо - периферийный центр обработки, бвк - базовый вычислительный комплекс)

Литература

1. 0 программе работ по созданию сети информационно-вычислительных систем (центров) в Сибирском отделении СО АН СССР / Алексеев А.С., Елепов Б.С., Котов Б.Е., Метляев Ю.В. - Новосибирск:

ВЦ СО АН СССР. 1987. (Препринт № 734).

2. Проблема создания автоматизированной системы-посредника для информационного поиска в удаленных базах данных. - М., 1987. (Сб. науч. тр. / ВНИИ прикладных автоматизированных систем;

Вып. 4).

3. Александрова О.С., Бобров Л.К. Использование вычислительных средств коллективного пользования в АСНТИ СО АН СССР // Распределенные автоматизированные библиотечно-информационные системы и сети. - Новосибирск, 1986. - С. 96-101.

4. Маклейн Д.Д. Методические рекомендации по формированию поисковых предписаний и поисковых массивов в ИПС, использующих базу данных БК "Химия" и ППП АСОД (вариант 1-81). - Москва: ВИНИТИ, 1981.

5. Янко Т.Е. О некоторых соответствиях единиц естественного языка единицам языка запросов информационно-поисковой системы / НТИ. Сер. 2. Информационные процессы и системы. - 1987. - № 5.

6. Александрова О.С., Новиков А.А. Взаимодействие пользователя с библиографическими БД в сети ЭВМ // Вопросы информационной технологии 1-й очереди ГАСНТИ: Teз. докл. ХУI Bсеcoюз. науч. семинара "Систем. исслед. ГАСНТИ", г. Ярославль. - М., 1987.