Информационное обеспечение науки Новые технологии

А.В. Васильев, С.А. Власова,
А.В. Глушановский, Н.Е. Калёнов

(БЕН РАН, Москва)

СИСТЕМА "НАУКА РОССИИ"
И ЕЕ ИСПОЛЬЗОВАНИЕ
В ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ
ТЕХНОЛОГИИ

Разработка информационно-аналитической системы "Наука России" ведется с 1994 года при поддержке РФФИ с целью создания унифицированного программного обеспечения позволяющего децентрализовано создавать библиографические базы данных типа Science Citation Index с последующим их слиянием и централизованной обработкой.

Система включает два комплекса - комплекс, обеспечивающий децентрализованный ввод информации, по которому можно получать локальные справки (РОНА-Л), и комплекс, обеспечивающий слияние децентрализовано подготовленных баз данных в одну и проведение всестороннего анализа информации (РОНА-Ц).

Информационная база комплекса "РОНА-Л" включает в себя 4 взаимосвязанных подбазы:

1. Подбаза организаций. В ней содержатся официальные реквизиты учреждения и информация, обеспечивающая возможность связи с учреждением.

2. Подбаза персоналий (БДП). В подбазу включаются фамилия, имя и отчество, сведения о специальности и квалификации ученого, месте (местах) его работы, сведения о его публикациях и их цитировании.

3. Подбаза публикаций (трудов) (БДТ). Данные, включаемые в подбазу, содержат библиографическое описание публикации, ее тематические индексы, сведения о цитируемых и цитирующих работах.

4. Подбаза источников. Подбаза содержит сведения об изданиях, в которых публикуются работы, отраженные в подбазе 3.

Поскольку система с самого начала была ориентирована на работу пользователей - библиотечных специалистов, в большинстве своем не имеющих специальной подготовки для работы с компьютерами, при ее разработке существенное внимание уделялось простоте интерфейса, защите от ввода ошибочной информации, обеспечению возможностей гибкой настройки на требуемые поля данных.

Каждая из описанных выше подбаз имеет идентичную специально разработанную структуру хранения данных (включая систему перекрестных ссылок между подбазами), и состоит из нескольких бинарных и текстовых файлов. Текстовые файлы содержат перечень меток полей с их названиями, которые пользователь желает видеть в подбазе, и таблицу очередности их вывода в меню программы ввода информации. Перед меткой может быть введен один из специальных символов, указывающий на форму контроля данных этого поля. В частности, содержимое отдельных полей может выбираться из прямого (например, ученая степень) или иерархически построенного списка (рубрикаторы ВАК и ГРНТИ).

Комплекс "РОНА-Л" обеспечивает:

  • ввод информации в интегрированную БД в диалоговом режиме. Данные могут вводиться автономно в подбазы персоналий, источников и организаций или комплексно во все подбазы с автоматическим переходом из одной в другую и формированием внутренних перекрестных ссылок. При этом ранее введенные записи используются для создания необходимых ссылок без повторного их ввода. Это позволяет, с одной стороны, использовать централизованно подготовленные "authority files", с другой - (в отличие от базы данных SCI) различать при вводе и поиске публикации различных авторов, имеющих одинаковые фамилии и инициалы. Имеется возможность просматривать и выбирать данные из словарей при вводе ключевых элементов;
  • коррекцию (доввод) ранее введенной в любую подбазу информации. Возможно не только корректировать информацию в существующих полях данных, но и довводить новые поля выборочно или подряд во все записи базы;
  • пакетный ввод (доввод) данных, записанных в формате ВНТИЦентра, и данных, полученных в результате поиска по базе данных SCI на CD-ROM;
  • исключение дублированных записей в режиме диалога;
  • слияние баз данных, сформированных в различных организациях, с предварительным пакетным приведением к идентичности меток (если они были различны);
  • традиционный для всех ИПС поиск записей в отдельных подбазах по всем полям, их фрагментам и сочетаниям, связанным логическими условиями ("и", "или", "равно", "не равно", "больше", "меньше"), поиск с "маскированием" ключевых элементов, краткий и полный просмотр найденных записей, отбор записей из найденных и вывод в файл в различных форматах. Кроме того, за счет обработки перекрестных ссылок, система предоставляет возможность автоматического получения информации из различных подбаз на основе обработки запроса к одной из них;
  • формирование фрагментов полной БД по результатам поиска информации.

Комплекс "РОНА-Л" включает также набор сервисных программ, позволяющий производить все необходимые операции по обслуживанию системы. К их числу относятся:

  • программа инсталляции базы данных, позволяющая создавать подбазы требуемой структуры с настройкой на ввод различных полей фиксированной или переменной длины, часть из которых может быть объявлена обязательными (это означает, что система "не выпустит" оператора, пока он не введет данное поле);
  • программа индексации, решающая задачи обновления словарных файлов, а также восстановления базы данных на основе двух основных файлов при частичной потере данных и сжатия базы за счет физического удаления логически исключенных записей.

Как показала практика, комплекс "РОНА-Л" достаточно удобен для формирования библиографических баз данных в библиотеках. С его помощью силами 6-ти организаций различных ведомств создана и продолжает пополняться база данных отечественных публикаций по геофизическим методам разведки. В процессе ее создания подтверждена эффективность специальных алгоритмов и программного обеспечения для распознавания дублированных библиографических описаний (в слитой базе, содержащей около 30-ти тысяч записей, программными средствами было выявлено и исключено после подтверждения специалистами около 2-х тысяч дублированных записей). В настоящее время комплекс активно используется библиотеками НИУ РАН для ведения баз данных трудов сотрудников НИУ.

Другое применение комплекс нашел в системах избирательного распространения информации, реализуемых в библиотеках академических институтов. Поскольку он обеспечивает возможность формирования фрагментов базы данных, содержащих лишь записи, отвечающие введенному запросу.

В настоящее время ведутся работы по обеспечению возможности работы с системой "Наука России" через Inernet.