ПРОБЛЕМЫ АВТОМАТИЗАЦИИ БИБЛИОТЕЧНО-БИБЛИОГРАФИЧЕСКИХ ПРОЦЕССОВ В АКАДЕМИЧЕСКИХ БИБЛИОТЕКАХ

Л.А.ВИТЗОН, Е.И.ГОЛОВАНОВ, А.А.АЛЕКСАНДРОВ

КАТАЛОГИЗАЦИЯ И СЕМАНТИЧЕСКИЙ КОНТРОЛЬ ЗАПИСЕЙ ПРИ ПОДГОТОВКЕ БАЗЫ ДАННЫХ "ГЕНЭКСПРЕСС"

В данной работе описана технология подготовки выпусков БД "Генэкспресс" по первичным структурам нуклеиновых кислот. БД формируется в виде отдельных периодических выпусков, включающих записи БД и каталоги по различным полям. К моменту формирования выпуска записи, включающие сами нуклеотидные последовательности и их описания, заносятся на гибкие магнитные диски. На этапе подготовки выпуска решаются следующие задачи:

  • синтаксический контроль различных полей записи;
  • разбивка всех записей на группы в соответствии с таксономической классификацией организмов, из которых получены последовательности;
  • создание каталогов выпуска по различным элементам описания последовательности: каталог коротких описаний, ключевых слов, названий и таксономической классификации организмов, библиографический и авторский указатели др.;
  • статистический анализ содержания выпуска;
  • перенесение каталогов и самих записей на магнитную ленту для распространения пользователям БД.

Для выполнения указанных этапов на ПКЭВМ Искра-226 создан пакет программ VICAT. Все программы имеют модульную структуру и могут легко перестраиваться и модифицироваться при изменении технологии и формата записей.

Важной задачей при создании быстро растущей базы данных является контроль наполнения отдельных полей. Разработчики БД "Генэкспресс" стремились максимально четко определить формат и назначение каждого элемента описания - это облегчает поиск информации в БД и обеспечивает полноту данных. Особенностью технологии создания БД "Генэкспресс" является семантический контроль содержания БД, проводимый на этапе подготовки выпуска. Содержимое полей из записей, включаемых в выпуск, сравнивается с каталогами (словарями) соответствующих полей всей БД, при этом контролируются все новые элементы: либо в записи допущена ошибка, либо использован синоним, либо в записи появился новый элемент, который включается в общий список. Такая процедура позволяет контролировать также общую структуру элементов данного поля.

При проектировании БД учитывалась возможность дальнейшего развития формата и постепенного перехода к интегрированной БД, в которой одновременно описаны типы биологических структур (транскрипты, зрелая РНК, белки) и связи между ними. В настоящее время такие объекты, как таксоны классификации организмов, выделены в отдельные таблицы - это позволяет независимо редактировать последовательности и таксономическую классификацию. Библиографические описания предполагается также выделять как отдельные объекты БД.