ПРОБЛЕМЫ АВТОМАТИЗАЦИИ БИБЛИОТЕЧНО-БИБЛИОГРАФИЧЕСКИХ ПРОЦЕССОВ В АКАДЕМИЧЕСКИХ БИБЛИОТЕКАХ

А.А.АЛЕКСАНДРОВ, Г.Т.ЖАНГЕЛЬДИНА, Н.И.АКИМОВА, Л.А.ВИТЗОН, О.В.ВИЦАЙ, А.Е.СЕДОВ, Е.И.ГОЛОВАНОВ. Ю.А.СПРИЖИЦКИЙ, В.А.ШЕПЕЛЕВ

ГЕНЭКСПРЕСС: БАЗА ДАННЫХ СТРУКТУР БИОПОЛИМЕРОВ

В соответствии с научно-технической программой "Всесоюзный банк структур биополимеров" ("Генинформ") ВИНИТИ ГКНТ и АН СССР совместно с Институтом молекулярной генетики АН СССР (ИМГ) выпускает базу данных (БД) первичных структур биополимеров "Генэкспресс". В настоящее время выпускается нуклеотидная часть, скоро предполагается белковая часть БД.

Каждая запись БД включает нуклеотидную последовательноть и подробное описание к ней. Описание содержит название секвенированного участка генома, ключевые слова, описание организма - источника последовательности, библиографическую ссылку, таблицу сигналов, локализованных на последовательности, и др. данные. Все последовательности разделены на 11 групп - в соответствии с таксометрической классификацией организма, из которой взята последовательность.

Формат БД близок к формату аналогичной базы данных, выпускаемой Европейской молекулярно-биологической лабораторией (EMBL. Гойдельберг, ФРГ), однако ряд полей БД отличается по своему формату. В отличие от EMBL разработчики БД "Генэкспресс" стремились максимально четко определить назначение каждого элемента описания, чтобы облегчить автоматический поиск информации в БД. Например, поле OS содержит только видовое название организма, а дополнительная информация об организме выделена в отдельное полеOD. При проектировании БД учитывалась возможность дальнейшего развития формата и постепенного перехода к интегрированной БД, в которой одновременно описаны разные типы биологических структур. Например, описание генома должно включать карту генома, а последовательности будут "привязаны" к этой карте. Должны быть описаны такие биологические структуры, как транскрипты, зрелая РНК, белки и др. объекты. Уже сейчас такие объекты , как таксоны классификации организмов, выделены в отдельные таблицы.

Весь процесс создания БД разделяется на ряд этапов. На первом этапе первичные документы (статьи и др. публикации, содержащие последовательности) реферируются специалистами в данной области по четким правилам, изложенным в специальной инструкции. Существенное влияние уделено качеству и однозначности интерпретации таблицы особенностей, описывающей расположение сигналов на последовательности. До момента реферирования нуклеотидная последовательность уже вводится в ЭВМ с контролем правильности ввода и распечатывается для референта. Весь процесс первичного ввода и редактирования записи проводится на ЭВМ, при этом автоматически контролируется правильность заполнения форматов полей.

Выпуск содержит файлы записей последовательностей, разделенные на группы, и различные каталоги (ключевых слов, организмов, библиографических ссылок и т.д.) Каталоги организованы таким образом, чтобы облегчить пользователю поиск нужных записей без непосредственного использования ЭВМ. Выпуск включает также инструкцию пользователя БД и описание формального синтаксиса записей для включения БД в информационно-поисковые системы.

Каждый выпуск БД дополняет предыдущие выпуски: в него включается только новые или отредактированные записи, что повышает оперативность выдачи БД. В выпуски включаются как записи вновь публикуемых последовательностей, так и ретроспективные записи последовательностей, опубликованных до1985 г. Размер одного выпуска - 300, 400 записей. В течение 1987 года должно быть создано 8 выпусков (без учета ретроспективных) - это составит около 5 миллионов нуклеотидов.

В ближайший год предполагаются следующие шаги по развитию БД "Генэкспресс":

  1. Развитие формата БД по нуклеиновым кислотам и усиление системы синтаксического и семантического контролей для контроля за чистотой БД.
  2. Пополнение БД за счет ретроспективных выпусков из последовательностей БД EMBL и Genbank.
  3. Трансляция БД "Генэкспресс" и перенос ее на гибкие дискеты для работы на ПКЭВМ IBM PC.
  4. Разработка формата БД по белкам и создание первых выпусков, в частности, предполагается автоматическое извлечение последовательностей белков из нуклеотидных баз данных.
  5. Разработка формата будущей интегрированной БД.