Технология подготовки базы данных по русскоязычным источникам и Электронная библиотека русскоязычной литературы по физико-математическим наукам

 

Шамаев В.Г., Жаров А.В., Батурин В.А., Батурина О.Н., Горшков А.Б., Максимов И.Н.

Введение

С развитием электронных средств предоставления информационных услуг большое значение приобретает такой параметр, как скорость обработки информационных продуктов в информационных центрах и время доставки их потребителю. Так, например, в настоящее время в ВИНИТИ временной промежуток от поступления единицы информации (книга, журнал, депонированная рукопись, патент и т. д.) до отражения ее в Реферативном журнале, поступившем к подписчику, составляет не менее 0,5 года, а зачастую и более [1]. Любой печатный или электронный РЖ середины текущего года наполнен рефератами из источников прошлого года, встречаются и рефераты из источников позапрошлого и более ранних годов. Это связано с долгим процессом обработки документов на входе, переработки их в отделах научной информации при реферировании и редактировании, а также при печати тиража в типографии и доставке печатной продукции подписчику. Электронная продукция снимаемая с баз данных за исключением тиражирования страдает тем же недугом. На сокращение времени обработки на каждом участке требуется много сил, и эта работа должна выполняться постоянно. По первой части, касающейся переработки документов в ВИНИТИ, немало уже сделано: разработана автоматизированная система регистрации документов – АС “Вход”, используется Единая технологическая база данных (ЕТБД), позволяющая автоматизировать весь процесс подготовки РЖ, в том числе автоматически передавать документы из одного выпуска в другой (выполнять дублирование), генерировать оригинал-макет издания буквально за минуты. Формально-логический контроль встроенный в ЕТБД позволяет тщательно проверять документы по многим заданным параметрам перед окончательной передачей их в печать и в Банк данных ВИНИТИ.

Однако не все возможности ускорения обработки информации еще используются. Наряду с пополнением Информационно-технологического комплекса ВИНИТИ Единой технологической базой данных [2, 3], в этой работе мы описываем новую разработку, касающуюся ускорения обработки русскоязычной литературы по физико-математическим наукам. Делая акцент на физико-математические науки, мы кроме всего прочего имели в виду сложность представления математических формул, отдельных символов и физических и математических понятий в электронной форме. Из-за этой сложности БД по математике появилась в ВИНИТИ лишь в 1997 г., для сравнения – по автоматике и радиоэлектронике, машиностроению, биологии – в 1981 г.

Возвращаясь к русскоязычным источникам и их представлению в РЖ, следует сказать, что в ВИНИТИ была сформулирована задача реализации отдельной русскоязычной базы данных со своими собственными задачами, которые сформулированы ниже, а также с возможностью использования ее наполнения в технологии подготовки РЖ. Второй частью этой работы было создание электронной библиотеки полнотекстовых изображений по этим же источникам. Задачей этой библиотеки является предоставление копий статей заказчикам, что является традиционной услугой, которую предоставляет ВИНИТИ, а также снабжение референтов и редакторов электронным изображением статьи по внутренней сети ВИНИТИ (Intranet ВИНИТИ).

Реализация такого проекта включает в себя выбор структуры БД, определение необходимого набора таблиц с заданными полями и связей между ними, ввод библиографической информации и полное сканирование страниц русскоязычных источников. Состав полей базы данных определяется НТП 10-2004 ВИНИТИ [5] как наиболее полным в стране на данный момент источником по описанию документов различных видов в базах данных.

Полностью направление исследований в ВИНИТИ, названное Русскоязычной базой данных, состоит из решения нескольких связанных друг с другом задач:

1. Введение монографической, библиографической и аналитической информации в базу данных;

2. Формирование БД по русскоязычным источникам (РуБД), включающей библиографическое описание, резюме или аннотацию, рубрикацию по отраслям знаний;

2. Создание Центра оперативного хранения цифровых изображений (ЦОХ);

3. Сканирование и передача полнотекстовых изображений в ЦОХ;

4. Создание Электронной библиотеки русскоязычной литературы и web-интерфейса пользователя, позволяющего проводить поиск издания или его составляющих;

5. Создание Узла связи Центра оперативного хранения цифровых изображений с автоматизированным рабочим местом редактора (АРМ Редактора);

6. Формирование информационных продуктов: Сигнальная информация в печатной форме, Электронный журнал сигнальной информации, Информационные извещения для отделов научной информации (ОНИ) в печатной и электронной формах (форма 33).

Принципы решения этих задач описаны ниже.

Структурная и технологическая схемы обработки литературы
при формировании русскоязычной базы данных

Структурно комплекс подготовки Русскоязычной базы данных и производство информационных продуктов можно разделить на несколько участков (рис. 1):

На участке ввода библиографической информации используются АРМы операторов набора, позволяющие вводить библиографическую и реферативную информацию в зависимости от источника НТЛ (журнал, статья в журнале, книга, статья в книге, конференция, депонированная работа и т. д.). Монографическая часть библиографии берется из БД Монографического уровня АС “Вход” по системному идентификатору документа (СИД-1). Набор осуществляется прямо с источника НТЛ (пример разметки статьи из журнала см. на рис. 2). Результаты набора после корректуры и прохождения формально-логического контроля помещаются в Русскоязычную базу данных. В отличие от Единой технологической базы данных (ЕТБД), результаты аналитической переработки документов хранятся в РуБД постоянно (хранение документов в ЕТБД ограничено в настоящее время одним годом).

Затем источник НТЛ поступает на участок сканирования, где выполняется его постраничное сканирование и помещение оцифрованных изображений в Центр оперативного хранения цифровых изображений. Для длительного хранения и, одновременно, создания резервных копий по мере накопления материала информация переписывается на DVD-диски, которые помещаются в Библиотеку долговременных копий.

На участке подготовки информационных продуктов происходит формирование оригинал-макета для печатного выпуска Сигнальной информации поступлений в РуБД и снятие Электронного выпуска сигнальной информации.

На участке взаимодействия с ОНИ и АС “Вход” происходит съем с РуБД информации для запуска ее в виде так называемой формы 33 в документальный поток, поступающий в ОНИ, а с помощью АРМ Редактора, установленного в ОНИ, возможен просмотр редакторами полного текста заинтересовавшей их статьи из Центра оперативного хранения. Наличие этого участка позволяет также избегать копирования источников на бумагу и рассылки копий по отраслевым отделам.

Рис. 1. Структурная схема обработки русскоязычной НТЛ.

 

Рис. 2. Пример разметки статьи из журнала.

После всех этих операций документы проходят этап формально-логического контроля (ФЛК) и происходит либо сохранение документа в РуБД, либо его исправление с последующим повторением ФЛК и при положительном исходе окончательным сохранением в РуБД. Монографическая информация для каждого документа снимается с БД Монография АС “Вход”.

На участке сканирования для каждого источника перед сканированием вводится СИД-1, выполняется запрос РуБД на наличие издания, имеющего такой СИД-1 и проводится проверка на отсутствие скана для этого источника (с целью исключения повторного сканирования, что никогда нельзя исключить). При положительном ответе проводится ввод номера страницы (страниц) содержания, номера страницы первой статьи источника для последующего использования при извлечении документов из хранилища изображений, кода пригодности источника для сканирования и выполняется сканирование, этапы которого подробно описаны в [6]. Проверка качества каждого скана на первом этапе выполняется оператором сканирования сразу после его проведения и, в дальнейшем, тщательным просмотром изображений при комплектовании выходного продукта для передачи в Центр оперативного хранения цифровых изображений.

В РуБД кроме библиографической информации, хранится также техническая информация, позволяющая в дальнейшем извлекать необходимые страницы издания: признак наличия у документа изображения (документы плохого качества не сканируются), номер страницы оглавления, номер страницы первой статьи (для последующего правильного извлечения других статей источника) и др.

Затем, проводится объединение отдельно отсканированных страниц источника в единый файл и запись его в Центре оперативного хранения цифровых изображений. Запись статистической информации в БД и управление процессом объединения изображений страниц в единый файл осуществляется с помощью программы ListToFile.

По мере накопления отсканированных изображений производится запись резервных копий этой информации на DVD-диски для создания Библиотеки резервных (долговременных) копий.

 

Основные структурные элементы РуБД и их краткое описание

Русскоязычная база данных представляет собой совокупность библиографической и содержательной информации, а также служебных данных, характеризующих обрабатываемый поток научно-технической литературы с точки зрения прохождения определенных технических этапов.

Документы организованы в виде совокупности таблиц:

RuBD_mono – таблица, содержащая системный идентификатор издания (СИД-1), монографическое описание в XML-формате и служебную информацию;

RuBD – таблица, содержащая системный идентификатор издания (СИД-1), системный идентификатор документа (СИД-2), данные о тематической разметке документа, виде документа, содержательную информацию в XML-формате;

RuBD_texno – таблица, содержащая системный идентификатор документа (СИД-2), признак наличия сканированного изображения и служебную информацию.

Кроме основных таблиц RuBD, RuBD_mono и RuBD_texno, используются вспомогательные таблицы:

NTP_lab – описание полей НТП. Таблица используется для проведения формально-логического контроля, операции сборки и извлечения полей в форматах XML;

NTP_doc – распределение полей НТП по видам документов с признаками обязательности и другими параметрами.

Формирование Сигнального выпуска РЖ

Подготовка Сигнального выпуска состоит из следующих этапов:

 

Рис. 6. Adobe Acrobat Professional с преобразованным файлом и открытой вкладкой “Bookmarks”, слева  оглавление сигнального выпуска, справа первая страница, соответствующая указателю сигнального выпуска.

Рис. 7. Adobe Acrobat Professional с открытой вкладкой “Pages” и выделенной страницей “Оглавление”.

Титульный лист выпуска готовится на основании шаблона, созданного с помощью Microsoft Word (см. рис. 8) путем модификации номера выпуска, года и другой значимой информации.


Рис. 8. Титульный лист выпуска Сигнальной информации по физико-математическим наукам.

 

Технологический участок поточного сканирования русскоязычной литературы по физико-математическим наукам

Общие положения

Технологическая линейка поточного сканирования является частью проекта разработки технологии обработки входного массива русскоязычных изданий по физико-математическим наукам. Выходной поток может быть использован для изготовления печатных копий, просмотра текстовых статей на мониторе компьютера, для полного или частичного распознавания текста в изданиях и индексирования и поиска требуемой информации, пересылки образов печатных изданий по локальной сети (Intranet ВИНИТИ) и сети Internet.

Результатом работы технологической линейки процесса поточного сканирования (ППС) является файл в формате PDF, содержащий индивидуальные изображения отдельных страниц издания, упорядоченные в порядке номеров страниц.

Для достижения этого результата выполняются следующие операции:

Требования к технологической линейке

Технологическая линейка должна удовлетворять следующим требованиям:

Технологические операции в процессе ППС

Характеристики входного потока периодических изданий

Входной поток по участку русскоязычной периодики оценивается в 380 наименований журналов, со средним числом страниц 96. Таким образом, максимальная цифра составляет 36500 или около 1800 страниц в день (восемнадцать журналов в день).

Распределение поступлений по дням неравномерно, что может приводить к переполнению технологических линеек и задержке в обработке журналов.

В соответствии с техническими характеристиками среди поступающего потока выделяются журналы, непригодные для сканирования по своим оптическим характеристикам. Это журналы, отпечатанные на цветной бумаге, с неоднородным фоном, со значительным количеством цветных фотоиллюстраций. Таких журналов около 10%.

Оставшаяся часть принимается для сканирования, и подразделяется на три группы по характеру переплета и качеству бумаги. Этот критерий является ключевым для определения нормы производительности технологической линейки.

 

Заключение

Наполнение РуБД по физико-математическим наукам началось в 2004 г. и в настоящее время насчитывает около 110000 единиц хранения. Данные по библиографии доступны в открытом режиме по адресу: http://catalog.viniti.ru/ElLibrary/.

Литература:

1. Черный А.И. Всероссийский институт научной и технической информации: 50 лет служения науке. –М.: ВИНИТИ, 2005. –316 с.

2. Шамаев В.Г., Жаров А.В., Горшков А.Б. Единая технологическая база данных для подготовки информационных продуктов ВИНИТИ. НТИ. Сер. 1. Организация и методика информационной работы. 2006. № 4.

3. Шамаев В.Г., Жаров А.В., Батурина О.Н., Горшков А.Б., Лось Е.К., Лукашевич Н.Л., Максимов И.Н., Седякина А.Н., Старцева О.Б., Щербина-Самойлова М.Б., Ягельницкая О.А. Разработка технологии создания единой технологической базы данных для подготовки информационных продуктов ВИНИТИ. ВИНИТИ – М., 2005. 72 с: Ил. 41. Библиогр. –2 назв. – Рус. – Деп. в ВИНИТИ 07.11.2005, № 1430-В2005.

4. Шамаев В.Г., Жаров А.В. Электронный реферативный журнал ВИНИТИ по физико-математическим наукам. НТИ. Сер. 1. Организация и методика информационной работы. 2006. № 3, с. 15–25.

5. Представление элементов данных во внутрисистемном формате ВИНИТИ. Нормативно-техническое предписание НТП ВИНИТИ 10-2004. ВИНИТИ. М., 2004. 104 с.

6. Шамаев В.Г., Жаров А.В., Батурина О.Н., Горшков А.Б., Лось Е.К., Максимов И.Н., Старцева О.Б. База данных и Электронная библиотека русскоязычной литературы по физико-математическим наукам./ ВИНИТИ – М., 2005. 84 с.: – Рус. – Деп. в ВИНИТИ 15.12.2005, N 1682-B2005.