ПРИМЕНЕНИЕ ЭВМ В ИНФОРМАЦИОННО - БИБЛИОТЕЧНОЙ ТЕХНОЛОГИИ

В.В. Васильчиков, А.В. Глушановский, Н.Е. Калёнов

Библиотека по естественным наукам РАН

Представление информации в библиографической базе данных и её использование

Традиционно библиографические базы данных (ББД) ориентируются на одну из двух групп пользователей, условно обозначаемых нами "библиографы" и "ученые". К первой группе мы относим тех, кого интересует издание в качестве материального объекта (в том числе его производитель, размеры, цена) и правовые аспекты этого издания (первичная, вторичная, альтернативная, коллективная ответственность и т.п.). "Учёных" издания интересуют в качестве материальных носителей нужной им информации. В ББД, ориентированных на первую группу, подробно расписываются области выходных данных, физических характеристик, примечаний. Примером таких ББД могут служить традиционные библиотечные каталоги. В них можно быстро найти нужную карточку по фамилии автора или первому слову из названия, но для поиска литературы по какому-либо узкому разделу знаний необходимо просмотреть (перебрать !) все карточки соответствующего раздела систематического каталога.

В других ББД (таких как Chemical Abstracts, MEDLINE, Science Citation Index) подробно расписываются содержательные аспекты издания - слова из заглавия и реферата, ключевые слова (авторские, референта), дескрипторы, различные классификационные индексы и значительно меньше внимания уделяется описанию издания как продукции издательско-полиграфического процесса.

Правильная оценка предполагаемого круга пользователей ББД имеет вполне конкретный экономический эффект, так как (для форматов типа ISO-2709 и MARC) чем больше полей в библиографической записи, тем дольше ввод её, выше тре6ования к квалификации тех, кто занят подготовкой и вводом информации (а значит выше и оплата труда) и больше должна быть емкость дисковой памяти.

Нам представляется перспективной разработка Б БД, дробность представление информации, в которых определяется следующими критериями:

• минимизация количества служебной информации,

• близость к стандартному библиографическому описанию,

• возможность программного выделения элементов библиографического описания,

• частота использования элементов библиографических записей в процессе поиска и генерации отчётов.

Следует учитывать и тот факт, что в очень больших библиографических базах данных, особенно при сплошной росписи журналов, значительная часть статей оказывается невостребованной. Поэтому целесообразно часть работы по выделению элементов бибописания перенести со стадии загрузки всех документов в БД на стадию поиска или генерации отчёта только для востребованных документов. Это же верно и при вводе в электронный каталог информации о старых изданиях, ибо, чем старше издание, тем реже спрос на него.

Возможность загрузки ББД документами в формате стандартного библиографического описания наиболее актуальна для создания ретроспективного электронного каталога. При наличии конвертера становится возможным с помощью сканера и соответствующих программ преобразовать в текстовые файлы Ежегодники Книжной палаты и создать полный библиографический указатель всех изданий СССР. Правда, для выполнения этой работы необходимо улучшить программы выделения текста из графического изображения, значительно повысив достоверность распознавания букв и, особенно, цифр (год, номер, выпуск, страницы).

Достоверность введенной информации может быть значительно повышена за счёт использования дополнительных источников - библиографических карточек, массивов ВИНИТИ, различных библиографических указателей. Все несовпадения могут фиксироваться и выдаваться операторам для принятия решений. При вводе переизданий может использоваться информация о предыдущих изданиях. В процессе ввода должны формироваться словари (authority-files фамилий, имен, отчеств, городов, издательств, типографий), используемые для контроля за вводом информации. Другими словами, при считывании информации целесообразно управлять преобразованием графического изображения в текст с учётом ранее введенной информации.

Потенциальные возможности описанного подхода к распознаванию элементов бибописания иллюстрируются на примере разработанного в БЕН РАН конвертера, преобразующего библиографическое описание книг (текстовый файл с записями, соответствующими ГОСТ 7.1-84 ) в файл, соответствующий требованиям формата UNIMARC в редакции ГПНТБ. Программа накладывает на исходный текст бибописания некоторые ограничения, большинство из которых довольно естественны. Например, заголовок бибописания не должен начинаться с красной строки, знаки, предусмотренные ГОСТом для разделения элементов бибописания, должны окружаться пробелами. Должны строго соблюдаться ГОСТы на сокращения слов, ибо сокращения типа "ил.", "Рез.", "Библиогр." используются для идентификации областей и отдельных элементов библиографического описания.

Примеры преобразований форматов.

карточка:

Проблемы экологического мониторинга и моделирования

экосистем

Т. 15. - 1993. - 289 с. : ил. - Рез. работ англ. Библиогр.

в конце работ. - ISBN 5-2S6-OOS56-9.

 

Запись 1 Маркер записи = 00525nam 2200205 i450

Статус записи-новая запись

Коды применения

Тип записи - языковые материалы, печатные

Библиографический уровень - монографический

Код иерархического уровня - иерархическая связь не определена

Длина индикатора - 2

Длина идентификатора подполя - 2

Базовый адрес данных - 00205

Дополнительное определение записи - 17-19

Уровень кодирования - полный уровень

Форма каталогизационного описания - Запись частично в формате ISBD

План справочника 20-23

Длина поля - 4

Длина начальной позиции символов - 5

Длина части, определяемой при применении - 0

001 Идентификатор записи KatBEN00001▲

010 ISBN

▼ a5-2S6-OOS56-9▲

идентификатор = а подполе - 5-286-00856-9

100 Данные общей обработки

▼al9950421dl993 |||y0rusy0102 са▲

Дата ввода записи в файл: 19950421

Тип даты публикации: монография, издаваемая полностью или в течение года

Дата издания 1993

Код целевого назначения |||

Правительственная публикация - неправительственная публикация

Код модифицированной записи 0 - немодифицируемая запись

Язык каталогизации : rus

Правила транслитерации не используются

Наборы символов : 0102

Дополнительные наборы символов :

Графика заглавия : са

101 Язык документа

| ▼arus▼d|||▲

Язык текста: rus Язык резюме: |||

105 Поле кодированных данных: Книга

▼aa|||z 001|| ▲

Коды иллюстраций - а|||

Коды формы содержания - z

Не является изданием, публикуемым от имени конференции

Не юбилейное издание

Указатель имеется

200 Заглавие и сведения об ответственности

1 ▼аПроблемы экологического мониторинга и моделирования экосистем▲ Заглавие является значимым

Основное заглавие: Проблемы экологического мониторинга и моделирования экосистем

210 Публикации, распространение и т.д.

▼dl993▲

Дата издания, распространения: 1993

215 физическая характеристика

▼a289 с▼ сил▲

Обозначение специфического вида материала: 289 с

Другие уточнения физических характеристик: ил

225 Серия

1 ▼vT.15▲ Форма заглавия: нет установленной формы

Обозначение тома: Т.15

300 Общие примечания

▼аРез. работ англ.▲

идентификатор = а подполе - Рез. работ англ.

320 Примечания о наличии в документе библиографии

▼аБиблиогр. в конце работ▲

идентификатор = а подполе - Библиогр. в конце работ

675 УДК

▼а504.064.36:574▲

Индекс УДК: 504.064.36:574

675 УДК

▼a574.001.573▲

Индекс УДК: 574.001.573

801 Источник составлена записи

0▼aSU▼ b60▼c19950421▲

Агентство, первоначально составляющее запись

Страна: SU

Агентство: 60

Дата составления: 19950421

901 ????

▲ ▼ а1001103X

идентификатор = а подполе - 10011ОЗХ

карточка:

Альбом принципиальных схем персональных компьютеров.

-М. : Машиностроение, 1992. - 342 с: : схем. - ISBN 5-217-

02029-6.

 

Запись 2 Маркер записи = 00456nam 2200169 i 450

Статус записи - новая запись

Коды применения

Тип записи - языковые материалы, печатные

Библиографический уровень - монографический

Код иерархического уровня - иерархическая связь не определена

Длина индикатора - 2

Длина идентификатора подполя - 2

Базовый адрес данных - 00169

Дополнительное определение записи - 17-19

Уровень кодирования - полный уровень

Форма каталогизационного описания

Запись частично в формате ISBD

План справочника 20-23

Длина поля - 4

Длина начальной позиции символов - 5

Длина части, определяемой при применении - 0 001 Идентификатор записи KatBEN00002▲

010 ISBD

▼а5-217-02029-6▲

идентификатор = а подполе - 5-217- 02029-6

100 Данные общей обработки

▼a19950421dl992 |||y0rusy0102 са▲

Дата ввода записи и файл: 19950421

Тип даты публикации: монография, издаваемая полностью или в течение года

Дата издания 1992

Код целевого назначения |||

Правительственная публикация - неправительственная публикация

Код модифицированной записи 0 - немодифицируемая запись

Язык каталогизации : rus

Правила транслитерации не используются

Наборы символов : 0102

Дополнительные наборы символов :

Графика заглавия : са

101 Язык документа

| ▼arus▲

Язык текста: rus

102 Страна публикации или производства

▼aSU▼bsu▲

Страна публикации: SU

Место издания: su

105 Поле кодированных данных: Книга

▼аа|||z 000||▲

Коды иллюстраций - а|||

Коды формы содержания - z

Не является изданием, публикуемым от имени конференции

Не юбилейное издание

Указатель отсутствует

200 Заглавие и сведения об ответственности

1▼аАльбом принципиальных схем персональных компьютеров▲

Заглавие является значимым

Основное заглавие: Альбом принципиальных схем персональных компьютеров

210 Публикации, распространение и т.д.

▼сМашиностроение▼d1992▼аМ.▲

Имя издателя, распространителя: Машиностроение

Дата издания, распространения: 1992

Место издания, распространения: М.

215 физическая характеристика

▼а342с▼ссхем▲

Обозначение специфического вида материала: 342 с Другие уточнения физических характеристик: схем

675 УДК

▼а681.322-181.4] .02:621.3.061 ПЭВМ (084)▲

Индекс УДК: 681.322-181.4] .02:621.3.061 ПЭВМ (084)

801 Источник составления записи

0▼aSU▼b60▼cl9950421▲

Агентство, первоначально составляющее запись

Страна: SU

Агентство: 60

Дата составления: 19950421 .

901 ?????

▲▼а1001103X

идентификатор = а подполе - 1001103Х

карточка:

Калинин_Анатолий Сергеевич, Смирнов_Александр Ниолаевич.

Динамические модели рудно-магматических систем на примере

месторождений вольфрама, молибдена и олова юга

Восточной Сибири. - Иркутск : Изд-во Иркут. ун-та, 1993. -

159 с. : ил., карт. - Библиогр.: с.153-158. - ISBN 5-7430-0413-7.

Запись 3

Маркер записи = 00625nam 2200205 i 450

Статус записи - новая запись

Коды применения

Тип записи - языковые материалы, печатные

Библиографический уровень - монографический

Код иерархического уровня - иерархическая связь не определена

Длина индикатора - 2

Длина идентификатора подполя - 2

Базовый адрес данных -- 00205

Дополнительное определение записи - 17-19

Уровень кодирования - полный уровень

форма каталогизационного описания: Запись частично в формате ISBD

План справочника 20-23

Длина поля - 4

Длина начальной позиции символов - 5

Длина части, определяемой при применении - 0

001 Идентификатор записи KatBEN00003▲

010 ISBD

▼а5-7430-0413-7▲

идентификатор = а подполе - 5-7430-0413-7

100 Данные общей обработки

▼ al9950421dl993 |||y0rusy0102 ca▲

Дата ввода записи в файл: 19950421

Тип даты публикации: монография, издаваемая полностью или в течение года

Дата издания 1993

Код целевого назначения |||

Правительственная публикация - неправительственная публикация

Код модифицированной записи 0 - немодифицируемая запись

Язык каталогизации : rus

Правила транслитерации не используются

Наборы символов : 0102

Дополнительные наборы символов :

Графика заглавия : са

101 Язык документа

| ▼ arus▲

Язык текста: rus

102 Страна публикации или производства

▼aSU▼ bsu▲

Страна публикации: SU

Место издания: su

105 Поле кодированных данных: Книга

▼аa|||z 001||▲

Коды иллюстраций - а|||

Коды формы содержания - z

Не является изданием, публикуемым от имени конференции

Не юбилейное издание

Указатель имеется

200 Заглавие и сведения об ответственности

1▼ аДинамические модели рудно-магматических систем на примере

месторождений вольфрама, молибдена и олова юга Восточной Сибири ▲

Заглавие является значимым

Основное заглавие: Динамические модели рудно-магматических систем

на примере месторождений вольфрама, молибдена и олова юга Восточной

Сибири

210 Публикации, распространение и т.д.

▼ сИзд-во Иркут. ун-та▼ d11993▼ аИркутск▲

Имя издателя, распространителя: Изд-во Иркут. ун-та

Дата издания, распространения: 1993,

Место издания, распространения: Иркутск

215 физическая характеристика

▼ а159 с▼ сил., карт▲

Обозначение специфического вида материала: 159 с

Другие уточнения физических характеристик: ил., карт

320 Примечания о наличии в документе библиографии

▼ аБиблиогр. : с. 153-158▲

идентификатор = а подполе - Библиогр. : с. 153-158

675 УДК

▼а553.4.065.001.57(571.5)▲

Индекс УДК: 553.4.065.001.57(571.5)

700 Имя лица-первичная интеллектуальная ответственность

1▼аКалинин▼ bА.С.▲ Имя лица записано под фамилией

Начальный элемент ввода: Калинин

Часть имени, кроме начального элемента ввода: А.С.

701 Имя лица-альтернативная интеллектуальная ответственность

1▼ аСмирнов▼ bА.Н.▲ Имя лица записано под фамилией

Начальный элемент ввода: Смирнов

Часть имени, кроме начального элемента ввода: А.Н.

801 Источник составления записи

0▼aSU▼ b60▼cl9950421▲ Агентство, первоначально составляющее

запись

Страна: SU

Агентство: 60

Дата составления: 19950421

901 ?????

▲ ▼а1001103X

идентификатор = а подполе - 1001103Х