ПРИМЕНЕНИЕ ЭВМ В ИНФОРМАЦИОННО - БИБЛИОТЕЧНОЙ ТЕХНОЛОГИИ

И.И. Ильина, В.В. Царьков

Российская книжная палата

Проблемы ретроспективной конверсии фондов Государственного Генерального Каталога книг Российской книжной палаты (краткие сведения)

1. Введение

Развитие автоматизированных информационных технологий, широкое распространение средств вычислительной техники в сфере информатики, накопление больших информационных массивов на электронных носителях и предоставление их в "сервис" различным пользователям, развитие средств и методов обработки текущей библиографической информации позволили информационным центрам взяться за решение задачи, которая до начала восьмидесятых годов оставалась "за бортом" автоматизированных информационных систем, а именно - за перевод в электронную форму традиционно формируемых во всех информационных центрах карточных каталогов. Эта задача получила активное развитие и заняла одно из ведущих мест в деятельности международных информационных организаций, в частности, - IFLA - под названием - "Программа ретроспективной конверсии - RECON".

Работы по ретроспективной конверсии традиционных карточных каталогов присущи, по существу, всем библиотекам и информационным центрам, создающим автоматизированные информационные технологии. Это объясняется необходимостью создания единого информационного фонда в электронной форме, так как только на этой основе возможно обеспечение полноценного информационного обслуживания.

2. Государственный Генеральный каталог

Формируется с 1917 г. и содержит сведения более чем о 30 млн. книг, в том числе Государственного алфавитного каталога насчитывается более 20 млн. единиц хранения (каталожных карточек), в том числе более 4,6 млн. оригинальных каталожных карточек в алфавитном каталоге авторов книг, 2 млн. карточек в каталоге заглавий, 3 млн. карточек в каталоге коллективных авторов, 2 млн. карточек в каталоге наименований серий. Для начала работ по ретроспективной конверсии и формированию электронного ретроспективного фонда банка данных Книжной палаты выбран алфавитный каталог авторов (4,6 млн. карточек).

Создание электронного каталога Книжной палаты является масштабным проектом в области информационных технологий, призванным обеспечить все многообразие функций государственной библиографии. В силу специфичности каталогов Книжной палаты, данные которых представляют собой неструктурированные и непериодизированные библиографические записи, затруднен поэтапный ввод баз данных в эксплуатацию, так как каждая из них будет только частью алфавитного ряда всего каталога. Тем не менее, с 1991 г. разрабатывается проект ретроспективной конверсии каталогов Книжной палаты.

3. Состав задач ретроспективной конверсии

Создание проекта ретроспективной конверсии каталога предусматривает решение следующих задач:

- выбор исходного каталога, подлежащего конверсии на первом этапе,

- выбор технологии ввода информации с каталожных карточек,

- создание информационного и лингвистического обеспечения автоматизированной технологии ретроспективной конверсии,

- разработка программного обеспечения ретроспективной конверсии,

- разработка технологии формирования баз данных на основе, данных ретроспективного конвертирования,

- выбор состава технических средств, расчёт их числа, организация технологического процесса.

4. Содержание работ на первом этапе создания проекта

На первом этапе создания проекта ретроспективной конверсии проведено обследования состава фондов Каталога Книжной палаты, проведены работы по анализу технических и программных средств, используемых в информационных центрах (отечественных и зарубежных) для задач ретроспективной конверсии, проведены экспериментальные работы по сканированию текстов каталожных карточек, их распознаванию и последующей конверсии в формализованную запись для загрузки в базы данных. Опыт работ первого года выявил, что первоочередной задачей для создания проекта ретроспективной конверсии Государственного Генерального Каталога Российской книжной палаты являются следующие:

- анализ данных каталога с целью формирования представительного массива типов' каталожных карточек с различными видами библиографических записей;

- создание представительного массива данных о языках текстов изданий (оригиналов, переводов) и о той форме, в которой сведения о языке приводятся в библиографической записи на каталожной карточке;

- создание представительного массива данных о наименованиях географических объектов, о которых идет речь в издании, и о той форме, в которой они приводятся в каталожной карточке;

- создание представительного массива данных о классификационных системах, используемых для систематизации изданий на каталожных карточках;

- анализ систем библиографического описания изданий, методических материалов, руководств и инструкций с целью определения тенденций изменения состава и формы библиографического описания и библиографической записи;

- разработка алгоритмов для создания программ ретроспективной конверсии на все типы библиографических записей;

- сбор информации и анализ программ распознавания текстов каталожных карточек после сканирования с целью определения оптимального варианта технологии.

5. формирование представительного массива типов каталожных карточек

Представительный массив типов каталожных карточек, составляющих Государственный Генеральный каталог, в том числе Алфавитный каталог книг, необходим для получения полной картины типов и видов библиографических записей и библиографических описаний. Формирование этого массива, который в данной разработке выполняет роль модели "микрокаталога" выполнено по следующим правилам.

Микро-каталог составляют:

  • карточки за каждый год формирования каталога,

  • карточки, являющиеся собственно печатными каталожными карточками,

  • карточки, являющиеся вырезками из летописей (применяются, обычно, для тех изданий, которые по правилам государственной библиографии регистрируются только в библиографических указателях - летописях).

По какой из этих групп в модель каталога включены:

  • карточки с различными видами библиографического описания (с заголовком описания на индивидуального автора, на двух индивидуальных авторов, с описанием на заглавие и.т.д.)
  • карточки с различными видами библиографической записи (с добавочными описаниями, предметными рубриками, индексами и.т.д.)
  • карточки со сводным библиографическим описанием,
  • карточки с продолжением текста на следующих,
  • карточки с текстами на несколько языках (с разными графическими основами).

Перечисленные признаки позволяют сформировать основную часть модели каталога, которая после анализа всех собранных карточек даст возможность определить тенденции трансформации библиографических описаний и записей и пополнить модель каталога с целью доведения его представительности до 100%.

Первая редакция микро-каталога включает около 1500 тыс. типов каталожных карточек.

Вторая редакция микро-каталога охватит еще большее число вариантов карточек и составит не менее 2000 тыс. типов.

Представительность модели микро-каталога позволит обеспечить надежность разработки алгоритмов для программ ретроспективной конверсии и технологии обработки всего объема информации каталога.

6. Создание представительного массива данных о языках текстов изданий

Создание представительного массива данных о языках текстов изданий (оригиналов или переводов, или текстов резюме и др., используемых в библиографической записи) выполняется с целью получения надежной информации о языках, как обязательном элементе в библиографических базах данных (в соответствии с форматом (UNIMARC и RETROMARC).

Создание массива данных о языках текстов изданий проводится по материалам библиографических указателей - "летописей" с 1917 г. По состоянию на 1 кв. 1993 г. проведены работы с информацией 1917-1936 гг. По материалам летописей выбраны сведения о наименованиях и сокращениях 150 языков народов зарубежных стран. Работа со сведениями о языках текстов изданий позволила определить не только состав языков, но и тенденции публикации изданий на тех или иных языках.

Так в 1921-1925 гг. прослеживается тенденция сокращения числа изданий на так называемых национальных языках, и в то же время достаточно много публикаций на украинском, польском, немецком, английском, французском языках.

В 1928 г. начинаются публикации изданий на национальных языках на кириллической графической основе.

В 1930-1936 гг. прослеживается явный рост числа изданий на национальных языках народов СССР.

7. Создание представительного массива данных о наименованиях географических объектов

Создание представительного массива данных о наименованиях географических объектов, приводимых в библиографической записи, выполняется с целью получения надежной информации о наименованиях географических объектов, как обязательном элементе в библиографических базах данных (в соответствии с форматом UNIMARC и RETROMARC).

По состоянию на 1 кв. 1993 г. собрана информация о переименованных географических объектах. Использованы данные Института геодезии и картографии, журнала "Геодезия и картография", материалы Парламента, справочника Административно-территориальных" делений союзных республик, Энциклопедический словарь.

8. Создание представительного массива данных о классификационных системах, используемых для систематизации изданий на каталожных карточках

Создание представительного массива данных о классификационных системах, используемых в библиографических записях каталога, выполняется с целью получения надежной информации о системах классификации, как обязательном элементе в библиографических базах данных (в соответствии с форматом UNIMARC и RETROMARC).

На основе собранной информации проектируется создание автоматизированных таблиц соответствия различных вариантов классификационных систем.

По состоянию на 1 кв. 1993 г. собрана информация о классификационных системах, используемых при обработке изданий для регистрации на каталожных карточках и в летописях, начиная с 30-х годов.

9. Анализ систем библиографического описания изданий методических материалов, руководств и инструкций

Для определения тенденций изменения состава и формы библиографического описания и библиографической записи и разработки надежных алгоритмов конверсии текста библиографической записи в формализованную запись формата RETROMARC проводится анализ методических материалов, используемых при библиографическом описании.

По состоянию, на 1 кв. 1993 г. собрана информация 200 наименований методических материалов по библиографическому описанию, по которым сформирована справочная база данных.

Предусматривается проведение анализа этих документов и подготовка материалов для разработки программ конверсии.

10. Разработка алгоритмов для создания программ ретроспективной конверсии

Перечисленные работы являются подготовительными для создания полноценного программного обеспечения, а именно программ собственно конверсии - преобразования текста библиографической записи в запись формата базы данных с обязательным составом полей данных и структурой записи.

По состоянию на 1 кв. 1993 г. разработан алгоритм конверсии информации каталожных карточек, составленных в соответствии с ГОСТ 7.1-84.

Проект предусматривает и разработку алгоритмов и программ конверсии на все типы библиографических записей.

11. Опытные работы

Работы с информацией Каталога в течение двух лет, изучение программного обеспечения, разработка информационного обеспечения позволили определить направления работ с информацией начала века. В частности с информацией, включенной в каталог с 1917 г.

В силу того, что качество полиграфического исполнения этих карточек низкое, состав библиографических записей слабо формализован, обработка этой информации автоматизированным способом (сканер и конверсия) практически невозможна. Поэтому выбрана "ручная", технология ввода той информации, последующее полуавтоматическое редактирование записи и преобразование её в формализованную запись базы данных.