Информационное обеспечение науки Новые технологии

В.П. Захаров, А.Ц. Масевич

(БАН, Санкт-Петербург)

АКТУАЛЬНЫЕ ПРОБЛЕМЫ
ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ
АВТОМАТИЗИРОВАННЫХ СИСТЕМ
КРУПНЫХ БИБЛИОТЕК РОССИИ

К сфере лингвистического обеспечения мы относим три основные задачи, которые должны решаться при создании любой автоматизированной библиотечной системы - структуризация библиографической записи, индексация библиографической записи средствами информационно-поискового языка и представление библиографической записи.

Таким образом, под лингвистическим обеспечением (ЛО) следует понимать совокупность средств естественного и искусственных языков, применяемых в АИПС для структуризации, индексации, поиска и представления библиографических записей.

Как представляется, эти три составляющих ЛО присутствуют в любой информационной системе, независимо от ее технической базы - от карточных каталогов и печатных библиографических указателей до новейших информационных систем.

Отметим при этом, что проблемы теории лингвистического обеспечения нами в настоящем материале подробно не рассматриваются, т.к. эти вопросы требуют специальной детальной публикации. Просто перечислим те из них, которые нам представляются особенно существенными.

1. Вопрос о "предмете документа", дефиниции, когнитивно-лингвистический и философский аспекты проблемы.

2. Проблема "адекватности" при функционировании любого ИПЯ, и вообще в библиотечно-библиографических процессах. Сюда, в частности, следует отнести и проблему полноты/краткости библиографической записи.

3. Контекстуальная субъективность при индексации и библиографическом поиске документов, устойчивость и последовательность описания и индексирования документа.

В настоящей статье мы касаемся только 2-х вопросов, связанных с ЛО - нашего подхода к проблемам машинного формата и индексации библиографических записей, а также отдельных вопросов, касающихся организации работы над созданием лингвистического обеспечения информационной системы БАН. Как раз с одной из организационных проблем хотелось бы начать.

На наш взгляд, один из наиболее сложных вопросов - это организация работы по созданию АИБС вообще и их ЛО в частности.

Когда говорят о решении проблемы автоматизации крупных библиотек, в качестве основной (и в представлении многих едва ли не единственной) трудности называются вопросы экономики. У специалистов по технике и программированию, особенно у тех, кто впервые сталкивается с библиотекой, часто возникает иллюзия, что автоматизация библиотеки - концептуально несложная задача, требуются лишь деньги, чтобы ее реализовать. Как говорил дон Базилио из "Севильского цирюльника": "Вы дайте денег, а я вам все устрою.".

Нам представляется, что даже на уровне проектирования системы возникает ряд проблем, который следует отнести к области социальной психологии.

Во-первых, это хорошо известный конфликт между "радикалами и консерваторами". Позволим себе процитировать несколько строк из речи бывшего директора Баварской государственной библиотеки Франца Георга Кальтвассера, опубликованной в библиотечном журнале "Zeitschrift fur Bibliothekswesen":

"[Автоматизация библиотеки была] совсем не легкой задачей потому, что многим сотрудникам, которые хотели бы оставить все как есть, приходилось объяснять, что их работа имеет будущее только при использовании новых технических средств. С другой стороны, чересчур рьяным технократам надо было дать понять, что они своей грубой сенокосилкой, которой я бы уподобил созданную без должного понимания и чрезмерно упрощенную АИПС, не должны стричь клумбу редких цветов".

Сегодня эта проблема возникает в новом ракурсе. Уже не осталось, пожалуй, даже среди представителей самого старшего поколения библиотекарей таких, кто выступал бы против автоматизации вообще. Проблема состоит скорее в том, что программисты часто плохо представляют себе, что именно они должны сделать, а библиотекари, плохо представляя реальные возможности автоматизации вообще и в конкретной библиотеке в частности, во-первых, не умеют внятно объяснить, что нужно сделать, во-вторых, имеют неадекватные ожидания, приводящие, разумеется, к разочарованиям.

Часто те и другие претендуют на главную роль в разработке системы, роль ее идеолога. При этом, как мы попытаемся показать ниже, библиотекари часто настаивают на механическом следовании традиции докомпьютерной библиотеки или на весьма субъективных, часто неполных или эклектических представлениях об автоматизированных системах.

Программисты, напротив, часто игнорируют библиотечную традицию, считают многие реалии библиотечного дела глубокой архаикой и норовят стричь клумбу редких цветов".

Во-вторых, создание системы и ее ЛО - работа междисциплинарная. Следовательно, в ней должны участвовать различные специалисты. Взаимопонимание и координация работы таких междисциплинарных групп часто представляет собой проблему. Кроме этого, сегодня необходимость обмена данными ясна каждому - это требует взаимодействия различных библиотек. Эта проблема находит отражение в литературе. Сошлемся здесь на статью: Kaiser A. Computer supported cooperative work: Moderscheinung oder Paradigma // NfD. - 1994. - №5.

Эта статья посвящена новому направлению в информатике - Computer supported cooperative work (CSCW), которое определяется как использование компьютерной среды группой лиц или организаций для решения некоторой общей задачи. Иногда в литературе используется термин groupware по аналогии с software - некоторая концепция групповой компьютерной разработки.

Перейдем теперь к двум основным элементам ЛО АИБС.

Структура записи. К проблеме машинного формата библиографической записи существует разное отношение.

Многие библиотеки (и БАН в т.ч.) считают необходимым применение формата типа MARC. Однако среди сторонников MARC'а также существуют разногласия о том, какую версию MARC следует принять.

Некоторые считают целесообразным принять за основу одну из существующих версий, например, USMARC, UKMARC или UNIMARC. Кстати, о недостатках и преимуществах каждой из них ведутся эмоциональные и малопродуктивные споры. Слишком большая приверженность какой-либо одной версии (например, многие у нас в БАН считают UKMARC - единственно возможным решением) - это, на наш взгляд, пример "библиотечного" подхода к проблеме.

Существует также мнение, что следует разработать собственную версию MARC - RUSMARC - национальный формат.

Известна и еще одна точка зрения - согласно ей MARC (любой версии) вообще представляет собой архаизм, создание которого связано в основном с такими малоприменяемыми сегодня носителями информации, как магнитные ленты. Противники MARC'а видят в его довольно сложной структуре источник ненужных трудностей при создании записи. При этом, считают противники MARC, разработанная техника конвертирования записей позволит при необходимости получать библиографические записи в любом из видов MARC. В этой точке зрения мы видим некоторую категоричность программиста.

Мы считаем использование MARC необходимым по следующим причинам.

MARC - это логическое продолжение истории традиционного библиографического описания. В нем обобщен опыт многих поколений каталогизаторов.

MARC - это, помимо всего прочего, мощный информационный язык, который может быть охарактеризован в терминах лингвистики следующим образом:

  • это - своего рода словарь, отражающий многообразие библиографической "реальности" и определяющий объем и характер информации, которую может и/или должна содержать библиографическая запись (речь идет о лексике и семантике);

  • это - стандарт библиографической записи в машиночитаемом виде, нормирующий форму ее представления. Здесь мы говорим о синтаксисе языка.

Использование и интерпретация формата MARC в библиотечной практике соответствует лингвистической прагматике.

Наконец, существенным моментом является необходимость учесть то обстоятельство, что в ходе внедрения MARC в конкретной библиотеке рассматривается ряд решений, специфичных исключительно для нее.

Если продолжить использование нашей лингвистической метафоры, то в данном случае можно говорить о "диалекте" языка формата. "Диалект" языка формата неизбежно возникает при использовании той или иной версии MARC в конкретных условиях конкретной библиотеки. На наш взгляд, возникновение "диалектов" формата абсолютно неизбежно и обязательно должно учитываться при работе над лингвистическим обеспечением.

При этом мы считаем, что различия между отдельными версиями MARC не носят принципиального характера.

В БАН принято решение использовать UNIMARC в качестве основы для формата машиночитаемой библиографической записи. Вот основания нашего решения:

  • формат UNIMARC является результатом мирового опыта электронной каталогизации документов;

  • Формат UNIMARC создавался с учетом общего и особенного в национальных библиотеках и библиографических центрах с целью обеспечения международного обмена библиографическими данными в машиночитаемой форме;

  • UNIMARC является наиболее современным и структурированным библиографическим обменным форматом, предназначенным для применения в национальных библиографических учреждениях и пригодным для использования в качестве модели для развития новых машиночитаемых форматов;

  • UNIMARC может обеспечить отражение общей для всех библиотечно-информационных учреждений и специфической для БАН библиографической информации, потому он легко может быть адаптирован как внутренний формат БАН;

  • в условиях России UNIMARC - это единственный международный формат, имеющий документацию на русском языке (перевод UNIMARC Manual, в 1993 г., перевод UNIMARC/Authorities 1994 г.);

  • UNIMARC поддерживается постоянным комитетом IFLA, а также специальной программой UBCIM IFLA; в рамках этой программы существует группа для наблюдения за использованием и совершенствованием формата и оказания консультационной помощи библиотечным и информационным организациям, внедряющим этот формат. Эти учреждения постоянно выпускают методические материалы по проблемам машинных библиографических записей;

  • формат принят в качестве основного внутреннего формата в ряде крупных библиотек России - Российской национальной библиотеке, ГПНТБ и ряде других. В этом качестве формат используется также многими зарубежными библиотеками;

  • UNIMARC был предложен в качестве формата для ретроспективной конверсии. Он будет использоваться, в частности, для создания общеевропейского банка данных по старопечатной книге в рамках консорциума научно-исследовательских библиотек.

  • Таким образом, мы считаем, что формат БАН, над которым сейчас мы работаем, будет, скорее всего, представлять собой UNIMARC, адаптированный к потребностям БАН.

При создании библиографических записей в UNIMARC неминуемо встанет и вопрос авторитетного контроля - создание авторитетного файла - еще одна сложная и трудоемкая задача, которую вряд ли может решить отдельно взятая библиотека. Кстати говоря, в известных нам российских системах (ГПНТБ, БЕН) авторитетный файл вообще не предусмотрен.

Сегодня в библиотеке начата работа по созданию ИПС "Новые поступления иностранной литературы в БАН", которая должна стать моделью будущего электронного каталога. На ней уже отрабатывается структура и выходной формат записи.

Информационно-поисковый язык. Особенно важной представляется нам задача содержательного раскрытия фондов. Эта задача связана с индексацией библиографических записей. Нам представляется единственно целесообразным использовать предметный вход в электронный каталог. Здесь, однако, перед нами встает проблема информационно-поискового языка.

В БАН отсутствует предметный каталог - нет традиции предметизации документов. Ведется только систематический каталог, организованный по ББК. По проблемам систематического каталога вообще и ББК в частности существует достаточно много работ. Как правило, в этих работах ББК оценивается с точки зрения удобства ее использования для индексатора - возможности выразить средствами индекса "предмет документа". Однако нет, кажется, ни одной которая бы хоть в какой-то степени оценивала бы эту классификацию в качестве поискового средства.

И действительно, оценка эффективности поиска в традиционном карточном каталоге большой библиотеки невозможна. Широко известно, однако, что классификации практически нигде не используются в качестве ИПЯ. Можно представить себе использование классификации в качестве вспомогательного средства поиска (например, для создания контекста по предметной рубрике или ключевому слову). В отдельных случаях (например в Библиотеке Конгресса США) классификация используется для расстановки книг на полке.

Но тогда что же должно быть использовано в качестве ИПЯ?

Сегодня можно рассмотреть несколько вариантов. При этом мы исходим из двух предпосылок:

1. Создание ИПЯ трудоемкая и дорогостоящая работа. Не следует обольщаться, что есть какие-то быстро реализуемые варианты. Их нет. И разработка системы индексов при создании ИПС, и содержательное индексирование документов при ее ведении - это "узкое бутылочное горло" в теории и практике автоматизированных ИПС, одна из тех операций, которые, несмотря на обилие разработок по автоматическому индексированию, вряд ли будет в ближайшее время полностью доверена машине.

2. ИПЯ должен быть предметизационного, а не классификационного типа. Наиболее передовые библиотеки мира пользуются именно такими ИПЯ.

Итак, возможны следующие подходы к созданию ИПЯ для электронного каталога БАН.

1) В настоящее время в Российской национальной библиотеке осуществляется работа по созданию авторитетного файла предметных рубрик (ПР) на основе рабочей картотеки ПР предметного каталога РНБ. РНБ является владельцем уникального предметного каталога, содержащего около 2.5 млн. предметных рубрик. В настоящее время обсуждается вопрос о принятии федеральной программы создания национального списка и авторитетного файла предметных рубрик на его основе. Однако, существующий список ПР требует огромных затрат по его редактированию и созданию авторитетного файла. БАН мог бы принять участие в такой федеральной программе.

2) Одна из французских систем предметизации - RAMEAU - предусматривает использование ПР Библиотеки Конгресса США, разумеется, с переводом их на французский язык. При Библиотеке Конгресса есть ассоциация пользователей ее ПР, причем при редакции списка учитываются пожелания и добавления, поступившие от ее членов. Условия вступления в эту ассоциацию необходимо уточнить. Здесь потребуются весьма значительные трудозатраты на перевод ПР Библиотеки Конгресса, на освоение методики индексации. Однако такое решение было бы дополнительным фактором интеграции БАН в мировую информационно-библиотечную систему.

3) Можно также использовать опыт создания тезаурусов на основе классификационных систем. В качестве источника такого дескрипторного языка может служить ББК. Аргументом в пользу такого решения является то обстоятельство, что в БАН имеется группа специалистов, много лет профессионально работавших с ББК. На базе словесных формулировок классификационных делений может быть разработан дескрипторный язык, который в дальнейшем будет использоваться как основной ИПЯ электронного каталога БАН. Кроме того, подобная работа уже несколько лет ведется в Российской государственной библиотеке. При таком подходе ценным и интересным может оказаться опыт РГБ.

4) Наконец, существует еще один подход - выделение ключевых слов из заголовков и/или аннотаций. Метод поиска по ключевым словам из заглавий - KWIC (Key Words in the Context) получил в литературе характеристику "быстрый и грязный". Использование ключевых слов из заглавий может представлять некоторую ценность лишь как дополнительный источник тезаурусной лексики, причем скорее всего только для технической и естественнонаучной литературы.

Предлагаемые подходы необязательно альтернативны, они могут дополнять друг друга.

Кроме того, прежде чем принять решение о создании ИПЯ, следует отчетливо представить себе концепцию системы, в данном случае что, как и с какой целью мы собираемся индексировать, в частности:

  • будем ли мы заниматься ретроспективной конверсией карточного каталога или же пока что ограничимся лишь вводом новых поступлений?

  • будет ли осуществляться ввод (и соответственно индексация) всего репертуара литературы или же только литературы по какой-нибудь сфере - например, естественнонаучной?

  • каков будет "продукт" информационной системы - доступ online, печатные издания, карточки?

  • кому и с какой целью будут предоставляться созданные записи из электронного каталога?

Подведем некоторые итоги.

Создание ЛО АИБС крупной универсальной библиотеки - трудоемкая и требующая значительных материальных затрат задача. По своей экономической емкости она сопоставима с приобретением техники, приобретением (или разработкой) и освоением сложного программного обеспечения.

Однако, помимо чисто экономических проблем, существуют и другие факторы, тормозящие разработку ЛО, а, следовательно, и автоматизацию библиотек. Среди них:

  • отсутствие концепции ЛО АИБС, более того, отсутствие осознания необходимости такой концепции;

  • чрезвычайная сложность и трудоемкость этой работы;

  • слабая координация (а может быть и полное отсутствие таковой) в этой работе как на внутрибиблиотечном, так на межбиблиотечном уровне;

  • настоятельная необходимость совместных усилий, с одной стороны, и целый ряд серьезных трудностей при организации совместной работы, с другой.