Информационное обеспечение науки Новые технологии

М. Бирман, Н. Бирман (Сан-Франциско),
В. Глухов (Москва), В. Захаров (Санкт-Петербург),
Н. Калёнов (Москва), О. Лаврик (Новосибирск),
Т. Филатова (Москва), В. Хисамутдинов (Москва)

ЭЛЕКТРОННОЕ КОПИРОВАНИЕ И ОБМЕН
НАУЧНЫМИ ПУБЛИКАЦИЯМИ:
ОПЫТ РОССИЙСКО-АМЕРИКАНСКОГО
СОТРУДНИЧЕСТВА

В 1996 году группа российских специалистов из Москвы, Санкт-Петербурга и Новосибирска, работающих в информационных центрах и библиотеках Российской академии наук, вместе со специалистами из Сан-Франциско, представляющими американскую информационную компанию Access Russia, Inc. (ARI), приступила к разработке совместного проекта по созданию технологии телекоммуникационного доступа к ресурсам академических библиотек России, с одной стороны, и к ресурсам университетской библиотечной сети Калифорнии, с другой. Этот проект, вначале казавшийся несбыточным, в настоящее время в значительной степени реализован и взаимное предоставление публикаций по запросам российских и американских ученых, специалистов и бизнесменов осуществляется ежедневно в нормальном производственном режиме.

Компания Access Russia, Inc. [1-3] является бесприбыльной. Мы рассматриваем деятельность этой компании, как своеобразные "ворота" в информационные "кладовые" России и США. Основное направление её деятельности - разработка и реализация новых информационных технологий, которые должны обеспечить более тесное взаимодействие российских и американских информационных центров и библиотек. Реализация рассматриваемого проекта есть серьезный практический шаг в укреплении такого взаимодействия. Большую помощь и поддержку в создании рассматриваемой системы оказала известная американская информационная компания ACCESS INNOVATIONS, Inc и лично её руководители М. Хлава и Дж. вен Еман.

Созданная технология электронного копирования и доставки документов включает:

  • прием запросов от абонентов;

  • электронное копирование;

  • доставку копий с использованием современных технических средств.

Известно, что многие годы существовало несоответствие между быстрым доступом к информации, хранящейся в базах данных, и медленным доступом к книгам и журналам, хранящимся на полках библиотек. В первом случае оперировали секундами, во втором - часами, днями и, нередко, неделями и месяцами. В первом случае использовались компьютеры и их возможности хранения и быстрого поиска информации, во втором - ксероксы, микрофильмирующее и другое, в основном, копировальное оборудование.

Начало сближению этих, казалось бы, никогда не смогущих приблизиться друг к другу технологий, положило применение CD-ROM. Возможность записи и долговременного хранения десятков, сотен тысяч страниц текста на диске диаметром всего около 12 см, их быстрое и дешевое тиражирование открыли перспективы компьютерной обработки полнотекстовых документов. В результате, появились электронные журналы и книги на CD-ROM, и число их непрерывно растет.

Второе обстоятельство, радикально меняющее технологию обработки и доставки полнотекстовых документов, - это появление многочисленных программ, ориентирующих компьютер на обработку изображений. Естественно, что появление таких программ стало возможным благодаря новым аппаратным возможностям современных компьютеров, и в первую очередь, большой памяти, как оперативной, так и дисковой, и высокой скорости выполнения операций, что принципиально важно при обработке двумерных объектов. Сюда же следует отнести разработку программ автоматического распознавания текстов. Нельзя не сказать добрых слов в адрес программы распознавания текстов FineReader, разработанной в России. Она обладает мощными распознавательными возможностями, а в распознавании кириллических текстов у неё нет в мире конкурентов. Известно, что в США эта программа пользуется большой популярностью.

И, наконец, третье - это невероятно быстрый прогресс в области телекоммуникаций и, конечно же, Internet со всеми ее возможностями. Прогресс в развитии методов создания электронных текстов с применением SGML и HTML технологий, несомненно, также способствовал решению поставленной нами задачи.

Всё это и послужило фундаментом, на котором нам удалось создать действующую международную систему электронного копирования и доставки документов. На всех этапах мы пытаемся максимально использовать перечисленные достижения в развитии компьютерных технологий и внедрить их в нашу систему.

Технологический процесс начинается с приема запросов от абонентов. Подход абонентов к работе с системой несколько отличается в России и в США. В США для работы с клиентами нами используются две абонентские сети: широко известная сеть OCLC (Online Computer Library Center) и созданная ARI собственная абонентская сеть. Следует сказать, что библиотеки США прекрасно укомплектованы литературой, изданной и в СССР до его распада, и той, что издана в России после 1991 года. Как правило, к нам из OCLC поступают сложные заказы, главным образом, из университетских библиотек, на литературу, опубликованную, преимущественно, 30-40 лет назад. Довольно часто поступают запросы на литературные источники, изданные даже в прошлом веке или в начале нынешнего. Это те источники, что отсутствуют в сети библиотек, входящих в OCLC. Внутренняя сеть ARI включает многие университеты США и Канады, известные исследовательские лаборатории, крупные промышленные компании, юридические конторы и, конечно, аналогичные информационные службы, большинство из которых не может справиться с выполнением заказов на информацию из России и передает их в ARI. Наш анализ показал, что эти службы не хотят работать с российскими библиотеками напрямую по разным причинам и, необходима специальная служба в США, которая быстро и надежно выполняет заказы из России.

Запросы из OCLC поступают в стандартном режиме, установленном регламентом этой службы. Ежедневно проверяется поступление запросов с помощью программного обеспечения, предоставленного OCLC, Inc. при заключении договора с ARI. Поступивший запрос содержит все или часть библиографических данных, необходимых для поиска; адрес, по которому следует выслать копию; срок, установленный для выполнения заказа; OCLC- символы поставщиков информации, которые ответственны за выполнение данного заказа; и ряд других данных, необходимых для обработки. В большинстве заказов, поступивших в систему, присвоенный ARI в OCLC - символ, A4R, оказывается в одиночестве, что означает, что кроме как на нашу систему абоненту рассчитывать не приходится, т.е., если запрос поступил из OCLC, то практически наверняка заказанный источник отсутствует во всех библиотеках, входящих в эту сеть. Средний срок, устанавливаемый в OCLC для выполнения заказа, составляет около месяца. Интересно отметить, что во многих случаях наши попытки уточнить параметры заказа или изменить некоторые условия его выполнения, вызывают своеобразную и немедленную реакцию пославшего заказ библиотечного работника: "Тогда мы отменяем заказ". Во всех случаях, когда в такой ситуации нам удавалось, минуя библиотеку, найти непосредственного и заинтересованного заказчика, реакция была полностью противоположной: "Никакого отказа, продолжайте поиски, умоляю найти публикацию".

Заказы от абонентов внутренней сети поступают по электронной почте, через Internet-сервер и по факсу. В отличии от OCLC, здесь абонент просит найти и послать ему интересующий его документ в считанные часы или дни. Поэтому вопрос доставки имеет ключевое значение в общей технологии решения данной проблемы.

В России абонентская сеть только начинает складываться. Если в США - это сотни коллективных и индивидуальных абонентов, то в России, пока, единицы. И одна из первоочередных наших задач - создать в России такую сеть. Здесь абонентами пока являются сотрудники академических институтов, читатели, которые не могут получить нужные публикации в российских библиотеках из-за финансовых проблем, создавших дефицит при комплектовании библиотечных фондов. Но для российских клиентов, в отличие от американских, в первую очередь, требуются свежие публикации, в основном, за текущий или предыдущий годы издания.

Полученные запросы вносятся в системную базу данных, обслуживающую технологию в ARI, каждому из них присваивается уникальный номер, и после этого они по электронной почте передаются в ту библиотеку или в тот информационный центр, где вероятнее всего будут выполнены. Если заказ поступил от американского абонента, то, в первую очередь, проверяется, а нельзя ли найти заказанный источник в какой-либо американской библиотеке. Такой поиск проводится в on-line режиме, через TELNET в сводном компьютерном каталоге, содержащем литературу, представленную в фондах практически всех университетских библиотек западного побережья США. Это - Беркли, Стенфорд, Сан-Франциско, Лос-Анджелес и многие другие известные и престижные библиотеки. Поскольку возможен сетевой доступ к каталогам этих библиотек, то рассчитывать на то, что абонент самостоятельно не смог найти документ, в действительности, всё-таки находящийся в библиотеках США, и обратился к нам с просьбой найти его в России, маловероятно. Это случается, главным образом тогда, когда абонент не умеет правильно представить поисковую библиографию в транслитерированной форме, как это требуют условия работы с этим каталогом, либо имеет библиографию для поиска, в переводе на английский язык, либо просто не умеет работать с электронным каталогом. До сих пор подавляющее большинство запросов, поступивших в ARI, действительно касалось документов, отсутствующих в библиотеках США.

Если запрос очень срочный и для его выполнения установлен жесткий срок, он отправляется в Россию одновременно нескольким исполнителям, а в телесовещаниях, которые мы ежедневно проводим, используя Internet, обсуждаются особенности и пути скорейшего выполнения этого заказа, и определяется исполнитель, который наиболее вероятно сумеет найти заказанный документ.

При выполнении заказов от российских абонентов на зарубежные издания также сначала проверяется, есть ли нужный источник в России. Например, если заказ поступил от новосибирского абонента, то сначала выясняется, нет ли требуемого источника в Москве или С.-Петербурге. Если источника нет, заказ направляется в ARI.

Мы убеждены, что постоянные контакты с абонентом являются залогом успеха в работе системы. Поэтому мы заканчиваем разработку программ слежения за ходом выполнения каждого заказа. Планируем установить эту программу в Internet и дать доступ каждому нашему абоненту к информации о том, на какой стадии выполнения находится его заказ и когда он может быть реально выполнен.

Следующий шаг - это сканирование найденной публикации. Используя современные технические средства, все же в некоторых случаях требуется интуиция и опыт исполнителя, чтобы решить с каким оптическим разрешением сканировать текст. Высокое разрешение позволяет более качественно воспроизводить тексты, особенно угасшие, но может привести к значительному увеличению длительности передачи. Возникают вопросы: будет ли распознаваться сканированный текст или текст будет отправлен в виде изображений. Если будет отправлен как изображение, то в каком формате, какими средствами изображение будет компрессироваться. Ответы на эти вопросы, да и на многие другие, могут оказаться ключевыми при развитии технологии электронного копирования.

В процессе передачи текстов используется FTP-сервер или электронная почта. Каждый исполнитель имеет на сервере свой "почтовый ящик", в который он кладет найденную им информацию или забирает информацию, найденную для него. В нашей технологии при передаче информации из России в США и обратно мы используем самые различные форматы, включая TIF, PCX, RTF. Нередко это определяется аппаратными и программными возможностями, а иногда и индивидуальными привязанностями исполнителя к тому или иному формату. В США, если полученные из России изображения отправляются абоненту транзитом в электронной форме, практически во всех случаях должна быть сделана конверсия в PDF-формат и это - главное требование абонента. В других случаях производится распечатка на бумагу и отправка абоненту либо регулярной или курьерской почтой, либо факсом.

Следует заметить, что уверенное воспроизведение даже достаточно сложных текстов, имеющих большую гамму символов разных размеров, низкую контрастность печати, серый фон и т.п., достигается при разрешении в пределах от 150 до 300 dpi. Сканирование может производиться как непосредственно оригинала, так и ксерокопии. Исправление дефектов печати производится средствами фильтрации, изменением контраста и яркости и другими инструментами, которые предлагают современные программы обработки изображений. И, как ни парадоксально с точки зрения классической теории информации, качество электронной копии оказывается нередко выше, чем качество оригинала.

Программы распознавания текста используются нами тогда, когда бывает необходимо проводить дальнейшую компьютерную обработку текста, например, перевод на английский язык автоматическими переводческими программами, или превращение текста в HTML-формат для его представления в Internet, или производство полнотекстовых баз данных. Однако, отсутствие кириллических шрифтов в компьютерах многих американских пользователей сдерживает применение распознающих программ. Мы использовали программы автоматического перевода на английский язык для сканированных и распознанных текстов по заказу исследовательских лабораторий и юридических контор в ситуациях, когда стилистические погрешности были менее важны, нежели быстрота получения перевода. Во всех случаях заказчик остался доволен качеством перевода. В качестве примера использования распознанных текстов и их преобразования в HTML-формат можно привести массив оглавлений российских журналов, который был обработан специалистами Института информации по общественным наукам Российской Академии наук (ИНИОН) и Access Russia. В настоящее время этот массив помещен в Internet, на страницу www.arussia.com и доступен любому желающему поработать с этим массивом. Эти же программы использовались для производства на CD-ROM полнотекстовых баз данных по российскому законодательству и праву.

В процессе выполняемой работы происходит накопление больших массивов данных. Сегодня - это тысячи документов, а если учесть, что многие из них поступают в систему в форме изображений, то возникает проблема ресурсов для их хранения и систематизации. В настоящее время ARI производит запись накапливаемых документов на CD-ROM, и это, как правило, происходит с частотой один раз в два месяца. Естественно, что наряду с архивированием, постоянно ведется каталог, позволяющий найти нужный документ в архиве. Таким образом, реализуется первый шаг к созданию полностью электронной библиотеки.

Во всех случаях мы стараемся сделать доступной в США российскую библиографию о науке и технике, политике и праве, культуре и образованию. Этим мы пытаемся "спровоцировать" в США больший интерес к российским публикациям, который, по нашему мнению, падает, и не только потому, что российская наука испытывает кризис, но и потому, что информация из России, отражающая содержание научных исследований, недостаточно полно представлена в США. Из всего разнообразия баз данных, создаваемых в России, а по некоторым литературным источникам их свыше 2 500, в США, насколько нам известно, в on-line доступе находятся только две. Это база данных ИНИОН по общественным наукам, доступная десяткам американских университетов через информационную сеть RLIN и база данных ИТАР-ТАСС, обрабатываемая в системе DIALOG. Поэтому в настоящее время Research Library Group, осуществляющая управление сетью RLIN, рассматривает созданную нами систему, как основу для доставки публикаций по запросам американских пользователей базы данных ИНИОН.

К сожалению, российские научно-технические и патентные базы данных, практически, не представлены в США, хотя интерес к ним проявляется большой. Откуда же тогда американские специалисты черпают информацию для заказа копий? Мы регулярно проводим такой анализ. Выясняется, что информация попадает к ним или через "третьи" базы данных, такие, как CAS или INSPEC, которые с запозданием помещают информацию из РЖ ВИНИТИ, или из пристатейной библиографии, которая публикуется в российских журналах, имеющихся в фондах американских библиотек. Следует заметить, что в университетские библиотеки западного побережья США Реферативный журнал ВИНИТИ, за исключением некоторых серий (Астрономия, Геология), перестал поступать ещё в середине 80-х годов. Этим, наверное, и можно объяснить устойчивый интерес в США к давно опубликованным российским научным работам.

В настоящее время мы пытаемся изменить сложившуюся ситуацию. В программе наших будущих работ есть создание базы данных по препринтам, издаваемым, в первую очередь, научными институтами Российской Академии наук. Демонстрационный образец такой базы подготовлен, и в настоящее время изучается реакция рынка на эту базу. В разгаре находится работа по представлению в американскую библиотечную сеть электронных версий содержания российских научных журналов, которые неизвестны в США. К этой работе проявляют интерес многие американские библиотеки и информационные центры, поскольку и они испытывают определенные финансовые затруднения с комплектованием. Такой интерес, по нашему мнению, подкрепляется их уверенностью, что благодаря нашей системе, любая публикация, заказанная в результате поиска в базах данных, будет доставлена из России в США в считанные часы.

Начинается работа по использованию цифровых фотокамер для передачи изображений страниц текста через Internet с возможностью быстрого просмотра "свежих" журналов и книг на расстоянии и заказа копий.

В заключение следует сказать, что мы открыты как для новых поставщиков информации, так и для новых потребителей. Хотелось бы также подчеркнуть, что данная работа является хорошей иллюстрацией и доказательством эффективности взаимодействия на международном уровне, когда совместное использование передовых информационных технологий, взаимная помощь и поддержка, да и просто желание сделать шаг вперед в информационном обслуживании, позволяют успешно решать важные и сложные научно-технические задачи.

Литература:

1. М. Бирман, Н. Бирман, Jay ven Eman, M. Hlava, Т. Филатова Access Russia, Inc.: Прошлое, настоящее, перспективы // Информационные ресурсы России, 1996. - № 6. - С. 32-34.

2. Access Russia now participating in OCLC ILL Document Supplier Program // OCLC Newsletter, 1997. - № 226. - С. 33

3. New Access to Information from Russia will soon be available from ACCESS RUSSIA, Inc.// Information Today, 1995, vol. 12 (10) : 5