!1!

СОВРЕМЕННЫЕ ИНФОРМАЦИОННЫЕ
ТЕХНОЛОГИИ В ДЕЯТЕЛЬНОСТИ БЕН РАН

Н.Е. Калёнов
(БЕН РАН)

В апреле 2003 года исполнилось 30 лет Библиотеке по естественным наукам Российской академии наук (БЕН РАН). Библиотека создавалась как информационно-библиотечный центр, обеспечивающий информационное сопровождение исследований, проводимых академическими институтами естественнонаучного профиля, и объединяющий их библиотеки в централизованную библиотечную систему (ЦБС). В настоящее время ЦБС БЕН РАН включает более 150 библиотек академических институтов и научных центров.

С момента организации Библиотеки руководство БЕН уделяло самое серьезное внимание применению в библиотечной технологии средств вычислительной техники и стремилось идти в ногу со временем, обеспечивая внедрение в деятельность Библиотеки современных методов обработки, хранения и предоставления информации. В процессе развития современных технологий в БЕН можно выделить четыре этапа.

Первый этап (1974-1980 гг.) - от создания в БЕН отдела автоматизации до сдачи в промышленную эксплуатацию первой очереди автоматизированной системы. Второй этап (1979-1992 гг.) - развитие современных технологий на базе ЭВМ Единой Системы. Третий этап (1990-1995 гг.) - организация локальной вычислительной сети БЕН и внедрение комплексной автоматизации библиотечной технологии на базе персональных компьютеров. Четвертый этап, начавшийся с подключения БЕН к сети Интернет в 1996-м году.

Для середины семидесятых годов прошлого века было характерно негативное отношение библиотекарей к идеям автоматизации библиотек. За рубежом это отношение сменило эйфорию конца 60-х годов, когда библиотечные специалисты (не знавшие возможностей вычислительной техники) поверили программистам (не разобравшимся достаточно серьезно в библиотечной технологии), что стоит написать достаточно простые программы, и ЭВМ решит многие библиотечные проблемы. Библиотеки арендовали машинное время, платили деньги за разработку программ, а в результате получали технологию, требующую в несколько раз больше усилий и времени по сравнению с традиционной. Результатом этого явилось появление в библиотечной печати термина "мыльный пузырь автоматизации" и отказ многих зарубежных библиотек от продолжения работ, связанных с применением вычислительной техники.

В отечественной библиотечной практике к середине 70-х годов только две библиотеки - ГПНТБ и Библиотека имени Ленина (ГБЛ) имели опыт работы с вычислительной техникой. Причем опыт этот был, особенно для ГБЛ, скорее отрицательным, чем положительным. Попытки встроить ЭВМ третьего поколения в существующую традиционную технологию приводили к необходимости заполнения библиотечными специалистами различных "рабочих листов", с которых информация переводилась на перфокарты и вводилась в машину операторами. После этого сотрудники библиотеки редактировали данные по распечаткам, заполняли корректурные листы и т.д. В конечном счете, это приводило к увеличению штата библиотеки и недовольству персонала, чью традиционную работу применение ЭВМ только усложняло.

В этих условиях создание отдела автоматизации БЕН вызвало настороженную реакцию сотрудников Библиотеки. Перед специалистами в области информатики, пришедшими на работу в отдел автоматизации, в первую очередь, была поставлена задача досконального изучения всех сторон библиотечной технологии, проведения системного анализа деятельности Библиотеки с точки зрения её автоматизации. Результатом решения этой задачи явился достаточно объемный научный отчет, в котором рассматривались информационные потоки, циркулирующие в БЕН, взаимодействие отделов в процессе их обработки между собой и с внешними организациями, используемая в Библиотеке документация. Построенная модель Библиотеки, отражающая её видение "извне" - представителями "небиблиотечных" профессий, обсуждалась и дорабатывалась совместно с библиотечными специалистами. Такие совместные обсуждения помогли разработчикам автоматизированной системы найти общий язык с персоналом технологических отделов БЕН. В процессе проведенных исследований были выработаны и впоследствии опубликованы основные принципы автоматизации библиотечной технологии [1]. Среди них, наряду с адаптированными к библиотечным условиям общими принципами разработки АСУ, приведенными в [2], был сформулирован ряд принципов, специфичных для библиотек конца 70-х годов. Один из них был назван принципом "Неувеличения нагрузки". Согласно этому принципу совершенствование информационно-библиотечных процессов на базе применения вычислительной техники не должно повлечь за собой увеличение нагрузки на работников библиотеки и абонентов системы. В противном случае автоматизация не найдет поддержки у основных исполнителей и будет обречена на провал (что и показал анализ неудач библиотечной автоматизации того времени). Другим принципом, положенным в основу концепции автоматизации БЕН, явился принцип "Максимальной формализации документов и данных". Только следуя ему, можно было пытаться построить достаточно эффективную систему на базе ЭВМ 3-го поколения.

Опираясь на сформулированные принципы, специалистами БЕН были определены основные направления автоматизации БЕН, обеспечивающие её эффективность на существующей в то время технической базе. В 1977-м году было подготовлено техническое задание на разработку автоматизированной системы БЕН, а в 1978-м году - технический проект первой очереди системы, получившей название АС НАУКА. В этот же период были проведены серьезные работы по реорганизации информационной базы БЕН. Была введена кодировка библиотек, входящих в ЦБС БЕН, и читателей, обслуживаемых ими (единый читательский билет); изменена структура шифра хранения изданий; введены новые формы читательских формуляров, бланков заказа изданий в читальном зале, на выставке новых поступлений и по МБА. Все эти изменения проводились с целью упрощения ввода данных в ЭВМ, исключения необходимости промежуточной обработки документов и создания условий для максимально возможного автоматического контроля вводимых данных.

Одной из основных задач, реализованных в рамках первой очереди АС НАУКА, явилась автоматизация подписки на отечественные периодические издания. В конце 70-х годов БЕН выписывала через агентство "Союзпечать" около 18-ти тысяч комплектов научных журналов более чем в 150 адресов. На каждый выписываемый комплект в сжатые сроки (период подписной кампании) необходимо было заполнить абонемент и доставочную карточку. Кроме этого необходимо было подготовить сводные списки изданий, выписываемых для каждой библиотеки, с подсчетом стоимости подписки. Эта работа каждый год была "авральной" и занимала в БЕН несколько человеко-месяцев.

Технология автоматизированной подписки, разработанная специалистами БЕН [3], предполагала однократное создание базы данных, содержащей сведения о журналах и их подписчиках, с ежегодным вводом в нее только новых цен на журналы и изменений в подписке библиотек. Поскольку в то время цены были достаточно стабильны, а изменения в подписке академических библиотек (которая определяется тематикой исследований институтов) составляют 5-7% от предыдущего года, такой подход позволял существенно сократить объем ввода данных в период подписной кампании. Одной из серьезных проблем, возникших при автоматизации подписки, была форма документов, принятых в агентстве "Союзпечать". Эта форма была утверждена Министерством связи СССР, предусматривала наличие герба страны на каждом абонементе, и воспроизвести её на алфавитно-цифровом печатающем устройстве (АЦПУ) было невозможно. После достаточно длительных переговоров и рассмотрения многих вариантов специалистам БЕН удалось согласовать с Министерством связи формы подписных документов, формируемых на стандартных АЦПУ. Министерством связи был выпущен приказ, по которому почтовые отделения по всей стране были обязаны принимать машинные распечатки подписных документов, за образец которых были приняты формы, разработанные в БЕН.

Внедрение в 1979-м году автоматизированной подписки в технологию работы БЕН позволило в десятки раз сократить трудоемкость этого процесса. Вся процедура от получения из библиотек бланков изменений в подписке до печати полных комплектов подписных документов на всю ЦБС занимала три рабочих дня. Выходные документы формировались на листе АЦПУ таким образом, что для их получения использовалась механическая резка бумаги, сфальцованной в стопу. Документы печатались отсортированными в необходимом порядке, после резки сортировка не нарушалась, что существенно упрощало подбор документов.

В 1980 году, через два с половиной года после получения ЭВМ ЕС-1022, специально созданной Постановлением ГКНТ СССР Государственной комиссией была принята в промышленную эксплуатацию первая очередь АС НАУКА. Она включала 12 информационно-библиотечных задач, среди которых были информационное обслуживание пользователей на базе магнитных лент ВИНИТИ в режиме избирательного распространения информации (ИРИ) [4], обработка заказов на копирование материалов из фондов БЕН, анализ состава читателей и деятельности библиотек ЦБС и др. [5,6].

Реализация задач первой очереди АС НАУКА, в частности, автоматизированной подписки, продемонстрировала сотрудникам БЕН эффективность применения ЭВМ в библиотечной технологии и обусловила коренной перелом в их отношении к автоматизации. Период "настороженного наблюдения" за действиями "автоматизаторов", характерный для первого этапа внедрения современных технологий в БЕН, сменился активным участием библиотечных работников в их развитии.

Второй этап развития современных технологий в БЕН был тесно связан с совершенствованием технических средств. Сначала перфокарты, используемые для подготовки данных, сменились магнитными лентами, затем появление дисплейных комплексов типа ЕС-7906 и ЕС-7920 позволило перевести ряд задач на диалоговый режим ввода и обработки информации. На этом этапе было существенно увеличено количество решаемых задач (оформление валютной подписки на зарубежные журналы, выпуск указателей подписки, регистрация поступлений журналов, предоставление копий материалов в режиме ИРИ и др.) [7-9]. В первой половине 80-х годов БЕН, одной из первых библиотек страны, организовала удаленный доступ читателей к базам данных ВИНИТИ по коммутируемому телефонному каналу. В 1984-м году БЕН совместно с ВНИИПАС и ИПИ РАН организовала семинар по демонстрации удаленного доступа к базам данных Института научной информации США в Филадельфии непосредственно из здания Библиотеки.

Появление первых 16-ти разрядных персональных компьютеров открыло широкие перспективы автоматизации информационно-библиотечной технологии в библиотеках различного уровня. Стремясь распространить опыт автоматизации и объединить усилия программистов, библиотечных и информационных работников в области применения современных технологий в библиотеках, БЕН в 1985 году организовала первый в стране семинар на тему "Применение мини- и микро-ЭВМ в библиотечной технологии". Семинар оказался достаточно полезным и в дальнейшем стал проводиться регулярно раз в два года, получив название "Информационно-библиотечное обеспечение науки: новые технологии". Материалы всех семинаров публиковались в специальных сборниках, с полными текстами которых можно ознакомиться на сайте БЕН РАН (http://www.benran.ru). На примере этих публикаций можно проследить развитие исследований в области автоматизации информационно-библиотечных процессов за последние 18 лет.

Возвращаясь ко второму этапу развития современных технологий в БЕН, необходимо отметить, что в 1986 году БЕН была первой библиотекой в стране, которая установила у себя рабочую станцию на базе IBM-PC, снабженную устройством для чтения CD-ROM, приобрела базу данных Science Citation Index на CD-ROM и организовала обслуживание пользователей по этой базе. Эта база данных и сегодня пользуется значительной популярностью у сотрудников РАН, БЕН ежегодно приобретает её на CD-ROM и в настоящее время располагает наиболее полным в стране 18-летним её комплектом.

В 80-е годы автоматизированная технология БЕН развивалась на базе ЭВМ ЕС-1022 и ЕС-1036, но в конце этого периода начались разработки программных средств на новых для того времени персональных компьютерах (сначала "Искра-226", а затем IBM-PC). В 1989 году была завершена разработка программного комплекса, написанного под MS-DOS, обеспечивающего полный цикл работы с журналами в рамках ЦБС БЕН (заказ, контроль и регистрация поступлений, распределение по библиотекам, ведение сводного каталога). С 1990 года вся технология работы с журналами была переведена на автоматизированный режим. Этот год можно считать началом третьего этапа автоматизации БЕН.

Построение локальной вычислительной сети и установка персональных компьютеров в технологических отделах БЕН создали условия для комплексной автоматизации библиотечной технологии с соблюдением принципа "неувеличения нагрузки" на сотрудников библиотеки. До этого момента БЕН не переходила на автоматизированный режим ни в процессах комплектования книгами, ни в процессах каталогизации литературы, поскольку он требовал от сотрудников либо заполнения рабочих листов с последующим их редактированием, либо работы с достаточно сложными программными средствами. С начала 1993-го года на автоматизированную технологию полностью перешли отделы, связанные с комплектованием и обработкой отечественной литературы, а с начала 1995-го - зарубежной (причем эта разница в сроках была обусловлена исключительно отсутствием техники). Таким образом, с 1995-го года все процессы, связанные с приобретением и обработкой литературы (предварительный заказ, регистрация поступлений, распределение по библиотекам, распечатка приходно-расходной документации, шифровка, формирование локального электронного каталога, распечатка полных комплектов каталожных карточек), выполняются в автоматизированном режиме.

Четвертый этап развития автоматизированной системы БЕН обусловлен подключением Библиотеки к сети Интернет. В 1996 году создается WEB-сайт БЕН (http://www.benran.ru), на котором вначале размещается информация о БЕН и сводный каталог журналов. Сайт постоянно развивается и в настоящее время на нем представлены [10]: сводный каталог книг и продолжающихся изданий, содержащий более 70-ти тысяч записей; сводный каталог журналов, содержащий сведения о более чем 600 000 выпусков 6500 наименований журналов (более 1000 из них снабжены постоянно актуализируемыми ссылками на оглавления и аннотации статей); еженедельные указатели новых поступлений литературы в БЕН и библиотеки её ЦБС; базы данных публикаций сотрудников БЕН и ряда академических институтов; шлюз для одновременного поиска информации в каталогах БЕН и ряда центральных библиотек по протоколу Z39.50; система заказа изданий по межбиблиотечному абонементу; совокупность постоянно актуализируемых страниц "Естественные науки в Интернет", содержащих ссылки на наиболее значимые информационные ресурсы по различным областям науки; полные тексты всех сборников семинара, о котором шла речь выше; различная информация справочного характера. Сайт имеет англоязычную версию.

Все прикладные программные средства, обеспечивающие комплексную автоматизацию информационно-библиотечной технологии и функционирование сайта БЕН РАН, разработаны и поддерживаются специалистами Библиотеки. Текущая версия автоматизированной системы БЕН имеет два уровня - АС НАУКА-Ц и АС НАУКА-С. АС НАУКА-Ц обеспечивает централизованные процессы и функционирует в Центральной библиотеке. АС НАУКА-С предназначена для автоматизации деятельности библиотек академических институтов, входящих в ЦБС БЕН. Каждая библиотека, работающая с АС НАУКА-С, может забирать с ftp-сервера БЕН библиографические описания изданий, получаемых ею через БЕН, и вводить их в свои локальные каталоги. Информация об изданиях, приобретаемых децентрализованно и обработанных в АС НАУКА-С, автоматически вливается в сводные каталоги, поддерживаемые АС НАУКА-Ц. Организации, использующие программное обеспечение БЕН, могут получать обновленные версии программ непосредственно со специального сервера Библиотеки.

Ряд отделений БЕН РАН поддерживает собственные сайты, предоставляя пользователям Интернет свои информационные ресурсы. Наиболее развитыми в этом отношении являются библиотека Пущинского научного центра (http:// cbp.iteb.psn.ru/AVM/Def10000.htm), библиотека Математического института РАН (http://libserv.mi.ras.ru/), библиотека Института астрономии РАН (http://www.inasan.rssi.ru/rus/library.html).

Современный этап развития БЕН РАН характеризуется постепенным вытеснением традиционных печатных журналов их электронными аналогами. В настоящее время БЕН получает около 600 наименований зарубежных журналов в печатном виде и приобретает доступ для своих читателей к электронным версиям около 2000 наименований.

За последние годы в практике работы БЕН резко возросло использование электронной почты в различных аспектах взаимодействия библиотек внутри ЦБС и с внешними организациями. По электронной почте осуществляется рассылка предложений книжного рынка и оповещений в режиме ИРИ из Центральной библиотеки в библиотеки ЦБС, в Центральную библиотеку направляются списки необходимых изданий из библиотек ЦБС и т.п. В системе БЕН РАН создается распределенная служба электронной доставки документов, принимающая заказы по Интернет и отправляющая копии документов по электронной почте.

Развитие современных технологий в БЕН РАН поддерживается грантами РФФИ (на создание электронной библиотеки "Наука России" - 02-07-90088, на создание портала "Естественные науки в Интернет" - 03-07-90055, на разработку типовой автоматизированной системы библиотеки НИИ РАН - 03-07-90056) и РГНФ (на разработку автоматизированной системы комплектования централизованных библиотечных систем - 02-05-12022в, на создание автоматизированной интегрированной системы электронной доставки документов в научной библиотеке - 03-05-12016в).

Перспективы развития современных технологий БЕН РАН связывает с созданием собственной электронной библиотеки, организацией интерактивного взаимодействия с книготорговыми организациями, включением ресурсов библиотек своей ЦБС в единую информационную систему РАН.

Литература

  1. Алексеев Н.Г., Калёнов Н.Е. Методологические принципы автоматизации библиотечных процессов // Сб. Теория и практика механизации и автоматизации библиотечных и информационно-библиографических процессов. - М., 1982. - С.53-65
  2. Глушков В.М. Введение в АСУ. - Киев: Технiка, 1974. - 310с.
  3. Галузо В.Л., Калёнов Н.Е., Левнер М.В., Новиков И.Ю. Подписку оформляет ЭВМ // Библиотекарь. - 1981. - № 9. - С. 40-41
  4. Калёнов Н.Е., Кажидеева Л.Ф., Верховский С.Я. Опыт информационного обслуживания ученых АН СССР на базе магнитных лент ВИНИТИ // Сб. Вопросы информационной теории и практики. - М., 1979. - № 38. - С. 70-76
  5. Калёнов Н.Е. Вопросы автоматизации информационно-библиотечных процессов в Библиотеке по естественным наукам АН СССР // Проблемы развития научных исследований в области библиотековедения и библиографии. - М., 1981. - С. 233-247
  6. Калёнов Н.Е., Новиков И.Ю., Бакай Н.А. Шаг к автоматизации управления библиотекой // Библиотекарь. - 1981. - №2. - С. 38-39
  7. Новиков И.Ю. Математическое обеспечение автоматизированной библиотечно-информационной системы АС НАУКА // Сб. Автоматизация в библиотечном деле. - М., 1982. - С. 84-92
  8. Глушановский А.В., Пронина И.Б., Соловьёва Т.Н. Обеспечение копиями первоисточников абонентов подсистемы информационного обслуживания АС НАУКА // Сб. Автоматизация в библиотечном деле. - М., 1982. - С. 51-56
  9. Калёнов Н.Е. АС НАУКА как типовая автоматизированная система централизованной ведомственной сети библиотек // Проблемы автоматизации и механизации библиотечной работы. (Тр. /Гос. б-ка им. В.И.Ленина). - М.: ГБЛ, 1985. - Т. 21. - С. 52-56
  10. Васильев А.В., Власова С.А., Глушановский А.В., Калёнов Н.Е., Каллистратова О.Д., Соловьёва Т.Н. ИНТЕРНЕТ-услуги - пользователям БЕН РАН // Научный сервис в сети ИНТЕРНЕТ. Всероссийская научная конференция. Труды. Новороссийск, 23-28 сентября 2002 г. - М.: МГУ, 2002. - С.333-334
!2!

ИНФОРМАЦИОННАЯ СИСТЕМА
БИБЛИОТЕКИ МАТЕМАТИЧЕСКОГО
ИНСТИТУТА ИМ. В.А. СТЕКЛОВА РАН

К.П. Погорелко
(Библиотека Математического института им. В.А.Стеклова РАН)

Разработка информационной системы библиотеки МИАН началась в 1996 г. При разработке системы перед ней ставилась задача как максимального удовлетворения потребностей читателей, так и максимальной автоматизации библиотечных процессов. Исторически сложилось, что читатели библиотеки работают на компьютерах с разными операционными системами (разные версии MS Windows, UNIX). Кроме того, требовалось обеспечение доступа к информационным ресурсам не только из помещения МИАН, но и из других мест. Единственным решением в этой ситуации было обеспечение читательского интерфейса по протоколам Internet. В качестве базы для создания системы (в основном из финансовых соображений) была выбрана операционная система MS Windows NT 4.0 с IIS 3.0 и MS SQL сервер 6.5. Как основа доступа к системе, первый вариант Веб-сайта был разработан и открыт для доступа в 1997г. Он основывался на технологии CGI и обеспечивал доступ к каталогу отечественных периодических и продолжающихся изданий. Административный интерфейс был разработан на базе MS Access. За прошедшее время Веб-сайт несколько раз коренным образом перерабатывался. Поскольку технология CGI (в версии Microsoft) давала очень бедные возможности по реализации интерфейса, в следующей версии была использована технология ISAPI, обеспечивающая максимальные как эффективность Веб-сервера, так и возможности интерфейса. Проблемой в этом случае стала сложность сопровождения системы. Поэтому с появлением технологии ASP и её эффективной реализации в IIS 5.0, Веб-сайт был переделан под эту технологию. В качестве базы данных в настоящее время используется MS SQL сервер 2000. Переход на технологию .NET рассматривается, но в качестве срочной задачи не стоит.

Ресурсы, выделенные администрацией МИАН на создание системы, были весьма ограниченными. Поэтому при проектировании системы большое внимание уделялось изучению пожеланий ученых МИАН с тем, чтобы максимально удовлетворить их информационные потребности, оставаясь в пределах бюджета. В первую очередь, это касается наиболее сложной и затратной части информационной системы - книжного каталога. Для математиков оказалась важной прежде всего полнота охвата электронных каталогов, поскольку в математике старение информации происходит очень медленно. Необходимость индексации была поставлена под сомнение. Индексация по развитой системе кодирования, как, например, Mathematics Subject Classification (а только такая и имеет смысл) является крайне затратной. В то же время, запросы типа "выдать все по такой-то теме" являются, по крайней мере, среди читателей МИАН, достаточно редкими. Кроме того, эту информационную потребность в значительной степени покрывает возможность поиска в зарубежных реферативных системах. Для читателей большее значение имеет возможность качественного авторского поиска. Кроме того, были сформулированы требования по отслеживанию книжных серий, годов издания, издательств и др.

Административные интерфейсы системы реализованы на Visual Basic и, для каталога периодики, на html. При создании административных интерфейсов особое внимание уделялось удобству их использования. Любое лишнее нажатие клавиши при вводе 30 тыс. библиографических описаний вызывает 30 тыс. лишних нажатий. Кроме того, любое неудобство использования является источником дополнительных ошибок. Ввод книжного каталога организован с перепроверкой. Реализованы необходимые процедуры для устранения выявленных ошибок. Для библиотекарей информационная система является учетной, так как для каждого поступившего экземпляра содержит сведения о дате, источнике поступления, номере акта и т.п.

Интерфейс абонемента реализован и позволяет как фиксировать выдачу изданий, так и получать сводные сведения о книговыдаче. Внедрение этой части информационной системы отложено до начала 2004 г. с тем, чтобы больше ресурсов можно было направить на каталогизацию.

Каталог периодики является полным на протяжении уже более 5 лет. Русская часть книжного каталога в настоящее время содержит более 60% фонда, иностранная часть - более 11%. Ведется интенсивная работа по каталогизации оставшейся части фонда.

Для ввода текущих поступлений активно используется система централизованной обработки литературы, реализованная в БЕН РАН. Если книга в библиотеку МИАН поступила через БЕН РАН, то её библиографическое описание имеется в технологической базе данных БЕН. Фрагмент технологической базы, содержащий описания изданий, поступивших в ЦБС БЕН за последние 12 месяцев, поддерживается на ftp-сервере БЕН и доступен для всех её отделений. Библиографические описания поступивших в МИАН изданий выбираются из технологической базы и автоматически конвертируются во внутренний формат системы, что существенно снижает затраты на обработку литературы и ввод данных.

Реализация библиотечной информационной системы МИАН оказалась достаточно удачной, и в настоящее время система внедряется еще в двух библиотеках - ОГЛ (ИГЕМ) и ВЦ РАН.

Каталоги не являются единственным информационным ресурсом, предоставляемым библиотекой МИАН своим читателям. В области математики существуют две зарубежные реферативные системы - Zentralblatt и MathRew, охватывающие соответственно европейскую и американскую литературу. Отечественные издания в ней представлены не полно и с большим опозданием. Отечественная реферативная система РЖ ВИНИТИ оставляет желать лучшего. Поэтому часть математических библиотек самостоятельно ведет каталоги журнальных статей. Этот каталог велся раньше и в библиотеке МИАН, но потом его ведение было приостановлено из-за нехватки ресурсов. В настоящее время ведение этого каталога как каталога оглавлений отечественных периодических изданий в области математики возобновляется на новых технологиях. Закуплен, отконвертирован, состыкован с каталогом периодики и сделан доступным для поиска массив по статьям из математических журналов, поступившим за последние 10 лет в Российскую книжную палату. В настоящее время решается вопрос по актуализации этой информации. Пополнение этой базы путем приобретения текущей информации у Книжной палаты возможно, но сроки поступления информации оставляют желать лучшего. Для части журналов имеется договоренность с редколлегиями о пополнении базы с их Веб-сайтов. Прорабатывается возможность самостоятельного ввода путем сканирования и распознавания оглавлений, но она, в условиях ограниченных ресурсов, возможна только для небольшого объема ввода. Изучаются возможности кооперации с другими математическими библиотеками.

Перспективным направлением работы является создание сводного межбиблиотечного каталога по математике. Имеются примеры более или менее успешного создания межбиблиотечных каталогов, опирающихся на существующие структуры, основанные на принципе централизации - БЕН, БАН и т.п. При таком подходе объединение каталогов библиотек, в которых информационные потребности читателей существенно различаются, создает серьезные трудности. Объединение же усилий по созданию каталогов библиотек с практически одинаковыми фондами и схожими читательскими потребностями позволяет уменьшить затраты каждой из сторон. Для изданий, уже отраженных в каталоге, библиотеке достаточно только отметить наличие этого экземпляра в своем фонде. Такой проект реализуется совместно с Петербургским отделением математического института (ПОМИ). В настоящее время реализован сводный каталог периодики. Ведется проработка книжного каталога.

Отдельным направлением работы является создание электронных полнотекстовых библиотек. Наша библиотека, в качестве первого шага, проводит оцифровку трудов МИАН. Имеется договоренность с рядом математических журналов на ретроспективную оцифровку их изданий. В принципе объявлен международный проект по оцифровке математической литературы, но, к сожалению, до сих пор отсутствуют стандарты на представление информации. Отдельную проблему представляет высокая стоимость книжных сканеров, позволяющих оцифровывать ветхие издания без причинения им ущерба.

!3!

ПОРТАЛ "ЕСТЕСТВЕННЫЕ НАУКИ В ИНТЕРНЕТ"

С.А. Власова, А.В. Глушановский,
О.Д. Каллистратова, Т.Н. Соловьёва
(БЕН РАН)

Научно-техническая информация является одним из важнейших ресурсов для любого исследователя в области естественных наук. Формы и виды этой информации весьма многообразны. Сюда входит научная литература (и в первую очередь - научные журналы), патенты, реферативные и фактографические базы данных и сведения о них, каталоги библиотек и пр.

Значительная часть этой информации содержится в сети Интернет, но в разбросанном виде, так что поиск её затруднителен и отнимает у исследователя достаточно большое время. Так, сведения о научной литературе могут быть получены из Интернет-каталогов библиотек, полные тексты статей из научных журналов находятся на сайтах соответствующих издательств (и представляются, как правило, за плату), прочая информация разбросана на сайтах различных университетов, научных обществ и научно-исследовательских организаций.

С самого начала своей работы с Интернет (1996 г.) Библиотека по естественным наукам (БЕН) РАН ставила своей задачей предоставить своим пользователям не только традиционные для библиотек ресурсы (библиография и тексты публикаций), но все многообразие информации в области естественных наук, имеющейся в сети. Эта работа, проводимая параллельно по различным видам ресурсов, привела в итоге к идее создания портала "Естественные науки в Интернет", интегрирующего в одном месте доступ к максимально возможному числу естественнонаучных ресурсов для широкого круга пользователей. В результате был предложен и поддержан РФФИ (грант № 03-07-90055) проект создания подобного портала на базе сайта БЕН РАН. Целью этого проекта является создание Интернет-ресурса, объединяющего различную информацию в области естественных наук и предоставляющего исследователю возможность получить доступ к интересующим его сведениям из одной точки - с сайта БЕН РАН.

Основой для построения библиотечно-библиографической части портала являются Интернет-каталоги Централизованной библиотечной системы (ЦБС) БЕН РАН, включающей центральную библиотеку и около 150 библиотек академических организаций [1,2]. При работе с каталогами для удаленных пользователей - юридических лиц, являющихся абонентами межбиблиотечного абонемента БЕН РАН, предусмотрена возможность заказать электронные копии интересующих их работ. Копия выполняется и доставляется заказчику по электронной почте службой электронной доставки документов Библиотеки.

Все опросы читателей-сотрудников РАН, в разное время проводившиеся БЕН РАН, показали, что важнейшим источником информации для них являются зарубежные научные журналы. В то же время, существующие финансовые проблемы, с одной стороны, и постоянный рост подписных цен с другой, резко ограничивают возможность подписки библиотек. В этих условиях БЕН РАН стремится дать своим пользователям информацию хотя бы о содержании номеров интересующих их научных журналов. Для этого со страниц каталога журналов ЦБС БЕН РАН более чем для 1100 наименований реализованы и поддерживаются в актуальном состоянии отсылки на сайты издательств. Большинство научных издательств мира предоставляют бесплатный доступ к оглавлениям, а часто, и к рефератам статей издаваемых ими журналов. При этом оглавления (а иногда и полные тексты статей) появляются на сайте еще до выхода соответствующего номера в печатном виде. Это дает пользователям портала возможность знакомиться с оглавлениями журналов и получать опережающую информацию о номерах, находящихся еще в печати.

Однако наиболее ценными для пользователей, естественно, являются полные тексты статей. Поэтому в условиях сокращения традиционной подписки (на печатные версии журналов) одним из важных направлений в работе современных библиотек является доступ к полнотекстовым электронным версиям научных журналов [3]. В настоящее время БЕН РАН имеет право доступа к полным текстам более чем 2000 наименований журналов ведущих издательств мира. Следует отметить, что благодаря участию БЕН РАН в различных библиотечных консорциумах, важнейшим из которых является "Научная электронная библиотека" РФФИ, репертуар этих журналов значительно шире того, что БЕН РАН выписывает в печатном виде. При этом, если доступ к полному тексту журнала осуществляется не с сайта издательства, а с сайта "Научной электронной библиотеки", на соответствующей странице каталога журналов БЕН РАН имеются две ссылки: на страницу журнала в издательстве и на страницу этого же журнала в "Научной электронной библиотеке".

Таким образом, отсылки из каталога журналов БЕН РАН позволяют пользователям портала, работающим с зарегистрированных компьютеров (которые расположены не только в БЕН РАН, но и в библиотеках её сети), знакомиться с полными текстами интересующих их статей иногда до фактического выхода журнала из печати. Следует отметить, что такая система не только обеспечивает опережение по сравнению с печатной версией, но и повышает сервис, позволяя пользователю читать интересующие его журналы из своего института, не приезжая в центральную библиотеку, а также допуская одновременную работу с одной статьей, практически любого числа пользователей. Если же речь идет не о текущей, а об архивной информации (статьи прошлых лет), то некоторые журналы открывают свободный доступ к полным текстам через несколько лет после выхода номера, расширяя тем самым диапазон доступной полнотекстовой информации.

Как отмечалось выше, в Интернете, кроме библиотечно-библиографической, присутствует и другая разнообразная, но весьма рассеянная информация в области естественных наук, интересующая пользователей. Задача, стоящая перед создателями портала, состоит в том, чтобы сориентировать пользователя в нахождении этой информации. Конечно, в Интернет существуют общеизвестные указатели ресурсов (subject directories) такие, как Yahoo, Galaxy и др., но они ориентированы, в основном, на широкий круг обычных пользователей, а не на специалистов, профессионально занимающихся исследованиями в области фундаментальных наук. Фундаментальная научная информация не отражается в этих указателях в достаточной мере, поэтому они не подходят для основной категории пользователей БЕН РАН. Для создаваемого портала, ориентированного на специалистов в области естественных наук, необходимы указатели, содержащие ссылки на сайты достаточно серьезной научной направленности (сайты научных обществ, научно-исследовательских организаций, научных журналов и издательств, сайты, предоставляющие доступ к базам научных данных, и т.п). Из существующих общенаучных указателей такого рода может быть назван, пожалуй, только указатель Virtual Library - проект, в рамках которого верхние 1-2 уровня заданы организацией, координирующей работу, а указатели более низкого уровня на добровольных началах ведут различные университеты и научные организации. Но как показывает опыт, информация в Интернет столь многообразна и развивается так динамично, что одного, даже высококачественного указателя недостаточно, чтобы охватить всю или большую часть всей информации, содержащейся в Интернет по таким областям, как химия, физика, биология и т.п.

Для разработчиков портала с самого начала было очевидно, что создать подобного рода исчерпывающие указатели по каждой из областей естественных наук нереально в рамках одной библиотеки. Однако решение этой задачи облегчается тем, что подобного рода указатели по основным областям науки уже присутствуют в Интернет. Такие указатели, как правило, ведутся специалистами в данной области науки, работающими в научных организациях, специализированных библиотеках и университетах мира. Формируя подобные указатели, их авторы стараются (и могут в силу своей квалификации) обеспечить полноту и достоверность поддерживаемой в Интернет информации в своей области знаний. Как показывает практика, несколько таких указателей в каждой из областей науки, в значительной степени, охватывает пространство Интернет в этой области, отражая основные ресурсы и, при необходимости, вводят более дробное их тематическое деление. Также более или менее очевидно, что, идя от такого указателя, специалист далее ориентируется в предлагаемых ссылках лучше, чем информационно-библиотечный работник-консультант и уже не нуждается в услугах посредника.

Поэтому в рамках портала была поставлена задача дать пользователям начальные (стартовые) точки для поиска этой информации, каковыми и являются указатели ресурсов, созданные специалистами в каждой области. При отборе таких указателей для пользователей портала рассматривается их наполнение с точки зрения разнообразия представленных в них ресурсов по видам, актуальности ссылок (наличие "мертвых" ссылок), компетентности авторов (научные общества, университеты, институты и лаборатории, библиотеки).

Результатом первого этапа реализации портала является система Интернет-указателей ресурсов "Естественные науки в Интернет", поддерживаемая на сайте БЕН РАН (http://www.benran.ru). Система включает в себя 8 указателей по основным областям естественных наук (Астрономия, Биология, Математика, Механика, Науки о Земле, Физика, Химия, Экология). Особенностью этих указателей является то, что они отсылают пользователя к "узловым точкам" - указателям (каталогам) ресурсов в той или иной области естественных наук, поддерживаемым авторитетными организациями в данной области знаний, предлагая пользователю далее самому ориентироваться в области, в которой он является более компетентным специалистом, чем информационно-библиотечный персонал. В свою очередь, БЕН РАН, предлагая своим пользователям эту "информацию об информации", освобождает их от необходимости самостоятельного поиска этой информации в Интернет, что не всегда является простой задачей, и проверки её актуальности и достоверности.

В связи с отмечаемой всеми пользователями особой важностью для них научных журналов в систему указателей входит также и указатель "Научная периодика в Интернет". Этот указатель включает в себя ссылки на сайты ведущих научных издательств, издающих литературу в области естественных наук. В указатель включены также ссылки на создаваемые специалистами в отдельных областях списки ссылок на страницы различных научных журналов в Интернет. Такого рода списки (политематические или по отдельным областям естественных наук) входят как в упомянутые выше специализированные указатели, так и присутствуют в Интернете отдельно на сайтах библиотек и различных научных организаций. По этим спискам пользователь может легко найти в Интернете страницу интересующего его журнала, даже не зная издающей его организации.

Разрабатываемый портал является общедоступным, он позволит исследователям не только РАН, но и других организаций, работающим в области естественных наук, существенно сократить время, затрачиваемое на поиск и получение интересующей их информации.

Литература

  1. Власова С., Калёнов Н., Каллистратова О., Соловьёва Т. Каталоги БЕН РАН в Интернете // Информационные ресурсы России. - 2003. - № 2.
  2. Глушановский А.В., Соловьёва Т.Н. Развитие электронного журнального каталога в сети Интернет. / Новые технологии в информационном обеспечении науки. Сб. статей. /Ред.: Калёнов Н.Е. - М., Биоинформсервис, 2001. - С. 98 - 101.
  3. Глушановский А.В., Калёнов Н.Е. Научные издания в электронной форме и их роль в информационном обеспечении ученых РАН // Информационные ресурсы России. - 2002. - № 1-2. - С. 8-9.
!4!

НАВИГАЦИОННАЯ СИСТЕМА
ПО ИНФОРМАЦИОННЫМ РЕСУРСАМ
ГОСУДАРСТВЕННОЙ СИСТЕМЫ
НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ

Т.А. Шкловская
(НТЦ "Информрегистр")

В прошлом году начались работы по созданию Навигационной системы по информационным ресурсам государственной системы научно-технической информации. В разработке и создании системы принимают участие НТЦ "Информрегистр", Библиотека по естественным наукам РАН, ВИНИТИ "Информэлектро" и Институт информационных технологий и телекоммуникаций (ГНИИ ИТТ "Информика").

Навигационная система ГСНТИ призвана обеспечить решение следующих задач:

Навигационная служба. Функционирование навигационной системы обеспечивает навигационная служба. Подразделения навигационной службы включают: центральную навигационную службу, ведомственные и региональные подразделения.

Основные функции навигационной службы:

Сведения об информационных ресурсах. В навигационной системе собираются и актуализируются сведения об юридических и физических лицах - создателях/держателях ресурсов, об электронных ИР НТИ, а также описания научно-значимых неэлектронных ИР.

В системе будут содержаться как первичные научные документы, так и вторичная НТИ, а также массивы научно-организационной и вспомогательной информации.

Будут собираться данные об ИР, как функционирующих в промышленном режиме и доступных для внешнего пользователя, так и об ИР, разрабатываемых и находящихся в опытной (экспериментальной) эксплуатации.

Обязательному сбору подлежат описания ИР, для создания или поддержки функционирования которых использовались (хотя бы частично) бюджетные и другие государственные средства. Остальные описания ИР собираются на добровольной основе. Наличие в описаниях ИР группы реквизитов, относящихся к правообладанию повышает привлекательность передачи описания ИР НТИ в систему для создателя/держателя ресурса. Сведения об ИР предоставляются предприятиями, органами и организациями, непосредственно осуществляющими эксплуатацию или разработку ИР, и/или собственниками. Ответственность за достоверность предоставляемых в навигационную службу ГСНТИ сведений об ИР несут лица, их предоставляющие.

Формирование и ведение информационных массивов Навигационной системы ГСНТИ. База метаданных. Описания вводятся, актуализируются и хранятся в базе метаданных, доступной через стандартный Internet-браузер. Доступ к базе метаданных, в том числе все возможности поиска информации, предоставляется всем пользователям на безвозмездной основе.

Взаимодействие Навигационной системы ГСНТИ с другими государственными и международными системами.

Навигационная система ГСНТИ

Реализация. В настоящее время реализован и тестируется экспериментальный программно - технологический комплекс системы. База метаданных находится по адресу http://scireg.informika.ru

Описание ИР и специфика его реализации. Набор элементов описания ИР основан на стандарте Dublin Core с добавлением ряда элементов. Выбраны обязательные элементы описаний. В случае необходимости описание несложно модифицировать. Для выбора значений элементов описания ИР и создателей/держателей ИР широко используются списки и динамически пополняемые списки. При большом объеме списков предусмотрены механизмы оперативного выбора - группировка и упорядочение элементов списка, а также поиск в списке.

Ввод и редактирование данных. В базе метаданных реализованы:

В системе предусмотрено выявление дублетных документов на этапе ввода данных, обеспечен контроль корректности ввода данных в нормированные поля. Доступ к возможностям ввода, редактирования, чтения и вывода данных разграничен по группам пользователей:

Вывод данных. Результаты поиска выводятся на экран монитора (с возможностью гибкой настройки по составу элементов данных и форм выдачи), а также в текстовые файлы, в том числе структуры XML.

Поиск. Атрибутный поиск по нормированным и текстовым полям обеспечивает поиск ИР по всем элементам описаний и их комбинациям.

Полнотекстовый и атрибутный поиск по текстовым полям обеспечивает в том числе:

Все виды поиска в отношении найденного перечня ИР обеспечивают:

Статистика. В системе обеспечивается формирование статистических данных по функционированию и использованию программно-технологического комплекса системы:

На основании собранных и сохраненных в БД сервера данных статистики и персональных карточек пользователей будут формироваться отчеты по различным группам показателей (посещаемости каталога, популярности его материалов, интенсивности использования поисковых систем, интенсивности обновления и пополнения материалов, обширности аудитории и пр.).

Администрирование базы метаданных. Предусматриваются:

!5!

МЕТОДИКА ВЫЯВЛЕНИЯ И
АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ
ИНТЕРНЕТ-РЕСУРСОВ ДЛЯ
НАВИГАЦИОННОЙ СИСТЕМЫ

Т.В. Наук
(НТЦ "Информрегистр")

Научно-техническое развитие общества, достижение текущих и долгосрочных социально-экономических целей немыслимо без такого стратегически важного ресурса, как информация. По экспертным оценкам научно-техническая информация составляет 15% мировых информационных ресурсов. Бурное развитие в последние годы информационных технологий и телекоммуникационных сетей вносит изменения в приоритеты информационных ресурсов, в том числе и научно-технической сферы деятельности. На первое место выходят электронные источники информации и не менее значимые ресурсы сети Интернет.

Наряду с классическими базами данных, в основном библиографическими и реферативными, доминировавшими в информационном обслуживании науки до середины 1990-х гг., научные учреждения и службы научно-технической информации стали создавать самые разнообразные коллекции научных документов и данных, рассчитанных как на общее, так и локальное использование. Это полнотекстовые коллекции научно-технических документов, электронные карты, электронные энциклопедии и справочники, научные форумы и дискуссии, компьютерные модели различных научных объектов, массивы данных, полученных в результате экспериментов и наблюдений и др. С точки зрения организации доступа, эти коллекции представлены общедоступными веб-сайтами, базами и хранилищами данных, размещенными в Интернете, массивами, доступными через локальные сети, а также электронными изданиями, распространяемыми на тиражируемых носителях - CD или DVD. Существенно повысилось также разнообразие структур данных ресурсов научной информации. Кроме обычных текстов и цифровых данных, активно создается и распространяется информация в виде графики, ГИС, анимации, ЗD-представлений, аудио, различных интерактивных систем и др. К тому же многие из этих видов структур данных могут быть представлены достаточно широким набором языков разметки, форматов, кодировок, и других формальных способов. Расширяется использование Интернет-технологий информационными центрами и библиотеками для обслуживания потребителей информации. Наблюдается тенденция к постепенной конвергенции и трансформации функций информационных центров и библиотек с целью оказания эффективной помощи любым пользователям по поиску необходимых им сведений в мировом информационном пространстве.

Рассмотренные выше позитивные изменения в структуре и составе научно-технической информации открывают новые перспективные пути повышения эффективности использования накапливаемых информационных ресурсов для удовлетворения информационных потребностей граждан, информационного обеспечения социальной и экономической сферы и процессов государственного управления.

Однако именно в области использования Интернет-ресурсов остаются нерешенными многие принципиальные проблемы. Одной из таких проблем является создание условий для эффективного использования Интернет-ресурсов, что, прежде всего, подразумевает эффективную организацию ресурсов и предоставление эффективной процедуры их поиска.

Эффективная организация ресурсов связана в основном с информационно-технологическими проблемами и требует не столько государственного регулирования, сколько организации совместных действий государственного и частного секторов Интернета в области стандартизации и унификации. Основными практическими задачами этого направления являются:

Для обеспечения эффективной навигации и поиска информационных ресурсов научно-технической сферы (далее НСИР) необходимо создание и распространение единой системы метаданных и лингвистического обеспечения. Система метаданных - это обобщенное понятие для группы лингвистических средств, предназначенных для описания информационных объектов различного типа и в различных целях.

Одним из наиболее популярных универсальных систем метаданных является Дублинское ядро метаданных, разработанное в конце 1990-х гг. по инициативе Консорциума Всемирной паутины, W3C. Популярность данного лингвистического средства обусловлена тем, что модель описания, основанная на Дублинском Ядре, не исключает возможности использования различных лингвистических средств, применение которых позволяет решать все вышеперечисленные задачи. Кроме того, для применения Дублинского ядра не требуется специальной подготовки в отличие от традиционных библиотечных форматов (UNIMARC, MARC21 и т.д.).

Существующие лингвистические средства (ГРНТИ, УДК, дискрипторные ИПЯ, локальные классификации, каталоги поисковых систем в Интернет), которые применяются для описания информационных ресурсов научно- технической сферы деятельности, не способны решать все задачи одновременно. В связи с этим возникает необходимость создания такой модели описания, которая бы позволяла удовлетворить все требования, вытекающие из целей создания автоматизированной системы и которая бы объединила все достоинства вышеперечисленных средств.

Внедрение российской системы метаданных, основанной на Дублинском ядре, влечет за собой также необходимость разработки сопутствующих лингвистических средств (классификаторов, словарей и лингвистических процессоров), разработки нормативно-правового и методического обеспечения (методические рекомендации по выявлению ресурсов, формированию описания, заполнению элементов метаданных и др.). Внедрение такой системы метаданных и распространение единого лингвистического обеспечения среди производителей ресурсов на основе "самоописания" - дело долгое, сложное и даже при хорошей организации никогда не достигнет 100% охвата русскоязычных ресурсов Интернета. В то же время государственные организации, прежде всего в библиотеках, органах НТИ и других информационных центрах, обладают значительными ресурсами опытных библиографов, референтов и каталогизаторов, в том числе и информационных аналитиков, объединенные усилия которых могли бы обеспечить стандартное описание и индексирование большой части новых ресурсов, особенно в сфере науки, культуры и образования.

В этом направлении уже сделаны первые шаги, а именно: осуществляется проект по созданию навигационной системы по НСИР, в рамках которой каталогизируются Интернет-ресурсы научно-технической сферы деятельности, разрабатывается лингвистическое обеспечение и методические руководства. Основная цель данной работы является разработка методики выявления и описания Интернет-ресурсов научно-технической сферы деятельности в рамках комплекта нормативно-правового и методического обеспечения навигационной системы.

Методика выявления и описания НСИР включает три этапа:

1 Этап. Выявление объектов описания

Предложено два метода выявления НСИР как объектов описания в навигационной системе:

    1. В запросе информационно-поисковой системы задаются ключевые слова, взятые из алфавитно-предметного указателя ГРНТИ
    2. В запросе информационно-поисковой системы задаются наименования организаций, взятые из БД Госкомстата, которая содержит пометку для организаций научно-технической сферы деятельности и может быть доступна.

2 Этап. Структуризация выявленных объектов

Создание рабочей таблицы для удобства представления:

Сетевой адрес

Название организации

Описание деятельности

Контактная информация

Примечание

Http-адрес размещения ресурса

Наименование владельца/создателя Интернет-ресурса

 

Адрес организации, телефон, e-mail ответственных лиц

Какая информация о ИР отсутствует?

Выявленные объекты являются претендентами для занесения в навигационную систему в качестве НСИР и заносятся в рабочую таблицу в алфавитном порядке по наименованию организации. Это необходимо для исключения дублирования Интернет-ресурсов. Данный этап предполагает беглый анализ НСИР и выявление основных сведений для заполнения полей рабочей таблицы. Поле "Примечание" остается незаполненным до более глубокого анализа.

3 Этап. Анализ Интернет-ресурса и заполнение элементов метаописания НСИР

Прежде, чем выполнять описание выбранного НСИР в навигационной системе, рекомендуется сформировать его метаописание в виде файла MS Word в табличном формате. Каждая строка таблицы соответствует отдельному элементу метаданных. Такой промежуточный вариант описания НСИР позволяет провести более точный анализ НСИР и исключить возможные ошибки его метаописания в навигационной системе. При отсутствии информации, необходимой для заполнения какого-либо элемента метаописания НСИР, сведения об этом вносятся в поле "Примечание" рабочей таблице. Так же поле "Примечание" может использоваться для различных замечаний по качеству ИР, возникающих в ходе анализа, и для рабочих отметок. Уточнение метаописания НСИР осуществляется путем непосредственного контакта с владельцем/создателем ресурса (телефон, e-mail).

Для подтверждения данных, полученных в результате описания ресурса, возможно проведение анкетирования владельца/создателя ресурса (телефон, e-mail).

Анализ объектов описания предполагает навигацию по ресурсу, выявление собственно данных о самом объекте описания и сведений о его составе. В составе выбранного НСИР могут быть представлены другие ИР, которые в навигационной системе описываются отдельно. Основным источником данных об НСИР выступает его главная страница и размещенные на ней рубрики. Глубокий анализ рубрик позволяет выявлять необходимые данные, как для объекта описания, так и для ресурсов, представленных в его составе.

Предложенная методика позволяет, в среднем, выявлять, анализировать и заносить в базу данных навигационной системы два НСИР в день.

!6!

ИНФОРМАЦИОННЫЕ РЕСУРСЫ РАН
И ИХ ДОСТУПНОСТЬ

Т.К. Полунина, В.А. Цветкова
(ВИНИТИ РАН)

"Наша Академия, - отмечал В.И. Вернадский, - представляет в своей истории глубочайший интерес, так как она пошла по пути, по которому не шла ни одна из академий мира. Она стоит среди них как единственное своеобразное учреждение" [1].

Ликвидация отраслевой науки создала условия, при которых академический сектор становится своего рода ядром сохранения отечественной науки, несмотря на низкую оплату труда специалистов, отток кадров, недостаточное финансирование.

Академическая наука выступает как фактор сохранения научного потенциала страны. Ведущая роль академической науки заключается в концентрации исследований в большей части важнейших областей знаний.

По данным базы данных SCI (Science Citation Index) 90% информационного потока России составляют публикации ученых РАН [2]. При этом США ежегодно публикуют около 250 тыс. научных статей, а Россия - 23 тыс. статей. Безусловно, это данные только на основе отражаемых в SCI изданий. Что касается России, то в БД SCI отражаются около 100 журналов, тогда как издается около 1.5 тыс. научных журналов.

При этом нельзя не брать во внимание, что бюджет США на науку составил в 2001 г. 200 млрд. долл., а бюджет России на фундаментальную науку составил 16 млрд. руб., доля РАН в этом бюджете составляет 4 млрд. руб. Таким образом стоимость публикаций ученых РАН почти в 100 раз ниже, чем ученых США.

Спектр информационных продуктов и услуг, наиболее полно представленных на информационном рынке как Запада, так и России, включает печатные и электронные реферативные и другие специальные издания, базы и банки данных, копии первоисточников и т. п.

Издательская деятельность Российской Академии наук достаточно полно проанализирована в работе [3]. По количеству наименований выпуск академических журналов остается стабильным. Однако тиражи за последнее десятилетие сократились в 12.4 для журналов и в 20 раз для научных книг. В результате значительная часть изданий РАН попала в категорию малотиражной литературы, то есть эти издания стали труднодоступными для ученых, специалистов, работников научной сферы, аспирантов и студентов. Это одна из проблем сегодняшнего дня [4]. В общем объеме книжного выпуска страны доля академического книгоиздания составляет 1.3%, а от объема научного книгоиздания - почти 35%. Благодаря деятельности МАИК "Наука/Интерпериодика" более 100 журналов издательства "Наука" издаются на английском языке.

Изменилась и тематическая направленность изданий РАН. В 70-80 гг. соотношение естественнонаучной и гуманитарной литературы было 60% и 40% соответственно, с начала 90 годов это соотношение составляет 36% и 64% соответственно.

Фактически журналы стали сегодня основной издательской трибуной для отражения итогов фундаментальных исследований в рамках РАН.

Крупнейшими производителями информационных продуктов в РАН, в первую очередь реферативных баз данных, являются ВИНИТИ РАН и ИНИОН РАН. В России выпускается около 400 реферативных и библиографических изданий, из них более 310 выпускает ВИНИТИ, охватывая область точных, естественных и технических наук и медицину; около 35 - ИНИОН. Ряд этих изданий формируется в электронной форме. Они, как правило, доступны для внешних пользователей, в том числе и через сеть Интернет [5].

Реферативный журнал и базы данных ВИНИТИ РАН являются ведущими информационными изданиями. Существуют разные мнения относительно будущего этой формы информирования, но, по-видимому, в ближайшие 10-15 лет их не смогут заменить ни полнотекстовые базы данных, ни доступ к первоисточникам с использованием Интернет. Сегодня реферативные журналы выпускают практически все ведущие информационные службы мира: CAS, BIOSIS, INSPEC, INIS и др. Вместе с тем, следует отметить, что ряд служб, например PASCAL, INPADOC, перешли к выпуску реферативных журналов только в электронной форме. Всего в мире выпускается около 800 реферативных журналов по различной тематике, значительная часть из которых доступна в электронной форме [6].

Следует отметить, что российские информационные ресурсы в печатной форме, особенно журналы, поступают на информационный рынок Запада практически в полном объеме. Значительная часть передается в результате так называемого международного информационного обмена между библиотеками. Именно эта форма позволяет получить до 10 тыс. зарубежных журналов, которые были бы недоступны российским ученым из-за отсутствия валютных средств на их подписку. Но это не более 20% зарубежных научных журналов.

Среди российских организаций, создающих базы данных, реально используемые для информационного обслуживания, преобладают организации государственной формы собственности (более 85%). Организациям и предприятиям государственной формы собственности принадлежит большинство управленческих, учетно-статистических и более 90% исследовательских баз данных. Именно исследовательские и реферативные базы данных генерируют учреждения РАН.

ВИНИТИ и ИНИОН - крупнейшие генераторы реферативных баз данных практически во всех областях науки на основе опубликованных источников информации.

Одна из главных тенденций в развитии экспорта российской интеллектуальной продукции - расширяющееся сотрудничество нашей науки со странами третьего мира, которому очень способствует распространение таких электронных средств связи, как Интернет, где нет ни государственных границ, ни органов, контролирующих, с кем и как ученый сотрудничает.

В настоящее время далеко не все информационные ресурсы организаций РАН представлены в Интернет. Выставленные же в Интернете ресурсы выглядят, как калейдоскоп. Наряду с неполнотой это представление характеризуется также отсутствием взаимосвязанности (системы взаимных ссылок) между сайтами и достаточной системности, что объясняется тем, что каждая организация организовывали свои Интернет-сайты самостоятельно и независимо. Это характерно для этапа вхождения в Интернет и накопления информационных массивов, представленных на сайтах организаций. Остается надеяться, что по мере завершения этапа первоначального накопления и установления множества взаимных ссылок представленность информационных ресурсов в Интернете достигнет того уровня, когда значительная доля запросов будет обслуживаться в диалоговом режиме при работе в сети.

Интернет является средством раскрытия этих ресурсов для потребителей НТИ в двух отношениях. Во-первых, он может обеспечить доступ пользователей непосредственно к самому ресурсу, как, например, обслуживание пользователей централизованной базы данных ВИНИТИ РАН в режиме on-line. Во-вторых, Интернет, может служить средством отображения содержания информационных фондов организации и средством косвенного доступа к этим фондам посредством передачи заказов на информацию. Например, читатель, соединившись с сайтом ВИНИТИ РАН, может ознакомиться с содержанием фондов научной литературы ВИНИТИ и заказать интересующую его литературу, заполнив в диалоге с сервером ВИНИТИ форму заказа.

Интегрированная система информационных ресурсов (ИСИР) РАН предназначена для обеспечения доступа ученым, научным коллективам и организациям к информационным и вычислительным ресурсам РАН, организации оперативного обмена научной информацией и создания на основе современных информационных технологий условий для проведения совместных исследовательских работ.

В основу организации системы положен принцип децентрализации, что означает, что всю информацию, хранящуюся в системе, загружают и сопровождают сами лица и организации в том объеме, в каком они это считают необходимым. Для этого система предоставляет соответствующие средства. Это позволяет поддерживать правильность и актуальность информации. Хотя более полные данные об институтах наряду с предоставлением их информационных ресурсов можно найти на сайтах самих институтов.

Одним из источников информации по информационным ресурсам основных генераторов информационных ресурсов, в том числе учреждений РАН, является Справочник "Информационные и телекоммуникационные центры" [7], издаваемый ВИНИТИ РАН. В нем делается попытка отразить и информационные ресурсы академических институтов, представленные на их сайтах в Интернет, что в некоторой мере обеспечивает привязку Справочника к академическим Интернет-ресурсам с элементами навигации, повышая тем самым потребительскую ценность Справочника в целом. Указанное отражение осуществляется посредством введения в Справочник новой рубрики, возможное название которой "Перечень академических институтов в области физики, техники, энергетики, химии и биологии, представивших свои информационные ресурсы в Интернет". Рубрика охватывает все институты РАН, относящиеся к указанным научным отраслям и поддерживающим свои сайты в Интернет с возможностью свободного к ним доступа.

Сменяющие одна другую программы развития российской науки, которые констатируют её неприспособленность к рынку и призывают к нему приспосабливаться, на наш взгляд, имеют принципиальный недостаток. Рынок для науки - это рынок наукоемкой продукции. При его отсутствии призывы пускаться в "рыночное плавание" напоминают приглашения плавать там, где нет воды, или, что еще хуже, нырнуть в пустой бассейн. Не российская наука не приспособлена к рынку, а отечественный вариант рыночной экономики не приспособлен к ассимилированию достижений научно-технического прогресса. Поэтому, несмотря на то, что Российская академия наук предоставляет значительную часть информационных ресурсов в сфере фундаментальных исследований, существует реальная угроза их резкого сокращения.

Литература

  1. Вернадский, 1989, с. 337-338
  2. Кто и как измеряет науку. Маркусова В. Независимая газета. 23.12.2002.
  3. Петров Р.В., Васильев В.И. Издательская деятельность Российской академии наук 1991-2001: к 10-летию восстановления Российской академии наук как высшего научного учреждения России. - М.: Наука, 2001. - 64 с.
  4. Цветкова В.А. Проблемы распространения малотиражной научной литературы // НТИ-2002: 6-я междунар. конф. "Информационное общество. Интеллектуальная обработка информации. Информационные технологии.", Москва, 16-18 октября, 2002: Матер. конф. - М. 2002. - С. 373-375.
  5. Цветкова В.А., Родионов И.И. ВИНИТИ на информационном рынке // Информационные ресурсы России. - № 6(69), - 2002. - с. 25-27.
  6. Ulrich's International Periodicals Directory. - 39th ed. New York: Bowker, 2001.
  7. Информационные и телекоммуникационные центры. Справочник. - Авторы-сост.: Цветкова В.А, Полунина Т.К., Мандрыка Т.И. и др. - 5-е изд. - М.: ВИНИТИ, 2002. - 354 с.
!7!

WEB-ИНТЕРФЕЙС СИСТЕМЫ "НАУКА РОССИИ"

М.М. Якшин
(БЕН РАН)

Первые версии web-интерфейса системы "Наука России" появились около года назад и были приняты на вооружение БЕН РАН. Первоначально перед системой ставились достаточно традиционные цели по организации web-интерфейса к существующей фиксированной базе данных - сама по себе теоретического интереса такая задача не представляет, этот вопрос хорошо освещен и в литературе, и в многочисленных успешно функционирующих проектах, существует большое количество типовых решений и стандартного инструментария для организации подобного рода доступа.

Одной из первых перед системой "Наука России" возникла задача настраиваемости таблиц системы. Изначально система базировалась на 4 таблицах, хранящих различные части схемы данных общих записей: "Публикации", "Персоналии", "Организации", "Источники". Так как для различных целей могли понадобится различные поля в этих таблицах, вопрос о наращиваемости структуры полей был решен путем создания редактора структуры таблиц, позволяющего на лету модифицировать схему данных, добавляя, изменяя и удаляя поля. При этом, благодаря использованной ISAM, эти действия выполняются практически мгновенно.

Этот шаг был реализован в первой версии "Науки России". Тем не менее, система расширялась как в качественном, так и в количественном направлении, появлялись новые функции, повышалась совместимость и удобство для пользователя, и с некоторых пор жестко фиксированная структура из 4 отдельно описанных таблиц стала серьезной помехой для проведения дальнейших разработок на базе этой системы. Вторым шагом по пути универсализации и структуризации "Науки России" стало избавление от фиксированной структуры из 4 таблиц. Каждая таблица получила свой внутренний идентификатор, и все общие свойства каждой из них были сведены к одной глобальной сущности, в том числе были четко выделены типы, возможные содержания полей и соответствующие им элементы интерфейса для двух случаев: редактирования (или ввода) и просмотра записи.

Такие действия в значительной мере упростили и сделали более гибкой настройку системы на дополнительные таблицы, поля и типы данных. Стало намного проще, например, добавить поддержку нового типа поля в систему - для этого достаточно было дописать поддержку интерфейсов редактирования и просмотра для этого типа поля и описать механизм хранения полей и записей в базе данных. Система позволяла также ограниченно менять структуру таблиц, хотя сам процесс был связан с множеством ограничений, вызванных тем, что связи между таблицами во второй версии системы были жестко фиксированы во многих местах в самом коде, что затрудняло, например, добавление новой таблицы.

Стоит заметить, что подразумевается под термином "связи между таблицами". Как и любая реляционной модели, модель БД "Науки России" содержит таблицы, связанные ключами отношениями типа 1-к-1, 1-к-многим и много-к-многим. В оригинальной версии с 4 таблицами эти связи выглядели следующим образом:

Публикация <<->> Персоналия <<->> Организация

Публикация <<-> Источник

Но, кроме существования чисто теоретических связей по ключам между таблицами, в системе "Наука России" существуют определенные "пути прохождения" пользователя по интерфейсу ввода в процессе ввода или корректирования одной записи. В некотором смысле такой подход связан со спецификой пользовательского интерфейса и web-среды, и, с одной стороны, он относительно несложно реализуется технически, с другой - крайне удобен для конечного пользователя.

Еще на этапе проектирования первой версии системы были определены основные пути прохождения пользователя (workflow) для ввода информации по каждой из сущностей, для 4-табличной версии эти пути были следующими:

Для публикации:

публикация -> персоналия -> организация

публикация -> источник

Для персоналии:

персоналия -> организация

Для организации и источника ввод записи заключался только в вводе информации о самой записи без установления связей.

Очевидно, что задача реализации таких связей и путей (без рассмотрения вопросов их дальнейшего развития) могла быть с успехом решена без построения достаточно сложного математического описания соответствующей схемы данных, что и было сделано в первой и второй версиях системы "Наука России".

Разработка третьей версии ставила перед собой задачу создания уже нечто большего, чем web-интерфейс для одной конкретной базы данных или системы баз данных. Третья версия "Науки России" фактически представляет из себя настраиваемый конструктор для реализации практически любых представимых в реляционной модели баз данных, ориентированных на описание и поиск различных ресурсов.

Было принято решение перенести всю функциональность конкретных таблиц в отдельные типовые классы функциональностей, а существующие таблицы описать как схему данных, основанную на различных сочетаниях таких типовых классов. При этом внимание уделялось сохранению как привычных схем работы (путей прохождения для пользователей), так и полноте предоставляемых средств для разработчика в будущем с помощью такого API.

Новая версия системы "Наука России" накладывает некоторые дополнительные условия на существующие базы данных, сделанные для обобщения методов работы с таблицами, а именно каждая сущность-таблица, с которой идет работа и на которую, может быть, придется ссылаться из справочников, должна иметь визуальной идентификатор-строку "name", которая будет использоваться для показа пользователю в качестве указателя на конкретную запись.

Для каждой базы данных, поддерживаемой описываемой системой, создается конфигурация, включающая в себя для каждой таблицы:

  1. Идентификатор таблицы
  2. Название таблицы (в силу специфики интерфейса и русского языка приходится отдельно задавать название таблицы в именительном, родительном падежах и множественном числе);
  3. Подмножество столбцов SQL-таблицы, которое будет участвовать в интерфейсе (в него не должны входить, например, столбцы с внутренними идентификаторами, временными метками записей и т.п.)
  4. Множество ссылок и путей, исходящих из этой таблицы.

Для каждой такой ссылки из п. 4 в конфигурации фиксируются следующие параметры:

  1. Целевая таблица (куда ведет ссылка);
  2. Уникальный идентификатор ссылки для хранения в переменной сессии;
  3. Тип связи - на данный момент поддерживаются типы 0n, 1n, 1 как отображение, соответственно, связей "много-ко-многим (справа допускается ноль)", "много-ко-многим (справа не допускается ноль)" и "много-к-одному";
  4. Если связь имеет тип "много-ко-многим" и, следовательно, требует для хранения отдельной таблицы-связки, то указывается имя этой таблицы;
  5. Название связи - по идеологии проектирования системы, каждая связь должна иметь осмысленное значение в реальном мире и, соответственное, название, например, связь "публикация-персоналия" носит название "автор" и т.п.
  6. Если это необходимо, указывается текст подсказки для данной конкретной ссылки-пути, показывающийся пользователю;

Таким образом, введение понятия конфигурации системы для определенной базы данных в третьей версии "Науки России" продвинуло возможности системы до создания специализированных, сильно отличающихся по структуре БД на основе того же программного обеспечения. Ярким примером такой БД можно считать базу данных "Информационные ресурсы РАН", которая имеет следующую структуру:

Ресурс <<->> Персоналия

Ресурс <<->> Организация

Персоналия <<->> Организация

Стоит заметить также, что в отличие от "Науки России", все множественные связи здесь типа "0n" в обозначениях, предложенных выше. Система "Информационных ресурсов РАН" функционирует в точности на той же самой общей платформе, что и различные базы данных "Науки России", отличаясь только конфигурационным файлом, что позволяет говорить о достаточной гибкости предложенного подхода.

Благодаря реализованной за счет конфигурации гибкой настраиваемости SQL-обработчика, систему можно использовать даже для организации web-интерфейса к уже существующим базам данных - достаточно просто корректно описать их структуру и связи.

Дальнейшее развитие системы предполагается осуществлять "вглубь" и "вширь", Вширь - это добавление новых возможностей экспорта и импорта, взаимодействия с внешними по отношению к web-среде системами, улучшения интерфейсов, в том числе поискового. Вглубь - это дальнейшая работа над автоматизацией работы поисковой системы. Поисковая компонента "Науки России" осталась единственной частью системы, которую нельзя пока напрямую сгенерировать из конфигурации ввиду достаточной сложности и неоднозначности формирования поисковых запросов. В будущем необходимо будет формализовать и описать на уровне структур данных и эту часть, а также реализовать трансляцию этой части конфигурации напрямую в соответствующие web-формы и SQL-запросы из них к базам данных.

!8!

ТЕХНОЛОГИЯ ЗАКАЗА ЛИТЕРАТУРЫ
ИЗ ЧИТАЛЬНОГО ЗАЛА БЕН РАН
С ИСПОЛЬЗОВАНИЕМ ИНТЕРНЕТ

С.А. Власова
(БЕН РАН)

Библиотека по естественным наукам РАН, являющаяся одной из крупнейших научных библиотек страны, обладает уникальными фондами в области естественных наук. Одной из важнейших задач Библиотеки является обслуживание читателей в её читальных залах. В настоящее время постоянными читателями БЕН являются около 12 тысяч человек, из которых 66% - сотрудники научно-исследовательских учреждений РАН.

Основной фонд БЕН РАН, насчитывающий около полутора миллионов экземпляров, находится в хранилище Библиотеки. В открытом доступе представлены справочные материалы и ряд отечественных журналов текущего года. Таким образом, для получения в читальный зал интересующего издания читателю в большинстве случаев необходимо заказать его из хранилища.

Традиционный процесс заказа литературы в читальном зале БЕН состоит из следующих процедур. Поиск необходимого издания в каталогах (традиционном карточном, локальном электронном или Интернет-каталоге); заполнение вручную двух экземпляров требований на выбранные издания, передача требований на кафедру выдачи литературы. В требованиях (в соответствии с правилами, принятыми в библиотеках) читатель должен указать свою фамилию, организацию, номер читательского билета, элементы библиографического описания заказываемого издания. Кроме того, на требовании указывается расстановочный шифр, позволяющий найти издание в хранилище Библиотеки, который читатель узнает в процессе поиска издания в каталогах.

Широкое внедрение сетевых технологий создало предпосылки для упрощения процедуры заказа изданий с использованием Интернет. Для повышения уровня сервиса пользователей в этом направлении специалистами БЕН РАН разработана автоматизированная система заказа литературы из читального зала Библиотеки с помощью Интернет (работа в этом направлении поддерживается грантами РФФИ №№ 03-07-90055 и 03-07-90056).

Система позволяет сформировать требования на необходимые издания еще до непосредственного прихода читателя в Библиотеку. Для этого ему необходимо воспользоваться любым персональным компьютером, имеющим доступ в Интернет.

Система в своей работе использует Интернет-каталоги БЕН - каталог журналов и каталог книг [1,2]. Каталог журналов отражает более 6500 наименований отечественных и зарубежных журналов, поступивших с 1990 года в фонды Централизованной библиотечной системы (ЦБС) БЕН РАН. Электронный каталог книг содержит около 70 тысяч библиографических описаний отечественных и зарубежных книг (монографий, сборников, трудов конференций и т.п.), поступающих в ЦБС БЕН РАН с середины 90-х годов.

Формирование заказа осуществляется с сайта БЕН РАН (http://benran.ru) переходом по ссылке "Заказ литературы в читальном зале". В начале работы с системой осуществляется регистрация пользователя - читатель вводит номер своего читательского билета и фамилию. В случае ошибки (при вводе осуществляется формальный контроль номера читательского билета, который должен состоять из 8-ми символов, первые два символа - проверяемый код организации, где работает читатель) ввод данных можно повторить, вернувшись на страницу назад.

После регистрации пользователю выдается страница со ссылками на два возможных режима формирования заказов: заказ из каталога журналов, заказ из каталога книг.

Для формирования заказа из каталога журналов пользователь находит необходимый ему выпуск последовательным переходом от странице к странице по выбранным ссылкам. На странице с алфавитами (латиница и кириллица) выбирается буква, с которой начинается название журнала, из списка названий на данную букву выбирается нужное название, затем выпуск. Поскольку Интернет-каталоги БЕН РАН являются сводными (в них отражается наличие изданий не только в Центральной библиотеке, но и во всех библиотеках её ЦБС), интерфейс системы позволяет выбрать не все выпуски, а только те, которые имеются в фонде Центральной библиотеки и доступны в её читальных залах. Номера этих выпусков окрашены в синий цвет и представляют собой активные гиперссылки. Выпуски, номера которых имеют черный цвет, в фонде Центральной Библиотеки отсутствуют, их можно заказать только по межбиблиотечному абонементу. В том случае, если читатель не знает, в каком номере находится нужная ему статья, ему необходимо выбрать соответствующий номер тома. Страницы или название статьи читатель сможет указать позже на распечатанном требовании.

Формирование заказа из каталога книг начинается с составления поискового запроса. Запрос может включать слова из библиографического описания изданий, название, автора, год издания, индексы УДК, ISBN и ISSN. Термины могут соединяться логическими связками "И", "ИЛИ", "НЕ".

Результатом выполнения запроса является список записей, который выдаётся на экран порциями (количество записей в порции устанавливается пользователем). Каждая запись представляет собой библиографическое описание издания, соответствующее стандарту ГОСТ 7.1-84. Описания изданий, которые можно заказать в читальном зале БЕН, имеют ссылку "ЗАКАЗ". Отсутствие этой ссылки означает отсутствие издания в фондах Центральной библиотеки, его можно заказать только по МБА. Нажатие на ссылку "ЗАКАЗ" выбранной записи обеспечивает заказ соответствующего издания.

После окончания работы с системой на сервере БЕН РАН формируется текстовый файл с записями заказов. Запись каждого заказа заканчивается разделителем *** и состоит из последовательности полей, содержащих сведения о читателе и заказанных им изданиях. Перед каждым полем помещается его уникальный идентификатор - соответствующая ему метка из двух символов, заключенная в угловые скобки < >. В конце поля ставится терминатор </P>. В записях допускаются следующие поля и соответствующие им метки:

Краткое название института формируется автоматически на основе обработки номера читательского билета и внутренней таблицы системы.

На рис.1 приведет пример файла, в котором две записи - заказ на журнал и заказ на книгу.

<NR> 8С370176 </P>

<AL> БНЦ </P>

<TI> Neuroscience Research Communications (USA) </P>

<SC> Петровский </P>

<YP> 1999 </P>

<VO> 25 </P>

<NU> 2 </P>

<SN> U51873 </P>

<NR> H7130643 </P>

<AL> БНЦ </P>

<SC> Петровский </P>

<YP> 2002 </P>

<SN> X11/9802-3 </P>

<BD> The Two-machine flow-shop problem with weighted late work criterion and common due date / Blazewicz Jacek , Pesch Erwin, Sterna Malgorzata, Werner Frank. - [Magdeburg], 2002</P>

рис.1

Придя в Библиотеку, читатели имеют возможность распечатать требования на сформированные ими заказы в зале каталогов БЕН. На всех персональных компьютерах зала каталогов установлена специальная программа, вызываемая с рабочего стола иконкой "Печать требований". После её вызова читатель должен ввести номер своего читательского билета и фамилию. На принтере будут распечатаны требования всех заказов данного читателя, ранее сформированных через Интернет. Требования печатаются в двух экземплярах на половине листа формата А4 и передаются сотрудникам отдела обслуживания читателей.

На рис.2 приведен пример экземпляра требования на журнал.

 

Рис.2

Описанной системой заказа можно пользоваться не только в удаленном режиме, но и придя в Библиотеку, формируя заказы на компьютере, установленном в зале каталогов и сразу же распечатывая требования.

Представленная система позволяет экономить время читателей на заполнение требований, а также автоматически формировать данные о спросе на литературу, необходимые для управления процессами комплектования библиотек ЦБС БЕН РАН.

Литература

  1. Власова С.А., Калёнов Н.Е., Соловьёва Т.Н. Информационные ресурсы Библиотеки по естественным наукам РАН в сети ИНТЕРНЕТ // 275 лет на службе науке: библиотеки и институты информации в системе РАН, 2000. - С. 80-85.
  2. Калёнов Н.Е. Формирование и использование электронных ресурсов в системе БЕН РАН // Новые технологии в информационном обеспечении науки. Сб. статей. /Ред.: Калёнов Н.Е. - М., Биоинформсервис, 2001. C. 7-12.
!9!

СИСТЕМА ЭЛЕКТРОННОЙ ДОСТАВКИ
ДОКУМЕНТОВ В ЦЕНТРАЛЬНОЙ
БИБЛИОТЕКЕ ПУЩИНСКОГО
НАУЧНОГО ЦЕНТРА РАН 
*

Н.А. Слащева, Т.Н. Харыбина, Р.В. Гуркин
(Центральная библиотека Пущинского
научного центра РАН)

В докладе представлены предпосылки внедрения службы электронной доставки документов в Центральной библиотеке Пущинского научного центра РАН. Рассматриваются основные составляющие элементы технологического процесса электронной доставки документов в Библиотеке, а также перспективы её дальнейшего развития и внедрения.

Основная цель информационно-библиотечного обеспечения заключается в оперативном и максимальном удовлетворении информационных потребностей пользователей. В этой связи хотелось бы отметить тот факт, что запрашиваемые документы во-основном представляют собой литературу в печатном виде (особенно за поздние года). С другой стороны, на сегодняшний момент нет ни одной такой библиотеки, которая могла бы приобрести всю необходимую литературу. И данная проблема содержит в себе ряд причин: это и недостаточное финансирование библиотек, и увеличение стоимости литературы, и удорожание почтовой пересылки при использовании традиционных каналов МБА.

Реализовать эту цель можно посредством кооперации и координации деятельности библиотек по обмену ресурсами при комплексном внедрении эффективных автоматизированных технологий. Таким образом, идея взаимного использования ресурсов или электронная доставка документов (ЭДД) обеспечивает оперативный доступ пользователей к библиотечным фондам.

ЭДД является своего рода связующим звеном между традиционными библиотечными и новыми информационными технологиями. С одной стороны, ЭДД следует рассматривать как часть традиционной библиотечной технологии. С другой стороны, саму технологию электронной доставки можно отнести к такому понятию, каким являются электронные библиотеки. В связи с этим можно говорить о новой функции библиотек и новых сущностях в их функционировании, о качественно новом этапе в библиотечном обслуживании. При этом библиотеки утрачивают свою пространственную замкнутость и превращаются в открытые компьютерно-библиотечные сети, обслуживающие пользователей в независимости от их местонахождения.

Центральная библиотека Пущинского научного центра РАН (ЦБП) уже более пяти лет в рамках создания системы информационно-библиграфического обслуживания на базе современных технологий приступила к внедрению технологии ЭДД для информационного обеспечения научных исследований Центра. В настоящее время ЦБП осуществляет ЭДД с рядом российских и зарубежных библиотек. Одними из основных партнеров следует назвать Библиотеку по естественным наукам РАН, а также американскую фирму Access Russia Incorporated, с которой Библиотека сотрудничает уже не первый год.

Также хотелось бы упомянуть таких постоянных партнеров Библиотеки, как Государственный институт прикладной микробиологии и Центр токсикологии, г. Оболенск. С каждым годом идет увеличение числа запросов, выполняемых по каналам ЭДД. Так за 2002 г. сотрудниками ЦБП было обработано около 1000 пользовательских запросов.

Одновременно в ЦБП проводится работа по внедрению системы ЭДД в 7 библиотеках-филиалах ЦБП. Данный вид деятельности становится все более востребованным, так как отдельные библиотеки-филиалы могут иметь или первоисточники в печатном виде, или доступ к электронным информационным ресурсам. Предоставляемый сервис с помощью ЭДД позволяет значительно сократить временной промежуток получения информации пользователем.

Технологически процесс поступления заказа сотруднику ЦБП происходит, во-основном, по электронной почте, а также по телефону или при непосредственном общении. Далее осуществляется определение наличия искомого документа в ЦБП или её филиалах. Если таковой находится в одной из этих библиотек, происходит обработка и доставка документа. В противном случае, сотрудники ЦБП проверяют наличие запрашиваемого документа в библиотеках-партнерах, в первую очередь - в Библиотеке по естественным наукам РАН.

Процесс изготовления электронной копии осуществляется либо посредством сканирования, либо путем получения копии из информационных ресурсов, к которым у ЦБП или её филиалов есть эксклюзивный доступ. К таким ресурсам могут быть отнесены - "Научная электронная библиотека", а также отдельные полнотекстовые электронные журналы на CD-Rom и доступные через Интернет.

Для процедуры сканирования изображения страницы текста используется графический формат tiff. Далее страницы в формате tiff преобразуются в формат Portable Document Format (PDF), который является более удобным для электронного издания. Данный формат более компактен, а также PDF-браузер легко доступен для пользователей.

Электронные копии, отсканированные в ЦБП или её филиалах, а также полученные из других библиотек-партнеров, помещаются в архив. Данный архив представляет собой обычную файловую структуру, в которой название папки - это фамилия заказчика.

Готовые электронные копии отправляются заказчику по электронной почте или по локальной городской сети, или по локальной сети института.

За последнее время внедрение технологии ЭДД в библиотеках Пущинского научного центра РАН значительно расширило возможности удовлетворения информационных потребностей. В свою очередь этот вид сервиса в ЦБП находит все большую востребованность со стороны пользователей Библиотеки.

В настоящий момент в ЦБП при поддержке Российского гуманитарного научного фонда (проект № 03-05-12016 в) проводится работа по дальнейшей структуризации и автоматизации процесса ЭДД. В рамках данного проекта создается автоматизированная интегрированная система ЭДД для обеспечения научных исследований. Она позволит пользователям ЦБП получать через Интернет доступ к электронным изданиям и научным базам данных, а также заказывать и оперативно получать электронные копии материалов из изданий, имеющихся в фондах библиотек. Интегрированная автоматизированная технология, реализуемая в данном проекте, предусматривает доступ к электронным каталогам библиотек и научным базам данных; прием и обработку заказов на выполнение электронных копий документов, найденных в каталогах и базах данных; проведение финансовых расчетов с заказчиками и владельцами авторских прав.

Для реализации данного проекта сейчас создается и поддерживается система отсылок от журнального каталога ЦБП к сайтам, содержащим оглавления соответствующих журналов, другими словами, их аналитическую роспись. Последующие же шаги в рамках проекта будут связаны с разработкой доступной формы бланка-заказа в электронном виде, связанного с электронными каталогами Библиотеки.

Данная специализированная система позволит автоматизировать процесс формирования электронной копии документа и доставки её заказчику. Она будет содержать базы заказчиков, заказов, электронных копий, партнеров по выполнению заказов на документы и т.д. Также предусматривается генерация необходимых электронных сообщений для взаимодействия с заказчиком.

!10

ПОСТРОЕНИЕ РАСПРЕДЕЛЁННОЙ
СИСТЕМЫ ДОСТУПА К ИНФОРМАЦИОННЫМ
РЕСУРСАМ НА ОСНОВЕ МНОГОАГЕНТНОЙ
АРХИТЕКТУРЫ

В.Б. Федотов
(ГПНТБ СО РАН)

Идея о делегировании сложных задач программным системам (агентам) позволяет представлять и решать трудно формализуемые проблемы более естественным образом. Выбор многоагентной технологии в качестве базовой при проектировании распределённых систем доступа позволяет легко сочетать в единой системе как универсальные протоколы, такие как Z39.50, так и любые другие частные средства работы с конкретными типами баз данных. Ещё на этапе проектирования в такую систему закладывается гибкость, горизонтальная и вертикальная расширяемость, существенно упрощается решение задач распределения нагрузки между серверами.

Опираясь на четырехлетний опыт эксплуатации WEB-ориентированной информационно-поисковой системы для доступа к базам данных CDS/ISIS [1,2,3], можно сказать, что постоянная модификация системы и внедрение в нее новых возможностей отрицательно сказались на её структуре, и постепенно привели систему к состоянию, когда дальнейшая модификация и расширение функциональности стали не реальными. Очевидный вывод, сделанный из этой ситуации, заключался в том, что система нуждается в кардинальном совершенствовании.

Начатую в конце 2001 года модернизацию можно разделить на две части:

  1. Построение новой системной части поисковой системы;
  2. Оптимизация административной и интерфейсной частей системы.

В модернизации системной части были выделены две основные задачи:

Касательно оптимизации административной и интерфейсной частей системы было достаточно подробно рассказано в совместном докладе на международной конференции "Крым 2002"[4]. Способ же интеграции системы с протоколом Z39.50[5] был представлен в докладе на международной конференции "LIBCOM 2002". В рамках этого доклада был также представлен проект будущей архитектуры поисковой системы. Сама же новая поисковая система на том этапе находились в активной разработке, а реально работоспособным был лишь первый её прототип, обладавший ограниченной функциональностью.

За прошедшее время в плане реализации новой системы, получившей название WSDS ("Web Search Distributed System"), был достигнут значительный прогресс и, в конце концов, система была предоставлена в web-доступ. На данном этапе система обладает уже полным набором функций, так как это планировалось при её проектировании. Однако, положенная в основу системная архитектура обладает серьёзным потенциалом дальнейшей модернизации, поэтому процесс расширения функциональных возможностей системы идёт непрерывно.

В этом докладе я остановлюсь более подробно на системной архитектуре, на тех причинах, которые привели к выбору именно такой концепции построения, а также на том, чего уже удалось достичь и в каком направление планируется работать в дальнейшем.

Многоагентная архитектура

Думаю, утверждение о том, что информационные технологии на данный момент - одна из самых быстро развивающихся областей, ни у кого не вызовет ни удивления, ни возражений. Однако наша страна, к сожалению, пока ещё далека в этой области от передовых рубежей. Это касается не только и не столько технического оснащения, модернизация и наращивание которого сейчас в России проходит довольно высокими темпами. Но скорее технологической стороны, где мы пока отстаём очень серьёзно. В России много квалифицированных специалистов, которые делают программное обеспечение мирового уровня, но объёмы исследований в области информационных технологий очень малы. Новые веянья в области программных архитектур, стандартов, протоколов и пр. доходят до нашей страны с серьёзной задержкой. Всё вышесказанное в полной мере относится и к многоагентным технологиям. Технологии эти относительно новы и быстро развиваются, однако в нашей стране их применение пока исключительно эпизодично.

Агентная технология содержит в себе преимущества нескольких различных дисциплин. Она включает достоинства объектно-ориентированных и распределённых программных сред, компонентной концепции разработки программного обеспечения и даже искусственного интеллекта и экспертных систем. Агентные технологии могут стать успешным архитектурным решением именно потому, что они способны интегрировать эти различные аспекты и выявлять их внутренний потенциал.[6]

Подход, который родился довольно давно в рамках исследований в области ИИ (Искусственного Интеллекта), уже в конце 90-х на Западе начал активно переходить в русло практического применения в областях программирования, несвязанных напрямую с ИИ. Разработка агентных систем в Европе приобрела такие масштабы, что встал вопрос о стандартизации, для решения которого ещё в 90-х годах были основаны две организации MASIF (Mobile Agent System Interoperability Facility) и FIPA (Foundation of Physical Intelligent Agents), занявшиеся разработкой стандартов. Их работа вылилась в появление стандарта MASIF и стандарта FIPA, дающих рекомендации к созданию систем мобильных агентов и систем интеллектуальных агентов соответственно. Наиболее актуальной сферой применения агентов считается сфера коммуникационных технологий, и именно в этой сфере, в рамках европейской программы ACTS (Современные Коммуникационные Технологии и Службы), в 1997 году была основана программа "Агентные Технологии в Европе", фокусирующаяся на исследовательских разработках и практическом внедрении агентных технологий. Перспективы применения агентной архитектуры в таких специфических областях как сервисный контроль в статичных и мобильных сетях, телекоммуникации, электронной коммерции, мультимедийных приложениях и т.д. были широко оценены в Европе, что ещё весной того же 1997 года в рамках программы ACTS вылилось в запуск 14 новых проектов по исследованию применения агентных технологий в этих областях.[7]

Тем не менее, даже на Западе агентные технологии относительно мало применяются в библиотечном деле и непосредственно в доступе к информационным ресурсам. Достаточно известны проекты - поисковый сервер Yahoo, сервер Amazoon и электронная библиотека журнала "BT Library"[8]; гораздо шире агентные технологии применяются в сфере коммуникации, особенно в сфере мобильных устройств. В тоже время агентная концепция удобна для создания распределённых систем, в том числе и доступа к информационным ресурсам.

Написание агентно-ориентированной программы выливается в создание набора агентов, которые вместе обеспечивают всю требуемую функциональность. Мобильные агенты отвечают за активные части программы, в то время как системные агенты обеспечивают доступ к локальным службам. И те, и другие, общаются через встроенные механизмы коммуникации. Поскольку агентно-ориентированные программы основываются на сотрудничестве различных независимых объектов, то они структурно не монолитны. Поэтому при создании агентно-ориентированных программ совершенно нормальной практикой становится повторное использование существующих агентов.[9]

Способ коммуникации между агентами

Под эгидой программы ACTS в рамках проекта Grasshopper[10], главной задачей которого провозглашалась унификация коммуникационных стандартов на системы мобильных и интеллектуальных агентов, были выделены следующие возможные способы коммуникации между агентами:

При организации систем доступа конечного пользователя к информационным ресурсам, особенно систем, ориентированных на использование в онлайн-режиме в сети Internet, одним из ключевых технических характеристик системы определяющих удобство её использования, является время отклика на запрос пользователя. Именно эта характеристика и является наиболее узким местом всех распределённых систем. И хотя в последнее время пропускные способности каналов связи стремительно растут, нагрузки на них так же повышаются и, поэтому, коммуникация через Сокеты является вполне логичным выбором, для организации распределённой агентной системы, ориентированной на работу конечного библиотечного пользователя в онлайн-режиме (минимально возможное время отклика системы).

Коммуникационные модели распределённой программы

Другим фактором, активно влияющим на время отклика распределённой системы, является коммуникационная модель, определяющая то, каким образом удалённые части программы совместно работают над запросом пользователя. Наиболее распространённым подходом здесь считается пересылка сообщений, позволяющая достичь более высокой степени автономности между частями программы, чем если бы они вызывались директивно посредством RPC (Удалённого Запуска Процессов).[11] Пересылка сообщений является концепцией, естественно подходящей агентным системам, поскольку в рамках неё агент становится чем-то достаточно независимым, как бы делающим своё и только своё дело, и лишь иногда отвечающим на запросы других агентов или самостоятельно делающим запросы, если это потребуется для его работы. В рамках этой концепции в Европейском проекте Grasshopper были выделены следующие модели коммуникации между агентами:

Современная система доступа к распределённым информационным ресурсам, работающая в онлайн-режиме в Internet, должна быть готова к приёму и обработке нескольких различных запросов одновременно, поэтому нельзя допустить, чтобы прохождение запросов задерживалось, пока такая система обрабатывает другой запрос. Поэтому коммуникацию между системными агентами в такой распределённой системе целесообразно организовывать по асинхронному принципу, с ориентацией на создание многопоточных программ. Однако, при создании агентов, отвечающих за работу с конечным пользователем системы, могут быть применены разные подходы.

Так, в реализованной архитектуре WSDS системное ядро состоит из полностью асинхронных многопоточных агентов, в то время как клиентский агент, отвечающий за принятие запросов от Web-интерфейса, передачу их в системное ядро и возврат пользователю Web полученных результатов поиска, работает в синхронном односвязном режиме. Понятно, что, работая в односвязном режиме, пользователь не может отправлять запросы сразу к нескольким разным удалённым группам Баз Данных без использования протокола Z39.50, что существенно ограничивало бы функциональность системы. Однако, в WSDS эффект многосвязной коммуникации эмулируется за счёт того, что сложный вопрос разделяется на запросы к разным группам Баз Данных, каждый из которых передаётся отдельному односвязному агенту, результаты работы которых потом собираются вместе и передаются пользователю. Синхронность же клиентского агента обусловлена тем, что ему, до тех пор пока он выполнен по односвязной концепции, просто нет необходимости что-то делать, пока он не получит результат своего запроса.

В рамках вышесказанного можно выделить один из путей будущего совершенствования системы - отказ от использования простых односвязных синхронных клиентских агентов в пользу более сложных многосвязных асинхронных многопоточных клиентских агентов.

Концепция Архитектуры многоагентной системы "WSDS"

В качестве агентов в данном случае выступают независимые исполняемые модули ('exe') - сервисы и приложения. Никакой специальной программной среды для WSDS не требуется, программной средой, необходимой для удалённой коммуникации между отдельными частями программы, служит сеть Internet; агента идентифицирует агентный тип и уникальный идентификатор; в такой среде каждый агент имеет IP-адрес и порт (может быть несколько портов); общение между агентами осуществляется через Сокеты по протоколу TCP/IP. Внутренняя модель коммуникации между агентами асинхронно-многосвязная.

Итоги проделанной работы:

  1. разработанная система является полностью распределённой - любая часть (агент) системы может быть установлена на удалённом компьютере;
  2. система основана на мировых стандартах: коммуникация через протокол TCP/IP, базовые поисковые агенты, работающие с локальными базами данных ISIS и с удалёнными базами данных через стандартизованный ISO протокол Z39.50.
  3. как результат выбора многоагентной архитектуры мы получили гибкую, легко модифицируемую систему, в которой, при условии сохранения коммуникационного стандарта между агентами, любой отдельный узел (агент) можно заменить, не переделывая и даже не останавливая при этом всю программу, и не меняя архитектуру в целом;
  4. полученная система легко расширяема почти на всех уровнях; мы можем: распределить нагрузку обработки запросов к базам данных между разными компьютерами, просто добавив в систему ещё один удалённый компьютер и поставив на него сервис соответствующего поискового агента; добавить в систему поисковых агентов других типов помимо Z39.50 и ISIS, при этом всё, что нам нужно - это лишь зарегистрировать в системе ещё один тип обрабатываемых запросов;
  5. применённые агентные технологии показали себя перспективным архитектурным решением для разработки распределённых систем, они прекрасно отражают распределённую и неоднородную структуру сети, как бы, являясь её естественным программным воплощением, что позволяет им легко ложиться на сетевую архитектуру, реализуя сложные системы взаимодействия типа "N клиентов - M серверов".

Направления дальнейшей работы:

  1. выпуск следующей ревизии агентов системного ядра WSDS, с элементами искусственного интеллекта, такими как: контроль состояния друг друга, самовосстановление системы - замена/запуск агентов в случае отказа отдельных узлов системы, сбор статистики эффективности работы агентов, автоматическая оптимизация трафика и загрузки серверов и пр.;
  2. переход от использования односвязных синхронных клиентских агентов к более сложным - многосвязным асинхронным многопоточным клиентским агентам;
  3. повышение внутренней защищённости ядра системы за счёт ввода кодирования данных и авторизации соединений между агентами;
  4. разработка поисковых агентов новых типов помимо Z39.50 и ISIS, можно даже пойти ещё дальше и создать интеллектуальные поисковые агенты с возможностями поиска информации в сети;
  5. разработка возможных внешних шлюзов между многоагентной системой WSDS и протоколом Z39.50 или международными спецификациями на коммуникацию между интеллектуальными агентными системами, такими как стандарт FIPA;
  6. проектирование и разработка других распределённых систем на основе отработанных технологий.

Литература

  1. Баженов С.Р., Мазов Н.А., Малицкий Н.А., Баженов И.С. Создание программного комплекса доступа из Интернет к базам данных на основе WWW-ISIS // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы конф. "Крым 98". - М , 1998. - Т. 2. - C. 581 - 584.
  2. Мазов Н.А., Малицкий Н.А., Баженов С.Р., Баженов И.С., Жижимов О.Л. WEB-ориентированная информационно-поисковая система для доступа к базам данных CDS/ISIS // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы 6 Междунар. конф. "Крым 99". - Судак , 1999. - Т. 1. - C. 113 - 115.
  3. Баженов С.Р., Мазов Н.А., Малицкий Н.А., Баженов И.С. Создание программного комплекса доступа из Интернет к базам данных на основе WWW-ISIS// Научные и технические библиотеки. - 1999.- N2.- С. 47 - 52.
  4. Баженов С.Р., Баженов И.С., Федотов В.Б. Совершенствование Web-ориентированной системы управления базами данных CDS/ISIS. // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы Междунар. конф. "Крым 2002" (Судак). - М. , 2002. - Т. 1. - 172 - 175.
  5. Жижимов О.Л. Введение в Z39.50. Новосибирск, Изд-во НГОНБ, 2000, 196 с., ISBN 5-88742-037-5.
  6. Interviews: Mario Campolargo
  7. Mario Campolargo is Head of Unit of Research Networking, with a special interest in Agent Technology.
  8. http://www.cordis.lu/infowin/acts/analysys/products/thematic/agents/ch5/ch5.htm#1
  9. Agents Technology in Europe
  10. http://www.cordis.lu/infowin/acts/analysys/products/thematic/agents/toc.htm
  11. Interviews: Alan Steventon
  12. Alan Steventon is Head of the Complex Systems Laboratory at Adastral Park (BT Laboratories) at Martlesham Heath. He is Project Manager of FACTS (ACTS).
  13. http://www.cordis.lu/infowin/acts/analysys/products/thematic/agents/ch5/ch5.htm#4
  14. AMASE: Agent-based Mobile Access to Information Services
  15. Riccardo Pascotto, T-Nova Deutsche Telekom Innovationsgesellschaft mbH Berkom, riccardo.pascotto@telekom.de
  16. http://www.cordis.lu/infowin/acts/analysys/products/thematic/agents/ch3/amase.htm
  17. Grasshopper - A Universal Agent Platform Based on OMG MASIF and FIPA Standards
  18. Thomas Magedanz, IKV++ GmbH Germany, magedanz@ikv.de and Christoph Bдumer, Markus Breugst, Sang Choy
  19. http://www.cordis.lu/infowin/acts/analysys/products/thematic/agents/ch4/ch4.htm
  20. MIAMI: Mobile Intelligent Agents for Managing the Information Infrastructure
  21. Rudi Broos, Alcatel Bell, broosr@rc.bel.alcatel.be,
  22. Bruno Dillenseger, France Telecom SA CNET,
  23. bruno.dillenseger@cnet.francetelecom.fr,
  24. Andreas Guther, GMD FOKUS, guther@fokus.gmd.de,
  25. Miguel Leith, Imperial College of Science Technology and Medicine, mfl@doc.ic.ac.uk
  26. http://www.cordis.lu/infowin/acts/analysys/products/thematic/agents/ch3/miami.htm
!11

ФОРМИРОВАНИЕ ИНФОРМАЦИОННОГО
БАНКА ДАННЫХ НАУКОЕМКИХ
ТЕХНОЛОГИЙ

В.Н. Кружков, Ф.А. Дикова
(Республиканский научно-технологический и информационный
комплекс "Баштехинформ" Академии
наук Республики Башкортостан)

Актуальной задачей на современном этапе является формирование и реализация в республике Башкортостан промышленной политики по организации эффективного использования научно-технического потенциала республики, развитию инновационной деятельности и её инфраструктуры, направленных на увеличение выпуска высокотехнологичной, наукоемкой и конкурентоспособной продукции. В рамках этой задачи РНТИК "Баштехинформ" АН РБ осуществляет разработку, формирование и наполнение Республиканского информационного банка данных наукоемких технологий, как системы информационного обеспечения, построенной на основе анализа характера и особенностей информационных потребностей различных категорий специалистов, информационных ресурсов потребителей.

Целью создания информационного банка данных является:

Основные задачи проекта:

Систематизация потенциала научных коллективов, инженеров, изобретателей для широкой пропаганды и продвижения на рынок интеллектуальных ресурсов с использованием современных информационных технологий.

Создание Республиканского информационного банка данных наукоемких технологий позволит оценить эффективность результатов внедрения научных исследований и НИОКР, повысить эффективность взаимодействия науки с производством, способствовать решению проблем производственного комплекса республики в целом и конкретных технологических задач предприятий. Одним из условий включения разработки в Республиканский информационный банк данных является защита результатов интеллектуального труда - интеллектуальной (промышленной) собственности, вложенной в технологические разработки.

Банк данных наукоемких технологий содержит информационные массивы первичных документов, систему сбора и обработки первичных материалов, разработанные на основе информационных массивов базы данных, разработанную систему доступа к информации пользователей - пользовательский интерфейс.

Одним из элементов Банка данных является система хранения и обработки данных. Основной функцией системы является информационное обеспечение потребителей с использованием поисковой системы. Автоматизация процесса информационного поиска потребовала формализации представления содержания запроса и документов, использование средств сжатия и быстрого поиска, введение классификационных рубрикаторов и т.д. Под обработкой данных понимается специальный класс решаемых на ЭВМ задач, связанных с вводом, хранением, сортировкой, отбором и группировкой записей данных.

Включение разработки в банк данных осуществляется после экспертной оценки её значимости, новизны и открытости к опубликованию и внесения её в реестр банка данных наукоемких технологий. Ведение реестра сопровождается выпуском информационного бюллетеня новых поступлений в банк данных наукоемких технологий, включающего информацию о наиболее оригинальных и значимых научно-технических решениях, об ученых и специалистах, вносящих весомый вклад в развитие науки и техники республики.

Доступ потребителей информации в сетевой системе хранения данных осуществляется, главным образом, через Интернет. Web-сайт проекта функционирует на серверной площадке РНТИК "Баштехинформ" и расположен в сети Интернет по адресу http://www.hitec.bash.ru. Пользователи могут получить доступ к информации банка данных также в электронных читальных залах комплекса Баштехинформ, посредством информационного бюллетеня и баз данных на CD-ROM.

Система хранения включает в себя БД, ориентированные на полное и точное представление данных, имеющих смысловую структуру, и документальные полнотекстовые БД, представленные в форме текста. В настоящее время проведены работы по разработке в составе Республиканского банка данных наукоемких технологий следующих баз данных:

Намечено пополнение существующих баз данных, а также разработка некоторых новых.

Статистика посещения Веб-сайта банка показала, что подходы к созданию банка наукоемких технологий заинтересовали научно-техническую общественность, за 2002 год веб-сайт посетило около 18000 пользователей, поступило и обслужено ~500 заявок на информацию. Веб-сайт информационного банка данных наукоемких технологий Республики Башкортостан признан победителем в номинации "Наука и инновации" на I Фестивале Интернет-проектов "Новая реальность XXI века", проводимого в марте 2002 года в г. Саратове под эгидой Приволжского Федерального Округа.

В развитие работ по созданию Республиканского информационного банка данных наукоемких технологий предлагается цикл семинаров по передовым технологиям и современным направлениям науки и техники для руководящих и инженерно-технических работников промышленных предприятий Республики. Доклады публикуются на сайте в разделе "Передовые технологии".

Использование Республиканского информационного банка данных наукоемких технологий осуществляется структурами Кабинета Министров Республики Башкортостан, в министерствах, ведомствах, Академии наук РБ, в Республиканском научно-технологическом и информационном комплексе "Баштехинформ", в организациях и на предприятиях республики путем получения доступа к информации банка данных из локальных баз данных или по сети Интернет. Создание банка данных наукоемких технологий позволит на практике использовать новые информационные технологии для решения сложных задач экономического развития региона.

Следующим шагом в направлении научных исследований является разработка новых методологических и технологических подходов к построению информационных систем принятия решений, которые должны стать органической составляющей информационного банка данных наукоемких технологий, удовлетворяющей информационно-аналитические потребности органов власти, научных и промышленных организаций республики.

!12

О РЕАЛИЗАЦИИ ИНФОРМАЦИОННОГО
WEB-ПОРТАЛА РАН КАК СОСТАВНОЙ
ЧАСТИ ЕДИНОЙ ИНФОРМАЦИОННОЙ
СИСТЕМЫ РАН

А.В. Босов, А.Н. Полухин
(ИПИ РАН)

Введение.

Проект создания Информационного Web-портала Российской академии наук реализуется с 2002 года в рамках программы Президиума РАН "Информатизация научных учреждений и Президиума РАН". К предпосылкам создания академического портала можно отнести следующие факторы:

Цели и задачи. Место Web-портала в ЕИС РАН.

Функциональность Информационного Web-портала РАН может быть представлена в рамках двух направлений:

Для детализации поставленных задач и определения места портала в ЕИС РАН рассматриваются четыре комплекса целей и задач, определенных для единой системы в Концепции создания ЕИС РАН:

Обеспечение адекватного статусу Академии представления в сети Интернет. Решение задач внедрения инструментария ядра ЕИС РАН в академической инфраструктуре (именно возможности, предоставляемые Web-порталом РАН, приоритетно используются для подключения существующих информационных ресурсов организаций РАН в ЕИС РАН). Сопряжение с имеющимися государственными информационными системами, обеспечивающими существование научного сообщества, но не подчиненными непосредственно РАН. Для владельцев интегрируемых цифровых ресурсов: обеспечение расширения аудитории пользователей, повышение открытости и востребованности ресурсов за счет повышения их доступности, удобства в использовании, в поиске информации и в обеспечении взаимосвязи с другими ресурсами.

Web-портал РАН - основное (и де-факто, единственное) средство интеграции наследуемых информационных ресурсов.

Реализация информационной системы Президиума РАН и информационных систем Отделений и Научных центров РАН как компонентов ЕИС РАН, являющихся одновременно провайдерами и пользователями услуг Web-портала РАН. Разработка и внедрение общеакадемических информационных хранилищ по основным категориям организационно-административных данных (кадры, структура, мероприятия, награды и т.п.), Интернет-ресурсов Отделений и Научных центров РАН.

Средство интеграции основных взаимосвязанных категорий научных цифровых ресурсов РАН, взаимодействия с имеющимися региональными и зарубежными информационными системами, с информационными системами РФФИ, Минпромнауки и Минобразования, органов государственной власти и управления, российских ВУЗов.

Информационный Web-портал РАН должен стать единой "точкой входа" для всех научных и научно-административных ресурсов и сервисов организаций РАН.

Требования к реализации и разработчикам.

Основное требование: обеспечить объединение имеющихся или создаваемых цифровых ресурсов ЕИС РАН и непротиворечивый интегрированный доступ к ним по унифицированным интерфейсам.

Требованиям к уровню решения и разработчикам:

Требования с позиции представительских функций:

Портальные технологии и перспективы.

Вертикальные порталы (ворталы): Информационный Web-портал РАН в первую очередь ориентирован на широкое представление различных наукоемких ресурсов, сервисов (публикаций, проектов, мероприятий, информационных и специализированных систем, архивов и т.п.).

Корпоративные порталы: присутствие на Web-портале РАН ведомственной информации (кадры, структура, контактная информация) и сервисов, обеспечивающих сбор, обработку и накопление внутриведомственной информации в защищенном режиме передаче данных (организационная и кадровая информация, бухгалтерские и научные отчеты).

Тематические порталы: имеющаяся реализация Web-портала РАН позволяет говорить о выделение в нем субпорталов по отраслям наук, согласующихся с потребностями Отделений и Научных центров РАН.

Информационные порталы: этот вид порталов наиболее сложен с позиций разработки, внедрения и поддержки, и именно к этому виду в наиболее полной степени относится Web-портал РАН, т.к. ориентирован на обработку неструктурированной и слабоструктурированной информации.

Перспективные проблемы: рациональное использование интеллектуального капитала сотрудников и организаций РАН. На текущий момент массивы интеллектуальных данных фактически неуправляемы, стандартизированные средства поиска, организации и управления знаниями с целью их последующего применения в РАН отсутствуют. Интеграция интеллектуальных ресурсов в рамках Информационного Web-портала РАН - это существенный шаг вперед, который через некоторое время должен, по крайней мере, смягчить остроту этих проблем. Однако полноценным выходом должна стать стратегия управления знаниями предприятия. Самые важные инструменты управления знаниями (языковой поиск, семантические метаданные и онтологические взаимосвязи) уже включены в Web-портал РАН и продолжают развиваются.

Понятие о интеграции, реализуемой Web-порталом РАН.

В основе академического портала лежит Web-интеграция - определенная методика обработки и представления цифровых ресурсов некоторой организации и предоставления услуг внешним и внутренним потребителям при помощи Web-технологий, ключевой характеристикой которых в данном случае является их открытость. Web-интеграция означает использование Web-технологий для предоставления разным группам потребителей логически согласованного доступа к информации и услугам организации вне зависимости от места и формы их хранения и функционирования.

Используемые механизмы:

Информационный Web-портал РАН обеспечивает доступ потребителей к цифровым ресурсам и службам путем предоставления согласованного и логически непротиворечивого Web-интерфейса пользователя к данным и сервисам распределенных источников информации - информационным компонентам Web-портала РАН, которые являются ключевым элементом интеграции, реализуемой порталом.

Двустороннее взаимодействие функционального ядра Web-портала РАН и информационных компонентов поддерживается по двум направлениям:

Оба направления реализуются набором согласованных SOAP/HTTP-интерфейсов, WSDL-описания которых входят в корпоративный стандарт ЕИС РАН.

Интерфейсы доступа к ресурсам, поддерживаемые информационным компонентом, и интерфейсы унифицированного API ресурсов, поддерживаемые ядром, обеспечивают:

Интерфейсы взаимодействия с системой, поддерживаемые информационным компонентом, и интерфейсы унифицированного API систем, поддерживаемые ядром, обеспечивают:

В состав портала включены следующие службы:

Средства разработки и базовое программное обеспечение ориентированы на продукты Microsoft в соответствии с генеральным соглашением о сотрудничестве (РАН - Microsoft) - http://uis.isir.ras.ru /win/htm/scientific_activity.html?p=5p7p33.

!13

О РЕАЛИЗАЦИИ В СОСТАВЕ
ИНФОРМАЦИОННОГО WEB-ПОРТАЛА
РАН СЛУЖБЫ ВЗАИМОДЕЙСТВИЯ
С ИСТОЧНИКАМИ ИНФОРМАЦИИ

Р.Б. Чавтараев
(ИПИ РАН)

Введение.

Спецификой создания Web-портала РАН является наличие большого количества уже существующей информации. Эта информация представлена в различных форматах и может физически располагаться в различных хранилищах. Некоторая её часть имеет собственное представление в Интернете, другая представляет собой базы данных на различных СУБД, в некоторых случаях ведутся работы по формализации данных. Поскольку WEB-портал должен не только отображать эти данные, но и в ряде случаев управлять ими, встает вопрос о средствах, с помощью которых можно реализовать интеграцию этой информации (и манипуляцию ей) в едином технологическом ключе. Очевидно, что в составе WEB-портала должна присутствовать службы, реализующие взаимодействие ядра портала с источниками информации.

Информационные компоненты

В общем случае, источник информации представляет собой формализованные (в разной степени) данные и набор сервисов или служб, построенных для использования этих данных. Для обеспечения с пользовательской стороны единого информационно-функционального пространства, состоящего по сути из разнородных кусков информации, необходимо иметь, как минимум, единый протокольный слой для взаимодействия с остальными службами портала, а также представление для каждого информационного источника, отвечающее требованиям этого протокольного слоя. Такое представление источника информации определяется как информационный компонент. Таким образом, взаимосвязь портала и источников информации организуется посредством информационных компонентов.

Службы взаимодействия

Взаимодействие с источниками информации можно подразделить на две части:

манипуляции с данными и управление. Под манипуляциями с данными понимается собственно "информационная" составляющая взаимодействия, то есть поиск, доставка, представление, защита и т.п. Управление - "административная" составляющая, то есть регистрация информационных источников, определение параметров взаимодействия и пр. Каждая часть взаимодействия реализуется отдельной службой: соответственно службой доступа к ресурсам информационных компонентов и службой управления информационными компонентами.

Служба доступа к ресурсам информационных компонентов

Эта служба является "рабочей лошадкой" системы взаимодействия с информационными источниками. Именно она обеспечивает импорт данных для портала из различных хранилищ. Она организует информационный поток между другими портальными службами и информационными компонентами, а через них и с информационными источниками. Она также обеспечивает получение данных в нужном формате (RDF) и сквозную адресацию этих данных, вводит новый уровень абстракции между ядром портала и источником информации. В этом случае, получатель данных не должен располагать информацией о том, где находятся нужные данные (в каком информационном источнике) и каким образом их можно получить. Эту работу выполняет данная служба. Информационные компоненты в этом плане играют роль переходников (адаптеров), на которые возложена роль взаимодействия с источниками информации и, если необходимо, преобразование форматов данных при транспортировке в портал.

Служба управления информационными компонентами

Для подключения новых информационных источников и отключения потерявших актуальность, а также настройки параметров взаимодействия предназначена служба управления информационными компонентами. Служба имеет в своем составе реестр информационных компонентов и реестр типов данных.

Реестр информационных компонентов содержит информацию о зарегистрированных информационных компонентах и соответственно подключенных информационных источниках. Эти данные используются при организации потоков информации между информационным источником и порталом.

Реестр типов представляет собой RDFS-описание типов, зарегистрированных в системе. Описание типа не привязывается к какому-либо информационному источнику и может быть использовано при взаимодействии с любыми информационными источниками.

Платформа, реализация и протокольная поддержка

Технология Web-портала РАН основывается на платформе Microsoft .NET. Соответственно, службы реализованы в виде .NET сборок и при дальнейшем расширении системы могут быть расширены до Web-сервисов. На первом этапе не имеет смысла реализовывать эти службы только как Web-сервисы - взаимодействие по протоколу http вносит некоторые ограничения и понижает быстродействие. Применение этой технологии оправдано только при распределенности и мультиплатформенности компонентов системы.

А вот взаимодействие с источниками информации в ряде случаев целесообразно построить на основе протокола SOAP, так как этот стандарт получил широкое распространение и поддерживается информационными системами. Источник информации как раз является территориально удаленной единицей, которая может быть реализована на различных платформах. В некоторых случаях можно представить информационный источник как Web-сервис.

Форматы обмена

Поскольку заранее не возможно предопределить какого рода данными будет осуществляться обмен, а очевидно, что обмен будет производиться через Web, формат обмена должен позволять представлять любой вид данных, то есть обладать универсальной выразительностью.

Формат также должен быть широко распространенным, то есть таким, для которого для каждой платформы можно было легко получить анализатор синтаксиса и API для манипуляций с данными, то есть иметь синтаксическую интероперабельность.

Этими свойствами обладает XML, так как в XML можно представить все, для чего определяется грамматика.

Однако XML не в состоянии обеспечить семантическую интероперабельность компонентов. В этом случае необходимо применение RDF как формата представления данных и RDFS для описания семантики. В нашем случае, описание типов и выглядит в виде RDFS.

!14

ИНТЕГРАЦИЯ БИБЛИОТЕЧНЫХ
РЕСУРСОВ В ЕИС РАН

Н.Е. Калёнов
(БЕН РАН),
В.А. Серебряков
(ВЦ РАН)

Академические библиотеки в современных условиях являются не только и не столько собирателями и хранителями научной литературы в традиционном понимании, сколько информационными центрами, осуществляющими поиск и предоставление пользователям электронной информации. Библиотеки приобретают различные базы данных на современных носителях и размещают их на своих серверах, приобретают права доступа для своих читателей к электронным публикациям, формируют собственные электронные ресурсы.

Информация, формируемая в библиотеках РАН, представляет значительный интерес, как для сотрудников РАН, так и для "внешних" потребителей - специалистов, занимающихся исследованиями в научных организациях различных ведомств и ВУЗах страны. Поэтому библиотечная составляющая является неотъемлемой частью информационных систем общего назначения, разрабатываемых в РАН [1]. Web-портал РАН, являющийся первой очередью единой информационной системы (ЕИС) РАН [2], включает специальный раздел, озаглавленный "Библиотеки". Доступ к нему осуществляется с основной страницы Портала (http://uis.isir.ras.ru) через ссылку "Издания и издательства". В этом разделе представлена общая информация о структуре библиотечной системы РАН, приведен список академических библиотек, имеющих Интернет-сайты, представлено описание их ресурсов.

Основными ресурсами, представленными в Интернет библиотеками, являются их электронные каталоги. Глубина ретроспективы электронных каталогов академических библиотек существенно различается. Центральные библиотеки, такие как БЕН и ГПНТБ СО РАН, ведут электронные каталоги, начиная с определенного момента времени, полностью обрабатывая все текущие поступления литературы. Библиотеки институтов, для которых важным является обеспечение как можно большей глубины ретроспективы каталогов, вводят в них описания литературы прошлых лет. В первую очередь, это касается научных журналов - полные их каталоги сформированы в ряде отделений БЕН - библиотеке Математического института РАН, в центральной библиотеке Пущинского научного центра (ЦБ ПНЦ). В ЦБ ПНЦ формируется также по специальной методике, основанной на использовании баз данных РКП и ГПНТБ России, ретроспективный каталог книг.

В настоящее время ведутся работы по созданию программной среды и технологии объединения каталогов различных академических библиотек в рамках ЕИС РАН.

Необходимо отметить, что требования к библиотечным ресурсам, отражаемым в ЕИС РАН, в значительной степени отличаются от требований к библиографической информации, формируемой национальными "библиографирующими" центрами - Российской книжной палатой (РКП), Российской государственной библиотекой (РГБ) и Российской национальной библиотекой (РНБ). Эти центры формируют исчерпывающую информацию о каждом издании, дробя её на значительное число отдельных элементов - полей и подполей. Правила выделения элементов определяются принятым в стране форматом РУСМАРК [см., например, http://www.rba.ru:8101/rusmarc/ index.html], включающим несколько сотен полей. Такое детальное представление библиографических данных имеет определенное значение для профессиональных библиографов и библиотекарей. Однако для пользователей, цель которых найти ту или иную книгу по тем сведениям, которыми они располагают, смысла в представлении библиографической информации по полям формата РУСМАРК (или другого, подобного ему) нет никакого. Более того, у подавляющего большинства пользователей возникают вопросы, когда они видят наименования многих принятых в библиотечном деле элементов библиографических данных (таких, например, как "последующие сведения об ответственности", "сведения, относящиеся к заглавию" и т.п.). Как показал опрос пользователей-сотрудников РАН, многие из них неверно трактуют такое "элементарное" для библиотечных специалистов понятие, как "коллективный автор", считая это списком авторов, а не организацией, подготовившей материал. Рядовой пользователь-ученый РАН знает всего лишь несколько понятий из библиографического описания, таких как "автор" (имея в виду только индивидуального автора и не различая первичные и вторичные "сведения об ответственности"), "заглавие" (его не волнует, где граница между основным и параллельным заглавиями, где заглавие серии и т.п.), "год издания", "издательство", иногда - "вид издания". Очевидно, что искать нужное ему издание он будет по этим полям. Поэтому поисковой системе, рассчитанной на неподготовленного в библиотечном отношении пользователя (каковыми являются в своем большинстве сотрудники РАН), достаточно обеспечивать поиск лишь по этим элементам данных. Чтобы компенсировать возможности потери информации при поиске из-за неправильного понимания пользователями библиотечной терминологии, система должна допускать поиск по всем словам из библиографического описания публикации.

В академической библиотечной системе принципиальным моментом является форма выдачи результатов поиска. Если в "профессиональных" библиотечных системах предусмотрена выдача результатов поиска в различных форматах (РУСМАРК, USMARC, UNIMARC) в виде полных библиографических записей, (содержащих, наряду с библиографической, всю служебную информацию), в виде списков вида <метка (или наименование) поля> <содержимое поля>, то в библиотечной части ЕИС необходимо и достаточно представлять результаты поиска в виде стандартных кратких библиографических описаний, чтобы пользователь при подготовке статьи или диссертации мог их скопировать и без существенного редактирования поместить в свой список пристатейной библиографии. Эти описания, естественно, должны быть дополнены информацией о местонахождении изданий и их шифрами хранения.

Учитывая эти особенности академической системы, при решении задачи включения библиографической информации в ЕИС РАН, был разработан формат представления данных, основанный на использовании стандарта Dublin Core Metadata и языка XML в стандарте RDF [1]. В рамках этого формата библиографическое описание издания представляется одним тегом, а дополнительно отдельно формируются сведения о всех персоналиях, упоминающихся в библиографическом описании, год издания, язык, предметные рубрики, сведения о местонахождении издания, шифры хранения.

В настоящее время отлаживаются программные средства, обеспечивающие загрузку данных в ЕИС из сводных каталогов журналов и книг, формируемых в БЕН РАН. Каталог журналов отражает все поступления, начиная с 1990 года, каталог книг - с 1993-го года. В этих каталогах содержится информация о библиотеках, в которые направлено каждое издание (БЕН РАН обеспечивает централизованное комплектование фондов около 150-ти библиотек академических институтов), поэтому информация, загруженная из них, создаст достаточно серьезную основу для развития библиотечной составляющей ЕИС РАН.

Программное обеспечение интегрированной системы информационных ресурсов (ИСИР) РАН [3], являющееся базовым для ЕИС РАН, предоставляет возможность поиска и развитой навигации по связанным ресурсам разного рода - метаописаниям организаций, персоналий, публикаций. Поэтому загрузка каталогов библиотек академических институтов в ЕИС РАН позволит реализовать общеакадемическую систему поиска и заказа литературы, обеспечить связь между информацией о сотрудниках РАН и подготовленных ими изданиях, имеющихся в фондах академических библиотек.

Другим направлением, связанным с интеграцией библиотечных ресурсов в ЕИС РАН, является подготовка и загрузка в систему сведений о публикациях сотрудников академических институтов. Эти сведения имеются в библиотеке каждого института в виде традиционных "картотек трудов сотрудников". Если в каталогах библиотек отражаются книги, сборники в целом, журналы, продолжающиеся издания как "единицы хранения", то в картотеках содержатся, в основном, описания статей, авторами которых являются сотрудники данного института. Несколько лет назад в БЕН РАН при поддержке РФФИ был разработан унифицированный комплекс программ "Наука России", обеспечивающих ввод и поддержку баз данных трудов сотрудников [4]. В этот настраиваемый комплекс, появившийся до ИСИР РАН, был заложен ряд принципов, аналогичных ИСИР - он поддерживает 4 связанные "подбазы", содержащие, соответственно, описания организаций, персоналий, публикаций на аналитическом уровне (статьи), источников (публикаций на монографическом уровне - журналов, сборников и т.п.). Комплекс установлен в ряде библиотек академических институтов, где накоплены достаточно серьезные массивы данных. Некоторые из них представлены на сервере БЕН РАН (http://www.benran.ru/Magazin/cgi-bin/ sr1_n.exe?Magazin/inaros/inaros.ini). В настоящее время в рамках проекта, поддерживаемого РФФИ (грант 02-07-90088), ведутся работы по вводу и актуализации данных, формируемых в системе "Наука России", в ЕИС РАН. Проблема первоначальной загрузки данных успешно решена - в ЕИС загружены сведения о сотрудниках БЕН РАН и их публикациях со ссылками на полные тексты. Ознакомиться с системой поиска и навигации по этим ресурсам можно с сайта ЕИС РАН, перейдя с главной страницы в режим "ПОИСК", выбрав "Поиск организаций" и задав в поле "Сокращенное название" значение "БЕН". Информация была выгружена из системы "Наука России" в согласованном DC/XML/RDF-формате, о котором шла речь выше, и загружена в ЕИС РАН в пакетном режиме с помощью программы-загрузчика, разработанной специалистами ВЦ РАН. Программа-конвертер, обеспечивающая выгрузку данных, разработана специалистами БЕН РАН.

Определенная проблема, над которой идет сейчас работа, связана с актуализацией в ЕИС РАН данных, поступающих из библиотечных систем. Для её решения необходима модификация средств ввода данных, используемых в библиотеках, и разработка специальных программных средств, встроенных в загрузчик данных ИСИР.

В качестве перспективных работ, связанных с развитием библиотечной составляющей ЕИС РАН, можно назвать проект формирования метабазы данных по диссертациям, защищенным в РАН, проект реализации распределенной системы заказа и электронной доставки документов.

Литература

  1. Власова С.А., Калёнов Н.Е., Курив П.М., Серебряков В.А. Библиотечная составляющая ИСИР РАН // Новые технологии в информационном обеспечении науки. Сб. статей. - М., Биоинформсервис, 2001. - С. 24-32
  2. Босов А.В., Полухин А.Н. О реализации Информационного Web-портала РАН как составной части Единой информационной системы РАН. - [данный сборник].
  3. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А.. Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. Программирование, 2000. - №4
  4. Васильев А.В., Власова С.А., Глушановский А.В., Калёнов Н.Е. Система "Наука РОССИИ" и её использование в информационно-библиотечной технологии. // Сб. Информационное обеспечение науки: новые технологии. - М., 1997. - С. 86 - 88
!15

МЕСТО ОНТОЛОГИЙ В ЕДИНОЙ
ИНТЕГРИРОВАННОЙ СИСТЕМЕ РАН

А.Н. Бездушный, Э.А. Гаврилова, В.А. Серебряков, А.В. Шкотин
(ВЦ РАН)

В документе, описывающем концепцию Единой Интегрированной Системы, излагаются различные аспекты целевой программы Президиума РАН "Информатизация научных учреждений и Президиума РАН". Одной из основных задач ЕИС является информационное обеспечение научных исследований. "Единая информационная система РАН - это интегрированное информационное пространство распределенных и локальных цифровых (электронных) ресурсов организаций РАН и комплекс программно-технических средств, обеспечивающий использование этих ресурсов и полнофункциональное управление ими". Отсюда следует, что задача интеграции цифровых ресурсов ЕИС РАН в единое информационное пространство, - должна быть успешно решена, т.е. необходимо разработать "единый подход к информационному наполнению и интеграции существующих и вновь создаваемых ресурсов в ЕИС РАН... для обеспечения возможности эффективного управления ими со стороны системы".

Современные модели представления и интеграции информационных ресурсов активно развиваются и внедряются в практику. Важнейшим элементом современных информационных технологий являются онтологии, которые позволяют производить автоматизированную обработку семантики информации, предоставленной через Интернет, с целью её эффективного использования (представления, преобразования, поиска). Соответствующий принцип обработки данных Интернета базируется на представлении Интернета как глобальной базы знаний и ориентирован не на осмысление информации человеком, а на обеспечение семантической интероперабельности информационных ресурсов, т.е. автоматизированную интерпретацию и обработку информации.

Однако прежде, чем перейти к рассмотрению этих новых технологий, обратимся к опыту, накопленному в программистской практике, поскольку на сегодняшний день уже имеется много средств семантического описания данных, многие из которых считаются достаточно выразительными для задач семантического моделирования данных. В качестве примера можно привести модель описания ресурсов (Resource Definition Framework), диаграммы Сущность-Связь (Entity-Relationship model). Мы опишем, в чем заключаются преимущества онтологий перед другими механизмами описания семантики предметной области, например, RDFS, ER-диаграммами.

    1. Ограничения традиционных моделей данных
    2. Для начала примем некоторые договоренности об использовании терминологии. Согласно М.Р. Когаловскому, под термином "модель данных" мы понимаем инструмент моделирования, т.е. является совокупностью понятий для описания данных, для описания структуры данных. "Модель предметной области" представляет собой визуальное представление сущностей предметной области и отношений между ними, т.е. спецификацию модели предметной области, и является результатом моделирования.

      Первые модели данных предметной области описывались конструкторами типов таких языков программирования, как Алгол, а также в схемах баз данных. Позднее появились сложные модели данных, историю развития которых описал в своей работе Петер Чен, вместе с тем предложив новую модель данных, называемая моделью "сущность-связь" (Entity-Relationship model), основанную на некоторой важной семантической информации о реальном мире.

    3. Модель Entity Relationship
    4. ER-модель явилась основой, из которой могут быть порождены три существующие модели данных: сетевой модели, реляционной модели и модели набора сущностей, представляя данные более строго и естественно и одновременно обеспечивая независимость данных от приложений (ER- модель основывается на теории множеств и реляционной теории). С тех пор было предложено множество расширений ER-схем, чтобы обеспечить более мощные средства выражения семантики данных: механизмы задания иерархии подклассов классов сущностей, некоторых семантических ограничений типа "часть-целое", реификаций как классов сущностей, благодаря которым можно было распознавать общие характеристики сущностей различных классов. Примеры таких моделей - "semantic data modeling", "extended ER modeling", "hyper-semantic data modeling", "OMT approach" и др.

      Ограничения ER-модели и её расширений в том, что они, описывая семантику "сущностей", позволяют интерпретировать данные одним единственным способом.

      Например, допустим, что модель данных Интегрированной Системы Информационных Ресурсов (ИСИР) РАН будет содержать тип ресурса "Научная организация" вместе с некоторыми атрибутами и соотношениями. Сущностями этого типа будут служить конкретные научные организации. С помощью механизма иерархии классов можно понять, к какому типу относится данный ресурс (к типу "Организация"), однако самому типу "Научная организация" в процессе моделирования данных обычно можно дать только одну интерпретацию. Поэтому, повторно использовать данное понятие "Научная организация" не удастся, т.к. этот термин в разных контекстах (т.е. при различных точках зрения видения предметной области) имеет разное значение. Например, с научной точки зрения нас будут интересовать такие аспекты, как направление научных исследований, список ведущих научных сотрудников и т.д. В административной структуре интересен управленческий состав, организационные вопросы. В плане внешних связей данной организации полезна информация о рейтинге и научном сотрудничестве, филиалах и т.д.

    5. Архитектура ANSI/SPARC

Можно с уверенностью сказать, что повторное использование знаний в различных контекстах не возможно без наличия механизмов, позволяющих фиксировать различное понимание этих знаний. Идея разработки такого механизма была представлена частично в ANSI/SPARC-архитектуре баз данных.

Эта архитектура включает три уровня:

  1. Логический уровень (называемый "концептуальной схемой*"), который является промежуточным уровнем и основой данной архитектуры.
  2. Внутреннее представление базы данных описывает способ, по которому концептуальная схема может быть реализована в терминах объектов физического уровня: файлов, индексов, хэш-таблиц и т.д.
  3. На верхнем уровне концептуальной модели можно определить множественное "внешнее представление". Оно будет состоять из выборок и комбинаций элементов концептуальной схемы и представлять видение схемы для каждого конкретного пользователя этого приложения. Например, база данных, содержащая административную информацию о сотрудниках организации, должна содержать два различных представления данных: для финансового отдела и для самих научных сотрудников.

Главное ограничение внешнего представления ANSI/SPARC заключается в том, что в логической модели архитектуры ANSI/SPARC должна содержаться вся имеющаяся в базе данных информация, однако новые данные, добавленные в представления верхнего уровня, нельзя перенести на логический (основной) уровень этой архитектуры. Другими словами, нет единого, унифицированного представления для всех представлений контекстов, которое было бы достаточным для любой возможной ситуации, поскольку число различных представлений контекстов практически неограниченно. Не существует также способа понять, применима ли какая-то конкретная часть знаний для другого контекста, и если неприменима, то почему.

    1. Модель RDFS и её применение в ИСИР

RDF Schema - это стандарт инициативы W3C для преставления онтологических знаний. RDF Schema специфицирует множество всевозможных допустимых схем данных. RDF модели предметных областей описываются посредством ресурсов, свойств и их значений. Ограничения RDFS в невозможности с его помощью выразить аксиоматические знания, т.е. задать аксиомы и правила вывода, построенные на аксиомах.

RDFS предоставляет хорошие базовые возможности для описания словарей типов предметных областей.

Однако расширение выразительных способностей инструмента RDFS возможно и чрезвычайно полезно. Механизм расширения внутренне присущ RDFS путем "уточнения" или дополнения базовых типов. Поэтому RDFS стал фундаментом для более богатых языков описания концепций предметных областей, называемых языками описания онтологий предметных областей, о которых пойдет речь позже.

Онтологии являются новыми интеллектуальными средствами для поиска ресурсов в сети Интернет, новыми методами представления и обработки знаний и запросов. Они способны точно и эффективно описывать семантику данных для некоторой предметной области и решать проблему несовместимости и противоречивости понятий. Онтологии обладают собственными средствами обработки (логического вывода), соответствующими задачам семантической обработки информации. Так, благодаря онтологиям, при обращении к поисковой системе пользователь будет иметь возможность получать в ответ ресурсы, семантически релевантные запросу (рис. 1).

Поэтому онтологии получили широкое распространение в решении проблем представления знаний и инженерии знаний, семантической интеграции информационных ресурсов, информационного поиска и т.д.

Известны несколько подходов к определению понятия онтологии, но общепринятого определения до сих пор нет, поскольку в зависимости от каждой конкретной задачи удобно интерпретировать этот термин по-разному: от неформальных определений до описаний онтологий в понятиях и конструкциях логики и математики. Мы будем понимать этот термин следующим образом:

Онтология - формальная спецификация разделяемой концептуализации, которая имеет место в некотором контексте предметной области. При этом под концептуализацией будем иметь ввиду, кроме сбора понятий, также всю информацию, касающуюся понятий - свойства, отношения, ограничения, аксиомы и утверждения о понятиях, необходимые для описания и решения задач в избранной предметной области.

Онтология предметной области определяет формальное приближение концептуализации. В онтологии зафиксирована та часть концептуализации, которая зависит от взгляда на мир применительно к конкретной области интересов.

Неформально онтология состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области. На формальном же уровне, онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории.


 

Рис. 1: Схема поиска на основе онтологий.

Поскольку в каждой области могут существовать различные понимания одних и тех же терминов, онтология определяет соглашение о значении терминов и является посредником между человеко- и машинно-ориентированным уровнем представления информации. Онтология существует в рамках договоренностей между членами сообщества, например, между пользователями некоторой информационной системы.

Концептуальное (или онтологическое) моделирование имеет дело с вопросом о том, как декларативным образом, допускающим повторное использование, описать предметную область, соответствующие словари типов, как ограничить использование этих данных, в предположении понимания того, что может быть выведено из этого описания.

Из данного определения также следует, что частными случаями онтологий являются простой словарь (например, Dublin Core), тезаурус (в котором ограничено число отношений между терминами) и т.д.

Онтологию можно применять в качестве компоненты баз знаний, схемы объектов в объектно-ориентированных системах, концептуальной схемы базы данных, структурированного глоссария взаимодействующих сообществ, словаря для связи между агентами, определения классов для программных систем.

Онтологии в том числе позволяют соответствующим программным средствам (интеллектуальным агентам) автоматически (без участия человека) определять смысл терминов использованных при описании ресурсов и сопоставлять его со смыслом поставленной задачи.

Для онтологий характерны две особенности: они могут быть множественными (составными), в которых различаются представления контекста одного и того же домена, а могут идентифицировать абстрактные уровни онтологий (быть уровнем выше других онтологий). Что касается второго случая, то возможно идентифицировать несколько уровней абстракции, на каждом из которых могут быть определены онтологии. Например, в области каждой научной дисциплины можно определить онтологии, еще уровнем выше можно описать онтологии научных областей, находящихся на стыке отдельных научных дисциплин. Еще выше поставим онтологию научной дисциплины вообще. Следующим уровнем абстракции мы поставим общие категории структур знаний. Такого рода обобщение приводит нас к необходимости различать виды онтологий, чтобы организовывать их в библиотеки онтологий. Ниже приведена типология онтологий с примерами из области медицины.

1. Предметно-ориентированные (Domain-oriented)

2. Ориентированные на прикладную задачу (Task-oriented)

3. Базовая техническая онтология. (Basic technical ontology)

4. Общие онтологии (Generic ontologies)

Поясним четыре основных типа онтологий.

Предметно-ориентированные онтологии (Domain-oriented ontology)

Предметно-ориентированная онтология специфична для определенного типа артефактов. Примером может служить онтология для кораблей, нефтяных платформ, электрических цепей. Онтология предметной области обобщает понятия использующиеся в некоторых задачах домена, абстрагируясь от самих задач. Так онтология предметной области для конструирования кораблей должна быть независима от любых видов прикладных задач.

Онтологии, ориентированные на задачу (Task-oriented ontology).

Онтология, ориентированная на задачу - это обычно онтология, используемая приложением. Она содержит термины, которые мы используем при разработке системы прикладных программ выполняющих задачу. Она может отражать специфику приложения, а может также содержать некоторые общие характеристики. Часто нужно определить, как понять значение частей онтологии задачи для их повторного использования, и как построить часть онтологии задачи из существующей предметно-ориентированной онтологии.

Базовая техническая онтология. (Basic technical ontology)

Базовая техническая онтология описывает общие характеристики артефактов. Базовая техническая онтология обычно определяет знание, связанное c видами физических процессов: струя, тепло, энергия, мощность, электричество.

Обобщающие онтологии (Generic ontologies)

Обобщающая онтология описывает категории - понятия верхнего уровня. Это базовый механизм "разделения мира". Она связана с понятиями из онтологии (в философском смысле), например Аристотеля. Пример: такие понятия как физические, функциональные, поведенческие, отношение "часть-целое".

Ключевым моментом в проектировании онтологий является выбор соответствующего языка спецификации онтологий (Ontology specification language). Цель таких языков - предоставить возможность указывать дополнительную машинно-интерпретируемую семантику ресурсов, сделать машинное представление данных более похожим на положение вещей в реальном мире, существенно повысить выразительные возможности концептуального моделирования слабоструктурованных Web-данных.

Существуют традиционные языки спецификации онтологий (Ontolingua, CycL, языки, основанные на дескриптивных логиках, такие как LOOM, и языки, основанные на фреймах - OKBC, OCML, Flogic). Более поздние языки основанные на Web-стандартах, такие как XOL, SHOE или UPML, RDF(S), DAML, OIL, OWL созданы специально для обмена онтологиями через Web.

В целом, различие между традиционными и Web- языками спецификации онтологий заключается в выразительных возможностях описания предметной области и некоторых возможностях механизма логического вывода для этих языков. Типичные примитивы языков дополнительно включают:

Первыми предложениями по описанию онтологий на базе RDFS были DARPA DAML-ONT (DARPA Agent Markup Language) и European Commission OIL (Ontology Inference Layer). Эти стандарты спецификации и обмена онтологиями были разработаны для достижения наилучших результатов в поддержке процесса обмена знаниями и интеграции знаний. DAML обеспечивает примитивы для объявления пересечений, объединений, дополнений классов и т.д. OIL основан на description logics. Другое расширение RDFS - DRDFS. Также как OIL, он дает возможность для выражения классов и определения свойств, однако выразительная мощность языков DRDFS и OIL такова, что ни один из них не может быть рассмотрен как фрагмент другого.

На базе этих предложений DAML и OIL возникло совместное решение - DAML+OIL, которое послужило толчком для создания в рамках инициативы Semantic Web отдельной группы по пересмотру этого решения и стандартизации языка описания Web-онтологий (OWL - Web Ontology Language). Адаптация к Web систем логики и искусственного интеллекта составляет вершину "пирамиды Semantic Web", обеспечивая адекватный семантически поиск информации и машинную интерпретацию семантики.

OIL также можно рассматривать в сравнении с Ontolingua, разработанной в рамках инициативы On-To-Knowledge. По сравнению с Ontolingua, OIL менее выразителен, но все же позволяет делать логические выводы: поддержка вывода обеспечивается системой FaCT - классификатором, который работает на основе description logic.

Однако в целом можно сказать, что ориентированность языков описания онтологий на системы математической логики делает их слишком тяжеловесными для огромного количества приложений, которым достаточно простого языка описания словарей - RDFS. И это правильно, каждая ступень в пирамиде - это ступень, на которой многие приложения могут остановиться, согласно своим собственным требованиям к данным и их использованию.

К настоящему времени в организациях РАН уже созданы значительные цифровые ресурсы. Это научные публикации, базы и банки данных в различных областях науки, алгоритмы и программы, структурные и кадровые сведения и т.д. Онтологии могут занять важное место среди средств интеграции, обеспечив семантическую интеграцию этих ресурсов.

Всякий ресурс, использующий услуги инфраструктуры ЕИС РАН, имеет метаданные - описание, представленное в электронной форме и доступное для автоматизированной обработки. Описание терминов, используемых в метаданных, в виде онтологий позволит повысить точность машинной обработки метаданных до семантического уровня.

Предоставляемые о накопленных ресурсах сведения должны быть унифицированными, непротиворечивыми, точными, подробными и т.д. Это требование ЕИС, характерное для современных интегрирующих систем, может быть удовлетворено применением подхода и технологии создания и использования онтологий.

Уже из разнообразия ресурсов видно, что формирование их метаданных потребует многих онтологий (схем) причем разного типа.

    1. Состав цифровых ресурсов

Обобщенная классификация цифровых ресурсов ЕИС РАН:

В характеристике цифровых ресурсов РАН и финансовых или государственных корпораций существует ряд принципиальных отличий. Первое отличие заключается в том, что основная часть данных финансовых или государственных корпораций является литерной или вербальной информацией. А научная информация может быть литерной, вербальной и/или невербальной (математические и структурные химические формулы, биоинформационные последовательности, таблицы, схемы, чертежи, рисунки, карты, аудио и видео объекты и т.д.). Второе отличие заключается в том, что научная информация является, как правило, слабоструктурированной или неструктурированной.

    1. Текущее состояние информационных ресурсов РАН

Из характеристики состояния информационного пространства, используемого научными организациями РАН и административным аппаратом:

В большинстве случаев под публикацией в Интернет подразумевается наличие собственного Web-сайта организации РАН (отделения, института, библиотеки), представляющего собой набор статических HTML-страниц. При этом имеющиеся представления информации не только преимущественно статические, но и используют разные способы визуализации, обладают разнообразными интерфейсами, плохо структурированы, не имеют средств интеграции и поиска. Использование разных способов структурирования информации и, как следствие, разных систем навигации, ставит практически неразрешимые проблемы идентификации местоположения ресурсов и возможности распределенного поиска.

В редких случаях организациями используются специализированные Web-системы, более подготовленные с точки зрения задач распределенной среды. Это различные информационно-справочные, экспертные и другие системы, эксплуатируемые и вновь разрабатываемые в организациях РАН. Такие ресурсы содержат существенные объемы представляющей интерес информации в структурированном виде. Как правило, в них используются системы управления базами данных для представления и манипуляций с информацией, что позволяет сравнительно легко включать их в единое информационное пространство, в частности, обеспечивать высокую релевантность результатов поисковых запросов. Важнейшими представителями таких систем являются библиотечные и справочные системы, хранящие наукоемкую информацию - данные о публикациях, конференциях, проектах, структуре РАН, сотрудниках отдельных организаций, связях, совместных программах и т.п.

Практически отсутствуют электронные каталоги издательств РАН и электронные библиотеки электронных версий изданий, хотя авторы в основном предоставляют электронные варианты публикаций.

"Интеграция поиска"

Имеющиеся механизмы поиска на динамических сайтах, содержащих всю информацию в базах данных, неудовлетворительны и мало пригодны к интеграции, в частности, в связи с трудностями индексирования данных, отсутствия поддержки механизмов обмена метаданными, требованиями выполнения сложных процедур регистрации пользователей и т.п.

Частично созданы и продолжают развиваться в составе системы средства определения, формирования и трансформирования схем метаданных (онтологий), преобразования метаданных, описателей коллекций, поисковых индексов и запросов;

Онтологии являются важнейшим компонентом средств обеспечения семантической интероперабельности, извлечения метаданных и их интерпретации.

    1. Задачи ЕИС, решаемые с помощью онтологий

В ЕИС поставлена задача разработки единой корпоративной модели метаданных и реализация на основе этой модели глобальной поисковой системы - модель метаданных в настоящий момент представлена в виде онтологии нижнего уровня - RDFS-схемы.

"Системные функции информационно-управляющего ядра ЕИС РАН"

Перечислим те функции, в которых могут быть применены онтологии:

"Хранилище метаданных"

Хранилище метаданных обслуживает потребности по хранению данных служб информационно-управляющего ядра ЕИС РАН и, таким образом, само по себе является цифровым ресурсом ЕИС РАН. К функциям этого ресурса относится хранение и предоставление метаданных, собираемых службой каталога, ведение классификаторов и рубрикаторов ресурсов, ключевых слов и индексов, используемых службой поиска, списков пользователей и их атрибутов, управляемых службой безопасности. Этот ресурс представляет собой объектное хранилище данных, что обеспечивает возможности гибкого расширения состава хранимой информации и возможности эффективного масштабирования системы при расширении её состава.

Схема хранилища предоставляет собой онтологию (в настоящей момент на RDFS), часть которой (внешняя схема) публикуется в Web.

"Профиль ЕИС РАН"

К объектам, стандартизируемым профилем ЕИС РАН с помощью онтологий, могут быть отнесены: функциональные и эталонные информационные модели; форматы электронного обмена данными для различных областей науки (интерфейсы взаимодействия приложений); форматы метаданных; форматы представления данных; стандарты баз данных; стандарты геоинформационных данных; классификаторы и рубрикаторы.

Онтология, описывающая структуру хранилища метаданных, представляет собой RDFS схему, описывающую взаимосвязь и атрибуты основных видов ресурсов ЕИС: организация, подразделение, персона, публикация, проект, награда, мероприятие, новость, сервис, Web-система. RDFS-cхема описывает объектно-ориентированную модель хранилища метаданных и является логической основой для объектно-ориентированного доступа к нему.

Таким образом, использование уже RDFS возможностей дает возможность создать объектно-ориентированную схему предметной области. Использование онтологических языков более высокого уровня даст возможность формализовать еще больше семантики предметной области.

Литература

  1. Концепция создания Единой информационной системы РАН (ЕИС РАН). Вторая редакция
  2. Christopher Welty. Towards a Semantics for the Web. Padova, Italy
  3. Когаловский М.Р. Абстракции и модели в системах баз данных // Журнал "СУБД", Издательский дом "Открытые системы", 4-5/1998.
  4. Петер Пин-Шен Чен. Модель "сущность-связь" - шаг к единому представлению о данных. 1986.
  5. I. Laresgoiti, A. Anjewierden, A. Bernaras, J. Corera, A. TH. Schreiber, B. J. Wielinga. Ontologies as Vehicles for Reuse: a mini-experiment. Amsterdam, The Netherlands
  6. Alexandre Delteil, Catherine Faron-Zucker, Rose Dieng. Extension of RDF(S) with Contextual and Definitional Knowledge. INRIA, ACACIA Project, 2004 route des Lucioles, BP 93,06902 Sophia Antipolis, France
  7. Бездушный А.А., Бездушный А.Н., Серебряков В.А. RDFS-система - практическое использование RDFS.
  8. Клещев А.С., Артемьева И.Л.. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия "онтология"
  9. Alexander S. Kleshchev, Irene L. Artemjeva. Mathematical Models Of Domain Ontologies. // Technical Report, Vladivostok 2000
  10. Guus Schreiber. Requirements for Ontology Specification. SWI, University of Amsterdam.
  11. Смирнов А.В., Пашкин М.П., Шилов Н.Г., Т.В. Левашова. Онтологии в системах искусственного интеллекта: способы построения и организации (часть 1) // "Новости искусственного интеллекта" № 1 (49) 2002 г.
  12. Oscar Corcho, Asunciуn Gуmez-Pйrez. A Roadmap to Ontology Specification Languages. Madrid. Spain
  13. OIL in a nutshell.
!16

УПРАВЛЕНИЕ ДОСТУПОМ К ИНФОРМАЦИИ
В WEB-ПОРТАЛЕ РАН

А.М. Меденников, А.В. Босов
(ВЦ РАН, ИПИ РАН)

Введение.

Информационный Web-портал РАН - это распределенная информационная система, основанная на современных сетевых коммуникационных технологиях. Разработка портала ведется в рамках проекта создания Единой информационной системы РАН (ЕИС РАН). Основные проектные решения, принятые в рамках этого проекта, описаны в Концепции создания ЕИС РАН [1], где в частности, сформулированы общие требования и задачи, стоящие перед системой обеспечения информационной безопасности. Также в [1] определены основные инструменты решения задач обеспечения безопасности и надежности функционирования. Необходимые меры должны приниматься по трем основным направления: нормативная база, программные сервисы в составе Информационного Web-портала РАН и аппаратные средства. В настоящей работе дана дальнейшая детализация решений, сформулированных в Концепции, описана архитектура системы контроля доступа Информационного Web-портала РАН и идеология управления доступом с точки зрения пользователей - сотрудников различных академических организаций.

Нормативно-правовая база обеспечения информационной безопасности.

К вопросам разработки, внедрения и использования ЕИС РАН отнесены, в том числе, вопросы защиты авторских прав и поддержке прав интеллектуальной собственности согласно действующего Российского Законодательства и норм международного права.

Законодательные акты по вопросу информационной безопасности и политики информационного обмена в сфере компьютерных коммуникаций Российской Федерации в настоящее время еще недостаточно совершенны, поэтому работа по пополнению нормативно-правовой базы ЕИС РАН, в том числе, в части вопросов, касающихся правовой поддержки функционирования академического портала, продолжается. Отсутствие достаточной юридической базы и механизмов государственного регулирования, которые могли бы создать условия для защиты авторских прав и прав интеллектуальной собственности на разработки, выполняемые в РАН, является одним из существенных препятствий на пути продвижения проекта Информационного Web-портала РАН.

Управление доступом в Web-портале РАН.

В основе проекта создания Информационного Web-портала РАН лежал тщательный предварительный анализ ситуации в области информатизации, сложившийся в академических организациях. Проект создания академического портала и явился результатом выводов, сделанных на основе предварительных разработок, и опыта, полученного другими разработчиками при создании аналогичных информационных структур. Результатом стало решение о выделении и взаимной интеграции нескольких наиболее важных общесистемных компонентов ЕИС РАН и реализации их в составе Информационного Web-портала РАН. Одним из таких компонентов стала Служба безопасности портала. Неизбежность подобного решения подтверждается общими тенденциями, сложившимися в сфере информационных систем и технологий и спецификой работы РАН. Отмечена назревшая необходимость внедрения интерактивных приложений обработки потоков заданий в корпоративных интрасетях организаций РАН с высоким уровнем защиты, необходимость интеграции административной и научной информации, оперативной актуализации не только структурированных управленческих данных, но и научной информации, как правило, не имеющей структуры или слабоструктурированной. Кроме того, Информационный Web-портал РАН выполняет и функции корпоративной информационной системы РАН, следовательно к его реализации могут быть предъявлены ряд требований, как к любому коммерческому портальному решению, претендующему на выполнение корпоративной функциональности. Среди этих требований на первом месте указывается наличие адекватных средств защиты [2].

Таким образом, в составе Информационного Web-портала РАН предусмотрена самостоятельная служба безопасности, создаваемая специально для целей проекта и не зависящая от сторонних производителей и разработчиков. Создание и внедрение подобного компонента должно обеспечить выполнение всех требований по защите интеллектуальной собственности РАН - всех цифровых ресурсов, интегрированных в систему. В частности, должна быть обеспечена возможность частичного представления информации организаций РАН в открытом доступе при контролируемом доступе к конфиденциальным данным.

К основным функциям Службы безопасности отнесены:

Требования к системе управления доступом

Система управления доступом, реализуемая Службой безопасности Web-портала РАН, должна отвечать следующим требованиям:

Архитектура системы управления доступом

С точки зрения обеспечения информационной безопасности для построения системы управления доступом необходимо определить состав и способы взаимодействия защищаемых объектов. В архитектуре Информационного Web-портала РАН выделены следующие объекты защиты:

Связи между защищаемыми объектами представлены на рис.1:

Рис.1. Архитектура объектов защиты

На самом нижнем уровне находятся сервисы функционального ядра портала. Сюда относятся, например, механизм хранимых объектов, исполнитель запросов Object Query Language и другие сервисы, абстрагирующие доступ к базе данных. Эти сервисы используются объектами, представляющими информационные ресурсы, такие как "организация", "персона", "публикация", "web-страница" для извлечения и модификации своих данных [3]. Помимо объектов-ресурсов, существуют объекты-сервисы, например: сервис визуализации, поисковый сервис, подписка на уведомления о модификациях. Эти объекты используют, помимо сервисов функционального ядра, объекты-ресурсы для реализации своей функциональности.

Доступ к защищаемым объектам Web-портала РАН может осуществляться по различным протоколам. Так, при доступе через браузер (HTTP) будет использоваться сервис визуализации, который будет извлекать информацию из соответствующих объектов-ресурсов. При доступе по протоколу SOAP будет работать другой компонент: Web-сервис.

Таким образом, чтобы обеспечить единый надежный механизм контроля, не зависящий от используемых протоколов, систему управления доступом необходимо реализовывать на уровне ядра, интегрировав её с механизмом хранимых объектов и механизмом выполнения объектных запросов.

Базовая функциональность Службы безопасности портала.

Проблемы аутентификации пользователя хорошо изучены, для их решения есть множество разных способов: от традиционного пароля до биометрических систем. Но все они основаны либо на знании чего-то, либо на владении чем-то.

Наиболее распространены системы с использованием пароля. Они просты и удобны, в том числе, с точки зрения реализации, но при этом у систем защиты, основанных на паролях, есть ряд недостатков:

Другой подход к проблеме аутентификации предлагают системы сертификатов, основанные на криптографии с открытым ключом. Эти системы позволяют не только проверить право входа, но и связать идентификатор с объектом реального мира. Однако и у них есть недостатки:

В Информационном Web-портале РАН применяется комбинированное решение, позволяющее сочетать преимущества обоих упомянутых подходов. Во-первых, сервис аутентификации, входящий в состав Службы защиты портала, предоставляет возможность аутентифицироваться именем/паролем. Во-вторых, для обладателей расширенных прав доступа к информации вводится установка сертификатов, по которым происходит идентификация, и этот механизм также поддерживается сервисом аутентификации. С целью предотвращения использования чужого секретного ключа для несанкционированного доступа, сервис аутентификации позволяет дополнительно к сертификату проверить и пароль. Таким образом в составе Службы защиты реализован гибкий механизм ролевой безопасности, основанной как на имеющейся иерархии должностей и подразделений организаций РАН, так и на возможности формировать динамические группы пользователей для работы над отдельными информационными массивами.

В процессе определения наличия либо отсутствия в массиве троек ("объект"-"пользователь"-"операция") элемента для заданных объекта, пользователя и операции над объектом происходит авторизация аутентифицированного пользователя. Можно выделить две основные проблемы авторизации:

Существует несколько методик описания прав доступа. Наиболее широко распространена в настоящее время методика назначения на объекты списков прав доступа (access control list - ACL). Каждый элемент этого списка содержит идентификатор пользователя (идентификатор группы, идентификатор субъекта) и назначенный этому идентификатору вид доступа. Расширения этой схемы позволяют включать в список элементы, явно запрещающие доступ к объекту, а также указывать возможность наследования элемента списка вниз по иерархии объектов.

Список доступа может быть сохранен вместе с объектом. Достоинство хранения списка доступа вместе с защищаемым объектом состоит в том, что оказывается легко проверить назначенные права доступа к любому объекту, а также легко их изменить. Однако при большой мощности и высокой динамике множества защищаемых объектов, а именно такую характеристику имеют интегрированные в Web-портал РАН цифровые ресурсы, преимущества становятся недостатком: списки занимают значительное место, а административные усилия по управлению ими могут стать неприемлемо большими. Это в еще большей степени относится к системам, где множество объектов неоднородно, а связи между ними имеют более сложную, чем древовидную, структуру, что не позволяет простым образом задать наследование прав доступа.

Для преодоления указанной трудности Сервис авторизации, входящий в состав Службы защиты Информационного Web-портала РАН, использует ролевую модель управления доступом. Эта модель уменьшает объем административных операций. При хорошо продуманной системе ролей управление обычно сводится к назначению пользователям или изъятию у них необходимых ролей в рамках динамических рабочих групп.

Под ролью обычно понимают множество объектов, к которым пользователь имеет доступ, и, возможно, список допустимых операций над ними. Для использования механизма ролей в Web-портале РАН, а именно обоснованность формирования ролей является ключевым вопросом ролевой безопасности, имеются весьма выгодные предпосылки. Именно, в РАН есть достаточно строгая (с позиции информационной безопасности) иерархия, основанная на структуре подразделений академических организаций и структуре должностей. Основываясь на этой иерархии, Сервис авторизации при назначении, например, роли "администратор отдела X" дает возможность полного доступа к объектам "сотрудник", работающим в отделе "X", а также к объектам, представляющим подчиненные подразделения и их сотрудников. При этом создание нового подчиненного подразделения автоматически включает его в область действия этой роли. Конечно, во всех организациях РАН существует много отделов, и для каждого, в таком случае, нужно создавать аналогичную роль. Однако, хотя все такие роли и будут содержать разные множества объектов, но все они используют один и тот же алгоритм его вычисления для заданного отдела.

Сервис авторизации Web-портала РАН представляет роль в виде XML-описания, состоящего из двух компонентов: описания алгоритма вычисления множества объектов и списка операций, разрешенных на этом множестве. Алгоритм описывается в виде комбинации выражений на языке XPath. В выражениях могут использоваться параметры, конкретные значения которых указываются при назначении роли пользователю.

Помимо пользователей, роли могут быть назначены и группам. Группы пользователей могут быть заданы как традиционным способом, через перечисление входящих в них пользователей, так и выражением, позволяющим динамически вычислять состав группы на основе атрибутов объектов, представляющих пользователей.

Аппаратные и базовые программные средства, используемые Службой защиты.

Имеющаяся на сегодняшний день реализация Информационного Web-портала развернута на аппаратно-техническом комплексе, включающем четыре сервера и рабочее место администратора (рис.2). Два брандмауэра (Firewall) позволяют организовать демилитаризованную зону Интернет, в которой установлен Web-сервер, и защищенную зону, в которой установлен сервер баз данных и рабочее место администратора. Отметим, что имеющаяся топология допускает в дальнейшем легкое наращивание.

Для выполнения возложенных на нее задач Служба безопасности Информационного Web-портал РАН использует следующие базовые программные средства:

 

Рис.2. Аппаратные средства портала

Заключение и дальнейшая работа

Привлекательность реализованного решения обеспечения мер безопасности и управления доступа к информации для пользователей - сотрудников организаций РАН - состоит в гибкой адаптации к имеющимся в Академии условиям, включающим соблюдение иерархической дисциплины, основанной на имеющемся структурном и кадровом подчинении. Приведенные в работе характеристики сервисов Службы защиты, на наш взгляд, должны способствовать успешному продвижению Информационного Web-портала РАН в целевую пользовательскую среду. Перспективой развития данной системы является высокоуровневая интеграция с информационными системами научных центров нашей страны и зарубежными.

 

Литература.

  1. Концепция создания Единой информационной системы РАН (вторая редакция) // http://uis.isir.ras.ru/win/htm/scientific_activity.html?p=5p7p2.
  2. Борк Дж. Что может сделать EIP? // Еженедельник "Computerworld", № 10, 2001.
  3. Бездушный А.Н., Вежневец А.А., Лопатенко А.С., Меденников А.М., Серебряков В.А. Метаданные в ИСИР: определение и использование // Электронная конвергенция: новые технологии в музеях, галереях, библиотеках и архивах, EVA-2000, 11.2
!17

ТЕХНОЛОГИЯ ПОСТРОЕНИЯ СЛУЖБ
ПРЕДСТАВЛЕНИЯ И ПЕРСОНАЛИЗАЦИИ
КОРПОРАТИВНОГО WEB-ПОРТАЛА НА
ОСНОВЕ ТЕХНОЛОГИИ MICROSOFT .NET.

А.В. Иванов, К.В. Балабанов
(ИПИ РАН
)

Введение.

Появление порталов стало логическим следствием появления и распространения технологии Intranet. Внедрение Intranet открыло возможность не только для количественного, но и для качественного развития бизнес-систем. Так, распространение получившей в последние годы популярность технологии Web-порталов на корпоративные информационные системы и привело к появлению корпоративных порталов.

Существующее многообразие порталов требует их классификации, хотя имеющийся терминологический хаос и не представляет возможности сформулировать окончательные термины и определения. В качестве наиболее распространенных по назначению мы укажем четыре типа порталов:

  1. Общедоступные или горизонтальные порталы (называемые иногда мегапорталами) предназначены для широкой аудитории. К таким порталам можно отнести новостные и развлекательные сайты, поисковые машины.
  2. Вертикальные порталы предназначены для специфических сегментов рынка и обслуживают аудиторию, пользующуюся услугами этого рынка или работающую на нем.
  3. Корпоративные порталы также относятся к вертикальным, но предназначены для сотрудников, клиентов и партнеров одного предприятия (иногда их называют B2E-порталами - Business to employee). Назначением корпоративного портала является предоставление внешним и внутренним пользователям возможности персонифицированного доступа ко всем корпоративным данным и приложениям.
  4. Тематические порталы объединяют как информацию, так и услуги, связанные отношением к определенной предметной области.

Общее устройство вертикального портала.

В состав вертикального портала могут включаться в разных комбинациях следующие службы: служба аутентификации, службы безопасности и администрирования, службы представления и персонализации, службы поддержки документооборота и корпоративной работы, службы уведомления и доставки, служба управления контентом, службы поиска и навигации, службы адаптеров, а также службы публикации, индексирования, диспетчер хранилища информации и диспетчер категоризации.

Функционирование портала можно представить как совокупность параллельно выполняющихся процессов:

  1. Поступление новой информации в портал и помещение её в хранилище (если информация поступает не в результате обращения к службам портала).
  2. Категоризация, индексирование, формирование метаданных, назначение прав доступа для вновь поступившей информации.
  3. Назначение шаблонов отображения для поступившей информации.
  4. Предоставление информации пользователю в соответствии с его правами доступа и настройками профиля, включая фильтрацию информации, применение шаблонов оформления, учет типа устройства отображения информации и т.д.
  5. Доступ пользователя к услугам, предоставляемым службами портала, в соответствии с правами доступа и настройками профиля пользователя.
  6. Доступ пользователей к системам коллективной работы, обеспечивающим создание новой информации для помещения в портал.

Управление контентом.

Содержательное наполнение портала обеспечивается за счет различных систем - источников информации. Управление информационным наполнением - основная задача систем управления контентом (Content Management System).

Более детальный перечень задач, решаемых системами управления контентом, включает:

Особенность Информационного Web-портала РАН в том, что в значительной степени он выполняет работу с большими объемами научной информации. Данная информация является преимущественно неструктурированной, поэтому важно, чтобы система управления контентом поддерживала работу с подобной информацией.

Организация пользовательского интерфейса портала.

Пользовательский Web-интерфейс портала поддерживается службой представления информации. В большинстве проектов для доступа к порталу используется Web-браузер на персональных компьютерах, однако общеотраслевая тенденция заключается в том, чтобы добавить к этому еще и поддержку других устройств, таких как мобильные и беспроводные Web-устройства.

Важной портальной характеристикой является архитектура службы представления - используется ли технология "тонкого" клиента, или же пользовательский интерфейс формируется с помощью подключаемых модулей (plug-ins), или загружаемых компонентов типа ActiveX.

В общем случае к службе представления вертикального портала предъявляются следующие требования:

Взаимодействие служб представления и управления контентом является важным для успешного функционирования и развития портала. Одним из требований к системе представления является разделение содержания и визуального оформления представляемой информации. Без выполнения этого требования трудно обеспечить единство визуального оформления отображаемой информации, а также производить изменение и добавление новой информации. Отсюда вытекает идея о необходимости использования некоторого стандарта на внутреннее представление информации в портале.

Построение службы персонализации.

Отображение информации, получаемой из информационных ресурсов и служб портала, персонализировано, т.е. индивидуально для каждого пользователя. Портальные продукты используют ряд различных подходов для персонализации контента, который пользователи могут получить при организации доступа через Web-интерфейс портала. В потребительской среде эти подходы могут быть отнесены к одной из двух широких категорий: персонализация, управляемая пользователем, и персонализация, управляемая приложением.

Персонализация, управляемая пользователем, подразумевает предоставление пользователю выбора категорий информации и служб, к которым ему обеспечен доступ. Список источников создается и поддерживается администраторами порталов и может быть модифицирован пользователями, публикующими контент в портале, для совместного использования с другими пользователями портала. В дальнейшем пользователь вручную настраивает свой портальный интерфейс, добавляя и удаляя разделы информации и службы в соответствии со своими интересами или регистрируясь для конкретных категорий контента.

Персонализация, управляемая приложением, возможна при наличии менеджера категоризации порталов и связанного с ним информационного каталога, и использует для этого управление на основе правил и методов коллективной фильтрации (collaborative filtering). Подобные методы позволяют порталу "узнавать", какая информация интересует пользователей, и автоматизировать процесс персонализации.

Технология Microsoft .NET.

В качестве платформы для реализации служб представления и персонализации Информационного Web-портала РАН выбрана технология Microsoft .NET.

.NET предлагает готовую инфраструктуру для создания Internet-приложений, обладающую такими важными характеристиками как многоплатформенность, возможность использовать средства данной технологии из различных языков программирования, управление безопасностью приложений, автоматическое управление памятью, высокая производительность.

Платформу .NET образуют пять компонентов:

  1. Система .NET Framework и инструментальные средства Visual Studio .NET. Этот компонент обеспечивает простой, быстрый и эффективный способ разработки веб-служб.
  2. Серверные системы. Включают в себя набор серверов, отвечающих за объединение и интеграцию веб-служб. Платформу .NET поддерживают такие продукты, как Windows 2000, SQL Server 2000, Exchange 2000, BizTalk Server 2000.
  3. Службы .NET Building Block Services - "строительные блоки". Представляют собой набор служб, предназначенных для решения часто встречающихся задач, таких как службы идентификации, оповещения и схематизированные хранилища.
  4. Программное обеспечение для устройств. Это набор программного обеспечения для устройств и клиентских систем. Его роль заключается в создании интегрированной среды выполнения, единой для различных устройств или клиентов.
  5. Специализированные рабочие среды (реализованы в виде приложений на платформе .NET). Эти среды ориентированы на определенную категорию пользователей и позволяют интегрировать веб-службы и объединять различные функциональные возможности.

Реализация служб представления и персонализации в Web-портале РАН.

Служба представления Web-портала РАН использует принцип генерации информационного содержания с помощью программных компонентов. Web-страницы генерируются с помощью шаблонов, содержащих компоненты, отвечающие за формирование того или иного информационного блока. Например, навигационное меню, заголовок, содержание страницы формируются с помощью соответствующих программных компонентов. Программные компоненты выполняются на сервере, их выходная информация кэшируется, что обеспечивает достаточно высокую производительность. Набор компонентов является расширяемым, что позволяет отображать на Web-страницах самую разную информацию, предоставлять доступ к базам данных, Web-сервисам и т.д.

Шаблоны Web-страниц реализованы с помощью ASP.NET. Обращение пользователя к порталу приводит к выполнению соответствующей aspx-страницы. Так как путь, указанный в URL, не имеет физического соответствия в структуре файловой системы, то для, того чтобы программные компоненты правильно отображали информационное содержание, ISAPI фильтр обеспечивает формирование необходимых для компонентов параметров.

Служба персонализации обеспечивает хранение параметров, управляющих работой службы представления и данных, обеспечивающих предоставление пользователю выбранных им категорий информации. Совокупность этих данных образует профиль пользователя.

!18

ТЕХНОЛОГИИ ИНТЕГРАЦИИ
ИНФОРМАЦИОННЫХ СИСТЕМ
НА ОСНОВЕ СТАНДАРТОВ XML
И WEB-СЛУЖБ.

А.В. Данилин
(Microsoft)

Введение

По оценке компании Gartner Group на каждый доллар, который организации тратят на разработку и внедрение прикладных информационных систем, приходится еще от пяти до двадцати долларов затрат, связанных с интеграцией с другими системами.

Архитектура интеграции приложений отличается от архитектуры одного приложения также, как планирование города отличается от архитектуры отдельного здания. Интеграция приложений - это обеспечение взаимодействия независимо спроектированных систем:

Решение этих проблем было одной из движущих сил разработки технологий XML и Web-служб, и связанных с ними стандартов.

Первое и главное, что хотелось бы отметить, что все обсуждаемые ниже стандарты являются открытыми стандартами, в разработке которых принимают участие Интернет-сообщество и ведущие компании в области ИТ, такие как Microsoft, IBM и многие другие. Это важно, поскольку это снимает вопросы совместимости платформ от разных поставщиков.

Ниже перечислены три наиболее актуальные технологии интеграции прикладных систем:

Ключевыми стандартами Web-служб являются:

Кратко процесс взаимодействия приложений в децентрализованной, распределенной среде выглядит следующим образом. Приложение, которому требуется доступ к Web-службе, использует регистр (каталог) UDDI для обнаружения нужной ему Web-службы (информация в регистре UDDI предварительно должна быть опубликована организацией, желающей сделать её Web-службу публично доступной). В этом же регистре UDDI приложение определяет необходимые для взаимодействия интерфейсы. Интерфейсы публикуются с использованием стандарта WSDL. После этого приложение вызывает Web-службу, используя интерфейс WSDL, и используя SOAP и XML как конверты и форматы для передачи информации, а протоколы HTTP и SMTP в качестве транспорта для её доставки.

Иначе говоря, технология Web-служб предоставляет общий формат данных (XML), способ доставки и транспортировки данных через Интернет и Интранет (SOAP), а также способ обнаружения (UDDI) и описания (WSDL) сервисов.

Базовые идеи применения XML и Web-служб для организации межведомственного взаимодействия

Ниже перечислены основные идеи применения XML и Web-служб для организации межведомственного взаимодействия:

Таким образом, ключевой идеей, которая связана с использованием стандартов XML для интеграции информационных систем является использование подходов на основе Web-сервисов и регистров на основе стандартов UDDI.

В мире интеграции корпоративных информационных систем в конце 90-х годов стандартным подходом для такой интеграции стал подход, основанный на использовании программного обеспечения гарантированной пересылки сообщений между приложениями. Это то, что соответствует зарубежному термину "messaging". Примером такого ПО является Microsoft BizTalk Server.

Базовая идея этого ПО следующая. У Вас есть несколько приложений, связанных некоторой коммуникационной средой, возможно не очень надежной. Одно приложение (например, система документооборота A) должно переслать информацию/документ другому приложению (системе документооборота B). Система A передает документ серверу пересылки сообщений и "забывает" о нем. Сервер пересылки сообщений обеспечит гарантированную и однократную доставку информации до системы B.

Наличие одного узла, одной точки интеграции на основе брокера сообщений обеспечивает управляемый, линейный рост сложности задачи интеграции по мере подключения новых информационных систем. По-сути дела - это одна из задач, выполняемая Правительственным Шлюзом в Великобритании.

Брокер сообщений при этом выполняет не только маршрутизацию сообщений (которые являются XML-документами) между информационными системами ведомств, но и выполняет также задачу трансформации этих сообщений на основе соответствующих XML-схем для обеспечения совместимости информационных систем.

Компоненты брокера сообщений

На приведенном ниже рисунке представлена техническая модель брокера сообщений.

Рис 1. Брокер сообщений

Сегодня брокеры сообщений могут объединять большое количество взаимодействующих систем. Результатом этого является то, что компания Gartner Group называет "Корпоративной нервной системой", т.е. инфраструктура брокера сообщений, к которой легко могут быть подключены по сути дела любые приложения и которая обеспечивает взаимодействие между ними в режиме, близком к реальному времени.

Брокер сообщений интегрирует гетерогенные приложения и хранилища данных и предоставляет три типа служб:

Архитектура брокера сообщений может включать две дополнительных высокоуровневых службы:

Помимо этого, брокеры сообщений, как правило, поддерживают работу со специфическими адаптерами для различных типов приложений и данных:

На рисунке ниже приведена техническая модель интеграции информационных систем на основе использования технологий брокера сообщений и веб-служб XML. При этом интеграционный шлюз (брокер сообщений) может обеспечивать не только маршрутизацию сообщений, но и реализовывать функции коллективного UDDI-регистра доступных информационных систем, а также реализовывать функции "брокера веб-служб", то есть обеспечивать механизм взаимодействия между информационными системами как веб-службами.

Рис 2. Техническая модель веб-служб XML как технологии интеграции.

Заключение

Комбинация традиционных технологий универсального брокера сообщений, XML как стандартного формата для информационного обмена и Web-служб дает широкие возможности для интеграции информационных систем и данных на основе открытых стандартов.

!19

RDF СХЕМА МЕТАДАННЫХ ИСИР.

Роль технологий Semantic Web в архитектуре ИСИР.

А.А. Бездушный (МФТИ), А.Н. Бездушный (ВЦ РАН), А.Б. Жижченко (ЦНТК РАН), М.В. Кулагин (ЦНТК РАН), В.А. Серебряков (ВЦ РАН)

Аннотация

В работе анализируются основные концепции Semantic Web и перспективы его использования. Приводится сопоставление парадигмы Semantic Web с традиционными парадигмами программирования. Описывается применение RDF(S) в новой Java-архитектуре ИСИР [ISIRn], опирающейся на открытые стандарты W3C: Semantic Web, XML технологии, и на применение open-source решений. Даётся обзор RDF-схемы метаданных ИСИР РАН.

Resource Description Framework

"Semantic Web - это расширение Web, в котором информации придаётся определённая семантика, позволяя людям и машинам работать вместе" - примерно такое определение дают своим работам члены W3C Semantic Web Activity [SW]. Целью этого проекта является внедрение в Web таких технологий, которые позволят существенно повысить уровень интеграции информации, обеспечить развитую машинную обработку данных, дадут возможность выдавать более адекватные ответы на поисковые запросы и т.д.

Текущее состояние Web характеризуется слабой структурированностью данных, низким уровнем их взаимосвязи. Распространение XML-технологий дает возможность структурировать информацию, обеспечить синтаксическую интероперабельность приложений. Semantic Web является логическим продолжением развития Web - от гипертекстовых страниц к XML-данным, а от XML - к смысловому содержанию и объединению разбросанной в Web информации.

Semantic Web базируется на модели данных Resource Description Framework (RDF), которая позволяет объединить информацию из различных источников, включая базы данных и системы инженерии знаний. RDF может быть наиболее полезен в обеспечении совместного использования информации, смысл которой может одинаково интерпретироваться различными программными агентами. Второй базовый компонент Semantic Web - это RDF/XML-синтаксис, который позволяет представить RDF-данные в XML-виде. Следующий уровень в пирамиде технологий Semantic Web занимает язык RDF Schema - язык описания словарей RDF-терминов (классов и свойств Web-ресурсов). RDFS служит фундаментом для более богатых языков описания онтологий предметной области, которые позволяют адаптировать к Web системы логики и обеспечить семантическую обработку данных.

RDF модель данных, составляющая основу методики Semantic Web, является представителем семейства ER-моделей данных, специфика которой состоит том, что ресурсы и свойства идентифицируются с помощью глобальных идентификаторов - URI. RDF описывает предметную область в терминах ресурсов, свойств ресурсов и значений свойств. RDF-данные можно расценивать как совокупность утверждений - субъект, предикат (свойство) и объект утверждения, представлять в виде направленного графа, образуемый такими утверждениями.

RDF/XML-синтаксис позволяет записать граф в последовательной форме, пригодной для обмена данными. Этот синтаксис достаточно гибок - он допускает различные формы записи одного и того же графа, различные сокращенные формы.

RDF-схема (RDFS) представляет собой систему типов для Semantic Web. RDFS позволяет определить классы ресурсов и свойства как элементы словаря, и специфицировать, какие свойства, с какими классами могут быть использованы. RDFS выражает эти словари средствами RDF, предоставляя набор предопределённых ресурсов и свойств с обозначенной для них смысловой нагрузкой, которые могут быть использованы для описания новых RDF-словарей.

Таким образом, любое RDFS-описание представляет собой "обычные" RDF-данные - данные о классах и свойствах. RDFS позволяет определить уникальные (идентифицируемые URI) классы ресурсов, представляющие концептуальную модель конкретной предметной области, и уникальные (идентифицируемые URI) свойства, интересующие нас в этой области. Принадлежность ресурса к конкретному классу задается с помощью свойства rdf:type, представляемого в графе дугой от экземпляра к классу. Описываемые в словаре классы сами являются экземплярами предопределённого класса rdfs:Class, свойства же являются экземплярами rdf:Property. RDFS позволяет указать, каким классам присущи заданные свойства, и ресурсы какого класса могут появиться в качестве значения заданного свойства. Эта информация указывается в словаре с помощью свойств rdfs:domain и rdfs:range соответственно. RDFS позволяет связать классы (rdfs:Class) отношениями множественного наследования (rdfs:subClassOf). В RDFS-модели, как и в обычном объектном подходе, классам свойственен полиморфизм. То есть, экземпляр подкласса всегда может сыграть роль экземпляра своего суперкласса, и появиться как субъект или объект свойства, для которого в качестве соответственно range или domain был указан суперкласс. Свойства также могут быть связаны отношениями множественного наследования (rdfs:subPropertyOf). Наследование свойства означает более узкую специализацию этого свойства, уточнение смысла и сужение границ использования.

Ниже приведен пример двух RDF-графов, один из которых соответствуют RDF-схеме некоторой предметной области, а второй - конкретным данным.

С введением механизмов определения словарей, деятельность Semantic Web выходит на новый уровень. На данный момент различные организации по стандартизации предлагают стандартные словари для описания ряда предметных областей. Использование таких публичных словарей (или сопоставление с ними) позволяет "незнакомым" приложениям обмениваться информацией друг с другом, точно так же, как человек, попавший в чужую страну без знания языка, всё равно сможет в ней общаться - с помощью "стандартного" языка жестов, или, например, угадывая латинские, греческие, славянские корни в словах. В качестве примера таких инициатив стандартизации можно упомянуть инициативу Dublin Core [DC], предоставляющую минимальный набор свойств для идентификации ресурсов Web; Publishing Requirements for Industry Standard Metadata (PRISM), определяющую словарь метаданных для издательских организаций, Electric Power Research Institute Common Information Model, указывающую общую семантику для энергетических систем, RDF Site Summary для описания каналов новостей Web-порталов и многие другие инициативы.

Язык RDFS предоставляет лишь базовые возможности для описания словарей предметных областей, но он легко может быть расширен дополнительными примитивами моделирования, более детально и специализировано описывающими нужные аспекты классов и свойств. Механизм расширения внутренне присущ RDFS, поскольку для описания схем используется модель данных RDF, которая позволяет расширить описание любых ресурсов дополнительной информацией. Предопределённый словарь "мета-типов" RDFS также может быть расширен под нужды приложения, благодаря чему появляется возможность добавлять в язык новые примитивы.

Расширяемость позволяет RDFS стать фундаментом для более богатых языков концептуального моделирования - языков описания web-онтологий предметных областей. Цель таких языков - указать дополнительную машинно-интерпретируемую семантику ресурсов, то есть сделать машинное представление данных более похожим на положение вещей в реальном мире. Использование богатых языков концептуального моделирования позволит адаптировать к Web большое количество наработок в области систем инженерии знаний и баз знаний. Привлечение к Web систем логики и искусственного интеллекта составляет вершину "пирамиды Semantic Web", обеспечивая адекватный поиск информации и её машинную интерпретацию.

Первыми предложениями по описанию онтологий на базе RDFS были DAML-ONT (DARPA Agent Markup Language) [DAML] и European Commission OIL (Ontology Inference Layer) [OIL]. На базе этих двух предложений возникло совместное решение - DAML+OIL [DAML+OIL], которое привело к созданию в рамках инициативы Semantic Web отдельной группы, ответственной за пересмотр этого решения и стандартизацию языка описания Web-онтологий (OWL - Web Ontology Language) [OWL].

Однако ориентированность языков описания онтологий на системы математической логики делает их слишком тяжеловесными для огромного количества приложений, которым достаточно простого языка описания словарей - RDFS. И это правильно, каждая ступень в пирамиде Semantic Web - это ступень, на которой многие приложения могут остановиться, согласно своим собственным требованиям к данным и их использованию.

Сопоставление RDF(S) с другими парадигмами

Система типов RDFS похожа на многие общепринятые системы типов, как в ER-моделировании, объектно-ориентированном программировании и UML, и т.п. Инициатива Semantic Web не ставит перед собой цели создать новую модель данных, напротив, она ориентируется на интеграцию различных моделей данных с целью получения информации из соответствующих источников. RDFS отличается от этих стандартных систем типов в нескольких существенных аспектах, которые являются следствием глобализации и децентрализации информационной системы, к которой мы приходим, "выходя" в Web из установленных моделью данных рамок. В каком-то смысле RDF(S) есть адаптация этих моделей к Web. Рассмотрим сопоставление примитивов RDFS и модели данных объектно-ориентированного программирования (согласно [RDF Premier]).

Один из архитектурных принципов Web состоит в том, что кто угодно может расширить описание существующих ресурсов [TBL-98], то есть "кто угодно может сказать, что угодно, о чём угодно". Это означает, что отношение между двумя объектами может храниться отдельно от любой другой информации об этих объектах. Это сильно отличается от того, к чему мы привыкли в обычных объектно-ориентированных системах, в которых считается, что информация об объекте хранится внутри объекта: определение класса объекта подразумевает указание места хранения его свойств. Такое отличие является следствием децентрализации и адаптации к положению вещей в реальном мире. Например, один человек может определить автомобиль, как нечто, имеющее колёса, вес и размер, но не предвидеть цвет. Это не остановит другого человека от утверждения, что его машина - красная, используя некоторый словарь цветов.

Из этого архитектурного принципа Web следует основное отличие парадигмы RDFS от объектной парадигмы - это её свойство-центричность. Свойства (отношения, предикаты) в RDFS являются объектами первого уровня, как и классы: они идентифицируются URI и определяются независимо от классов, тогда как в объектной и ER парадигмах свойства (атрибуты) указываются в "теле" класса, смысл свойств с одинаковыми названиями в разных классах может быть различен. Впрочем, такой подход уже использовался, например, в X.500, LDAP, где свойства и их характеристики описываются отдельно от класса, а потом "привязываются" к нужным классам. Он оправдывает себя в системах, ориентированных именно на хранение разнообразной слабоструктурированной информации.

Вместо того, чтобы описывать классы в терминах свойств (структуры), имеющихся у него, как это делается в объектно-ориентированных системах, RDFS описывает свойства в терминах классов, к которым они применимы, указывая rdfs:domain (область применения свойства) и rdfs:range (область значений свойства). Различие между этими подходами может показаться только синтаксическим, но на самом деле есть существенная разница, которая связана как раз с глобализацией информационной системы при адаптации её к Web, где "кто угодно может сказать, что угодно, о чём угодно". Например, если кем-то определен класс ex:Book со свойством ex:author, принимающим значения типа ex:Person, то это не запрещает другим разработчикам придать классу ex:Book дополнительное свойство my:publisher, достаточно лишь указать этот класс в rdfs:domain нового свойства my:publisher. Это не требует переопределения класса, причем создатели класса могут быть в неведении данного факта. В то же время в ООП потребовалось бы переопределить и перекомпилировать класс.

Кроме того, RDFS вообще не требует, чтобы у свойства была задана область применения - свойство без domain может быть использовано для описания любого ресурса, независимо от его класса. Определение свойства без указания области применения позволяет использовать его в будущем в ситуациях, которые не могли быть предвидены в момент разработки схемы. Именно так поступает Dublin Core, предоставляя словарь стандартных свойств, пригодных для описания любого Web-ресурса, для которого они окажутся полезными.

Другое важное отличие в семантике RDFS-описаний - это то, что они носят описательный, а не "предписывающий" характер, то есть, они могут использоваться не для того, чтобы наложить ограничения на применение свойств, а просто чтобы предоставить дополнительную информацию приложению, обрабатывающему эти данные. Если ОО язык программирования объявляет класс Book с атрибутом author типа Person, это обычно интерпретируется как набор ограничений (условий применения). ОО язык не позволит создать экземпляр класса Book без атрибута author или указать в качестве значения author объект, не являющийся экземпляром Person. Наконец, он не позволит создать экземпляр Book с каким-то другим атрибутом.

RDF Schema, напротив, предоставляет информацию о схеме как дополнительное описание ресурсов, но не указывает, как это описание должны использоваться приложениями. Приложение вольно по своему усмотрению считать RDF-данные соответствующими схеме или нет, если в описании отсутствует некоторое свойство, требуемое схемой, либо присутствуют свойства, не указанные в схеме. Одно приложение может интерпретировать RDFS-описания как шаблон для генерации данных, и проверять соответствие данных областям значений свойств, то есть интерпретировать описания схемы так же, как они интерпретируются в ОО языке программирования. Другое приложение может интерпретировать RDFS-описания как дополнительную информацию о данных, которые оно получает. Например, если оно получит RDF-данные с указанием свойства ex:author, содержащим значение без указания типа, то может заключить на основе описания схемы, что это значение является ex:Person. Третье приложение может получить данные, в которых свойство ex:author содержит ресурс типа ex:Student, и использовать информацию схемы как базис для предупреждения, что данные могут содержать ошибку. Хотя, возможно, где-то существует RDFS-описание, решающее эту проблему, например, указывающее, что ex:Student подкласс ex:Person.

Итак, RDFS утверждения всегда описательны. Они могут, конечно, интерпретироваться как "предписывающие", но только если приложение желает их так интерпретировать. Всё, что делает RDFS-описание - это предоставляет приложениям дополнительную информацию "для размышления".

Интеграция в Semantic Web систем баз знаний, математической логики и инженерии знаний в состоянии принести двойную прибыль. Во-первых, для механизмов Web (таких как поиск информации) становится доступным большое количество баз знаний, созданных в области медицины, биологической химии и пр. С другой стороны, появляется возможность адаптации к Web самих технологий, наработанных в области математической логики и инженерии знаний, что позволит поисковым системам и программным агентам самостоятельно анализировать предоставленную информацию.

Однако прямой перенос этих технологий невозможен в силу глобальности и децентрализации, которую мы наблюдаем в Web и не наблюдаем в имеющихся системах инженерии знаний. Многие решения (например, [KIF]) в силу своей концептуальной и физической централизации требуют глобальной целостности ссылок, исходят из предположения об "ограниченности мира". Это же было и с гипертекстовыми системами 70-90 годов, до появления Web. Обобщение KIF для Web должно быть во многом аналогично тому, как были обобщены первые гипертекстовые системы - следует "заменить" локальные идентификаторы на URI и убрать требование глобальной целостности. Кроме того, адаптированные к Semantic Web системы логики должны быть хорошо расширяемы и приспособлены к различными типами "противоречивости" данных.

Semantic Web - это то, что мы получим, применив ту же глобализацию к представлению знаний, какая изначально была применена к гипертексту. Достаточно убрать централизованные понятия абсолютной истины, абсолютного знания, полной доказуемости, и посмотреть, что мы можем сделать с ограниченным знанием.

Соотношение ИСИР и Semantic Web

ИСИР-технологии [ISIRn] ориентированы на формирование единой информационной среды из разнородных и распределенных источников информации, называемых репозиториями, содержащих ресурсы в реляционных и объектных базах данных, LDAP-каталогах, XML и RDF хранилищах, Z39.50-системах и т.п. ИСИР предоставляет ряд служб по поддержке репозиториев, например, репликацию и обмен данными, индексирование и поиск ресурсов, технологию построения Web-порталов для доступа к данным и манипулирования ими. В плане интеграции разнородных информационных источников ИСИР пытается в меру своих возможностей двигаться в направлении целей, намеченных Semantic Web, используя его технологии. Semantic Web предлагает стандартный механизм и унифицированную модель данных для интеграции информационных источников Web, и ожидает от них поддержки этого механизма. ИСИР предоставляет некоторое техническое решение для построения таких информационных источников, для организации их взаимодействия, как между собой, так и с другими независимыми источниками. ИСИР стремится к реализации идей Semantic Web в своей более узкой и более специализированной области - объектно-ориентированные информационные порталы и цифровые библиотеки.

ИСИР и Semantic Web могут и должны работать вместе. С одной стороны, ИСИР-репозитории служат источниками RDF-знаний для сторонних программных агентов Semantic Web, таких как поисковые системы. С другой стороны, Semantic Web может помочь ИСИР "добывать" информацию из сторонних источников - доступных в Web тезаурусов и классификаторов, баз знаний и пр. систем, с которыми может быть связана информация в информационном портале или цифровой библиотеке. Использование RDF для обмена данными позволяет обмениваться информацией как между репозиториями ИСИР, так и со сторонними заинтересованными системами.

Основой Java-архитектуры ИСИР является объектно-ориентированный подход к представлению данных. Для каждого типа хранилища поддерживается механизм отображения объектной модели данных во внутреннюю модель (реляционную, LDAP...). ИСИР-репозиторий не универсален - он не может, и не должен хранить, "что угодно". Каждый репозиторий способен хранить данные, соответствующие жёсткой замкнутой объектной схеме, описывающей допустимые классы, их свойства, которой сопоставлена система хранимых Java-классов и, например, система таблиц в реляционной БД. Такая объектная схема соответствует традиционной парадигме объектно-ориентированного программирования и объектных баз данных, то есть исходит из понятия "самодостаточности" схемы. Это естественно, так как пока мы находимся в контексте одного репозитория, нет никакой необходимости в "децентрализации" схемы, более того, как правило, модель данных расположенного под объектным уровнем хранилища требует замкнутости схем (реляционная, объектная БД, LDAP..).

Когда же мы выходим на Web-уровень и задаёмся задачей интеграции разнородных репозиториев в Web, мы сталкиваемся с "глобализацией" и "децентрализацией" информации, и логично воспользоваться в этой области парадигмой Semantic Web и языком RDFS. Элементы схемы репозитория становятся глобально-идентифицируемыми (с помощью URI), схемы разных репозиториев перестают быть независимыми. Например, может оказаться так, что некоторые репозитории хранят в себе объекты одного и того же класса, но разные наборы свойств, в соответствии с теми аспектами этого класса, которые им нужны в их специфической предметной области. Может выясниться, что репозитории хранят схожие (но не одинаковые) классы, и при их интеграции часть информации из одного репозитория может использоваться противоположными, например, для пополнения имеющейся у них информации или для установления требуемых взаимосвязей между ресурсами.

Возникает естественное желание как-то интегрировать эти две аспекта в рамках одной схемы данных. С этой целью в ИСИР сформировано расширение языка RDFS, пригодное для описания локального и глобального аспектов объектной схемы данных. Мы используем понятия RDFS-классов и свойств, идентифицируемых URI, понятия наследования классов и свойств, rdfs:range свойства, но добавляем к этим примитивам моделирования возможность четко описать класс в терминах его атрибутов, как это делается в ОО языках программирования. С этой целью введено специальное свойство schema:property - отношение, связывающее класс с его свойствами.

Каждый репозиторий рассматривает свою схему ресурсов как замкнутое описание, по которому можно получить, например, соответствующее ODL-описание или сгенерировать систему bean-подобных Java-классов. Он интерпретирует rdfs:range как ограничение на тип значений свойства, которому должны удовлетворять хранимые данные, schema:property - как ограничение, чётко задающее все присутствующие в классе атрибуты (которым будут соответствовать get/set методы в java-классах, поля в реляционной БД и т.п.). Репозиторий интерпретирует свою схему ресурсов в рамках традиционной объектной парадигмы, как требуется ИСИР при хранении данных. Это не противоречит идеям Semantic Web, поскольку приложения могут интерпретировать RDFS-описания по собственному усмотрению.

С другой стороны, при обмене данными между репозиториями и интеграции их информации, RDFS-описание объектной схемы каждого репозитория расценивается с позиции децентрализации, распределённости информации в Web. При загрузке сторонних RDF-данных, из них отбирается только та информация, которую репозиторий способен сопровождать согласно своей замкнутой схеме и своим ограничениям. При формировании результатов поисковых запросов поисковый сервис может возвращать пользователям описания ресурсов, интегрирующие свойства разных репозиториев, а, возможно, к тому же отфильтрованные в соответствии с предпочитаемой пользователем схемой ресурсов.

Рассмотрим пример совместной работы трёх информационных источников - корпоративного портала некоторой организации, базы данных налоговой службы и портала библиотеки. Схема объектных данных каждого из этих ИСИР-репозиториев содержит класс isir:Person, представляющий нужную в репозитории информацию о человеке. Пространство имён 'isir' соответствует базовой схеме метаданных ИСИР, находящей применение в большинстве приложений. В той же базовой схеме определено свойство isir:personName, указывающее ФИО человека на нужном языке.

Однако каждому репозиторию нужна более специфичная информация о данной личности - корпоративный портал содержит данные о должности человека и контактной информации, которая может быть полезна пользователю портала. Налоговая служба заинтересована, помимо этого, в паспортных данных этого лица, его ИНН и сведениях о доходах. Библиотечная система хранит лишь паспортные данные и информацию о взятых книгах. Соответственно, каждый репозиторий специализирует класс isir:Person под свои нужды, и связывает с ним только те свойства, которые представляют интерес в данной предметной области.

Таким образом, структура java-класса Person различна для разных репозиториев (на рисунке эти различные "взгляды" на isir:Person изображены в стиле UML). Тем не менее, часть информации в этих источниках пересекается, и один репозиторий может реплицировать нужную информацию из другого. Так, налоговая служба может позаимствовать информацию о месте работы непосредственно из корпоративного портала организации-работодателя, а библиотечная система - паспортные данные из налоговой. Репозитории обмениваются информацией в RDF/XML-представлении, что обеспечивает интероперабельность не только между собой, но и со сторонними системами Semantic Web.

Итак, ИСИР использует RDFS как фундамент для описания объектных схем за простую объектную модель, удобство расширения новыми примитивами и адаптированность к Web, а следовательно и к обмену RDF и XML данными. Онтологические языки, в частности OWL, слишком сложны в силу своей ориентации на системы логики, и не имеет смысла использовать их лишь для описания объектной схемы репозитория и простых ограничений на неё. Но многие онтологии могут быть легко адаптированы под требования ИСИР путём их упрощения, что позволяет создавать цифровые библиотеки, хранящие информацию в соответствии с системой классов и свойств данной онтологии. Приоритетное положение RDFS в ИСИР не мешает изначально описать объектную схему репозитория на ODL [ODMG], смоделировать на UML [UML], либо получить по существующей системе Java-классов. ИСИР предоставляет некоторые механизмы по отображению таких описаний объектной схемы друг в друга и их генерации.

ИСИР-технологии не поддерживают средства для хранения произвольных RDF-данных. Каждый репозиторий жёстко ограничен своей схемой предметной области, которая выражается не только в структуре хранимых Java-классов, но и в схеме скрытого под ним хранилища, например в структуре таблиц реляционной БД. Существуют продукты, нацеленные именно на хранение произвольного RDF (см. [SW RDBMS], [KAON], [RDFSUITE], Jena...), которые хранят в БД RDF-тройки (утверждения), и позволяют делать RDF-специфичные запросы к этому множеству троек. Эти системы следуют абсолютно иным целям, чем ИСИР, мало эффективны в работе с большими объёмами данных, более приближены к системам баз знаний, нежели к цифровым библиотекам. При необходимости данные ИСИР-репозитория посредством их RDF-представления могут быть перегружены в подобную систему.

Примитивы моделирования ИСИР RDFS

ИСИР расширяет язык RDFS возможностью четкого указания допустимых атрибутов класса (в соответствие с традиционной парадигмой ООП), возможностью выделения линии одиночного наследования в наследовании классов (понятие "абстрактных классов") и некоторыми простыми ограничениями на множество значений свойства. С этой целью используются следующие метаклассы:

Ядро ИСИР предоставляет различные встроенные услуги по управлению хранимыми объектами, такие как автоматическая проверка прав доступа, аудит и пр. Для того, чтобы к хранимому классу была подключена некоторая услуга, он должен расширить соответствующий предопределённый "абстрактный класс". Так, для подключения системы безопасности и возможности конфигурации персональных прав доступа к объектам класса, достаточно сделать класс наследником kernel:SecureObject. Благодаря использованию множественного наследования, к классу можно подключить несколько услуг одновременно (например, "зависимый объект" и персональные права доступа). К RDFS-классам представляющим услуги ядра относятся следующие:

Помимо указанных абстрактных классов, вводится два типичных не-абстрактных базовых класса, удобных для использования в большинстве информационных систем - это "ИСИР-ресурс" и "структура".

Базовая схема метаданных ИСИР РАН

При описании RDFS-схемы прикладных классов для ИСИР РАН был сформирован набор прикладных классов и свойств, характерных для многих информационных систем. Примеры включают базовую информацию о документах, организациях, людях и их деятельности.

Все типы информационных объектов в базовой схеме ИСИР делятся на "ресурсы" (kernel:Resource), такие как организации и подразделения, персоналии, проекты, публикации, и "структуры" - зависимые объекты, представляющие собой часть информации некоторого ресурса. Структуры используются для группировки атрибутов ресурсов в отдельные объекты, они связываются с ресурсами свойствами типа schema:Attribute. Отдельный тип информационных объектов - это "термы", объединяющиеся в "таксономии" - централизованные словари, классификаторы, тезаурусы ИСИР.

В базовой схеме вводится механизм для выражения многоязычной информации - такая информация выражается в виде отдельных "локализованных" объектов, содержащих текстовую информацию на конкретном языке. Так, имя персоны isir:personName представляет собой отношение один ко многим между isir:Person и локализованными объектами isir:PersonName, каждый из которых имеет свойство dc:language, отражающее язык локализованных данных, и значения isir:first (имя), isir:middle (отчество) и isir:last (фамилию) на этом языке. isir:PersonName является подклассом специального класса isir:Localized, обладающего свойством dc:language. Локализация данных широко используется более высокоуровневыми компонентами архитектуры ИСИР. Например, web-страницы отчётов и просмотра данных в случае отсутствия информации на требуемом пользователе языке могут выдавать ему информацию на другом языке согласно приоритетам языков, указанным в настройках браузера клиента. Если язык dc:language не указан, значение считается интернациональным (например, телефон, картинка). Например, если телефон содержит только цифры, это - интернациональное значение. Если же помимо цифр указан комментарий, например "рабочий", "домашний", то язык должен быть указан.

Класс isir:File базовой схемы предназначен для отражения длинной текстовой или бинарной информации. Конкретный способ хранения этой информации зависит от конфигурации системы и указанного "режима". Файл может представлять собой как web-ссылку (URL), по которой может быть получено его содержимое, так и CLOB или BLOB в реляционной БД (когда хранилищем является RDBMS), либо файл локальной файловой системы. С файлом может быть связана различная метаинформация, такая как размер, MIME-тип и пр. Описанная функциональность класса File обеспечивается за счёт скрытой в нём application-логики. "Файловая" информация широко используется в конкретных прикладных системах (документы). Компоненты Web-архитектуры в ИСИР обеспечивают загрузку файлов на сервер, организацию работы с zip-архивами, например, для хранения html-документа с картинками.

Ниже на рисунках показаны фрагменты иерархии классов и свойств ИСИР РАН, визуализированные редактором онтологий Protйgй (http://protege.stanford.edu/).

Полное описание RDF-схемы ИСИР представлено в соответствующей проектной документации.

Литература

  1. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А., Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. // Программирование V 26, N 4, 2000, pp. 177-185.
  2. Бездушный А.А., Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., Java и XML технологии новой версии системы ИСИР. // 2003, статья в данном сборнике
  3. Semantic Web Activity. // http://www.w3.org/2001/sw
  4. RDF Primer. W3C Working Draft. // http://www.w3.org/TR/rdf-primer
  5. RDF/XML Syntax Specification (Revised). W3C Working Draft. // http://www.w3.org/TR/rdf-syntax-grammar/
  6. Resource Description Framework (RDF) Schema Specification // http://www.w3.org/TR/2000/CR-rdf-schema-20000327
  7. Tim Berners-Lee. What the Semantic Web can represent., 1998 // http://www.w3.org/DesignIssues/RDFnot.html
  8. OWL Web Ontology Language 1.0 Reference. W3C Working Draft. // http://www.w3.org/TR/owl-ref/
  9. DAML Language.http://www.darpa.mil/ixo/
  10. // http://www.daml.org/about.html
  11. DAML+OIL (March 2001) Reference Description. // http://www.daml.org/2001/03/daml+oil-index.html
  12. Ontology Inference Layer. // http://www.ontoknowledge.com/oil
  13. Dublin Core Activity. // http://dublincore.org
  14. Dave Beckett, Jan Grant. Semantic Web Scalability and Storage: Mapping Semantic Web Data with RDBMSes. // http://www.w3.org/2001/sw/Europe/reports/scalable_rdbms_mapping_report
  15. The Karlsruhe Ontology and Semantic Web Tool Suite (KAON). // http://kaon.semanticWeb.org/
  16. RDFSutie Project. // http://139.91.183.30:9090/RDF/
  17. Object Management Group. // http://www.omg.org
  18. Object Database Management Group. // http://www.odmg.org
  19. Knowledge Interchange Format, Genesereth M. // draft proposed American National Standard NCITS.T2/98-004. http://logic.stanford.edu/kif/dpans.html
  20. OMG UML Resource Page. // http://www.omg.org/uml/
!20

СЛУЖБА УПРАВЛЕНИЯ СОДЕРЖАНИЕМ
СИСТЕМЫ ИСИР, ОСНОВАННАЯ НА XML
ТЕХНОЛОГИЯХ
.

Т.М. Сысоев (ВЦ РАН), А.А. Бездушный (МФТИ), А.Н. Бездушный (ВЦ РАН), А.К. Нестеренко (ВЦ РАН)

Введение

Важная часть любой информационной Web-системы будь то сайт или портал - это представление информации, данных - содержания системы. В начале содержание составляли HTML документы, размещенные в файловой структуре. Управлять такими статическими сайтами могли не очень квалифицированные, но все-таки программисты. По ряду причин такие решения не могут удовлетворить потребности как владельцев сайтов, так и их пользователей, поскольку трудоемкость и стоимость сопровождения велики, невозможно обеспечить поддержку многих насущных требований - персонификации взаимодействия с пользователями, поддержку коллективной работы, процессов подготовки информации и т.п. Другое решение заключается в создании динамических сайтов, генерирующих HTML документы по запросам пользователей с помощью соответствующих программ на основе данных, хранящихся в базах данных. Такое решение требует квалифицированных программистов, следовательно, является существенно более сложным и дорогим в процессе реализации сайта.

В последнее время все больше внимание уделяется третьему решению, занимающему промежуточное положение, представляющему собой реализацию первого решения средствами второго - "динамическое" управление "статическими" данными. Это так называемые системы управления содержанием/контентом (Content Management System), представляющие собой динамические сайты или часть оных, в которых на структуры данных и функциональность накладываются определенные ограничения. Основными функциями этих систем являются разработка, управление и каталогизация (классификация) содержания, его визуализация. Этот подход позволяет получить некоторую "тиражируемую" Web-систему, допускающую ту или иную степень свободы в изменении стандартных для нее структур данных и функциональности. Такие Web-системы позволяют существенно снизить трудоемкость сопровождения и создания ("установки" Web-системы). Часто создание Web-системы заключается в "аренде" (хостинге) системы управления содержанием у её владельца, который возлагает на себя ответственность за сопровождение системы, а клиент остается только сопровождает свои данные.

В результате в Web-системах стали выделять "фасадную" (front-end) и "тыловую" (back-end) части, отвечающие соответственно за "статические" и "динамические" данные. К первой категории относят слабоструктурированную информацию, отличающуюся нерегулярностью взаимосвязей, достаточно редко модифицируемую, такую как информационно-публицистические материалы сайта, пресс-релизы, новости. Ко второй категории причисляют структурированные данные баз данных или xml-хранилищ с регламентированными взаимосвязями, например, это может быть информация о товарах, организациях, проектах, реферируемых публикациях и т.п. Граница между этими категориями достаточно размыта. Любая информация может оказаться как в первой, так и во второй категории. Все определяется качественными характеристиками информации, требованиями предметной области прикладной системы, портала.

На сегодня большинство систем, причисляющих себя к системам управления содержанием, основной своей задачей считают каталогизацию данных первой категории, причем каждая из них исповедует свои принципы формирования каталога. Они могут предоставлять широкую гамму возможностей, позволяющих эффективно взаимодействовать с данными как пользователям, так и разработчикам, управляющим содержанием сайта.

Часто системы управления содержанием сопровождаются функциональными модулями, обеспечивающими, например, комментирование, анкетирование, голосование, ведение дискуссий и обсуждений, то есть обеспечивающими возможность привязки к разделам и документам данных, отражающих отношение пользователей к информации сайтов. Важным для CM-систем является наличие поддержки неких редакционных процессов с разделением ролей авторов и редакторов, чтобы информация прежде чем быть опубликованной проходила необходимые стадии обработки, выполняемые разными людьми.

Анализируя рынок систем управления контентом, можно сделать следующие выводы. В основном CM-системы обеспечивает только иерархическую каталогизацию данных одного типа - разделы/документы. Как исключение из этого правила можно упомянуть технологию Communiware (www.communiware.ru), обеспечивающую каталогизацию разнотипных связанных объектов, в этом похожую на технологию ИСИР. Средства управления потоками работ по созданию и управлению содержанием сайта в CM-системах либо отсутствуют вообще, либо имеются некоторые фиксированные варианты редакционных процессов. Редко имеются средства атрибутного или полнотекстового индексирования массивов локальных данных. CMS несовместимы друг с другом, не поддерживают необходимый уровень экспорта/импорта данных, обмена и интеграции данных и служб. Большинство разработчиков CMS ведут закрытую информационную политику в отношении собственных разработок, что осложняет возможность поддержки интероперабельности систем. Отметим, что в данной работе мы не представляем всесторонние анализ и обзор имеющихся CM-систем, мы обращаем ваше внимание на основные характеристики текущего этапа развития CM-систем, тенденции следующих этапов.

На текущий момент имеются предпосылки для перехода от CM-систем только с простой каталогизацией неструктурированной информации к CM-системам, уделяющим существенное внимание структурированию данных, обеспечению синтаксической и семантической интероперабельности распределенных источников информации. Задачи реализации средств управления распределенной в Web информацией последнее время привлекают пристальное внимание разработчиков информационных технологий. Повышенный интерес к этой проблеме вызван как сложностью работы с распределенной слабоструктурированной информацией, находящейся в ведении гетерогенных систем, так и интенсивным развитием новых Web-технологий в первую очередь XML-технологий.

Данная работа представляет попытку сделать несколько шагов в этом направлении. В работе представлены технологии визуального представления данных, удаленного управления ими, атрибутно-полнотекстового индексирования массивов локальных данных разных форматов. Рассмотрены механизмы поддержки распределенного поиска и репликации данных - технического фундамента синтаксической и семантической интероперабельности источников информации. Проанализирована целесообразность использования ряда существующих открытых стандартов и технологий. Предложены некоторые дополнения к ним, учитывающие последние достижения Web-технологий, такие как Web-сервисы и протокол SOAP. Предложенное решение нашло применение в реализации системы ИСИР РАН.

Постановка задачи.

В рамках технологии ИСИР существует потребность в реализации набора служб, обеспечивающих высокоуровневую обработку хранящихся в нём информационных материалов. На эти службы возлагаются следующие задачи:

  1. Поддержка визуального представления данных. Решение должно обеспечивать разделение дизайна и содержания.
  2. Предоставление заданному кругу лиц возможности управления материалами портала. Портал должен обладать совокупностью средств, позволяющих контролируемым образом модифицировать и добавлять данные портала через Web-интерфейсы.
  3. Пользователям портала должна предоставляться возможность поиска информации. При этом необходимо поддерживать различные виды поиска: полнотекстовый, атрибутный. Результаты поиска должны сортироваться по релевантности к запросу.
  4. Поддержка распределённости данных. Это требование порождает качественно новые задачи, связанные с поддержкой взаимосвязи данных и взаимодействием сервисов нескольких серверов, для решения которых, в частности, используется обмен данными и поисковыми индексами по заданной схеме. Обмен данными важен и с позиции распределения нагрузки и ускорения доступа к информации. Обмен поисковыми индексами позволяет организовать маршрутизацию поисковых запросов, повысить эффективность распределённого поиска.

Мы стремимся видеть в CM-системе разностороннюю поддержку информационного содержания порталов и сайтов. CM-система должна включать службы управления как неструктурированной, так структурированной информацией, средства сопряжения слабоструктурированных и структурированных данных, в частности, включения вторых в первые, механизмы атрибутно-полнотекстового индексирования данных обоих видов, поддержки синтаксической и семантической интероперабельности распределенных источников информации. В реализации службы использованы Java-технологии ряда открытых стандартов, технологий и решений.

Схема зависимости сервисов.

На схеме показаны сервисы, участвующие в обслуживании данных порталов на базе технологий ИСИР, стрелками обозначены зависимости между ними. Например, для обмена индексами используется протокол SOAP, который еще участвует в реализации распределенного поиска. Серым цветом помечены вспомогательные сервисы, представляемые другими работами. В данной работе они практически не рассматриваются.

Управление слабоструктурированным содержанием сайта.

С точки зрения посетителя сайт представляется в виде набора страниц, связанных между собой ссылками. Изначально сайты представляли собой коллекцию HTML документов, размещённую в файловой системе. Обычно страницы одного сайта имеют похожую структуру и общий дизайн. Это приводит к появлению блоков HTML-кода, повторяющегося в каждой странице. В итоге, при хранении сайта как коллекции HTML документов появляется большая избыточность информации.

Следующим недостатком первых реализаций сайтов является ограниченность их взаимодействия с пользователями. Не могут быть поддержаны такие возможности как персонификация предоставления и представления информации - подбор материалов, новостей, на основе выбранных зарегистрированным посетителем тем, общение между пользователями, в общем, всё что так или иначе связано с необходимостью динамического формирования страниц.

Ещё одной трудностью является неудобная организация процесса модификации имеющихся данных. Все изменения осуществляются одним профессиональным лицом (или ограниченной группой лиц). В случае с часто обновляющимся сайтом, таким как представительство СМИ, это неприемлемо - у организации может быть штат авторов, но все новости проходят через одного человека, что может привести к задержкам.

Для преодоления этих трудностей в последнее время создаётся специальное программное обеспечение, способное автоматически генерировать HTML страницы и предоставляющее удобные средства редактирования данных сайта. Такого рода программные средства, называемые службами управления содержанием (CMS), могут быть как универсальными, при наличии некоторых ограничений, заложенных в их архитектуре, так и создаваться для нужд конкретного сайта. В последнем случае они пригодны только для поддержки этого сайта.

Особенности универсальных CMS.

В настоящий момент существует большое количество (уже порядка двух сотен) таких систем, сильно отличающихся по своим характеристикам. Имеется несколько систем, созданных крупными компаниями - Microsoft CMS, IBM WebSphere Portal, BEA WebLogic Portal, Oracle Portal. В целом в данной области пока не сложилось какого-нибудь общепризнанного стандарта, более того четко не определены функциональные требования к таким программные средствам. Однако можно выделить следующие требования, предъявляемые к таким продуктам:

Различия в архитектуре.

Важным является анализ различий между этими системами, поскольку он позволяют оценить несколько альтернативных подходов к решению части задач.

Метод разделения данных и оформления.

Как уже упоминалось, в настоящее время существуют два основных подхода к генерации страниц: механизм шаблонов и XSLT преобразования. Спецификация на XSLT появилась во второй половине 1999 года. Подход с применением шаблонов исторически возник намного раньше, используется многими системах.

К достоинствам метода шаблонов можно отнести простоту его реализации. В результате возникло множество несовместимых между собой форматов. Если шаблон должен являться чем-то большим, чем HTML страница с автоматически заполняемыми полями, то это приводит к необходимости введения разнообразных управляющих конструкций, обеспечения вставки кода на каком-то языке программирования

Разделение дизайна и данных привело к разделению лиц, работающих над сайтом, на редакторов информации и оформителей. Последние вынуждены работать с языком шаблонов, предоставляемым системой. Применение новой системы приводит к необходимости изучения нового (хотя нередко и похожего) языка. Возникают проблемы при применении шаблонов, разработанных для предыдущих систем. Использование XSLT устраняет часть этих недостатков, но вносит свои.

XML-язык XSLT (аббревиатура для XSL Transoformations, где XSL - Extensible Style Language) позволяет задать правила, по которым из одних XML документов формируются другие документы, чаще всего представляемые в форматах XHTML и XML. Один и тот же шаблон может применяться для генерации различных страниц. XSLT позволяет выполнять достаточно сложные манипуляции с исходными данными, благодаря чему можно осуществлять практически любые осмысленные преобразования. Пожалуй, единственным недостатком является только более низкая производительность, чем генерация страниц на основе шаблонов. Отчасти это компенсируется тем, что современные браузеры способны осуществлять XSLT-преобразования на стороне клиента. Во многих случаях удается обеспечить вполне эффективную "потоковую" обработку данных, когда XML данные представляются как поток SAX-событий.

Права доступа и организация процесса редактирования.

Для разграничения прав доступа и назначения ролевого участия пользователей в управлении данными применяются различные технологии, часть которых описана в этом разделе.

Одна их простых и наиболее широко распространенных - технология на основе так называемых списков управления доступом (Access Control List, ACL). В этом случае с каждым объектом ассоциируется таблица прав, определяющая, какие операции с конкретным объектом может производить пользователь или группа пользователей. Такой подход достаточно эффективен, если объекты образуют иерархию - в этом случае права могут наследоваться, нет необходимости определять их для каждого объекта. Однако это не позволяет поддержать практику, принятую, например, при публикации печатных изданий - когда желательно назначать пользователям роли, например, автор, редактор, а не определять их отношение каждому ресурсу. Автор может только создавать материалы, редактор - проверять созданный автором материал, выставить его в публичный доступ.

Наиболее полно такие возможности описывается концепцией "потоков работ" (workflow). В рамках этой концепции можно накладывать дополнительные ограничения и условия, в частности, временные рамки, можно более точно описывать сложные сценарии подготовки информации. Существуют стандарты для описания таких процессов, среди которых следует отметить XPDL (- XML Process Definition Language [17,18].

Центральным понятием концепции "потоков работ" является процесс, состоящий из множества "видов деятельности" (activity), связанных "переходами" (transitions) от одного вида деятельности к другому. С каждым видом деятельности связываются участники деятельности (персоны или приложения), критерии, определяющие обстоятельства её начала и завершения. Каждому переходу сопоставляются условия, при наступлении которых может быть осуществлен переход от одного вида деятельности к другому. Если процессу сопоставить ориентированный граф, то виды деятельности будут соответствовать его вершинам, а переходы - дугам. Вид деятельности может иметь несколько входящих и исходящих переходов, часть их которых может срабатывать одновременно, т.е. возможно распараллеливание и слияние процессов. Переходы могут составлять циклы, которые соответствуют повторяющимся видам деятельности.

Служба управления слабоструктурированной информацией.

Требования к реализации.

От службы управления слабоструктурированными материалами в основном требуется предоставить визуальные интерфейсы управления структурой и данными разделов и подразделов содержания. Соответствующая схема данных описана в следующем разделе. Для визуализации данных применяется технология XSLТ, что нашло своё отражение в модели. Служба должна поддерживать управление доступом на базе заданных прав доступа к объекту. Для организации наполнения и редактирования материала должна применяться служба управления рабочими процессами (workflow). Кроме этого, необходима поддержка обратной связи с пользователями - поддержка комментирования, анкетирования, голосования, ведения дискуссий и обсуждений.

Схема данных.

Хранилище объектных данных предметной области является основным сервисом нижнего уровня. При проектировании учитывались требования поддержки произвольной иерархической структуры разделов и материалов, многоязычности информации. Основные сущности схемы данных и их взаимоотношения приведены на схеме.

Раздел - основной структурный элемент каталога слабоструктурированных материалами. У каждого раздела может быть несколько подразделов. На самом верхнем уровне расположен "корневой" раздел. Раздел непосредственно не содержит каких-либо данных. Всё множество разделов соответствует иерархии материалов сайта.

Вариант. Понятие варианта возникает из-за необходимости поддержки многоязычной информации. Вариант раздела представляет информацию, соответствующую одному из допустимых языков.

Дополнение представляет собой дополнительные данные, ассоциированные с вариантом раздела. Различается три типа дополнений - произвольные данные, хранящиеся в виде файлов на сервере, URL-ссылки и XSP-запрос на включение структурированных данных ("динамических").

Поле непосредственно хранит данные раздела. Существуют два типа полей - один из них предназначен для хранения произвольной строчки без элементов форматирования, второй - фрагмент в формате HTML или XHTML.

В процессе разработки рассматривалось два метода хранения данных - в СУБД, основываясь на стандартном для портала ИСИР способе отображения объектов в базу, и в файловой системе в виде набора XML файлов. В результате анализа было принять решение поддержать оба метода с возможностью выбора между ними для конкретной установки системы. Метод хранения был инкапсулирован в API, предоставляемом сервисом модели. В дальнейшем это позволяет, при необходимости, добавлять другие варианты хранения без необходимости изменять существующий код.

Поддержка многоязыковых данных.

Потенциально модель поддерживает произвольное количество языков для каждого из разделов, причём эти множества могут меняться произвольным образом при переходах от раздела к разделу. На практике устанавливаются некоторые ограничения с тем, чтобы для каждого из языков иерархия допустимых разделов была связной и представляла собой дерево.

Выделяются два множества языков: языки данных и языки интерфейса. Первое множество определяет, на каких языках может быть представлена информация разделов, - определяет допустимые варианты разделов. Второе множество содержит допустимые языки интерфейса пользователя. Язык интерфейса указывает, какой вариант раздела, какое оформление должны использоваться при соответствующей этому языку визуализации. Второе множество является подмножеством первого.

Пример иерархии изображен на рисунке, где показаны разрешенные для визуализации варианты разделов. Набор имеющихся вариантов разделов может быть любым, например, раздел B может иметь и вариант на французском языке. Соответственно "карта сайта" будет различной для разных языков интерфейса. В этом примере в карте сайта на русском языке будут присутствовать все три раздела и по два раздела на английском и французском языках.

Если раздел не обладает разрешенным для визуализации вариантом, то при выводе информации раздела для такого языка в соответствии с некоторым алгоритмом выбирается наиболее подходящий из имеющихся вариантов.

Система прав доступа.

Для версии службы, не интегрированной сервисом потоков работ, требуется какой-либо способ для разграничения прав доступа. В нашем случае имеет смысл использовать ACL, поскольку, как уже упоминалось, он достаточно эффективен в том случае, когда данные образуют иерархию. Системой поддерживаются понятия "пользователя", "анонимного пользователя" и "группы пользователей", им сопоставляются права доступа. Каждый раздел либо наследует права родительского раздела, либо имеет собственный набор прав. По умолчанию права доступа наследуются от раздела к подразделам.

Определены три допустимые операции: "запись", "просмотр в системе управления" и "просмотр на сайте". Пользователи, по отношению к заданному разделу обладающие правами на запись, могут осуществлять с ней все доступные операции, в том числе и удаление. При отсутствии права на "просмотр в системе управления" раздел будет недоступен пользователю. Введение этой операции вызвано желанием, разрешить просмотр раздела через интерфейс редактирования без права его модификации. "Просмотр на сайте" контролирует доступ пользователей к разделам сайта. Как правило, анонимному пользователю предоставляется такое право по отношению к корневом разделу. В сайте могут существовать внутренние разделы, на которые это право не распространяется. Эти разделы могут просматривать только зарегистрированные, авторизованные пользователи.

Визуальное представление данных.

Визуальное представление данных является одним из наиболее важных сервисов верхнего уровня, основная задача которого - предоставить произвольному пользователю доступ к материалам портала по протоколу HTTP.

Выбор технологии.

Рассматривалось несколько вариантов реализации механизмов визуализации материалов в рамках используемых технологий. Решение должно было обладать максимальной гибкостью, требовались поддержка:

В основном выбор делался между уже используемыми в ИСИР вариантами:

Оба варианта удовлетворяли предъявленным требованиям, но выбор пал на Apache Cocoon. Это было обусловлено тем, что Apache Cocoon приспособлен под такие задачи, как обработка и публикация XML данных, предоставляет возможность более простой и изящной реализации. Тогда как JetSpeed является более низкоуровневым проектом и в основном предназначен для разработки сайтов, использующих технологию портлетов. На портлеты ограничений практически не накладывается, соответственно нет собственных высокоуровневых средств, организующих работу с XML данными, но в принципе при соответствующих доработках допустимо использование Apache Cocoon в качестве такого средства.

Атрибутно-полнотекстовый поиск.

Для посетителей сайта поиск является наиболее удобным средством обнаружения необходимой информации. Несмотря на эффективность современных поисковых машин, у них есть несколько существенных ограничений. Они индексируют только открытую для внешнего мира часть сайта. Часто плохо индексируют динамические страницы. Не всегда возможно организовать поиск только по пространству сайта. Если даже это удалось осуществить, то актуальность индекса сайта, как правило, запаздывает на несколько дней. Предоставляется только полнотекстовый поиск.

Для полнотекстового индексирования хорошо разработаны методы формирования индексов (инвертированные списки), даже имеются бесплатные реализации. Однако, они плохо подходят для индексирования структурированных данных, например, XML-данных и данных БД. По мере роста динамичности сайтов, увеличения доли структурированных данных возникает потребность в иных решения, способных обеспечить индексирование локальных данных и полнотекстовых и структурированных. Одно из решений - использовать с этой целью возможности реляционных СУБД. Такой подход был использован в рассматриваемой системе.

Основные понятия.

Ресурс - полнотекстовые или структурированные текстовые данные, для которых строится поисковый индекс. Примеры ресурсов: тестовый или HTML файл, XML или RDF документ, данные БД, извлекаемые некоторой фиксированной совокупностью связанных запросов.

Атрибут - контекст вхождения слов в текст ресурса. Атрибуты используются для уточнения условий поиска и ранжирования. Пример атрибута - "заголовок документа", "имя персоны".

Терм - вхождение цепочки символов алфавита, ограниченной разделителями, в текст ресурса.

Индекс - информация о ресурсе, обеспечивающая выполнение поисковых запросов.

Группа индексов - набор индексов, объединённый по определенному признаку. Наиболее важный из таких признаков - наличие/состав атрибутов.

Схема базы данных.

На данной ER-диаграмме представлены таблицы, используемые для хранения индекса и сопутствующей информации. Сервис индексирования позволяет создавать несколько групп индексов, при этом для каждой группы форми-руется свой набор таблиц. Таблицы термов, нормальных форм и суффиксов являются общими для всех групп индексов. Схема достаточно проста, за исключением частей, поддерживающих процессы нормализации слов и ранжирования ресурсов.

В поле positions таблицы индекса заносятся информация о всех вхождениях терма в текст конкретного ресурса. С этой целью формируется цепочка позиций вхождений терма. Цепочка подвергается простому сжатию.

Индексирование.

Система умеет индексировать простые тексты, тексты с разметкой (HTML, XML) и данные в RDF формате, в частности, данные из БД, выдаваемые RDF-сериализатором. Процессы, происходящие при индексировании, изображены на следующей диаграмме. Все процессы (разбор, выделение термов, создание индекса, его временная запись в буфер, сохранение индекса) выполняются параллельно. При этом одни поставляет данные для других. Зависимости по данным изображены на диаграмме стрелками.

База данных задействована при формировании индекса и при его сохранении. В первом случае она используется для идентификации термов по словарю. Словарь пополняется новыми словами, когда обнаруживается, что какой-то терм отсутствует в словаре. Поскольку процесс сохранения индекса в БД медленнее процесса его формирования, процессы были разделены, и было обеспечено их параллельное функционирование с синхронизацией через файловый буфер.

Нормализация термов.

Нормализация слов используется для поддержки поиска, учитывающего словоформы слов. Нормализация может быть применена как в процессе индексирования, так и только при обработке слов запроса - пополнение запроса словоформами слов, заданных в запросе. Для этого в системе реализован механизм, приводящий русские и английские слова языка к нормальной форме (именительный падеж, единственное число). Механизм основан на алгоритме iSpell и его открытых словарях.

Процесс нормализации выполняется независимо от процесса индексирования. Это сделано для того, чтобы индексирование производилось с максимально возможной скоростью, иначе нормализация замедляет процесс индексирования примерно в два раза.

Распределенный поиск.

Одним из наиболее важных требований, предъявляемых к решению, является его масштабируемость. То есть, должна существовать возможность построения сети серверов, в том числе географически удалённых. Основные задачи, которые при этом появляются - это поддержка поиска по всем имеющимся в сети данным, и реплицирование (создание и обновление копий) ресурсов. Если между серверами существует хорошая связь, то выгодно осуществлять поиск путём параллельного выполнения запроса на каждом из них и последующей агрегации полученных данных. На основании некоторой метаинформации о сервере можно предварительно принять решение о целесообразности направления к нему поискового запроса. Возможен так же вариант полного реплицирования индексов, когда формирование результата поискового запроса осуществляется без обращений к удалённому серверу.

Особенности распределённого поиска.

Централизованный поиск обладает следующими недостатками:

Существуют три основных подхода к распределению поиска: "P2P" - сеть состоит из индивидуальных компьютеров (не серверов), отсутствует формальный процесс публикации ресурсов. Второй подход - метапоиск. Организуется единый интерфейс для поиска, который опрашивает несколько поисковых машин. Последний подход заключается в использовании стандартов распределённого поиска. При этом определяется транспортный протокол, формат запросов, метод определения релевантности. Однако стандарты могут и ограничивать добавление какой-либо своей функциональности.

В случае с ИСИР используется смесь второго и третьего подхода (ближе к третьему). У каждого сервера есть своя поисковая машина, понимающая запросы, поступающие по протоколу SDLIP (Simple Digital Interoperability Protocol). В силу однородности машин, это позволяет избежать всех недостатков второго метода.

SDLIP.

Поддержка протокола SDLIP позволяет обеспечить распределенный поиск по нескольким серверам. Она ещё хороша и тем, что с помощью SDLIP удобно осуществлять и внутренний поиск. Это позволяет использовать единственный программный интерфейс к системе поиска. Протокол SDLIP отличают такие важные моменты, как:

Операции SDLIP распределены по трём интерфейсам. Это сделано по нескольким причинам: чёткое разделение ролей операций, возможность дальнейших расширений, и возможность не поддерживать ненужные для определённого сервера интерфейсы. Определены интерфейсы поиска, доступа к результатам, доступа к метаданным.

Для объединения результатов поиска, полученных с нескольких серверов, прежде всего, необходимо отбрасывать копии материалов (полученные путём репликации данных). Что делается на основе их глобальных идентификаторов. Есть несколько методов их получения, например, в случае с обычными материалами сайта идентификаторы генерируются автоматически. Это не гарантирует их уникальность, хотя вероятность их совпадения очень мала. Другим вариантом является использование специального сервера, который хранит и генерирует глобально уникальные идентификаторы, например, разработанный CRNI - "Handle System". Помимо гарантирования уникальности, такой метод позволяет хранить (и обновлять) дополнительную информацию о ресурсе.

Кроме удаления повторных результатов, необходимо обеспечить совместное ранжирование результатов. Для этого используется единая методика для вычисления ранга ресурсов.

Обмен данными.

Совместный распределённый поиск эффективен при хорошей связи между серверами, иначе он будет выполняться недопустимо медленно. Для ускорения процесса в случае однородной системы используется обмен индексами. В более общей постановке, есть необходимость обмена часто используемыми данными - индексами, ресурсами. В качестве формата обмена естественно использовать RDF/XML. Для протокола подобного обмена есть стандартные рекомендации - в первую это Common Indexing Protocol (CIP). Изначально CIP был создан для передачи индексной информации между серверами для поддержки распределения запросов, то есть процесса репликации и перенаправления запросов к серверу, хранящему результаты, в распределённой базе данных. Однако заложенные в нём идеи оказались полезны и для обмена произвольными данными.

CIP определяет такие элементы, как:

Протокол CIP описывает два достаточно общих метода взаимодействия серверов. Первый метод - "push" - является достаточно простым. Согласно ему, сервер, содержащий данные, просто время от времени передаёт их другому серверу. Второй метод - "poll" - предполагает более сложное взаимодействие серверов с возможностью использования уведомлений.

Для каждого из упомянутых выше сервисов, связанных с распределением данных, рекомендован свой транспортный протокол. Для SDLIP - это DASL или CORBA, протокол для CIP основан на telnet. В случае с ИСИР мы решили для всех сервисов использовать один транспортный механизм - протокол SOAP. Это имеет несколько преимуществ, прежде всего упрощение сетевых настроек и повышение однородности системы. SDLIP достаточно просто переносится на SOAP, при этом клиенты должны будут получить лишь новый транспортный модуль. Такой транспортный модуль для SDLIP имеет и самостоятельную ценность. Что касается CIP, то, к сожалению, это приводит к несовместимости нашей реализации с уже существующими.

Литература

  1. Агошков С. В., Бездушный А. Н., Галочкин М. П., Кулагин М. В., Меденников А. М., Серебряков В. А., Интегрированная Система Информационных Ресурсов (ИСИР) РАН - подход к созданию интегрированных цифровых библиотек // Международная научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург.
  2. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А., Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. // Программирование V 26, N 4, 2000, pp. 177-185.
  3. Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В. А., RDF схема метаданных ИСИР. Роль технологий Semantic Web в архитектуре ИСИР. // 2003, статья в данном сборнике
  4. Бездушный А.А., Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., Java и XML технологии новой версии системы ИСИР. // 2003, статья в данном сборнике
  5. Нестеренко А.К, Бездушный А.А., Сысоев Т.М., Бездушный А.Н., Возможности службы управления потоками работ по манипулированию ресурсами репозитория ИСИР. // 2003, статья в данном сборнике
  6. Стратегия выбора системы управления сайтом: сравнение систем по формальным параметрам. // http://business-site.ru/project/wsms/result.htm.
  7. 1999 Erich Gamma, Richard Helm, Ralph Johnson, John M. Vlissides. Design Patterns: Elements of Reusable Object-Oriented Software.
  8. Hiroshi Maruyama, Kent Tamura, Naohiko Uramoto. XML and Java: Developing Web Applications.
  9. R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach, T. Berners-Lee. Hypertext Transfer Protocol-HTTP/1.1.
  10. Y. Goland, E. Whitehead, A. Faizi, S. Carter, D. Jensen. HTTP Extensions for Distributed Authoring-WEBDAV.
  11. J. Allen, M. Mealling. The Architecture of the Common Indexing Protocol (CIP).
  12. J. Allen, M. Mealling. MIME Object Definitions for the Common Indexing Protocol (CIP).
  13. J. Allen, P. Leach, R. Hedberg. CIP Transport Protocols.
  14. Don Box, David Ehnebuske, Gopal Kakivaya, Andrew Layman, Noah Mendelsohn, Henrik Frystyk Nielsen, Satish Thatte, Dave Winer. Simple Object Access Protocol (SOAP) 1.1.
  15. Simple Digital Library Interoperability Protocol (www-diglib.stanford.edu/~testbed/ doc2/SDLIP).
  16. Sergey Melnik, Sriram Raghavan, Beverly Yang, Hector Garcia-Molina. Building a Distributed Full-Text Index for the Web.
  17. Workflow Management Coalition standards // http://www.wfmc.org/standards/standards.htm
  18. Workflow Process Definition Interface-XML Process Definition Language // http://www.wfmc.org/standards/TC-1025_10_xpdl_102502.pdf
  19. Материалы web конференций (groups.google.com).
!21

JAVA И XML ТЕХНОЛОГИИ
НОВОЙ ВЕРСИИ ИСИР.

А.А. Бездушный (МФТИ), А.Н. Бездушный (ВЦ РАН), А.К. Нестеренко (ВЦ РАН), В.А. Серебряков (ВЦ РАН), Т.М. Сысоев (ВЦ РАН)

Абстрактная архитектура

Новая версия ИСИР ориентируется на реализацию ключевых средств корпоративных порталов. Корпоративный портал выступает в роли посредника, направляющего обращения пользователей к совокупности сервисов, релевантных данной тематический области, используя открытые прикладные протоколы, такие как HTTP, SOAP, Z39. 50, SDLIP, SDARTS, LDAP и д.р. Среди основных задач портала обеспечение операций обнаружения ресурса, локализации его местоположения, запроса и доставки ресурса.

Реализация исходит из общей многоуровневой архитектуры [MIA]. Цель выделения уровней, которые в свою очередь содержат компоненты и модули, состоит в том, чтобы обеспечить локальное упрощение при поддержке сложных функциональных возможностей. Каждый уровень имеет собственные цели и абстракции, взаимодействие между уровнями ограничено. Модульная организация обеспечивает возможности простого расширения функциональных возможностей системы, простую интеграцию новых высокоуровневых сервисов с существующими. Общая архитектура определяет согласованные интерфейсы между уровнями, интерфейсы для поддерживаемой совокупности протоколов, используемых как клиентами системы (например, HTTP, SOAP, Z39.50, LDAP), так и провайдерами данных и услуг (например, HTTP, OAIP, SOAP, Z39.50, SDLIP, LDAP, SDARTS, FTP), интерфейсы для базового множества операций таких, как поиск, локализация, запрос, доставка. Общая архитектура выделяет следующие уровни. (Рис. 1)

 

Рис. 1.

Уровень представления. Этот уровень отвечает за представление информации пользователям и обеспечение пользовательского ввода. Он должен поддерживать как web-интерфейсы, так и не web-интерфейсы. Должен уметь генерировать представление на HTML, XML языках, и другие представления, если такие потребуются специальным приложениям. Информация, вводимая пользователем, передается вниз на прикладной уровень, что может осуществляться посредством создания программных объектов для передачи их через согласованные API/интерфейсы или с помощью кодирования данных в специфическом транспортном формате (сериализации), например XML.

Прикладной уровень. Прикладной уровень обеспечивает реализацию прикладных операций, необходимых пользователям или программным агентам в рамках системы. Он отвечает за поддержку логики приложений системы. Прикладные операции - это высокоуровневые сервисы, реализуемые на основе низкоуровневых функций связующего программного обеспечения (промежуточного уровня). Прикладной уровень может поставлять на уровень представления и собственные сервисы, не зависящие от нижних уровней, например, сервис персонификации. Уровень отвечает за поддержку пользовательских профилей, за ведение сессий пользователей. Может приспосабливать информационное окружение под определенные сообщества пользователей. Например, может предоставлять предварительно сформированные поисковые запросы, средства типа закладок или рекомендаций. В его задачу входит адаптация запросов и их результатов к текущей ситуации, определяемой событиями сессии и профилем пользователя. Например, при поступлении поискового запроса в него могут включаться ограничения, определенные в профиле и обуславливаемые известными рубрикаторами. Аналогичное согласование данных может происходить при возврате результатов, например, из результата могут удаляться ресурсы, предоставленные пользователю ранее в ходе текущего сеанса.

Связующий уровень. Этот уровень (уровень промежуточного связующего программного обеспечения - посредника) ответственен за понимание значения сервисов, запрашиваемых прикладным уровнем, и сервисов, предоставляемых провайдерами. Связующий уровень, получая запросы от прикладного уровня, должен определить, какие из провайдеров услуг могут удовлетворить запрос, возможно, сложная комбинация из них, например, найти описание книги и указать все библиотеки, имеющие эту книгу, или интерактивные книжные магазины, имеющие её в продаже. Связующий уровень может обеспечивать управление авторскими правами.

Коммуникационный уровень. Коммуникационный уровень обеспечивает единообразное представление провайдеров данных, использующих разные сетевые возможности. Он ответственен за коммуникации с внешними сервисами, скрывает от связующего уровня такие подробности, как коммуникационные протоколы, расположение внешних сервисов. Он может обеспечивать отображение между словарями метаданных, чтобы поддержать термины, понятные связующему уровню. В некоторых случаях сервисы провайдеров (внешних сервисов) могут "непосредственно" взаимодействовать со связующим уровнем, в таких случаях действие, выполняемое коммуникационным уровнем, тривиально. Коммуникационный уровень обеспечивает связь между связующим уровнем и провайдерами, основываясь на профиле сетевого сервиса, связанным с каждым сервисом, предоставляемым поставщиками. Профиль сетевого сервиса предоставляет информацию о расположении, протоколе, языке запросов и форматах ответов и словарях метаданных, требуемых для осмысленного доступа к внешнему сервису.

Уровень провайдеров данных и услуг. Уровень провайдеров данных и услуг включает все внешние сервисы, предоставляемые провайдерами в соответствии с профилями сетевых сервисов. Уровень включает "первичные" сервисы, на основе которых функционирует система, которые обеспечиваю доступ, например, к библиотечным каталогам, сервисам реферирования и тематическим шлюзам. Он также включает "вторичные" сервисы, используемые системой при предоставлении "первичных" сервисов. Это, например, могут быть реестры схем метаданных, сервисы аутентификации, пользовательские профили.

Ключевую роль в этой архитектуре играют репозиторный сервис и механизмы глобальной идентификации и контроля доступа. Основываясь на услугах репозиторного сервиса, сервисы следующих уровней - репликационный, индексный, поисковый, метаинформации, составляющие совместно с базовыми стек сервисов сервера, обеспечивают обмен данными и поиск в распределенной среде.

Службы поддержки репозиториев

Технологии ИСИР ориентируются на формирование единой корпоративной информационной системы из разнородных хранилищ и источников информации в распределенной среде, включая объектные и реляционные базы данных, LDAP-каталоги и пр. Каждое полнофункциональное хранилище называется репозиторием. ИСИР предоставляет многочисленные службы по поддержке репозиториев, например репликацию и обмен данными, индексирование и поиск, технологию построения web-порталов для доступа к данным.

Основой новой версии ИСИР является объектно-ориентированный подход к представлению данных. Использование такого подхода унифицирует модель хранимых данных, облегчает процесс интеграции с Semantic Web, XML-технологиями, стандартами OMG и ODMG. Использование понятия "хранимых объектов" в объектно-ориентированном языке программирования (на платформах Java, .NET) позволяет разработчикам прикладных приложений на базе ИСИР-технологий абстрагироваться от ненужных деталей и сконцентрировать своё внимание собственно на логике приложения. В результате - меньше ошибок, красивее, понятнее и короче код.

Каждый репозиторий не универсален: он не может, и не должен хранить "что угодно". Репозиторий специализируется в своей предметной области и способен хранить данные, соответствующие своей объектной схеме, которая описывает используемые классы и свойства. Ядро ИСИР обеспечивает механизм отображения объектной модели данных во внутреннюю модель данных используемого хранилища (реляционную, LDAP...). Так, в реляционной базе данных объектной схеме соответствует структура таблиц. С помощью такого механизма отображения ядро фактически превращает низлежащее хранилище в объектную базу данных и позволяет прикладному коду работать с "хранимыми объектами", изменения в которых прозрачно отображаются в хранилище. На данном этапе подобный механизм отображения поддерживается для всех распространённых реляционных СУБД, разрабатывается отображение в LDAP. Кроме того, Sun Microsystems предлагает стандартную архитектуру Java Data Objects для прозрачного хранения Java-объектов в различных базах данных и иных системах. Любая сторонняя реализация этой спецификации может быть подключена в Ядро ИСИР.

Как фундамент для описания объектных схем ИСИР использует язык RDF Schema - за простую объектную модель, удобство расширения новыми примитивами, адаптацию к Web и преимущества, приносимые при обмене RDF/XML данными. Модель данных RDFS представляет собой выражение ER и объектной модели данных в распределённой среде Web. Причиной отличия модели RDFS от традиционной объектной парадигмы является децентрализализация и глобализация информационной системы, к которой мы приходим, выходя из установленных моделью данных рамок в Web. ИСИР расширяет RDFS необходимыми примитивами, которые позволяют эффективно использовать этот язык для отражения как глобального, так и локального аспектов информационной системы. Каждый репозиторий рассматривает свою RDF-схему как замкнутое жёсткое описание собственной объектной схемы данных, которой соответствует структура "хранимых" java-классов и схема хранилища, например реляционной БД. С другой стороны, использование RDFS и технологий Semantic Web приносит существенные выгоды при интеграции различных репозиториев в единую информационную среду, взаимодействии со сторонними информационными источниками.

Приоритетное положение RDFS в ИСИР не мешает изначально описать объектную схему репозитория на ODL [ODMG], смоделировать на UML [UML], либо получить по существующей системе Java-классов. ИСИР предоставляет некоторые механизмы по отображению таких описаний друг в друга и их генерации.

Генератор Java-классов позволяет получить по ИСИР RDFS-описанию исходный код bean-подобных "хранимых классов". В эти классы вручную может быть заложена любая бизнес-логика, заменяющая или дополняющая исходное поведение. При изменении схемы (например, добавлении свойств) будет произведена инкрементная перегенерация классов - внесённые в код изменения будут сохранены. Таким образом, не ограничивая функциональных возможностей системы, RDFS позволяет автоматизировать большинство операций. Ядро и сервисы ИСИР параметризуются объектной схемой, и способны работать с любой нужной предметной областью.

Генератор реляционной БД позволяет получить по ИСИР RDFS-описанию SQL DDL-скрипт для создания таблиц, в которых будут храниться данные, и описание объектно-реляционного отображения. Процесс генерации является настраиваемым, и дизайнер может явно указать, какие примитивы реляционной БД необходимо использовать для заданных примитивов объектной схемы в том или ином случае, например, какое решение применить для поддержки наследования классов. Настройки генератора указываются в RDF-формате вместе с объектной схемой, благодаря расширяемости RDFS. В случае, когда необходимо настроить ИСИР-систему на имеющееся унаследованное хранилище, необходимо вручную описать аналогичное отображение. Например, для настройки на имеющуюся реляционную БД, необходимо с помощью графического интерфейса сопоставить таблицы и поля реляционной базы данных классам и свойствам объектной схемы. Благодаря настраиваемому отображению объектов в модель данных хранилища, ИСИР позволяет вывести унаследованные базы данных на новый уровень, открывая к ним доступ ведущим Web-технологиям и Semantic Web.

Сервисы ядра

Вся функциональность ядра обеспечивается специальными компонентами, называемые сервисами. Каждый сервис отвечает конкретным функциональным потребностям - хранение объектов, наблюдение за хранимыми объектами, аутентификация пользователей, авторизация доступа и пр. Сервисы ядра используют функциональные возможности друг друга. Реализация сервисов - заменяемая, такая организация обеспечивает модульность программной среды.

Как уже упоминалось, ИСИР-приложения, фактически, работают с объектной базой данных, надстроенной над реальным хранилищем. Доступ к такой объектной БД предоставляется репозиторным сервисом ядра (Persistence Service). Интерфейс этого сервиса является подмножеством стандартного интерфейса объектных баз данных ODMG, который позволяет извлекать нужные объекты SQL-запросами, управлять транзакциями. Приложение работает с полученными из репозиторного сервиса "управляемыми" объектами как с обычными объектами языка Java - вызывает их методы, меняет свойства - и при успешном завершении транзакции изменения отражаются в хранилище.

"Сервис глобального наблюдения" ядра предоставляет возможность регистрировать в системе "наблюдателей", получающих уведомления об изменении состояния интересующих их хранимых объектов. Эти наблюдатели могут делать необходимые проверки (например, проверки прав доступа), изменять связанную с данным объектом информацию (например, аудит) и пр. Использование "наблюдателей" позволяет придать нужным типам хранимых объектов нужную функциональность, не вкладывая её непосредственно в код класса.

Ядро предоставляет различные встроенные услуги по управлению хранимыми объектами, такие как автоматическая проверка прав доступа, аудит и пр. Для того, чтобы к хранимому классу была подключена некоторая услуга, он должен реализовывать соответствующий маркер-интерфейс. К одному классу могут быть подключены несколько услуг одновременно (например "зависимый объект" и персональные права доступа). В ИСИР RDFS подключению услуг соответствует наследование классов от предопределённых ядерных "абстрактных классов". В ядро ИСИР включены следующие типы объектов:

В дополнение к обеспечению отображения объектов в хранилище, репозиторный сервис предоставляет возможность работать с хранилищем напрямую через специальные подкомпоненты - plugins. Они позволяют выполнять операции, которые были бы неэффективными, если бы для этого использовались хранимые объекты и ODMG API. Например, бессмысленно реализовывать систему проверки прав доступа с помощью хранимых объектов и OQL-запросов, когда реальным хранилищем является реляционная БД, гораздо более подходящая для таких целей. Система безопасности ядра использует для этих целей специальный plugin. Другой пример - поддержка иерархических запросов, выбирающих, например, предков или потомков по дереву или направленному ацикличному графу (DAG). OQL не приспособлен для подобных нужд, в то время как реляционные БД позволяют эффективно выполнять подобные запросы. Система категоризации ядра использует подобный plugin для поддержания иерархических структур различных хранимых объектов (подчинение организаций, система директорий...) и оптимизации запросов.

Сервис аутентификации отвечает за вход пользователей в систему. Многие компоненты ядра, например система безопасности, аудита и пр., используют этот сервис для выяснения текущего пользователя.

Сервис авторизации (Permission Service) отвечает за проверку прав доступа к объектам типа SecureObject и управление их правами доступа. Права доступа выражаются в виде списка разрешений - Access Control List. Каждый элемент списка - это тройка <лицо, объект, привилегия>, где лицо это пользователь или группа, объект это SecureObject-объект, к которому относится разрешение, а привилегия выражает некоторую операцию, которую пользователь может производить над объектом. Вот список привелегий, используемых ядром:

Разрешения, непосредственно указанные в списке, называются прямыми разрешениями. Кроме этих разрешений существуют неявные разрешения, вычисляющиеся по следующим правилам:

Отсутствие прямого или неявного разрешения на некоторую операцию означает отсутствие данной привилегии данному пользователю над данным объектом, то есть запрет операции.

Система безопасности ядра рассчитана на среду с большим количеством защищенных объектов и пользователей. Крупные информационные объекты, потенциально нуждающиеся в персональных правах доступа, относят к SecureObject. Эти объекты могут наследовать права доступа согласно административной или другой структуре. Например, права доступа к подразделению могут быть унаследованы от организации, содержащей это подразделение. Права доступа к штатному сотруднику подразделения - определяться правами доступа к подразделению.

Крупные группирующие объекты (организации, подразделения) относят к группам, подчинению организаций сопоставляют вложенность групп. Штатные сотрудники считаются пользователями системы и привязываются к этим группам. Далее, достаточно дать одной организации (как группе) право на чтение другой, и все её сотрудники (как пользователи) получат права на чтение всех ресурсов этой организации - подразделений, штатной информации...

Использование объектов типа DependentObject позволяет облегчить процесс проверки прав доступа, если объект не нуждается в персональных правах. Так, доступ к элементам штата (должностям) организации всецело определяется доступом к организации. Бессмысленно делать должность SecureObject и явно задавать наследование прав доступа от организации для каждой должности. Вместо этого достаточно сделать должность зависимым от организации объектом. Для чтения, модификации зависимого объекта необходимо иметь право на чтение, модификацию объекта-контекста. Таким образом, должности попадают под политику безопасности для организации. Ещё более очевидный пример - имя персоны, вынесенное в отдельный объект. Всё, что нужно сделать - это указать, что имя персоны является объектом, зависимым от персоны.

Возможны и более сложные комбинации из зависимых и безопасных объектов. Объект может одновременно являться DependentObject и SecureObject, то есть иметь персональные права доступа. Тогда для его чтения, модификации, удаления необходимо не только личное разрешение для этого объекта, но и аналогичное разрешение для его объекта-контекста. Например, полный текст публикации может выставляться за отдельную плату, в то время как информация о публикации (название, авторы и пр.) - быть публично доступной.

Сервис авторизации используется системой безопасности внутри ядра, но может быть использован и прикладным кодом. Приложение может определить новые привелегии (например, право на некоторую сложную операцию по изменению объекта), неизвестные ядру, и проверять их самостоятельно (например, в теле метода, производящего эту операцию).

Ядро обеспечивает поддержку аудита изменений для всех AuditedObject-объектов - это делается с помощью специального наблюдателя, зарегистрированного в "сервисе глобального наблюдения". Сервис аудита позволяет получить эту информацию.

Высокоуровневые сервисы

Таким образом, ядро позволяет абстрагироваться от конкретного устройства хранилища и работать с хранимыми Java-объектами, соответствующими объектной схеме репозитория. Многие службы, тем не менее, нуждаются в более общей абстракции - они не должны зависеть от конкретной объектной схемы, а должны быть способны работать с разными репозиториями и схемами. Такие службы работают не напрямую с Persistence Service ядра и хранимыми Java-объектами, а с абстрактным программным интерфейсом Unified API.

Unified API представляет собой набор простых Java-интерфейсов, ориентированных на работу с RDF-совместимыми данными. Хранимые в репозитории объекты здесь представляется согласно модели данных Semantic Web в виде направленного графа, где вершинами являются объекты, а рёбрами - именованные URI свойства (в соответствие с RDF-схемой репозитория). Схемонезависимый прикладной код использует переданное ему описание RDF-схемы и Unified-интерфейс к репозиторию для работы с хранилищем.

Unified API предельно прост в реализации, что позволяет применить часть архитектуры ИСИР ко внешним источникам информации, над которыми не может быть реализован "тяжелый" репозиторный сервис ядра. Это позволяет организовать обмен данными, репликацию, индексирование и поиск не только для репозиториев, построенных на базе ядра ИСИР, но и для внешних источников, над которыми реализован Unified API.

На базе ядра и Unified API строятся более высокоуровневые службы ИСИР:

XML-технологии в ИСИР

Архитектура ИСИР повсеместно использует XML и сопутствующие технологии. XML-представление данных является такой же неотъемлемой частью ИСИР, как и объектное представление. XML-представление объектных данных позволяет применить к ним всю мощь XML-технологий и интегрировать в архитектуру различные разработки, связанные с XML-технологиями.

Представление объектной информации в виде XML в ИСИР опирается на идеи и механизмы Semantic Web. Этот W3C-проект являет собой логическое продолжение развития web - от гипертекстовых страниц к структурированным XML-документам, а затем к смысловому содержанию и адекватной машинной интерпретации данных. Модель данных Sematic Web представляет собой выражение объектной и ER-моделей данных в глобальном аспекте Web - объекты и их свойства идентифицируются здесь с помощью URI. Semantic Web определяет принципы записи таких данных в XML (RDF/XML-синтаксис), и ИСИР использует эти принципы для сопоставления XML-схемы и XML-представления объектной схеме и объектному представлению данных.

Представление объектной информации в XML в согласии с принципами Semantic Web приносит ряд существенных преимуществ при обмене этой информацией для интеграции данных различных репозиториев. Структура такого (RDF/XML) файла чётко соответствует объектной схеме репозитория ИСИР, объекты которого представлены в данном XML. Таким образом, RDF-файл несёт в себе семантику сериализованных данных, а не только данные. Получатель сможет правильно сопоставить сериализованные данные с собственной системой классов и свойств, и адекватно их обработать. Это как раз то преимущество, которое несёт Semantic Web - семантическая интероперабельность.

ИСИР интегрирует XML-технологии с Semantic Web, что позволяет эффективно использовать XML (RDF/XML) для обмена информацией как между репозиториями ИСИР, так и со сторонними системами. ИСИР-репозитории могут служить источниками RDF-знаний для сторонних программных агентов Semantic Web, таких как поисковые системы. ИСИР-технологии способны сделать доступным в Semantic Web огромное количество информации, накопленной в не-web базах данных и библиотеках. С другой стороны, Semantic Web помогает ИСИР "добывать" информацию из сторонних источников - доступных в web тезаурусов и классификаторов, баз знаний и пр. систем, с которыми может быть связана информация.

Итак, ИСИР использует XML для представления хранимых данных, когда необходимо воспользоваться услугами технологий, базирующихся на XML (XSLT и XForms, RDF/XML для обмена данными, SOAP..). В многоуровневой архитектуре ИСИР XML-представление данных стоит на следующей ступеньке после Semantic Web и объектного представления, которое в свою очередь стоит над представлением данных в соответствие с типом конкретного хранилища (ODBMS, RDBMS, LDAP..). Уровень Semantic Web представлен интерфейсом Unified API, а с XML-представлением данных имеют дело сервисы сериализации и десериализации.

На базе этих сервисов строится сервис репликации данных между репозиториями, распределенными в web. Служба индексации ИСИР также связана с XML и Semantic Web - она обеспечивает построение поатрибутного полнотекстового индекса по RDF/XML-данным индексируемых объектов. Эта служба может использоваться как для индексации локального репозитория ИСИР, так и для индексации внешних источников Semantic Web, построенных не на ИСИР-технологиях. Это может быть полезно, в частности, для интеграции с унаследованными системами, над которыми сложно поддержать работу ядра ИСИР, либо для легковесной индексации данных без привлечения других ИСИР-технологий, когда они не требуются.

Наконец, ИСИР поддерживает возможности доступа к репозиторию по протоколу SOAP, то есть позволяет организовать Web-сервис на базе репозитория. Среди функций такого web-сервиса - сериализация в RDF/XML хранимых объектов, выбранных поисковым запросом, и модификация хранимых объектов согласно предоставленному клиентом RDF/XML.

Web-публикация и XSLT

Упомянутые выше службы ориентированы в большей степени на обмен или обработку данных, и используют XML для представления этих данных в сериализованной форме. Другой аспект использования XML-технологий в ИСИР - это web-публикация информации с применением XSLT. Использование XML/XSLT для построения ИСИР web-порталов позволяет, во-первых, разделить логику выборки данных и стиль их представления, то есть разграничить области ответственности дизайнера и программиста. В результате дизайн сайта может эволюционировать со временем независимо от его информационного наполнения. Во-вторых, мы получаем возможность представлять страницу пользователю в различных форматах помимо HTML (WML для сотовых телефонов, PDF для печати, Excel для отчётов, SVG для графиков, RDF для метаданных).

Таким образом, для каждой "активной страницы" портала необходимо отдельно описать:

При разработке всех компонентов архитектуры ИСИР мы придерживаемся общей стратегии следования открытым стандартам и общепризнанным решениям. В плане XML-изации web-сервера с применением XML/XSLT-технологий и разделением данных, логики и представления в Java Community отлично зарекомендовал себя Apache-проект Cocoon. Open-source проекты в Java имеют очень приятную тенденцию - перерастать в стандарты Java Community Process и становиться эталонной реализацией стандарта (Reference Implementation). Мы рассчитываем, что это произойдёт и с Cocoon.

Cocoon опирается на простую конвейерную модель обработки: XML-документ проходит через конвейер, который представляет собой несколько фаз преобразования данных. Каждый конвейер начинается генератором (точка средоточения логики и данных), содержит несколько преобразователей (например, XSLT), и завершается сериализатором. По конвейеру происходит постепенное перемещение потока XML-информации, с преобразованием её от исходного XML данных (content) к нужному XML представления. XML-информация предстаёт здесь в виде потока SAX-событий, то есть событий открытия и закрытия XML-элементов.

Простейший сериализатор просто преобразует SAX-поток в поток символов соответствующего XML-файла, либо HTML, WML, SVG, VRML, но возможно и преобразование SVG в JPEG или PNG-формат, либо трансляция XSL Formatting Objects в PDF, PostScript, Excel форматы.

Cocoon обобщает понятие "активных серверных страниц" на случай XML/XSLT-публикации данных, вводя механизм XML-серверных страниц (Extensible Server Pages - XSP). JSP, ASP и пр. являлись конгломератом логики, данных и представления, что недопустимо для крупных приложений. XSP же позволяет сконцентрировать своё внимание на формировании данных страницы, переложив задачу представления на плечи XSLT. XSP-страница прозрачно компилируется в Cocoon Generator и служит начальной точкой конвейера обработки XML-информации в Cocoon. К XML "данным", сформированным XSP-страницей, в конвейере может быть применен ряд трансформаций, после которых на выходе из конвейера мы получаем XML "представления", описывающие, что и как нужно отобразить на экране.

Использовать JSP для написания крупных приложений со сложной логикой обработки было бы очень неудобно, если бы не было механизма библиотек тегов (tag libraries). XSP-страницы также предоставляют возможность преобразовать код в "библиотеки тегов", только в несколько другой форме, чем JSP. Роль "библиотек тегов" здесь играют так называемые logicsheets - логические XSLT-трансформации. Это преобразования, которые применяются к XSP-документу перед его трансляцией в java-код Cocoon генератора. Каждый logicsheet отвечает за преобразование собственных спец-тегов в комбинацию выходного XML-текста, XML-элементов и управляющих конструкций xsp:logic и xsp:expr. Таким образом, logicsheet отвечает за подстановку необходимой логики вместо собственных спец-тегов.

Механизм logicsheet-трансформаций - существенно более гибкий, чем обычный механизм библиотек тегов. Мы получаем полный контроль над обрабатываемым XSP-документом, а не только над тегом, который нужно проинтерпретировать. Это позволяет полностью преобразить логику обработки страницы, использовать "спец-атрибуты" вместо "спец-тегов", необходимым образом проинтерпретировать обычные XML-элементы. Обладая таким инструментом, мы можем сделать страницы ещё проще и удобнее, нежели мы можем себе позволить в JSP.

Этот потенциал XSP позволяет сделать описание логики выборки данных страницы ИСИР-портала максимально декларативным, но при этом расширяемым. XSP-страница, описывающая выборку хранимой в ИСИР-репозитории информации, может содержать сколь угодно сложный java-код, но при этом простые страницы должны быть краткими и понятными непрограммисту (такие страницы сможет разрабатывать и дизайнер, занимающийся XSLT-оформлением). Для этого разработан специальный logicsheet "XML-серверных страниц ИСИР" (ISP*XSP), позволяющий наглядно описать выборку объектных данных из репозитория. Большинство страниц предельно просты - они находят указанный параметром запроса объект и сериализуют в XML нужные атрибуты и связи с другими объектами.

Массив "XML данных", являющийся результатом обработки XML-страниц ИСИР, представляет хранимую объектную информацию в соответствие с принципами Semantic Web и кратким синтаксисом RDF/XML. Структура такого XML-файла чётко соответствует ИСИР RDF-схеме репозитория - это залог семантической интероперабельности распределённых в web приложений. Для иллюстрации, что представляют собой RDF/XML и XML-страницы, приведём небольшой пример (по мотивам бессмертного произведения братьев Стругацких :-)

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:isir="urn:hdl:1016.1/core/">
<isir:Organization>
<!--
описание объекта - организации -->
<isir:unitName> <!--
свойство организации - название -->
<isir:full> НИИ Чародейства и Волшебства </isir:full>
<isir:abbrev> НИИ ЧАВО </isir:abbrev>
</isir:unitName>
<isir:department>
<!--
описание подразделения -->
<isir:unitName>
<isir:full> Дирекция </isir:full>
</isir:unitName>
<isir:staff>
<!-- описание штатной единицы -->
<isir:rank>
<isir:name>
<isir:full> директор </isir:full>
</isir:name>
</isir:rank>
<isir:hired>
<!-- информация о нанятом человеке -->

<isir:personName>
<isir:first> Янус </isir:first>
<isir:middle> Полуэктович </isir:middle>
<isir:last> Невструев </isir:last>
</isir:personName>
</isir:hired>
</isir:staff>
<isir:staff>
<!-- описание штатной единицы -->
<isir:rank>
<isir:name>
<isir:full>

заместитель директора по
административно-хозяйственной части
</isir:full>
</isir:name>
</isir:rank>
<isir:hired>
<!-- информация о нанятом человеке -->

<isir:personName>
<isir:first> Модест </isir:first>
<isir:middle> Матвеевич </isir:middle>
<isir:last> Камноедов </isir:last>
</isir:personName>
</isir:hired>
</isir:staff>
</isir:department>
</isir:Organization>
</rdf:RDF>

"XML-серверные страницы ИСИР" соотносятся с подобными RDF/XML-данными точно так же, как JSP соотносятся с HTML. "XML-серверные страницы ИСИР" отвечают за динамическую генерацию RDF/XML-документов, то есть за выборку необходимой объектной информации из хранилища при помощи Ядра ИСИР и представление её в RDF/XML-виде.

Язык "XML-серверных страниц" в ИСИР позволяет максимально наглядно и декларативно описать, какие данные следует выбрать. Такая страница похожа на шаблон XML-документа, в который осталось лишь подставить значения из хранилища. Рассмотрим пример страницы, результатом которой мог бы быть приведённый выше RDF/XML.

<?xml version="1.0"?>

<!--
Указание xmlns:isp и xmlns:xsp-request автоматически
подключает logicsheets ИСИР (ISP) и Cocoon Request

-->
<xsp:page xmlns:xsp="
http://apache.org/xsp"
xmlns:isp="urn:hdl:1016.1/isp
"
xmlns:xsp-request="http://apache.org/xsp/request/2.0"
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:isir="urn:hdl:1016.1/core/">
<!-- корневой элемент генерируемого XML (RDF/XML) -->

<rdf:RDF>
<!-- корневой тег сериализации объекта (организации) -->
<isir:Organization>
<!--
Указываем, какой объект сериализовать.
Объект выбирается по id, указанному параметром HTTP-запроса
-->

<isp:serialize-by-id>
<!-- тег из библиотеки Cocoon Request -->
<xsp-request:get-parameter name="id"/>
</isp:serialize-by-id>
<!--
Указываем, какие свойства сериализовать
(isir:unitName и isir:department)
-->

<!--
"Локализовать" - взять в коллекции значений свойства
isir:unitName только значение на языке (dc:language) клиента
-->

<isir:unitName isp:localize="yes">
<!--
какие свойства объекта-значения сериализовать -->
<isir:full/>
<isir:abbrev/>
</isir:unitName>
<!--
Профильтровать коллекцию значений isir:department -
взять только дирекцию
-->

<isir:department
isp:oql-filter="this.departmentType.priority = 0">
<isir:unitName isp:localize="yes">
<isir:full/>
</isir:unitName>
<!-- для всех членов подразделения вывести
название должности и ФИО -->
<isir:staff>
<isir:rank>
<isir:name isp:localize="yes">
<isir:full/>

<isir:name>
</isir:rank>
<isir:hired>
<isir:personName isp:localize="yes">
<isir:first/>
<isir:middle/>
<isir:last/>
</isir:personName>
</isir:hired>
</isir:staff>
</isir:department>
</isir:Organization>
</rdf:RDF>
</xsp:page>

Смысл такой страницы очевиден - она обращается к Ядру ИСИР и находит в хранилище организацию по числовому id, указанному в параметре HTTP-запроса, а затем выдаёт информацию о её названии, подразделении-дирекции, его должностях и сотрудниках.

Страница очень похожа на шаблон документа - достаточно лишь подставить значения и вы получите приведённый выше XML. Именно этот шаблон занимает основную часть страницы, управляющие теги и атрибуты, выражающие логику работы страницы, не мешают увидеть структуру результирующего документа. Глядя на такой шаблон, web-дизайнер без труда напишет XSLT для форматирования результата этой ISP*XSP, не вдаваясь в логику страницы. Эта страница, как и большинство других, очень проста, но ISP*XSP может использоваться для написания страниц произвольной сложности - такая страница может содержать произвольный управляющий код (циклы, методы, рекурсивные вызовы) - вперемешку с подобными шаблонами.

В завершение следует упомянуть механизмы разработки web-форм, в том числе форм редактирования хранимой информации. Для этих целей могут использоваться две технологии. Для создания форм на JSP разработана специальная среда управления формами (Formbuilder framework), базирующаяся на JSP-библиотеке тегов для генерации HTML-форм и отвечающая за встраивание в формы данных хранимых объектов и обработку результатов редактирования формы. Formbuilder работает напрямую с репозиторным сервисом ядра и хранимыми java-объектами.

Другой механизм создания форм опирается на новую разработку World Wide Web Consortium - спецификацию XForms. Форма в XForms - это XML-данные, которые подлежат редактированию, плюс набор управляющих элементов формы и отображение XML-данных на эти компоненты. Результатом редактирования формы является изменённый XML. Для организации формы редактирования некоторого хранимого объекта нужные свойства этого объекта сериализуются в RDF/XML и подаются в качестве данных формы, а после завершения редактирования результирующий RDF/XML загружается в систему с помощью сервиса десериализации.

Литература

  1. Semantic Web Activity. http://www.w3.org/2001/sw
  2. RDF/XML Syntax Specification (Revised). W3C Working Draft. http://www.w3.org/TR/rdf-syntax-grammar/
  3. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Working Draft. http://www.w3.org/TR/rdf-schema
  4. Dublin Core Activity.http://dublincore.org
  5. Object Management Group. http://www.omg.org
  6. Object Database Management Group. http://www.odmg.org
  7. Apache Cocoon Project. http://cocoon.apache.org/2.0/
  8. MIA Development: Architecture and Functional Model, Tracy Gardner UKOLN, University of Bath
  9. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А., Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. // Программирование V 26, N 4, 2000, pp. 177-185.
  10. Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В. А., RDF схема метаданных ИСИР. Роль технологий Semantic Web в архитектуре ИСИР. // 2003, статья в данном сборнике.
  11. Сысоев Т.М., Бездушный А.А., Нестеренко А.К., Бездушный А.Н., Служба управления содержанием системы ИСИР, основанная на XML технологиях. // 2003, статья в данном сборнике.
  12. Нестеренко А.К, Бездушный А.А., Сысоев Т.М., Бездушный А.Н., Возможности службы управления потоками работ по манипулированию ресурсами репозитория ИСИР. // 2003, статья в данном сборнике
!22

ВОЗМОЖНОСТИ СЛУЖБЫ УПРАВЛЕНИЯ
ПОТОКАМИ РАБОТ ПО МАНИПУЛИРОВАНИЮ
РЕСУРСАМИ РЕПОЗИТОРИЯ ИСИР.

А.К. Нестеренко (ВЦ РАН), А.А. Бездушный (МФТИ), Т.М. Сысоев (ВЦ РАН), А.Н. Бездушный (ВЦ РАН)

Введение

За последние 15 лет были разработаны средства, позволяющие не только выполнять конкретные работы, но и управлять их потоками (Workflow). Эти процессы формально специфицируются в компьютерных системах. Потоки работ управляются компьютерной программой, которая назначает задания, принимает их и фиксирует степень их исполнения. Традиционно понятие "рабочий процесс" определяется с позиций офисных работ, работ с документами - передача документа, подписание приказа, подготовка накладной. Но те же самые принципы и понятия встречаются, например, в работе промышленного предприятия - подготовка документов, деталей, станков и рабочего персонала для сборки сложных технологических систем.

С появлением сложных Web-систем, цифровых библиотек, корпоративных порталов, поддерживающих и управляющих большими объемами и потоками информации, сформировалось категория подсистем, называемых системами управления содержанием/контентом Web-систем (WCMS - Web Content Management System). Первые WCMS представляли совокупности web-форм для управления данными - как несвязанных web-форм, так взаимосвязанных web-форм, но c фиксированным в программном коде порядком обработки. Сейчас актуальной становится потребность в более гибкой организации управления потоками работ, в поддержке декларативных форм определения и оперативного изменения потоков работ. WCMS должны управлять созданием и модификацией информационных сильно взаимосвязанных ресурсов произвольных типов. Потоки работ могут быть связаны не только с поддержкой информационных ресурсов, но и с выполнением полностью автономных регламентных процедур системы в ответ на, например, программные обращения, на наступление некоторого события и т.п. Описанию попытки создания такой системы, требованиям к ней, проблемам реализации и применению посвящена эта работа.

Обзор решений

Одним из наиболее важных требований к системам управления потоками работ является следование ряду стандартов. На данный момент на рынке программных продуктов сложилась непростая ситуация[9] со стандартизацией процесса построения систем управления потоками работ.

На данный момент различными разработчиками предложен ряд языков для описания рабочих процессов. К основным стандартам можно отнести следующие:

Все перечисленные спецификации имеют свои характерные особенности, определяющие преимущества в функциональности основанного на их базе решения. Пока стандартизация workflow-систем носит больше теоретический, чем практический характер.

Спецификация XPDL[2], предложенная Workflow Management Coalition (WfMC) [1], представляет собой формальную модель для описания рабочих процессов, относящихся к любым сферам деятельности.

The Web Services Flow Language[7], разработанный компанией IBM, представляет собой XML-язык, описывающий композицию произвольного типа Web-служб в рамках одной модели потоков (Flow Model). Данная композиция описывается последовательностью точек доступа к функциям, предоставляемым различными службами. Порядок запуска сервисов определяется с помощью управляющих потоков и потоков данных между Web-службами. Flow Model предназначена для моделирования бизнес-процессов и потоков работ, основанных на использовании различных Web-сервисов.

В отличие от графовых моделей XPDL и WSFL спецификации BPML[5] и XLANG[6], предложенные Business Process Management Initiative и корпорацией Microsoft соответственно, являющиеся родственными стандартами, реализуют блочную модель потоков работ, приближенную к блочной структуре языков программирования. BPML охватывает наиболее широкий спектр характерных особенностей моделей рабочих процессов данного типа, представляет собой абстрактную модель и XML-язык для описания рабочих процессов. В качестве исполнителей заданий потока работ в модели BPML выступают различного рода Web-сервисы. Для описания сервиса и всех услуг, предоставляемых им потребителю, используется спецификация WSDL (Web Services Description Language). Общение с такими службами может осуществляться, например, посредством протокола SOAP (Simple Object Access Protocol).

Проведенный сравнительный анализ двух видов моделей (блочных и графовых) на примере их основных представителей (XPDL и BPML) с точки зрения организации в них основных конструкций, определяющих модель потоков работ, показал, что все основополагающие конструкции блочной модели BPML могут быть выражены через их прямые аналоги модели потоков работ XPDL. Между тем спецификация XPDL обладает рядом очевидных преимуществ.

На основании проведенного анализа за базовый стандарт описания модели рабочих процессов по редактированию ресурсов репозитория ИСИР выбрана спецификация XML Process Definition Language (XPDL) ввиду наиболее полного соответствия требованиям к функциональности создаваемого решения.

Следование каноническим спецификациям и стандартам дает ряд очевидных преимуществ как в случае систем управления потоками работ, так и в случае других практических решений:

Таким образом, следование ряду стандартов позволяет создавать автономные, открытые workflow-системы, что, безусловно, расширяет область и способы их применения для моделирования различных рабочих процессов.

Определения и общие требования к функциональности

В соответствии со спецификацией XPDL каждый поток работ разбивается на следующий набор взаимодействующих между собой компонентов: (рис. 1)

Рис. 1. Компоненты модели XPDL.

Стандарт WfMC [1] определяет три фундаментальных понятий - Workflow, Workflow Management и Workflow Management System:

Системы управления потоками работ обеспечивают процедурную автоматизацию делового процесса, управляют последовательностью действий работника с ресурсами, связанными с различными шагами деятельности. Индивидуальный деловой процесс может иметь время жизни в пределах от нескольких минут до нескольких дней (или даже месяцев или лет) в зависимости от его сложности и продолжительности различных действий. На самом высоком уровне все workflow системы могут быть характеризованы как системы, обеспечивающие поддержку в трех функциональных областях:

Следующий рисунок иллюстрирует указанные выше основные характеристики workflow-систем и отношений между этими основными функциями:

Рис. 2. Характерные функциональные уровни системы управления потоками работ.

Рассмотрим назначение указанных архитектурных уровней системы управления потоками работ:

Ниже (рис. 3) приведён набор требований к функциональности workflow-систем [1]:

Рис. 3. Функциональность, требуемая от систем управления потоками работ.

Выделяют следующие функциональные области, адресованные Workflow системам:

Архитектура службы управления потоками работ

Поскольку Информационный Web-портал РАН является системой, предоставляющей конечному пользователю полную оперативную информацию о произвольной сложности ресурсах РАН, он должен обладать гибкими средствами для поддержания актуальности имеющихся данных: быстрой пакетной загрузки больших объемов информации и автоматизированного управления потоками работ по созданию и редактированию атрибутов существующих в системе ресурсов. XML и RDF загрузка решает задачу о внесении в базу данных больших объемов информации. Редактирование и создание отдельных ресурсов с помощью форм требует наличия системы, управляющей декларируемыми потоками работ пользователей. Даже после пакетной загрузки требуется участие администраторов данных, отвечающих на запросы системы по нарушениям форматов, разрешению неоднозначности, выявлению дубликатов, которое также должно осуществляться в рамках ролевых, контролируемых потоков работ.

На базе перечисленных выше требований, была создана служба управления потоками работ по редактированию ресурсов Информационного Web-портала РАН [8], ядро которого составляет система ИСИР РАН [3], новая версия которой использует платформу Java и ряд opensource решений [10-12]. Данный сервис использует службу объектно-реляционного отображения, предоставляемую новой версией ИСИР, для хранения объектной модели рабочих процессов в базе данных, а также службу аутентификации и управления пользовательскими правами доступа к объектам процессов. Для декларативного описания новых типов потоков работ используется часть спецификации XPDL, обеспечивающая необходимую функциональность. Пользовательские интерфейсы системы управления потоками работ построены на базе Java-технологий ИСИР, автоматизирующих процесс построения Web-форм для редактирования ресурсов. Рассмотрим принципы построения и работу сервиса.

Общая объектная модель процесса представлена на рис. 4:

 

Рис. 4. Объектная модель сервиса.

В объектной схеме сервиса, представленной на данном рисунке, не отображен еще один тип объектов - TransitionHistoryItem - представляющий собой элемент журнала протоколирования переходов между заданиями. При осуществлении перехода в полях данного объекта сохраняются следующие данные: ссылка на осуществленный переход, комментарий к переходу, ссылка на совершившего его пользователя, дата перехода и т.п. История переходов процесса доступна для просмотра менеджеру процесса через Web-интерфейс.

Рабочий процесс (WorkflowProcess)

Объект WorkflowProcess представляет собой описание конкретного рабочего процесса. Он имеет ряд атрибутов, задающих текстовые описания процесса, набор ресурсов, для редактирования которых он предназначен, пользователей, имеющих права на создание и управление процессами данного типа, приложение, используемого для выполнения его заданий.

Маршрут процесса представляет собой направленный граф, узлами которого являются объекты Activity (задание пользователя), а дугами - объекты Transition (переход между заданиями). Процесс может иметь только одно начальное задание и несколько завершающих. Переход по маршруту может осуществляться к одному из следующих в соответствии с декларацией процесса заданий или к любому из предыдущих (включая начальное). В каждый момент времени может существовать не более одного "активного" пользовательского задания для данного процесса. Все остальные задания (узлы маршрута) должны иметь статус "неактивно" или "завершено".

Процесс может находиться в одном из трех состояний: "активен", "неактивен" или "завершен". Если процесс находится в "активном" состоянии, его текущее "активное" задание доступно исполнителям. В "неактивном" и "завершенном" состоянии никакие задания процесса не видны его исполнителям. Помимо этого, статус процесса влияет на автоматическое управление датами создания и завершения процесса. Управление статусами процесса выполняется системой или администратором через соответствующие Web-интерфейсы. "Активное" состояние процесса разбивается на два дополнительных состояния: "активен и просрочен" и "активен и не просрочен". Просроченным процессом считается любой процесс, активное задание которого не укладывается в отведенные для него временные рамки.

В роли редактируемых с помощью данного процесса ресурсов могут использоваться произвольные хранимые объекты "ядра" портала. Любой тип процесса может применяться как к произвольным объектам системы, так и к выделенному набору типов ресурсов, для которых должно существовать более специфичное описание потоков работ.

Задание процесса (Activity)

Задание процесса Activity является точкой маршрута процесса, в которой осуществляются работы по изменению содержания ресурса. На каждое задание накладываются строгие временные рамки, представленные тремя датами: дата постановки (активации) задания, дата крайнего срока исполнения задания, дата фактического завершения выполнения задания.

Управление всеми перечисленными датами может выполняться как в автоматическом режиме (системой) при переходах между заданиями, так и администратором процесса.

В XML-декларации задания имеется ссылка на приложение, которое предоставляет пользователю визуальные интерфейсы для выполнения этого задания. В соответствии со спецификацией XPDL информация о типе конкретного приложения не включается в описание процесса. Задание должно знать только о том, куда направить пользователя для редактирования ресурса; весь процесс редактирования контролируется самим приложением. В существующем применении данной службы для управления потоками работ по созданию новых ресурсов Информационного Web-портала РАН для модификации атрибутов ресурсов в узлах маршрута используется служба "ядра" для управления формами редактирования ресурсов и её понятие wizard-а. Wizard представляет собой группу форм, служащую для редактирования одного или нескольких ресурсов, отличительной чертой которой является назначение прав на отдельные формы (это отражается и в навигационном меню wizard-а). Это позволяет организовать более гибкое управление ходом выполнения потоков работ.

Каждому заданию в декларации процесса назначается один или более исполнителей. Исполнители имеют права на чтение информации о задании, запуск приложения для выполнения задания и переход к следующему заданию в соответствии с правами доступа на переходы. В роли исполнителя задания может выступать отдельно взятый пользователь или группа пользователей (это декларируется в XML-описании процесса). При определении пользователей и групп, а также при назначении прав на объекты процесса используются механизмы и сервисы, предоставляемые "ядром".

Как и в случае всего процесса, каждое из его заданий может иметь следующий набор состояний: "активно" ("просрочено" или "не просрочено"), "неактивно" или "завершено". Управление статусами заданий выполняется либо системой, либо администратором процесса.

Переход между заданиями (Transition)

Направленные дуги переходов между заданиями маршрута процесса представлены объектами Transition. Для перехода существует условное понятие направления ("прямое" или "обратное"), которое влияет на управление характерными датами заданий, между которым осуществляется переход. При переходе от одного задания к другому системой выполняется следующая последовательность действий:

  1. Если происходит переход в прямом направлении, то текущее активное задание завершается (проставляется статус "завершено", дата завершения, выполнивший его пользователь), а следующее (указанное в декларации) задание активируется (проставляется статус "активно", и дата постановки инициализируется текущей датой).
  2. Если происходит переход в обратном направлении, то текущее активное задание деактивируется (проставляется статус "неактивно"), а одно из предыдущих заданий, к которому осуществляется переход (в данный момент завершенное) активируется (проставляется статус "активно", но дата постановки не сбрасывается). Таким образом, если происходит возврат к одному из завершенных заданий, то для этого задания все временные рамки остаются такими же, как и до завершения (в том числе и крайний срок исполнения). Данная политика означает то, что задание считается полностью выполненным только тогда, когда на него нет возвратов ввиду его неверного исполнения.
  3. Если задание, к которому должен осуществляться переход не указано, то текущее задание считается последним в маршруте, и происходит завершение всего процесса - изменяется статус процесса и проставляется дата завершения.
  4. Информация о совершенном переходе заносится в журнал переходов процесса

На все переходы между заданиями (так же как и на сами задания) назначаются права доступа. При отсутствии явно указанных исполнителей конкретного перехода, он становится доступен всем участникам процесса, имеющим доступ к заданию, с которого осуществляется этот переход.

Пример определения рабочего процесса

Структура XML-документа для декларации процессов построена в соответствии со спецификацией XPDL, но является сокращенной по сравнению со своим прототипом ввиду применения в более конкретных областях, а значит и с более ограниченной функциональностью. Эта необходимая часть структуры XPDL-описания выбиралась с таким расчетом, чтобы поддержать всю функциональность, требуемую от системы управления потоками работ на данном этапе развития Java-проекта, а в дальнейшем (возможно, с некоторыми дополнениями) и для применения в других системах, использующих понятие рабочих процессов - таких как, например, системы электронного документооборота. В виду применения в более конкретной области построения Web-порталов к XML-декларации были добавлены некоторые дополнительные элементы.

Приведем пример описания процесса, реализующего простейшую схему: менеджер, создав процесс, передает управление процессом автору, который производит наполнение полей создаваемого ресурса. Затем редактор проверяет корректность работы автора и либо передает ресурс автору на доработку, либо менеджеру на утверждение. Менеджер может либо завершить процесс, либо передать его автору или редактору на доработку. Так же он может сам принять участие в редактировании и при этом сразу утвердить ресурс, минуя последний этап контроля.

<Package>

<Participants>

<Participant Id="P1" URI="urn:hdl:1016.1/kernel/Group#MANAGERS">

<ParticipantType Type="GROUP"/>

</Participant>

<Participant Id="P2" URI="urn:hdl:1016.1/kernel/Group#AUTHORS">

<ParticipantType Type="GROUP"/>

</Participant>

<Participant Id="P3" URI="urn:hdl:1016.1/kernel/Group#EDITORS">

<ParticipantType Type="GROUP"/>

</Participant>

</Participants>

<Resources>

<Resource Id="R1"> <Class URI="urn:hdl:1016.1/core/Person"/>

</Resource>

<Resource Id="R2"> <Class URI="urn:hdl:1016.1/core/Project"/>

</Resource>

<Resource Id="R3"> <Class URI="urn:hdl:1016.1/core/Publication"/>

</Resource>

<Resource Id="R4"> <Class URI="urn:hdl:1016.1/core/Organization"/>

</Resource>

<Resource Id="R5"> <Class URI="urn:hdl:1016.1/core/Department"/>

</Resource>

</Resources>

<WorkflowProcess Id="wfp-1">

<ProcessHeader>

<Title lang="ru">Трех-ролевой процесс.</Title>

<Title lang="en">Three-role process.</Title>

<Description lang="ru">Данный процесс реализует</Description>

<Description lang="en">This process implemnts</Description>

<Appliction>

ru.ccas.isir.workflow.ThreeStepProcessApplication

</Application>

<Creator>P1</Creator>

<Manager>P1</Manager>

<Object>R1</Object> <Object>R2</Object>

<Object>R3</Object> <Object>R4</Object>

<Object>R5</Object>

</ProcessHeader>

<Activities>

<Activity Id="activity-1" First="true">

<Description lang="ru">Создание ресурса.</Description>

<Description lang="en">Resource creation.</Description>

<Duration>00:01:00</Duration>

<Tool>doCreate</Tool>

<Performer>P2</Performer>

</Activity>

<Activity Id="activity-2">

<Description lang="ru">Редактирование ресурса.</Description>

<Description lang="en">Resource editing.</Description>

<Duration>00:01:00</Duration>

<Tool>doEdit</Tool>

<Performer>P1</Performer>

<Performer>P3</Performer>

</Activity>

<Activity Id="activity-3">

<Description lang="ru">

Проверка корректности создания ресурса.

</Description>

<Description lang="en">Resource creation control.</Description>

<Duration>00:30:00</Duration>

<Tool>doControl</Tool>

<Performer>P1</Performer>

</Activity>

</Activities>

<Transitions>

<Transition Id="Trans-1" From="activity-1" To="activity-2" Direction="forward">

<Description lang="ru">На редактирование</Description>

<Description lang="en">For editing</Description>

</Transition>

<Transition Id="Trans-2" From="activity-2" To="activity-1" Direction="backward">

<Description lang="ru">На создание</Description>

<Description lang="en">For creating</Description>

</Transition>

<Transition Id="Trans-3" From="activity-2" To="activity-3" Direction="forward">

<Description lang="ru">На контроль</Description>

<Description lang="en">For control</Description>

</Transition>

<Transition Id="Trans-4" From="activity-2" Direction="forward">

<Description lang="ru">Утвердить</Description>

<Description lang="en">Confirm</Description>

<Performer>P1</Performer>

</Transition>

<Transition Id="Trans-5" From="activity-3" To="activity-1" Direction="backward">

<Description lang="ru">На создание</Description>

<Description lang="en">For creating</Description>

</Transition>

<Transition Id="Trans-6" From="activity-3" To="activity-2" Direction="backward">

<Description lang="ru">На редактирование</Description>

<Description lang="en">For editing</Description>

</Transition>

<Transition Id="Trans-7" From="activity-3" Direction="forward">

<Description lang="ru">Утвердить</Description>

<Description lang="en">Confirm</Description>

</Transition>

</Transitions>

</WorkflowProcess>

</ Package >

К отличительным особенностям описанного процесса можно отнести следующее:

Реализованная модель рабочих процессов предполагает наличие трех предопределенных пользовательских ролей:

Первые две роли жестко декларируются в XML-описании процесса и не могут быть назначены (или сняты) у пользователя в ходе его выполнения. Последняя роль может динамически назначаться (сниматься) менеджером процесса с помощью Web-интерфейса.

Возможность применения в системах документооборота

В данный момент широко распространены системы электронного документооборота, предназначенные для применения в различных областях: банковская сфера, документооборот промышленного предприятия, учебных заведении и т.д. Поскольку "ядром" подобных систем является система управления потоками работ, снабженная некоторыми специфичными для конкретной предметной области понятиями и функциональностью, то возникает естественный вопрос о степени применимости имеющегося решения для использования в управлении потоками работ с документами.

С этой целью был проведен анализ соответствующих требований к системам, подготовлено сопоставление основных понятий, систем электронного документооборота и имеющейся реализации системы управления потоками работ. Приведенный анализ показывал, что применение службы управления потоками работ в системах электронного документооборота требует поддержки некоторых дополнительных возможностей, специфичных для этой области, например, фиксация операционных состояний документа. Кроме того, ряд проблем обусловлен неполнотой текущей реализации, в которой еще не поддерживаются некоторые ключевые моменты, например, полноценное ведение версий, поддержка транзакций.

Практичность имеющегося на текущий момент решения, выявленные дополнительные потребности свидетельствуют о необходимости дальнейшего развития системы управления потоками работ, реализации на её основе простой системы электронного документооборота, которая будет востребована в WCMS.

Текущая реализация

Проектирование и разработка системы управления потоками работ по манипулированию ресурсами репозитория ИСИР разбита на несколько этапов. К данному моменту (частично или полностью) поддержана следующая функциональность:

1) Выбор необходимого подмножества конструкции XPDL.

Поддержаны основные структуры XPDL, необходимые для реализации рабочих процессов по созданию и редактированию ресурсов репозитория ИСИР. Пока нет поддержки составных заданий и подпроцессов, а так же ряда других второстепенных элементов. Добавлены некоторые дополнительные элементы и атрибуты для задания временных ограничений, локализованных наименований и т.д. Не реализована поддержка пакетов описаний с возможностью их экспорта и импорта.

2) Создание основных компонентов объектной модели процесса в соответствии со спецификацией XPDL.

Реализованы Java-классы, соответствующие объектам Transition, WorkflowProcess и Activity метамодели XPDL с необходимым набором атрибутов и некоторыми методами, расширяющими их функциональность. Данная модель состоит из хранимых в базе данных объектов, что обеспечивается объектно-реляционным отображением, базирующемся на службах "ядра". В качестве участников (Participant) процесса сейчас выступают пользователи "ядра" системы. Внешние приложения пока представлены специальным Java-интерфейсом и обязаны являться Java-классами. На данный момент не поддержаны некоторые второстепенные компоненты объектной модели, такие как хранилище ресурсов (Resources Repository), системные данные и переменные окружения (System and Environment Data) и т.д. В текущей версии переходы между заданиями являются безусловными.

3) Разработка и реализация компонента системы, создающего хранимые модели процессов по их XPDL-описанию.

Реализован разбор XPDL-документов с помощью DOM-модели и использования XPath и создание хранимой в базе данных объектной модели процесса с инициализированными начальными значениями атрибутов. При создании объектов происходит назначение прав доступа к ним в соответствии с XPDL-декларацией и с использованием служб "ядра", управляющих проверкой и назначением прав доступа на хранимые объекты.

4) Разработка подсистемы создания и управления ходом выполняемого процесса.

Реализован набор функций по созданию и управлению процессами по ходу их выполнения, а также по получению информации о заданиях и процессах. К основным из них можно отнести:

5) Реализация подсистемы контроля и протоколирования.

Контроль выполнения заданий осуществляется посредством отведения на них временных рамок. Предусмотрены средства для уведомления исполнителей и системных администраторов о "просроченных" заданиях. Назначение временных рамок на процесс в целом пока отсутствует. Элемент протокола управляющих операций (переходов между заданиями) сейчас представлен специальным хранимым объектом TransitionHistoryItem, который сохраняет в себе основную информацию о совершенном переходе. Протоколирование других типов операций пока не поддержано. Информация о сроках фактического выполнения задания, выполнившем его пользователе сейчас хранится непосредственно в атрибутах самого объекта Activity. Поддержка других физических носителей для ведения системных протоколов, отличных от реляционной базы данных, пока не предусмотрена.

6) Интеграция с базовыми службами управления доступом к хранимым объектам и аутентификацией пользователей.

На данный момент все компоненты хранимой модели рабочего процесса защищены от несанкционированного доступа посредством базовых служб ИСИР [10]. При этом в системе выделено несколько предопределенных пользовательских ролей, назначаемых участникам процесса в XPDL-описании. Для аутентификации пользователей при входе в систему используется сервис аутентификации ядра ИСИР.

7) Разработка Web-интерфейсов для создания и управления потоками работ, а также для администрирования системы.

Реализованы управляющие Web-интерфейсы службы управления потоками работ на базе сервиса, автоматизирующего процесс построения форм редактирования и страниц просмотра атрибутов хранимых объектов с помощью технологии JSP-шаблонов. Помимо этого на базе этой же службы реализованы Web-приложения (wizard-ы) для редактирования ресурсов репозитория ИСИР - внешние приложения, использующиеся службой управления потоками работ для выполнения заданий процессов. Работа сервиса продемонстрирована на примере описания потоков работ двух различных типов.

Следующие шаги

К ближайшим шагам по дальнейшей разработке и модернизации компонентов системы можно отнести следующие:

К задачам второстепенной важности можно отнести поддержку возможности экспорта XPDL-описаний с предварительным преобразованием к другим существующим стандартам декларации потоков работ и реализацию распределенной системы управления рабочими процессами.

Заключение

В наше время происходит стремительный рост числа информационных Web-порталов и цифровых библиотек, в которых все большее и большее применение находят автоматизированные систем управления потоками работ. С их помощью становится возможным увеличение качества и объемов выполняемых работ по манипулированию информационным наполнением и сервисами Web-порталов и цифровых библиотек.

Поддержка и следование службой управления рабочими процессами по манипулированию ресурсами репозитория ИСИР ряду соответствующих стандартов делает возможным её применение в системах управления контентом Web-порталов, системах электронного документооборота и других сервисах, автоматизирующих управление потоками работ, распределенных между разнообразными участниками производственных процессов. Широчайшая область применения служб подобного типа дает не менее широкие предпосылки к дальнейшему развитию и модернизации данного проекта.

Литература

  1. Workflow Management Coalition standards // http://www.wfmc.org/standards/standards.htm
  2. Workflow Process Definition Interface-XML Process Definition Language // http://www.wfmc.org/standards/TC-1025_10_xpdl_102502.pdf
  3. Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А., Интегрированная система информационных ресурсов РАН и технология разработки цифровых библиотек. // Программирование V 26, N 4, 2000, pp. 177-185
  4. RDF Vocabulary Description Language 1.0: RDF Schema // W3C Working Draft 23 January 2003, http://www.w3.org/TR/rdf-schema/
  5. BPML working draft March 25, 2002. // http://www.bpmi.org/, http://xml.coverpages.org/bpml.html
  6. Web Services for Business Process Design // http://www.gotdotnet.com/team/xml_wsspecs/xlang-c/, http://xml.coverpages.org/xlang.html
  7. Web Services Flow Language // http://www-3.ibm.com/software/solutions/webservices/pdf/WSFL.pdf, http://xml.coverpages.org/wsfl.html, http://www.ebpml.org/wsfl.htm
  8. Концепция создания Единой информационной системы РАН (вторая редакция) // http://uis.isir.ras.ru/win/htm/scientific_activity.html?p=5p7p2
  9. Robert Shapiro, "A Comparison of XPDL, BPML and BPEL4WS" // http://xml.coverpages.org/Shapiro-XPDL.pdf
  10. Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В. А., RDF схема метаданных ИСИР. Роль технологий Semantic Web в архитектуре ИСИР. // 2003, статья в данном сборнике.
  11. Бездушный А.А., Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., Java и XML технологии новой версии системы ИСИР. // 2003, статья в данном сборнике.
  12. Сысоев Т.М., Бездушный А.А., Нестеренко А.К., Бездушный А.Н., Служба управления содержанием системы ИСИР, основанная на XML технологиях. // 2003, статья в данном сборнике.
!23

СИСТЕМА ВИРТУАЛЬНОЙ ИНТЕГРАЦИИ
БИБЛИОГРАФИЧЕСКИХ ДАННЫХ

А.М. Сенько, М.М. Якшин
(БЕН РАН)

В настоящее время в мире накоплены значительные объемы информации. Все большее число людей при поиске информации обращаются к сети Интернет. При этом им приходится работать со множеством разнообразных коллекций и баз данных, предоставляемых различными организациями. Эти коллекции сильно различаются между собой по структуре, тематической направленности, полноте представляемых данных. Таким образом, желание пользователя работать с сетью Интернет как с единым источником информации не находит отражения в текущем положении дел. Многочисленные каталоги и поисковые машины также не решают эту проблему.

Многие организации сталкиваются с необходимостью предоставления доступа к своим информационным ресурсам в режиме онлайн. Часто для решения этой задачи разрабатывается специальная система, ориентированная на работу с конкретным информационным массивом. Примерами такого подхода являются, в частности, многочисленные системы работы с библиографической информацией. Такие системы обычно предоставляют пользователям специализированные интерфейсы доступа к данным, позволяющие получать детальную информацию, содержащуюся в поддерживаемой базе данных. В то же время, при работе с такими системами пользователь может столкнуться с рядом проблем, затрудняющих поиск информации. Эти проблемы могут быть вызваны различными причинами, в том числе:

В применении к библиографическим системам можно сказать, что это создает трудности для большинства научных работников и студентов, плотно работающих с литературой.

Сказанное выше обусловливает целесообразность разработки комплекса программ и форматов, позволяющих работать с базами данных информационных ресурсов, различными по структуре и содержанию, используя при этом универсальный интерфейс доступа.

В настоящее время получили распространение три основных подхода к интеграции разнородных коллекций:

Последний подход возник относительно недавно и был выбран в качестве основного при создании описываемой системы виртуальной интеграции библиографических данных.

Существует уже множество реализаций подобных систем. Получившей наибольшее распространение основой для них можно считать протокол Z39.50, пользующийся достаточной популярностью. Z39.50 - достаточно старый стандарт, и в целом он оправданно поддерживается во множестве библиографических систем по всему миру. Но, несмотря на все свои достоинства, у него есть существенные недостатки, к которым можно отнести, в первую очередь, его чрезмерную ориентированность на MARC-форматы, которые также устарели и медленно замещаются теперь форматами, базирующимися на XML. Хотя Z39.50 имеет средства передачи XML, он никак не использует преимущества таких форматов, фактически передавая XML, точно так же, как и любую другую информацию - без разбора в бинарном виде.

Но современные технологии не стоят на месте и появляются все новые подходы для организации транспортного уровня для систем подобного класса. В качестве одного из таких решений выступает протокол XMPP/Jabber - не так давно разработанный на базе системы мгновенного обмена сообщениями (сходной с популярной ICQ), а сейчас эволюционировавший в полноценный транспортный протокол XML-роутинга.

Описываемая система является рабочим прототипом системы, показывающей основные возможности и преимущества решений на основе Jabber. Так как схема клиент-серверного взаимодействия на этой платформе разработана уже довольно давно, и существуют значительные объемы соответствующих программных средств и развитая система полезных дополнений (в частности, система JEP'ов - Jabber Enhancement Proposals - предложений о расширении Jabber), платформа обеспечена готовыми решениями, например, для обеспечения безопасности соединений посредством механизмов SSL и PGP, межсерверного обмена, распределения и балансировки нагрузки и многими другими современными атрибутами.

В задачу настоящего проекта входило создание действующего минимального прототипа системы, предоставляющего универсальный интерфейс доступа к гетерогенным библиографическим базам данных. На этом этапе не рассматривались проблемы объединения результатов распределенного поиска, полученных от нескольких баз данных, их ранжирования и т.п.

Основными задачами проекта являлись следующие:

  1. Организация серверной части проекта - транспорта для Jabber-сервера и модуля-конвертера для него, обеспечивающего работу с одной базой данных;
  2. Создание удобного интерфейса клиентской части системы для создания поисковых запросов;
  3. Преобразование на клиентской стороне полученных данных из глобальной схемы системы в локальную.

Основой системы виртуальной интеграции является единый формат передачи данных (и, соответственно, единая схема данных). Разработанная система ориентирована на работу с информационными ресурсами, в частности, с библиографическими данными. В связи с этим к формату предъявляются следующие требования:

Так как система носит экспериментальный характер и в ней сделана попытка воплотить совокупность сразу нескольких идей (в частности, на идеологии схемы данных базируется пользовательский интерфейс поиска), было принято решение основывать формат на чистом XML (без использования популярных сейчас расширений RDF, которые бы излишне усложнили обычную древовидную структуру). Для использования в системе был разработан формат, получивший рабочее название BibXML. В основе этого формата лежит идея о том, что каждый ресурс может содержать описания связанных с ним объектов (персон, организаций, других ресурсов), а также набор простых атрибутов (заглавия, даты и пр.).

Формат разрабатывался, базируясь на трех основных первоисточниках: библиографических ГОСТах, описании форматов типа MARC и рекомендациях IFLA. Формат ориентирован на сущности. Каждая сущность ("ресурс", "человек" или "организация") обозначается одним XML-элементом. Так как формат ориентирован на представление библиографической и связанной с ней информации, на верхних уровнях введены сущности, возвращаемые в запросе, такие как "ресурс-статья", "ресурс-книга", "ресурс-сериальное издание" и т. п. Внутрь каждой сущности вкладываются все сущности, имеющие отношение к ним. Так, например, в сущность "ресурс" на верхнем уровне могут вкладываться описания автора ("человек"), издательства ("организация"). В более сложных случаях в ресурс могут вкладываться другие ресурсы (например, в ресурс типа "многотомное издание" могут быть вложены ресурсы типа "отдельные тома").

Одна и та же сущность, например, "человек", всегда задается одним и тем же элементом (в данном случае - "person"). Если сущность исполняет некую роль в данном контексте, например, человек является автором, то это отражается XML-атрибутами, например - type="author". Атрибут type предоставляет формализованную возможность задания роли сущности, т.е. в DTD формата прописаны все возможные константы-значения атрибута type. В случае, если необходимо определить какую-то разновидность роли, сложно формализуемую, можно использовать атрибут role, который позволяет задавать неформализованные описания в виде обычного текста.

Пример библиографического описания в формате BibXML приведен ниже. Этот пример описания взят из приложений к ГОСТ 7.1-84:

<?xml version = '1.0'?>

<!DOCTYPE resource SYSTEM "bibxml.dtd">

<resource type="book">

<person type="author">

<name type="first">Владимир</name>

<name type="father">Ильич</name>

<name type="last">Ленин</name>

</person>

<title type="main">Задачи союзов молодежи: (Речь на III Всерос. съезде Рос. Ком. Союза Молодежи 2 окт. 1920 г.)</title>

<place type="publication">М.</place>

<organization type="publisher">

<name>Политиздат</name>

</organization>

<date type="publication">

<year>1982</year>

</date>

<pages units="pages">169</pages>

<pages units="sheets" role="ил.">1</pages>

<size type="height" units="cm">17</size>

<comment>Текст на одной стороне л.</comment>

<price units="roubles">0.35</price>

<quantity>10000</quantity>

</resource>

Предложенный формат выполняет двоякую роль: он используется для составления в его терминах запросов (универсализация языка запросов и использование некоторых правил обработки запросов - см. ниже) и для возвращения результатов. Как будет показано ниже, четкая древовидность формата используется для создания оригинального интерфейса клиента.

Рассмотрим общую структуру системы, представленную на рис. 1.

Рис.1

Основой системы, как и любой системы, основанной на XMPP/Jabber, является связка Jabber-сервера и Jabber-клиента. Все сущности, обменивающиеся XML-пакетами в XMPP/Jabber, имеют свой уникальный идентификатор, т.н. Jabber ID или JID, который обычно выглядит как адрес e-mail: user@host. Jabber-сервер используется любой стандартный, поддерживающий механизм подключения к нему дополнительных модулей через механизм connect/accept. В данном случае, такой подключаемый модуль, т.н. "транспорт", предоставляет пространство виртуальных JID'ов, по одному на каждую поддерживаемую базу данных. Запрос от пользователя в данном случае отправляется с JID'а пользователя вида user@host на JID базы данных вида db@transport.host, поддерживаемой транспортом. В случае необходимости посылки запроса сразу нескольким базам данных, JID'ы могут объединены в группы, которым можно посылать запрос.

Cерверная часть системы виртуальной интеграции (транспорт) состоит из ядра и модулей для каждой обслуживаемой базы данных.

Ядро выполняет следующие функции:

Модули баз данных содержат конвертеры внутреннего представления библиографических данных в формат BibXML и обратно, а также средства работы с БД.

Поскольку сервер BibXML не имеет никакой информации относительно структуры базы данных библиографических описаний, с которой он взаимодействует, необходимо использовать промежуточный слой, т. е. модуль, отвечающий за преобразование запроса в формате BibXML в запрос, специфичный для обслуживаемой им базы данных, его выполнение и выдачу результатов в формате BibXML. Таким образом, данный модуль выполняет инкапсуляцию обслуживаемой базы данных, позволяя серверу обращаться к любой базе данных, используя универсальный интерфейс, предоставляемый форматом BibXML.

В принципе, к серверу можно обращаться и с помощью обычного, неспециализированного клиента Jabber, но это крайне неудобно, так как приходящие сообщения-ответы и отправляемые сообщения-запросы придется составлять вручную на XML. Основная задача рядового пользователя - поиск информации, поэтому для него намного лучше использовать специализированный клиент.

Для решения этой задачи был проведен анализ используемых для поиска интерфейсов пользователя, причем основными двумя критериями были простота использования при сохранении возможности создания достаточно сложных, детализированных запросов.

Можно выделить три типа наиболее распространенных пользовательских интерфейсов для поиска:

Для описываемой системы был разработан клиент, предоставляющий универсальный интерфейс для составления поисковых запросов, базирующийся на логике формата BibXML и способный представлять принимаемые ответы на запросы в виде стандартных библиографических описаний по ГОСТ 7.1-84. Пользовательский интерфейс выглядит следующим образом: в окне строится дерево всех сущностей, имеющих соответствующие элементы XML в формате, причем, так как фактически дерево бесконечно рекурсивное, строится оно динамически по запросам пользователя. Каждому узлу дерева пользователь может поставить в соответствие строку поиска, причем при поиске действуют следующие правила:

Такой интерфейс поиска, построенный на базе созданного XML-формата, позволяет решить основные задачи, поставленные выше перед поисковой системой - обеспечение простоты формулировки запросов для конечного пользователя и возможности выполнения достаточно сложных запросов.

После посылки запроса перед клиентом стоит вторая задача - прием ответов и интерпретация их в стандартном виде в соответствии с ГОСТ 7.1-84.

Так как клиент получает от сервера записи в XML-формате, эта задача достаточно элегантно решается с помощью XSLT - стилей трансформаций XML-документов. Было разработано несколько шаблонов для преобразования XML-формата в библиографическое описание. Базовый шаблон - ресурс - вызывает по очереди шаблоны, которые собирают все необходимые области библиографического описания. Полученный в результате трансформации документ является HTML-представлением стандартного описания, которое и выводится пользователю как результат поиска.

Описанные подходы были реализованы в виде системы, обеспечивающей поиск и передачу библиографической информации. Эта система может рассматриваться в качестве прототипа для исследования возможностей создания более сложных систем с использованием вышеназванных технологий. Как показала практика, использование в качестве транспортного уровня XMPP/Jabber значительно упрощает построение подобных систем и предоставляет достаточно много дополнительных возможностей по сравнению с другими известными подходами. В частности, разработанная концепция системы позволяет в дальнейшем легко наращивать функциональность, добавляя для пользователей возможности не только поиска, но и заказа изданий, получения их полных текстов и т.п. Для библиотекарей может быть реализована возможность удаленного редактирования и администрирования баз данных. При реализации распределенного поиска могут быть проще решены задачи объединения различных ответов от серверов и ранжирования данных за счет готового транспортного уровня, основанного на XML. В текущей реализации системы доступны Jabber-транспорт (BibXML-сервер) и отдельный специализированный Jabber-клиент. В перспективе возможно создание большего разнообразия клиентов на различных платформах (при этом существенно упрощается процесс создания клиентов для минимальных встроенных платформ - карманных ПК, мобильных телефонов и т.п.) и расширение функциональных возможностей системы.

!24

СОВЕРШЕНСТВОВАНИЕ СИСТЕМЫ
ЦЕНТРАЛИЗОВАННОГО КОМПЛЕКТОВАНИЯ
ОТЕЧЕСТВЕННОЙ ЛИТЕРАТУРОЙ НА БАЗЕ
ИСПОЛЬЗОВАНИЯ СЕТЕВЫХ ТЕХНОЛОГИЙ

З.Г. Дмитриева, Е.В. Кочукова, В.С. Наумова
(БЕН РАН)

Библиотека по естественным наукам (БЕН) РАН, возглавляя централизованную библиотечную систему (ЦБС) РАН, формирует фонды библиотек академических институтов в соответствии с направлениями их научно-исследовательских работ. Основой заказа литературы для каждой библиотеки является тематико-типологический план комплектования (ТТПК). ТТПК библиотек в целом определяет тематику, типы и виды приобретаемых в фонды изданий.

Динамичность развития науки и техники на современном этапе приводит к быстрому изменению информационных потребностей сотрудников РАН, а значит, и к необходимости оперативного изменения ТТПК библиотек. Несоответствие ТТПК информационным потребностям учёных приводит к образованию пробелов в фонде, к накоплению непрофильной литературы. Особенно остро проблема поддержки актуальных ТТПК стоит при комплектовании иногородних НИУ РАН, поскольку отбор литературы для них осуществляется без участия ученых и представителей библиотек - эта работа делегирована ими комплектаторам Центральной библиотеки (ЦБ).

Осуществлять оперативное отслеживание имеющихся ТТПК реальным информационным потребностям ученых традиционными методами становится просто невозможно, если учесть, что в настоящее время ЦБС БЕН РАН объединяет около 150 библиотек НИУ РАН, рассредоточенных на всей территории России, исследования в которых ведутся по всем направлениям естественных и точных наук. Поэтому в БЕН РАН ведутся активные работы по созданию автоматизированной интерактивной системы поддержки ТТПК [1]. Одной из проблем, с которой пришлось столкнуться в ходе работы - это проблема формирования каждой библиотекой своего ТТПК по единым правилам. Специалистами ЦБ БЕН РАН были разработаны и предложены библиотекам единые для всех правила формирования ТТПК. ТТПК должен включать тематические разделы, отражающие направления работы НИУ, индексированные по Универсальной десятичной классификации (УДК), с указанием по каждому из них типов изданий (справочники, учебники и т.д.), а также оценки, характеризующие важность каждого типа для данной библиотеки. В настоящее время разработан пакет прикладных программ, работающий в среде MS WINDOWS-2000, с помощью которого осуществляется ввод кодов библиотек, индексов УДК, соответствующих рубрикам тематического плана каждой библиотеки, ввод типов изданий, необходимых библиотекам по каждому тематическому направлению, а также важности издания. Дружественный диалоговый интерфейс позволяет избежать ошибок при вводе кода библиотеки, типа и важности издания. Индекс УДК вводится в соответствии с таблицами Универсальной Десятичной Классификации, после чего пользователь автоматически попадает в окно выбора типа издания, что исключает ошибки при вводе. В данной системе типы изданий могут принимать три значения: научное, справочное и учебное, а также комбинацию из них. Аналогично пользователь выбирает из выпадающего списка значение важности издания. Важность издания оценивается по трёхбалльной шкале от 1 до 3, максимальная оценка - 3. Кроме того, система позволяет осуществлять просмотр и корректировку введенной информации, т.е. удалять и добавлять записи, изменять ранее введенную информацию. Файлы, содержащие ТТПК, полученные от различных библиотек, объединяются в единую базу данных ТТПК ЦБС БЕН с помощью специальной программы. Все программные средства системы ввода ТТПК разработаны в среде визуального программирования С++ Builder 5.0.

Как уже отмечалось выше, вопрос оптимального комплектования наиболее остро стоит для иногородних библиотек, так как представители московских библиотек дважды в месяц имеют возможность в ЦБ знакомиться с изданиями, полученными из РКП и издательств, что несколько снимает остроту этой проблемы для них. Поэтому на первом этапе для отработки технологии формирования ТТПК были выбраны несколько многопрофильных иногородних библиотек крупных научных центров, таких как: Центральная научная библиотека Кольского научного центра, Научная библиотека Карельского научного центра РАН, Библиотека Самарского научного центра, Научная библиотека Уфимского научного центра УроРАН. Кроме того, инсталляционные версии системы, обеспечивающие формирование ТТПК, были переданы ряду библиотек сети БЕН РАН, таким как: Отдел БЕН РАН в Институте спектроскопии РАН, Библиотека Института прикладной физики РАН, Библиотеке Института биологии внутренних вод РАН. Надо заметить, что предложения специалистов БЕН РАН о формировании ТТПК в автоматизированном режиме вызвали большой интерес на местах. Библиотеки с большим энтузиазмом включились в работу, понимая, что её положительный результат, прежде всего, важен для них.

Не вызывает сомнений то, что сегодня, в условиях нерегулярного и недостаточного финансирования, часто меняющегося и нестабильного книжного рынка необходимо приблизить процесс комплектования к пользователю информацией (в данном случае - к ученому), обеспечивая формирование оптимального (в смысле максимальной информативности) для пользователей фонда каждой библиотеки. Эту задачу, опираясь на возможности сетевых технологий, поставила перед собой БЕН РАН, приступив к реализации соответствующего проекта, поддержанного РГНФ (грант 02-05-12022). В рамках этого проекта отрабатывается технология использования Интернет и баз данных РКП для сбора сведений о планируемых к выходу и уже вышедших изданиях, тематического информирования о них библиотек ЦБС, а также технология интерактивного формирования заказов на издания с контролем по действующим ТТПК.

На сегодняшний день полностью разработана система ввода и корректировки БД ТТПК, система поиска информации по УДК и ключевым словам, отлажен процесс комплектования. Продолжается работа с библиотеками ЦБС по внедрению новой технологии комплектования.

Литература.

  1. З.Г. Дмитриева, Я.Я. Докторов. Развитие системы формирования тематико-типологических планов комплектования (ТТПК). // Новые технологии в информационном обеспечении науки: Сб. науч. тр. - М., 2001.
!25

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
АВТОМАТИЗАЦИИ РАСПРЕДЕЛЕНИЯ
ЛИТЕРАТУРЫ В ЦБС БЕН РАН

З.Г. Дмитриева, Я.Я. Докторов
(БЕН РАН)

Одной из основных задач БЕН РАН является комплектование библиотек ЦБС. Комплексная автоматизация этого процесса позволяет не только облегчить труд библиотечного работника, но также оптимизировать распределение отечественной и зарубежной литературы, опираясь на определенные критерии с использованием тематико-типологических планов комплектования (ТТПК) библиотек и базы данных индексов УДК с названиями рубрик. Если заказ на издание выполнен не полностью, т.е. количество поступивших экземпляров меньше предварительно заказанного, комплектатор должен выбрать те библиотеки, среди которых он собирается распределить данные экземпляры. Кроме того, иногда возникает необходимость осуществлять комплектование литературой, ранее не объявленной в тематических планах издательств. Таким образом, система должна советовать комплектатору, каким именно библиотекам выделить поступившую литературу.

Алгоритм распределения литературы по ЦБС БЕН.

  1. Ввод УДК или фрагмента текста заглавия поступившего издания.
  2. Поиск в БД сигл библиотек, заказавших литературу по данной тематике.
  3. Вывод на дисплей сигл библиотек-претендентов на поступившее издание в порядке приоритета.
  4. Выбор комплектатором количества библиотек, равное количеству экземпляров полученного издания, основываясь на рекомендациях системы.

Первым шагом на пути реализации системы комплектования является создание базы данных ТТПК ЦБС БЕН. Для этого разработан пакет прикладных программ в среде WINDOWS 2000 с использованием компилятора C++ Builder, с помощью которого осуществляется ввод кодов библиотек, индексов УДК, соответствующих рубрикам тематического плана каждой библиотеки, ввод типов изданий, необходимых библиотекам по каждому тематическому направлению, а также важности издания. Дружественный диалоговый интерфейс позволяет избежать ошибок при вводе кода библиотеки, типа и важности издания. Индекс УДК вводится в соответствии с таблицами Универсальной Десятичной Классификации, после чего пользователь автоматически попадает в окно выбора типа издания, что исключает ошибки при вводе. В данной системе типы изданий могут принимать три значения: научное, справочное и учебное, а также комбинацию из них. Аналогично пользователь выбирает из выпадающего списка значение важности издания. Важность издания оценивается по трёхбальной шкале от 1 до 3, максимальная оценка - 3. Кроме того, система позволяет осуществлять просмотр и корректировку введенной информации, т.е. удалять и добавлять записи, изменять ранее введенную информацию. Файлы, содержащие ТТПК, полученные от различных библиотек, объединяются в единую базу данных ТТПК ЦБС БЕН с помощью специальной программы, разработанной для этой цели на С++Builder.

Автоматизация процесса комплектования предполагает наличие базы данных индексов УДК с названиями рубрик. Работа по созданию указанной базы данных проводится совместно с отделом систематизации БЕН РАН. Для формирования БД индексов УДК с названиями рубрик в нужном формате разработаны соответствующие программы.

Для поиска информации в БД индексов УДК был разработан пакет прикладных программ под WINDOWS 2000. Он позволяет искать в базе данных индексы УДК, соответствующие им тексты рубрик, а также сиглы библиотек, в тематический план которых входит УДК поступившего издания. Программы написаны с использованием компилятора C++Builder. В предыдущей версии системы запрос на поиск производился только по одному из трёх поисковых полей, а именно:

  1. УДК;
  2. Слова из рубрики;
  3. Начало рубрики.

В результате проведённой модификации пакета прикладных программ расширен запрос на поиск:

!26

КОНТРОЛЬ ТЕХНОЛОГИЧЕСКИХ
ПРОЦЕССОВ В АВТОМАТИЗИРОВАННОЙ
СИСТЕМЕ БЕН РАН

Н.Е. Калёнов, С.А. Власова, Т.Н. Соловьёва
(БЕН РАН)

В основе любой системы управления лежит обработка "обратной связи", без которой нормальное функционирование системы невозможно. Не являются исключением и автоматизированные библиотечные системы. Библиотека, представляет собой, по сути, непрерывное производство, конечным продуктом которого является литература, поступающая в фонды, и справочный аппарат, формируемый на основе её обработки. Одним из видов данных "обратной связи" для научной библиотеки являются сведения об использовании литературы, приобретенной библиотекой, на основании которых корректируются тематико-типологические планы комплектования и, как следствие, - потоки текущих поступлений изданий в фонды, а также решаются проблемы, связанные с расстановкой фондов и организацией обслуживания читателей. Другим видом данных "обратной связи", который имеет достаточно важное значение для крупных библиотек, являются сведения о сроках обработки текущих поступлений литературы, которые позволяют принимать управленческие решения, направленные на обеспечение максимальной оперативности предоставления информации читателям.

Библиотека по естественным наукам (БЕН) РАН обеспечивает комплектование около 150-ти библиотек институтов и научных центров РАН, входящих в её централизованную систему (ЦБС), и централизованную обработку всех поступающих изданий. С момента своей организации в 1973-м году БЕН придавала большое значение задачам оптимизации потоков приобретаемой литературы (в смысле максимального соответствия информационным потребностям пользователей - сотрудников РАН), и максимального сокращения сроков обработки поступающих изданий. Для решения первой задачи в рамках автоматизированной системы БЕН накапливаются данные "обратной связи", содержащие сведения о выдаче литературы по всем каналам обслуживания. Для их ввода и обработки разработан специальный программный комплекс, позволяющий получать в различной комбинации данные, включающие наименование, год выхода издания, время поступления запроса (год, месяц, неделя), вид заказа (оригинал, ксеро-, микро- или электронная копия), канал выдачи (читальный зал, копирование материалов. межбиблиотечный абонемент), сведения о заказчике (код организации, квалификация, специальность) . Эти данные являются основой автоматизированной системы оптимальной подписки на периодические издания "JADE" (Journal Acquisition Design), разработанной и эксплуатирующейся в БЕН РАН с 1997 года [1].

Вторая задача связана с организацией технологии внутри библиотеки. С 1993-го года все технологические процессы в БЕН выполняются в автоматизированном режиме (в Библиотеке используется автоматизированная система (АС) НАУКА [2], разработанная специалистами БЕН). Информация о каждом издании отражается в технологической базе данных (ТБД) с момента предварительного заказа и постепенно наращивается вплоть до передачи издания в фонды и загрузки библиографических записей в сводный электронный каталог. Учитывая необходимость решения управленческих задач, разработчики АС НАУКА заложили в структуру ТБД по каждой операции информацию о дате её совершения и сотруднике, её выполнившем. По изданию каждого наименования в процессе обработки регистрируются следующие операции: предварительный заказ, поступление, каталогизация, систематизация, шифровка. Технология обработки литературы в БЕН организована так, что один сотрудник выполняет определенную операцию с партией книг. При работе с системой дата совершения каждой операции вводится в соответствующую запись базы данных автоматически из компьютера и преобразуется в целое число вида ГГММДД, где ГГ - две последние цифры года, ММ -номер месяца, ДД - номер дня в данном месяце. Свой код сотрудник вводит однократно в процессе авторизации при вызове программы, обеспечивающей выполнение данной операции, и в дальнейшем автоматически заносится в поле каждой обрабатываемой записи, соответствующее данной операции. Шифровка является заключительной операцией, после выполнения которой партия литературы передается в отдел фондов, поэтому её выполнение означает завершение цикла "пути книги".

Для получения из ТБД различных сведений в различной комбинации в составе АС НАУКА имеется специальная универсальная программа NST. Она позволяет строить достаточно сложные запросы, в которых могут участвовать до 19-ти полей (или их фрагментов) управленческого характера, обязательных для каждой записи; выводить записи, соответствующие запросу, на экран компьютера или выгружать их в виде отдельного фрагмента технологической базы данных.

Наличие вышеупомянутых параметров в ТБД позволяет получать сведения о количестве изданий, поступивших и (или обработанных) в ЦБС БЕН РАН за любой промежуток времени, о количестве изданий, обработанных тем или иным сотрудником, и т.п. Эта информация, сама по себе, позволяет принимать управленческие решения, однако наибольший интерес представляет контроль сроков выполнения отдельных операций, поскольку их анализ позволяет выявить "узкие" места в технологии и соответствующим образом её видоизменить.

Срок выполнения той или иной операции (или группы последовательных операций) по каждому изданию представляет собой, фактически, разность дат, занесенных в определенные поля базы данных. Эту разность можно было автоматически вычислять и хранить в специальных полях ТБД, однако на этапе разработки АС НАУКА это было признано нецелесообразным, поскольку, с одной стороны, данные о сроках обработки литературы нужны достаточно редко (обычно они анализируются раз в квартал по текущим поступлениям), а с другой - для их вычисления в ТБД имеется необходимая информация. Постоянное хранение этих полей только "замусорит" базу, поэтому для оценки сроков выполнения отдельных операций и полного цикла обработки изданий была разработана специальная технология и соответствующее программное обеспечение.

Технология состоит в следующем. Программой NST формируется фрагмент ТБД, соответствующий анализируемому периоду (например, выбираются все издания, поступившие с января по июнь 2003 года). Сформированный фрагмент обрабатывается специальной программой, которая вычисляет разность соответствующих дат и вносит полученные целые числа в соответствующие записи, не изменяя их структуру. Полученная в результате этого база данных может обрабатываться программой NST. Не прибегая к специальным средствам, можно проанализировать, сколько обработано литературы за 1день, за 10дней, за 20 дней и т.д.

Данные анализа сроков обработки литературы на начальном этапе внедрения АС НАУКА послужили основой для коренной реорганизации организационной структуры БЕН, что позволило существенно сократить промежуток времени между поступлением изданий в Библиотеку и предоставлением их читателям. Этот промежуток, в среднем, не превышает 3-х недель, что для такой крупной библиотеки, как БЕН РАН, достаточно оперативно. Подобный анализ, проведенный в последнее время, выявил группу изданий, срок обработки которых существенно превышал средние цифры. Причина этого достаточно оперативно была найдена и ликвидирована.

Таким образом, регулярный анализ данных "обратной связи" позволяет управлять библиотечной технологией, обеспечивая оперативное информационное обеспечение пользователей.

Литература

  1. Гиацинтов О.М., Калёнов Н.Е., Козлова Е.И. Модель формирования оптимального заказа на научные журналы для фондов БЕН РАН // Информационное обеспечение науки: Новые технологии. - М., 1997. - С. 118 - 124
  2. Калёнов Н.Е. Двухуровневая автоматизированная система ЦБС // Автоматизированные инфомационно-библиотечные системы / VI Сибирский науч. семинар с междунар. участием. Новосибирск, 1-6 июля 1996 г. - Новосибирск, 1996. - С. 23-25
!27

КОНВЕРТИРОВАНИЕ БИБЛИОГРАФИЧЕСКИХ
ОПИСАНИЙ В ФОРМАТ RUSMARC

О.Д. Каллистратова
(БЕН РАН)

В современных корпоративных библиотечных системах, так же как и в сводных электронных каталогах, MARC-форматы остаются необходимым средством унифицированного обмена библиографической информацией. При этом в Российских библиотечных системах в качестве основного формата обмена общепринята и обязательна русская версия формата UNIMARC - RUSMARC (www.rba.ru:8101/rusmarc).

Однако MARC-форматы недостаточно удобны как для создания новых записей, так и для просмотра найденных данных в различных поисковых системах из-за сложности, громоздкости и недостаточной наглядности представления информации. На наш взгляд, в автоматизированных библиотечных системах гораздо удобнее использовать более простые и наглядные форматы представления информации, например, аналоги библиографического описания или карточки, а при обмене данными автоматически конвертировать информацию в MARC-форматы по требованию клиентов других систем.

Именно по такому принципу построены каталоги автоматизированной системы БЕН РАН (АС НАУКА), в которых для ввода и представления информации используются удобные форматы, аналогичные библиографическим описаниям, а в другие системы информация передается с помощью программ конвертирования из внутренних форматов каталогов БЕН. Например, для участия БЕН РАН в проекте создания и поддержки системы российских сводных каталогов (РСК), возглавляемой ГПНТБ России, были разработаны программы пакетного конвертирования информации в согласованный с ГПНТБ вариант формата RUSMARC. С помощью этих программ информация о литературе, поступающей в фонды БЕН РАН, в течение последних лет регулярно передается в ГПНТБ и загружается без проблем в систему РСК.

Построение современных корпоративных библиотечных систем с одновременным поиском в различных базах данных потребовало разработки новой технологии для корпоративного доступа к электронным каталогам БЕН РАН. Основные результаты разработки этой технологии с использованием протокола Z39.50 были описаны в [1,2]. Дополнительным результатом этой разработки явилось создание специальной функции автоматического конвертирования информации из библиографического описания в формат RUSMARC, и её последующее включение в динамическую библиотеку Z-сервера БЕН для представления в корпоративной среде информации из каталога книг и продолжающихся изданий БЕН РАН.

В этом каталоге для ввода и хранения информации используется формат, аналогичный формату библиографического описания (БО) или карточки. При этом текст БО вводится подряд без разбиения на поля, требующего специальной квалификации библиографа, но с соблюдением всех знаков и абзацных отступов, обычно присутствующих на карточке (или предусмотренных ГОСТом, если информация вводится с издания). Для дополнительной информации, например, шифров хранения БЕН и дат составления записей, а также рубрик ГРНТИ и переводов заглавий зарубежных изданий, требуемых в системе РСК, предусмотрен ряд полей, в которые информация вводится в форме, аналогичной вводу БО. Таким образом, в каталоге в удобном виде содержится вся информация, необходимая для формирования записей в MARC-формате.

Основу новой функции автоматического конвертирования БО в формат RUSMARC составила программа пакетного конвертирования массива записей БО, ранее разработанная сотрудником БЕН РАН Васильчиковым В.В. [3]. Эта программа позволяет разбирать БО, представленные в соответствии с ГОСТ 7.1-84, по областям и элементам и формировать из них файлы записей в формате RUSMARC. Алгоритм использует характерные и формальные признаки различных областей и элементов описаний и основан на следующих требованиях:

порядок следования и разделители областей БО должны соответствовать ГОСТу,

должны присутствовать все элементы, обязательные с точки зрения ГОСТа, язык заглавия и текста издания - любой, текст БО - русский.

Программа-прототип достаточно надежно конвертирует библиографические описания, соответствующие описанным выше требованиям, но весьма критична к неявным ошибкам в характерных признаках элементов и разделителях областей БО. Поэтому при разработке новой функции потребовалась существенная доработка алгоритма, чтобы довести надежность конвертирования записи в запись до 100%, как это необходимо в современных корпоративных поисковых системах.

В первую очередь в алгоритм были введены методы возможной корректировки типичных и малозаметных ошибок в разделителях областей БО. Также был максимально усилен формально-логический контроль при разборе БО по областям и элементам для повышения качества конвертирования. Структура функции была значительно модифицирована как для расширения возможностей её применения, так и для удобства отладки.

При анализе БО алгоритм использует различные словарные наборы характерных элементов и признаков БО. Как показала практика, корректность идентификации различных областей БО сильно зависит от содержания этих наборов. В частности это касается наличия в БО типичных сокращений слов, регламентируемых ГОСТ 7.12-77 и ГОСТ 7.11-78. При отладке алгоритма наборы характерных слов и сокращений были частично перестроены, а также дополнены новыми элементами, как на русском, так и на некоторых других языках.

Необходимо отметить, что при неполной информации БО правильное формирование некоторых полей по формальным признакам остается довольно сложным. Так, определение языка заглавия и текста издания (поле 101 RUSMARC) только по косвенным признакам (например, написанию места издания) оказывается не всегда правильным. Для изданий многоязычных стран, а также для документов, изданных на языках, отличных от основного языка места и страны издания, необходимо явно указывать язык издания в БО.

Разработанная функция автоматического конвертирования библиографического описания в формат RUSMARC была многократно проверена на 61920 записях из реального каталога книг БЕН РАН и показала достаточно качественные и надежные результаты. Она может использоваться как в пакетных программах, так и в динамических приложениях. Кроме того, структура функции легко позволяет совершенствовать алгоритм конвертирования и практически сразу обновлять его применение в различных технологиях.

В результате разработки были реализованы два варианта использования данной функции конвертирования БО в RUSMARC. Во-первых, был создан новый пакетный конвертер, который в настоящее время используется при передаче данных в сводный каталог ЛИБНЕТ.

Во-вторых, была достигнута главная цель разработки - внедрение данной функции в механизм поиска по протоколу Z39.50 в каталоге книг и продолжающихся изданий БЕН РАН с конвертированием найденной информации "на лету" в форматы RUSMARC и UNIMARC.

Результаты автоматического конвертирования БО в формат RUSMARC можно посмотреть в корпоративных поисковых системах и проверить при поиске в каталоге книг и продолжающихся изданий БЕН РАН через следующие шлюзы WWW-Z39.50:

Литература.

  1. Каллистратова О.Д. Z39.50 и каталог журналов БЕН РАН // Новые технологии в информационном обеспечении науки / Сборник научных трудов. - Москва 2001. - С.110-114
  2. Варакин В.П., Власова С.А. Использование протокола Z39.50 в БЕН РАН // Новые технологии в информационном обеспечении науки / /Сборник научных трудов. - Москва, 2001. - С.115-117
  3. Васильчиков В.В. Преобразование библиографического описания в формат UNIMARC // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества / Материалы 2-ой междунар. конф. "Крым-95"; Евпатория; 10-18 июня 1995 г. - М., ГПНТБ России, 1995. - Т. 2. - с. 141-144
!28

MОДЕЛЬНАЯ ВЕРСИЯ ПРОГРАММНОГО
ОБЕСПЕЧЕНИЯ СИСТЕМЫ ОБРАБОТКИ
СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ БЕН
РАН ДЛЯ WINDOWS 2000

В.П. Варакин
(БЕН РАН)

Разрабатываемая в БЕН РАН автоматизированная система обработки статистической информации призвана решать задачи оперативного контроля прохождения технологических процессов в библиотеке, анализа информационных потребностей обслуживаемых институтов и формирования основы для принятия решений по рациональному использованию выделяемых бюджетных средств при комплектовании фондов. Создаваемая система должна быть открыта для расширения функциональных возможностей с целью дальнейшей реализации подсистем, использующих методы многомерного анализа, кластерного анализа, статистического прогнозирования, и обеспечивать информационную совместимость с существующими пакетами обработки статистики (SPSS [1], STATISTICA [2], и др.).

В процессе предпроектных исследований осуществлен выбор средств программирования для реализации системы, которая должна функционировать в среде корпоративной сети БЕН РАН, базирующейся на технологиях Microsoft.

Реализации модельной версии системы предшествовал ряд тестовых разработок с использованием Microsoft Visual C++ 6.0 [3], Microsoft Visual Java ++ 6.0 [4], Microsoft Visual Basic 6.0 [5], Microsoft Access 2000 [6], Microsoft Visual FoxPro 6.0 [7], Borland C++Builder 5.0 - 6.0 [8], Borland JBuilder 7.0 [9].

При выборе системы управления базами данных учитывались следующие требования:

Перечисленным выше требованиям удовлетворяет MS SQL Server 7.0/2000 [12, 13], который выполняет соответствующий набор функций обслуживания баз данных, необходимых при реализации системы обработки статистической информации.

Программное обеспечение модельной версии системы строится на основе современных INTERNET/INTRANET-технологий с использованием средств Visual Studio 6.0. и Microsoft Office 2000. Функции основной системы управления базами данных выполняет Microsoft SQL Server 7.0..

Разработанная модельная система (МС) функционирует в операционной среде Windows 2000 Server [14].

На сегодняшний день созданы программные средства, обеспечивающие работу контура ввода, контура выборки, а также контура вывода данных МС, которая реализует свои функции в среде INTRANET БЕН РАН. При разработке системы существенно используется технология ASP [15]. В качестве базовых средств программирования избраны JavaScript и VBScript. При взаимодействии с БД используется провайдер данных Microsoft.jet.OLEDB.4.0..

В базу данных, поддерживаемую MS SQL Server 7.0., загружена информация, накопленная за 2000 -2003 г.г. действующей системой обработки статистики (реализована ранее в MS DOS). Успешно проведены тестовые выборки из нескольких баз данных за 2002 - 2003 г., сформированных посредством конвертирования данных в БД MS SQL Server 7.0.

Модельная версия системы обработки статистики представляет собой совокупность функционально связанных активных страниц, содержащих коды программ, HTML-спецификации и вызовы серверных расширений IIS 5.0 [16], в том числе расширений Microsoft FrontPage 2000 [17]. Для формирования таких страниц используются средства Microsoft FrontPage 2000 и средства Microsoft Visual InterDev 6.0 [18].

В процессе создания модельной версии системы реализован интерфейс для выборки данных, который, при некоторой модификации, может использоваться в ИС, имеющих иное целевое назначение, например библиографических ИС, если они ориентированы на хранение данных в БД, поддерживаемых MS SQL Server.

Главная страница модельной версии системы (Рис. 1) содержит форму для спецификации запросов на выборку данных и определения состава выводимых полей результирующих таблиц (в том числе виртуальных полей SUM и COUNT), а также вызовы исполнительных страниц, реализующих ввод или удаление данных в/из БД системы. В системе предусмотрены возможности сохранения результатов поиска и вывода набора стандартных итоговых документов.

В модельной версии системы, ориентированной на обработку данных об использовании фондов БЕН РАН, предусмотрена возможность ввода значений следующих поисковых полей:

Код института (по умолчанию);

Шифр хранения;

Дата;

Номер выставки;

Код квалификации;

Код специализации;

Цифровой номер читательского билета;

Число ксерокопированных страниц;

Год.

В один запрос можно включать значения пяти поисковых полей одновременно.

Определены следующие логические связки:

И (по умолчанию);

ИЛИ;

НЕ.

Поддерживается следующий набор операторов отношений:

Содержится (по умолчанию);

Равно;

Не равно;

Не содержится;

Меньше или Равно;

Больше;

Больше или Равно.

Вместо логической связки 'НЕ' можно использовать оператор отношения 'Не равно' (для чисел) или 'Не содержится' (для символьных значений).

По умолчанию используется усечение справа ('У'). В случае, если поиск осуществляется на полное совпадение, выбирается опция ('C'). Для усечения слева используется символ '%' непосредственно перед значением.

При вводе осуществляется контроль общей полноты набора данных, а также их соответствия типам и принятым в системе форматам. Реализован контроль повторного ввода и проверка соответствия загружаемых данных содержимому словарей, входящих в состав системы.

Страница, предназначенная для удаления данных, содержит форму с полным набором полей записи БД системы. При заполнении полей формы осуществляется такой же контроль, как и при вводе данных. Удалению подлежат записи, значения полей которых точно соответствуют значениям полей формы. Реализована возможность предварительного просмотра содержимого модифицируемой базы данных.

Для обеспечения защиты информации, наряду с использованием стандартных средств обеспечения безопасности Windows 2000 [19, 20], IIS 5.0 и MS SQL Server 7.0, в системе реализован дополнительный блок контроля доступа.

 

Литература

  1. Бююль Ахим. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. - М. и др.: DiaSoft, 2002. - 601 c.
  2. Боровиков Владимир Павлович, Ивченко Григорий Иванович. Прогнозирование в системе STATISTICA в среде Windows: Основы теории и интенсивная практика на компьютере. - М.: Финансы и статистика, 2000. - 382 с.
  3. Круглински Дэвид Д. и др. Программирование на Microsoft Visual C++ 6.0. - СПб. и др.: Питер, 2001. - 819 с.
  4. Дадашев Тахмасиб Мустафаевич. Язык Java и Microsoft Visual J++ 6.0 в действии. - М.: Горячая линия-Телеком, 2002. - 381 с.
  5. Штайнер Гюнтер. Visual Basic 6.0 для приложений. - М.: Лаб. базовых знаний, 2000. - 824 с.
  6. Карпов Борис. Microsoft Access 2000. - СПб. и др., 2000. - 410 с.
  7. Баженова Ирина Юрьевна. Visual FoxPro 6.0. - М.: Диалог-МИФИ, 2000. - 416 с.
  8. Архангельский Алексей Яковлевич. C++ Builder 6. Кн. 1: Язык С++.-М.: БИНОМ, 2002. - 543 с.
  9. Понамарев Вячеслав. JBuilder 6/7. - СПб.: БХВ-Петербург, 2003. - 292 с.
  10. Мюллер Джон. Visual studio 6 : Полное руководство. - Киев: BHV, 1999. - 670 с.
  11. Кетков Юлий. Практика программирования: Visual basic, C++ builder, Delphi. - СПб.: БХВ-Петербург, 2002. - 449 с.
  12. Администрирование Microsoft SQL Server 7.0: Учебный курс: Официальное пособие Microsoft для самостоятельной подготовки. - М. : Рус. ред., 2000. - 475 с.
  13. Тихомиров Юрий. MS SQL Server 2000: разработка приложений. - СПб. и др.: BHV, 2000. - 360 с.
  14. Андреев А. , Беззубов Е., Емельянов М. и др.; Чекмарев А. , Вишняков Д. Microsoft Windows 2000: server и professional. Русские версии. - СПб. и др.: BHV, 2000. - 1055 с.
  15. Рейнолдс Мэтью. Электронная коммерция. Основы программирования. Visual Basic, ASP, SQL Server 7.0 и MTS: Пер. - М.: Лори, 2001. - 538 с.
  16. Станек Уильям Р. Microsoft Internet Information Services 5.0: Справ. администратора. - М.: Рус. ред., 2002. - XVIII, 441 с.
  17. Вайскопф Дж. Microsoft FrontPage 2000 : Пер. с англ. - СПб. и др.: Питер, 2000. - 348 с.
  18. Блэкберн Ян. Visual InterDev 6. Программирование: Пер. с англ. - М.: Бином: Лаб. знаний, 2002. - 712 с.
  19. Брагг Роберта. Система безопасности Windows 2000: Пер. с англ. - М. и др.: Вильямс, 2001. - 589 с.
  20. Безопасность сети на основе Microsoft Windows 2000: Учеб. курс MCSE : Пер. с англ. - М. : Рус. ред., 2001. - 847 с.
!29

ЭВОЛЮЦИЯ ТЕМАТИЧЕСКОГО
ИНФОРМИРОВАНИЯ УЧЕНЫХ
РАН НА ПРИМЕРЕ БИБЛИОГРАФИЧЕСКИХ
ОТРАСЛЕВЫХ ИНТЕРНЕТ-УКАЗАТЕЛЕЙ:
МАТЕМАТИКА

Н.С. Солошенко
(Библиотека Математического института им. В.А. Стеклова РАН)

Обеспечение ученых РАН отраслевой информацией является задачей тематического информирования, которое должно осуществляться академическими отраслевыми информационными центрами. В Академии наук роль таких центров традиционно исполняют специальные библиотеки НИУ. Появление сайтов академических библиотек позволяет им развивать новые элементы в системе отраслевых электронных научных коммуникаций, в частности, осуществляя удаленное тематическое информирование.

Тематическое информирование с использованием Интернет развивается на нескольких уровнях. В настоящее время базовым уровнем является организация сетевых страниц для структуризации внешних ресурсов и кумуляции их ссылок на библиотечных сайтах для облегчения навигации пользователей. Одним из таких примеров является поддерживаемая Библиотекой по естественным наукам (БЕН) РАН система страниц "Естественные науки в Интернет", включающая разделы: "Математика", "Физика", "Химия", "Биология", "Экология", "Науки о Земле" и "Научная периодика в Интернет". Страницы построены по принципу "стартовых точек", т.е. поддерживают Интернет-каталоги ресурсов и списки основных журналов в соответствующих областях, а также содержат ссылки на сайты основных научных издательств мира. [1]. Практически на всех сайтах библиотек НИУ, входящих в Централизованную библиотечную систему (ЦБС) БЕН РАН, также поддерживаются страницы, содержащие ссылки на издательские сайты, оригинальные электронные издания, релевантные базы данных и библиотечные консорциумы, частью которых является ЦБС БЕН РАН [http://benran.ru/ben_push.htm].

В литературе высказываются различные точки зрения на эффективность такой практики. Некоторые авторы полагают, что накопление библиотеками таких ссылок и особенно поддержание их в актуальном состоянии весьма неэффективно. Кроме того, как правило, ссылки создаются на весь информационный ресурс или его крупные части, что, по мнению авторов, является явно недостаточной мерой [2]. Также отмечается невозможность автоматического поиска отраслевых ресурсов, из-за того, что информация о них, содержащаяся во многих отраслевых коллекциях ссылок, ограничивается лишь названием ресурса и его URL-адресом. Особенно остро эта проблема существует для российских коллекций ссылок [3]. Рассмотрим возможные уровни её решения на примере математических ресурсов.

Европейским математическим информационным обществом (EMIS) реализуется проект EULER, в рамках которого создана тестовая версия одноименного портала математических публикаций, объединяющая гетерогенные Web-ресурсы: библиотечные каталоги, библиографические базы, электронные журналы, архивы препринтов и "серой литературы". Библиографическая информация предоставляется реферативной службой Zentralblatt MATH со ссылками на каталоги библиотек-участниц проекта и коммерческие службы электронной доставки документов [5].

На сервере СО РАН в настоящее время функционирует справочно-информационная система по математическим ресурсам [4]. На её базе предполагается создание портала отраслевых [в данном случае, математических] информационных ресурсов с развитой системой поиска, основными составляющими которого являются:

При этом, каталог математических ресурсов предполагается как двуязычная (русско-английская) база данных удаленного доступа, включающая: интернет-страницы математических учреждений, электронных библиотек и т.п.; электронные версии математических изданий; персональные страницы ученых математиков. Предлагается создание интерфейса, позволяющего пользователям самостоятельно вносить новую информацию.

Функционирование порталов вносит существенный вклад в развитие информационного обеспечения отраслевых исследований, в основном, на уровне общих информационных потребностей.

Особенные потребности связаны со спецификой конкретных тематик и должны удовлетворяться на следующем уровне кумуляции и структурирования доступных сетевых документных ресурсов - отраслевых информационных центров [6]. Автоматическая генерация ссылок и возможность пользователей самостоятельно вносить новую информацию при наличии неоспоримых достоинств имеет весьма существенный недостаток, а именно - отсутствие достоверности информации. Этот недостаток можно нивелировать построением системы тематических Интернет-пособий по отраслевым ресурсам с многоуровневой системой ссылок, если их будут создавать отраслевые библиотечно-информационные центры в тесном сотрудничестве с учеными.

Необходимость наличия доступных постоянно актуализируемых Интернет-указателей по отраслевым ресурсам, отражающим релевантные исследованиям тематики, обуславливается психологией ученых. Опросы исследователей, проведенные автором совместно с "Internet-librarians" в одном из американских университетов [7], и повседневная практика общения с пользователями в Математическом институте им. В. А. Стеклова РАН убеждают в том, что большинство научных сотрудников предпочитают узнавать о ресурсах каждый раз ровно столько, сколько нужно для решения конкретной задачи. Таким образом, перспектива обучения пользователей работе со всем спектром доступных ресурсов представляется библиотекарям нереальной и, главное, ненужной. Более того, ссылка на тематический Интернет-указатель обязательно должна быть или на home-page институтского сайта, или на странице второго уровня, "по пути привычного Интернет-маршрута" пользователей.

Хотя по сути тематические Интернет-указатели являются продолжением традиционного тематического информирования, новая информационная среда позволяет создавать многомерные документы, обладающие качественными отличиями от печатных. Главной особенностью таких указателей является возможность многоуровневого структурирования информации. Очень важно в таких пособиях связывать библиографический уровень информации с реферативным и, по возможности, полнотекстовым, особенно в российском секторе Интернет, где отечественный информационный рынок электронных первоисточников еще только складывается. Важным фактором, повышающим ценность таких указателей, является структурирование малодоступной информации о трудах институтов РАН, Российских научных и образовательных центров, а также материалах научных мероприятий (семинаров, конференций, симпозиумов, конгрессов и пр.) При этом создается единое пространство документа - динамичное и интерактивное [8].

Особенностью Интернет-указателей является и возможность многомерного структурирования информации. При этом происходит переход от иерархической структуры текста к модульной структуре [8]. Текст разбивается на автономные модули, связанные как между собой, так и с другими: т.е. один и тот же ресурс может быть отражен в различных категориях, обеспечивая, таким образом, многоканальное отражение информации. Так, например, в указателе отечественных математических ресурсов такая популярная проблема как "вейвлеты" может отражаться в рубриках "Материалы научных мероприятий" как труды научного семинара, проводимого С.-Петербургским государственным университетом, и в "Тематических Интернет-проектах", как отдельный ресурс, значимость которого выходит за рамки институтского мероприятия. Кроме того, упорядочение информации возможно проводить по нескольким параметрам. Например, поиск журналов по математике, представленных Российскими издателями в Интернет, возможен как по названиям, так и по издателям.

Кроме того, как любой сетевой документ, тематический Интернет-указатель растет и развивается не только по мере появления новых ресурсов в имеющихся рубриках и расширения хронологического диапазона доступных первоисточников, но также и новых форм представления информации. Например, в некоторых крупных издательствах, в частности Springer, возникла Online First - служба электронных препубликаций статей, принятых к изданию. Доступ к статьям для авторизованных пользователей возможен гораздо раньше формирования конкретных выпусков журналов. Аннотированную информацию о подобных службах необходимо помещать в соответствующие разделы указателей, осуществляя, таким образом, их трансформированную ориентирующую функцию.

Ориентация пользователей в среде тематических ресурсов с помощью Интернет-указателей особенно необходима при обращении к неформальным научным коммуникациям. В разных тематических областях приняты разные формы неформальных коммуникаций. Cудя по литературным данным, не считая физики, в математике использование препринтов выше, чем в других областях естественных наук [9]. Благодаря влиянию электронного архива препринтов Los Alamos [http:// arXiv.org], он стал центральным сток-центром для работ в области теории струн (string theory). В соответствии с тем же источником, специалисты в области численного анализа пользуются, в основном, электронными новостными группами (e-mail newsgroups) и подписными листами (mailing lists) для обмена последними достижениями. В то же время, специалисты в области вычислительных наук предпочитают не пользоваться распространенными серверами препринтов, а вывешивать их либо на своих страничках, либо на серверах своих институтов [9].

В оценке достоверности предоставляемых неформальных ресурсов неоценимую роль играет сотрудничество библиотекарей с учеными, которые в Российской Академии наук традиционно являются информаторами в научных коллективах.

Ведение двуязычной версии тематического Интернет-указателя с предоставлением ссылок на полнотекстовую и реферативную информацию создаст многоуровневый отраслевой ресурс, ценный для зарубежных пользователей. При правильном развитии такой указатель может стать элементом международной отраслевой информационной системы.

Литература.

  1. Глушановский А.В., Калёнов Н.Е. Электронная информация и основные функции научных библиотек. // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Материалы конф. Судак. Респ. Крым, Украина, 9-17 июня 2001 г. - М., 2001. - Т. 1. - С. 173-177.
  2. Глухов В.А., Лаврик О.Л. Распределенные электронные библиотеки // Теория и практика общественно-научной информации. - М., 2001. - Вып. 16. - С. 36-42.
  3. Барахнин В.Б. Разработка базы данных "WEB-ресурсы математического содержания" // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. четвертой Всероссийской научной конференции, Дубна, 15-17 октября 2002 г. - Дубна, 2002г. - С. 316-318.
  4. Вегнер Б. Проект Эйлер - интегрированный доступ к библиотечным каталогам и математической информации в Интернете // Науч. и техн. б-ки. - 2001, № 2. - С. 75-81.
  5. Математика на WWW: (http://www-sbras.nsc.ru/win/mathpub/math_www.html).
  6. Погорелко К.П., Солошенко Н.С. Развитие функций сайтов информационных центров в отраслевой системе электронных коммуникаций: математика. (Куда ведут порталы)// НТИ. Сер.1.- 2002.- № 9.- С. 5-9.
  7. Солошенко Н.С. Новая роль библиотекарей как информационных посредников // Библиотека по естественным наукам в современном информационном пространстве. Юбил. сб. ст. (1973-1998).- М.,1998.- С.47-51.
  8. Heba G. Digital Architectures: A Rhetoric of Electronic Document Structures // IEEE Transactions on Professional Communications. - 1997. - V.40. - N. 4.
  9. Jackson A. From Preprints to E-prints: the Rise of Electronic Preprint Servers in Mathematics // Notices of the AMS. - 2002. - V.49. - N.1. - P.23-31.
!30

КРИТЕРИИ ОТБОРА ИНФОРМАЦИИ
В ПРОЦЕССЕ СОЗДАНИЯ СОБСТВЕННЫХ
ИНФОРМАЦИОННЫХ РЕСУРСОВ
В ЦЕНТРАЛЬНОЙ БИБЛИОТЕКЕ
ПУЩИНСКОГО НАУЧНОГО ЦЕНТРА РАН
(ОТДЕЛ БЕН РАН)*

Ю.В. Мохначева, Т.Н. Харыбина
(Центральная библиотека Пущинского научного центра РАН)

Проблемно-ориентированные базы данных играют большую роль в информационном обеспечении пользователей, т.к. содержат данные, сконцентрированные по наиболее узко-тематическим областям знаний и направлениям научных исследований, являясь в свою очередь обобщением опыта специалистов, занятых соответствующими исследованиями.

В настоящее время в Центральной библиотеке Пущинского научного центра РАН (далее ЦБП) генерируются несколько тематических (проблемно-ориентированных) баз данных:

Основной проблемой при создании баз данных подобного типа является определение критериев отбора необходимой информации. Критерий полноты охвата информации по проблематикам ПОБД имеет свою особенность: электронные ресурсы подобного типа не должны, и не призваны решать глобальные информационные задачи, они должны быть строго ориентированы на научную проблематику конкретных научно-исследовательских учреждений.

Другие критерии были определены на основе проведенных нами наукометрических исследований.

В качестве модели формирования ПОБД приводится база данных "Фотосинтез", генерируемая для информирования научных сотрудников Института фундаментальных проблем биологии РАН (ИФПБ). В настоящее время она включает в себя массив из 9000 записей.

С целью выявления круга иностранной и отечественной периодики, была использована база данных SCIE. Проанализировав цитируемость журнальных статей за последние годы (1997-2002 гг.), был выявлен круг журналов, представляющий для сотрудников ИФПБ РАН особый интерес (табл. 1).

Таблица 1

Распределение журналов по их цитированию в работах сотрудников ИФПБ

Название
журнала

Кол-во ссылок на журналы

1997-2002 г.

Biochemistry-US

124

Photosynth Res

95

FEBS Lett

83

BBA Bioenergetics

76

J Phys Chem B

51

Biochemistry-Moscow

47

PNAS

39

Fiziol Rast

34

Int J Hydrogen Energ

34

Physiol Plantarum

25

J Biol Chem

22

Planta

21

Biol Membrany

20

Biotechnol Bioeng

18

Plant Physiol

18

FEMS Microbiol Lett

16

Appl Microbiol Biot

15

Chem Phys Lett

14

J Bacteriol

14

Nature

14

Annu Rev Plant Phys

12

Biofizika

11

J Chin Soc-TAIP

11

Appl Biochem Microbiol

10

Dokl Akad Nauk

10

Photosynthetica

10

Plant Cell Physiol

10

EMBO J

9

Eur J Biochem

9

Arch Microbiol

8

Aust J Plant Physiol

8

J Biotechnol

8

J Exp Bot

8

J Photoch Photobio B

8

Microbiology+

8

Science

8

Biotechnol Lett

7

Carotenoids

7

Funct Plant Biol

7

Plant Cell Environ

7

Appl Magn Reson

6

Biophys J

6

Microbiol Mol Biol

6

Photochem Photobiol

6

Phys Rep

6

Appl Biochem

Biotech

5

J Biosci Bioeng

5

J Chem Phys

5

Membr Cell Biol

5

Trends Biotechnol

5

Annu Rev Plant Biol

4

Arch Biochem Biophys

4

Izv Akad Nauk Biol

4

J Amer Chem Soc

4

Mar Biol

4

Q Rev Biophys

4

Trends Biochem Sci

4

Biochem J

3

Bioelectrochem Bioener

3

Bioelectrochemistry

3

Biol Chem

3

Can J Microbiol

3

Chem Phys

3

Indian J Biochem Bio

3

J Mol Biol

3

J Phys Chem A

3

Microbiol-UK

3

Philos T Roy Soc B

3

Plant Cell

3

Plant Physiol Bioch

3

World J Microb Biot

3

Acta Bot Sin

2

BBRC

2

Biomass Bioenerg

2

Chem Rev

2

DNA Res

2

Free Radical Res

2

Int J Quantum Chem

2

J Appl Phycol

2

J Appl Spectroscop

2

J Biol Inorg Chem

2

J Phycol

2

Moll Cell Biochem

2

Phys Rev B

2

Plant Mol Biol

2

Prikl Biokhim Mikrobiol

2

Russ J Genet

2

Z Naturforsch C

2

Zh Obshch Biol

2

Anal Biochem

1

Ann Bot-London

1

Ann Rev Biochem

1

Ann Rev Bioph Biom

1

Ann Rev Microbiol

1

Annu Rev Phys Chem

1

Appl Environ Microbiol

1

Biochimie

1

Biohydrogen

1

Biol Bull

1

Biol Plant

1

Biometals

1

Biospectroscopy

1

Biotechnol Progr

1

Can J Bot

1

Chem Eng Sci

1

Chinese Sci Bull

1

Crit Rev Biochem Mol

1

Curr Microbiol

1

Environ Sci Technol

1

Enzyme Microb Tech

1

Eur Biophys J Biophy

1

FEMS Microbiol Rev

1

Int J Photoenergy

1

Israel J Chem

1

J Biol Rhythm

1

J Lumin

1

J Mol Evol

1

J Mol Microb Biotech

1

J Plant Physiol

1

J Therm Anal Carolim

1

Khim Fiz

1

Met Ions Biol

1

Mol Phys

1

Opt Spectrosc

1

Philos T Roy Soc A

1

Phycologia S

1

Phys Chem Chem Phys

1

Pigm Cell Res

1

Plant Biology

1

Plant Growth Regul.

1

Plant J

1

Plant Sci

1

Prib Tekh Eksp

1

Res. Microbiol.

1

Russ J Bioorg Chem

1

Sci China Ser C

1

Structure

1

Thin Solid Films

1

Tree Physiol

1

Z Phys Chem B LPZ

1

В табл. 1 вошли 140 наименований журналов, статьи из которых цитировались сотрудниками ИФПБ в период 1997-2002 гг. Из общего числа представленных в табл. 1 журналов, 26 изданий содержат статьи, цитируемые 10 и более раз. Эти журналы можно считать ядерными (табл.2).

Таблица 2

Ядерные журналы по проблемам фотосинтеза

Название журнала

Кол-во ссылок на статьи из журналов 1997-2002 гг. выпуска

Biochemistry-US

124

Photosynth Res

95

FEBS Lett

83

BBA Bioenergetics

76

J Phys Chem B

51

Biochemistry-Mosc

47

PNAS

39

Fiziol Rast

34

Int J Hydrogen Energ

34

Physiol Plantarum

25

J Biol Chem

22

Planta

21

Biol Membrany

20

Biotechnol Bioeng

18

Plant Physiol

18

FEMS Microbiol Lett

16

Appl Microbiol Biot

15

Chem Phys Lett

14

J Bacteriol

14

Nature

14

Annu Rev Plant Phys

12

Biofizika

11

J Chin Soc-TAIP

11

Appl. Biochem. Microbiol.

10

Dokl Akad Nauk

10

Photosynthetica

10

Plant Cell Physiol

10

Таблицу 2 возглавляют 5 журналов, статьи их которых цитируются 50 и более раз. Можно утверждать, что эти журналы наиболее точно отвечают интересам всех научных сотрудников ИФПБ.

Статьи из 23 наименований журналов (табл. 1), цитировались не менее 5, но не более 10 раз. Эти журналы представляют интерес для ограниченного круга сотрудников ИФПБ (отдельные лаборатории). Но весьма интересным представляется тот факт, что имеется очень высокий процент журналов, статьи из которых цитировались 1 и не более 4 раз (89 названий). Эти журналы нельзя отнести к профильным (ядерным) ввиду их низкой цитируемости сотрудниками ИФПБ, но, тем не менее, они содержали статьи по профилю исследований. Статьи из таких журналов сложно выявить путем просмотра оглавлений. Очевидно, что здесь возникает определенная проблема - выявления необходимых первоисточников из различных (непрофильных) изданий. Данная проблема разрешалась с помощью внешних электронных баз данных, обеспечивающих качественный поиск по ключевым словам или фразам. Примерами таких баз данных могут служить базы данных SCIE и Medline.

Следующим наиболее важным критерием отбора литературы в ПОБД является поиск статей (монографий) определенных авторов. Так, с помощью базы данных SCIE был определен список исследователей, работы которых цитировались сотрудниками ИФПБ за период 1997-2002 гг. не менее 10 раз. В число таких исследователей вошли крупнейшие зарубежные и отечественные специалисты, занимающиеся проблемами фотосинтеза (табл. 3).

Таблица 3

Наиболее часто цитируемые авторы научными сотрудниками ИФПБ за период 1997-2002 гг.

ФИО

Цитирование за 1997-2002г

Vos MH

43

Stemler A

29

Renger G

25

Asada K

19

Kirmaier C

18

Lichtenthaer HK

18

Britton G

17

Berthold DA

16

Franken EM

16

Goodwin TW

16

Ormerod JG

15

Schmidt S

15

Debus RJ

14

Diner BA

14

Laemmli UK

14

Mills R

14

Scheer H

14

Streltsov AM

14

Tamura N

14

Allen JF

12

Barber J

12

Heber U

12

Arnon DI

11

Bradford MM

11

Foyer CH

11

Ghirardi ML

11

Bixon M

10

Blankenship RE

10

Blubaugh DJ

10

Breton J

10

Davies BH

10

Demmigadams B

10

Govind JEE

10

Hoff AJ

10

Klyachkogurvich GL

10

Kobayashi Y

10

Miyake C

10

Nanba O

10

Parson WW

10

Telfer A

10

Vass I

10

Wydrzynski T

10

Boyer PD

10

!31

ВОЗМОЖНОСТЬ ВЫЯВЛЕНИЯ
ПРИОРИТЕТНЫХ НАПРАВЛЕНИЙ
С ИСПОЛЬЗОВАНИЕМ РУБРИКАТОРОВ
И СЛОВАРЕЙ БАЗ ДАННЫХ

В.М. Ефременкова, Н.В. Круковская, Ф.С. Сировский
(ВИНИТИ, ИОХ РАН)

Сложные системы - вызов искусству исследователя

Лауреат Нобелевской премии Г. Хакен

Выявление приоритетных научных направлений и слежение за развитием работ в них - сложная интеллектуальная аналитическая задача. Одним из способов её решения является. анализ больших массивов вторичной научной информации, накопленной в ведущих базах данных (БД) мира: Chemical Abstracts (СА), INSPEC, ВИНИТИ, SCISEARCH, INPADOC.

В данной работе предлагается метод получения информации о возникновении и развитии приоритетных направлений, используя статистические характеристики распределения публикаций по кодам классификаторов баз данных в сочетании с анализом свободной или контролируемой лексики. В основе этого метода лежит анализ динамики наполнения кодов классификатора верхнего уровня (второго или третьего), характеризующего определенное направление исследований. Рост количества публикаций в 3-5 раз в течение 3 лет может являться сигналом о возникновении нового направления в рассматриваемой области. Наличие нижних уровней классификации, если таковые имеются, дает более детальную информацию о тематике исследований. Точное определение нового направления может быть получено при анализе частоты встречаемости новых терминов или группы терминов в пределах выделенного кода классификатора. Подтверждением правильности сделанных выводов служит кривая роста количества публикаций в течение трех - пяти лет с момента обнаружения первой публикации (новое направление не всегда может быть сразу замечено, временной интервал иногда составляет более трех лет). Рост публикаций в 5 - 10 и более раз в течение трех лет свидетельствует о возникновении приоритетного направления в рассматриваемой области знания.

В качестве примера выбраны два приоритетных направления, на развитие которых во многих странах в настоящее время выделяются значительные средства. Это - искусственный интеллект и нанотехнологии. Анализ проводится с использованием иерархических рубрикаторов и предметных указателей БД СА, INSPEC и ВИНИТИ.

Искусственный интеллект. Примером достаточно точного совпадения наименований кодов рубрикатора с приоритетными направлениями может являться научное направление "Искусственный интеллект". Анализ динамики распределения потоков публикаций в рубриках "Искусственный интеллект" БД ВИНИТИ - 28.23 и БД INSPEC - С1230 выявил экспоненциальный рост публикаций с 1979 г. по 1988 г. Анализ частотности дескрипторов внутри рубрики С1230 (БД INSPEC) показал, что основным направлением работ в этот период времени были экспертные системы - 28.6%; системы организации знаний, куда относились и базы знаний - 21.8%; нейронные сети - 14.9%; интеллектуальные роботы - 10.1%; системы распознавания образов - 7.5%. Новым словосочетанием в 1982 г. оказался лишь термин "нейронные сети". Количество публикаций с этим термином выросло в 30 раз с 1985 г. по 1987 г. (за 3 года!), что являлся свидетельством возникновения новой ветви науки. Но при этом, рост цитирования первой работы по нейронным сетям (Дж. Хопфилда) в тот же временной интервал составил 3,5 раза (БД SciSearch). Таким образом , уже в 1987 г. можно было говорить о возникновении нового "прорыва" в научных исследованиях, которое впоследствии стало приоритетным.

В настоящее время в БД отражается от 1 тыс. (СА) до 3-3,5 тыс. (ВИНИТИ, INSPEC) публикаций в год. Нейронные сети и нейрокомпьютеры, использующие нейроподобные структуры и нейронные модели, успешно используются для обработки научных экспериментов, решения оптимизационных задач и задач прогнозирования, классификации и управления в различных областях - физике, астрономии, химии, медицине, геологии, машиностроении, бизнесе и др., что хорошо прослеживается по распределению публикаций по 31 тематическому фрагменту политематической БД ВИНИТИ, из них на долю публикаций во фрагменте "Техническая кибернетика" приходится около 40%, "Вычислительные науки" - около 33%, "Биология", "Физика", "Химия", "Машиностроение" и "Науки о Земле" - в каждой около 1.3 - 1.4%.

Нанонаука и нанотехнологии. Интерес к исследованию нанообъектов резко возрос после выхода теоретических работ Р. Фейнмана (1959 г.). Однако начало экспериментальных исследований, давших толчок развитию "нанотехнологии" связано с изобретением электронных микроскопов (1981-1986 гг.). В настоящее время ежегодно публикуется более 3 тыс. печатных работ, проводится 30-50 конференций, в Internet можно найти более 100 достоверных веб-сайта. Но оценить объем информации по всему приоритетному направлению практически невозможно, что связано с неустоявшейся терминологией и наличием большого количества объектов нанонауки и нанотехнологии, в названии которых нет приставки "нано", хотя по размерным и другим характеристикам эти объекты относятся к рассматриваемому направлению. Примером таких объектов являются фуллерены и интеркалированные соединения. Фуллерены - полиэдрические кластеры углерода, описанные впервые Kroto H. et al. в 1985 г. Публикации по фуллеренам отражены в БД в нескольких рубриках. Например в CA это связано с тем, что, с одной стороны, в БД информация о них классифицируется по веществам (секция 78 "Неорганические вещества и реакции"), с другой стороны, по их физико-химическим свойствам (секция 65 "Общая физическая химия"). Новый термин "фуллерен" появился в 1985 г. в 78 секции. С 1990 по 1992 г. частотность употребления нового термина возрастает в 14 раз. С 1990 г. наблюдался экспоненциальный рост публикаций и за три последующих года количество работ увеличилось в 50 раз в секции 78 и в 75 раз в секции 65. Рост цитирования первой работы в БД SciSearch за тот же временной интервал составил 5 раз. .Таким образом, уже в 1992 г. можно было говорить о появлении нового научного фронта - фуллерены.

Один из интересных нанопроцессов - слияние малых фуллеренов с образованием углеродных нанотрубок. Родство фуллеренов и нанотрубок отражено в иерархическом тезаурусе.

=> e fullerenes+rt/ct

E1 6705 --> Fullerenes/CT

E2 4371 RT Nanotubes/CT

Углеродные нанотрубки были открыты в 1991 г. S. Iijima. В настоящее время это наиболее четко терминологически выделенное узко-тематическое направление работ в нанотехнологии, по которому отмечен резкий рост исследовательской активности с 1992 по 1994 гг. в 15 раз и продолжает расти столь же стремительно. В CA публикации по нанотрубкам рассеяны по многим секциям классификатора, но наибольшее количество относится к секции 76 "Электрические явления" - около 25%, в секциях 65 и 78 - около 10% в каждой, т.е. основное направление работ связано с электрическими свойствами нанотрубок. Как показал проведенный анализ, рост публикаций по нанотехнологии связан с рассмотреными направлениями исследования.

Таким образом, использование классификаторов БД ведущих мировых производителей в сочетании с анализом ключевых слов позволяет увидеть зарождение новых "ветвей" знания, которые в дальнейшем могут оказаться приоритетными направлениями развития науки.

!32

СОВРЕМЕННЫЕ НАПРАВЛЕНИЯ
ФОРМИРОВАНИЯ ИНФОРМАЦИОННЫХ
МАССИВОВ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ

Е.И. Козлова
(БЕН РАН)

Традиционное понятие "комплектование библиотечных фондов" в последнее десятилетие изменяет свое значение и становится одной из составляющих работы по информационному обеспечению пользователей. Все больший интерес вызывают издания в электронном формате. Происходят изменения на издательском рынке - увеличивается доля электронных изданий, которые доступны как на CD-ROM, так и в режиме on-line. Такая ситуация требует пересмотра политики комплектования библиотек; их задачей становится не только создание собственных фондов, но и предоставление прав доступа к удаленным ресурсам, преимущественно через Интернет. Поэтому актуальным направлением исследований в библиотековедении становится изучение и разработка методов оценки электронных изданий, сочетаемости способов комплектования фондов печатными ресурсами и приобретением прав доступа к электронным документам.

Важным направлением в деятельности Библиотеки по естественным наукам (БЕН) РАН становится изучение эффективности использования электронных ресурсов, и рассматриваются методы их оценки с точки зрения обеспечения текущих, перспективных и ретроспективных запросов пользователей. (проект реализуется при поддержке РФФИ - грант № 90144в). В настоящее время большая часть электронных ресурсов предоставляется зарубежными организациями и основными способами доступа в ним являются следующие:

Получение прав доступа в качестве дополнения к печатной версии осуществляется при оформлении подписки, однако, библиотеке в ряде случаев приходится вести длительную переписку с издательствами для получения такой возможности. Обратная связь, т.е. статистика обращения к электронным версиям предоставляется лишь отдельными издательствами, и проводить изучение спроса в этом случае неэффективно.

Участие в библиотечных консорциумах предполагает права доступа к массиву электронных документов, часть которых не представляет интереса для пользователей организации. Условия участия в консорциуме в значительной степени снижают стоимость журналов по сравнению со стоимостью подписки на отдельные названия, и поэтому приобретение прав доступа к массиву изданий может быть более целесообразно с экономической точки зрения. Каждой организации требуется определить, насколько удовлетворяется потребность читателей, и какая часть изданий из предложенного консорциумом списка соответствует их потребностям. Еще одним позитивным свойством такого вида доступа к электронным изданиям является возможность использования обратной связи. Большинство консорциумов предоставляют организациям их пользовательскую статистику, что дает возможность изучить информационную ценность документов в электронном формате.

Издания на локальных носителях (на CD-ROM) можно рассматривать и изучать как объект традиционного комплектования, т.к. этот вид документов должен быть включен в состав фонда и его оценка как электронного документа, в первую очередь, определяется графическими и техническими характеристиками.

Для библиотек важно определить, какие издания представляют наибольший интерес для пользователей в электронном формате, и какие печатные издания в перспективе могут быть переведены на электронную подписку. Поэтому при разработке методики оценки и отбора электронных изданий требуется рассмотреть следующие характеристики:

Оценка ресурсов должна осуществляться по указанным характеристикам последовательно, в иерархическом порядке: каждый последующий признак рассматривается при условии допустимой оценки предыдущего. Для оценки всех характеристик должны быть предложены формализованные способы её выражения. Такая система позволит сделать обоснованное заключение о целесообразности приобретения ресурса или прав доступа к нему.

В качестве объекта исследования использован массив электронных журналов предоставляемых "Научной электронной библиотекой" (НЭБ) РФФИ. Наряду с достаточно широким репертуаром изданий (по сравнению с подпиской на печатные журналы), здесь представлены данные о количестве обращений читателей каждой организации-члена консорциума к электронным журналам. Таким образом, в настоящее время НЭБ является единственной организацией, которая предоставляет статистику использования более чем 2000 электронных журналов. Также здесь можно произвести выбор изданий по тематическому признаку, т.е. все издания имеют классификационный индекс. Для изучения тематического соответствия репертуара журналов НЭБ интересам пользователей и тематическому плану комплектования БЕН проведено структурирование массива по научным направлениям, и полученные данные представлены в виде диаграммы на рисунке 1.

Рис. 1. Тематический анализ НЭБ.

Проведенный анализ показал, что около 45% изданий соответствуют тематике научных исследований, обслуживаемых БЕН, 33% научных журналов частично соответствуют обслуживаемым библиотекой направлениям (медицина и техника), и 22% журналов по общественным наукам и экономике не представляют профессионального интереса для пользователей БЕН. Таким образом, можно считать, что около 62% репертуара журналов электронной библиотеки представляет интерес для ученых РАН в области естественных наук.

По данным такого исследования можно сделать заключение о целесообразности приобретения массива изданий, и для принятия решения о дальнейшей работе с оценкой изучаемым объектом нужно ввести количественную характеристику соответствия профилю комплектования (например, в процентном соотношении). Получить допустимые значения можно путем сбора статистических данных ресурсов уже доступных пользователям библиотеки.

Оценку по следующему признаку - по количеству и характеру обращений к конкретным изданиям пользователей организации - можно произвести только для тех ресурсов, которые уже доступны для пользователей, и в том случае, если есть статистические данные об их использовании. При исследовании НЭБ были изучены данные о доступе к журналам только пользователей центральной библиотеки. Учитывая тот факт, что БЕН РАН имеет обширную сеть филиалов, использовать полученные результаты для каких-либо конкретных выводов не корректно. Рассмотрен способ оценки электронных журналов на небольшом объеме статистических данных, и в дальнейшем эта методика будет апробирована для оценки спроса пользователей всех филиалов БЕН. В процессе исследования был выделен массив электронных журналов, к которым обращались пользователи библиотеки. В списке использованных журналов выделены две группы изданий: единичного обращения и активного обращения. В основу такого деления положены данные книговыдачи печатных изданий. В соответствии с методикой формирования подписки на печатные издания, все журналы распределяются на три зоны комплектования: сверхактивную, активную и малоактивную. В малоактивную зону попадают издания имеющие низкую книговыдачу (как правило менее 5 раз), и при формировании подписки эти журналы не включаются в рекомендательные списки. Из изданий сверхактивной и активной зоны формируется репертуар подписки, но очередность журналов устанавливается в зависимости от того, к какой зоне он относится. При рассмотрении электронных журналов к журналам единичного обращения были отнесены издания, имеющие менее 5 обращений, все остальные журналы были отнесены к группе активных. Журналы активного спроса были разделены на те, которые есть в библиотеке в печатном виде или доступны в электронном формате как дополнение к печатной подписке, и на те, которые не доступны читателям. Второй группе изданий следует присвоить повышающий коэффициент, т.к. ценность этих журналов для читателей выше с точки зрения оценки данного ресурса. Список журналов единичного обращения можно рекомендовать для заказа отдельных статей средствами электронной доставки документов при оценке отдельных названий; при оценке ресурса в целом (репертуара консорциума или базы данных их ценность ниже). Таким образом можно получить числовую (условную) оценку ценности изучаемого ресурса в целом и использовать оценку отдельных наименований журналов при оценке других ресурсов с точки зрения ценности для пользователей конкретной организации. Еще одним направлением исследования по указанному признаку стало изучение показателя средней обращаемости в тематических группах. Этот показатель определяет, пользователи каких научных направлений наиболее активно используют электронные издания, и определить недостаточность ресурсов в каждой предметной области.

Недостаточное финансирование библиотек в последнее десятилетие привело к значительным лакунам, и поэтому возможность доступа к ретроспективным выпускам журналов, предыдущие выпуски которых есть в фонде, является элементом докомплектования. Для журналов, отсутствующих в фонде, но пользующихся высоким спросом читателей, это свойство позволяет расширить информационную обеспеченность. Хронологическую глубину доступа можно оценить, основываясь на книговыдачу печатных изданий по тематическим направлениям.

Как правило, доступ к электронным журналам определяется сроками оплаченной подписки. После окончания срока подписки возможность использования электронных ресурсов определяется условиями лицензионного соглашения. Полное прекращение доступа снижает ценность ресурса для библиотеки. Среди зарубежных издательств наметилась тенденция сохранения прав доступа организациям после окончания срока подписки на оплаченную часть журналов (по году подписки). Такое условие стимулирует библиотеки к приобретению электронных журналов и исключает вероятность утратить ценную для пользователей информацию. В условиях комплектования российских библиотек, когда перспектива подписки не может быть определена, эта возможность особенно важна и существенно повышает ценность ресурса.

Условия доступа к ресурсу определяются политикой организации-держателя ресурса и лицензионным соглашениям. На сегодняшний день используются два способа: через указанные IP-адреса организации-пользователя, что ограничивает территориально возможности доступа и с использованием пароля. Преимущество каждого из способов определяется характеристикой организации, а именно удаленностью пользователей от центральной организации и количеством удаленных пользователей. Например, для БЕН РАН использование IP-адресов позволяет обеспечить доступ из центральной библиотеки и требует заключения отдельных соглашений для библиотек её сети. Использование доступа с паролем снижает контроль за соблюдением лицензионного соглашения. Для оценки ресурса по условиям доступа требуется территориальная характеристика пользователей.

Дополнительные свойства ресурсов - поисковые возможности системы, типы файлов и наличие дополнительных услуг - не могут непосредственно определять информационную ценность, а являются средствами повышения эффективности взаимодействия пользователей с электронными материалами, и оказывают опосредованное воздействие на их популярность. Для оценки этих параметров требуется перечислить все возможные свойства и присвоить им веса. В этом случае каждый ресурс получит еще одну числовую характеристику, которая будет усиливать значимость электронного формата, т.к. аналогичным документам в печатном виде эти свойства не присущи.

Детальная разработка все перечисленных характеристик в качестве критериев создаст систему оценки электронного ресурса. Библиотекам важно определить ценность электронных документов как относительно друг друга, так и по отношению к печатным изданиям.

 

Литература:

  1. Козлова Е.И. Информационное обеспечение специалистов РАН электронными ресурсами// Научный сервис в сети Интернет: Труды всерос. науч. конф., г. Новороссийск, 23-28 сент. 2002 г. -М.:МГУ, 2002, С.113-116.
  2. Калёнов Н.Е., Козлова Е.И., Гиацинтов О.М. Математическая модель оптимизации подписки на журналы в научной библиотеке// НТИ. Сер.1. - 1999. - № 12, С.9-12.
  3. Козлова Е.И. Управление отбором иностранной естественнонаучной литературы в фонд БЕН АН СССР при помощи критериев// Проблемы организации труда и управления библиотечно-библиографическими процессами. -М.,1989, С.11-22.
!33

РОЛЕВОЙ ПОДХОД И ИНФОРМАЦИОННЫЕ
ПОТРЕБНОСТИ РУКОВОДИТЕЛЕЙ
НАУЧНЫХ КОЛЛЕКТИВОВ
(на примере академических институтов)

И.В. Каминецкая
(Центр естественнонаучных исследований ИОФ РАН)

"История науки знает немало примеров, когда пламя нового

научного направления загоралось от неожиданно проскочившей искры.

На клад можно наткнуться совершенно случайно, но гораздо чаще

успеха достигают кладоискатели. ... Больше всего шансов на успех

у того, кто держит руку на бьющемся пульсе научной жизни."

В.Л. Гинзбург [1]

В работе рассмотрены некоторые проблемы совершенствования информационного обеспечения руководителей первичных научных коллективов в академических институтах (лаборатория, сектор, отдел). Для их изучения был применен ролевой подход, который позволил снизить уровень рассмотрения с понятия личности руководителя до её отдельных социальных компонентов - ролей [13].

Взгляд на руководителя научного коллектива как на систему с её целостностью, глубиной и иерархией приоритетов выявил сложный спектр ролей, исполняемых в ходе его работы. Методы изучения информационных потребностей ученых варьируются от анализа документов, наблюдения, опросов, экспертных оценок до экспериментов. Данное исследование базировалось на литературных источниках, уточненных и дополненных предлагаемым качественной социологией методом глубокого интервью [2].

Т. Парсонс [3] определил социальный институт как совокупность ролей, упорядоченных по авторитету. Изучение акторов, ролевых ожиданий и санкций должно происходить с учетом контекстов, в которых реализуется социальное действие. Социологи, философы, психологи и науковеды выделяли разнообразные роли, возникающие при исполнении функций глобальной науки [4-6].

Впервые контексты, в которых осуществляются процессы руководства научным коллективом, обозначили ученые Института истории естествознания и техники РАН, назвав их предметной, социальной и личностной координатами [7].

В рамках предметного и социального контекстов Р. Мертон [8] выделил четыре роли, исполняемые ученым: исследователь, учитель, администратор и эксперт. М.К. Петров [9] обозначил роли исследователя, историка, теоретика, учителя при однодисциплинарной деятельности и роли редактора, референта, оппонента, рецензента, эксперта и популяризатора на междисциплинарной инвариантной основе. В рамках социального контекста Ч. Райт Миллс [10] добавил роль интеллектуального администратора. В предметной и личностной координатах ученые ИИЕТ РАН выделили генераторов идей, эрудитов и критиков, а также обозначили фиксированные функции руководителя научного коллектива: генерирование идей, подбор и расстановку кадров, определение программы работы коллектива и подготовку входящих в него сотрудников [7].

Для решения задач оптимизации информационного обеспечения руководителей научных коллективов нами был принят во внимание только социальный контекст их деятельности, который позволил выделить следующий спектр ролей, исполняемых руководителями научных коллективов:

Руководитель первичного научного коллектива обычно одновременно исполняет несколько из перечисленных ролей. Порядок приоритетов выполняемых функций постоянно меняется, подчиняясь решению управленческих задач. Генератором информационных запросов является коллектив, а генератором приоритетов - его руководитель.

На формирование информационных потребностей руководителей научных коллективов влияют следующие особенности их работы:

порождая специфические черты информационных потребностей ученых [11]:

и в частности руководителей научных коллективов:

Выявленные особенности информационных потребностей руководителей научных коллективов выражаются в следующих ограничениях, налагаемых на их информационное обеспечение:

Следствие цейтнота - требование оперативности предоставления информации.

Следствие широты тематики - требование аналитико-синтетической обработки информации, реферирования, перевода.

Следствие увеличения времени на неформальное общение - расширение возможностей получения сведений о научной информации и одновременно повышение требований к качеству предоставляемой литературы: недопустимость "информационного шума", избирательный подход к выбору источников и т.д.

Следствие возможности делегирования части полномочий - экономия времени, но и возможность информационных потерь в силу различных причин, среди которых невозможность четко сформулировать запрос на начальных этапах научного исследования.

Следствие одновременного исполнения ряда ролей - повышенная неопределенность в формировании информационных запросов в моменты изменения ролевого ансамбля: повышение/понижение по службе, изменение научной тематики и пр.

В связи с исполнением руководителем различных ролей изменяется степень комфортности информационной среды, необходимая для создания предпосылок творческого труда. Например, при преподавательской деятельности такого ученого или исполнении им организаторских функций ситуацией информационного комфорта "признается та, которая наиболее полно и точно описывает конкретную информационную потребность потребителя. ... В этом случае комфортность информационной среды может быть достигнута путем улучшения прицельности поиска" [12]. При выполнении исследовательских задач, на этапе их постановки и уточнения "противоположная установка ...комфорт ощущается как возможность самому разбираться в информации. Для такого потребителя комфортная информационная среда - это библиотека с открытым доступом к полкам, это круг ученых смежных профессий, диалоговая информационная система, способная к далеким смысловым ассоциациям и т.д., ... увеличивающая возможности выбора у самого потребителя. Цель управления информационной средой формулируется здесь не как достижение оптимального значения параметра, а как создание комфортных условий для творческой деятельности человека" [12]. Отсутствие информационного комфорта способно ввести руководителя научного коллектива в состояние ролевого конфликта. Известно, что неисполнение ожиданий, связанных с какой-либо исполняемой социальной ролью, ведет к повышенным ожиданиям в отношении оставшихся ролей [13].

В данном случае неадекватное информационное обеспечение руководителя научного коллектива может привести к невыполнению обязательств, накладываемых на него социальным институтом: к конфликтам в коллективе, срыву исследовательских программ; применительно к личности ученого конфликты ролевых ожиданий - это ненаписанные диссертации, несовершённые открытия, нарушенные контакты, неотредактированные статьи и монографии; уход ученых из науки; потеря научных школ. Ущерб от неинформированности руководителя научного коллектива может быть очень велик: "значение информации для управления, системы принятия решений выражается и в таком объективном качественном показателе, как экономический показатель" [14].

В настоящее время решению ряда этих задач может помочь применение новых информационных технологий: создание автоматизированного рабочего места руководителя научного коллектива для решения организационных задач, использование электронных сетей передачи информации.

Новые информационные технологии помогают ученым снять ряд временных и пространственных ограничений, давая

и ставят ряд новых проблем, требующих своего решения:

В настоящее время ведется активная работа по развитию мощных информационных систем силами крупнейших библиотек и институтов страны [18-23], приближению их к конкретному потребителю [24-27], а также изучению пользователей [28].

Система обслуживания читателей БЕН (СОЧИ) [24], Лаборатория информационно-системного анализа ГПНТБ СО РАН [27], Централизованная библиотечная сеть Пущинского научного центра [25], Проблемно-ориентированная система информационного обеспечения НИР Института автоматики и процессов управления Дальневосточного отделения РАН (ПОСНТИ) [26] и др. решают проблемы информационного обеспечения научных коллективов в рамках выполнения ими исследовательской программы. Проблема максимального приближения информационных ресурсов к конкретному потребителю, в нашем случае - руководителю научного коллектива, решается в настоящее время через институт информационных посредников [29] и расширение возможностей информационного самообслуживания ученых в рамках новых технологий [30].

Система информационного обеспечения руководителей научных коллективов должна обладать качествами идеальной системы [31], среди которых - гибкость и способность к приспособлению [5]. Для её успешного функционирования необходимо учитывать все контексты деятельности объекта. Полное описание такого сложного объекта, как руководитель научного коллектива, возможно в терминах ролевого подхода. В условиях новых технологий появляется возможность учитывать как состав, так и динамику ролевого ансамбля руководителя. Необходимо разрабатывать методы и технологию индивидуального обслуживания ученых [21]. Условием успешного использования электронных сетевых ресурсов учеными - руководителями научных коллективов является их синхронизация с эвристической структурой научного исследования [32]. Системный принцип организации информационного обеспечения применим для оптимизации деятельности и других категорий пользователей.

 

Литература

  1. Гинзбург В.Л. О физике и астрофизике: Статьи и выступления. 2-е изд. М.: Наука, 1992. С. 270.
  2. Белановский С.А. Глубокое интервью. М.: Никколо-Медиа, 2001.
  3. Парсонс Т. О структуре социального действия. М.: Академич. проект, 2000.
  4. Пельц Д., Эндрюс Ф. Ученые в организациях: Об оптимальных условиях для исследований и разработок. М.: Прогресс, 1973.
  5. Маслоу А. Мотивация и личность. СПб.: Евразия, 2001.
  6. Грабауров В.А. Информационные технологии для менеджеров. М.: Финансы и статистика, 2001.
  7. Проблемы руководства научным коллективом. Опыт социально-психологического исследования (ИИЕТ РАН). М.: Наука, 1982; Ярошевский М.Г., Юревич А.В., Аллахвердян А.Г. Программно-ролевой подход и современная наука // Вопр. психологии. 2000. № 6. С. 3-18.
  8. Американская социологическая мысль: Тексты / Мертон Р., Мид Дж., Парсонс Т. и др. М.: Изд-во МГУ, 1994.
  9. Петров М.К. Язык, знак, культура. М.: Наука, 1991.
  10. Миллс Ч.Р. Социологическое воображение. М., 1998; Миллс Ч.Р. Властвующая элита. М., 1957.
  11. Информационно-библиотечное обеспечение фундаментальных научных исследований / Под общ. ред. А.Г. Захарова. М.: БЕН РАН, 1996.
  12. Шрейдер Ю.А. Информационные процессы и информационная среда // НТИ. Сер. 2. 1976. № 1. С. 3-6.
  13. Кон И.С. Люди и роли // Новый мир. 1970. № 12; Кон И.С. Социологическая психология. М., 1998.
  14. Берг А.И. Электроника и кибернетика. (Цит. по кн.: Путь в большую науку: Академик Аксель Берг. М.: Наука, 1988. С. 346-357).
  15. Каминецкая И.В. Некоторые ресурсы сети Интернет по библиотековедению и библиографоведению // Теория и практика общественно-научной информации. 2003. Вып. 18 (в печати).
  16. Маховская О. Российские ученые и Интернет // Pro et Contra. 2000. Т. 5. Эл. адрес статьи: http://pubs.carnegie.ru/p&c/Vol5-2000/4/ 06om.asp
  17. Материалы конференции Microsoft для государственных деятелей. Эл. адрес: http://www.microsoft.com/rus/government/newsletters/ issue18/
  18. Библиотечно-информационное обеспечение в области социальных и гуманитарных наук на пороге XXI века. М.: ИНИОН РАН, 1999.
  19. Новые и усовершенствованные автоматизированные библиотечные и информационные технологии: Сб. науч. тр. М.: ГПНТБ, 1993.
  20. НТИ-2002: Материалы 6-й Международной конференции: Информационное общество. Интеллектуальная обработка информации. Информационные технологии. М.: ВИНИТИ, 2002.
  21. Черный А.И. Автоматизированная система подготовки баз данных и информационных изданий по естественным и техническим наукам: принципы построения, технология, перспективы. Докт. дисс. М., 1999.
  22. 275 лет на службе науке: библиотеки и институты информации в системе РАН: Сб. науч. тр. М., 2000.
  23. Научная электронная библиотека: http://elibrary.ru
  24. Власова С.А. Автоматизация процессов обеспечения пользователей первичной информацией в информационно-библиотечной системе РАН. Дисс. канд. техн. наук. М.: ВИМИ, 1994.
  25. Слащева Н.А. Создание комплексной системы информационно-библиографического обслуживания специалистов на базе современных технологий (на примере Пущинского научного центра РАН). Дисс. канд. пед. наук. М.: МГИК, 1999.
  26. Сверчкова В.Б. Адаптирование информационного обеспечения к процессу научного исследования в академическом институте. Дисс. канд. техн. наук. М.: ВИНИТИ, 1988.
  27. Материалы Лаборатории информационно-системного анализа ГПНТБ СО РАН. Эл. адрес: http://www.spsl.nsc.ru/win/ecol/inflab.html
  28. Кугель С.А., Зусьман О.М., Минкина В.А. Информационное поведение ученых - представителей научной элиты // НТИ. 1995. Сер. 1. № 7. С. 12-18.
  29. Солошенко Н.С. Адаптация ученых к информационным ресурсам в процессе информационно-библиотечного обеспечения фундаментальных научных исследований // В кн.: 275 лет на службе науке: библиотеки и институты информации в системе РАН. М.: 2000. С. 108-115.
  30. Разработка и апробация метода теоретической истории. Под ред. Н.С. Розова. Новосибирск: Наука, 2001.
  31. Шрейдер Ю.А., Шаров А.А. Системы и модели. М.: Радио и связь, 1982.
  32. Злочевский С.Е. Принцип синхронной корреляции информационных услуг и информационно-эвристической структуры научного исследования. М: ВИНИТИ, 1970.
!34

СИНЕРГЕТИЧЕСКИЙ ПОДХОД
К ОПРЕДЕЛЕНИЮ ИНДЕКСОВ
ЦИТИРОВАНИЯ

В.Б. Сверчкова
(Институт автоматики и процессов управления ДВО РАН)

Доклад посвящен анализу существующих технологий и базовых источников для определения индексов цитирования ученого, научной лаборатории, академического института в целом с точки зрения синергетического подхода к оценке продуктивности научного коллектива.

25 февраля 2003 г. Президиум РАН своим постановлением № 77 ввёл в действие Методические указания по проведению комплексных проверок научных организаций Российской академии наук. В разделе II "Научная деятельность", в пункте 6 "Количественные показатели результатов научной деятельности организации", был введен показатель "индексы цитирования", который ранее не использовался в такого рода оценках результатов научной деятельности институтов РАН.

Институт автоматики и процессов управления (ИАПУ) ДВО РАН по утвержденному Президиумом РАН плану-графику оказался в числе первых проверяемых институтов. Поэтому по новому показателю оценки сразу возникли технологические вопросы "на какой базе и как".

Согласно сложившейся технологии по базе данных указателя научного цитирования "Science Citation Index (SCI)" количественно были определены публикации ведущих сотрудников ИАПУ, включенные в SCI (предварительные данные):

№ лаб.

ФИО

ФИО (англ. д/поиска)

Количество публикаций сотрудников за год

1998

1999

2000

2001

2002

2003

Всего

Дир-р

МЯСНИКОВ В.П.

MYASNIKOV VP

0

0

1

1

0

0

2

11

НУРМИНСКИЙ Е.А.

NURMINSKY EA

0

0

0

0

0

0

0

12

БОБКОВ В.А.

BOBKOV VA

0

0

0

0

0

0

0

32

ФРИСМАН Е.Я.

FRISMAN EY

0

0

0

0

0

0

0

34

АЛЕКСАНИН А.И.

ALEKSANIN AI

0

0

0

0

0

0

0

34

АЛЕКСАНИНА М.Г.

ALEKSANINA MG

0

2

0

0

0

0

2

36

БУРЕНИН А.А.

BURENIN AA

0

0

1

0

0

0

4

36

ГУЗЕВ М.А.

GUZEV MA

1

0

1

1

0

0

5

37

КУЛЬЧИН Ю.Н.

KULCHIN YN

3

0

1

0

0

0

4

38

ЛЕВИН В.А.

LEVIN VA

 

 

 

 

2

2

4

61

АБРАМОВ О.В.

ABRAMOV OV

0

0

0

0

0

0

0

64

ФИЛАРЕТОВ В.Ф.

FILARETOV VF

0

1

0

2

1

1

0

64

ЖИРАБОК А.Н.

ZHIRABOK AN

3

1

2

2

1

1

10

64

ШУМСКИЙ А.Е.

SHUMSKII AE

1

0

0

0

1

0

2

71

КЛЕЩЕВ А.С.

KLESHCHEV AS

2

0

1

1

0

0

4

74

ДЕВЯТИСИЛЬНЫЙ А.С.

DEVYATISILNY AS

0

0

0

0

0

1

8

82

КИНШТ Н.В.

KINSHT NV

0

0

0

0

0

0

9

84

ЧИПУЛИС В.П.

CHIPULIS VP

0

0

1

0

1

0

2

101

ЛИФШИЦ В.Г.

LIFSHITS VG

12

8

7

6

5

0

9

101

ЗОТОВ А.В.

ZOTOV AV

14

8

7

5

4

0

9

102

КОРОБЦОВ В.В.

KOROBTSOV VV

1

1

0

0

0

0

4

103

ПЛЮСНИН Н.И.

PLUSNIN NI

0

3

3

1

2

0

47

104

САРАНИН А.А.

SARANIN AA

10

6

8

3

4

0

31

105

ГАЛКИН Н.Г.

GALKIN NG

2

3

5

6

3

0

6

ИТОГО по ИАПУ

 

 

49

33

38

28

24

5

177

 

и цитируемость работ сотрудников института за последние 5 лет (предварительные данные):

№ лаб.

ФИО

ФИО (англ. д/поиска)

Количество ссылок за год

98

99

2000

2001

2002

2003

Всего

Дир-р

МЯСНИКОВ В.П.

MYASNIKOV VP

1

3

3

2

1

1

11

11

НУРМИНСКИЙ Е.А.

NURMINSKY EA

0

1

0

0

0

0

1

12

БОБКОВ В.А.

BOBKOV VA

1

0

0

0

0

0

1

32

ФРИСМАН Е.Я.

FRISMAN EY

0

0

1

0

0

1

2

34

АЛЕКСАНИН А.И.

ALEKSANIN AI

0

1

0

0

0

0

1

34

АЛЕКСАНИНА М.Г.

ALEKSANINA MG

0

0

0

1

0

0

1

36

БУРЕНИН А.А.

BURENIN AA

0

0

1

0

0

0

2

36

ГУЗЕВ М.А.

GUZEV MA

2

1

1

2

0

0

6

37

КУЛЬЧИН Ю.Н.

KULCHIN YN

3

7

1

0

0

0

11

38

ЛЕВИН В.А.

LEVIN VA

 

 

 

 

2

2

4

61

АБРАМОВ О.В.

ABRAMOV OV

0

0

0

0

0

0

0

64

ФИЛАРЕТОВ В.Ф.

FILARETOV VF

1

1

1

1

1

1

6

64

ЖИРАБОК А.Н.

ZHIRABOK AN

3

2

4

4

2

1

16

64

ШУМСКИЙ А.Е.

SHUMSKII AE

2

0

1

1

1

0

5

71

КЛЕЩЕВ А.С.

KLESHCHEV AS

2

0

0

1

0

0

10

74

ДЕВЯТИСИЛЬНЫЙ А.С.

DEVYATISILNY AS

0

0

0

0

0

0

13

82

КИНШТ Н.В.

KINSHT NV

0

0

0

0

0

0

0

84

ЧИПУЛИС В.П.

CHIPULIS VP

0

0

0

0

0

0

0

101

ЛИФШИЦ В.Г.

LIFSHITS VG

 

 

23

68

9

0

101

ЗОТОВ А.В.

ZOTOV AV

 

 

 

32

59

9

100

102

КОРОБЦОВ В.В.

KOROBTSOV VV

2

1

0

0

0

0

3

103

ПЛЮСНИН Н.И.

PLUSNIN NI

 

4

3

6

4

1

6

104

САРАНИН А.А.

SARANIN AA

 

 

 

53

40

7

24

105

ГАЛКИН Н.Г.

GALKIN NG

2

7

9

7

9

1

35

ИТОГО по ИАПУ

 

 

19

28

25

133

187

33

425

Те лаборатории, у которых эти показатели оказались относительно низкими, отрицательно отнеслись к полученным результатам.

Анализ обсуждения позволил выделить две основные обоснованные причины недовольства:

  1. сомнение в правомерности использования цитируемости для оценки научного вклада,
  2. и ограниченность базовой информации для определения цитируемости, т. е. использование базы данных SCI для такой работы необходимо, но явно недостаточно.
  3. Согласно данным, приведенным специалистами РФФИ (1), каждые 8-9- российских ученых из 10 не представлены в SCI. Принципы отбора научной периодики для включения в информационные продукты ISI предполагают соответствие не только научным, но и определенным издательским параметрам. Кроме того, SCI ориентирован в основном на англоязычную литературу. Поэтому, на наш взгляд, до создания российского аналога SCI, необходим учет цитирования в центральных российских изданиях, а также в докторских диссертациях.

    Позволяет ли измерение цитируемости верно оценить научный вклад? Действительно, цитирование отражает связь между работами ученых, говорит об использовании научных результатов - но оно отражает не все связи. Если труды ученого цитируются широко, то это в общем случае указывает на то, что его продукция высоко оценивается и в большой степени используется другими учеными. Но обратное утверждение в общем случае неверно. А для того чтобы цитируемость могла служить основой оценки научного вклада, необходимо, чтобы были верны как прямое, так и обратное утверждение.

    Почему цитирование не отражает полной картины научных коммуникаций?

    Во-первых, в самоорганизующейся системе научных коммуникаций установились определенные нормы цитирования (несколько разные в разных областях науки), т.е. устанавливается некоторый ценз, порог ценности статьи для данной работы. Поэтому аппарат ссылок отражает лишь небольшой фрагмент всей получаемой и используемой ученым информации. Во-вторых, далеко не все сообщения, необходимые для работы, достигают автора статьи. Целый ряд барьеров препятствует проникновению к потребителю даже опубликованной информации. Множество барьеров, синергически взаимодействуя и усиливая друг друга, образуют вокруг каждого ученого своеобразную "информационную скорлупу". В-третьих, как показывает опыт, при цитировании автор руководствуется не только ценностью статьи для своей работы. Например, Ю. Гарфилд отмечает, что цитирование может быть вызвано стремлением автора поднять свою собственную репутацию, связав свою работу с более крупными исследованиями, или стремлением избежать ответственности, ссылаясь на работы других авторов (2).

    Очевидно, что все перечисленное резко сокращает возможность использования цитируемости для оценки вклада в науку. Расширение же использования SCI как инструмента для оценки научной продуктивности индивидуальных работников неизбежно приведет к росту ненужного цитирования. Это наносит ущерб SCI как исключительно ценному средству информационного поиска и науковедческих исследований.

    Теперь о самом индексе цитирования ученого, научной лаборатории, института в целом. В научных кругах нет единого подхода к этому понятию. В монографии И.В. Маршаковой (основатель использования баз данных SCI в российской науке) "Система цитирования научной литературы как средство слежения за развитием науки" приводятся количественные факторы для журналов. Это: показатель воздействия журнала, показатель отклика на журнал, цитирующий и цитируемый показатель. В существующих источниках информации нет научно-обоснованной технологии определения индекса цитирования для отдельного ученого, научной лаборатории или института в целом (3). Инициаторы-практики при этом нередко смешивают понятия цитируемость, частота цитирования, индекс цитирования.

    Синергетический подход требует, чтобы:

  4. во-первых, все Отделения РАН (а не только Отделение биологических наук) принципиально определились с необходимостью использования цитируемости в оценке научного вклада;
  5. во-вторых, должна быть четко определена и утверждена научным сообществом база источников информации для определения цитируемости российских ученых (наше предложение - расширить ее, добавив к SCI список центральных журналов, утверждаемый ВАК, и докторские диссертации);
  6. в-третьих, необходимо разработать и принять единую методику определения показателя цитирования.

Литература

  1. Алфимов М.В., Либкинд А.Н., Либкинд И.А., Минин В.А. Информационные потоки в РФФИ: новый подход к цитированию//Вестник РФФИ, 2001, № 4(26), с. 5-23.
  2. Гарфильд Ю. Можно ли выявлять и оценивать научные достижения и научную продуктивность// Вестник АН СССР, 1982, № 7, с. 42-50
  3. Маркусова В.А. В списках не значатся //Поиск, 2003, № 3.
!35

ИНФОРМАЦИОННАЯ ПОДДЕРЖКА
НАУЧНЫХ ИССЛЕДОВАНИЙ ПО
ПЕРСПЕКТИВНЫМ МАТЕРИАЛАМ
МИКРОЭЛЕКТРОНИКИ

В.М. Ефременкова, М.К. Мелконян
(ВИНИТИ РАН, Институт кристаллографии РАН)

Успехи микроэлектроники неразрывно связаны с достижениями в технологии полупроводниковых материалов. Основные составляющие микроэлектроники - это материал как объект изучения, технология как способ его получения и области применения материала. Сегодня материаловедение опирается на такие отрасли знаний, как кристаллография, физика твердого тела, электрохимия и т.д.

Работа посвящена анализу информационных потоков для изучения современного состояния технологии важнейших полупроводниковых материалов, приборов на их основе и обсуждения ближайших перспектив. Инструментом исследования служила база данных Института научной информации США Web of Science.

Основным материалом современной электроники остается кремний. Наиболее важными областями его применения являются: микроэлектроника, силовая электротехника, солнечная энергетика. Ежегодный объем публикаций по кремнию стабильно большой и на порядок превышает массивы публикаций по другим полупроводниковым материалам. За период 1991-2002 гг. объем публикаций по кремнию вырос почти в три раза. В 2001 г. доля работ по применению кремния в микро - и наноэлектронике составила порядка 40% от суммарного массива по этому веществу. Лидерами исследований по кремнию являются Япония и США. В последние годы достижения в технологии позволили существенно улучшить качество создаваемых на основе кремния больших и сверхбольших интегральных схем, повысить их быстродействие и практически вплотную приблизиться к предельным "физическим" возможностям этого важнейшего полупроводникового материала. По германию массив публикаций на порядок меньше, чем по кремнию, причем 23% работ по германию относятся к исследованиям в микро - и наноэлектронике.

Из традиционных материалов микроэлектроники на втором месте (после кремния) по своему значению держится арсенид галлия. Удачное сочетание характеристик обеспечивает широкие перспективы применения этого материала для изготовления оптоэлектронных приборов, приборов СВЧ техники, детекторов ионизирующих излучений и других устройств. Количество публикаций по арсениду галлия стабильно велико, медленно растет, а доля работ в микро - и наноэлектронике составляет 30% от общего массива по этому материалу. В области исследований по арсениду галлия лидируют Япония, Германия и США.

Характерной особенностью развития микро- и наноэлектроники в наши дни является широкое использование двойных полупроводниковых соединений, типа GaN, ZnO, CdS. Анализ информационных потоков за период 1991-2002 гг. выявил наиболее быстрый рост исследований по GaN - в 13 раз за последние семь лет. За тот же временной интервал объем публикаций по ZnO вырос в 4 раза, а CdS - в 3 раза. Бесспорным лидером исследований по использованию GaN в области микро - и наноэлектроники являются США, а ZnO и CdS - Япония. Следует отметить рост интереса к исследованиям CdS в Китае и Индии. Все три материала активно используются в лазерной технике: их доля составляет от 6% - для CdS до 12% - для GaN от суммарного массива публикаций для каждого вещества.

Основным материалом солнечных батарей является сульфид кадмия - объем работ около18% от общего массива документов. Доля публикаций по применению CdS в микро- и наноэлектронике составляет около 52%, GaN и ZnO - около 32% для каждого соединения. Наибольшую трудность работы по оценке суммарного количества статей в Web of Science представляет составление поискового предписания по сульфиду кадмия, так как CdS - это и формула полупроводникового соединения, и биологический термин - CDS' cells. Объем выдачи по биологическому термину составил около 30% в 2001 году.

С помощью Web of Science была отслежена география научных исследований по Si, Ge, GaN, ZnO, CdS в США и России. Построены карты науки в данной области знаний в обеих странах. Лидирующее место занимают Силиконовая долина в США и Физико-технический институт им. Иоффе - Санкт-Петербург, Россия.

!36

ВОПРОСЫ ПОСТРОЕНИЯ ЕДИНОЙ
ИНФОРМАЦИОННОЙ СИСТЕМЫ
КАРЕЛЬСКОГО НАУЧНОГО ЦЕНТРА
РОССИЙСКОЙ АКАДЕМИИ НАУК

В.Т. Вдовицын, А.Д. Сорокин
(Институт прикладных математических
исследований КарНЦ РАН, г. Петрозаводск,)

Главная цель данной работы состоит в том, чтобы на основе проведенного анализа существующих отечественных и зарубежных информационных систем поддержки научных исследований, проекта концепции создания Единой Информационной Системы Российской академии наук (ЕИС РАН) и текущего состояния информационно-телекоммуникационной среды центра, сформировать наше видение и понимание путей развития информационной системы КарНЦ РАН, а также сформулировать первоочередные задачи по созданию единой информационной системы КарНЦ РАН и предложить подходы к их решению.

Единую информационную систему Карельского научного центра РАН определим как распределенную в компьютерной сети центра систему электронных (цифровых) научных и административных информационных ресурсов и программных средств, обеспечивающих процессы формирования, сохранения и многоцелевого использования этих ресурсов для решения научных, научно-управленческих и прикладных задач. Главной целью создания ЕИС КарНЦ РАН является повышение уровня информационного обеспечения научных исследований и организационно-управленческой деятельности институтов и Президиума центра.

В настоящее время Карельский научный центр РАН располагает значительными техническими и информационными ресурсами и имеет опыт создания и развития телекоммуникационных и информационных систем. В состав центра входит 7 научных институтов и централизованные службы аппарата Президиума (включая научную библиотеку, редакционно-издательский отдел, патентную службу и отдел по научно-техническим связям с зарубежными странами). В составе научных институтов 36 лабораторий, 6 секторов, 3 отдела и более 5 групп. Все эти подразделения географически расположены в 4-х территориально удаленных корпусах.

Инфраструктура ЕИС КарНЦ РАН должна опираться на действующую телекоммуникационную структуру. В настоящее время телекоммуникационная структура центра включает компьютерную сеть на базе единой кабельной системы, охватывающей 3 здания на ул. Пушкинской, 11, центральный телекоммуникационный узел (ЦКУ) и компьютерные сети в корпусах Интитута водных проблем Севера (ИВПС, Невского, 50) и Института экономики (ИЭ, Пушкинская, 3). Эта система является основой для решения задач информационного обеспечения процессов проведения фундаментальных исследований и административной деятельности центра [1].

В институтах КарНЦ РАН ведутся работы по созданию и развитию научных электронных информационных ресурсов, в том числе с использованием Internet-технологий [2]. С 1997 года создан и функционирует официальный Web-сайт центра (http:// www.krc.karelia.ru), сайты институтов (http://biology.krc.karelia.ru, http://geoserv.krc.karelia.ru, http:// nwpi.krc.karelia.ru), а также ряд тематических предметно-ориентированных сайтов с интегрированными базами данных, например, в области гуманитарных наук - http://phonogr.krc.karelia.ru , http://toris.krc.karelia.ru (в настоящее время развивается при финансовой поддержке РГНФ, грант № 03-04-12033в) , в биологии - http://biodiv.krc.karelia.ru и др. [3, 4]. Большинство этих проектов выполнялись в течение 1997-2001 г.г. при поддержке грантов РФФИ, РГНФ, ФЦП "Интеграция" и др. При этом использовались традиционные Web-технологии и свободно распространяемые СУБД - miniSQL и MySQL с организацией доступа к базам данных по разработанным интерфейсным формам с применением технологии CGI-скриптов. Также следует отметить проект электронного каталога Научной библиотеки КарНЦ РАН (http://foliant.ru/catalog/knclibr/), работы по созданию электронной коллекции знаний об Онежском и Ладожском озерах (Институт водных проблем Севера) [5, 6] и проекты в области создания ГИС (Институт геологии), ИПС "Наука" (http://nauka.petrsu.ru).

Состояние научного информационного пространства КарНЦ РАН во многом совпадает с оценкой состояния научного информационного пространства РАН, которое приведено в концепции создания ЕИС РАН. Во-первых, институты центра обладают значительными и постоянно возрастающими научными информационными ресурсами, которые, как правило, слабо систематизированы и разрознены. Во-вторых, научная информация слабо представлена для доступа по телекоммуникационным каналам. В-третьих, отсутствует централизованная специализированная система поиска научной информации и доступа к ней. В-четвертых, практически отсутствуют для широкого доступа электронные версии изданий научных трудов ученых центра, хотя авторы в основном предоставляют в издательство электронные варианты публикаций. В-пятых, научная информация не имеет стандартизованного электронного представления.

Необходимость создания ЕИС КарНЦ РАН так же во многом перекликается с основными предпосылками информатизации РАН. Во-первых, целесообразно упорядочить и стандартизовать доступ к результатам научной деятельности КарНЦ РАН. Во-вторых, необходимо расширить и реализовать на качественно новом уровне ряд систем автоматизации административной, хозяйственной и научной деятельности центра, а также организовать электронный обмен научной, хозяйственно-административной и нормативно-правовой информацией между организациями РАН. В-третьих, целесообразно организовать информационно-справочный сервис, осуществляющий накопление и предоставление оперативной научной и хозяйственно-административной информации. В-четвертых, необходимо обеспечить создание и доступ по сети Internet к электронным версиям научных публикаций сотрудников центра. В-пятых, необходимо обеспечить создание и доступ по сети Internet к электронным библиотекам научных информационных ресурсов, а также доступ к основным мировым электронным базам информационных ресурсов.

ЕИС КарНЦ РАН должна иметь распределенную архитектуру - система должна состоять из множества серверов и рабочих станций, образующих единое интегрированное информационное пространство центра. Основу системы должны составить информационные системы Институтов и Президиума КарНЦ РАН. При этом одна часть информации должна быть представлена в открытом, а другая - в строго контролируемом режиме (перечень открытой и информации ограниченного доступа устанавливается на основании распоряжений Президиума РАН, отделений, руководства центра и институтов).

Разработка и реализация ЕИС КарНЦ РАН должна проводиться с учетом выполнения следующих основных требований:

Первоочередными задачами при создании ЕИС КарНЦ РАН являются:

Ядром ЕИС КарНЦ РАН, обеспечивающим процессы формирования, развития, сопровождения и использования цифровых научных информационных ресурсов, предлагается сделать электронную библиотеку КарНЦ РАН

В настоящее время в рамках выполнения проекта по гранту РФФИ (№ 02-07-90204) разработана первая версия программного обеспечения ЭБ КарНЦ РАН (http://dl.krc.karelia.ru), в которую внесены документы коллекций научных информационных ресурсов о видовом, популяционном и экосистемном биоразнообразии растительного и животного мира Карелии и ее ресурсном потенциале [7].

В заключение необходимо отметить, что разработка, развитие и сопровождение ЕИС КарНЦ РАН требует решения целого ряда научно-методических, организационных, финансовых и кадровых вопросов, от которых зависит эффективность создания и функционирования системы. Наиболее значительными из них на первой стадии создания системы, на наш взгляд, являются следующие:

При разработке мероприятий программы необходимо учесть проведение научных исследований с целью разработки и выбора методов организации метаданных, интерфейсов, классификаторов и рубрикаторов, перспективных общесистемных информационных технологий и программных средств для построения отдельных информационных систем ЕИС центра (электронной библиотеки научных информационных ресурсов центра, научного портала, информационных систем с базами данных и знаний, ГИС, системы электронного документооборота и т.п.). Также следует разработать технологии администрирования системы, обеспечения информационной безопасности и аутентификации, взаимодействия с управляющим ядром ЕИС РАН и системы идентификации, каталогизации и рубрикации информационных ресурсов.

Разработка, развитие и выполнение мероприятий программы должны осуществляться в тесной координации с разработчиками ЕИС РАН.

Рабочая группа должна, по нашему мнению, определять этапность реализации мероприятий программы, проводить экспертизу проектов по созданию элементов ЕИС КарНЦ РАН, оценивать стоимость и сроки проведения работ, обеспечивать финансовую и организационную поддержку проводимых работ.

Основными источниками финансирования программы создания ЕИС КарНЦ РАН, на наш взгляд, являются:

При этом целесообразно расходовать целевые средства Президиума РАН и собственные средства институтов и Президиума КарНЦ РАН на конкурсной основе, привлекая к разработкам высококвалифицированных специалистов центра и других организаций.

Литература

  1. Сорокин А.Д., Вдовицын В.Т. и др. Концепция развития системы телекоммуникаций КарНЦ РАН. //Труды Института прикладных математических исследований КарНЦ РАН. Методы математического моделирования и информационные системы. - Вып. 3. - Петрозаводск 2002 г.
  2. Сорокин А.Д., Вдовицын В.Т., Луговая Н.Б. Создание и развитие электронных информационных ресурсов в КарНЦ РАН. // Сб. докл. Второй Всеросс. научн. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". - Протвино, 26-28 сентября 2000 г., - с. 3-5.
  3. Вдовицын В.Т., Кузнецова В.П. и др. Создание электронной версии архива фольклорной фонотеки ИЯЛИ КарНЦ РАН. // Сб. докл. Второй Всеросс. научн. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". - Протвино, 26-28 сентября 2000 г., - с. 32-38.
  4. Вдовицын В.Т., Керт Г.М. и др. Электронная коллекция информационных ресурсов по топонимии Европейского Севера России. // Сб. докладов Третьей Всеросс. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". RCDL'2001, - Петрозаводск, 11-13 сентября 2001 г., КарНЦ РАН. - с. 199-201.
  5. Лебедев В.А., Старкова В.Г., Брагин С.В. Система доступа к коллекции знаний по экологии региона. // Сб. докл. Второй Всеросс. научн. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". - Протвино, 26-28 сентября 2000 г., - с. 185-188.
  6. Филатов Н.Н., Лебедев В.А. Коллекция знаний об Онежском и Ладожском озерах. // Сб. докладов Третьей Всеросс. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". RCDL'2001, - Петрозаводск, 11-13 сентября 2001 г., КарНЦ РАН. - с. 202-208.
  7. Вдовицын В.Т., Сорокин А.Д. Вопросы построения электронной библиотеки Карельского научного центра РАН. // Труды Четвертой Всеросс. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" RCDL'2002. (Дубна, 15-17 октября 2002 г.): В 2 т. - Дубна: ОИЯИ, 2002. - Т.1. - с. 304-308.
!37

ИСПОЛЬЗОВАНИЕ ЭЛЕКТРОННЫХ РЕСУРСОВ
ДЛЯ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ
НАУЧНЫХ ИССЛЕДОВАНИЙ В БИБЛИОТЕКЕ ИФП СО РАН

Н.Н. Шабурова
(Институт физики полупроводников СО РАН,
Новосибирск)

Научная библиотека Института физики полупроводников СО РАН (г. Новосибирск) входит в состав крупной библиотечной системы. Центральной библиотекой, организующей сетевые ресурсы, является ГПНТБ СО РАН. Наша основная задача, как и любой библиотеки академического института, - информационно-библиотечное обслуживание его специалистов. Специфика нашей работы определяется тематикой и организационными формами научных исследований, которые в ИФП СО РАН ведутся по трем основным направлениям: 1) физика полупроводников и диэлектриков; 2) физико-химические основы технологий микроэлектроники, наноэлектроники, микрофотоэлектроники, акустоэлектроники; 3) оптика и квантовая электроника. Организационно они ведутся в рамках индивидуальных и коллективных грантов и комплексных и междисциплинарных интеграционных проектов и программ. Институт является головным исполнителем в 3 интеграционных проектах СО РАН, по результатам конкурса-экспертизы научных проектов имеет 6 грантов по фундаментальным и прикладным исследованиям Минпромнауки и 54 гранта РФФИ, из которых 18 проектов получили поддержку в форме дополнительных грантов, а также международные гранты и договоры с научными организациями и фирмами зарубежных стран.

Однако при положительной динамике роста научных исследований в ИФП нет информационного центра, который мог бы решать многочисленные информационные задачи. Стало очевидным, что их следует взять на себя библиотеке. Их решение было начато с формирования и использования электронных ресурсов для информационного сопровождения узкотематических научных исследований. По мере развития электронной информации библиотека уделяла значительное внимание этой форме обслуживания, которая оформилась в систему:

Система использования электронных ресурсов

Конечно, в последние годы одним из основных источников информации для российских ученых стала Научная электронная библиотека (НЭБ, г. Москва), в которой предоставляется бесплатный доступ к полнотекстовым электронным версиям зарубежных и российских журналов и базам данных (БД) крупнейших информационных центров.

Для обеспечения устойчивой работы с данными ресурсами на базе ГПНТБ СО РАН создан зеркальный сервер НЭБ.

В работе с НЭБ библиотека является лишь посредником. Ее роль заключается в обеспечении доступа с любого рабочего места, помощь в индивидуальной регистрации и консультации по работе с системой. Зарегистрировав все 318 компьютеров локальной сети ИФП, мы получили возможность доступа к НЭБ для всех научных сотрудников с их рабочего места.

Что же касается использования и пропаганды других электронных изданий, наша библиотека занялась целенаправленным поиском электронной информации, позволяющим выявить наиболее значимые ресурсы. Базой этой работы стал разработанный навигатор “Тематические сайты и электронные ресурсы”, установленный на сайте библиотеки. Формирование и наполнение категорий навигатора ведется сотрудниками библиотеки по собственной методике, поскольку в области создания навигаторов интернет-ресурсов нет разработок, регламентирующих такую работу. В основном, она построена на анализе [1] опыта других библиотек. Структура навигатора проработана в соответствии с принципами, предложенными библиографом Отделения ГПНТБ СО РАН С.К. Канном [2] и выглядит следующим образом:

~ Отраслевые полнотекстовые электронные издания.

~ Нормативно-справочная информация.

~ Научные мероприятия.

~ Информационные ресурсы.

~ Базы данных.

~ Учреждения и организации.

~ Конференции и симпозиумы.

~ Новая информация.

Структурные части предлагают разнообразную информацию: контактную, справочную, библиографическую, полнотекстовую, ориентирующую и сигнальную.

НАПОЛНЕНИЕ НАВИГАТОРА

~ поиск ведется по терминам и ключевым словам в поисковых системах

~ по публикациям в прессе

~ по фамилиям ученых со списками их работ и электронными адресами

~ по названиям лабораторий, работающих в области соответствующих узкотематических направлениях научных исследований

~ по информации о конференции или по наличию ссылок на аналогичные ресурсы и их краткой характеристике

~ по подписке на бесплатные услуги по регулярному (еженедельному или ежемесячному) тематическому оповещению (NEWSALERT)
~ по предоставленным другими организациями вэб-адресам, гиперссылкам и навигаторам ресурсов Интернет
[3].

В навигатор включены ссылки на отечественные и англоязычнные сайты.

Собранные таким образом ссылки открывают разные виды ресурсов, которые отличаются по структуре и глубине информации и служат для разных целей, но каждый из них достоин отдельного внимания. Вопросы содержательного анализа подобранной библиотекой информации могут решать только сами специалисты, так же как и давать оценку видов и качества ресурсов, установленных на сайт. Наш навигатор еще в стадии становления, он уже дает представление о доступной информации. Налаженная обратная связь с учеными ИФП позволяет совершенствовать и развивать созданный нами информационный сервис.

Еще одна составляющая информационного ресурса, используемого в качестве базы для текущего информационного обеспечения тематики ИФП – это Электронные каталоги и базы данных ГПНТБ СО РАН. Прежде всего это:

  1. БД “Current Contents”, наибольший интерес в которой вызывают тематические разделы Physical, Chemical & Earth Sciences (CC).
  2. БД ВИНИТИ (РЖ “Физика”), позволяющая получать реферативную информацию.
  3. Электронный каталог ГПНТБ СО РАН, из которого отбираются новые поступления книг и продолжающихся изданий по тематическим профилям.

И, наконец, библиотека ИФП генерирует БД – это БД публикаций сотрудников Института, которая в настоящее время включает описания 1200 документов с 1991 г. (публикаций в рецензируемых отечественных и зарубежных журналах, трудах конференций, тезисов докладов, книг и авторефератов) и дает достаточно полное представление о научных направлениях, спектре и масштабах научных исследований, проводимых в Институте. БД безусловно полезна специалистам, занимающимся исследованиями в области физики полупроводников, оптики и квантовой электроники, а также инженерам, связанным с разработкой приборов микроэлектроники, наноэлектроники и микрофотоэлектроники.

Другая собственная база данных, польза которой очевидна – это сводный каталог всех имеющихся в библиотеке иностранных периодических изданий, который активно используется как сотрудниками нашего Института, так и других НИУ СО РАН. Поступления отражаются еженедельно и установлены ссылки (по примеру БЕНа) на страницы оглавлений последних номеров на сайтах издателств, что, безусловно, повышает ценность текущего каталога.

Электронный каталог с удобной поисковой системой отражает и книжный фонд с 1991 года. Программное обеспечение как БД, так и каталога основано на MySQL. Сейчас мы переходим на “ИРБИС”.

Новая электронная услуга – создана страничка с оглавлением научных мероприятий ИФП (конференций и семинаров), предусматривающая ЭДД.

Таким образом, обеспечивая ученых первоисточниками, внешней вторичной информацией и создавая собственные электронные ресурсы, библиотека ИФП ориентирована на тематические информационные потребности своих ученых и обеспечение их в наиболее удобном сервисном режиме.

В заключение можно сказать, что значение тематических сайтов и электронных ресурсов в целом как способа получения научной информации для ученых ИФП заметно возрастает. Эти открытые системы служат дополнительным источником информации и являются актуальным и оперативным средством научной коммуникации. А сайт библиотеки является средством кумуляции вторичной информации об информационных ресурсах и интеграции собственных и внешних ресурсов через систему ссылок [4].

Наша библиотека получила приз в номинации “Лучший библиотечный сайт” в конкурсе между академическими библиотеками НИУ СО РАН в 2002 году, а весной 2003 года – диплом и малую золотую медаль Сибирской Ярмарки в номинации “специализированная литература” за пропаганду научных трудов сотрудников Института на выставке “Книга Сибири”.

Используемая литература:

  1. Лаврик О.Л. Академическая библиотека в современной информационной среде. – Новосибирск, 2003. – С.85 и табл. 8.
  2. Канн С.К. Особенности создания путеводителей по ресурсам Internet в научных библиотеках // Информационные ресурсы. Интеграция. Технологии: Матер. 3-й Международ. конф. (3;1997;Москва) – М.: ВИНИТИ, 1997. – С.143-144.
  3. Ефременкова В.М. и Мелконян М.К. Мониторинг исследований наноразмерных структур в базе данных Web of Science // Матер. I Международной школы-семинара “ Электронные информационные ресурсы - для российских пользователей” (1;2003;Кемер,Турция).
  4. Погорелко К.П., Солошенко Н.С. Развитие функций сайтов информационных центров в отраслевой системе электронных коммуникаций: математика (Куда ведут порталы?) // НТИ. Сер.1. – 2002. - № 9. – С.5-9.
!38