!1!

Функции библиотек РАН в современных условиях

 Калёнов Н.Е. 
(Библиотека по естественным наукам РАН)

Система академических библиотек возникла одновременно с созданием Российской академии наук как структура, с одной стороны, предоставляющая исследователям необходимую информацию, с другой стороны – обеспечивающая хранение знаний, отраженных в научных публикациях. На протяжении двух с половиной столетий академическая библиотечная система развивалась количественно одновременно с развитием научных организаций, однако суть основной ее деятельности оставалась неизменной – приобретение и хранение научной литературы, формирование справочного аппарата по фондам (каталогов и указателей), предоставление ученым необходимых изданий, ведение картотек трудов сотрудников академических институтов.

Бурный рост объемов научной информации, появляющейся в мире, с середины 20-го века, обусловил необходимость выполнения академическими библиотеками дополнительных функций, связанных с целенаправленным информационным обслуживанием ученых. Большинство академических библиотек стали поддерживать службы текущего и ретроспективного информирования ученых.

Текущее информационное обслуживание реализовывалось на основе анализа содержания поступающих в библиотеку материалов. Сформированные подборки библиографических материалов по заранее согласованным с учеными научным направлениям периодически либо публиковались в виде тематических указателей (по разделам, представляющим интерес для достаточно большого количества ученых разных институтов), либо оформлялись в библиотеке в виде тематических картотек новых поступлений (по разделам, интересующим сотрудников различных подразделений института), либо передавались в виде списков или карточек в соответствующие подразделения института.

Наряду с текущим информационным обслуживанием, сотрудники академических библиотек по разовым запросам коллективов или отдельных ученых осуществляли поиск материалов по заданной тематике. Результаты поиска оформлялись либо в виде издаваемых ретроспективных библиографических указателей (если тема представляла интерес для широкого круга ученых), либо в виде списков, передаваемых “заказчику”.

Появление ЭВМ третьего поколения позволило в конце 1970-х – начале 1980-х годов автоматизировать ряд технологических процессов, выполняемых библиотеками, в первую очередь связанных с информационным обслуживанием [1]. Этому способствовала сложившаяся в Академии наук централизованная библиотечная структура. Каждая библиотека академического института входит в централизованную библиотечную систему (ЦБС), возглавляемую одной из центральных библиотек (ЦБ). ЦБ осуществляет централизованное комплектование и обработку литературы для библиотек своей ЦБС, ведет сводные каталоги фондов ЦБС, обеспечивает централизованное обслуживание по межбиблиотечному абонементу, координирует информационную деятельность своих библиотек. В настоящее время в РАН функционируют две отраслевые ЦБС, возглавляемые, соответственно, Библиотекой по естественным наукам - БЕН РАН и Библиотекой Института научной информации по общественным наукам - ИНИОН РАН, и четыре региональные, возглавляемые Библиотекой Академии Наук – БАН (г. Санкт-Петербург), ГПНТБ СО РАН (г. Новосибирск), ЦБ ДВО РАН (г. Владивосток) и ЦБ УрО РАН (г. Екатеринбург). Хотя схемы централизации в каждой из ЦБС несколько различаются, сам подход к организации библиотечной системы позволяет существенно экономить ресурсы, связанные с приобретением и обработкой литературы, повысить эффективность информационного обслуживания ученых. Последнее проявилось достаточно ярко в начале 1980-х годов при внедрении автоматизированных систем информирования ученых в режиме избирательного распространения информации (ИРИ) [2]. ЦБ РАН (в первую очередь, БЕН и ГПНТБ СО), установив у себя достаточно мощные ЭВМ, периодически получали из ВИНИТИ библиографические и реферативные базы данных (БД) на машинных носителях;. в них осуществлялся поиск информации по введенным в ЭВМ запросам, соответствующим тематике исследований академических институтов. Найденная информация распределялась по библиотекам ЦБС, которые, используя вычислительные мощности институтов, доводили информацию до конкретных потребителей. Ознакомившись с представленной библиографической или реферативной информацией, ученые заказывали копии необходимых статей в библиотеках своих институтов. При отсутствии соответствующих первоисточников в библиотеке заказы направлялись в ЦБ, которые выполняли их на базе фондов своих ЦБС.

Подобные системы просуществовали до начала 1990-х годов, когда практически прекратилось централизованное финансирование, выделяемое академическим библиотекам на приобретение информации.

В последние годы финансирование возобновилось, однако за это время принципиально изменилась структура мирового информационного пространства, произошел гигантский скачок в области развития вычислительной техники и сетевых технологий. У некоторой части академического сообщества возникли сомнения в целесообразности существования академических библиотек. Нам представляется бесспорным (и это неоднократно подчеркивалось руководством РАН), что библиотеки как хранители и распространители научной информации являются неотъемлемой частью Академии наук и, как выразился президент РАН академик Ю.С.Осипов на общем собрании РАН в мае 2005 года, остаются “стержнем научных исследований”. Однако современные условия требуют коренной перестройки системы информационного обеспечения ученых, корректировки функций академических библиотек, принципов их взаимодействия с пользователями,. Ниже мы попытаемся проанализировать роль академических библиотек и их функции в современных условиях.

Организационно деятельность библиотек может строиться по-разному, начиная от одной крайности - полной “децентрализации” и кончая другой – полной “централизацией”. Первый вариант предполагает, что библиотеки являются подразделениями институтов, ведут собственную независимую политику комплектования за счет средств института, обеспечивают учет фонда, находящегося на балансе института, сами обрабатывают литературу, поддерживают каталоги, организуют обслуживание пользователей. При втором варианте библиотека, обслуживающая институт, является подразделением ЦБ. Институт предоставляет помещение для размещения сотрудников библиотеки и фонда (необходимого для института, но находящегося на балансе ЦБ), вычислительную и копировальную технику, обеспечивающую качественное обслуживание сотрудников института, оплачивает коммунальные услуги, связанные с эксплуатацией библиотеки.

Не касаясь вопроса, связанного с административной принадлежностью библиотек (в настоящее время распространены оба варианта), который должен решаться, исходя из конкретных условий для каждого института, отметим, что экономические преимущества централизации технологической деятельности библиотек очевидны: централизация позволяет оптимизировать расходование средств на приобретение информационных материалов, экономить кадровые ресурсы, необходимые для анализа мирового информационного рынка и обработки поступающих материалов, без дополнительных усилий создавать сводные каталоги фондов библиотек, оптимизировать процессы обслуживания по межбиблиотечному абонементу. Эти преимущества ни в коей мере не утрачиваются в современных условиях, однако развитие технических средств и сетевых технологий требуют от сотрудников библиотек выполнения своих традиционных функций на принципиально новом уровне. Это относится и к проблемам комплектования библиотек, и к проблемам создания справочного аппарата, и к проблемам информационного обслуживания ученых.

Библиотечные работники были и остаются “посредниками” между учеными и информационной средой. Несмотря на наличие Интернет и возможностей для пользователей самостоятельного доступа к различным ресурсам, проблема выбора нужной конкретному коллективу исследователей информации остается, и одной из важнейших функций академических библиотек является ее решение.

В рамках выполнения этой функции институтские библиотеки (ИБ) и ЦБ РАН должны решать следующие задачи:

  1. На основе анализа мирового информационного рынка предоставлять сведения ученым об изданиях (традиционных и электронных) и базах данных по тематике их исследований. Анализ мирового рынка проводят специалисты ЦБ, отбирая материалы, формально соответствующие крупным разделам науки, по которым ведут исследования обслуживаемые институты. Предварительно отобранные материалы загружаются на сервера ЦБ, где они доступны через Интернет для сотрудников ИБ, входящих в данную ЦБС. Сотрудники ИБ отбирают материалы, соответствующие направлениям исследований своего института, загружают их на свой сервер и предлагают оценить их информационную ценность экспертам из числа ведущих специалистов данного института. Полученные экспертные оценки направляются в ЦБ и являются основой для решения следующей задачи.
  2. Формирование оптимального (в смысле максимальной информационной ценности по каждому научному направлению) заказа на информационные материалы в условиях имеющихся финансовых ограничений. Задача решается каждой ЦБ, которая должна координировать свои действия с другими ЦБ и институтами информации РАН, а также с РФФИ, который оплачивает права доступа к зарубежным журналам для своих грантодержателей. Каждый институт может заказывать информационные материалы, необходимые его сотрудникам, за счет своих средств, но он должен делать это при согласовании с ЦБ.
  3. Формирование электронного справочного аппарата (каталогов) по ресурсам, приобретенным для РАН, и предоставление доступа к нему ученым. Сведения о ресурсах, централизованно приобретенных для фондов ИБ, формируются специалистами ЦБ и отражаются в сводных каталогах ЦБС. Литература, приобретенная институтом за счет своих средств, либо передается на обработку в ЦБ, либо обрабатывается по принятой технологии сотрудниками ИБ. В любом случае она должна быть отражена в сводных каталогах. Сотрудники ИБ ведут локальные каталоги ресурсов, поступивших в их фонды или доступных сотрудникам их института в сетевом режиме. При формировании локальных каталогов используются результаты централизованной обработки материалов, осуществляемой в ЦБ, что существенно экономит общие ресурсы ЦБС.
  4. Решение организационных вопросов, связанных с подключением сотрудников РАН к приобретенным в их интересах сетевым ресурсам. Эта работа включает оформление лицензионных соглашений, регистрацию в организации, предоставляющей ресурсы, IP-адресов пользователей, решение с поставщиками ресурсов различных организационных проблем. Сотрудники ИБ должны решать эти вопросы, применительно к своим институтам, сотрудники ЦБ – применительно к пользователям, работающим с ресурсами непосредственно из ЦБ.
  5. Поиск свободно доступных ресурсов Интернет по тематике исследований обслуживаемых коллективов и предоставление ученым их адресов. Эта работа может быть организована путем поддержки на сайтах ИБ и ЦБ специальных разделов, содержащих описания и ссылки на найденные ресурсы. При этом ЦБ целесообразно поддерживать информацию по крупным разделам науки, а БИ – по достаточно узким разделам, сформулированным подразделениями института.
  6. Информирование ученых о новых поступлениях материалов в библиотеки и о появлении новых выпусков журналов, к которым приобретены права сетевого доступа. Эта информация должна отражаться на сайтах ЦБ и ИБ применительно к их ресурсам.

Очевидно, у библиотек остаются и их основные функция – хранение и предоставление пользователям материалов из их фондов. Необходимо отметить, что если 100 лет назад речь шла только о печатных материалах, то 70 лет назад к ним добавились микрофильмы, 35 лет назад – микрофиши, а сейчас – электронные носители информации. Библиотеки (как ИБ, так и ЦБ) должны широко практиковать предоставление пользователям копий материалов из своих фондов. Если 30 и даже 10 лет назад речь шла только о ксерокопиях, то сейчас должны развиваться службы электронной доставки документов с возможностью заказа материалов через Интернет и отправки пользователю отсканированных копий по электронной почте или через FTP-сервер. Очевидно, что выполнение этой функции должно осуществляться с полным соблюдением законов об охране авторских прав.

Важной функцией академических библиотек должна стать поддержка на своих сайтах электронных библиотек (ЭБ) публикаций и диссертаций сотрудников РАН. При этом ИБ должны вести ЭБ публикаций сотрудников своих институтов, а ЦБ – сводную библиотеку.

Учитывая, что оценку эффективности научных исследований того или иного коллектива и отдельных сотрудников РАН планируется связывать с количеством публикаций и цитированием опубликованных работ, целесообразно поручить ИБ выполнение соответствующих справок по базам данных, таким как Science Citation Index. Справки должны выполняться по запросам администрации и авторов публикаций.

Сотрудники ИБ должны выполнять разовые запросы подразделений института на поиск библиографической информации, формировать и поддерживать на сайте библиотеки (или института) проблемно-ориентированные библиографические БД по заказам подразделений институтов, осуществляя выборку информации из всех доступных им источников.

Кроме перечисленных задач, являющихся, в определенной степени, традиционными для библиотек РАН, в связи с разработкой Единой информационной системы (ЕИС) РАН, предлагается возложить на сотрудников институтских библиотек технические обязанности по поддержке в актуальном состоянии информации, относящейся к данному институту (ввод в ЕИС данных об институте, его структуре, штатах, информационных ресурсах института).

Значительная часть вышеперечисленных задач ЦБ в настоящее время решается БЕН РАН – Библиотека внедрила интерактивную систему оценок предложений книжного рынка; решает оптимизационные задачи, связанные с заказом зарубежных журналов [3], координируя деятельность в этом направлении с РФФИ; поддерживает на своем сайте (http://benran.ru) сводные электронные каталоги (с отсылками к полнотекстовым журналам, доступным пользователям РАН) [4], списки новых поступлений литературы в ЦБС БЕН РАН, списки электронных изданий, к которым приобретен доступ в интересах пользователей Библиотеки, базы данных публикаций сотрудников ряда институтов РАН и ЭБ публикаций своих сотрудников, систему указателей “Естественные науки в Интернет” [5]. На сайте также реализована система заказов материалов по МБА и в читальном зале ЦБ [6] Совместно со специалистами ВЦ РАН, при поддержке РФФИ (грант 05-07-90116-в ) БЕН РАН ведет работы по интеграции библиотечных ресурсов в ЕИС РАН [7].

В качестве примеров современных ИБ, которые решают большинство вышеперечисленных задач, можно привести Центральную библиотеку Пущинского (ЦБП) научного центра (ПНЦ) и библиотеку Математического института им. В.А. Стеклова., (МИАН) являющиеся отделами БЕН РАН. Обе эти библиотеки имеют собственные сайты (http://cbp.iteb.psn.ru/ и http://libserv.mi.ras.ru/, соответственно). На сайтах представлены, соответственно, электронные каталоги (сводные каталоги книг и журналов 9-ти ИБ ПНЦ и МИАН), ссылки на ресурсы по тематике исследований институтов ПНЦ и МИАН. На сайте ЦБП реализована система заказа материалов и их копий из фондов Библиотеки. Сотрудники ЦБП ведут электронную библиотеку диссертаций, защищенных в ПНЦ, осуществляют поиск информации по запросам ученых ПНЦ, анализируют их индексы цитирования. В библиотеке МИАН создается полнотекстовая электронная библиотека математических публикаций, на сайте поддерживаются актуальные сведения о конференциях по математике и другая полезная пользователям-математикам информация.

Необходимо отметить, что внедрению современных технологий в БЕН РАН способствовала в 1990-х годах поддержка Фонда Сороса, американских некоммерческих организаций IREX и Project Harmony (предоставивших Библиотеке значительное количество технических средств), а также РФФИ и РГНФ, благодаря грантам которых оплачивается работа специалистов, поддерживающих вычислительную технику, разрабатывающих и сопровождающих программное обеспечение.

Что касается ИБ, то для превращения их в современные информационно-библиотечные центры, выполняющие вышеперечисленные функции, необходимо решение следующих проблем:

Очевидно, что для решения этих проблем необходимо финансирование, предоставляемое институтом, осознавшим потребность в современной библиотеке. Но ограничиться однократными финансовыми вложениями невозможно - для успешного функционирования ИБ должна быть обеспечена поддержка технических средств и программного обеспечения конкретными людьми, работающими в институте. Специалисты ЦБ могут установить и настроить прикладное программное обеспечение, обучить сотрудников библиотеки работе с ним, но они не смогут оперативно консультировать сотрудников ИБ по текущим вопросам, которые, как показывает практика, постоянно возникают. Опыт ЦБП, библиотек МИАНа, ФИАНа и многих других библиотек ЦБС БЕН РАН, внедряющих современные технологии, подтверждает, что без постоянной поддержки со стороны руководства института, функционирование современной ИБ невозможно.

Главным же и необходимым условием развития академических библиотек является пересмотр системы их финансирования. Сотрудникам библиотек необходимо обеспечить приемлемую зарплату (на уровне среднего дохода сотрудников РАН) с учетом того, что они, в силу специфики своей работы, не имеют грантов, не работают по договорам, не занимаются преподаванием, что характерно для подавляющего числа сотрудников РАН, а работают в интересах Академии наук, направляя всю свою деятельность на информационное обеспечение сотрудников РАН. Существующий в РАН уровень зарплаты библиотечных работников (который в Москве и Санкт-Петербурге существенно ниже зарплаты в муниципальных и ведомственных библиотеках) не позволяет привлечь к работе в академических библиотеках молодых квалифицированных сотрудников, без чего развитие информационного обеспечения академической науки вряд ли возможно

Литература

  1. Каленов Н.Е. Вопросы автоматизации информационно-библиотечных процессов в Библиотеке по естественным наукам АН СССР // Проблемы развития научных исследований в области библиотековедения и библиографии. – М,, 1981. – С. 233-247
  2. Глушановский А.В., Каленов Н.Е.. Опыт работы БЕН АН СССР как распределительного информационного центра ГАСНТИ // Основные пути совершенствования и развития ГАСНТИ: XII науч. семинар "Системные исследования ГАСНТИ" (г. Душанбе, 27-30 окт. 1981 г.). Тез.докл. Ч. II, 1981. – С. 24-26
  3. Каленов Н.Е., Козлова Е.И., Гиацинтов О.М. Математическая модель оптимизации подписки на журналы в научной библиотеке // НТИ Сер. 1, 1999. – № 12. – С. 9-12
  4. Власова С.А., Каленов Н.Е., Каллистратова О.Д., Соловьева Т.Н. Интернет-каталоги БЕН РАН // Информационные ресурсы России,. 2003, № 2(72), - C. 30-34.
  5. Власова С.А., Глушановский А.В., Каллистратова О.Д., Соловьева Т.Н. Портал "Естественные науки в ИНТЕРНЕТ" // Современные технологии в информационном обеспечении науки: сб. науч. ст.- М., 2003. – С. 24-29
  6. Власова С.А. Технология заказа литературы из читального зала БЕН РАН с использованием ИНТЕРНЕТ // Современные технологии в информационном обеспечении науки: сб. науч.ст. - М., 2003. – С. 53-58
  7. Каленов Н.Е., Серебряков В.А. Интеграция библиотечных ресурсов в ЕИС // Современные технологии в информационном обеспечении науки: сб. науч.ст. - М., 2003. – С. 91-96

 

!2!

О направлениях сотрудничества в области электронных библиотек.

Антопольский А.Б.
(НП “Электронные библиотеки”)

В течение многих лет специалисты в области электронных библиотек (ЭБ) России говорят о необходимости координации и сотрудничества в этой сфере. Предпринимались попытки разработать межведомственную программу по ЭБ, но все они оказались безуспешными. Поэтому группа организаций проявила инициативу по созданию структуры, которая могла бы способствовать самоорганизации и самоуправлению в сфере ЭБ. Такая организация - фактически Российская ассоциация электронных библиотек в организационно-правовой форме Некоммерческого партнерства “Электронные библиотеки” (НП ЭЛБИ) была создана в апреле 2005 г. Первоначальными учредителями НП ЭЛБИ стали 8 организаций различного профиля, форм собственности и ведомств, затем в нее вступили еще ряд организаций, а также физических лиц. Все члены НП ЭЛБИ являются равноправными. Председателем Совета партнерства был избран генеральный директор РГБ В.В. Федоров, директором – А.Б. Антопольский.

Первоочередной задачей НП ЭЛБИ учредители сочли необходимость разработку Программы, которую можно было бы предъявлять кандидатам в члены в ответ на вопрос, что представляет собой новая организация.

Целью Программы является консолидация деятельности государственных, некоммерческих и коммерческих организаций, частных лиц и коллективов по созданию и предоставлению в доступ публичных электронных информационных ресурсов (электронных библиотек) для формирования научно и культурно значимого сегмента электронного документного пространства России и сохранения цифрового наследия для будущих поколений.

В число основных задач Программы входят:

  1. Формирование и поддержание устойчивого развития электронного документного пространства России.
  2. Поддержка деятельности членов НП ЭЛБИ в области создания и предоставления публичных электронных документно-информационных ресурсов.
  3. Развитие Российской ассоциации электронных библиотек и НП ЭЛБИ как ее организационной базы.

Реализация программы направлена на защиту и выражение интересов трех категорий субъектов в сфере электронных библиотек:

Решение каждой из задач обеспечивается деятельностью по трем направлениям Программы. В рамках этих направлений НП ЭЛБИ инициирует и реализует конкретные проекты, поддерживает инициативы, как своих членов, так и организаций, присоединившихся к деятельности Российской ассоциации электронных библиотек.

Содержанием Программы являются проекты, направленных, прежде всего, на защиту или выражение интересов членов Некоммерческого партнерства “Электронные библиотеки” (ЭЛБИ).

Программа деятельности ЭЛБИ должна строиться по ряду направлений, в рамках которых ЭЛБИ должна стремиться реализовывать конкретные проекты.

Предлагаемый ниже перечень направлений и проектов носит в целом перспективный характер. Практическая реализация и сроки выполнения этих проектов будет обусловлена организационными и финансовыми возможностями ЭЛБИ. Поэтому предлагается выделить первоочередные проекты, которые можно реализовать силами членов ЭЛБИ, без привлечения дополнительного финансирования.

Организация деятельности по предлагаемым проектам должны вестись силами организаций-членов ЭЛБИ, а также экспертными советами и временными коллективами, создаваемыми ЭЛБИ.

Все результаты разработок, проведенных ЭЛБИ, должны быть доступны членам ЭЛБИ бесплатно.

Государственная информационная политика

  1. Разработка (участие в разработке) концепции государственной информационной политики, предполагающей координированную деятельность государственных и общественных органов и организаций по созданию публичных электронных информационных ресурсов.
  2. Содействие формированию межведомственного государственного органа (фонда, комиссии, совета) по проблемам электронных информационных ресурсов и (возможно) организационное обеспечение его деятельности.
  3. Разработка рекомендаций для региональных органов власти и управления по организации и координации деятельности в области ЭБ.
  4. Организация взаимодействия с российскими государственными и неправительственными структурами, действующими в сфере электронных библиотек и смежных сферах (Министерства и агентства, государственные фонды, Программа ЮНЕСКО “Информация для всех”, Федерация Интернет-образования, РИО-центр, РАЭК, РОЦИТ, АДИТ, ЭБНИТ, РБА, АДЭ и др.).
  5. Организация взаимодействия с международными программами, действующими в данной сфере (МИНЕРВА, ТЕL, ТАСИС и др.).

Правовое обеспечение деятельности ЭБ

    1. Участие в разработке новых законодательных актов, и доработке действующих.
    2. Разработка правовых рекомендаций для создателей ЭБ. Правовая пропаганда легитимных решений в данной области.
    3. Организация третейского суда для электронных библиотек.
    4. Организация “службы репутации” электронных библиотек на основе квалифицированных и независимых экспертов.
    5. Разработка и распространение типовых договоров по цепочке правоотношений “автор – издатель - держатель ЭБ - провайдер” и методическая помощь членам ассоциации в заключении подобных договоров. Разработка и согласование с издательствами условий отсроченной электронной публикации после выхода печатной.
    6. Организация взаимодействия членов ассоциации со структурами по коллективному управлению авторскими правами (РОМС и др.).
    7. Правовая защита интересов членов ассоциации, в том числе авторских прав создателей коллекций.

Финансово-экономическое обеспечение деятельности ЭБ.

  1. Разработка рекомендаций по бизнес-моделям функционирования коммерческих и некоммерческих, платных и бесплатных электронных библиотек.
  2. Разработка рекомендаций для государственных заказчиков по финансовым нормативам затрат на формирование и эксплуатацию ЭБ, а также по организации финансовой отчетности проектов по созданию и ведению ЭБ.
  3. Разработка рекомендаций для государственных и негосударственных заказчиков по консолидации финансовых средств на создание ЭБ, включая создание государственно-частного фонда для поддержки ЭБ.
  4. Содействие членам ассоциации в поиске российских и международных источников финансирования для социально значимых проектов ЭБ.
  5. Прямое финансирование проектов ЭБ за счет собственных средств ассоциации.

Формирование электронных ресурсов и организация доступа к ним.

  1. Создание и ведение сводного плана оцифровки печатных изданий и рукописных документов.
  2. Создание и ведение сводного каталога электронных изданий, не имеющих печатного аналога.
  3. Создание и ведение сводного каталога оцифрованных печатных изданий.
  4. Централизованное комплектование членов ассоциации некоторыми видами цифровых ресурсов. (Например, заключение договоров с государственными заказчиками и издательствами на использование электронных версий - оригинал макетов, в случае если имущественные права на эти издания принадлежат государству.).
  5. Разработка и содействие в реализации программы сохранения цифрового наследия России.
  6. Содействие членам ЭЛБИ в обеспечении доступа к зарубежным ЭБ.

Метаданные и лингвистическое обеспечение

  1. Поддержка распространения в России международных систем метаданных (в частности, Дублинского ядра).
  2. Содействие созданию и ведению общедоступного банка данных классификаторов, тезаурусов, словарей, авторитетных файлов и других нормированных языковых средств.
  3. Организация обмена открытыми программно-лингвистическими разработками.
  4. Разработка и сопровождение методик каталогизации и индексирования цифровых ресурсов.

Стандарты и технологии

  1. Содействие внедрению международных стандартов на различные компоненты ЭБ, в том числе распространение рекомендаций 3WC на русском языке.
  2. Содействие разработки и сопровождению российских стандартов для ЭБ на основе взаимодействия с ТК –191 и ТК-22.
  3. Централизованное создание и сопровождение для некоторых типов ресурсов типовых DTD или RDF-схем.
  4. Распространение и содействие сопровождению свободных программных средств, используемых в электронных библиотеках.

Учебно-методическое направление

  1. Регулярное проведение на базе РГБ семинара “ЭБ: теория и методология”
  2. Содействие в организации в регионах на базе высших учебных заведений – членов ЭЛБИ разнообразных форм обучения и повышения квалификации профессионалов в области ЭБ.
  3. Организация обучения пользователей ЭБ, в том числе в форме дистанционного образования.
  4. Подготовка и распространение учебно-методических пособий по формированию и использованию ЭБ.

Информационное сопровождение и мониторинг деятельности в области ЭБ.

  1. Создание и сопровождение сайта (портала) “Российские электронные библиотеки”.
  2. Создание и ведение реестра российских проектов в области ЭБ и организаций, осуществляющих данные проекты.
  3. Создание и ведение реестра источников финансирования деятельности в области ЭБ.
  4. Создание и сопровождение электронной библиотеки по проблемам ЭБ.
  5. Создание периодического издания по проблемам ЭБ.
  6. Проведение социологических обследований пользователей ЭБ.
  7. Проведение мероприятий, пропагандирующих российские достижения в области ЭБ, а также деятельность ЭЛБИ.

Первоочередные мероприятия

Партнерством уже предприняты некоторые первоочередные шаги. Кратко перечислим их. Совместно с РГБ проводится ежемесячный семинар “Электронные библиотеки: теория и методика”. Открыт сайт ЭЛБИ по адресу http://elibra.ru. Разработаны правовые рекомендации для создателей и держателей электронных библиотек. Подготовлен ряд публикаций, докладов по проблемам развития электронных библиотек, проведены круглые столы в Санкт-Петербурге и Москве. Ведется активная работа по привлечению новых членов. В ближайших планах - создание сводного плана комплектования электронных библиотек. На 2006 год партнерству обещана финансовая поддержка от нескольких ведомств. Все это позволяет надеяться, что ЭЛБИ будет вести активную, а главное, полезную деятельность по развитию и кооперации электронных библиотек России.

 

!3!

Издательство “Эльзевир”:
прошлое, настоящее и будущее, опыт работы в России.

Уткин О.Г.
(Издательство “Эльзевир”)

 

Издательство “Эльзевир” основано в 1580 г. В настоящее время Группа Reed Elsevier, в которую входит ряд ведущих научных издательств, издает около ј всех научных статей, выходящих в мире; она разработала и реализует концепцию “электронной библиотеки” Science Direct.

В 2004 годовой оборот Reed Elsevier составил около 5 миллиардов фунтов стерлингов.

Группа имеет 35,000 сотрудников в более чем 200-х отделениях по всему миру.

Система “Science Direct” - электронная библиотека (ЭБ) издательства обеспечивает комплексный доступ к более чем 2000 журналов, которые включают около 24% опубликованных в мире научных статей.

Материалы, представленные в ЭБ, охватывают следующие тематические разделы науки:

Основные характеристики системы “Science Direct”:

Свыше 7 миллионов исследователей (из общего числа приблизительно 10 миллионов) во всем мире имеют доступ к ScienceDirect. В последние годы значительно увеличен доступ к журналам – в режиме on-line доступно около 2000 наименований собственных и более 200 журналов других издательств. Количество загруженных статей удваивается ежегодно на протяжении ряда лет. ScienceDirect доступен 99% времени без перерывов на профилактику и т.п. В настоящее время система содержит около 7 млн. статей в журналах, начиная с первого номера первого года их выпуска. При этом в системе пропущено менее 0.15% номеров. Электронные версии более чем 95% статей доступны раньше печатных версий (т.н. articles in press). В системе обеспечивается детальная статистика использования информации (количество загруженных статей, читательских сессий, общее число пользователей и т.п.).

Активизация деятельности Издательства в России началась с января 2003. В настоящее время Издательство имеет 2-х представителей в России; предполагается скорое открытие представительства в Москве.

В России имеется более 200 организаций-пользователей Science Direct. По-прежнему открыт доступ к архивам (1999-2003) Elsevier, загруженным на сервер Научной электронной библиотеки (http://www.elibrary.ru)

По программе РФФИ с 2004 г. открыт доступ грантодержателям Фонда к пакету из 410 журналов. Журналы были выбраны экспертами РФФИ из 2201 наименования, предлагаемого издательством (хронологический доступ ограничен 2004-2000 гг.). Другие журналы, базы данных, энциклопедии, а также более ранние годы издания доступных журналов пока для российских пользователей закрыты.

Необходимо отметить, что с 2004 года в соглашении с РФФИ отсутствует поддержка печатной подписки на журналы (характерной для большинства западных подписчиков), что должно создавать определенные трудности для работы российских библиотек, ранее входивших в консорциум РФФИ, поскольку на них не распространяются скидки, предусмотренные при комбинированной подписке на журналы.

В рамках дальнейшего развития деятельности Издательства в России предполагается как продолжение существующего сотрудничества с РФФИ, так и прямое взаимодействие с Российской Академией Наук, которое обеспечит более четкое соответствие содержания подписки потребностям ученых.

Планируя длительное и постоянно расширяющееся сотрудничество с российскими партнерами, Издательство провело ряд исследований, связанных с оценками информационной активности российских ученых как с точки зрения количества их публикаций в престижных научных журналах, так и с точки зрения их доступа к электронным ресурсам в рамках НЭБ.

Ниже приведены некоторые результаты проведенных исследований. Ниже приведен график публикации научных статей российских ученых.

Рис.1

На рис.1 представлено распределение по годам количества статей, опубликованных российскими учеными в ведущих западных научных журналах. Как видно из графика, количество публикаций резко сократилось в 2001-м году. И хотя за 2001-2003 гг. несколько выросло, оно существенно ниже показателей за 1994-2000гг.

На рисунке 2 представлен список 25-ти лидирующих в этих публикациях российских организаций. Легко заметить, что количество работ, опубликованных сотрудниками РАН, почти в два раза больше, чем другими российскими учеными. вместе взятыми. Это говорит о бесспорном лидерстве академической науки в России.

Рис.2

Доля российских публикаций в мировом информационном потоке (в %) представлена на рис.3. Приведенный график свидетельствует об углублении определенного кризиса российской науки, характеризуемого не только долей российских публикаций в общемировом научном потоке (около 3%), но и значительным (более чем на 20%) снижением этой доли за последние 10 лет.

Рис.3

   1977  1984  19932000-2003

Рис 4.

Тенденция снижения доли российских публикаций развивается на фоне увеличения потребности в научной информации, что находит свое отражение в росте числа статей, прочитываемых одним российским ученым в год (Рис.4).

Рис.5

Одним из основных источников информации для российских ученых является “Научная электронная библиотека”. При этом активность ее использования весьма различна по различным областям науки. Число загрузок статей из НЭБ российскими пользователями по различным областям науки приведено на рис.5.

В заключение отметим, что согласно нашим оценкам, в 2003 году финансирование, выделенное на приобретение научной информации (имеется в виду подписка на печатные и электронные версии журналов ведущих западных издательств) в расчете на одного российского ученого, существенно меньше аналогичного финансирования, выделяемого в других странах. В частности, оно в 35 раз меньше аналогичного финансирования в Великобритании, в 22 раза меньше финансирования в Индии и в 19 раз меньше финансирования в Польше.

 

!4!

АНАЛИЗ И ОЦЕНКА ОСНОВНОГО ПОТОКА СЕРИАЛЬНЫХ ИЗДАНИЙ РОССИИ ПО ТОЧНЫМ, ЕСТЕСТВЕННЫМ И ТЕХНИЧЕСКИМ НАУКАМ

Кириллова О.В., Андронова М.Б., Батюшко А.А., Березин А.Г.,
Дивильковская Т.Ю., Зеленина Г.З., Чернобровская Т.Н., Шапкин А.В.
(Всероссийский институт научной и технической информации РАН)

 

В течение ряда последних лет остается неизменной тенденция к увеличению издательского потока сериальных (периодических и продолжающихся) изданий России. Однако это отнюдь не означает улучшение его качественного состава. Простота публикации, отсутствие строгих требований и критериев при подготовке изданий, выпускаемых, как правило, малыми тиражами большим числом малых и средних издающих организаций, ведет к увеличению числа новых названий, в том числе, по естественным и техническим наукам.

Общая количественная картина динамики потока отечественных сериальных изданий за 10 и за 20 лет показана на рис.1 и в табл.1.

Таблица 1

Динамика выпуска периодических и продолжающихся за 20 лет

( с 1980 по 2001 гг.)

Виды изданий, назв.

1980

1986

1990

1995

2001

Периодические издания (журналы)

3960

(вкл. продол.)

1553

3681

(вкл. продол.)

1544

3316

Продолжающиеся издания (сборники, бюллетени)

3645

927

823

 

Рис. 1. Динамика роста числа отечественных журналов за 10 лет

 

Следуя официальной статистике [1], ежегодный прирост журналов России по названиям составляет в среднем 8%. Более 70% из них - специальные и специализированные журналы, в т.ч. 50% - научные и научно-производственные, примерно 8% - информационные. То есть, из 3300 периодических изданий, учтенных РКП в 2001 г., научные и научно-производственные журналы составляют примерно 1,6-1,7 тыс. названий. По совокупности данных объем потока периодических и продолжающихся изданий составляет более 4 тыс. названий (28 тыс. экземпляров). Из них периодических изданий – 2,2 тыс. названий. Продолжающиеся и периодические издания по естественным, техническим наукам, сельскому хозяйству и медицине составляют примерно 2,5 тыс. названий, из них журналов – 1,8 тыс. названий.

В то же время в условиях бурного развития новых информационных технологий, позволяющих создавать различные информационные продукты, в том числе по русскоязычным ресурсам, очень остро стоит вопрос об отборе из-за все увеличивающегося потока основной его части, которая характеризовалась бы наибольшей стабильностью выпуска, научной и технической ценностью и качественными издательскими показателями. Определение и выделение такого потока имеет большое значение для подготовки таких информационных продуктов, как реферативные издания и базы данных, полнотекстовые базы данных и электронные библиотеки, а также для такого нового для России информационного продукта, как “Российский указатель научного цитирования”, создание которого активно обсуждается в настоящее время научным сообществом.

ВИНИТИ РАН, как национальный научный центр, в недалеком прошлом стремился к формированию потока отечественных сериальных изданий с исчерпывающей полнотой, априори предполагая, что выпускаемые издания по тематике информационных продуктов ВИНИТИ всегда достойны того, чтобы постатейно быть отраженными в РЖ и БД ВИНИТИ. Однако исследования входного потока сериальных изданий, проводящиеся в последние годы в ВИНИТИ, показали, что это далеко не так: входной поток сериальных изданий России для целей подготовки информационных продуктов, предназначенных для научного сообщества, требует очень тщательного изучения и дифференцированного подхода к отбору изданий в такие системы. Поэтому перед ВИНИТИ стоит задача выбора из всего возрастающего отечественного потока периодических и продолжающихся изданий наиболее ценной, научно обоснованной, достоверной и актуальной информации.

В 2004-2005 гг. во входном потоке ВИНИТИ как сериальные издания было зарегистрировано 4532 назв. В то же время значительная часть из этих изданий, ранее отнесенных к продолжающимся (1389 назв.), в этот период были переведены в массив изданий книжного типа (см. ниже). В результате на данный момент (июнь 2005 г.) массив сериальных изданий включает 2242 назв. периодических изданий, поступивших в 2004-2005 гг. (из них 1765 назв. после проведенной работы по качественному анализу и экспертизе сохранены в “активном” состоянии), а также 901 назв. продолжающихся изданий (786 назв. - в “активном” состоянии).

Такой объем поступлений близок к официальным показателям и демонстрирует достаточную полноту поступления этого вида документов. В то же время он может быть также оценен как избыточный, содержащий достаточное число малоинтересных изданий. Так, например, за 5 месяцев 2005 г. 160 вып. 105-ти названий российских сериальных изданий, поступивших в технологию (“разметку”) для подготовки Реферативного журнала и Базы данных (РЖ/БД) ВИНИТИ, были исключены из обработки полностью как не соответствующие требованиям. Всего в технологию поступило 283 выпуска этих названий. Таким образом, дальнейшие шаги по анализу этих изданий предполагают их исследование на предмет исключения из входного потока ВИНИТИ.

Одновременно с этим существует вероятность отсутствия в потоке важнейших журналов, необходимых для отражения в информационных продуктах (ИП) ВИНИТИ. Анализ изданий, поступающих в РКП в меньшем количестве, показывает, что перечень изданий, находящихся в поле интересов ВИНИТИ, в 2004-2005 гг. составил 430 названий. ВИНИТИ, имея 14-й номер обязательного экземпляра, эти издания не получает. Причем 186 названий из них издается в Москве, 59 – в Санкт-Петербурге, остальные 185 выпускаются в регионах России (67 городов). По качеству же этого потока можно снова сказать, что лишь незначительное число этих изданий представляют существенный научный интерес. После анализа этого перечня ВИНИТИ оформил подписку или договора с редакциями только примерно на 70 названий. Около 120-130 названий требуют еще проведения экспертизы, причем значительная доля из них (примерно 50) – издания вузов (вестники и известия). Около 30-ти изданий из этого списка исключены из технологической обработки в 2004-2005 гг. как не представляющие интереса. Всего за 2004-2005 г. “закрыты для обработки” более 430 названий сериальных изданий.

На основании опыта работы ВИНИТИ с потоком сериальных изданий был выработан комплексный подход, позволяющий выделить основной поток изданий. Описываемый подход предполагает также использование в качестве дополнительной информации, а также для сравнения, данные других систем, как отечественных (например, перечень изданий, подготовленный ВАК Минобразования и науки), так и зарубежных, использующих российские издания (например, SCOPUS, CAS, INSPEC, SCI). Хотя последние придают только “вес” отдельным изданиям, но никак не влияют на полноту списка. Кроме того, зарубежные БД также дают представление о степени отражения русскоязычных и англоязычных версий журналов.

Таким образом, при выделении перечня основных российских сериальных изданий используются следующие блоки данных:

  1. научные журналы РАН (более 200 названий, около 1300 номеров в год), в т.ч. издательством “Наука” выпускается 155 журналов (119 – естественнонаучные и технические), из них 133 – в Москве, 22 – в Санкт-Петербурге, региональные (более 20 журналов), учрежденческие (около 30 журналов издаются отделениями и/или институтами РАН или самостоятельными редакциями);
  2. журналы с “импакт-фактором” (ИФ) Института научной информации США (в значительной степени – это журналы РАН, большинство из них получили этот показатель благодаря наличию англоязычной версии);
  3. журналы, получившие статистическую оценку (“суммарный коэффициент”) отражения в информационных изданиях России и зарубежья (достаточно высокую оценку также получают журналы, имеющие англоязычную версию). Из более чем 3-х тысяч российских периодических изданий, включенных в Ulrich’s в 2002 г, такую оценку получили 440 журналов по политематическому спектру, охватываемому ВИНИТИ [2];
  4. сериальные издания, включенные в перечень ВАК. Эти данные используются в качестве сравнительной характеристики и не могут, к сожалению, “придать ценности” всем изданиям, включенным в этот список в силу его значительной разнородности и неоднозначности;
  5. сериальные издания, отражаемые в государственной библиографии РКП. Этот перечень используется для выявления полноты поступления изданий в ВИНИТИ, хотя он также не является исчерпывающим.

Приведенные показатели можно отнести к категории внешних, которые необходимо учесть при формировании рекомендуемого перечня изданий.

Остальные предлагаемые оценки базируются на анализе имеющегося входного потока ВИНИТИ и распространяются на сериальные издания, которые проходили технологическую обработку в ВИНИТИ в течение достаточно длительного времени (от двух до четырех лет).

Накапливаемые со временем статистические данные по отражению сериальных изданий в ИП ВИНИТИ являются основополагающими для формирования их оптимального перечня. При этом учитываются также промежуточные статистические данные технологических процессов обработки изданий для ИП ВИНИТИ.

Обработка научно-технической литературы (НТЛ) в ВИНИТИ для подготовки РЖ/БД имеет отработанную на протяжении десятилетий технологию, включающую определенные производственные процессы и операции. Новые издания, прошедшие учет и регистрацию, поступают на участок “разметки”. На данном этапе производится определение тематического соответствия постатейного содержания журналов (и других видов изданий) “Рубрикатору информационных изданий ВИНИТИ”, на основе чего материалы направляются в соответствующие тематические редакции, подготавливающие реферативную информацию для РЖ/БД. Статьи, не соответствующие требованиям тематической разметки, не направляются на реферирование и не отражаются в ИП ВИНИТИ. Показатель постатейной “размечаемости” журналов (число статей, отобранных из выпуска для обработки) определяет степень их профильности для ИП ВИНИТИ. Определено 4 степени профильности для сериальных изданий, поступающих во входной поток ВИНИТИ:

Одна статья может быть “размечена” в нескольких тематических разделах. Соответственно, журнал может быть “ядерным” или “профильным” для нескольких тематических направлений ИП ВИНИТИ. Регулярная “неразмечаемость” является признаком несоответствия поступившего издания требованиям, предъявляемым для НТЛ с целью отражения в ИП ВИНИТИ.

Разработанная в ВИНИТИ Автоматизированная система комплектования, учета и регистрации входного потока НТЛ – АСКР, или АС “ВХОД”, позволяет получать различные статистические (отчетные) данные по результатам “прохождения” изданий в системе. Отчеты о результатах разметки позволяют получить данные о не размечаемых изданиях (“нулевых” экземплярах изданий) и на основе этого принимать решения об исключении изданий из входного потока ВИНИТИ.

Отчеты АС “Вход” позволяют получать статистические данные о разметке изданий в целом и в заданный при формировании отчета период времени. Эти отчеты дают возможность определить наиболее полно размечаемые журналы. Статистика отобранных на реферирование статей из журналов по результатам разметки является также показателем ценности изданий для ИП ВИНИТИ. Этот показатель можно назвать первичной оценкой статей из журналов в технологическом процессе подготовки ИП ВИНИТИ.

В то же время данные о разметке изданий не дают точной картины о полноте отражения их в ИП ВИНИТИ. Подход, применяемый при разметке, который основан на формальном определении тематики статей по Рубрикатору ИП ВИНИТИ, не учитывает других (содержательных) требований, которые предъявляют к статьям тематические редакции (отделы научной информации), принимающие статьи из входного потока на реферирование. Основные сведения, определяющие в итоге важность журналов для ИП ВИНИТИ, дает статистика отражения статей из журналов в ИП ВИНИТИ, в частности, в базах данных (вторичная оценка статей из журналов для ИП ВИНИТИ). Этот показатель можно условно определить как показатель “информационной продуктивности” издания в ИП ВИНИТИ. Условность определения этого показателя в виде среднего числа отраженных из выпуска статей выражается в том, что для истинного определения “информационной продуктивности” журнала в ИП ВИНИТИ необходимо учитывать также его “издательскую продуктивность”, выражающуюся в среднем числе статей в одном выпуске или в годовом комплекте (статейный объем издания). В таком случае продуктивность издания в ИП ВИНИТИ можно вычислить в виде коэффициента, получаемого по следующей формуле:


КPinf = Pip / Pizd

где КPinf -коэффициент продуктивности издания в ИП ВИНИТИ;

Рip - среднее число статей из одного выпуска журнала (или годового комплекта), отраженных в ИП ВИНИТИ;

Pizd – среднее число статей, публикуемых в одном выпуске (или годовом комплекте) журнала.

Рip для вычисления коэффициента информационной продуктивности в данном случае рассматривается как факт отражения статьи в ИП ВИНИТИ без учета дублирования рефератов в различных тематических разделах (то есть одна статья всегда будет учтена один раз независимо от числа рефератов на нее, размещенных в различных тематических выпусках РЖ и БД).

Для вычисления коэффициента информационной продуктивности необходимы точные данные об издательской продуктивности журналов. Такая работа начата, однако она требует дополнительных временных затрат, поэтому на данном этапе считается достаточным учесть в качестве информационной продуктивности среднее число статей из выпусков, отраженных в ИП ВИНИТИ за определенный период времени (не менее года).

В 2001 году в ВИНИТИ принята система, предусматривающая однократное (одноразовое) реферирование статей в основной редакции и многократное использование подготовленного реферата другими редакциями. Таким образом, на статьи, имеющие многоотраслевой (смежный) характер и включающие научный материал, представляющий интерес для нескольких редакций, составляется один реферат, который по данным тематической разметки направляется в редакции для рассмотрения и включения его в свои выпуски РЖ/БД. Данные о числе заимствованных рефератов (среднее число статей с учетом заимствования) имеют существенное значение для ВИНИТИ, как политематического информационного центра, так как позволяют проследить и выявить журналы многопрофильного плана, которые удовлетворяют интересам нескольких тематических редакций.

Для проведения вторичной оценки сериальных изданий (то есть оценки изданий по результатам отражения статей в РЖ/БД ВИНИТИ) в 2002 году построена специализированная подсистема статистической обработки, которая базируется на общем информационном поле с упоминавшейся выше АС “Вход”. Описания сериальных изданий в целом и их отдельных выпусков содержатся в “Массиве описаний сериальных изданий” и в “Каталоге поступлений ВИНИТИ”. Каталог поступлений отражает результаты учета и регистрации входного потока НТЛ в ВИНИТИ.

В 2003 году в ВИНИТИ разработана программа получения статистических данных по приведенным выше показателям, которая позволяет сформировать массив периодических и продолжающихся изданий, нашедших отражение в РЖ/БД за определенный период времени. На основе созданного статистического массива, отражающего продуктивность изданий для РЖ/БД, имеется возможность получать различные варианты перечней (отчетов) по изданиям для их дальнейшего анализа. Отчеты формируются по отдельным странам, по группам стран, по видам изданий (периодические или продолжающиеся издания) и т.п. В запросах также предусматриваются форматы выдачи информации, определяющие параметры, включаемые в отчеты. Отчеты могут быть представлены в виде текстовых файлов, в формате Excel и в распечатке.

При оценке важности журнала для РЖ/БД ВИНИТИ имеют значение также другие формальные и неформальные показатели (критерии), характеризующие выходные данные журнала, а также характер и структуру представляемого статейного материала.

В крупнейших зарубежных информационных центрах – аналогах ВИНИТИ – при оценке журналов, включаемых во входной поток для отражения в информационных продуктах, учитывается значительный набор критериев. Например, в ISI для отбора журналов в Current Contents учитывается не менее 20 показателей. Важнейшими из них, кроме указанных выше, являются: авторитетность издательства; продолжительность (стабильность) жизни издания; состав редколлегии; практика цитирования (наличие пристатейных списков); наличие предварительного рецензирования статей; адреса авторов (наличие и полнота); наличие рефератов-резюме; своевременность выпуска журнала (отсутствие задержек в сроках выпуска); периодичность (соответствие объявленной периодичности); формат оглавления, типы (характер) статей [3].

В настоящее время трудно принять к рассмотрению все перечисленные показатели при отборе российских периодических изданий. В этом случае значительная часть журналов не выдержит столь многосторонней экспертизы. Поэтому из перечисленных критериев была выбрана часть формальных показателей, дающих дополнительную информацию об издании и позволяющих получить их более полную характеристику. К таким показателям были отнесены: характер (тип) издания по целевому назначению, наличие резюме, год основания. Наличие резюме имеет также значение при разработке новой технологии электронной обработки российских периодических изданий, внедряемой в настоящее в ВИНИТИ.

При формировании перечня были также учтены сведения о журналах, вошедших в список, составленный на основе запросов действительных членов РАН, являющихся пользователями Системы информационного обслуживания (СИО) “Наука”, действующей в ВИНИТИ.

При изучении всего поступающего потока по целевому назначению стало понятно, что издающие организации и редакции достаточно произвольно определяют характер своих изданий. Было получено более 20-ти определений типа (характера) издания (здесь имеются в виду, в основном, периодические издания). Однако после всех проведенных оценочных действий над полученными предварительными списками журналов в “Перечень основных российских научных периодических изданий России” были включены журналы, определенные, в основном, как “научные”, “научно-теоретические”, “научно-технические”, “научно-производственные” и “массово-производственные”. При этом специального отбора журналов по этому критерию не проводилось. Все другие типы журналов были исключены из перечня в результате применения предложенного подхода.

Составление перечня основных периодических и продолжающихся изданий по точным, естественным и техническим наукам является достаточно сложным процессом, который, кроме статистической части работы, требует также дополнительной экспертизы изданий. Это, прежде всего, относится к изданиям, имеющим низкую “издательскую продуктивность”, т.е. незначительное число статей в выпуске, от одной до трех-пяти статей. К таким продолжающимся изданиям, прежде всего, относятся препринты научных организаций, поэтому этот вид изданий из рассмотрения исключается априори.

При составлении перечня, для удобства анализа, периодические и продолжающиеся издания рассматривались двумя различными списками, хотя в некоторых случаях определение статуса “продолжающегося” или “периодического” издания является условным, т.к. определяется по тому, насколько регулярным является выпуск издания. Если в течение 2-3-х лет издание, не имеющее редакционного сообщения о периодичности, поступает с постоянным числом выпусков (номеров) в год, оно относится к периодическим изданиям. Кроме того, в настоящее время выпускается значительное число изданий, которые имеют тематическое название, нумерацию выпусков, но, как часто бывает, в течение ряда лет, после одного-двух выпусков, прекращает свое существование, либо не издаются в течение ряда лет. В 2004-2005 гг. был проведен анализ массива сериальных изданий на предмет наличия таких изданий. В результате было выявлено большое число изданий, присутствующих в массиве одним-двумя числом выпусков. Для чистоты массива было принято решение о переводе изданий с тематическими названиями, выходящими нерегулярно, из массива сериальных изданий в массив изданий книжного типа (каталог книг). Таким образом, к продолжающимся изданиям (при наличии нерегулярности выпуска) было решено относить издания, имеющие в названии слова “бюллетень”, “вестник”, “доклады”, “известия”, “препринты”, “ученые записки” и “труды”, не имеющие тематического названия томов. Поэтому при получении статистических данных 2004 года по “разметке” показатели числа “размеченных” выпусков и числа “размеченных” статей продолжающихся изданий меньше, чем в 2003 году, т.е. эти данные не означают уменьшения потока этого вида изданий (см. табл. 3)

Ниже (табл. 2,3) приводятся основные количественные характеристики периодических и продолжающихся изданий, отдельно для каждого вида изданий. При составлении “Перечня основных периодических и продолжающихся изданий” два списка сливаются в один. Списки содержат издания, получившие формальную статистическую оценку по данным “разметки” 2003-2004 гг. и отражения в РЖ/БД 2004 гг. не менее 10. Однако, как уже было сказано, это не исключает дополнения списков другими изданиями, не вошедшими в рассмотрение из-за низкой “издательской продуктивности” или в результате не комплектности поступления. Кроме того, эти списки должны быть подвергнуты анализу на “прекращение”, особенно это касается тех периодических изданий, которые поступали в 2003 г. и отсутствуют в 2004 г. (около 200 названий).

Характеристика анализируемого массива периодических изданий

Массив составлен из журналов, вошедших в РЖ/БД ВИНИТИ 2004 года хотя бы одной статьей. Всего названий – 1964. В результате анализа предварительно в перечень основных периодических изданий было отобрано 1600 назв. В то же время, окончательный список может быть составлен только после интеллектуальной обработки как данного списка, так и списка изданий, исключенного из него. Это означает, что часть изданий с низкими показателями по какому-либо из перечисленных трех основных групп характеристик (разметка 2003, 2004 гг., отражение в 2004 г.) будут подвергнуты дальнейшему анализу также, как издания, исключенные из перечня.

Таблица 2

Общая характеристика анализируемого потока периодических изданий

Характеристика разметки 2003 г.

Характеристика разметки 2004 г.

Характеристика отражения в РЖ/БД 2004 г.

Размечено назв.

Размечено вып.

Размечено статей

Размечено назв.

Размечено вып.

Размечено статей

Отражено назв.

Отражено вып.

Отражено статей

1591

10079

111254

1672

9877

108298

1762

16549

94112

Среднее число статей на выпуск:

по данным разметки 2003 г. и 2004 г. – 11 статей/вып.;

по данным отражения в РЖ/БД – 5,7 статей/вып.

По 1 выпуску из названия было:

размечено в 2003 г. – 161 назв.

размечено в 2004 г. – 201 назв.

отражено в 2004 г. – 226 назв.

По периодичности анализируемой поток распределяется следующим образом (по убыванию):

4 вып./год – 618 назв.; 12 вып./год – 582 назв.; 6 вып./год – 517 назв.; 2 вып./год – 96 назв.; 8 вып./год – 34 назв.; 1 вып./год – 31 назв.; 10 вып./год – 28 назв.; 24 вып./год – 16 назв.; 3 вып./год – 15 назв.

Остальные 26 названий имеют периодичность от 52 до 5-ти. Одно название имеет 144 выпуска в год.

Таким образом, более 87% журналов имеют три основных принятых характеристики регулярности издания – 4, 6 и 12 вып./год, с, примерно, одинаковым распределением.

Выделенные качественные характеристики:

Имеют “импакт-фактор” - 20 назв.

Имеют “суммарный коэффициент” (методика ВИНИТИ [2]) – 363 назв.

Включены в список журналов, находящихся в сфере интересов действительных членов РАН – 82 назв.

Характеристика анализируемого массива продолжающихся изданий.

Всего в число продолжающихся изданий, отраженных хотя бы одной статьей в РЖ/БД 2004 г. вошло 2153 назв. российских и зарубежных изданий, из них российских изданий– 1143 назв., т.е. более 50%.

Таблица 3

Общая характеристика анализируемого потока продолжающихся изданий

Характеристика разметки 2003 г.

Характеристика разметки 2004 г.

Характеристика отражения в РЖ/БД 2004 г.

Размечено назв.

Размечено вып.

Размечено статей

Размечено назв.

Размечено вып.

Размечено статей

Отражено назв.

Отражено вып.

Отражено статей

691

2457

19666

702

1824

16939

954

2842

16891

Среднее число статей на выпуск:

по данным разметки 2003 г. – 8 статей/вып.;

по данным разметки 2004 г. – 9,3 статей/вып.;

по данным отражения в РЖ/БД – 5,8 статей/вып.

По 1 выпуску из названия было:

размечено в 2003 г. – 354 назв.;

размечено в 2004 г. – 410 назв.;

отражено в 2004 г. – 460 назв.

Из приведенных данных видно, что более 50% продолжающихся изданий вошли во входной поток ВИНИТИ всего одним выпуском.

В результате анализа предварительно в перечень основных продолжающихся изданий было отобрано 673 назв., которые также нуждаются в дальнейшей экспертной оценке.

Таким образом, общее число сериальных изданий, предназначенных для включения в список основных изданий, составляет более или около 2000 названий.

Отдельный анализ этого перечня основных периодических и продолжающихся изданий проводится в сравнении с перечнем изданий, подготовленным ВАК и включающим 994 названий. Данные сведения будут представлены позднее.

ЛИТЕРАТУРА

1. Печать Российской Федерации в 2001 году. // Стат.сб. РКП. - М., 2002.

2. Алексеев В.М., Ефременкова В.М., Кириллова О.В., Хачко О.А., Черный А.И. Разработка и применение критериев оценки мирового потока научно-технических журналов с целью оптимизации комплектования фондов ВИНИТИ. // НТИ. Сер.1. – 2002. - № 12. –С. 23-26.

3. Маркусова В.А., Черный А.И. Информационная продукция и технология ее подготовки в Институте научной информации, США. // НТИ. Сер.1. – 1985. - № 12. – С.6-15.

!5!

Интегрированный подход к информационному обеспечению научных исследований

Слащева Н.А., Мохначева Ю.В., Харыбина Т.Н.
(Центральная библиотека ПНЦ РАН - отдел БЕН РАН)

Обеспечение условий для устойчивого, непрерывного развития - одна из наиболее серьезных проблем, стоящих перед библиотеками в эпоху внедрения новых информационных технологий. В настоящее время изменениям подвергается традиционная роль библиотекаря и информационного работника, а технологические достижения в области информатизации библиотечных процессов открывают новые возможности для качественного удовлетворения информационных потребностей пользователей. Все это постоянно создает новые ситуации, в которых библиотеки нуждаются в инновациях для улучшения информационно-библиотечного обеспечения научных исследований.

Анализ наилучшего мирового опыта в области информационных технологий, проведенного сотрудниками Центральной библиотеки Пущинского научного центра РАН (ЦБП), (Отдел Библиотеки по естественным наукам РАН), выявил следующие факторы и особенности, присущие работе научно-технической библиотеки, претендующей на качественное и оперативное обслуживание пользователей научно-исследовательских институтов и университетов:

1. Наличие обсужденной и утвержденной программы информационно-библиотечного обслуживания пользователей. Целью программы является оперативное и максимально полное информационное обеспечение пользователей с использованием хорошо отлаженной внутренней технологии и эффективным управлением. Главная задача данной программы - добиться того, чтобы каждый сотрудник и пользователь Библиотеки знал и понимал стратегическую роль библиотеки в поддержке научных исследований.

2. Стратегия обучения и переподготовки персонала, направленная на разъяснения того, каким образом библиотека может помочь научным сотрудникам проведения научных исследований. Динамичное развитие библиотековедения и информатики, которое стало возможным благодаря использованию новых информационных технологий, стало по-настоящему важным фактором в деле повышения квалификации библиотечных работников, прекрасным стимулом к ознакомлению с передовыми библиотечными методами в сочетании с основательной теоретической подготовкой. Повышение квалификации и профессиональная переподготовка кадров становятся интегральным звеном в системе непрерывного библиотечного образования, поскольку они несут основную нагрузку по адаптации библиотекарей к выполнению новых функциональных обязанностей, связанных с повышением социальной роли библиотек в жизни современного общества. Проведенный анализ проблемных ситуаций свидетельствует о том, что перед библиотеками в настоящее время стоят уже не только проблемы автоматизации информационно-библиотечных процессов и технического оснащения, которые практически уже решены во многих библиотеках, но и управленческие, организационные, в частности, задачи работы с персоналом, подготовки и переподготовки высокопрофессиональных специалистов. Для реализации поставленных задач необходимо, чтобы каждый сотрудник осознал свою роль в достижении поставленных целей, как текущих, так и стратегических. Кроме того, он должен понять, каким образом его работа влияет на удовлетворенность пользователей, в каких процессах он участвует, в чем измеряется результативность его работы, что он должен сделать, чтобы эта результативность увеличилась. Сотрудники библиотеки должны знать, какой путь им предстоит пройти, что необходимо сделать, какие изменения в работе их ожидают, а самое главное – у них должно быть желание все это выполнить. Самым перспективным способом воздействия на сотрудников является создание определенных благоприятных условий, влияющих на удовлетворенность сотрудника, при которых используются материальные, моральные и социальные аспекты стимулирования. Вторым обязательным моментом является постоянное обучение, совершенствование мастерства и изучение отечественного и мирового опыта в области информационно-библиотечных технологий. Данной проблеме в ЦБП всегда уделялось большое внимание. Сотрудники библиотеки постоянно повышают свой профессиональный уровень: учатся в высших учебных заведения, на курсах повышения квалификации, принимают участие в семинарах, конференциях и других мероприятиях.

3. Библиотека должна широко использовать внешние электронные ресурсы и создавать собственные, а также развивать продвижение этих услуг непосредственно на рабочий стол пользователя. Широкомасштабное применение в работе научных библиотек электронных ресурсов обеспечило принципиально новый уровень получения и обобщения знаний, их распространения и использования. При этом именно библиотечные специалисты должны изучать рынок научных публикаций и уделять большое внимание многоаспектному анализу информационных потребностей пользователей и всестороннему изучению использования первичной и вторичной информации Правильная и методически обоснованная оценка и прогноз значимости информационных ресурсов позволят выработать стратегию комплектования фондов и организацию доступа к электронным изданиям. Для выполнения перечисленных задач в ЦБП реализуется проект по разработке интегрированной системы оценки значимости информационных ресурсов для оптимизации информационно-библиотечного обеспечения научных исследований на примере Пущинского научного центра РАН (ПНЦ), поддержанный РФФИ и Правительством Московской области (проект “Наукоград” № 04-07-97200). В рамках данного проекта разрабатываются методика оценки информационной значимости зарубежных периодических изданий и библиографических баз данных; система определения критериев отбора необходимой информации при формировании собственных электронных ресурсов, отражающих тематику исследований ПНЦ; наиболее эффективные способы предоставления информации пользователям.

Разрабатываемая система должна обеспечить сбор сведений о зарубежных периодических изданиях, а также о различных базах данных, дальнейшую обработку этих сведений, на основании которых будет представлена информационная ценность документов в числовом выражении. Основные направления данной методики заключаются в определении таких характеристик информационных ресурсов как тематическая направленность и полнота ее отражения; хронологический охват; форма, скорость и способы предоставления информации; пользовательский интерфейс; условия доступа. Предполагается использовать статистические данные о работе информационно-библиографического отдела ЦБП и “Научной электронной библиотеки” РФФИ, а также метод цитат-анализа (с использованием баз данных Science Citation Index Expanded – Web of Science / ISI и Journal Citation Report / ISI).

За последние десять лет наблюдается значительный рост цен научных изданий. В определенной степени это связано с процессами монополизации в области книгоиздания. Но что делать при недостаточном финансировании, которое испытывают, практически, все библиотеки? Практика научно-технических библиотек такова - это объединение в консорциумы для коллективного использования дорогостоящих электронных ресурсов, совершенствование системы МБА и ЭДД, сокращение закупок и более жесткий отбор при подписке на периодические издания на основе многоаспектного анализа. Именно поэтому в ЦБП решено сосредоточится на анализе использования дорогостоящих электронных ресурсов. Одним из основных показателей является показатель стоимости одного запроса на журнал. Следовательно, чем выше спрос на ресурс, тем ниже показатель стоимости запроса. Получение полного текста научной статьи из любого электронного ресурса издательства не должно обходиться дороже, чем получение той же статьи через систему МБА или ММБА. Как показывает анализ, при довольно высокой потребительской оценке некоторых электронных ресурсов (Springer, EBSCO) около 80% пользователей оценили эти системы, а активно используют в повседневной работе всего около 50%. Тем самым высокая функциональность не поддерживается высоким спросом. Все это означает что, либо наши усилия по маркетингу данного продукта недостаточно эффективны либо сам продукт по содержанию, функциональным возможностям и стоимости не отвечает в полной мере интересам наших пользователей. Именно поэтому решено сосредоточиться на этом продукте, сопоставить и определить в какой мере свойства предлагаемого ресурса соответствуют потребностям пользователей. Мы хотели бы оптимизировать использование всех свойств системы (EBSCO и Springer), продолжить работу по общему продвижению таких инициатив, как организация обучения, выпуск брошюр, с целью формирования должного уровня подготовленности в научном сообществе.

Разработанная система оценки значимости информационных ресурсов даст возможность в наибольшей степени удовлетворить информационные потребности специалистов ПНЦ, предоставляя комплексное оптимизированное информационное обеспечение научных исследований.

4. Необходимо создание системы прямой связи через Интернет. С внедрением компьютеризации в технологические процессы и получением доступа к сети Интернет изменяется облик, функции и деятельность Библиотеки в целом. Одновременно с этими процессами происходит формирование нового типа пользователя, который нуждается в оперативном получении интересующей его информации. В связи с этим создание и поддержание тематических порталов стало одним из актуальных направлений деятельности современной библиотеки. Это важный элемент ее образа, который может рассказать не только о том, что это за библиотека или библиотечная система, какие услуги она предоставляет своим пользователям, но и показать, насколько в ней идет освоение новых информационных технологий. Поэтому, в целях повышения эффективности ИБО пользователей Центра в ЦБП при поддержке РФФИ (грант № 04-07-90037 в) реализуется проект по созданию портала по ФХБ, благодаря которому Библиотека переходит на качественно более высокий уровень информационного обслуживания, расширяются ее функции как информационного центра, предоставляется доступ к собственным ресурсам (библиотечным каталогам, базам данных и другим информационным материалам), развивается ряд технологических библиотечных процессов.

Создаваемый портал ориентирован, прежде всего, на научных сотрудников, аспирантов и студентов 10 научно-исследовательских институтов ПНЦ, а также всех других пользователей в России и за рубежом, проводящих исследования в области физико-химической биологии.

Ввиду того, что направление физико-химической биологии охватывает весьма широкий спектр научных дисциплин, литература и информация по профилю очень разнообразна. Поэтому основной задачей при формировании структуры сайта ЦБП является максимальное упорядочение и систематизация собственных электронных ресурсов, электронных каталогов, сервисных ресурсов, а также наиболее значимых интернет-ресурсов.

Назначением портала является предоставление пользователям единого комплекса библиотечных, научных и информационных ресурсов для максимального удобства в проводимой ими научной деятельности. Проведенный анализ электронных ресурсов, представленных как отечественными, так и зарубежными библиотеками на своих сайтах, показывает, что в основном пользователи могут получить только сведения о необходимых источниках информации, не имея возможности ознакомиться с полными текстами или рефератами в режиме удаленного доступа.

Основой реализуемого портала является сайт ЦБП (http://cbp.iteb.psn.ru). Назначением портала является предоставление пользователям единого комплекса библиотечных, научных и информационных ресурсов для максимального удобства в научной деятельности. Портал включает в себя несколько блоков (каталоги, базы данных, услуги ЦБП, новые поступления, Интернет-ресурсы по физико-химической биологии), имеющих свою подструктуру: Главная страница ЦБП Каталоги и базы данных Книжный каталог Каталог периодики ОNLINE журналы БД “Фотосинтез” БД “ЭМИ в биологии и медицине” БД диссертаций Труды сотрудников ПНЦ РАН Услуги Библиотеки Заказ МБА Заказ из фондов ЦБП ЭДД Новости Библиотеки Новые поступления в ЦБП Новые поступления (перечень) Поиск новых поступлений Выставка из БЕН РАН. Сегодня на выставке из БЕН РАН Интернет-ресурсы Издательства Базы данных Библиотеки Научные общества Научные учреждения Конференции Порталы по ФХБ Фонды, гранты Инструкция пользователя WOS О нас Отделы ЦБП Филиалы ЦБП Основной блок сайта – каталоги библиотеки Данный блок включает в себя электронные каталоги книг (с 1993 – по настоящее время) и периодики (с 1900 г. – по настоящее время), а также каталог ONLINE журналов, к которым имеется авторизованный электронный доступ из Библиотеки. Последний из перечисленных каталогов представляет алфавитный перечень гипертекстовых ссылок на все журналы, представленные в режиме on-line различными издательствами. Этот каталог постоянно обновляется в соответствии с меняющимися условиями доступа. Следующим крупным блоком являются собственные базы данных Сюда входят: база данных диссертаций, защищенных по профилю физико-химической биологии, база данных трудов сотрудников институтов ПНЦ РАН (ведется на платформе БЕН РАН), тематическая база данных по фотосинтезу и база данных по электромагнитным излучениям в биологии и медицине. Третий блок сайта (портала) – сервисные услуги ЦБП. Сюда включена система электронных заказов МБА, система электронных заказов литературы из фондов ЦБП и ее филиалов, представлена информация об условиях электронной доставки документов. Новостной блок сайта представлен следующими составляющими: непосредственно новости Библиотеки, новые поступления в ЦБП, выставка новых поступлений из БЕН РАН.. Следующий крупный блок сайта (портала) – Интернет-ресурсы по физико-химической биологии. Этот блок состоит из нескольких подблоков: издательства, издающие литературу по профилю физико-химической биологии; поисковые базы данных по профилю ФХБ; научные общества и сообщества по ФХБ; научные библиотеки; научные учреждения, занимающиеся проблемами ФХБ, научные порталы; фонды поддержки научных исследований. Основная цель создания портала - создание отправной точки для наиболее исчерпывающего и квалифицированного поиска необходимой информации по физико-химической биологии. Под аудиторией сайта предусмотрен круг научной общественности, занимающийся исследованиями в области физико-химической биологии. Структура и интерфейс сайта организованы так, чтобы совместить информационную насыщенность, простоту использования и быстрый поиск необходимой информации. Интерфейс сайта, компоновка информации на нем, учитывают психологические особенности неопытного пользователя. Структурная модель и интерфейс сайта максимально просты и наглядны. При разработке Web-портала применяются общие принципы Интернет технологии, обеспечивающие единообразный механизм доступа к порталу, как для внешних пользователей портала, так и для ученых Пущинского научного центра РАН, но с разграничением прав доступа. Для внешних пользователей сайта полностью доступны электронный каталог библиотеки и другие электронные ресурсы, не содержащие полных текстов электронных документов по причинам ограничения связанных с обеспечением авторских прав и лицензионных соглашений. В то же время, читатели ПНЦ получают доступ ко всей совокупности электронных ресурсов, включая полные тексты статей ведущих издательств мира (доступ к которым имеет Библиотека).

5. Межбиблиотечный абонемент и доставка документов должны постепенно создавать среду, в которой определяющим фактором является не наличие в фонде библиотеки какого – либо определенного издания, а пожелания пользователя. Доставка документов должна осуществляться прямо на рабочий стол абонента. Главная задача, которая решается в рамках вопроса автоматизации МБА и ММБА, это повышение оперативности обслуживания пользователей, другими словами, на сколько быстро будут выполнены все операции технологической цепочки этих процессов: от заказа до доставки документов. Поэтому, создание в библиотеках служб электронной доставки документов (ЭДД) является перспективным направлением для реализации поставленных задач.

На сегодняшний день можно назвать целый ряд причин, послуживших предпосылками для организации служб ЭДД в библиотеках как приоритетного направления деятельности отделов МБА и ММБА. Во-первых, возможность онлайновой передачи оцифрованных документов предоставляет оперативное и качественное информационное обслуживание пользователей. В связи с этим, расширяется и спектр предоставляемых материалов - это различные иллюстрации, фотографии, картографические и другие подобные материалы из фондов библиотек, которые не могли быть выданы по традиционным каналам МБА. Во-вторых, предоставление библиотекой иногороднему абоненту электронной копии - это альтернативное решение отправке первоисточника по почте, что положительно отражается на сохранности библиотечного фонда. Таким образом, технология ЭДД дает возможность сделать доступным практически любой требуемой источник из фонда библиотеки, тем самым, сокращая количество отказов по МБА и ММБА. В настоящее время в ЦБП продолжается работа по созданию автоматизированной интегрированной системы ЭДД в научной библиотеке. Работа поддержана Российским гуманитарным научным фондом (проект № 03-05-12016 в)

Одним из эффективных примеров внедрения ЭДД является реализация данной технологии в библиотеках, имеющих сетевую структуру, например, БЕН РАН, объединяющая около 200 библиотек. В свою очередь, ЦБП, являясь отделом БЕН РАН, также имеет свою локальную сеть из 7 библиотек-филиалов. Функционирование службы ЭДД подразумевает взаимное использование фондов библиотек-партнеров, что значительно расширяет возможности по предоставлению информационного сервиса, а также значительно сокращает временной промежуток получения информации пользователем.

Усовершенствование ЭДД в целом связано с автоматизацией всех этапов данного технологического процесса: от поступления заказа до доставки его пользователю. Привнося изменения в электронные каталоги, значительно облегчается поиск и заказ необходимого документа. Пользователи библиотеки непосредственно со своего рабочего места могут сделать заказ из фондов ЦБП и ее филиалов через веб-сайт (http://cbp.iteb.psn.ru), обратившись напрямую к разделу “Услуги ЦБП” - “ЭДД” для заказа документа. Также для удобства читателей зарубежные периодические издания имеют ссылки к сайтам, содержащим оглавления соответствующих журналов, другими словами, пользователям доступна. Таким образом, внедрение ЭДД способствует координации и кооперации российских библиотек, а также продвижению совместной деятельности с зарубежными партнерами. И тогда, даже небольшая библиотека местного значения может выступать как часть мировой информационной инфраструктуры, которая является активным звеном российского (или международного) канала обмена информацией

6. Следует развивать методическую помощь пользователям и все виды консультационных услуг от кратких справок и уточнений до тематических структурированных запросов и наукометрических исследований. Для этого из числа сотрудников библиотеки должны быть выделены специалисты библиотеки для информационного обеспечения научных исследований и программ, проводимым в Институтах.

ЦБП всегда была ориентирована на обеспечение пользователей всеми видами научной информации. Удовлетворять читательские потребности в информации — основная задача каждого структурного подразделения библиотеки. Анализ статистических показателей дает право констатировать тот факт, что справочно-информационные запросы читателей не уменьшаются, а с каждым годом увеличиваются. Растет и количество выполненных справок. Этому способствует в полной мере как информация на компакт-дисках, так и предоставленная возможность читателям работать с БД собственной генерации, а также информационно-библиографические ресурсы Интернета. Найти более полный ответ на поставленный читателем вопрос — основное условие повседневной работы. В связи с этим возрастает роль библиотекарей — библиографов, посредников, которые фильтруют и обрабатывают информацию и доносят ее до потребительской среды. В последнее время становятся все более востребованными наукометрические исследования. И это не случайно, так как наукометрические показатели представляют собой различные аспекты научной деятельности в количественном выражении. В ЦБП всегда проводилась большая работа по организации подобных исследований. Они затрагивают различные сферы информационно-библиотечной деятельности - это и отбор наиболее значимых, информативных периодических изданий для сотрудников Центра, и определение приоритетных научных направлений, анализ уже существующих научных тем в Центре, и нахождение критериев отбора при формировании собственных информационных ресурсов.

Литература

1. Определение информационной значимости электронных ресурсов для научных исследований / Мохначева Ю.В., Слащева Н.А., Харыбина Т.Н., Кудеярова А.Ю. // XI конференция представителей региональных научно-образовательных сетей “RELARN-2004”: Тезисы докладов. – Самара, 2004. – С. 55-57.

  1. Слащева Н.А., Мохначева Ю.В., Харыбина Т.Н. Внедрение электронной доставки документов в библиотеки Пущинского научного центра // XI конференция представителей региональных научно-образовательных сетей Relarn-2004, 30.05 - 06.06 2004 г., Самара-Волгоград-Астрахань. Тез. докл. - Самара, 2004. – С.: 64-65
  2. Иваницкий Г.Р., Слащева Н.А., Цыганов М.А. Наука и общество // Вестник РАН. - 2004.- Т. 74, N6. – С. 483-487.
  3. Мохначева Ю.В., Харыбина Т.Н., Слащева Н.А. Создание портала по физико-химической биологии // Научный сервис в сети ИНТЕРНЕТ: Труды Всероссийской научной конференции.- М.: Изд-во МГУ, 2004. – С. 129-131.
  4. Библиотека научного центра в современных условиях / Харыбина Т.Н., Слащева Н.А., Мохначева Ю.В., Захарова С.С. // Информационные технологии, компьютерные системы и издательская продукция для библиотек: Доклады и тезисы докладов. – Москва: ГПНТБ России, 2004. – С. 211-214.
!6!

Как скачать и сохранить онлайновый журнал

Шварцман М. Е.
(Российская государственная библиотека)

Автор полагает, что никого не нужно убеждать в том, что периодические издания вообще и журналы в частности содержат наиболее актуальную информацию, оперативно сообщают читателям о новых научных исследованиях и полученных результатах, событиях научной и культурной жизни. Именно поэтому научные библиотеки считают приоритетным комплектование своих фондов журналами.

В настоящее время появился новый вид журналов – онлайновые журналы. Они в свою очередь тоже весьма разнообразны и могут быть как онлайновой версией известного печатного издания с регистрацией, как СМИ, и наличием ISSN, так и результатом труда неизвестной группы энтузиастов. В любом случае эти журналы являются пластом российской культуры, и заслуживают внимания со стороны библиотек.

Для библиотек и индивидуальных пользователей журнальной периодики особенно важно знать о появлении новых онлайновых журналов, размещенных в сети Интернет и не потерять информацию, опубликованную ранее.

За рубежом такая информация , как правило, размещается на специализированных сайтах: тематических порталах и службах информирования о периодике, таких как Ulrich's International Periodicals Directory (http://www.ulrichsweb.com), Publist (http://www.publist.com), Periodicals (http://periodicals.net) Directory of Open Access Journals http://www.doaj.org и других. Обратившись к специализированным сайтам, пользователь сразу получает важнейшую информацию: имеется ли интересующий его журнал в Интернете, в каком объеме там представлены его материалы, за какой период и на каких условиях (бесплатно или за плату). К сожалению, в Рунете подобных служб, предоставляющих весь комплекс информации по российским журналам, пока нет. Поэтому коллектив сотрудников Российской государственной библиотеки решил взяться за разработку портала российских научных журналов, размещенных в Интернете. Так возник проект "Создание архива российских научно-технических полнотекстовых журналов, опубликованных в Интернет", получивший поддержку РФФИ, грант 04-07-90056-в.

Главным компонентом портала стал каталог научных онлайновых журналов. Чтобы найти эти журналы сотрудниками РГБ была проведена огромная работа по выявлению в Рунете таких журналов. Поиск происходил при помощи Яндекса по ключевым словам, которые формировались из словесных наименований рубрик ББК по соответствующим областям знаний. Далее был сложный и мучительный процесс отбора нужной информации из найденного нами многообразия. Были разработаны довольно формальные критерии отбора. Ресурс считается журналом если:

  • ресурс имеет определенную тематическую направленность;
  • материалы объединяются в номера (выпуски); выпуски могут выходить нерегулярно, однако не реже раза в год;
  • если ресурс имеет фиксированную периодичность, она должна составлять не менее недели, причем каждый выпуск должен содержать материалы, значительные по объему и содержанию.

После применения формальных критериев происходил содержательный отбор. Поскольку трудно оценить ценность научных публикаций не будучи специалистом в данной отрасли, мы старались отсеивать только те журналы, которые были посвящены не научным направлениям. “Что считать наукой” вопрос очень сложный и для себя мы приняли критерии В.Г. Веселаго: Если по этой теме можно в России защитить диссертацию, значит это - наука.

В результате у нас получилась общедоступная база данных структурированных описаний в стандарте Dublin Core Metadata Element Set (DC MES) российских научных журналов, доступных через Интернет. В нашей базе постоянно находится около 700 описаний. Они отражают важнейшие характеристики журналов: название, ISSN, тематику журнала, издающую организацию, наличие в открытом доступе аннотаций (рефератов) и/или полных текстов статей, включение статей из журнала в различные базы данных и другие.

Однако, как показал опыт, журналы исчезают, появляются новые и их “период полураспада” исчисляется несколькими годами. Поэтому следующей задачей стало сохранить все журналы из нашей базы для потомков.

Обратившись к зарубежному опыту, мы увидели, что готового решения для подобного архива нет. Существует богатый опыт архивирования всего Интернета или его региональной части, также в некоторых странах архивируют отдельные сайты, отобранные вручную [1,2]. Наиболее похожим проектом является “Архив шведских журналов” http://www.kb.se/Nbp/el-perE.htm. В открытом доступе опубликован каталог шведских онлайновых журналов, а в закрытом архиве (закрытость определяется законами об авторском праве) хранятся копии журналов. Несмотря на довольно тесные контакты со шведскими коллегами, мы не смогли воспользоваться их опытом, поскольку они имеют строго определенную периодичность скачивания для каждого журнала и скачивают его обновления, в сотрудничестве с редакцией журнала. В программе деятельности Международного консорциума по сохранности Интернет ресурсов (International Internet Preservation Consortium) [3] предполагалось создание “интеллектуального” робота, позволяющего самостоятельно определять необходимую частоту скачивания сайтов, однако у них на сайте нет обновлений с 20 июля 2004 года.

Среди российских проектов можно отметить www.eLibrary.ru, создатели которого тоже намереваются поддерживать полнотекстовый архив российских журналов. Эту задачу они предполагают решить путем тесного сотрудничества с редакциями журналов и использования специального программного обеспечения для подготовки XML размеченного текста журнала. Такой текст впоследствии можно будет как загружать в электронную библиотеку, так и выпускать в печатном виде. В отличие от предыдущих проектов, мы же хотели в условиях минимизации ручного труда, архивировать многочисленные онлайновые журналы, автоматически отслеживая происходящие изменения и отбрасывая лишнюю информацию с сайтов, на которых они размещены. В том числе, нам бы хотелось охватить также ряд журналов, не имеющих постоянной редколлегии, выпускаемых группами энтузиастов, с которыми трудно налаживать договорные отношения, но которые тоже являются частью нашей российской науки и культуры. В связи с этим мы начали разрабатывать программное обеспечение, которое должно удовлетворять следующим требованиям:

  • Закачка ресурсов с элементами даты в адресе. Такие ресурсы могут запрашиваться как за текущую дату, так и за нужное число дней назад/вперед (получение прошлых номеров журналов).
  • Закачка серийных ресурсов (с нарастающим номером). Загрузка только в случае обновления файлов на сайте (с изменившимся размером и/или датой создания).
  • Докачка ресурсов, возможность выкачивать из сети целые директории.
  • Планировщик: старт заданий по расписанию с настройкой времени старта и остановки.
  • Закачка сайтов или их частей. Глубину "вложенности" ссылок можно регулировать. При этом перекрестные ссылки между страницами по возможности преобразуются, для сохранения "ссылочной целостности".
  • Публикация загруженных файлов на FTP-сервер.
  • Поддержка неограниченного числа списков закачек, легкий перенос закачек между списками.
  • Многопоточная загрузка.
  • Механизмы пост-обработки закачанных файлов - поиск строк с заменой или вырезанием (удаление баннеров, смена дизайна, выделение только нужной информации) -

Структура онлайновых журналов

Поскольку одна из главных задач проекта – разработка максимально автоматизированной технологии архивирования, мы исследовали возможность создания системы автоматического скачивания новых выпусков по мере их поступления на основе прогнозирования имен файлов для новых выпусков. Большинство журналов (примерно 50% из просмотренных) организуют архив журнала одним из следующих способов:

1. На одной странице (архив журнала) размещаются ссылки на все опубликованные номера журналов. По имени каждого файла (или пути к нему) можно определить год выпуска, № тома или выпуска и т.п.

2. Все ссылки на номера журнала находятся на одной странице, при этом все файлы с оглавлениями журнала находятся в одной папке, а полные тексты статей находятся в другой папке.

3. Для каждого года или для каждого выпуска журнала создается новая папка. Полные тексты статей (если таковые имеются) обычно размещаются в этой же папке, но бывают случаи, когда они хранятся отдельно от оглавления журнала (в других папках).

4. В некоторых журналах новые номера добавляются в виде картинок (как правило, обложек журнал), с которых делается ссылка на нужный файл.

Рассмотренные выше способы организации архивов удобны для архивирования т.к. легко определить название файла или папки, которые должны появиться при выпуске следующего номера журнала. Но даже при такой структуре архива возникают непредвиденные ситуации: журнал может выходить с разной периодичностью, иногда выходят сдвоенные номера журналов, помимо архива номеров, журнал может содержать и другие материалы, встречаются журналы, публикующие специальные выпуски.

Программное обеспечение для архива

Основными проблемами, которые нам предстояло решить, были: как скачивать журналы и как их потом хранить. После изучения рекомендаций OSI по выбору программного обеспечения для создания институтских репозитариев, были определены основные требования к нашей системе (поддержка OAI-MH и DC), и выбрана система GREENSTONE (http://www.greenstone.org). Эта система распространяется с открытыми кодами, и, благодаря этому, нам удалось доработать отдельные модули для решения наших задач

В процессе эксплуатации ПО Greenstone оказалось, что возможности пакета не позволяют создавать полностью функциональные архивы сайтов. Причинами этого являются нерациональное использование программы скачки сайтов wget и некорректная поддержка кодировок русского языка. Мы выделили процесс скачивания сайтов в отдельный программный модуль. Этот модуль был написан на языке PHP и использовал более совершенную версию программы wget 1.9.1. Основной задачей модуля было скачивание сайта и подготовка его для дальнейшей обработки пакетом Greenstone. В процессе скачивания HTML-документы дополняются информацией (метаданными) как о самом процессе скачивания (например, дата скачивания документа), так и о самом документе (кодировка документа, язык документа). Эти метаданные извлекаются из заголовков протокола HTTP, выдаваемых сервером. При скачивании автоматически удаляются рекламные баннеры и другая информация, не имеющая отношения к журналу.

Изложенные в предыдущей части варианты структуры журналов были учтены при создании скачивающего модуля и структуры базы метаданных. Для полного и неизбыточного скачивания приходится задавать разрешение на скачивание внешних ссылок заданной глубины.

Помещение метаданных о языке и кодировке HTML-документа в сам документ позволило решить проблему с поддержкой кодировок русского языка пакетом Greenstone.

В целом, работа с пакетом Greenstone производит, благоприятное впечатление, среди достоинств пакета можно указать его цену (он бесплатный), поддержку платформ Windows и Linux, наличие подробной документации на русском языке, наличие оперативной и бесплатной технической поддержки со стороны разработчиков в специальных списках рассылки, протоколов Z39.50 и OAI.

Юридические проблемы

Приступая к созданию архива, мы ставили перед собой задачу выполнения всех требований законодательства по авторскому праву, но как показал опыт, это оказалось довольно сложно. Причем основная сложность в довольно сильной правовой неграмотности большинства российских авторов и издателей и, более того, в нежелании что то менять в сложившейся ситуации. Нами был разработан типовой договор на разрешение скачивания журнала и размещение его в открытом доступе в архиве в Российской государственной библиотеке. Этот договор и письмо с нашими предложениями мы разослали в 100 журналов. Большинство ответивших искренне недоумевало, зачем нужен договор, если их журнал, находящийся в открытом доступе, можно скачать и так. Выразившие же согласие подписать такой договор, как оказалось, не имели права этого делать, поскольку ни в одном из журналов не заключалось авторских договоров. Лишь в немногих журналах на сайте была надпись про то, что разрешается перепечатка. Многие журналы, как оказалось, издаются неформальным объединением, не имеющим юридического лица, и непонятно, с кем нужно заключать договор в таком случае. Все эти проблемы пока находятся в стадии решения, и, надеюсь, в ближайшее время мы их решим.

Литература

1. Research and Advanced Technology for Digital Libraries: 8th European Conference, ECDL 2004, Bath, UK, September 12-17, 2004. Proceeding./Editors: Rachel Heery, Liz Lyon ISBN: 3-540-23013-0

2. 4th International Web Archiving Workshop (IWAW04), http://www.iwaw.net/

3. International Internet Preservation Consortium, http://www.netpreserve.org/

 

!7!

Специфика информационного обеспечения современных форм
организации научных исследований

Шабурова Н.Н.
(Научная библиотека Института физики полупроводников СО РАН)

Известно, что информационное обеспечение (ИО) науки основывается на логике научного познания и проводится в соответствии с этапами исследований различных категорий – фундаментальных и прикладных исследований и опытно-конструкторских разработок (ОКР). Для проведения фундаментальных и прикладных исследований (НИР) требуются, в первую очередь, системные знания. По определению Д.И. Блюменау “системные знания – это совокупность (система) суждений науки, фиксирующих устойчивые, необходимые связи и свойства предметов и явлений объективного мира. Системные знания составляют структуру науки и являются неотъемлемой основой и конечной целью научно-технической деятельности” [1, с. 8]. Такие знания предоставляет научно-техническая литература. ОКР, в отличие от НИР, включают этапы создания опытно-промышленного образца, его испытания и внедрения, и доработки технической документации на выпуск серии образцов в промышленных условиях [4].

В процессе проведения НИР и ОКР, по мере перехода исследований от этапа к этапу, то есть по мере решения конкретных задач, системные знания начинают требоваться все менее, а возникает необходимость в знаниях другого характера [2]. Появляется потребность в информации для выбора и определения, какие технологические разработки предпочтительнее, как рациональнее их проводить и где лучшая сфера их применения. Такая информация представляет собой основу для формирования “ситуативных знаний – предложений науки и техники, которые отражают не устойчивые и необходимые, а временные, конъюнктурные, соотнесенные с определенной ситуацией связи и отношения, и которые не являются элементами науки как системы” [1, с. 8]. На основе такой информации чаще всего и принимаются творческие и управленческие решения. Очевидно, что для естественнонаучного направления информация для ситуативных знаний содержится не в научно-технической, а в конъюнктурной, методологической, нормативно-технической, производственной, правовой, патентно-лицензионной, экономической и социально-политической литературе. Табл. 1 показывает степень изменения потребностей ученых в системных и ситуативных знаниях на различных этапах научных исследований (табл. 1).

В таблице 1 введены следующие обозначения:

  1. Научно-организационный или подготовительный этап;
  2. Творческий процесс или основной этап;
  3. Обработка полученных результатов, создание новой научной информации –законов, гипотез и т.п. (или заключительный этап);
  4. Планирование практической реализации полученных результатов;
  5. Эскизное и техническое проектирование и макетирование;
  6. Разработка опытного образца;
  7. Экспериментальное испытание;
  8. Доработка и корректировка;
  9. Обобщение результатов, определение возможности внедрения в производство (или заключительный этап);
  1. Потребность в системных знаниях;
  2. Потребность в ситуативных знаниях.

 

  

Таблица 1

Изменение потребности в системных и ситуативных знаниях на различных этапах научных исследований различных категорий

 

Категории научных исследований

Фундаментальные

Прикладные

О К Р

Этапы

1

2

3

4

5

6

7

8

9

A

+

+

+

+

 

 

 

 

 

B

 

 

 

+

+

+

+

+

+

В настоящее время, когда десятки лет существовавшее пятилетнее планирование НИР, устойчиво финансируемое государством, заменено, в основном, краткосрочными проектами с многообразными источниками финансирования, предоставляемыми на основе конкурсов, сами научные исследования организационно также преобразовались. Появились исследования в рамках индивидуальных и коллективных грантов, интеграционных проектов и программ, а также международных грантов и договоров с научными организациями и фирмами зарубежных стран.

Работа библиотеки нацелена на построение адекватной системы ИО всех форм организации науки, для чего необходимо, прежде всего, хорошо понимать их специфику, а затем и выработать подходы к их ИО. Один из современных подходов к ИО фундаментальных научных исследований предлагает В.А. Маркусова [5] - ИО надо начинать с этапа поиска ассигнований и включить отделам информации и библиотекам в свою повседневную деятельность работу по оповещению ученых об отечественных и зарубежных фондах, сроках предоставления заявок, о тематике деятельности фондов и некоторых стандартных (для зарубежных фондов) критериях отбора проектов. Более того, другие авторы призывают отделы информации и библиотеки принимать участие в поиске потенциальных спонсоров, фондов и партнеров [3, 6]. Другими словами, они подчеркивают необходимость предоставлять ситуативные знания еще до начала проведения самих исследований и разработок.

С целью выработки своих подходов к ИО библиотекой Института физики полупроводников (ИФП) СО РАН проведен ряд исследований. Анализ отчетов и экспертное анкетирование помогли выявить характер приоритетной информации для основных организационных форм науки. Поскольку библиотека ИФП специализируется на тематике исследований и разработок конкретного контингента ученых своего НИИ, то ее фонд укомплектован научно-технической литературой, практически не несущей ситуативных знаний. Однако, результаты исследований, приведенные в табл. 2, показали расширение потребности в ситуативных знаниях и явились подтверждением того, что настало время перестраивать систему ИО. Прежде всего, для ИО современных форм организации науки требуется изменение баланса системных и ситуативных знаний.

 

Таблица 2

Зависимость структуры информационной базы ИО от специфики современных организационных форм научных исследований

 

 

 Орг. форма научных исследований

Характер информации

1

2

3

4

5

6

7

8

9

10

A

+

+

 

 

 

 

 

+

 

 

B

+

 

 

 

 

 

 

 

 

 

C

+

 

 

+

 

 

 

 

 

 

D

+

 

+

+

+

 

+

 

+

+

E

+

 

+

 

+

+

 

 

 

+

F

+

 

+

 

+

+

 

 

 

+

В таблице 2 приняты следующие обозначения.

Характер информации:

  1. Научно-техническая
  2. Методологическая
  3. Правовая
  4. Конъюнктурная
  5. Экономическая
  6. Социально-политическая
  7. Нормативно-техническая
  8. Патентно-лицензионная
  9. Производственная
  10. Рекламная

Организационная форма научных исследований:

  1. Гранты РФФИ
  2. Программы фундаментальных исследований РАН и СО РАН
  3. Интеграционные проекты СО РАН
  4. Контракты с хозяйствующими организациями
  5. Международные гранты
  6. Договоры с зарубежными фирмами

 

Для более детального изучения потребности в литературе, отсутствующей в фонде библиотеки ИФП, был проанализирован документопоток, полученный по МБА из других библиотек, за 1993 и 2003 гг. В качестве основного исследуемого признака принят содержательный.

Проведенный анализ показал, что в 1993 г. из 1128 полученных печатных единиц 1030 (91,31 %) составляли монографии, сборники, справочники и периодическая научно-техническая литература, предоставлявшая системные знания. Доля же литературы, несущей ситуативные знания, составляла 8,69 % (98 наименований): монографий и статей из периодических изданий по общественным наукам – 29 (2,57 %), нормативно-технической литературы – 23 (2,04 %), в т.ч. стандартов – 11 (0,98 %), производственной – 16 (1,42 %), патентно-лицензионной – 13 (1,15 %), экономической – 12 (1,06 %), методологической по организации производства и управления – 5 (0,45 %).

В 2003 г. из общего количества полученных 1083 документов 72,2 % (782 экземпляра) составляла научно-техническая литература. Доля литературы, несущей ситуативные знания, увеличилась до 27,8 % (301 документ): общественно-политической литературы – 138 (12,75 %), экономической – 46 (4,25 %), нормативно-технической – 57 (5,26 %), в т.ч. стандартов – 34 (3,14 %), производственной – 6 (0,55 %), патентно-лицензионной – 17 (1,57 %), экономической – 46 (4,25 %), методологической – 13 (1,2 %) и конъюнктурной – 24 (2,22 %).

Сравнительно-статистический анализ демонстрирует, что при сохранении общего количества полученных документов произошло изменение структуры информации. Полученные данные свидетельствуют, что у сотрудников ИФП СО РАН возросла потребность в литературе, обеспечивающей получение ситуативных знаний, более, чем в 3 раза (рис. 1). Это сопоставление можно считать еще одним подтверждением того, что для современных форм организации науки нужно перестраивать систему ИО, для чего необходимо перестраивать информационную базу.

Далее метод интервьюирования позволил понять, какие формы ИО, на взгляд опрошенных, могут в условиях работы академической библиотеки гипотетически предоставлять информацию для формирования ситуативных знаний. Опрошено 10 % научных сотрудников ИФП СО РАН: представитель администрации, руководители всех форм организации научных исследований фундаментального и прикладного направлений, а также разработчики, исполнители и индивидуальные обладатели грантов в рамках Президентской программы поддержки талантливой научной молодежи и Лаврентьевского конкурса молодежных проектов. Результаты интервьюирования продемонстрировали, что все используемые библиотекой формы ИО (индивидуальное и массовое СИ, групповое ИРИ, ретроспективный поиск в режиме “запрос-ответ” и комплексные методы) нацелены в настоящее время на удовлетворение потребности ученых в системных знаниях. Предоставление же ситуативных данных не охвачено формами систематической подачи информации, например СИ, ИРИ.

Рисунок 1. График изменения потребности в литературе, полученной по МБА библиотекой ИФП СО РАН.

Таким образом, проведенные исследования позволяют сделать следующие выводы.

Современные формы развития значительной части научных исследований ориентированы на конъюнктуру и конкуренцию, и поэтому, независимо от категории, им требуются ситуативные знания уже на самой первой стадии исследования, на стадии их планирования. Однако, используя самые современные средства для реализации существующих форм и методов ИО, генерируя собственные базы данных, академическая библиотека по-прежнему нацелена, главным образом, на предоставление системных знаний. В связи с этим очевидна необходимость перестройки системы ИО современных организационных форм научных исследований и развития ее с целью предоставления требуемых знаний и характера информации.

Основным подходом к ИО современных форм научных исследований является организация и соблюдение необходимого баланса предоставления информации для формирования системных и ситуативных знаний. Расширившиеся потребности ученых в ситуативных знаниях ставят перед академической библиотекой задачу определить, при помощи каких форм ИО их подавать.

В зависимости от возможностей каждого конкретного НИИ могут быть выбраны разные пути развития регулярного информирования ученых в области ситуативных знаний. Например, вопрос может решаться путем корректировки тематико-типологического плана комплектования; более интенсивного использования возможностей ЦБС, в том числе, заключения договоров с Институтом экономики и организации промышленного производства (ИЭиОПП) СО РАН или ГПНТБ СО РАН на оказание с их стороны информационных услуг в виде подготовки концептографических обзоров, предоставляющих ситуативные знания, по имеющимся в их фондах материалам; развития электронной доставки документов (ЭДД) и др.

Литература

  1. Блюменау Д.И. Проблемы свертывания научной информации / Д.И. Блюменау; Всесоюз. ин-т науч.-техн. инф-ции АН СССР. – Л., 1982. – 166 с.
  2. Бурый-Шмарьян О.Е. Система дифференцированного информационного обслуживания разработчиков НИИ и КБ (по результатам экспериментального исследования) // НТИ. Сер.1. – 1969. - № 2. – С.27-36.
  3. Князева С.Ю. Международное научно-техническое сотрудничество и система его информационного обеспечения : дис. на соиск. учен. степ. канд. пед. наук. – Новосибирск, 2000.
  4. Косолапов В.В. Информационное обеспечение и прогнозирование науки. – Киев: Изд-во Киевского Ун-та, 1970. – 227 с.
  5. Маркусова В.А. Информационная поддержка грантов // Информационные ресурсы. Интеграция. Технологии : матер. 3-й Международн. конф., Москва, 1997. – М.: ВИНИТИ, 1997. – С.155-157.
  6. Резер С.М. [и др.] Информационное обеспечение фундаментальных исследований в отрасли при переходе к рыночной экономике / С.М. Резер, Е.А. Тимченко // Вопросы информационной теории и практики. - 1991. - № 60. - С.85-99.
!8!

Методика оценки научной информативности сайтов

Якимов В.И.
(Московская государственная академия тонкой химической технологии им. М.В. Ломоносова)
Ефременкова В.М.( Всероссийский институт научной и технической информации РАН)
Севастьянов В.Г. (Институт общей и неорганической химии РАН)

Введение

Основным толчком в создании всемирной паутины послужила новая “сетевая инициатива”, выдвинутая Альбертом Гором в 1991 г., декларация о национальной информационной и глобальной информационной инфраструктуре. В том же году был введен термин WorldWide Web. 1992 год - в NCSA (National Center for Supercomputing Application) был создан первый браузер Mosaic X. Публикация знаменитого меморандума Б.Клинтона – А.Гора “Технологии для экономического роста США: новые направления, которые предстоит создать” (1993), как и знаменитый доклад Мартина Бангеманна “Рекомендации ЕС и глобальное информационное сообщество” (1994), фактически подтолкнули мир к принятию Интернета. Впервые в 1994 г., на первой Всемирной конференции по развитию телекоммуникаций, состоявшейся в г. Буэнос-Айресе, вице-президент США Альберт Гор определил основную задачу глобального информационного общества: “... создать глобальное сообщество, в котором население соседних стран рассматривает друг друга не как потенциальных врагов, а как потенциальных партнеров, как членов одной семьи в огромной, все в большей степени взаимосвязанной человеческой семье”. В 2004 году мир праздновал 10-тилетие Интернета.

С 1994 г. число пользователей возросло в сотни тысяч раз. До 2002 года оно ежегодно в среднем увеличивалось на 2%. Но уже в 2003 году по результатам исследования компании Ipsos-Reid, число пользователей Интернета в мире выросло на  7%, и по данным компании VeriSign Inc., администратора доменов COM и NET, составило 580  млн.

Наиболее активно пользуются Интернетом в Канаде: 71% взрослого населения страны выходит в сеть не реже раза в месяц. В пятерку мировых лидеров по этому показателю также вошли Южная Корея (70%), США (68%), Япония (65%) и Германия (60%). В России, согласно отчету Ipsos-Reid, Интернетом пользуется 10% городского населения. Необходимо учесть, что число активных пользователей в России, по данным Фонда "Общественного мнения" (ФОМ) составляет 34,9% от общего числа пользователей.

Одновременно с ростом числа пользователей росло и число Интернет ресурсов. Ниже приведен график роста числа доменов (домен – сетевое имя или его часть), начиная с декабря 2002 года. [Доклад “Статистика развития российского сегмента Интернета” Материал предоставлен RU-Center, при подготовке статьи использованы данные ICANN, Минсвязи РФ, РосНИИРОС, RU-CENTER, ФОМ, Nielsen/NetRating.]

Для ученых, наряду с традиционными источниками информации, представляют интерес сайты научной тематики. Так, по данным рейтинга Rambler's Top100, 10,80% всех сайтов составляют сайты научной тематики, к которым мы отнесли сайты, посвященные образованию, технологии, фармацевтике, электронике и медицине. Для сравнения, сайты посвященные Интернет-торговле, составляют всего 8,53%. В связи со столь внушительным объемом научной информации в глобальной сети встал вопрос об оценке ее достоверности.

Цель работы – определение критериев и создание методики оценки информативности сайтов по узко-тематическим направлениям науки.

Рис 1. Динамика роста числа доменов

Способы поиска информации в сети

Существуют три основных способа поиска информации в сети Интернет:

  1. Поиск сайтов и страниц через поисковые машины. Самая крупная и известная поисковая машина, или “Поисковик”, - Google – адрес в сети www.google.com. Она включает в себя базу данных по 8 058 044 651 странице (информация на 6 февраля 2005 года, 14:42 по московскому времени). Google вносит в свою базу данных сайты на разных языках, расположенные на различных географических доменах. В этом поисковике, существует множество языковых кластеров, например, английский www.google.com, немецкий www.google.de, итальянский www.google.it, японский www.google.jp, русский www.google.ru (www.google.com.ru) и др., поиск по каждому из которых ведется на языке той страны, чей национальный домен он занимает. Как и на других “поисковиках”, в Google есть возможность вести “расширенный поиск”. Следует отметить, что в поисковых машинах поиск осуществляется по описаниям страниц сайта, составленным “роботом-пауком” в автоматическом режиме.
  2. Поиск через каталоги, имеющие разветвленную “древовидную” структуру. Например, для получения информации о сайтах в разделе “неорганическая химия” в русскоязычной части каталога Dmoz, подключенного к Google Directory (http://directory.google.com), необходимо либо пройти путь: “World > Russian > Наука > Химия > Неорганическая химия”, либо, воспользоваться поиском внутри каталога, тогда машина выдаст все сайты, в чьих “автоматических” описаниях встречается информация, соответствующая запросу.
  3. Поиск библиографической информации по узко-тематическим направлениям, отраженным в БД, с одновременной выдачей страниц сайтов, относящихся к рассматриваемой тематике. Поиск сайтов осуществляется специализированной поисковой машиной. В настоящее время такой поиск может быть проведен в БД SCOPUS компании Elsevier, где наряду с традиционным поиском библиографической информации осуществляется поиск сайтов с помощью специализированной поисковой машины, находящейся на платформе SCIRUS. Например, по приоритетному направлению “фуллерены” с 1991 г. по апрель 2005 г. отражено 18658 публикаций из традиционных источников информации: журналов, трудов конференций, книг; 2539 – патентов и 36320 страниц сайтов.

 

Описание каталогов

  • Наиболее известным каталогом в Интернете считается DMOZ, доступ к нему можно получить, как по адресу www.dmoz.org, так и через поисковую машину Google, т.к. база данных “открытого каталога” DMOZ подключена к Google Directory. Отличием является способ поиска. DMOZ осуществляет поиск исключительно по названию и описанию сайта в каталоге, а Google Directory ищет сайты, подключая базу поисковой машины, т.е. учитывает в поиске полное содержание всех страниц сайта. Как и поисковая машина Google, так и Google Directory имеет многоязычный пользовательский интерфейс. Регистрация сайтов в Open Directory Project (ODP) www.dmoz.org производится по стандартной схеме регистрации в каталогах. Владелец сайта предлагает модераторам OPD описание и категорию расположения ссылки на сайт. Однако, конечное решение принимает модератор.
  • В каталоге Yahoo также существует форма для подачи заявки на регистрацию сайтов. Разница заключается в том, что в отличие от Google, Yahoo Direct не подключает базу поисковика, и сайт попадает в выдачу только в том случае, если его название или “каталожное описание” содержат слова запроса. Часто выдачи каталога Yahoo и DMOZ содержат одни и те же сайты. Но при этом, ссылка на сайт может находиться в различных разделах каталогов. При поиске сайтов близкой тематики необходимо просматривать разные разделы каталогов.
  • Отдельно стоит каталог www.altavista.com компании Yahoo. Сайты в него вносятся только модераторами, при этом владельцы сайта не имеют возможности предлагать свои сайты к рассмотрению. В каталог внесены только самые крупные сайты по различным областям знания, содержащие полезную для наибольшего, по мнению модераторов, числа людей. В связи с этим поиск сайтов по узкоспециализированным направлениям через этот каталог не принесет никаких результатов.
  • Каталог коммерческих сайтов – www.overture.com принадлежит поисковой системе Yahoo. Размещение ссылок в этом каталоге – платное. Сайты, размещенные в коммерческом каталоге попадают при поиске в выдачу Yahoo – раздел “SPONSOR RESULTS”. Каталог Altavista выдает первые две ссылки из www.overture.com, а далее из своей БД. В случае же неудачного поиска по запросу в каталоге Altavista происходит переключение на сайт Overture.

Поиск сайтов научной тематики

Поиск по сайтам открывает перед учеными возможность получать оперативные сведения об интересах научных групп и отдельных ученых, иметь контактную информацию, и в ряде случаев - бесплатный доступ к полному тексту статей. В последнее время становится популярно размещать статьи в электронных изданиях и на сайтах, поэтому при поиске по научно-техническим дисциплинам уже нельзя ограничиваться библиографической или полнотекстовой литературой без ущерба для “полноты” поиска.

При поиске научной информации следует начинать с поиска по каталогам со структурированной информацией. Например, с такого каталога, как DMOZ

В качестве примера сайтов узкой специализации рассмотрим сайты по приоритетному направлению “фуллерены”

Как и в обычном поиске по БД, в Интернет-поиске немаловажную роль играет поисковый запрос. При составлении Интернет запроса, нужно принять во внимание одно из важнейших свойств информации некоммутативность (неперестановочность): суммарное количество полученной информации зависит от последовательности поступления (получения) информационных сообщений (A+B B+A, где А и В – разные информационные сообщения). В ряде случаев это свойство можно не учитывать, используя возможности “расширенного поиска” в поисковых машинах и каталогах, так же, как и в БД. Так, например, выдача по запросу “fullerene nanotubes” будет отличаться от выдачи по запросу “nanotubes fullerene”.

При поиске по данному запросу сайты распределяются следующим образом (если не учитывать ссылочное ранжирование, частоту повторения и “вес” запроса на сайте):

  1. Сайты, содержащие запрос целиком.
  2. Сайты, содержащие все слова запроса, в том же порядке, в котором они находятся в запросе, например – fullerene *** nanotubes. Где *** - произвольная фраза, чем она меньше, тем выше позиция в выдаче.
  3. Сайты, содержащие все слова запроса в произвольном порядке.
  4. Сайты, содержащие не все слова, в выдаче сайт находится тем выше, чем больше слов он содержит

Для того, чтобы оценить тип и научную важность сайтов узкой научной направленности, проанализируем первые 20 ссылок из выдачи поисковой машины Google по запросу “fullerene”.

  1. http://sbchem.sunysb.edu/msl/fullerene.html
  2. www.fullerene.com/
  3. www.godunov.com/Bucky/Patents.html
  4. www.chemistry.wustl.edu/ ~edudev/Fullerene/fullerene.html
  5. www.chemistry.wustl.edu/~edudev/Fullerene/ [ Дополнительные результаты с www.chemistry.wustl.edu ]
  6. www.sussex.ac.uk/Users/kroto/
  7. www.sussex.ac.uk/Users/kroto/FullereneCentre/ [ Дополнительные результаты с www.sussex.ac.uk ]
  8. www.mindspring.com/~kimall/Fuller/
  9. www.dekker.com/servlet/product/productid/FST
  10. http://www.ifw-dresden.de/iff/14/ forschg/fulleren/wassindfullerene/
  11. www.fullereneinternational.com/
  12. www.univie.ac.at/spectroscopy/
  13. www.susx.ac.uk/Users/kroto/fullgallery.html
  14. dc2.uni-bielefeld.de/dc2/fullerene/
  15. en.wikipedia.org/wiki/Fullerene
  16. www.mcfullerene.com/
  17. www.geocities.com/upwardthrust/carbon/fullerene.html
  18. www.nanoword.net/library/def/Fullerene.htm
  19. www.worldofmolecules.com/materials/fullerene.htm
  20. www.fullerene-jp.org/

Среди этих двадцати ссылок можно выделить ссылки на следующие типы сайтов:

  1. Сайты научных групп, содержащие информацию о работе ученого или научной группы.
  2. Сайты семинаров и конференций.
  3. Сайты институтов, с общей информацией о проводимых в институте работах и кратким описанием той или иной научной тематики.
  4. Энциклопедические сайты.
  5. Коммерческие сайты - Интернет-магазины и сайты фирм торгующих необходимыми оборудованием или материалами.
  6. Интернет издания – сайты Online–журналов или газет.
  7. Кроме того, мы выделили сайты, не имеющие отношения к исследуемой научной области, но, тем не менее, попавшие в выдачу и являющиеся “шумом” для этого научного направления.

Распределение сайтов из выдачи Google по запросу “fullerene” представлено на следующей диаграмме (Рис.2)

Рис. 2 Распределение по типам сайтов из выдачи Google, запрос “fullerene”

Более узко направленную информацию, как было сказано выше, можно получить в каталогах. Рассмотрим выдачу каталога DMOZ по запросу “fullerene”. В выдаче присутствует шестнадцать ссылок.

  1. http://www.geocities.com/kuku05/
  2. http://www.mcfullerene.com/
  3. http://smalley.rice.edu/
  4. http://wwwrsphysse.anu.edu.au/nanotube/awnf2001/index.htm
  5. http://buckminster.physics.sunysb.edu/
  6. http://www.uvm.edu/~dcloughe/
  7. http://sciencenews.org/20000325/fob1.asp
  8. http://www.sesres.com/
  9. http://www.ciam.unibo.it/electrochem/
  10. http://www.chem.ucdavis.edu/groups/balch/
  11. http://gaus90.chem.yale.edu/henmr.html
  12. http://www.diederich.chem.ethz.ch/
  13. http://www.cchem.berkeley.edu/%7Ekpvgrp/research.html
  14. http://www.mtr-ltd.com/
  15. http://www.mtr-ltd.com/
  16. http://www.nottingham.ac.uk/~ppzstm

На Рис.3 представлена диаграмма распределения по типам сайтов из выдачи открытого каталога DMOZ.

Рис.3 Распределение сайтов из выдачи DMOZ по запросу “fullerene”

Как видно из диаграмм (Рис.2, 3), большая часть сайтов - это сайты отдельных ученых и научных групп. Некоторые из этих сайтов находятся на серверах университетов, в которых работают ученые, что может являться критерием достоверности информации.

Сравним соотношение типов сайтов в двух выдачах (Рис. 4)

Рис.4 Процентное соотношение типов сайтов в выдачах каталога DMOZ и поисковой машины Google

По этому распределению видно, что в отличие от выдачи поисковой машины, в выдачу каталога очень маловероятно попадание “шума” по рассматриваемой тематике. Кроме того, в ней отсутствуют сайты энциклопедий и словарей, т.к. в их каталожном описании отсутствует слово–запрос “fullerene”. Однако в выдаче представлен раздел “Интернет издания”, в этот раздел мы включили сайт, содержащий множество ссылок на сайты, посвященные фуллеренам.

Определение значимости сайтов.

Рассмотрим критерии оценки, выбранные для самой значительной части выдач – “сайтов научных групп”:

  1. Полные тексты статей. Сайты многих крупных научных групп содержат полные тексты изданных ими статей, что позволяет серьезно облегчить поиск информации.
  2. Список статей. На сайтах часто можно встретить информацию о статьях, изданных научной группой.
  3. Количество авторов. Количество авторов сайта (сотрудников научной группы) может стать показателем важности проводимых исследований и полноты информации, поскольку на сайте представлены работы каждого ученого.
  4. Научная степень. Научная степень и звание руководителя научной группы или владельца сайта также может быть показателем достоверности информации, размещенной на сайте.
  5. Обновляемость. Этот фактор никак не влияет на достоверность информации, представленной, например, в статьях расположенных на сайте, однако по обновляемости можно судить о работе научной группы и о ее интересе к представленной на сайте области исследований.
  6. Ссылка из политематических БД, которые включают в себя ссылки на некоторые сайты, что является одним из важнейших критериев оценки их информативности и достоверности.
  7. Обратная связь. Наличие координат для связи с разработчиками и владельцами сайта также может являться критерием оценки его “уровня”.

Ниже представлена “оценочная таблица” для сайтов ученых и научных групп из выдач Каталога DMOZ (1) и поисковой машины Google (2):

1. DMOZ

Полный текст статей

Список статей

Кол-во авторов

Научная степень

Обновляемость

Ссылка из SCI

Обратная связь

http://www.geocities.com/kuku05/

0

1

1

PhD

1

-

1

http://smalley.rice.edu/

1

1

7

NPW

1

-

1

http://buckminster.physics.sunysb.edu/

1

1

5

Dr

0

-

1

http://www.uvm.edu/~dcloughe/

1

1

1

PhD

1

-

1

http://www.ciam.unibo.it/electrochem/

0

1

6

Dr

1

-

1

http://www.chem.ucdavis.edu/groups/balch/

0

1

1

Dr

0

-

1

http://gaus90.chem.yale.edu/henmr.html

0

0

3

Prof

0

-

1

http://www.diederich.chem.ethz.ch/

0

1

1

Prof

1

-

1

http://www.cchem.berkeley.edu/%7Ekpvgrp/research.html

0

1

11

Prof

1

-

1

2. Google

http://sbchem.sunysb.edu/msl/fullerene.html

0

1

0

0

0

-

0

www.godunov.com/Bucky/Patents.html

0

1

1

Prof

0

-

1

www.sussex.ac.uk/Users/kroto/FullereneCentre

0

1

4

NPW

0

-

1

www.mindspring.com/~kimall/Fuller/

0

0

1

PhD

1

1

http://www.ifw-dresden.de/iff/14/forschg/fulleren/wassindfullerene/

1

1

17

Dr.

0

-

1

www.univie.ac.at/spectroscopy/

0

1

8

Dr.

1

-

1

http://dc2.uni-bielefeld.de/dc2/fullerene/

0

1

1

Prof

1

-

0

Из таблицы видно, что сайты, занесенные в каталог модераторами, и представленные выдачей DOMOZ, содержат более полную и достоверную информацию.

 

 

 

!9!

Анализ тенденций развития научных исследований на основе сопоставления информации в политематических и специализированных базах данных ведущих стран мира

Ефременкова В.М.
(Всероссийский институт научной и технической информации РАН)

Наука есть система соотношений.
А. Пуанкаре

Современные информационные технологии предоставляют уникальные возможности получения данных о веществах, процессах и явлениях, происходящих в них и с ними. Фактографические сведения, полученные при поиске в базах данных, не только по основному направлению работы, но и по смежным дисциплинам могут оказаться тем недостающим звеном, которое в дальнейшем определит ход исследований или разработок и даст возможность успешно решить поставленную задачу. Именно поэтому информатика становится одним из важных и необходимых инструментов для ученых и разработчиков наряду с традиционными физико-химическими методами /1-4/.

Стратегия поиска информации в информационных сетях

Широкие возможности для информационной поддержки научных исследований предоставляют банк данных ВИНИТИ (Россия), БД SCOPUS (Нидерланды) и одна из крупнейших в мире онлайновая сеть Scientific & Technical Information Network (STN) International, где сосредоточено 220 БД (генерируемых 95 службами) по точным и естественным наукам, информатике, ряду вопросов бизнеса, маркетинга и экономики. В настоящее время ученым России доступны 8 политематических информационных служб и/или БД научно-технического профиля: ВИНИТИ (Россия), Chemical Abstracts Service (США), Science Citation Index (США), COMPENDEX (США), INSPEC (Великобритания), PASCAL (Франция), JICST-EPlus (Япония) – часть БД JICST, отражающая только публикуемую в Японии научно-техническую литературу и SCOPUS (Нидерланды). Полнотекстовая информация содержится в 16 БД сети STN (это БД с окончанием FULL), а также избирательно полные тексты публикаций могут быть получены в БД SCOPUS и на платформе ScienceDirect издательства ELSEVIER. В девяти БД STN можно найти фактографическую информацию по свойствам материалов, а в 26 БД – по патентным документам.

Для выбора БД, обеспечивающих наибольшую полноту и точность поиска по всей интересующей исследователя тематике или отдельным вопросам, удобно использовать предварительно сформированные тематические группы БД – кластеры БД в сети STN International, которые тематически можно разделить на несколько групп: 8 кластеров химического профиля, имеющих около 100 БД (включая фармакологию, нефть и нефтяные продукты, а также фактографические данные); и/или 6 кластеров биологического профиля, наибольшее количество БД содержит кластер BIOSCIENCE – 57 БД; и/или 6 кластеров в области инженерных наук, наибольшее количество БД содержит кластер ENGINEERING – 57 БД и др.

Распределение потоков публикаций в тематических кластерах, отражающих информацию по науке, технике и технологии, может дать информацию:

  • об основной области знания, к которой принадлежит исследуемая проблема;
  • о приоритетах научной или издательской активности различных стран.

Суммарные распределения потоков публикаций в политематических, каждая из которых имеет преимущественную тематическую направленность в одной или нескольких областях знания, и специализированных БД позволяют получать информацию:

  1. о соотношении массивов документов по определенной дисциплине (рис. 1);
  2. о национальных приоритетах слежения за потоками публикаций по отраслям науки и техники или определенным тематическим направлениям (национальных БД – по стране-генератору БД) (рис.1 и 2);
  3. о состоянии работ по применению в различных областях (рис. 2).

На гистограммах суммарных массивов публикаций в политематических и специализированных БД по одному из приоритетных направлений 21 столетия – фуллеренам (новой формы углерода), открытых в 1985 г. коллективом ученых: H.W. Kroto (Великобритания, Сассекский университет), J.R. Heath, S.C. O`Brien, R.F. Curl, R.E. Smalley (США, университет Райса) – Нобелевская премия 1996 г., хорошо прослеживаются отмеченные выше основные направления исследований по политематическим БД (СА – БД США с преимущественным отражением химической тематики, INSPEC – БД Великобритании с преимущественной направленностью в области физики; COMPENDEX – БД США, отражающая проблемы техники и технологии; PASCAL – БД Франции, тематические приоритеты в которой – физика, химия и биология и SciSearch (SCI) – БД США по точным и естественным наукам), и области применения по специализированным БД.

Анализ результатов поиска в выбранных БД позволит научному сотруднику составить такой кластер БД, который сможет обеспечить наиболее полную информацию, используя режим мультифайлового кросс-поиска одновременно во всех необходимых БД. Таким образом, наибольшая полнота выдачи документов по запросу может быть обеспечена только в том случае, когда поиск ведется одновременно в нескольких БД.

Рис. 1 Распределение суммарного потока публикаций по фуллеренам в политематических БД ведущих стран мира

 

Рис. 2. Распределение суммарного потока публикаций по фуллеренам в специализированных БД ведущих зарубежных стран мира по применению в биологии, медицине и технических дисциплинах

Структурирование поисковых предписаний и примеры анализа словаря поисковых терминов

Бурное развитие информационных технологий в конце прошлого века способствовало созданию новых международных информационных сетей, одной из которых является находящаяся в совместном управлении Германии, США и Японии STN International, развитию и совершенствованию уже имеющихся (Dialogв , DataStarФ и др.). Доступ к БД сетей научно-технической информации осуществляется через всемирную паутину Internet.

Новые возможности поиска информации по свободным или контролируемым терминам, кодам классификаторов БД и др. с целью сопровождения исследований диктуют необходимость проведения аналитической работы, используя основные возможности наукометрии. Информационная поддержка любой научной работы должна строиться на предварительной наукометрической информации о состоянии исследований или разработок по рассматриваемому тематическому направлению. Последняя включает работу с тезаурусами или списками контролируемой лексики по интересующему вопросу, изучение Классификаторов БД для определения возможных узко-тематических направлений изучаемой проблемы, и, наконец, выбор баз данных, отражающих различные аспекты исследования или разработок с учетом накопленных ретрофондов. На рис. 3 и 4 предлагаются структурные схемы для ведения поиска информации в определенном тематическом направлении по науке и технике, и отдельно по материаловедению, имеющему свою специфику, связанную с химическими формулами веществ (рис.4). Рассмотрим несколько примеров, иллюстрирующих предложенные структурные схемы.

Пример 1. “Нейронные сети” представляет точно определенное тематическое направление в области искусственного интеллекта. Но, кроме того, этот термин является одним из наиболее важных в науках о живом. В связи с этим, необходимо при составлении поискового предписания использовать тезаурус (или словарь контролируемой лексики), относящийся к области “искусственного интеллекта” и выбрать БД, в которых эта тематика представлена, используя для этого классификаторы БД. Наиболее адекватными информационным потребностям по этой проблеме оказались:

БД INSPEC, в классификатор которой c 1977 г. введен код С1230 – “Искусственный интеллект”, а в 1992 г. добавлен код С1230D – “Нейронные сети”.

Фрагмент БД ВИНИТИ “Техническая кибернетика”, одна из рубрик которой - 28.23 “Искусственный интеллект” имела подрубрику 28.23.37 – “Нейронные сети”. Таким образом, определились коды классификаторов и основные термины из Subjet Guide (БД INSPEC) и Предметного указателя РЖ “Техническая кибернетика”.

Поисковые предписания с использованием операторов контекстной близости:

БД INSPEC – neural ADJnets or neural ADJ chip,

после анализа результатов поиска добавляется еще ряд терминов: neurocomputer or neurocontroller or neuristor – виды нейроустройств;

Hopfield or Kohonen or Bolzman – ученые – создатели моделей нейронных сетей.

 

 

 

БД ВИНИТИ – нейронные ADJ сети or нейросети or нейронные ADJ чипы
or нейрокомпьютер or нейроконтроллер or нейровычисления
or нейронечеткие ADJ сети or модель (Hopfield or Kohonen
or Bolzman)
БД Chemical Abstracts (СА) - neural ADJ nets or neural ADJ chip
or neurocomputer.

В этой БД поисковые термины могут быть выбраны только по Index Guide, поскольку они отсутствуют в Subject Coverage and Arrangement of Abstracts by Section in Chemical Abstracts. Полученная в этой БД информация оказывается достаточно большой по объему и указывает на области применения нейронных сетей и нейроустройств.

Пример 2. “Комбинаторная химия” – широко распространенный метод твердофазного синтеза органических веществ. Сам метод был предложен R.B. Merrifield в 1963 г. (Нобелевская премия 1984 г.). Информация по этому направлению содержится в базах данных химического профиля, одной и наиболее представительных является БД САPlus. Анализируя иерархический тезаурус, используемый в этой БД, можно выявить как истоки направления: “Merrifield synthesis” ® “combinatotial chemistry”, так и пути его дальнейшего развития: combinatotial chemistry”, “combinatotial library” ® “High throughput screening”.

Поисковое предписание в этом случае имеет следующий вид:

combinatotial ADJ chemistry or combinatotial ADJ library

or peptide ADJ library

or High throughput screening or Merrifield synthesis.

Пример 3. “Фуллерены”. Необычная история открытия этой новой формы углерода нашла свое отражение и в употребляемой учеными терминологии: первое название представляло сочетание имени и фамилии архитектора, предложившего устойчивую структуру - buckminsterfulleren; одновременно кристаллографы, смоделировавшие эту структуру, дали ей название – buckyball; после открытия нанотрубок японским ученым S. Iijima (1991 г.) появился термин – buckytube (нанотрубка, один конец которой оканчивается фуллереном). В 1990 г. было введено еще два термина - fullerite и fulleride для характеристики микроразмерных фуллеренов с органическими структурами и фуллеренов с металлами. В 1998 г. появилась еще одна разновидность этой формы углерода: фуллерены внутри нанотрубки, получившая название “peapod” - “стручок”. Первые два термина до сих пор ежегодно присутствуют во всех БД (около 1%). При снятии частотных характеристик для рассматриваемой тематики необходимо использовать корни слов с правым и левым усечением, т.к. для уточнения многочисленных структурных форм фуллеренов авторы публикаций часто перед корнем употребляют приставки, отражающие определенные характеристики фуллеренов, например, metallofullerene (фуллерены с металлами), endofullerene (внутри фуллерена находится атом металла) или dihydrofullerene (C60H2 – фуллерен с присоединенной молекулой водорода) и т.д. Поэтому, наиболее полный массив в зарубежных БД может быть получен сочетанием следующих терминов:

*fullerene* or *fullerit* or *fullerid* or buckyball* or buckytube* or peapod* .

Поскольку в БД JICST-EPlus не предусмотрено левое усечение термина “fullerene”, в поисковое предписание при поиске в этой БД необходимо добавить для обеспечения большей полноты выдачи, по крайней мере, еще три термина:

buckminsterfulleren* or metallofulleren? or endofulleren?.

Пример 4. “Карбид кремния”. Анализ терминов проводился в политематических БД CAPlus, SciSearch, COMPENDEX, INSPEC, PASCAL и JICST-EPlus. Наиболее полный массив во всех БД может быть получен сочетанием названия соединения и его химической формулы, но при поиске в политематических БД, кроме БД INSPEC и COMPENDEX, термин “SiC” совпадает c рядом биологических терминов, например термином “sic gene”, или с оказиональным сокращением sic, что приводит к уменьшению точности поиска (шуму в выдаче документов) около 1.0 – 1.5%. Небольшое уточнение запроса (менее 10 документов) дает введение немецкоязычного термина “silicium ADJ carbid?”. Более полные и точные результаты выдачи могут быть получены, используя возможности БД REGISTRY (CAS), в которой каждому из полученных химиками веществ и их соединений присваиваются регистрационные номера, являющиеся их однозначной характеристикой. Поисковое предписание по “карбиду кремния” может состоять из вышеперечисленных терминов:

silicon ADJ carbid? or SiC or silicium ADJ carbid?

или набора регистрационных номеров соединений SinCm (n=1-3 и m=1-4):

    • 409-21-2, Silicon carbide (SiC),
    • 12070-04-1, Silicon carbide (Si2C),
    • 12071-27-1, Silicon carbide (SiC2),
    • 12144-09-1, Silicon carbide (Si2C2),
    • 12326-86-2, Silicon carbide (Si3C),
    • 107251-12-7,Silicon carbide (Si0.8C0.2).

Для более узкого запроса, например, поиска термодинамической информации, связанной с процессами синтеза SiC необходимо проводить анализ данных:

  1. по химических кластерам карбида кремния с регистрационными номерами всех SinCm, в БД REGISTRY;
  2. по массиву публикаций в рубрике (Classification code) 69- “Thermodynamics, Thermochemistry, and Thermal Properties” в БД Chemical Abstracts по выбранным регистрационным номерам SinCm (n=1-3 и m=1-4).

Таким образом, работа с тезаурусами БД может привести исследователя и разработчика к новым идеям, как было отмечено в случае “комбинаторной химии”, или увидеть пути развития новой ветви, как в тематическом направлении “фуллерены”, а в сочетании структурной информации и кода классификатора библиографической БД найти точную и полную информацию о работах по свойствам конкретных веществ, аналогичную поиску по термодинамическим свойствам карбида кремния.

Анализ динамики потоков публикаций

По динамике накопления ретрофондов в БД ведущих стран мира в различных областях знания или тематических направлениях можно проводить моноторинг:

  • тенденций развития исследований (по скорости прироста ретрофонда);
  • национальных приоритетов отражения литературы в одной или нескольких дисциплинах, часто связанные с наличием национальных научных школ, правительственных проектов по развитию определенных направлений (например, в области нанотехнологий или национальной и глобальной информационной инфраструктуры и др., обеспечивающих экономический рост США, Японии и др. стран);
  • издательской деятельности стран – сериальные издания наиболее крупных издательств США (American Chemical Society), Нидерландов (Elsevier), Швейцарии (New Swiss Chemical Society, Basel (ранее Swiss Chemical Society), Сингапура (World Scientific Publishers Co PTE Ltd) вносят значительный вклад в массивы отражаемой в БД литературы. Оценить вклад каждого из издательств можно по БД INSPEC, PASCAL и ВИНИТИ, в которых содержится в поле “страна” информация по странам-издателям сериальных изданий и трудов конференций. В качестве примера можно привести данные частотного анализа потоков публикаций, характеризующих разницу издательской и научной активности ученых Нидерландов: издательская активность превышает научную в 10 раз. Для США и Великобритании издательская и научная активность практически одинаковы для рассматриваемой тематики.

Тенденции развития исследований по скорости прироста ретрофонда проиллюстрированы на примерах области знания – математики. На рис. 5 представлена динамика роста ретрофондов публикаций в области математики в БД ВИНИТИ (Россия), БД MATH (Германия).

Рис. 5 Рост ретрофонда математической литературы в специализированных БД MATH и ВИНИТИ

Из графиков видно, что массивы документов в области математики в случае тематически близких классификаторов по величине практически одинаковы, но отличаются по приоритетам отражения национальной литературы. В БД ВИНИТИ около 30% русскоязычной литературы, в то время как в БД MATH – около 2.0%, англоязычной - около 59% в БД ВИНИТИ и 91% - в БД MATH, немецкой – около 0.4% и 1.1% соответственно. Языковое распределение указывает на то, что мировой поток математической литературы не полно отражается в каждой из основных математических БД и поиск необходимо проводить в обоих БД.

Проследим национальные приоритеты отражения литературы по изменениям динамики потоков публикаций ученых на примере одного из направлений развития нанотехнологии - “фуллерены” в БД СА и SCI шести ведущих стран мира США, Японии, России, Китая, Германии и Великобритании. Распределения суммарных потоков публикаций, полученных в БД СА и SCI подобны. Имеющиеся количественные различия данных связаны с различным объемом отражаемых первоисточников ведущих стран. В САPlus более ярко выражен характер изменения потоков публикаций японских авторов (в САPlus отражается в 2 раза больше японских журналов, чем в SCI). Динамические кривые позволяют отметить начало работ по той или иной проблеме, скорость роста активности публикаций в каждой стране и соотношение скоростей развития работ в разных странах. Более ранние работы по фуллеренам были выполнены учеными США и Великобритании - 1985 г. Япония (1986 г.), Россия (1989 г.), Китай (1990 г.) и Германия (1991 г.) включились в изучение рассматриваемой проблемы позднее. Резкий рост потока публикаций наблюдается в трех странах – США, Японии и Китае; в России, также как в Великобритании и Германии, этот процесс шел более плавно. В последние годы отмечается изменение интереса к исследованиям в группе лидеров – ведущей страной становится Япония, далее США и третьей страной оказывается Россия. Библиометрический анализ вклада ученых разных стран в развитие мировой науки по данным Института научной информации США в последнее десятилетие 1993-2002 гг. выявил группу лидеров в области естественных и социальных наук /5/. Первые 10 стран в порядке убывания количества публикаций - это США, Япония, Великобритания, Германия, Франция, Канада, Италия, Китай, Россия, Испания. Однако в одном из приоритетных направлений материаловедения “фуллерены”, как показано выше, эта картина в последние пять лет несколько отличается от мировых показателей. Первое место занимает Япония, далее США, Россия; в десятке лидеров оказываются помимо Германии, Китая, Великобритании, Франции и Италии еще Швейцария и Индия. Таким образом, развитие исследований в отдельных научных направлениях может отличаться от мировых тенденций развития науки в разных странах.

При информационном сопровождении научных исследований важную роль играет информация по объему публикаций в мире по рассматриваемой проблеме, позволяющая оценить долю определенного приоритетного направления в мировом потоке по отношению к основной для этого направления дисциплине. Эти сведения могут быть необходимы для обоснования инвестиций в развитие исследований. В настоящее время имеется возможность получения таких данных в сети STN International при проведении межфайлового поиска в кластере БД, составленном из политематических и специализированных БД в соответствии профилем исследования с последующим исключением дублирующихся документов с помощью команды “DUPLICATE REMOVED”. Полученные результаты являются приближенными (точность не более 10%) из-за ограниченных возможностей этой команды. Например, количество работ по приоритетному направлению “фуллерены” с 1985 г. по 2005 г. насчитывает около 46 тыс., что составляет около 0.3% публикаций от суммарного массива БД CAPlus.

Вклад отдельных направлений исследований в общую картину позволяет составить детальное представление о состоянии работ по всей рассматриваемой области знания или по одному из направлений в ней. Сведения о развитии отдельных ветвей математики или нанотехнологии можно получить по имеющимся данным о наполнении кодов классификаторов политематических и специализированных БД. Например, в области фундаментальной математики одним из приоритетных направлений являются “динамические системы” (БД ВИНИТИ и MATH), прикладной математики – “нейронные сети” (БД ВИНИТИ и INSPEC); в области материаловедения и нанотехнологий – “карбид кремния”, “нанотрубки” и “фуллерены” (по всем политематические БД). Точки роста научных исследований, характеризующихся экспоненциальным ростом публикаций в течение 3-5 лет, могут быть выявлены на основе анализа ключевых слов в отдельных рубриках. В настоящее время по рассматриваемым направлениям удалось выделить следующие точки роста:

  • В области химии – “комбинаторная химия”, “ионные жидкости”, “интеркалированные соединения”.
  • В области материаловедения – “карбид кремния”, высокотемпературные керамокомпозиты, “углеродные нанотрубки”, “фуллерены”.
  • В области искусственного интеллекта – “системы распознавания образов”; “нейронные сети”.

За прошедшее десятилетие в ряде этих точек роста появились свои точки роста. Например, в тематическом направлении “фуллерены” – это проблемы их синтеза; новая разновидность – “peapod” – фуллерены внутри нанотрубки; солнечные элементы, вакцины, биомембраны и фармацевтические препараты на основе материалов, в состав которых входят фуллерены. Развитие тематики “нейронные сети” идет в направлении разработки оптических нейронных сетей, нечетких нейронных сетей, клеточных нейронных сетей, самоорганизующихся моделей.

Заключение

Наукометрический анализ потоков публикаций позволяет проводить мониторинг состояния и перспектив развития как отдельных областей знания, так и узко-тематических направлений в них. Работа с Классификаторами и тезаурусами БД может привести исследователя и разработчика к новым идеям, а, используя данные структурных БД, найти точную и полную информацию о работах по свойствам конкретных веществ, т.е. на современном уровне осуществлять информационное сопровождение научных исследований.

Литература.

  1. Braun Tibor., Schubert Andras P., Kostoff Ronald N. // Chemical Reviews. – 2000. – vol.100. - №1. – P. 23-37
  2. Ефременкова В.М., Захарова Э.Г., Круковская Н.В., Сметанин Ю.Г. // НТИ. Сер.1.- 2003.- №9.- С. 21-30.
  3. Sirovsky F.S., Krukovskaya N.V., Efremenkova V.M. //Proc. 6th World Multiconference on Systemics, Cybernetics and Informatics, July 14-18 2002. - Orlando, Florida, USA, 2002. - т. XVII. – P. 106-110
  4. Ефременкова В.М., Севастьянов В.Г. // НТИ. Cер.1. – 2004.- №9.- С. 16-27
  5. Маршакова-Шайкевич И.В.// НТИ. Cер. 1.- 2005.- № 1.- С. 26-32

Работа выполнена при финансовой поддержке РФФИ (Проект № 03-06-80434)

 

 

!10

Единое информационное пространство как механизм активизации участия
российских организаций в международных научно-технологических программах

Мелконян М.К.
(Институт кристаллографии РАН,
Национальный контактный центр Шестой рамочной программы Евросоюза по третьему тематическому направлению FP6-NMP)

В XXI веке мировое информационно-коммуникационное пространство создает уникальные возможности для обмена опытом и знаниями, развития контактов ученых разных стран. Важнейшей составляющей интеграции России в глобальные мировые процессы является ее научно-технический потенциал. В настоящее время в 83 странах работают ученые бывшего СССР, и они вносят значительный вклад в формирование позитивного образа российской науки во всем мире. В 90-е годы некоторые исследования в рамках вузов и РАН начали финансироваться пришедшими в Россию международными фондами (ИНТАС, МЦНТИ, фонд Сороса и т.д.). В различных международных программах и проектах участвуют около 42% представителей естественных наук в России. В международном сотрудничестве наша страна ориентирована преимущественно на США и страны Западной Европы; связи со странами Восточной Европы выражены слабее [1].

Основой научно-технологического сотрудничества России и Европейского Союза (ЕС) является Соглашение, принятое в 2000г. и возобновленное на римском саммите в октябре 2003г. На московском саммите Россия-ЕС 10 мая 2005г. была утверждена так называемая “дорожная карта” по общему пространству науки и образования. В документе конкретизированы пути реализации этого глобального проекта. В частности, одной из мер формирования общего научного пространства названо налаживание эффективного информационного обмена, стимулирование сетевого объединения и доступа к электронным ресурсам исследовательских библиотек и базам научных данных [2].

Анализ международных научных контактов России с использованием базы данных Института научной информации Science Citation Index Expanded [3], демонстрирует устойчивый рост количества совместных российско-европейских публикаций во всех областях естественных наук в 90-е годы [4]. Аналогичная картина имеет место и для ряда узко тематических направлений в рамках приоритетных научных областей. Например, в области нанотехнологий и нанонауки, можно наблюдать как активные двусторонние контакты российских ученых (Рис.1), так и новые эффективные формы самоорганизации исследователей в международном масштабе: аналог “незримых коллективов” по Налимову [5]. Используя современные средства коммуникации, российские ученые получили уникальную возможность участия в этих коллективах, а последние можно рассматривать как основу консорциумов для транснациональных проектов.

Важнейшим инструментом научно-технологического развития Европы являются Рамочные программы, восходящие к началу 80-х годов и имеющие целью создание конкурентоспособной европейской экономики, основанной на знаниях. C 1994г. Россия оказалась вовлеченной в Европейские рамочные программы:

- 4-ая рамочная программа – FP4, 1994- 1998 гг.;

- 5-ая Рамочная программа - FP5, 1998-2002 гг.;

- 6-ая Рамочная программа - FP6 , 2002- 2006 гг.

В FP4 - 285, а в FP5 - 218 успешных проектов с участием российских организаций получили финансирование от Европейской Комиссии [6]. В этих программах не предполагалось прямое финансирование российских партнеров, за исключением случаев, когда их вклад представлял особую ценность для выполнения поставленных рамочным проектом задач.

 

 

Рис. 1 Количество совместных публикаций по фуллеренам ученых из России и ряда европейских стран, США и Японии в 90-е г. согласно базе данных Science Citation Index Expanded

Впервые в Шестой рамочной программе Еврокомиссией создан специальный фонд для финансирования участия российских организаций практически во всех разделах FP6.

В частности, Россия получила доступ к тематическим направлениям этой программы, отражающим глобальные тенденции мирового научно-технологического развития общества: биотехнологии, технологии информационного общества и нанотехнологии. Предполагается поддержка не только научных, но и инфраструктурных проектов, обеспечивающих информационную основу для более активной интеграции российских организаций в Европейское Научное Пространство [7].

Итоги уже закрытых конкурсов Шестой рамочной программы оказались не удовлетворительными для российских организаций: в частности, по третьему тематическому направлению “Нанотехнологии и нанонауки” - всего два десятка успешных проектов с российским участием. Это означает, что не использованы альтернативные источники финансирования научных идей отечественных ученых, новые возможности для плодотворного взаимовыгодного сотрудничества с европейскими партнерами.

В качестве важнейшей причины слабого участия России Россииможно назвать недостаточную информированность научного сообщества страны о различных инициативах Евросоюза в области научно-технологического развития. В создании информационного пространства для европейских программ важная роль принадлежит Национальным контактным точкам России по основным тематическим направлениям FP6. Так, по третьему тематическому приоритету “Нанотехнологии и нанонауки”, Национальный контактный центр создан на базе Института кристаллографии РАН в 2003г. [8].

В налаживании эффективного информационного обмена по европейским программам могла бы быть неоценимой роль БЕН РАН, сетевых библиотек и информационных отделов академических институтов, проводящих исследования в соответствующих тематических областях. Важным вкладом в продвижение институтов РАН в европейские проекты является создание базы данных по российским исследованиям в приоритетных тематических областях; выставление информации о конкурсах, мероприятиях, связанных с европейскими программами на сайтах библиотек и т.д.

В конце 2006 г. будет запущена Седьмая рамочная программа (FP7, 2007-2013 гг.). Очень важно обеспечить необходимую информационную поддержку европейских программ и стимулировать участие в них российских организаций уже сегодня.

ЛИТЕРАТУРА

  1. Юркевич А. “Пассивная интеграция”.// Независимая газета.- 2005. -12 января
  2. http://www.ln.mid.ru/brp_4.nsf/sps/845422B0A48CC826C325700A00360421http://www.isinet.com
  3. Melkonyan M. Nanotechnologies and international collaboration prospects (European Framework Programmes). // Constructions from composite materials. - 2004. - №4. - P. 109-114
  4. Налимов В.В. и др. - Наукометрия. - М., 1969. - 192 стр.
  5. http://www.cordis.lu/fp5/, http://www.cordis.lu/guidance/fp4.htm
  6. http://www.cordis.lu/fp6/inco.htm
  7. http://www.fp6-nano.com
!11

Полнота и качество информационных ресурсов БЕН РАН
с точки зрения пользователей

Власова С.А., Глушановский А.В., Каленов Н.Е.
(Библиотека по естественным наукам РАН)

Библиотека по естественным наукам (БЕН) РАН вместе с библиотеками, входящими в ее централизованную систему, обеспечивает информационно-библиотечное обслуживание сотрудников более 150-ти академических институтов. В процессе своей деятельности БЕН всегда обращала серьезное внимание на формирование “обратной связи” с пользователями как основы оптимальной организации своей работы. Наряду с широкомасштабными исследованиями информационных потребностей ученых Академии наук, проводимыми в 1980-х годах [1,2], БЕН периодически проводит интерактивные опросы и совещания с пользователями с целью оптимизации комплектования библиотек и корректировки своей деятельности.

В последние годы существенно изменилась структура информационного рынка – подавляющее большинство серьезных зарубежных научных издательств стало предлагать, наряду с журналами в печатной форме, их электронные версии, доступные через Интернет. Это ставит перед академическими библиотеками проблемы не только выбора номенклатуры приобретаемых изданий, но и формы, в которой эти журналы будут доступны пользователям. Очевидно, что при наличии достаточного финансирования оптимальным решением этой проблемы является приобретение прав доступа ученых к интересующим их журналам непосредственно с их рабочих мест с одновременным приобретение одной твердой (печатной или электронной - на компьютерном диске) копии каждого журнала для хранения и обслуживания в библиотеке. Однако финансирования, выделяемого на закупку информации БЕН РАН, не хватает не только на реализацию такого подхода, но даже для приобретения одного печатного экземпляра всех журналов, необходимых ученым РАН, или приобретения прав доступа к ним хотя бы из одной организации. В этой связи необходимо определить, на какие журналы, в какой форме и в каком количестве (речь идет о числе точек доступа к электронным версиям журналов) необходимо подписываться. При этом необходимо учитывать деятельность РФФИ, связанную с предоставлением грантодержателям (а подавляющее большинство академических институтов имеют гранты РРФИ) доступа к зарубежным журналам, чтобы исключить дублирование приобретаемых ресурсов.

Работа БЕН РАН в этом направлении усложняется и тем, что общее финансирование выделяется ей на приобретение всех видов информации - отечественных журналов, отечественных книг, зарубежных журналов, зарубежных книг и баз данных. При этом исторически сложилось, что из выделенных БЕН РАН средств централизованная подписка на отечественные журналы осуществляется для 71-й библиотеки НИИ и НЦ РАН, приобретение отечественных книг – для 94-х библиотек, приобретение зарубежной информации – в интересах всех институтов, обслуживаемых ЦБС БЕН РАН.

Учитывая сложность стоящих перед ней задач, БЕН РАН в 2004 году сочла целесообразным провести опрос сотрудников РАН – пользователей ЦБС БЕН РАН по основным вопросам их обслуживания в рамках ЦБС и обсудить проблемы информационного обеспечения науки с представителями академических институтов в рамках ряда “круглых столов”.

В течение июля-ноября 2004-го года на сайте БЕН РАН (http://benran.ru) была размещена анкета, на вопросы которой Библиотека просила ответить пользователей – сотрудников институтов РАН. За это время было получено 200 ответов от сотрудников 68 организаций не Москвы, подмосковных научных центров (Пущино, Черноголовка, Троицк) и удаленных центров и институтов РАН (Казанский и Кольский научные центры, Геофизическая обсерватория и Институт биологии внутренних вод – пос. Борок Ярославской области).

Вопросы анкеты и статистика ответов на них приведены в табл. 1.

Таблица 1.

Результаты интерактивного опроса пользователей БЕН РАН.

Вопрос

Варианты ответа

Отве-тило

%

Как часто Вы пользуетесь библиотекой Вашего института?

еженедельно

131

65,5

 

ежемесячно

45

22,5

 

ежеквартально

9

4,5

 

реже

9

4,5

Как часто Вы работаете в БЕН РАН?

еженедельно

18

9

 

ежемесячно

22

11

 

ежеквартально

28

14

 

реже

112

56

Если Вы пользуетесь фондами БЕН РАН, то удовлетворяет

да

131

65,5

ли Вас их полнота по отечественным изданиям?

нет

38

19

Если Вы пользуетесь фондами БЕН РАН, то удовлетворяет

да

41

20,5

ли Вас их полнота по зарубежным изданиям?

нет

134

67

Удовлетворяет ли Вас полнота комплектования фондов библиотеки Вашего института отечественными книгами по

удовлетворяет

98

49

тематике Ваших исследований?

не удовлетворяет

96

48

Удовлетворяет ли Вас качество комплектования фондов

удовлетворяет

107

53,5

библиотеки Вашего института отечественными книгами?

не удовлетворяет

81

40,5

Удовлетворяет ли Вас полнота комплектования фондов библиотеки Вашего института отечественными научными

удовлетворяет

131

65,5

журналами?

не удовлетворяет

62

31

Не считаете ли Вы целесообразным перенести часть средств, затрачиваемых на отечественные журналы для библиотеки

считаю целесообразным

29

14,5

Вашего института, на приобретение отечественных книг?

не считаю целесообразным

154

77

Считаете ли Вы необходимым в условиях недостаточного финансирования приобретение для библиотек РАН зарубежных научных журналов в печатном виде или достаточно приобретать доступ к их электронным версиям?

необходимо приобретать и хранить печатные версии

78

39

 

печатные версии можно не приобретать

117

58,5

 

необходимо приобретать только печатные версии

1

0,5

В настоящее время все средства, выделяемые РАН на приобретение зарубежной информации, используются на подписку на научные журналы (в печатном и электронном видах). Считаете ли Вы целесообразным в условиях

Да

77

38,5

недостаточного финансирования использовать часть этих средств на закупку научных книг?

нет

108

54

Как часто Вы пользуетесь ресурсами, представленными на Интернет-сайте БЕН РАН?

Еженедельно и чаще

48

24

 

ежемесячно

52

26

 

ежеквартально

26

13

 

реже

63

31,5

Примечание: В ряде случаев сумма ответов не равна 100%, что связано с тем, что не все опрошенные ответили на каждый вопрос

Из представленной таблицы следует вывод, что распространенная точка зрения, связанная со снижением роли библиотек в информационном обеспечении науки – несостоятельна. 88% ответивших не менее раза в месяц пользуются библиотекой своего института, а 20% пользуются также не реже раза в месяц ЦБ БЕН РАН.

Из таблицы следует также, что ситуация с комплектованием ЦБС БЕН РАН отечественной литературой выглядит относительно благополучно. Около 2/3 опрошенных удовлетворены комплектованием фондов ЦБ отечественной литературой, а также комплектованием библиотеки своего НИИ отечественными научными журналами. В то же время положение с отечественными книгами выглядит несколько хуже. Около половины опрошенных не удовлетворены полнотой и качеством комплектования отечественными книгами библиотеки своего НИИ. Отчасти, это может быть связано с нехваткой финансирования, так как в первую очередь приобретаются журналы как более важный информационный ресурс. Тем не менее, по мнению подавляющего большинства опрошенных (77%) не следует увеличивать ассигнования на приобретение научных книг за счет уменьшения приобретения научных журналов. Таким образом, политика первоочередного приобретения отечественных научных журналов выглядит правильной.

В то же время, в ходе “круглых столов” было высказано мнение о запаздывании отечественной информации и выражалось единодушное пожелание предоставить академическим НИИ электронные версии отечественных научных журналов в опережающем режиме.

Что касается обеспеченности ЦБС БЕН РАН зарубежной литературой, вполне ожидаемой выглядит неудовлетворенность значительного большинства опрошенных (67%) по этой позиции. Для снижения дефицита зарубежной информации БЕН РАН, как и многие библиотеки страны и мира, использует доступ к электронным версиям зарубежных журналов в рамках разного рода библиотечных консорциумов. В ходе опроса выяснялось отношение пользователей к электронным версиям. При этом абсолютное большинство опрошенных (кроме одного) высказалось за приобретение электронных версий. Более того, 58,5% рекомендуют приобретать только электронные версии журналов. Однако здесь следует ввести поправку на тот факт, что опрос проводился в сети Интернет, т.е. среди специалистов, привыкших работать с электронной информацией. Кроме того, следует учитывать наличие проблемы обеспечения “твердой копии” в случае прерывания договора о доступе к электронной версии. В связи с этим, видимо, целесообразно по возможности стремиться к приобретению как печатной, так и электронной версии журнала там, где это возможно, или же к приобретению, наряду с электронным доступом, копии на CD или другом носителе, остающейся в системе библиотек России.

Следует отметить также, что в ходе “круглых столов” большинство выступавших настаивало на приобретении доступа к электронным версиям журналов непосредственно из НИИ РАН.

Как и для отечественной литературы, большинство (однако, менее значительное) - 54% против 38,5% - высказалось за нецелесообразность перевода части средств с приобретения зарубежных журналов на приобретение зарубежных книг.

И, наконец, последний вопрос касался полезности сайта БЕН РАН. Очевидно, что сайт является для пользователей достаточно полезным, так как 50% пользователей используют его не реже раза в месяц.

Кроме общей статистики опроса была рассмотрена статистика по институтам различных отделений РАН. При этом были замечены определенные отклонения от средних значений.

Так в библиотеке своего НИИ работают ежемесячно от 80% (отделения математики и информационных технологий и вычислительных систем) до 95% (отделение химии и наук о материалах) опрошенных. Что касается посещения ЦБ, то чаще ее посещают биологи (31%) и математики и специалисты в области информационных технологий и вычислительных систем (24%), а реже, чем в среднем, - физики (16%), специалисты в области наук о Земле (15%) и, особенно, химики (всего 7%), которых, видимо, в большей степени удовлетворяет библиотека своего НИИ.

Разброс степени удовлетворенности фондами ЦБ по отечественной литературе составляет от 84% (физики) до 56% (математики и специалисты в области информационных технологий и вычислительной техники). Что касается удовлетворенности фондами ЦБ по зарубежной литературе, то выше всего она у физиков (31%), а ниже всего – у биологов (всего 9%). Таким образом, в наибольшей степени фондами ЦБ удовлетворены физики, в наименьшей - математики и специалисты в области информационных технологий и вычислительной техники и биологи.

Разброс ответов на вопрос о степени удовлетворенности полнотой комплектования библиотеки своего НИИ отечественными книгами составляет от 69% у биологов до 33% - у химиков. По научным журналам в библиотеке своего НИИ степень удовлетворенности колеблется от 84% (у физиков) до 54% (у химиков). Из анализа следует, что в большей степени удовлетворены комплектованием библиотеки своего НИИ специалисты в области биологических наук и (по журналам) физических наук. Наименьшую степень удовлетворенности по этим вопросам высказали специалисты в области химии и наук о материалах, несмотря на то, что они, как указывалось выше, в большей степени склонны работать в библиотеке своего НИИ, чем в ЦБ.

Абсолютно по всем отделениям большинство опрошенных высказалось против переноса части средств с приобретения отечественных журналов на приобретение отечественных книг. Что касается аналогичного вопроса о переносе части средств с приобретения зарубежных журналов на приобретение зарубежных книг, то здесь, хотя большинство и высказалось против этого, однако перевес этот существенно меньше (иногда, в частности, по отделению физических наук, практически близко к значению 50% на 50%), а для отделения математических наук и отделения информационных технологий и вычислительных систем относительное большинство (48% против 36%) высказалось за такой перенос. В то же время по отделению биологических наук против такого переноса высказалось 74% опрошенных.

Хотя никто (кроме 1 ответившего) не высказался за приобретение только бумажных версий научных журналов, мнения по поводу приобретения, наряду с электронными, и печатных версий, разделились. 79% специалистов в области химических наук и наук о материалах и 75% специалистов в области физических наук считают нецелесообразным приобретение печатных версий, тогда как 60% специалистов в области биологии, 53% - в области наук о Земле и 52% - в области математических наук, информационных технологий и вычислительных систем выступают за параллельное приобретение печатных версий. Таким образом, следует предположить, что значительная часть научного сообщества не готова к полному отказу от печатных версий научных журналов.

На тему, связанную с проблемами информационно-библиотечного обеспечения сотрудников Академии наук, в БЕН РАН была проведена серия “круглых столов” с представителями институтов РАН. Обсуждались вопросы полноты и качества комплектования библиотек, использования научной информации как в традиционной, так и в электронной форме, пути повышения эффективности деятельности академических библиотек.

Всего было проведено пять “круглых столов” - 3 по отделениям: химии и наук о материалах, биологических наук, физических наук и 2 объединенных, один – с участием представителей институтов отделения наук о Земле и отделения энергетики и машиностроения, механики и процессов управления, второй – с участием представителей отделения математических наук и отделения информационных технологий и вычислительных систем. На каждом “круглом столе” присутствовали представители администрации и сотрудники от 10 до 15 НИИ соответствующих отделений, сотрудники библиотек РАН в этих НИИ, руководство и ведущие сотрудники БЕН РАН. В заседаниях “круглых столов” участвовали как представители московских НИИ РАН, так и представители подмосковных научных центров (Пущино, Черноголовка), а также представители региональных научных центров и иногородних институтов.

В ходе “круглых столов” руководство БЕН РАН подробно информировало представителей институтов РАН о состоянии информационно-библиотечного обеспечения РАН, перспективах его развития и основных проблемах: недостаточное финансирование (а также несвоевременное финансирование подписной кампании), слабое техническое и кадровое обеспечение библиотек НИИ РАН и пр.

В ходе обсуждения все, без исключения, представители НИИ РАН констатировали недостаточный уровень информационной поддержки науки. На всех заседаниях ставился вопрос об обеспечении доступа к электронным версиям периодических изданий непосредственно из НИИ РАН. В связи с этим обсуждался вопрос о замене “Научной электронной библиотеки” системой непосредственного доступа к журналам иностранных издательств из институтов-грантодержателей РФФИ. При этом, как в выступлениях, так и в решениях “круглых столов” отмечалась определенная нечеткость организации процесса предоставления доступа, высказывалось предложение поручить функции организации-оператора БЕН РАН (как известно, РФФИ принял другое решение, в результате которого эти функции переданы Академинторгу).

В решении “круглого стола” отделения биологических наук отмечалась недостаточная пропускная способность каналов связи в крупнейшем биологическом научном центре в г. Пущино, что существенно затрудняет ознакомление ученых с современной научной информацией.

Во многих выступлениях отмечалось явно недопустимое положение с сетевым доступом к отечественным научным журналам. Для сотрудников РАН недоступно в электронном виде подавляющее большинство отечественных журналов, в том числе издаваемых РАН. Создается парадоксальная ситуация – пользователи могут читать через Интернет англоязычные версии академических журналов, представленные зарубежными издательствами, и не имеют возможности знакомиться с их русскими аналогами. Это существенно снижает оперативность, эффективность и комфортность информационного обеспечения нашей науки. Во всех решениях имеется пункт с просьбой к руководству РАН решить вопрос с Академиздатцентром “Наука” и редакциями академических журналов о правовой базе предоставления электронных версий академических журналов ученым РАН и организовать эту работу в практическом плане.

Как в выступлениях, так и в решениях “круглых столов” отмечалась необходимость координации комплектования библиотек НИИ РАН по каналам централизованного (через БЕН РАН) и децентрализованного (на средства НИИ РАН) приобретения литературы с обязательным отражением всей самостоятельно приобретенной институтами литературы в сводных каталогах ЦБС БЕН РАН,

На всех “круглых столах” обсуждалось положение библиотек НИИ РАН, входящих в сеть БЕН РАН. Как в докладах руководства БЕН РАН, так и в выступлениях участников отмечалось, что библиотеки в своей деятельности нуждаются в поддержке со стороны руководства НИИ РАН, в которых они расположены. Это касается технического оснащения библиотек, постоянного технического и программного сопровождения установленных в библиотеках компьютеров и программных продуктов, финансовой поддержки сотрудников этих библиотек. Со своей стороны библиотеки должны внедрять в свою деятельность современные технические и программные средства, организовывать доступ своих читателей к электронным версиям научных журналов, базам данных и другим источникам электронной информации. Библиотеки должны вести поиск научной информации, представленной в Интернет, в интересах подразделений “своего” НИИ. Библиотеки должны также создавать базы данных трудов сотрудников (такая работа уже ведется рядом библиотек НИИ РАН, а созданные БД выставлены на сайте БЕН РАН).

В ходе обсуждений рассматривалась также роль библиотек НИИ РАН в создании и поддержании в актуальном состоянии Единой информационной системы (ЕИС) РАН. По мнению участников “круглых столов” библиотеки могли бы взять на себя ввод в ЕИС и актуализацию информации о структуре, сотрудниках и публикациях “своего” НИИ. В решениях “круглых столов” принят пункт о соответствующем обращении к Президиуму РАН.

Решения “круглых столов” по каждому отделению были разосланы академикам-секретарям отделений, а также послужили материалом для корректировки деятельности ЦБС БЕН РАН.

Таким образом, в ходе проведенных мероприятий (Интернет-опрос и “круглые столы”) были получены определенные ориентиры для дальнейшего развития системы информационно-библиотечного обслуживания сотрудников Академии наук в рамках ЦБС БЕН РАН.

 

!12

Автоматизированная система МБА БЕН РАН нового поколения

Власова С.А., Каленов Н.Е., Колерова Т.С.
(Библиотека по естественным наукам РАН)

Обслуживание библиотек страны по межбиблиотечному абонементу (МБА) является одной из основных функций Библиотеки по естественным наукам (БЕН) РАН. Поэтому автоматизированная система диспетчеризации заказов по МБА была включена в состав первой очереди АС БЕН, принятой в промышленную эксплуатацию в 1980 году и функционирующей на ЕС ЭВМ. Автоматизированная система успешно функционировала на всех направлениях работы МБА: обслуживание внутрисистемных абонентов (библиотеки институтов РАН московского региона), обслуживание иногородних академических институтов, обслуживание неакадемических организаций Москвы, обслуживание неакадемических организаций других городов России. Особенности работы МБА БЕН РАН состоят в том, что основой для обслуживания внутрисистемных абонентов являются не только фонды собственно БЕН РАН (центральной библиотеки) и библиотек ее централизованной системы (ЦБС), но и фонды центральных библиотек Москвы, ГПНТБ СО РАН и БАН. Это ставит перед автоматизированной системой МБА дополнительные задачи.

В связи с заменой ЕС ЭВМ персональными компьютерами в конце 80-х годов была разработана и внедрена в практику работы БЕН версия системы МБА для ПК под управлением операционной системы MS-DOS [1]. В конце 90-х годов абоненты БЕН РАН получили возможность передавать свои заказы по МБА через Интернет, благодаря специально разработанной системе [2].

Функционирующая много лет система в последние годы перестала отвечать современным требованиям, в связи с чем при поддержке РФФИ (грант 03-07-90055) была разработана новая автоматизированная система МБА БЕН РАН. Система реализована под Microsoft SQL-server 7.0 (установленным в операционной системе WINDOWS 2000 NT) с использованием стандартных средств сервера, IDC и CGI технологий. Работа пользователей с системой происходит с помощью стандартных Интернет-браузеров, таких как Internet Explorer и Netscape Navigator.

Основные функции системы:

    • ввод, корректировка, поиск сведений об абоненте;
    • ввод, корректировка данных договора с абонентом;
    • регистрация денежных поступлений от абонента;
    • регистрация почтовых расходов для абонента;
    • диспетчеризация заказов по МБА, полученных по почте и через Интернет;
    • распечатка бланков-заказов по МБА для отдела фондов;
    • ведение финансовых расчетов с абонентами;
    • контроль необработанных, невыполненных, невозвращенных в срок заказов;
    • получение всевозможных статистических данных по зарегистрированным в системе заказам.

Информация об абонентах содержит следующие данные: код абонента, название организации, вид взаимоотношения по МБА, фамилия ответственного лица, почтовый и электронные адреса, логин и пароль для входа в Интернет-систему заказа, сумма на счету абонента.

Отдел МБА БЕН РАН заключает комплексный договор со своими абонентами на различные виды библиотечных услуг, включая и электронную доставку документов. В систему вводится необходимая информация о договоре: номер, дата договора, банковские реквизиты, а также сумма кредита (если данному абоненту он предоставляется).

В системе регистрируются денежные поступления от абонента: сумма поступления и дата поступления. Ведется учет почтовых расходов для каждого абонента. При корректировке денежных поступлений или почтовых расходов сумма на счету абонента автоматически изменяется.

Для формирования и передачи заказов по МБА в БЕН РАН через Интернет разработан специальный пользовательский блок, использующий в своей работе электронные каталоги журналов и книг. Каталог журналов отражает более 600 тысяч выпусков более 7 тысяч наименований отечественных и зарубежных журналов, поступивших с 1990 года в фонды Централизованной библиотечной системы (ЦБС) БЕН РАН. Электронный каталог книг содержит более 86 тысяч библиографических описаний отечественных и зарубежных книг и продолжающихся изданий (монографий, сборников, трудов конференций и т.п.), поступающих в ЦБС БЕН РАН с 1993-го года.

Вход в систему формирования заказов обеспечивается переходом по ссылке “Заказ литературы по МБА” с Home Page БЕН РАН (http://www.benran.ru) и заданием логина и пароля абонента. Логин и пароль присваиваются организации-абоненту администратором системы после подписания договора на предоставлении услуг по МБА. Перед тем, как предоставить пользователю возможность формировать новый заказ, система проверяет наличие в системе договора для данного абонента, а также, не является ли данный абонент должником по возврату изданий и достаточно ли на его счету денег, чтобы осуществить заказ.

Чтобы исключить возможность выполнения заказа при недостаточной сумме на счету абонента, в системе введено понятие “виртуальная стоимость заказа”. Это - настраиваемый администратором параметр, соответствующий минимальной сумме на счету абонента, при которой может быть принят заказ. Система “разрешит” формирование нового заказа только, если виртуальная сумма (сумма на счету плюс сумма кредита) у данного абонента будет не меньше виртуальной стоимости заказа. В противном случае вход в систему для абонента будет закрыт до тех пор, пока не будет зарегистрировано новое денежное поступление.

Для формирования заказов система предоставляет три режима работы: заказ из каталога журналов, заказ из каталога книг и заказ без использования каталогов.

Режим заказа без использования каталогов необходим в том случае, когда требуемое издание не содержится в каталогах БЕН РАН. В данном режиме абонент вводит информацию о заказе в окна специальной HTML-страницы. Система предлагает ввести следующие данные о заказе: номер заказа, элементы библиографического описания заказываемого издания, необходимый носитель информации, фамилию читателя.

По правилам работы МБА каждый заказ должен иметь свой номер. Номер может присваиваться абонентом (если он ведет свою систему номеров) или системой (автоматически). При этом система не позволяет вводить заказы с одинаковыми номерами одним абонентом.

Процедура формирования заказа из каталога журналов состоит из последовательного перехода от странице к странице по выбранным гиперссылкам: выбор буквы, с которой начинается название журнала; выбор наименования из списка журналов на данную букву; выбор нужного выпуска. Библиографическое описание выбранного издания (название, год, том, номер), а также шифр хранения вводятся в формирующийся заказ автоматически. Абонент вводит дополнительно уточняющую заказ информацию (например, страницы нужной статьи, ее название или автора).

Режим “Заказ из каталога книг” позволяет заказывать материалы, найденные в каталоге по достаточно сложным запросам (по словам из библиографического описания изданий, названию, автору, году издания, индексам УДК, ISBN и ISSN, соединенным логическими связками “И”, “ИЛИ”, “НЕ”). Результатом выполнения запросов является список записей, представляющих собой стандартное библиографическое описание издания. Рядом с каждой найденной записью появляется гиперссылка “ЗАКАЗ”, переход по которой осуществит формирование заказа для данного издания, аналогично работе с каталогом журналов.

Заказы, сформированные через Интернет, автоматически регистрируются в системе. При помощи специальной сервисной программы оператор системы периодически распечатывает вновь поступившие через Интернет заказы и передает их для обработки в отдел МБА. Заказы распечатываются в трех экземплярах на листах формата А4.

В настоящее время еще не все абоненты БЕН РАН имеют доступ в Интернет, поэтому часть заказов продолжает поступать в Библиотеку по почте на бланках-заказах. В системе предусмотрена возможность ввода заказов с таких бланков. В этом случае перед вводом очередного заказа система также проверяет наличие необходимой суммы на счету абонента. Для формирования нового заказа система предлагает заполнить поля: номер заказа, носитель информации, элементы библиографического описания (факультативное поле), шифр хранения (если он указан абонентом на бланке заказа). При вводе данных о заказе система также позволяет указать, является ли заказ срочным.

В том случае, когда заказ поступает в систему без шифра хранения, предусмотрен режим шифровки. В этом режиме сотрудник отдела МБА (оператор) вводит шифр хранения БЕН РАН (если издание находится в центральной библиотеке), а также сиглы библиотек, имеющих данное издание. Здесь же отмечается библиотека, в которую передается заказ на выполнение.

Режим перенаправления заказа используется в системе в том случае, если заказанное издание не может быть выдано из фондов той библиотеки, в которую заказ отправлен на выполнение.

При регистрации выполнения заказа система предлагает выбрать место выдачи издания (БЕН, библиотеки ЦБС БЕН, центральные библиотеки Москвы и России), вид выполнения (оригинал, ксерокопия, электронная копия, микрофиша), а также ввести количество страниц копий (если выполнена электронная или ксеро-копия). Система автоматически рассчитывает стоимость выполненного заказа, учитывая следующие операции, выполненные с заказом: регистрация поступления через Интернет, срочность, шифровка, место выдачи издания, вид выдачи, количество страниц копий. Сумма на счету абонента уменьшается на величину стоимости заказа. Стоимость операций, которые производятся над заказом, зависят от того, к какому участку МБА БЕН РАН относится абонент. Так, например, для абонентов внутрисистемного МБА платным является только выполнение ксеро- и электронных копий.

Выданные абонентам оригиналы изданий подлежат возврату. Для этой цели предусмотрен режим возврата. Оператор вызывает соответствующий заказ по его номеру и коду абонента и регистрирует возврат.

Если заказ по какой-либо причине не выполнен, в системе необходимо зарегистрировать отказ. Оператор вызывает соответствующий заказ по его номеру и коду абонента и выбирает из списка необходимый вид отказа (оригинал не найден, экземпляр читального зала, временно не доступен, отправлен на уточнение). После регистрации отказа система автоматически формирует сообщение об отказе абоненту для отправки по электронной почте.

Для абонентов, которые не относятся к участку внутрисистемного МБА, в случае отсутствия издания в фондах ЦБС БЕН РАН, заказ направляется “по координации” в библиотеку, предположительно имеющую данное издание. После передачи заказа служба МБА БЕН с ним больше не работает. Этот режим предусмотрен в системе, в нем также формируется необходимое сообщение абоненту, которое направляется ему по электронной почте. В случае отсутствия у абонента электронной почты, в системе предусмотрена возможность распечатки информации об отправки заказа по координации для ее пересылки по обычной почте.

Система предоставляет сотрудникам Библиотеки широкий спектр поисково-справочных процедур. Поиск заказов возможен по следующим полям: коду абонента, номеру заказа, виду выполнения, виду отказа, месту выдачи, фамилии читателя, датам выполнения различных операций над заказом. По заданным характеристикам система находит соответствующие заказы, сообщает, сколько заказов найдено, их суммарную стоимость, общее количество страниц выполненных копий того или иного вида. Система выдает исчерпывающую информацию о найденных заказах: библиографическое описание заказанного издания, какие операции и когда были совершены над заказом, куда отправлен заказ на выполнение, откуда выдано издание, вид выполнения или отказа, стоимость заказа и т.д.

Для проведения финансовых расчетов с абонентами в систему включена специальная процедура, которая определяет стоимость заказов для каждого абонента, выполненных в течение заданного срока. После задания оператором интервала дат и выбора из списка видов взаимоотношений по МБА нужной группы абонентов, на экран выдается таблица, отражающая для каждого абонента выбранного участка, операции над его заказами и стоимость всех заказов за указанный период.

Отдел МБА БЕН РАН регулярно проводит анализ своей работы. Система обеспечивает выдачу необходимой статистической информации за указанный пользователем срок по каждому участку работы: сколько всего заказов получено, сколько заказов выполнено, сколько было отказов, сколько заказов отправлено “по координации”.

Дополнительно можно получить развернутую информацию о выполненных заказах (по видам выполнения, месту выдачи, срокам обработки), а также по отказам и их видам.

Сервисные процедуры системы позволяют контролировать сроки выполнения заказов и своевременный возврат изданий. Для каждого абонента система формирует список задолженностей по возврату изданий (заказы, которые не были возвращены в установленный срок). Данный список можно распечатать и переслать абоненту. При наличии у абонента достаточно большого количества невозвращенных в срок изданий, система позволяет блокировать поступление от него новых заказов.

Отличительной особенностью системы является то, что абоненты могут получить через Интернет полную информацию обо всех своих заказах. Для этого в пользовательском блоке системы имеется опция “Просмотр заказов”. При выдаче сведений о заказах они объединяются в следующие группы: заказы, принятые к выполнению; выполненные заказы (оригиналы изданий); выполненные заказы (копии); отказы; заказы, перенаправленные в другие библиотеки.

Внедрение в практику работы МБА новой версии автоматизированной системы, заменяющей предыдущую, сопряжено с рядом значительных проблем. Не касаясь проблем, связанных с обучением персонала, администрированием системы и т.п., обратим внимание только на две проблемы. Первая связана с тем, что замена должна быть осуществлена без остановки технологии. Вторая – с тем, что к моменту перехода на новую систему в нее должна быть введена вся информация, касающаяся абонентов, по состоянию именно на этот момент. Поскольку поток заказов по МБА в БЕН РАН достаточно интенсивен (более сотни в день), переходить на новую систему было решено поэтапно (по группам обслуживаемых абонентов), начиная с участка внутрисистемных абонентов. Переход был осуществлен 1 декабря 2004 года. Предварительно была проделана работа по внесению всех требуемых данных: информации об абонентах, договорах и денежных средствах, которые были на счетах абонентов. С этого момента все новые заказы внутрисистемных абонентов поступали в новую систему, заказы на других участках и информация о выполнении внутрисистемных заказов, поступивших до 1 декабря 2004 года, обрабатывалась старой системой.

В процессе эксплуатации системы на внутрисистемном участке был осуществлен ряд доработок, необходимость которых выявилась при реальной работе, в целом система оказалась достаточно удобной и эффективной как для пользователей, так и для сотрудников отдела МБА и администрации Библиотеки.

По состоянию на середину июня 2005 года система успешно эксплуатируется на трех участках работы МБА: обслуживании внутрисистемных абонентов, неакадемических абонентов г. Москвы и неакадемических иногородних абонентов. В ближайшее время вся служба МБА БЕН РАН будет переведена на современную автоматизированную технологию.

Литература

1. Власова С.А. Автоматизация процессов обслуживания читателей по МБА в системе БЕН АН СССР // Тез. сообщений конференции молодых специалистов Государственной библиотеки СССР им. В.И. Ленина (22 апреля 1991г.). - М., 1991. - С. 31-33.

2. Власова С.А., Каленов Н.Е. Современные технологии в службе МБА БЕН РАН // Новые технологии в информационном обеспечении науки. - М., Биоинформсервис, 2001. С. 91-97.

!13

Интернет-каталог журналов ЦБС БЕН РАН: новые возможности.

Каллистратова О.Д., Соловьева Т.Н.
(Библиотека по естественным наукам РАН)

С 1997-го года БЕН РАН предоставляет пользователям Интернет каталог журналов, который содержит актуальную информацию о журнальном фонде централизованной библиотечной системы (ЦБС) Библиотеки. В каталоге отражены поступления всех журналов, начиная с 1990-го года, а также ссылки со страниц журналов на сайты издательств [1].

В последние годы, благодаря участию в ряде библиотечных консорциумов, БЕН РАН имеет право доступа к значительному количеству полнотекстовых электронных версий журналов, размещенных на специальных сайтах.

На сегодняшний день полнотекстовые версии журналов доступны для пользователей БЕН РАН через сайты издательств и научных обществ (“Springer”, “Kluwer”, Institute of Physics, World Scientific и Royal Society of Chemisrty), через “Научную электронную библиотеку” (НЭБ) и через систему “Electronic Journals Service” (EJS) подписного агентства EBSCO.

Стремясь повысить уровень информационного сервиса для своих пользователей, БЕН РАН поставила своей задачей обеспечение возможности выхода на электронные версии журналов непосредственно со страниц своего Интернет-каталога.

Интернет-адреса (URL) страниц журналов как на сайтах издательств, так и в НЭБ, и в EJS формируются по одному принципу - на основании уникальных идентификаторов для каждого журнала. Это позволяет организовать единый информационный массив, который удобно корректировать и использовать для обновления системы отсылок (линков) со страниц каталога журналов БЕН РАН к страницам их электронных версий на сайтах издательств, НЭБ и EJS.

Этот массив представляет собой таблицу Excel, которая содержит следующие данные о журнале:

  • шифр хранения БЕН,
  • признак ссылки (идентификатор сайта),
  • идентификатор журнала на сайте,
  • тематика,
  • ISSN,
  • название журнала.

Условно, журналы, находящиеся в таблице можно разделить на три группы. К первой группе относятся наименования журналов, имеющихся в фонде БЕН РАН в печатном виде, доступ к электронным версиям которых открыт пользователям БЕН РАН. При отражении этих журналов в Интернет-каталоге на странице описания журнала имеется не только перечень томов и номеров по годам издания, находящихся в фонде ЦБС БЕН РАН, но и даны линки на сайты, поддерживающие электронные версии этих журналов.

Ко второй группе относятся наименования журналов, которых нет в фонде БЕН РАН в печатном виде, но к электронным версиям которых открыт доступ пользователям. Такого рода журналы также отражаются в электронном каталоге БЕН РАН, но на странице описания журнала имеется предупреждение пользователю, что журнал доступен только в электронном виде. Поскольку БЕН РАН эти журналы не выписывает, они не отражаются в технологической базе данных поступлений литературы (которая является основным информационным источником сводного каталога), и их описания формируются во время создания электронного каталога. Таким образом, при изменении условий подписки на доступ к электронным версиям журналов достаточно легко корректируется соответствующая информация в Интернет-каталоге.

К третьей группе относятся журналы, которые есть в БЕН РАН и представлены на сайтах издательств, но пользователям БЕН РАН нет доступа к их полнотекстовым электронным версиям. При этом многие издательства предоставляют в свободный доступ оглавления журналов и (реже) аннотации статей из них. На HTML-страницах, относящихся к этой группе журналов, в каталоге БЕН РАН к описанию журнала и сведениям о его поступлениях в ЦБС БЕН РАН добавляются линки на соответствующие сайты, чтобы пользователи имели возможность просмотреть оглавления и аннотации статей.

Таким образом, пользователь на страницах электронного Интернет-каталога получает информацию не только о наличии данного журнала в фонде ЦБС БЕН РАН, но и о возможности доступа к электронной версии данного журнала. Некоторые журналы имеют по несколько линков на разные сайты, поддерживающие электронные версии данного журнала, тем самым пользователю предоставляется право выбора. Это объясняется тем, что на разных сайтах доступ к электронной версии одного и того же журнала может отличаться для пользователя степенью доступа (полный текст или только оглавление), глубиной просмотра по годам издания, сложностью поиска необходимой информации и так далее.

Фонд журналов БЕН РАН является, по существу, гибридным фондом, содержащим журналы в традиционной (бумажной) форме, журналы, существующие как в традиционной, так и в электронной версии, и журналы, доступные только в электронном виде. В настоящее время в Интернет-каталоге журналов БЕН РАН отражено около 8000 наименований зарубежных и отечественных журналов, около 6000 из которых имеются за те или иные годы в фондах ЦБС БЕН РАН в печатном виде и около 2000 доступны только в электронном виде.

При работе с Интернет-каталогом журналов БЕН РАН пользователю предоставлена возможность выбора журналов из общего алфавитного списка названий, из алфавитного списка названий в выбранном тематическом разделе; имеется также возможность поиска журнала по фрагментам описания журнала.

В алфавитном режиме просмотр ведётся по трем уровням (алфавит - латиница и кириллица, алфавитный список журналов на каждую букву, описание журнала с указанием всех выпусков, поступивших в ЦБС БЕН, упорядоченных по годам издания).

В тематическом режиме просмотр ведется по специальному предметному двухуровневому рубрикатору журналов БЕН. Просмотр возможен по четырем уровням (рубрики, подрубрики, список журналов на каждую подрубрику, описание журнала с перечнем поступивших выпусков).

При поиске по фрагментам описания журнала составляется запрос. В каждую строку запроса может быть введено несколько терминов. При обработке запроса они соединяются логическими связками "И". При этом правое усечение применяется ко всем терминам строки. Строки запроса соединяются между собой логическими связками И, ИЛИ, НЕ. Поиск возможен по следующим полям: слова из названия журнала, год издания, код страны издания и ISSN. Результатом поиска является список найденных журналов; каждая запись содержит шифр хранения данного журнала в фондах БЕН (URL), номер ISSN, наименование, код страны, издающей журнал, перечень годов издания данного журнала, за которые он имеется в фондах ЦБС БЕН. По ссылке (поле URL) от каждой записи можно перейти на страницу, содержащую информацию о поступлении данного журнала в фонды ЦБС БЕН. Страницы, относящиеся к конкретным журналам, содержат не только основные библиографические сведения и информацию о поступивших в ЦБС БЕН выпусках, но и признак наличия данного выпуска в Центральной библиотеке (ЦБ), куда может приехать любой пользователь. Выпуски, отсутствующие в ЦБ, но имеющиеся в библиотеках институтов РАН, выдаются только сотрудникам данного института; другие пользователи могут их заказать только по межбиблиотечному абонементу через ЦБ. Поэтому конкретные библиотеки академических институтов, имеющие данный журнал, в общедоступном Интернет-каталоге не указываются, хотя сотрудники БЕН эту информацию имеют, пользуясь внутрибиблиотечным электронным каталогом.

Как уже указывалось, Интернет-каталог журналов ЦБС БЕН РАН формируется на основе постоянно изменяющейся (за счет поступления новых и списания старых выпусков журналов) технологической базы данных и EXCEL-таблиц, содержащих сведения о доступных электронных версиях журналов.

Для формирования Интернет-каталога журналов создана универсальная технология, ориентированная на использование не только в Центральной библиотеке, но и в отделениях БЕН РАН (библиотеках академических институтов).

Каталог формируется в несколько этапов. На первом этапе формируется общий файл, содержащий информацию, как из технологической базы данных журналов. так и из EXCEL-таблиц. На втором этапе формируется алфавитная часть каталога. Формируются HTML-страницы описания журналов, алфавитные списки на каждую букву латинского и русского алфавита и главная страница электронного каталога, на которой представлено два алфавита – латиница и кириллица. На этом этапе закладывается основа электронного каталога - “алфавитный каталог”. Он может выступать самостоятельным продуктом в небольших библиотеках ЦБС БЕН РАН.

На третьем этапе можно продолжить формирование электронного каталога и добавить к созданному алфавитному тематическую его часть. На этом этапе используется входной файл, отсортированный по тематике в соответствии с рубрикатором, разработанным БЕН РАН. Формируются HTML-страницы с рубриками и подрубриками, а также списки журналов соответствующие подрубрикам. Поисковый рубрикатор добавляется на главную страницу электронного каталога. Таким образом, создается тематическая часть электронного каталога, что дает возможность пользователю просматривать журналы в тематическом режиме. На страницах объединены названия рубрик и подрубрик на русском и английском языках. Фрагмент русско-английского рубрикатора представлен ниже.

Общие вопросы естественных наук = General Problems of Natural Sciences

Естественные науки в целом. Hаука и техника
= Natural Sciences. Scienсe and technique

Общие реферативные журналы
= General abstracts

Журналы научных обществ
= Journals of scientific societies

Общие физико-математические и технические журналы
= Joint Physical-Mathematical and Technical Journals

Общие физико-химические журналы
= Joint Physical-Chemical Journals

Природоведение. Охрана природы. Человек и биосфера
= Environmentology. Ecology. Man and biosphere

Метрология. Стандарты. Наукометрия
= Metrology. Standarts. Scientometrics

В дополнение к алфавитному и тематическому поиску в Интернет-каталоге БЕН РАН также возможен поиск по фрагментам названий и другим элементам описаний журналов. Механизм этого поиска со страниц сайта БЕН РАН реализован с использованием шлюза WWW-Z39.50 и Z-сервера БЕН РАН [2]. При создании и обновлении Интернет-каталога журналов для его подключения по протоколу Z39.50 обновляется специальный файл, содержащий поисковые атрибуты журналов и ссылки на их Интернет-страницы, который необходимо переиндексировать. Эта процедура является четвертым самостоятельным этапом в формировании Интернет-каталога.

На сайте БЕН РАН (http://benran.ru) представлен Интернет-каталог журналов, созданный по описанной выше технологии.

Эту технологию используют и библиотеки ЦБС БЕН РАН, формирующие свои Интернет-каталоги. В структуру ЦБС БЕН РАН входят как библиотеки отдельных институтов, так и центральные библиотеки научных центров – НЦ (Пущинского, Ногинского и ряда других), которые, в свою очередь, объединяют библиотеки институтов данного научного центра. Задачей библиотеки отдельного института является ведение каталога своих фондов, задачей головных библиотек НЦ РАН является ведение сводных каталогов фондов библиотек данного центра. Обе эти задачи успешно решаются на базе программного обеспечения, разработанного в БЕН РАН, с использованием централизованно формируемой информации.

Вышеописанная технология, практически, без доработок успешно реализована в Пущинском научном центре – на сайте головной библиотеки (http://cbp.iteb.psn.ru/) поддерживается сводный каталог журналов, имеющихся в библиотеках центра.

Для библиотек отдельных институтов специалистами БЕН РАН была разработана и внедрена во многих библиотеках специальная система регистрации журналов REGJ_WIN, которая обеспечивает формирование и поддержку локальных электронных каталогов. По мере подключения библиотек к Интернет и организации специальных библиотечных сайтов (либо самостоятельных, либо на институтских серверах) появилась необходимость расширения сервисных возможностей системы REGJ_WIN в части поддержки Интернет-каталога журналов. Для решения этой задачи специалистами БЕН РАН был разработан комплекс программ, подключаемых к системе REGJ_WIN, обеспечивающих конвертирование записей БД системы в файлы специального формата и создание Интернет-каталога. По сути, Интернет-каталог в системе REGJ_WIN формируется по сценарию, описанному выше, и администратор системы выбирает форму и возможности каталога по своему усмотрению. Такую технологию регистрации журналов и формирования Интернет-каталога, к примеру, используют в библиотеке ФИАН.

Литература

1. Власова С.А., Каленов Н.Е., Каллистратова О.Д., Соловьева Т.Н. Интернет-каталоги БЕН РАН // Информационные ресурсы России. 2003, № 2(72), - C. 30-34.

2. Каллистратова О.Д. Z39.50 и каталог журналов БЕН РАН // Новые технологии в информационном обеспечении науки. - М., Биоинформсервис, 2001. – C. 110-114.

 

!14

Автоматизированная система аналитической росписи документов (АСАРД).

Аветисов М.А., Крамчанинов Е.В., Стеллецкий В.И.
(Центральная научная сельскохозяйственная библиотека)

Создание библиографических записей для электронного каталога является весьма трудоемким делом. Поэтому для сокращения затрат на пополнение каталогов электронными записями документов, создаются всевозможные объединения и консорциумы корпоративной каталогизации. Однако это касается в основном записей, описывающих отдельное издание – книгу, сборник, отдельный номер журнала, т.е. библиографическая запись, описывающая документ на монографическом уровне.

Библиотек, занимающихся росписью каталогизируемых документов на аналитическом уровне (статьи из научных журналов и сборников) в достаточно большом объеме, совсем немного.

Еще в конце 80-х годов ЦНСХБ совместно с ВНИИТЭИсх (теперь уже не существующим) приступила к аналитической росписи основных сельскохозяйственных журналов. Первый этап данной работы был завершен в 1992 году, созданием автоматизированной системы, которая включала в себя электронный каталог (ЭК) описаний статей. При этом ЭК статей на порядок больше по объему ЭК книг. Таким образом, объем данных, вводимых только о статье из журналов или сборников, существенно больше, чем объем библиографического описания отдельных изданий.

Для сокращения ручного труда каталогизаторов и систематизаторов на этапе создания библиографических записей документов, было принято решение о разработке автоматизированной системы по аналитической росписи получаемых журналов и сборников в бумажном виде (твердая копия) и создание предпосылок для автоматизированной обработки различных электронных ресурсов (режим on-line), подписываемых библиотекой (электронная форма).

Предпосылки создания автоматизированной системы аналитической росписи документов:

  1. В качестве основного материала для ввода данных о статье рассматриваются оглавления журналов или сборников. Полнотекстовые электронные ресурсы, особенно иностранные журналы, стали занимать значительное место в информационном обеспечении пользователей библиотеки. И они всегда имеют достаточно формализованное оглавление.
  2. Оглавление в научно-технических журналах и сборниках обычно легко выделяется среди остального текста (что нельзя сказать про огромное количество журналов массовой культуры).
  3. Заголовки статей, особенно в сборниках, несут, в большинстве случаев, информацию о содержании статьи. Кроме того, научные журналы и сборники зачастую помещают статьи в рубрики или разделы, которые также отражаются в оглавлении.
  4. Структура строк оглавления, описывающих каждую статью для каждого журнала стабильна, как минимум, в течение года. Практически существует всего несколько видов структур: “Авторы, Название, Страницы” или “Название, Авторы, Страницы” и т.п.
  5. ЦНСХБ имеет развитый тезаурус по сельскому хозяйству и продовольствию, что позволяет сопоставлять термины тезауруса со словами и словосочетания из названия и обеспечивать обогащение описания статьи.
  6. Существующее оборудование сканирования (книжные сканеры, имеющиеся в ЦНСХБ) позволяет осуществлять сканирование с высокой скоростью. Сканированию подвергаются новые, поступающие в библиотеку журналы и сборники. При достаточно высоком полиграфическом качестве сканируемого материала результаты сканирования и распознавания образов довольно высокие, что сказывается на сокращении сроков на редактирование получаемого материала.
  7. Возможность автоматического или полуавтоматического мониторинга подписанных зарубежных баз данных (например, Agricola или отдельных баз данных EBSCO) и создания копий соответствующих оглавлений на Web-сервере библиотеки.
  8. Мы полагаем, что пользователь ресурсов библиотеки ищет информацию, в основном, либо по автору и/или названию статьи источника, либо по тематике. В последнем случае пользователя мало интересует (с некоторой точностью, несущественной в данном случае), в каких полях встречаются важные для него термины или рубрики.
  9. Все эти предпосылки побудили нас к созданию автоматизированной системы аналитической росписи документов.

    Данная система состоит из нескольких технологических блоков и отдельных подсистем:

    1. подсистема формирования оглавлений журналов и сборников;
    2. подсистема автоматического формирования записи для ЭК;
    3. подсистема дополнительной ручной обработки описания;
    4. подсистема учета выполнения исполнителями всех операций над данными в АСАРД

Подсистема формирования оглавлений журналов и сборников состоит из двух блоков, Первый из них – блок сканирования и распознавания печатных изданий. В подавляющем большинстве случаев распознанный и проверенный текст не требует дополнительной ручной доработки. В отдельных случаях используется специальный язык разметки. Текст сохраняется в HTML-формате, а образ документа, который также доступен пользователю, просматривающему оглавление, в PDF-формате.

Второй – блок обработки оглавлений on-line (т.е. внешних баз данных). В частности, для БД Agricola обеспечивается мониторинг оглавлений и загрузка оглавлений вновь появившихся номеров на сайт ЦНСХБ.

Подсистема автоматического формирования записи для ЭК обеспечивает создание записи электронного каталога статей на основе подготовленных автоматически или с добавлением данных ручного ввода документов.

Название статьи разбирается на слова. Не рассматриваются стоп-слова и цифро-буквенные слова. Все слова нормализуются. В настоящее время используется алгоритм усечения окончаний. Возможно также применение любого другого алгоритма нормализации.

Слова сравниваются с так же нормализованными терминами тезауруса. Результат совпадения заносится в поле “автогенерированные термины”. Поле “Рубрики ОРНТИ” заполняется рубриками из общего описания журнала и/или рубриками, связанными с терминами тезауруса.

Предполагается создание специального словаря на основе текстов постоянных или часто встречающихся рубрик или разделов оглавлений. Этот словарь может быть обогащен кодами рубрик ОРНТИ. В этом случае коды будут включены в соответствующие элементы данных.

Предполагается расширение тезауруса переводами терминов на английский язык (или на другие языки). В этом случае при обработке иностранных названий статей возможно включение русских дескрипторов в соответствующее поле в дополнение к англоязычным. Это обеспечит возможность поиска таких терминов по-русски.

Следует заметить, что как только появляется оглавление журнала или сборника в электронной форме, то вслед за этим появляется и запись электронного каталога. Ручное обогащение записи или изменение ее – асинхронный процесс, с неопределенным временем окончания. Пользователь электронного каталога будет видеть улучшающуюся во времени запись по мере того, как специалист будет приписывать (или, при необходимости, исправлять) соответствующую запись в АСАРДе, правда, с недельным опозданием (периодичность обновления данных в информационно-поисковой системе).

Подготовленные записи загружаются в информационно-поисковую систему АРТЕФАКТ (разработка информационного агентства “Интегрум-техно” - http://www.integrum.ru).

Подсистема дополнительной ручной обработки описания позволяет специалисту разметить оглавление и передать отдельные статьи на обработку в режиме автоматизированного процесса (без участия специалистов технологической обработки документов) или конкретному исполнителю. Оглавление автоматически разбирается по полям - автор, название, страницы и т.д.

При ручной обработке документов все исполнители имеют различные права доступа к обрабатываемому материалу (администратор технологических направлений, координатор работ, каталогизатор, систематизатор, и т.п.). Разграничением по уровню доступа достигается возможность работы только со своей группой полей как заполненных автоматически, так и заполняемых вручную, с возможностью редактирования полей, заполняемых “автоматом”. Кроме того, можно проставить признак готовности документа, просмотреть историю работы с ним. Поскольку ЦНСХБ выпускает еще и реферативный журнал, то можно приписать реферат, направить документ в тот или иной выпуск реферативного журнала (Ветеринария, Пищевая промышленность и т.п.) и номер.

При вводе данных обеспечивается интерактивный контроль орфографии. Возможна также проверка правильности подготовки всей записи, используя лингвистические технологии системы ОРФО (http://www.informatic.ru), а также обогащение словаря терминов для последующего анализа и обогащения тезауруса или специальных словарей.

Подсистема учета выполнения исполнителями всех операций над данными в системе АСАРД обеспечивает учет всех операций с записью, которые осуществляет исполнитель. Он входит в систему со своим идентификатором. В отдельных случаях, например, при поручении работы конкретному исполнителю, идентификатор этого исполнителя вводится в систему дополнительно. По всем операциям запоминается дата, время, объем изменений, идентификатор исполнителя, а в ряде случаев и другая необходимая служебная информация. Это позволяет наладить полный компьютерный учет работы коллектива исполнителей.

Дополнительно следует заметить, что ЦНСХБ имеет электронный архив документов, в котором хранятся образы оглавлений (если они есть), а также все полные тексты статей, полученных как в результате работы службы ЭДД (заказ из ЭК ЦНСХБ), так и тексты всех статей, “скаченных” сотрудниками ЦНСХБ из внешних баз данных. Все полные тексты “привязаны” к соответствующим записям ЭК и оглавлениям журнала. Внутри библиотеки или с удаленных терминалов (в других организациях, технология VPN-соединений) они доступны для чтения, а для пользователей сети Интернет – для заказа.

Система полностью базируется на СУБД MS SQL. Для каталогизации сборников как отдельных изданий, так и журналов в целом, используется система Марк-SQL (“Информсистема” - http://www.informsystema.ru), так как их библиографическое описание сложно и требует специализированного программного обеспечения.

Каждый документ, поступающий в ЦНСХБ, снабжается электронным номером (ЭН), напечатанным на наклеивающейся этикетке и отображаемым в виде штрих-кода. ЭН является полем связи для объединения различных видов описания документа и его частей.

Таким образом, система предусматривает различные режимы формирования описания статьей для ЭК, представляемых на Web-сайте ЦНСХБ для читателей библиотеки, включая и читателей, работающих на удаленных терминалах библиотеки (Интранет) и внешних пользователей (Интернет). Возможен режим работы “как прежде”, со стопроцентным клавиатурным вводом описания статей. Однако, с точки зрения разработчиков, основным режимом работы должен быть режим автоматического формирования библиографического описания и элементов систематизации на основе оглавлений журналов и сборников, с применением “ручного” ввода только для тех записей, которые направляются в реферативные журналы или являются особо значимыми.

Система позволяет развернуть работы по научному анализу полученных результатов (накопленные словари и методы обработки текста), что даст возможность усовершенствовать механизмы автоматического построения описаний.

 

 

!15

Состояние и перспективы развития системы комплектования
отечественной непериодической литературой в БЕН РАН.

Власова С.А., Дмитриева З.Г., Кочукова Е.В.
(Библиотека по естественным наукам РАН)

Одной из основных задач в информационном обеспечении ученых РАН является комплектование библиотек институтов научной литературой, необходимой сотрудникам для успешного проведения исследований. Более трех десятилетий эту задачу успешно решает БЕН РАН, централизованно обеспечивая более 120 библиотек литературой на средства, выделяемые для этой цели Президиумом РАН [1].

БЕН РАН осуществляет централизованную подписку на отечественные и зарубежные журналы, приобретает для библиотек своей системы (ЦБС) отечественные и зарубежные книги. В связи с катастрофической нехваткой средств, выделяемых в последние годы на закупку литературы Академией наук, зарубежная литература приобретается в единственном экземпляре в фонды Центральной библиотеки, отечественными же изданиями комплектуются библиотеки институтов.

Вопрос о репертуаре отечественных журналов, выписываемых для каждой библиотеки, решается раз в полугодие в момент подписной кампании. Институту выделяется определенный лимит средств, в рамках которого он определяет перечень необходимых журналов (обычно такой перечень рассматривается Библиотечным советом института и утверждается руководством).

Гораздо сложнее обстоит дело с комплектованием отечественными непериодическими научными изданиями (книгами, сборниками трудов конференций и т.п.), которых публикуется достаточно много. По каждому наименованию комплектаторы должны решить, для кого и сколько экземпляров должно быть заказано. Это требует разработки специальной технологии, которая будет рассмотрена ниже.

В каждой библиотеке, входящей в ЦБС БЕН РАН, имеется Положение о комплектовании и разработанные профили комплектования, которые рассматривались и утверждались библиотечным советом и дирекцией института. Это Положение является документальной основой и “руководством к действию” для сотрудников библиотеки, занимающихся комплектованием ее фондов.

Существенную роль в централизованной системе комплектования отечественной литературой играет сводный тематико-типологический план комплектования (ТТПК), который определяет политику формирования фондов, является основой для комплектования библиотек. ТТПК в целом определяет тематику и виды требуемой для каждой библиотеки литературы [2]. В разные периоды основой для создания ТТПК являлись как специально разработанная единая схема профилей комплектования, так и библиотечно-библиографическая классификация, рубрикаторы РЖ ВИНИТИ и ГАСНТИ. В 90-е годы профили комплектования библиотек начали составляться на основе универсальной десятичной классификации (УДК).

До недавнего времени сотрудники Отдела комплектования отечественной литературой (подразделения, обеспечивающего заказ и приобретение изданий для библиотек ЦБС БЕН РАН) использовали ТТПК в печатном виде. В 2003 в БЕН РАН внедрена в эксплуатацию автоматизированная система формирования ТТПК [3]. Разработан пакет прикладных программ в среде WINDOWS 2000 с использованием компилятора C++Builder, с помощью которого осуществляется по каждой библиотеке ввод индексов УДК, соответствующих рубрикам ее ТТПК, ввод типов изданий, необходимых библиотекам по каждому тематическому направлению, а также уровня важности изданий. Дружественный диалоговый интерфейс позволяет избежать ошибок при вводе кода библиотеки, типа и уровня важности издания. Индекс УДК вводится в соответствии с таблицами, введенными в систему, после чего пользователь автоматически попадает в окно выбора типа издания, что исключает ошибки при вводе. Кроме того, система позволяет осуществлять просмотр, корректировку и удаление введенной информации. Файлы, содержащие ТТПК, полученные от различных библиотек, объединяются в единую базу данных ТТПК ЦБС БЕН РАН с помощью специальной программы.

Автоматизация процесса комплектования предполагает наличие базы данных индексов УДК с названиями рубрик. Специально разработанный пакет прикладных программ позволяет искать в этой базе данных индексы УДК, соответствующие им тексты рубрик, а также сиглы библиотек, в тематический план которых входит заданный индекс УДК.

Наибольший интерес к этой системе проявили библиотеки иногородних научных центров и институтов, так как удалены от центра комплектования. В процессе опытной эксплуатации инсталляционные версии пакета прикладных программ автоматизированной системы ввода ТТПК были отправлены с подробной инструкцией в ряд иногородних библиотек ЦБС БЕН РАН (в библиотеку Ставропольской астрономической обсерватории, библиотеку Кольского филиала РАН, библиотеку Башкирского филиала РАН, библиотеку Института биологии внутренних вод), а также в ряд библиотек московского региона. Программные средства были установлены сотрудниками библиотек на их компьютеры, после чего осуществлен ввод необходимых данных. На основе полученных ТТПК в БЕН РАН автоматически был сформирован сводный ТТПК этих библиотек, который будет пополняться по мере поступления информации от других библиотек. Опытная эксплуатация системы в библиотеках выявила необходимость некоторой переработки базы данных индексов УДК с целью изменения состава рубрик и корректировки ряда формулировок. В настоящее время эта работа проведена.

Существовавшая до настоящего времени система комплектования московских библиотек предусматривала, что перечень изданий, необходимых для данного института, определяет представитель (обычно – заведующий) библиотеки института, знакомясь с вышедшей из печати литературой на выставках обязательного экземпляра в БЕН РАН. Бурное развитие науки (а с ней и количества издающейся в России научной литературы), возросшая динамика изменения направлений научных исследований, появление новых научных направлений и публикаций на стыке наук создают существенные проблемы для качественной работы комплектаторов. Библиотечному работнику достаточно трудно определить, какие из представленных на книжном рынке изданий необходимо приобретать для фондов институтской библиотеки. Решить эту проблему можно только приблизив процесс комплектования к непосредственному пользователю информации -ученому, что позволит обеспечить формирование оптимального ( в смысле максимальной информативности для читателей) фонда каждой библиотеки ЦБС БЕН РАН. Развитие сетевых технологий создает предпосылки для решения этой проблемы, о чем и пойдет речь ниже.

В БЕН РАН разработана и введена в опытную эксплуатацию интерактивная система экспертных оценок (работа поддерживается РГНФ – грант 05-03-12306в). В рамках этой системы в специальную базу данных периодически загружается информация, характеризующая предложения отечественного и зарубежного книжных рынков научной литературы, издаваемой как в печатном, так и в электронном видах. Данные содержат библиографические описания и аннотации изданий и распределяются по основным направлениям естественных наук.

Эта информация доступна через Интернет авторизованным пользователям - экспертам, выделенным институтами РАН. Каждый эксперт получает свои логин и пароль для входа в систему. Войдя в систему, эксперты знакомятся с предложениями книжного рынка по различным тематическим направлениям и оценивают конкретные издания с точки зрения целесообразности приобретения для библиотеки их института или для ЦБ (одним из вариантов “приобретения” для ряда изданий является покупка прав сетевого доступа к ним). На оценку определенного массива данных отводится фиксированное время, после чего информационный массив заменяется новым, а проставленные экспертами оценки обрабатываются специалистами-комплектаторами БЕН РАН, которые принимают решение о заказе тех или иных изданий.

В рамках существующей системы комплектования, принятой в БЕН РАН, основным источником информации о вышедшей литературе является Российская книжная палата (РКП), из которой БЕН РАН получает обязательный экземпляр. Библиографические описания обязательных экземпляров, поступающие в БЕН РАН в электронном виде, являются в настоящее время информационной основой экспертной системы по отечественным книгам. Практика показывает, что в РКП попадает не более 70% изданий, опубликованных в стране. Это приводит к тому, что в поле зрения как специалистов отдела комплектования БЕН РАН, так и экспертов не попадает значительная часть новых научных изданий.

Современное состояние книжного рынка отечественных изданий характеризуется рядом новых факторов. Расширяется продажа книг издательствами через Интернет-магазины, минуя обязательный экземпляр, что при существующей системе полностью выводит продукцию этих издательств из сферы комплектования библиотек ЦБС БЕН РАН. Заметно расширился круг издательств, публикующих научную литературу; сегодня же в силу традиций комплектование ведется на базе книжной продукции ограниченного числа издательств (“Наука”, “Мир”, “Физматлит”, “МЦНМО” и некоторых других).

Для обеспечения достаточной полноты охвата отечественного книжного рынка необходима дальнейшее развитие системы комплектования ЦБС БЕН РАН. В планах Библиотеки – анализ сайтов издательств, Интернет-магазинов и коллекторов, совершенствование системы оптимизации комплектования отечественной литературой с целью обеспечения максимальной информационной ценности приобретаемых изданий. Однако необходимо учитывать, что организация комплектования ЦБС БЕН РАН на базе современных сетевых технологий требует от сотрудников принципиально нового подхода к работе и необходимости освоения новых технических и программных средств, что, в свою очередь, требует от руководства организации системы переподготовки кадров. В условиях недостаточного финансирования это является сложной проблемой, решение которой возможно только при поддержке руководства академических институтов, обслуживаемых библиотеками, и РАН в целом.

Литература

  1. Л.И. Госина. Издательская и библиотечная деятельность Российской академии наук в информационно-культурном пространстве. М., Наука, 2004.
  2. З.Г. Дмитриева, Е.В. Кочукова, В.С. Наумова. Совершенствование системы централизованного комплектования отечественной литературой на базе использования сетевых технологий. // Современные технологии в информационном обеспечении науки: Сб. науч. тр. – М., 2003.
  3. З.Г. Дмитриева, Я.Я. Докторов. Программное обеспечение автоматизации распределения литературы в ЦБС БЕН РАН. // Современные технологии в информационном обеспечении науки: Сб. науч. тр. – М., 2003.

 

 

!16

Автоматизированная система обработки статистической информации ЦБС БЕН РАН

Варакин В.П.,  Каленов Н.Е.
(Библиотека по естественным наукам РАН)

Одним из важнейших направлений работы БЕН РАН является комплектование фондов библиотек, входящих в ее централизованную библиотечную систему (ЦБС). В условиях ограниченного финансирования, когда невозможно приобрести все выходящие в мире издания по тематике исследований обслуживаемых институтов, проведение этой работы на приемлемом уровне требует решения оптимизационных задач на основе использования информации о степени важности для каждого конкретного коллектива тех или иных групп изданий. Одним из видов такой информации являются данные о спросе пользователей на издания по различным каналам обслуживания. Это обусловило необходимость создания программного комплекса обработки статистической информации, позволяющего создать базис для принятия адекватных организационно – управленческих решений.

Сбор и накопление информации о спросе на издания из фондов БЕН по различным каналам обслуживания были заложены в основу АС Библиотеки с целью реализации функции “обратной связи”, обеспечивающей получение данных, необходимых для ее устойчивой работы как системы управления. В Библиотеке, начиная с 1980-го года, функционировали различные версии программного обеспечения обработки данных читательского спроса, развивавшиеся одновременно с технической базой. Сначала на ЕС ЭВМ была создана подсистема, обеспечивающая решение задач ввода (с развитой системой формального контроля) и обработки данных по копированию материалов с выставок новых поступлений (ВНП) литературы, еженедельно организуемых БЕН. Копирование с ВНП выполнялось бесплатно, но с ограничением на количество страниц согласно размерам квот, выделяемых на год каждому институту, входящему в систему БЕН. При обработке информации о заказах сотрудников институтов на ВНП контролировался объем ксерокопирования, выполненного для каждого института, на основе чего проводился сравнительный анализ популярности журналов, результаты которого использовались в технологии комплектования. По мере развития программного и технического обеспечения АС БЕН количество задач, связанных с обработкой данных о спросе на издания, увеличивалось – в дополнение к обработке данных о заказах на ВНП анализировалась выдача литературы по межбиблиотечному абонементу, выдача журналов и продолжающихся изданий в читальном зале Библиотеки. При переходе на новую программно–техническую базу (с ЕС ЭВМ - на персональные компьютеры) решение задач анализа данных о спросе на издания было перенесено в среду MS DOS. Однако задачи, реализованные в MS DOS (в силу программно–аппаратных ограничений этой ОС), оставались по-прежнему автономными и решались независимо друг от друга. С появлением возможности использования средств MS Windows в конце 1990-х годов БЕН РАН был разработан комплекс JADE [1], который объединял данные о спросе на зарубежные журналы по различным каналам обслуживания и решал задачи оптимального заказа на зарубежные журналы.

Созданная при поддержке РФФИ (грант 03-07-90056) новая версия S-3.04 системы обработки статистики БЕН РАН (далее Система) позволяет интегрировать данные о спросе на любые виды изданий? доступные по всем каналам обслуживания, связывает их с электронными каталогами и базой данных читателей [2].

В соответствии с функционирующей в настоящее время автоматизированной технологией в БЕН РАН формируются четыре потока данных, отражающих спрос пользователей на издания из фондов:

  • Заказы на ксерокопирование материалов с ВНП и из читального зала, которые являются основой для автоматизации финансовых расчетов с заказчиками. С бланков-заказов в компьютер вводятся шифр журнала (книги), год издания, номер читательского билета заказчика, дата, количество заказанных страниц.
  • Заказы, поступающие через Интернет от читателей, планирующих придти в Библиотеку и работать в читальном зале. Заказы формируются автоматически при распечатке требования, которое печатается читателем непосредственно в Библиотеке, и содержат шифр хранения издания, его библиографическое описание, фамилию читателя, номер его читательского билета и дату.
  • Заказы по МБА, поступившие через Интернет, направляемые для выполнения в отдел фондов. Заказы формируются автоматически и содержат шифр хранения издания, его библиографическое описание, вид выполнения (оригинал, ксерокопия, электронная копия), количество страниц (если заказана копия), код абонента-заказчика, дату.
  • Запросы на издания от читателей, пришедших в Библиотеку, поступающие в отдел фондов на традиционных читательских требованиях. Сотрудником отдела фондов в компьютер вводятся шифр хранения издания, номер читательского билета заказчика, дата, код отказа, если издание отсутствует в фондах. Аналогично регистрируются отказы на издания, заказанные по вышеописанным каналам обслуживания.

Система обеспечивает автоматический ввод всех четырех потоков заказов в единую базу данных. Она открыта для расширения функциональных возможностей с целью дальнейшей реализации приложений, использующих методы многомерного и кластерного анализа, статистического прогнозирования, и обеспечивает информационную совместимость с EXCEL и существующими пакетами обработки статистики (SPSS v12, StatSoft Statistica v6.0 и др.).

Функции основной СУБД в Системе выполняет MS SQL Server 7.0/2000, в связи с чем ниже используется терминология, принятая для этой СУБД, кроме терминов “строка” и “столбец”, которые заменяются более употребительными - “запись” и “поле” соответственно.

Система поддерживает две БД – буферную и основную. Буферная БД используется для ввода текущей информации, а основная предоставляется пользователям для осуществления целевых выборок данных. Основная БД содержит некоторую избыточность данных, что обеспечивает более быструю реакцию системы. Хотя такой подход и приводит к увеличению объема БД, для современных компьютеров, обладающих практически неограниченными ресурсами внешней памяти, это не является критичным при количестве данных, поддерживаемых Системой.

В состав буферной БД входят следующие таблицы.

  1. Таблица заказов на ксерокопирование материалов. Поля записи: “Дата”, “Код источника” (ВНП, ЧЗ), “Номер ВНП”, “Код института”, “Сокращенное название (Сигла) института”, “Номер читательского билета”, “Шифр хранения”, “Год публикации”, “Количество скопированных страниц”.
  2. Таблица Интернет–заказов. Поля записи: “Дата”, “Шифр хранения”, “Год публикации”, “Название журнала”, “Том”, “Номер”, “Библиографическое описание книги или выпуска продолжающегося издания (БО)”, “Номер читательского билета”, “Фамилия читателя”.
  3. Таблица заказов по фондам. Поля записи: “Дата”, “Шифр хранения”, “Год публикации”, “Номер читательского билета”, “Код выполнения/отказа”.
  4. Таблица заказов по МБА. Поля записи: “Дата”, “Шифр хранения”, “Год публикации”, “Название журнала”, “Том”, “Номер”, “БО”, “Код абонента”, “Вид выполнения (оригинал, ксерокопия, электронная копия)”, “Код выполнения/отказа”, “Количество страниц копий”,
  5. Таблица книг и продолжающихся изданий (формируется на основе выборка из текущего каталога). Поля записи: “Шифр хранения”, “БО”.
  6. Таблица журналов (формируется на основе выборка из текущего каталога). Поля записи: “Шифр хранения”, “Название журнала”, “Код тематики”, “Код страны издания”.
  7. Таблица читателей (входит в состав разработанной в 2004 году автоматизированной системы регистрации читателей [2]). Поля записи, используемые в системе статистики: “Полный номер читательского билета”, “Фамилия”, “Имя”, “Отчество”, “Должность”, “Ученая степень”.
  8. Основная база данных содержит следующие таблицы:

  9. Таблица статистики по спросу книг и продолжающихся изданий (является объединением таблиц 1-4, 5 и 7 буферной БД) Поля записи: “Дата”, “Номер выставки”, “Код института”, “СИГЛА”, “Полный номер читательского билета”, “Шифр хранения”, “Год публикации”, “Количество страниц копий”, “Код квалификации читателя”, “Код специальности читателя”, “БО”, “Канал поступления заказа”, “Вид заказа”, “Код выполнения/отказа”
  10. Таблица статистики по спросу журналов (является объединением таблиц 1-4, 6 и 7, пополняющихся и буферной БД). Поля записи: “Дата”, “Номер выставки”, “Код института”, “СИГЛА”, “Полный номер читательского билета”, “Шифр хранения”, “Год публикации”, “Количество страниц копий”, “Код квалификации читателя”, “Код специальности читателя”, “Название журнала”, “Код тематики”, “Код страны издания”, “Канал поступления заказа”, “Вид заказа”, “Код выполнения/отказа”
  11. Таблица комплексной статистики (является объединением всех таблиц, пополняющихся из буферной БД).
  12. Служебные таблицы (содержат информацию, используемую системой при выполнении ее функций, в частности словари, списки учетных записей пользователей и администраторов, а также журнал доступа).
  13. Для ввода информации в БД Системы используются конвертеры, разработанные в среде Microsoft Visual FoxPro 9.0, а также средства MS SQL Server, Transact-SQL и DTS.

    При вводе осуществляется контроль общей полноты набора данных, а также их соответствия типам и принятым в системе форматам. Реализован контроль повторного ввода и проверка соответствия загружаемых данных содержимому словарей, входящих в состав системы.

    Для работы с перечисленными выше базами данных и входящими в их состав таблицами разработаны 10 исполнительных блоков, реализующих многоаспектную выборку данных и требуемые вычисления, в том числе универсальный блок и блок АДМИНИСТРАТОРА. В состав функций, выполняемых администратором, входит формирование ежемесячного отчета по результатам ксерокопирования.

    Все блоки поддерживают (с некоторыми различиями) типовой интерфейс пользователя, который представлен на рис.1.

    Рис.1 Типовой интерфейс пользователя

    В текущей версии Системы реализован режим выборки по запросам, формируемым пользователем, включающим до пяти поисковых полей одновременно. Имена полей таблицы выбираются из раскрывающихся списков в левой верхней области формы (все поля таблицы – поисковые). Логические связки – “И” (по умолчанию), “ИЛИ”, “И НЕ”.

    Поддерживается следующий набор операторов отношений: Содержится (по умолчанию), Равно, Не равно, Не содержится, Меньше или Равно, Больше, Больше или Равно. Вместо логической связки “И НЕ” можно использовать оператор отношения “Не равно” (для чисел) или “Не содержится” (для символьных значений).

    По умолчанию используется усечение справа (“Да”). В случае, если поиск осуществляется на полное совпадение, выбирается опция (“Нет”). Для усечения слева используется символ “%” непосредственно перед значением поискового фрагмента.

    При выборке предусмотрены возможности управления составом вывода (раскрывающиеся списки и флажки в области “Выбор выводимых полей и функций”, в том числе выводом значений виртуальных полей “Количество обращений” и “Число”, являющихся результатами выполнения функций “Счетчик” и “Сумма”, имена аргументов которых выбираются из соответствующих раскрывающихся списков).

    В приведенном примере (см. Рис.1) сформулирован простой запрос на выборку шифров хранения и названий журналов, а также значений количества обращений читателей к ним (флажком отмечена функция “Счетчик”, выбран аргумент “Шифр хранения” и определена сортировка по значению поля “Количество обращений”). Имя поля “Количество обращений” в раскрывающемся списке сортировки сокращено как “Кол. обр.”.

    Рис.2 Результат выполнения запроса на выборку данных

    В результате выполнения запроса на экран выводится список, упорядоченный по возрастанию количества обращений к журналам (Рис.2,).

    Список выводится постранично в виде таблиц, количество строк в которых можно изменить, воспользовавшись раскрывающимся списком “Выбор числа строк на странице” (1, 5, 10, 20, 50, 70, 100, 200, 300, 500, 1000, 10000, 50000, 100000). В примере системой выведена последняя страница итоговой таблицы, поэтому количество ее строк не равно 20-ти. Для перехода на требуемую страницу в поле “№СТРАНИЦЫ” вводится ее номер и нажимается кнопка “GO TO”.

    Итоговые результаты могут быть сохранены в файлы MS WORD и MS EXCEL с помощью штатных средств MS Internet Explorer.

    Система позволяет формулировать запросы, более “мощные” по сравнению с запросом, рассмотренным выше. В них, наряду с функциями и сортировкой, включаются поисковые значения полей (верхняя левая область формы интерфейса), соответствующая логика и операции отношения. Так, например, можно сформулировать запрос: “Сколько и каких заказано и выдано журналов за период времени 1996 -2005 г.г.” и получить таблицу, фрагмент которой выведен в EXCEL и представлен на рис.3.

    Возможно также осуществлять выборки с учетом значения кода тематики (для журналов) и получать ранжированные ряды источников по количеству ксерокопированных страниц или количеству обращений (см. Рис.4).

    Рис.3 Результат выборки числа заказанных и выданных единиц за период 1996 – 2005 г.г. (последняя страница результирующей таблицы сохранена в Excel)

    Рис.4 Результат выборки по коду тематики 30 (последняя страница результирующей таблицы сохранена в WORD)

    Благодаря тому, что к БД подключены элементы библиографических описаний, Система обеспечивает выполнение “прямых” и “обратных” запросов на выборку данных: “По элементам результирующих статистических таблиц найти библиографию” и “По элементам библиографических описаний найти соответствующие записи статистики и осуществить заданную обработку информации”.

    Для расширения поисковых возможностей в Системе реализованы дополнительные средства формулировки запросов. Для этого имеется раскрывающийся список консоли пользователя “Выбор варианта объединения в запросе” (см. Рис.1, верхняя правая область формы). Задав в левой части консоли имена полей (их может быть до 5-ти, и ниже они обозначены X1, X2, X3, X4, X5), пользователь выбирает одну из строк консоли и подставляет значения выбранных полей и требуемых логических связок. Консоль содержит 7 вариантов скобочных выражений:

  14. (X1 OP X2 OP X3 OP X4 OP X5).
  15. (X1 OP X2) OP (X3 OP X4 OP X5).
  16. (X1 OP X2 OP X3) OP (X4 OP X5).
  17. (X1 OP X2 OP X3 OP X4) OP X5.
  18. (X1 OP X2) OP (X3 OP X4) OP X5.
  19. ((X1 OP X2) OP X3) OP (X4 OP X5).
  20. ((X1 OP X2) OP (X3 OP X4 OP X5).

Здесь OP – логическая связка, которая может быть задана как “И”, “ИЛИ”, “И НЕ”.

Программное обеспечение данной версии Системы, как и ранее созданное для модельной версии системы обработки статистической информации БЕН РАН [3], базируется на использовании технологии ASP. В его состав входят функционально связанные активные самонастраивающиеся страницы, которые содержат коды программ и HTML-спецификации, а также расширенная библиотека классов в формате Microsoft FrontPage 2000/2003. Для формирования таких страниц используются средства Microsoft Visual Studio 6.0/.NET 2003.

В качестве базовых языков программирования выбраны JavaScript и VBScript.

Для обеспечения защиты информации, наряду с использованием стандартных средств безопасности Windows 2000/2003, IIS 5.0/6.0 и MS SQL Server 7.0/2000, в системе реализован дополнительный блок контроля доступа. В набор функций, выполняемых блоком АДМИНИСТРАТОРА, включены формирование учетных записей пользователей и администраторов системы, их удаление, присвоение и изменение паролей. Реализовано разграничение прав администраторов на выполнение функций, входящих в этот набор. Разработан блок, поддерживающий ведение журнала доступа. Все страницы системы защищены от НСД.

Созданная система функционирует в среде Интранет/Интернет под управлением Windows 2000/2003 Server, она установлена на сервере БЕН РАН и находится в стадии опытной эксплуатации. В настоящее время начата разработка следующей версии Системы, ориентированной на технологии .NET.

ЛИТЕРАТУРА:

  1. Каленов Н.Е., Козлова Е.И., Гиацинтов О.М.
  2. Математическая модель оптимизации подписки на журналы в научной библиотеке // НТИ, Сер. 1, 1999. – С. 9-12.

  3. Варакин В.П., Каленов Н.Е., Власова С.А. ИНТЕРНЕТ в системе обслуживания читателей БЕН РАН // Научный сервис в сети ИНТЕРНЕТ. Всероссийская научная конференция, г. Новороссийск, сент. 20-25, 2004. - М., МГУ, 2004. - С. 70-71
  4. Варакин В.П. Модельная версия программного обеспечения системы обработки статистической информации БЕН РАН для Windows 2000 // Современные технологии в информационном обеспечении науки: Сборник научных трудов – М., 2003. – С. 258-263
!17

Схемы метаданных ЕНИП:
практика применения OWL в ЕНИП

Бездушный А.А. (Центр научных телекоммуникаций РАН),
Бездушный А.Н. (Вычислительный центр РАН),
Серебряков В.А. (Вычислительный центр РАН)

Работа посвящена схемам метаданных Единого Научного Информационного Пространства РАН, применение которых должно сыграть ключевую роль в обеспечении семантической интероперабельности в научной среде РАН, упрощении обмена и взаимодействия информационных систем, входящих в ЕНИП. В работе поясняются основные цели и принципы формирования модульных схем ЕНИП, применение языка OWL для описания схем. Даётся обзор базового набора схем ЕНИП, отвечающего за описание научной информации общего характера, а также упоминаются основные разработанные специализации, отвечающие более специфическим научным областям. Данная статья дает лишь краткий обзор предложений по метаданным ЕНИП, более подробная исчерпывающая информация и пояснение способа формирования RDF/XML-документов в соответствие со схемами ЕНИП приведены в издаваемом отдельно Руководстве по схемам метаданных ЕНИП.

Роль схем метаданных ЕНИП

Единое Научное Информационное Пространство РАН (ЕНИП РАН) – это инициатива, ставящая своей задачей интеграцию научных данных различных учреждений РАН и построение единой распределенной среды с целью обеспечения активных научных коммуникаций и эффективного использования научной информации, более эффективных средств поиска информации, сотрудничества и совместной работы. Подробнее о целях, задачах и средствах ЕНИП см. [1, 2].

Для формирования масштабной распределённой среды, интеграции многих независимых информационных систем, наилучшим вариантом проведения интеграции является обеспечение “свободного общения”, “взаимопонимания” этих систем так называемой интероперабельности систем. Интероперабельность – это способность системы к взаимодействию с другими системами. Под этим понимается соблюдение определенных правил или привлечение дополнительных программных средств, обеспечивающих возможность взаимодействия независимо разработанных программных систем. Это своего рода стандарты, которым должны удовлетворять интегрируемые информационные системы.

Принято различать три уровня интероперабельности информационных систем – техническую, синтаксическую и семантическую, которым соответствуют транспортная среда, формат сообщений и смысл данных. В данной статье мы сфокусируемся на проблеме семантической интероперабельности. Это термин, появившийся сравнительно недавно, уже после того, как XML стал де-факто стандартом представления данных при обмене, что дало возможность гарантировать синтаксическую интероперабельность в Web и рассмотреть более сложные проблемы идентификации семантики, смысла данных помимо просто их структуры. Семантическая интероперабельность – это способность приложений понять смысл данных друг друга.

Данные могут относиться к различным предметным областям, в рамках одной иметь разные выражение и интерпретацию. Соответственно, для обеспечения семантической интероперабельности, во-первых, необходим некоторый механизм, позволяющий описать предметную область, указать, какие в ней используются термины и как они взаимосвязаны – схему данных. Таким общим механизмом является стек технологий Semantic Web: RDF, RDFS, OWL. В данной работе мы не будем подробно рассматривать эти технологии (см. спецификации [3,4]).

Во-вторых, необходим некоторый набор стандартов-схем метаданных, описывающих общепринятые понятия, которыми будут “общаться” интегрируемые системы. В рамках ЕНИП – это набор базовых схем для описания научной информации, такой как публикации и разработки, и пр. – “толковый словарь” для общения научных ИС. Именно этим схемам и посвящена данная статья. Дальнейшие разделы рассматривают состав предложений по формированию набора элементов метаданных ЕНИП и принципы структуризации элементов метаданных.

Лежащие в основе предложений ЕНИП стандарты и работы

В настоящее время заметна широкая тенденция по стандартизации RDF-словарей элементов метаданных для конкретных предметных областей – так называемых “обменных схем”. Использование терминов (свойств, словарей значений и пр.), зафиксированных в стандартах, позволяет приложениям легко интегрироваться между собой, обмениваться информацией, понятной им всем. Например, при получении данных из сторонней системы, приложение может найти среди неизвестных ему свойств некоторые свойства, регламентированные стандартом, и соответственно будет уверено в их смысле, семантике, сможет правильно их проинтерпретировать. Это и называется “семантической интероперабельностью”.

Dublin Core Metadata Initiative (DCMI) определил минимальный набор свойств для описания цифровых ресурсов Web, а также их детализацию в рамках “общего профиля” [6]. Отдельные рабочие группы DCMI занимаются стандартизацией более специализированных профилей метаданных таких предметных областей, как библиотечная информация [7], образование [8], правительственная сфера [9], информация о людях [10] и пр.

Dublin Core стал базисом для других “стандартов обмена”. В первую очередь, следует упомянуть стандарт Publishing Requirements for Industry Standard Metadata (PRISM) [11], разработанный издательскими организациями для обмена метаданными о публикациях (документах, журналах, книгах и пр.). Государственный архив Австралии выдвинул и стандартизовал основанный на Dublin Core набор профилей метаданных для описания государственной информации – AGLS Metadata Standard [12]. Заслуживают упоминания также проекты, делающие попытку спецификации схем для библиографической информации (BIBLINK [15], bibTeX [16]…), европейская инициатива по разработке схем для Math-Net [17], UKOLN RSLP CLD [18] профиль метаданных для описания цифровых коллекций и пр. Широкое применение нашли предложения по представлению информации стандарта VCard (“визитная карточка”) в RDF [13]. VCard определяет свойства для описания информации о людях, их контактной информации и пр. На описание информации о людях направлена также набирающая популярность открытая инициатива Friend of a Friend (FOAF) [14].

Помимо обменных “профилей метаданных”, существуют инициативы по построению “онтологий” предметных областей, нацеленных больше на спецификацию большого количества классов и их взаимоотношений, нежели словарей свойств для обмена. Среди них: KA2 - Knowledge Acquisition Community Ontology [20] и SWRC - Semantic Web Research Community Ontology [21]. Эти онтологии описывают персоналии, организации, проекты, публикации и пр. Из последних Semantic Web-разработок в этой области следует упомянуть онтологию портала Advanced Knowledge Technologies (AKT) - "AKTive Portal" [19].

При разработке предложений по наборам элементов метаданных ЕНИП мы провели детальный анализ всех упомянутых и других (daml.org, protege.stanford.edu,…) стандартов и предложений, а также анализ различных не-RDF ориентированных предложений по стандартизации метаданных (CERIF 2000 [22], CIDOC [23], MARC и RUSMARC и др.), различных отечественных и международных систем классификации ресурсов. Основные международные стандарты и предложения были непосредственно включены в предложения ЕНИП, в частности, Dublin Core, vCard, а также FOAF, UKOLN RSLP CLD.

Кроме того, мы основывались на нашем опыте в разработке и поддержке информационного портала РАН (http://www.ras.ru), а также нашем опыте в разработке информационных систем, в частности, портала научного института ВЦ РАН, включая субпорталы электронной библиотеки, каталога научной информации, библиотечного отдела [26], редакционно-издательского отдела, портала mathnet [27], системы ведения конференций [28] и портала научного института ПНЦ РАН, тематическому порталу “Сверхпроводимость”, системе каталогизации экспериментальных данных научных исследований ТОИ ДВО РАН [29], портала инновационной деятельности [24], электронной библиотеки диссертаций РГБ [25], информационного портала ГСНТИ, официального портала ВМиК МГУ (http://cmc.msu.ru) и пр.

Авторы статьи выражают благодарность нашим коллегам, участвовавшим в обсуждении и формировании предложений по схемам метаданных ЕНИП, в частности, Каленову Н.Е. (БЕН РАН), при существенной поддержке которого был сформирован профиль библиографической информации ЕНИП, Алексееву А.Н. (ИМСС УрО РАН), участвовавшему в обсуждении схемы описания конференций и предложившему схему поддержки проведения конференций, Аджиеву А.С. (ЦНТК РАН), предложившему схемы математической информации и тезаурусов, а также другим нашим коллегам, участвовавшим в обсуждении предложений ЕНИП.

Обзор состава предложений ЕНИП

Естественно, информационное наполнение Единого Научного Информационного Пространства на начальном этапе поддержки ЕНИП не может представлять всего разнообразия тематической специализации различных научных учреждений. Необходимо представить в первую очередь информацию, характеризующую основные аспекты научной деятельности. Соответственно, во-первых, должен быть выделен основной профиль метаданных ЕНИП, включающий общеприменимые и первоочередные предметные области, независимо от тематической специализации отраслей науки. Во-вторых, должен быть специфицирован механизм расширения стандарта дополнительными специализированными профилями, ориентированными на использование в специализированных научных сообществах, а также может быть предложен ряд наиболее существенных специализированных профилей.

В основной профиль можно выделить общую поддержку следующих четырех основных групп информационных сущностей:

  • Участники научной деятельности” – центральное звено, вся информация в РАН связана с научной деятельностью её сотрудников, “Персон”, образующих разнообразные организационные объединения от формальных (“Организации” и “Подразделения”) до неформальных (“Коллективы”, “Сообщества”, “Рабочие группы”).
  • “Научная деятельность”, в частности, “Проекты”, отражающие процесс научной деятельности, информация о результатах проектов, патентах и т.п., а также “Научные мероприятия” – как разовые, так и повторяющиеся, такие как “Конференции”, “Семинары”, “Симпозиумы”.
  • Результаты научной деятельности”, в которые могут входить “Интернет-системы” – Web-сайты и пр., “Базы данных”, предоставляющие автономные коллекции информации с той или иной степенью интеграции с ЕНИП и т.п., “Экспериментальные данные” и их “Математические модели”, “Программные системы”, в частности, “Научные вычислительные приложения”, “Экспериментальные установки”, “Изобретения”, “Технологии”, и т.п.
  • Документы и публикации” – ресурсы этого типа представляют собой научные труды, статьи, отчёты сотрудников (научные “Публикации” и “Диссертации”  сотрудников). Примерами  специализации публикации могут служить, например, “Тезисы конференций” и т.п.

Основной профиль метаданных ЕНИП подробно описан далее в данной статье. Основной профиль опирается на выделяемые в отдельный профиль вспомогательные схемы, которые включают общую поддержку контролируемых словарей, классификаторов и тезаурусов; поддержку конкретных типов справочников: геополитических единиц и административно-территориального деления, национальных языков; общую поддержку контактной информации.

Помимо базового набора элементов метаданных, предложения ЕНИП включают ряд наиболее существенных специализированных/прикладных профилей метаданных; в настоящее время публикуются следующие специализации:

  • Библиографическая информация - представление метаданных об официально зарегистрированных печатных изданиях (публикациях).
  • Информация о разработках и продуктах – представление специфических метаданных, характерных для конкретных типов разработок, а не понятия разработки “в общем” (в частности, программное обеспечение, Web-сайты и системы, базы и наборы данных, техническое обеспечение и оборудование).
  • Математическая информация – поддержка специфики описания ресурсов, имеющих отношение к математике, в частности, поддержка специфических математических идентификаторов и представления математических формул в тексте описания ресурсов.
  • Конференции и поддержка проведения конференций – описание конференций, семинаров, симпозиумов и пр. подобных мероприятий, начиная с общего описания конференции, участников, трудов конференции, и далее специализируя это описание всеми данными, необходимыми для поддержки проведения конференций.
  • Коллекции и архивы – поддержка описания коллекций, объединений физических и/или электронных элементов. К этому профилю относятся архивы и цифровые архивы, библиотечные и музейные каталоги и коллекции, электронные коллекции текста, изображений, звуков, данных, программных продуктов и пр. (в частности, CD-диски, Web-подборки), разнообразные физические коллекции (картин и пр.), коллекции мероприятий (например, серии лекций).
  • Поддержка библиотечной деятельности – поддержка информации для межбиблиотечного обмена и библиотечной деятельности; расширяет библиографическую специализацию понятием единиц хранения изданий (экземпляров изданий), а также библиотечных сервисов.
  • Поддержка издательской деятельности – метаданные для описания плана издательства редакционно-издательского отдела организации; этот профиль может быть использован в качестве единого формата предоставления списка публикаций авторами и отделами организации в план издательства.

Структурная организация элементов метаданных ЕНИП

Предложения по наборам элементов метаданных ЕНИП являются развитием идей Dublin Core Metadata Initiative (DCMI) в направлении дальнейшей детализации наборов элементов метаданных в направлении различных предметных областей, имеющих отношение к научным исследованиям, с целью поддержки обмена как метаданными общего характера в рамках всего научного сообщества, так и более узкоспециализированными метаданными в рамках заинтересованных сообществ (например, библиотечного, математического, музейного сообщества).

В отличие от предложений Dublin Core Metadata Terms [6], которые содержат достаточно небольшой набор общих элементов метаданных, нацеленных в основе своей на описание web-документов, структура предложений ЕНИП охватывает существенно более широкий набор понятий и позволяет в зависимости от нужд приложения описывать их на существенно более высоком уровне детальности. Соответственно, встает задача структурной организации элементов метаданных ЕНИП, выделения отдельных профилей, специализаций, подсхем, уровней детальности описания. Текущие разработки дополнительных элементов метаданных DCMI [7,8,9,10] также нацелены на описание более конкретных предметных областей, соответственно, для них вводится понятие профилей приложений (Application Profiles), которые решают такую задачу в рамках предложений DCMI. Профиль приложения состоит из элементов, взятых из одной или нескольких схем стандартов, объявляющих термины, и собранных вместе для нужд конкретного приложения (в частности, конкретного сообщества). Профиль приложения позволяет определить, какие из элементов стандарта (или нескольких стандартов) нужны для решения задач данного приложения, то есть, как данное приложение использует стандарт.

Понятие профиля приложения в том виде, в каком оно рассматривается DCMI, пригодно, опять же, только для ограниченных наборов поверхностных метаданных общего характера, предлагаемых стандартами DCMI, и не затрагивает вопроса различных уровней поддержки детализации метаданных разными приложениями. Для предложений ЕНИП необходимо более развитое решение.

Кроме того, предложения DCMI не рассматривают онтологического аспекта описания метаданных – классов. DCMI определяет допустимые к применению поля (свойства) метаданных и варианты их значений, но не указывает типов ресурсов (классов), к которым эти относятся свойства, поскольку все предложения DCMI в большей мере нацелены лишь на описание web-документов, в наиболее широком смысле – на описание разработок/продуктов. DCMI не определяет, как описывать людей и организации, разного рода деятельность – проекты, мероприятия, и пр. Предложения ЕНИП затрагивают все эти и некоторые другие предметные области, и, соответственно, определяют не только свойства, но и классы метаданных.

Наконец, существующие предложения по представлению элементов Dublin Core в RDF/XML опираются лишь на понятия языка RDF Schema (RDFS [3]), с целью фиксации словарей элементов метаданных (свойств и типов значений), но не определяя ограничений на применение этих свойств, равно как и классов, к которым они относятся. Предложения ЕНИП затрагивают эти вопросы и другие аспекты построения онтологии каждой предметной области, а не просто спецификации набора терминов стандарта. Соответственно, для описания элементов метаданных ЕНИП используется подмножество языка описания Web-онтологий OWL [4].

Как следствие указанных требований, с целью структурной организации элементов метаданных ЕНИП вводится понятие “OWL-схемы блока ЕНИП”. Определение и описание всех элементов метаданных ЕНИП разбивается на отдельные схемы-фрагменты, каждая из которых вводит дополнительные понятия, либо уточняет понятия других схем.

Таким образом, элементы метаданных ЕНИП разбиваются на множество схем опциональных для поддержки в конкретных приложениях. Каждое приложение в ЕНИП может описать собственный профиль приложения, указывая набор поддерживаемых этим приложением схем, то есть, обеспечивается индивидуальный для каждого приложения уровень поддержки стандартов ЕНИП.

Элементы метаданных ЕНИП подразделяются на отдельные схемы по нескольким направлениям (рис. 1):

  • предметной области (как правило, описываемой сущности),
  • глубине детализации и специализациям данной предметной области,
  • а также общим для всех сущностей аспектам их описания.

Рис. 1. Способ структурной организации элементов метаданных ЕНИП

Последовательно расшифруем эти направления. Во-первых, различные информационные системы могут ориентироваться на различные предметные области. Например, одни имеют дело с научными публикациями, другие с проектами, третьи и с тем, и с другим. Соответственно, желательно иметь как минимум отдельную схему под каждую “минимальную предметную область”, чтобы тематически разделить элементы метаданных, а также предоставить каждому приложению возможность выбора набора необходимых ему предметных областей. Помимо содержательных предметных областей выделяются так называемые вспомогательные схемы, не несущие прямой смысловой нагрузки, но используемые в качестве необходимых элементов описания основных схем.

Наряду с выделением общих предметных областей, делается попытка определиться со стратегиями, методиками развития схем – наращивания уровней, глубины описания той или иной предметной области, подходящих для разных систем. Необходимо не просто предложить схему для той или иной сущности или научной области, но и для каждой из них предложить несколько “уровней поддержки” этой предметной области разными системами. Так, по полноте описания конкретной предметной области отдельные схемы ЕНИП, как правило, подразделяются на следующие уровни:

  • минимальная схема – необходимый разумный минимум, минимально достаточный для обмена метаданными, поддержки взаимосвязей ресурсов;
  • базовая схема – объем, достаточный для эффективного описания данных в системах, имеющих прямое отношение к данной предметной области;
  • расширенная схема – объем достаточный для основной работы специалистов данной предметной подобласти;

Дальнейшее наращивание глубины описания предметной области подразумевает переход к специализации предметной области, как правило, в нескольких направлениях. Термины, определяемые специализированными схемами, ориентированы в основном на обмен метаданными в рамках специализированных научных сообществ, на работу специалистов в данной отрасли. Например, поддержка библиографического описания публикаций, библиотечной деятельности, издательской деятельности - являются специализацией “минимальной предметной области” описания документов. Примером специализированной схемы является также поддержка специфики описания математической информации. Ещё примеры: поддержка проведения конференций является специализацией общего понятия конференции, поддержка детального описания конкретных типов разработок (программное обеспечение, веб-ресурсы, базы и наборы данных, оборудование) является специализацией общего понятия разработки (“продукта”).

Предметные области совместно с глубиной специализации формируют своего рода иерархическое измерение. Ортогональным к этому измерению является измерение возможных аспектов описания сущностей. Помимо основного “предметного” аспекта, в базовом наборе элементов метаданных ЕНИП выделяются следующие аспекты:

  • исторический аспект – сведения исторического характера, например, историческая справка о некоторой сущности, а также информация об уже не существующих в настоящее время сущностях, но существовавших ранее. Исторический аспект данных необходим в системах накопления информации, архивах, но не нужен системам, нацеленным на работу с исключительно актуальной информацией.
  • академический аспект – научные и организационные сведения, характерные для данного типа сущностей исключительно в контексте Академии Наук, например, принятые в РАН системы идентификации и рубрикации, информация о научных званиях и степенях, и пр.
  • официальный аспект – официальные реквизиты сущностей, такие как паспортная информация персон, официальные и банковские реквизиты организаций, государственные классификационные коды и пр.

Каждая сущность может характеризоваться собственным набором свойств, соответствующих конкретному аспекту, но, тем не менее, понятие аспекта независимо от типа сущности и, как правило, присуще всем типам сущностей, независимо от предметной области.

Подробнее механизмы организации модульных OWL-схем ЕНИП описаны в статье [1].

Основные понятия спецификации схемы в ЕНИП

Для понимания предложений по элементам научных метаданных ЕНИП существенно также вкратце пояснить основные понятия языка OWL, а также специфические понятия схем ЕНИП.

При описании схемы (онтологии) на OWL может определяться набор классов, набор свойств, а также может быть указан ряд утверждений об этих классах и свойствах, либо о классах и свойствах, определенных другими онтологиями. Следует отметить, что классы и свойства рассматриваются ортогонально: свойство определяется не в контексте класса, а независимо, и может быть использовано в различных классах.

Традиционно, одни классы могут быть подклассами других (например, “агент” – “персона”, “деятельность” – “проект”), в частности, допускается множественное наследование. Помимо этого, и для свойств есть понятие подсвойств. Подсвойство уточняет и специализирует смысл по сравнению с суперсвойством (например, свойство “участник” – подсвойства “руководитель”, “ответственное лицо”; свойство “название” – подсвойства “сокращенное название”, “официальное наименование”). На свойства могут быть указаны глобальные ограничения: его тип значений (примитивный тип XML Schema, либо объектный класс), область применения (класс, к которому относится это свойство, если указан), а также глобальные характеристики: обратное свойство, функциональность и пр. Помимо этого, в OWL возможно указание локальных ограничений на свойство в контексте некоторого класса: уточнение типа значений, мощности свойства (обязательность, допустимое количество значений) и пр.

Существенным для описания схем ЕНИП является также понятие контролируемых словарей – аналогов перечислимых типов XML Schema. Однако, в отличие от значений перечислимого типа, элементы контролируемого словаря являются полноценными ресурсами, имеющими собственные характеристики (такие как название, описание, а возможно и собственные поля), контролируемый словарь может быть расширяем, и пр. Кроме того, контролируемый словарь может быть организован иерархически, в таком случае он называется классификатором (рубрикатором), а также может быть организован в структуру тезауруса.

Основной профиль метаданных ЕНИП

Ниже приводится обзорное описание основного профиля схем метаданных ЕНИП. Детальное описание основного профиля, а также описание остальных схем и предложений ЕНИП, пояснение способа формирования RDF/XML-документов для обмена данными в соответствие со схемами ЕНИП и пр. - приведено в издаваемом Руководстве по схемам метаданных ЕНИП.

Предлагаемое обзорное описание структурировано следующим образом. В виде структурированного списка приводится определение основных классов, для каждого из которых приводится состав свойств данного класса и состав подклассов; аналогично описываются и подклассы. Следует учитывать, что каждый из подклассов наследует состав свойств, определенный в суперклассе. Также, для свойств, значением которых является подструктура, приведено описание состава полей подструктуры.

Описания классов и состава свойств разбиты на отдельные ЕНИП-схемы (указаны курсивом), в которых определяются данные классы или свойства, согласно описанной стратегии организации элементов метаданных ЕНИП. Так, схема описания действующего лица вводит понятие класса “Лицо” (субъект деятельности) и определяет ряд свойств этого класса. Минимальная подсхема описания организаций вводит понятие его подкласса “Организация”, минимальная подсхема описания персон вводит понятие подкласса “Персона”, далее базовые и расширенные схемы, а также схемы академического и исторического аспектов описания персон и организаций вводят дополнительные свойства к этим классам, и так далее.

Итак, основной профиль метаданных ЕНИП включает следующие схемы, классы и свойства:

Минимальная схема описания действующего лица:

Класс Лицо - Субъект деятельности (т.н. “агент”), то есть действующее лицо проектов и мероприятий, автор или участник разработок и публикаций. К этому классу относятся персоны, группы и коллективы, организационные единицы. Свойства класса:

    • Электронная почта* - Контактный адрес электронной почты.
    • Телефон* - Контактный телефон.
    • Другие контакты - Прочая контактная информация, которая не вошла в другие поля.
    • Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.

Базовая схема организаций:

    • Подкласс Организационная единица - Данный класс представляет организационные единицы (организации и подразделения), как частный случай действующего лица. Свойства класса:
      • Название - Имя, сопоставленное ресурсу, обычно, под которым он официально известен.
      • Сокращенное название - Сокращенное обозначение, как правило, аббревиатура.
      • Описание - Текстовое описание ресурса.
      • Адрес* - Полный почтовый адрес.
      • Контактное лицо* - Контактное лицо в организации.
      • Схема проезда - Описание проезда к организации, на конференцию, семинар и т.д.

Расширенная схема организаций:

    • Текущая деятельность - Описание текущей деятельности или тематики деятельности.
    • Предыдущий опыт - Описание предыдущего опыта в рассматриваемой области.
    • Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
    • Логотип (подструктура: Файл данных) - Мультимедийное изображение, представляющее собой логотип персоны, коллектива, организации и т.п.
    • Фото (подструктура: Файл данных) - Мультимедийное изображение, представляющее собой фотографию персоны, коллектива, здания организации и т.п.
    • Дата основания - Дата основания организации или подразделения.

Академическая схема организации:

    • Рубрика РФФИ* (элемент классификатора: Рубрика РФФИ) - Элемент классификатора областей знаний РФФИ .
    • Специальность ВАК* (элемент классификатора: Специальность ВАК) - Рубрика классификатора специальностей ВАК.

Историческая схема организационных единиц:

    • Дата расформирования - Дата расформирования организации/подразделения. По наличию данной даты историческая информация отличается от актуальной.
    • Историческая справка - Историческая справка в произвольной форме.

Расширенная схема организаций:

    • Подкласс Организация - Организация в юридическом смысле (отличается от подразделения) как частный случай организационной единицы.

Свойства класса:

    • Подчиненная организация* (ссылка: Организация) - Организация, административно или иным способом подчиненная данной организации.
    • Вышестоящая организация* (ссылка: Организация) - Организация, которой административно или иным способом подчинена данная организация.

Схема описания структуры организации:

    • Тип организации (элемент классификатора: Тип организации) - Тип организации, ссылка на элемент словаря принятых в рассматриваемой предметной области типов организаций.
    • Подразделения* (ссылка: Подразделение) - Подразделения, входящие в состав данной организации.

Академическая схема организации:

    • Административно подчиненная организация* (ссылка: Организация)
    • Регионально подчиненная организация* (ссылка: Организация)
    • Подчиненная по научной линии организация* (ссылка: Организация)
    • Административно вышестоящая организация* (ссылка: Организация)
    • Регионально вышестоящая организация* (ссылка: Организация)
    • Вышестоящая по научной линии организация* (ссылка: Организация)

Схема описания структуры организации:

  • Подкласс Подразделение - Подразделение (орг. единица, являющаяся частью некой организации в юридическом смысле).

Свойства класса:

    • Организация (ссылка: Организация) - Организация, в состав которой входит подразделение.
    • Тип подразделения (элемент классификатора: Тип подразделения) - Тип подразделения, ссылка на элемент словаря принятых в рассматриваемой предметной области типов подразделений.
    • Подчиненное подразделение* (ссылка: Подразделение) - Подразделения, административно подчиненные данному подразделению.
    • Вышестоящее подразделение* (ссылка: Подразделение) - Подразделение, которому административно подчинено данное подразделение.

Схема штата организаций:

  • Сотрудники* (подструктура: Штатная должность) - Должности (штатные единицы) организационной единицы и занимающие их сотрудники. Поля подструктуры:

Общая схема должности:

    • Наименование должности - Наименование занимаемой указанным лицом должности. В зависимости от поддерживаемой глубины структуризации, задается либо строкой, либо ссылкой на элемент расширяемого словаря типов должностей.
    • Приоритет - Число, определяющее порядок вывода элементов. Чем меньше число, тем выше в списке находится данный элемент. При этом не накладывается требования нумеровать элементы сплошной последовательностью (1,2,3..), допустимо указывать приоритеты с пропуском (10,20,30...).
    • Должностное лицо (ссылка: Персона) - Лицо, занимающее данную должность.

Историческая схема должностей:

    • Дата вступления - Дата вступления данного должностного лица в указанную должность.
    • Дата снятия с должности - Дата снятия данного должностного лица с указанной должности (в частности, увольнения), либо расформирования должности. По наличию данной даты историческая информация отличается от актуальной. В случае снятия с должности и назначения на данную должность нового лица, указывается новая структура “Должность” с указанием нового должностного лица и даты вступления в должность (то есть, структура “Должность” заводится для каждого факта нахождения некоторого лица в некоторой должности).

Схема штата организаций:

    • Работодатель (ссылка: Организационная единица) - Организация или подразделение, к которому относится данная должность.
    • Электронная почта* - Контактный адрес электронной почты.
    • Телефон* - Контактный телефон.
    • Другие контакты - Прочая контактная информация, которая не вошла в другие поля.
    • Подразделение - Подразделение, к которому относится данная должность (если не может быть указано непосредственно по ссылке).
    • Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.

Поддержка контролируемого словаря штатных должностей:

    • Наименование должности (элемент словаря: Тип должности) - Наименование занимаемой указанным лицом должности. В зависимости от поддерживаемой глубины структуризации, задается либо строкой, либо ссылкой на элемент расширяемого словаря типов должностей.

Базовая схема описания персоны:

    • Подкласс Персона - Данный класс описывает метаинформацию о людях, как частном случае действующего лица. Свойства класса:
      • Домашняя страница* - URL-адрес домашней страницы.
      • ICQ* - Номер профиля пользователя ICQ.
      • Дата рождения - Дата рождения лица.
      • Адрес* - Полный почтовый адрес.
      • Имя (подструктура: Имя персоны) - ФИО персоны. Поля подструктуры:
        • Фамилия - Фамилия персоны.
        • Имя - Личное имя персоны.
        • Отчество - Отчество или дополнительные имена персоны.
        • Значение - Полное (не разобранное) значение описываемой подструктуры.

Расширенная схема описания персоны:

    • Префикс - Почетный префикс к имени (например, "Sir", "Mr.", "Dr." и пр.).
    • Суффикс - Почетный суффикс к имени (например, “IV”).
    • Пол (элемент словаря: Пол) - Пол субъекта.

    Расширенная схема описания персоны:

      • Текущая деятельность - Описание текущей деятельности или тематики деятельности.
      • Интересы - Описание области интересов человека.
      • Предыдущий опыт - Описание предыдущего опыта в рассматриваемой области.
      • Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
      • Фото (подструктура: Файл данных) - Мультимедийное изображение, представляющее собой фотографию персоны, коллектива, здания организации и т.п.
      • Резюме (подструктура: Файл данных) - Резюме персоны (краткое описание личных сведений, достижений и т.п.).

    Академическая схема описания персоны:

      • Ученая степень* (подструктура: Ученая степень) - Ученая степень персоны (доктор физ.-мат. наук, кандидат технич. наук и т.д.). Поля подструктуры:
        • Обладатель (ссылка: Персона) - Обратная связь с лицом-обладателем ученой степени (заполняется автоматически).
        • Дата присуждения - Дата присуждения ученой степени/звания.
        • Ученая степень (элемент словаря: Ученая степень) - Наименование ученой степени как ссылка на элемент справочника (доктор физ.-мат. наук, кандидат технич. наук и т.д.).
        • Специальность ВАК (элемент классификатора: Cпециальность ВАК) - Рубрика классификатора специальностей ВАК.
      • Ученое звание* (подструктура: Ученое звание) - Академическое или ученое звание (типа профессор, академик, доцент, ...). Поля подструктуры:
        • Дата присуждения - Дата присуждения ученой степени/звания.
        • Присудившая организация - Название организации, присудившей ученое звание (если организация не может быть указана ссылкой).
        • Значение - Полное (не разобранное) значение описываемой подструктуры.
        • Ученое звание (элемент словаря: Ученое звание) - Собственно само ученое звание как ссылка на элемент справочника (профессор, академик, доцент, с.н.с. и пр.).
        • Присудившая организация (ссылка: Организационная единица) - Организация, присудившая ученое звание.

    Историческая схема описания персоны:

      • Дата смерти - Дата смерти, в случае описании информации об исторической личности. По наличию данной даты историческая информация отличается от актуальной.
      • Место рождения - Место рождения данной личности, указывается в произвольной форме. Ввиду сложности поддержки исторической информации об административно-территориальном делении, классификатор регионов не используется для указания места рождения (поскольку на момент рождения административно-территориальное деление могло быть другим).
      • Место смерти - Место смерти данной исторической личности, указывается в произвольной форме. Ввиду сложности поддержки исторической информации об административно-территориальном делении, классификатор регионов не используется для указания места смерти (поскольку на момент смерти административно-территориальное деление могло быть другим).
      • Историческая справка - Историческая справка в произвольной форме.

    Схема штата организаций:

      • Должность* (ссылка: Штатная должность) - Должности, занимаемые данным лицом.

    Минимальная схема деятельности:

    Класс Деятельность - Общий суперкласс для деятельности (проекты, мероприятия и т.д.). Деятельность имеет даты начала и окончания, исполнителей и описательные характеристики. Общий суперкласс для деятельности (проекты конференции и т.д.). Деятельность имеет даты начала и окончания. Свойства класса:

      • Название* - Имя, сопоставленное ресурсу, обычно, под которым он официально известен.
      • Сокращенное название - Сокращенное обозначение, как правило, аббревиатура.
      • Описание* - Текстовое описание ресурса.
      • Аннотация - Краткое описание или содержание источника.
      • Дата начала - Дата начала мероприятия, проекта или иной деятельности.
      • Дата окончания - Дата окончания мероприятия, проекта или иной деятельности.
      • Участник* (ссылка: Лицо) - Лицо, внесшее вклад в создание содержания ресурса.
      • Исполнитель* (ссылка: Лицо) - Субъект деятельности (организатор, исполнитель).

    Базовая схема проектов:

      • Подкласс Проект - Данный класс описывает официально-зарегистрированные проекты: планируемые, проводимые и завершенные. Свойства класса:
        • Код проекта - Код проекта по принятой системе кодирования.
        • Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
        • Ведущая организация (ссылка: Организационная единица) - Организация, ведущая проект.
        • Руководитель проекта (ссылка: Персона) - Лицо, являющееся руководителем проекта.
        • Ответственное лицо (ссылка: Персона) - Лицо, являющееся ответственным за проект.
        • Участвующая организация* (ссылка: Организационная единица) - Организация, участвующая в проекте.
        • Участник* (ссылка: Персона) - Лицо, участвующее в проекте.
        • Спонсор* (ссылка: Организационная единица) - Спонсор проведения мероприятий или деятельности, создания продуктов, издания публикаций и т.п.
        • Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.
        • Статус (элемент словаря: Статус проекта) - Статус проекта (планируется, начат, завершен, аннулирован,...).

    Расширенное описание проектов:

      • Результат проекта* (ссылка: Результат деятельности) - Разработки, полученные в результате выполнения проекта.
      • Публикация по проекту* (ссылка: Документ) - Публикации, выполненные в рамках проекта.
      • Отчет по проекту* (ссылка: Документ) - Проектный отчет, описывающий результаты проведения данного проекта.

    Академическая схема проектов:

      • Рубрика РФФИ* (элемент классификатора: Рубрика РФФИ) - Элемент классификатора областей знаний РФФИ .

    Схема мероприятий:

    • Подкласс Мероприятие - Мероприятие (конференция, семинар и т.д.).

    Свойства класса:

      • Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
      • Адрес* - Полный почтовый адрес.
      • Участник* (ссылка: Персона) - Участник мероприятия.
      • Организатор* - Организатор мероприятия.
      • Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.

    Минимальная схема результатов деятельности:

    Класс Результат деятельности - Данный класс описывает разработки (“продукты”), документы и прочие результаты деятельности.

    Свойства класса:

      • Название - Имя, сопоставленное ресурсу, обычно, под которым он официально известен.
      • Альтернативный заголовок* - Любая форма заголовка, используемая как замена или альтернатива официального заголовка ресурса.
      • Аннотация - Краткое описание или содержание источника.
      • Ключевые слова - Классификация с помощью списка слов с разделителями (например, через запятую).
      • Источник - Описание источника информации о данном ресурсе, например, наименование организации, ФИО и пр.
      • Авторские права - Авторские права (“копирайт”) на ресурс.
      • Создатель* (ссылка: Лицо) - Лицо, несущее первичную ответственность за создание содержания ресурса.
      • Участник* (ссылка: Лицо) - Лицо, внесшее вклад в создание содержания ресурса.
      • Web-адрес* - URL, в частности, HTTP-адрес контактной web-страницы, либо адрес FTP.

    Схема документов:

    • Подкласс Документ - К данному классу относятся разного рода документы и публикации, как печатные, так и цифровые. Документ рассматривается как частный случай разработки. Свойства класса:
      • Полный текст* (подструктура: Файл данных) - Полный текст документа в цифровом виде.
      • Язык (элемент словаря: Язык) - Язык интеллектуального содержания ресурса.
      • Подкласс Web-документ - Документ, доступный из Сети и не являющийся официальной публикацией.

Литература

  1. Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Калёнов Н.Е., Кулагин М.В., Серебряков В.А. Предложения по наборам метаданных для научных информационных ресурсов ЕНИП РАН // Сборник докладов Шестой Всероссийской конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL’2004, с. 277-284, Пущино, 2004. http://www.impb.ru/~rcdl2004/cgi/get_paper_pdf.cgi?pid=42
  2. Бездушный А.А., Бездушный А.Н., Нестеренко А.К., Серебряков В.А. , Сысоев Т.М. Возможности технологий ИСИР в поддержке Единого Научного Информационного Пространства РАН // Сборник докладов Шестой Всероссийской конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL’2004, с.254-262, Пущино, 2004. http://www.impb.ru/~rcdl2004/cgi/get_paper_pdf.cgi?pid=43
  3. RDF Primer. W3C Recommendation 10 February 2004. http://www.w3.org/TR/rdf-primer/
  4. OWL Web Ontology Language Overview. W3C Recommendation 10 February 2004.
    http://www.w3.org/TR/owl-features/
  5. Expressing Qualified Dublin Core in RDF / XML. http://dublincore.org/documents/dcq-rdf-xml/
  6. DCMI Metadata Terms. http://dublincore.org/documents/dcmi-terms/
  7. DC Library Application Profile. http://www.dublincore.org/documents/library-application-profile/
  8. DC Education Working Group: Draft Proposal. http://dublincore.org/documents/education-namespace/
  9. DC Government Application Profile. gov-application-profile/"http://dublincore.org/documents/gov-application-profile/
  10. DCMI Agents Working Group. http://dublincore.org/groups/agents/
  11. PRISM: Publishing Requirements for Industry Standard Metadata. http://www.prismstandard.org/
  12. National Archives of Australia – AGLS. http://www.naa.gov.au/recordkeeping/gov_online/agls/summary.html
  13. Representing vCard Objects in RDF/XML. W3C Note 22 February 2001 http://www.w3.org/TR/vcard-rdf
  14. FOAF Vocabulary Specification. Namespace Document 1 May 2004. http://xmlns.com/foaf/0.1/
  15. BIBLINK Project. http://hosted.ukoln.ac.uk/biblink/
  16. bibTeX Definition in Web Ontology Language (OWL) Version 0.1. Working Draft, 2004. http://visus.mit.edu/bibtex/0.1/
  17. Math-Net Schemes. http://www.iwi-iuk.org/material/RDF/1.1/
  18. UKOLN Research Support Libraries Programme Collection Description. http://www.ukoln.ac.uk/metadata/rslp/schema/
  19. AKT Reference Ontology. http://www.aktors.org/publications/ontology/
  20. KA2 - Knowledge Acquisition Community Ontology. http://ontobroker.semanticweb.org/ontos/ka2.html
  21. SWRC - Semantic Web Research Community Ontology. http://ontobroker.semanticweb.org/ontos/swrc.html
  22. CERIF: Common European Research Information Format. http://www.cordis.lu/cerif/src/about.htm
  23. The CIDOC Conceptual Reference Model. http://cidoc.ics.forth.gr/
  24. Вежневец А.А., Бездушный А.Н., Серебряков В.А., Цыганов С.А. О реализации систем поддержки применения результатов фундаментальных исследований // Сборник докладов Шестой Всероссийской конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", с. 247-253, Пущино, 2004. http://www.impb.ru/~rcdl2004/cgi/get_paper_pdf.cgi?pid=38
  25. Лаврёнова О.А., Вежневец А.А. Структура и реализация электронной библиотеки диссертаций в РГБ // Сборник докладов Второй Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург,.2003
  26. П.М. Курив, Д.В. Котеров, Н.Е. Калёнов. Архитектура и функциональность Библиотечной Подсистемы ИСИР РАН // Электронный журнал, посвященный созданию и использованию электронных библиотек, том 7, выпуск 1. Москва: Институт развития информационного общества - 2004.
  27. А. С. Аджиев, А. Н. Бездушный, С. П. Коновалов, В. А. Серебряков. Общероссийский WEB-портал математических ресурсов. // Сборник докладов Второй Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург, 2003
  28. А.Н.Алексеев, А.В.Созыкин, Г.Ф.Масич, А.Н. Бездушный. Подсистема проведения конференций и ее метаданные // Электронный журнал, посвященный созданию и использованию электронных библиотек, том 7, выпуск 2. Москва: Институт развития информационного общества - 2004.
  29. Р.А. Коротченко, И.О. Ярощук, А.Н. Бездушный. Версия схемы метаданных экспериментальных исследований с приложением в гидроакустике // Электронный журнал, посвященный созданию и использованию электронных библиотек, том 7, выпуск 1. Москва: Институт развития информационного общества - 2004.
!18

Интеграция научных информационных систем посредством механизма рабочих процессов.

Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., (Вычислительный центр РАН)
Бездушный А.А. (Московский физико-технический институт)
Ярощук И.О. (Тихоокеанский океанологический институт ДВО РАН)

Введение

Рабочие процессы привлекают большое внимание со стороны разработчиков информационных систем, потому что автоматизация исполнения рабочих процессов [13], протекающих в различных областях деятельности человека, позволяет:

  • Повысить контролируемость и предсказуемость таких процессов.
  • Ускорить процесс взаимодействия с пользователями и приложениями.
  • Посредством развитых средств мониторинга собирать статистику выполнения рабочих процессов для их последующей оптимизации.
  • Разрабатывать гибкие языки декларации маршрута рабочих процессов.
  • Избавить исполнителя от выполнения множества рутинных типовых задач, а курьеров – от необходимости играть роль “транспортного механизма” рабочих процессов.
  • Выполнять эффективную параллельную работу.
  • Привлекать к этапам выполнения процесса только специалистов с необходимым уровнем квалификации за счет гибкой политики ролей пользователей.

На данный момент существует целый ряд систем управления потоками работ. Большая часть усилий разработчиков программного обеспечения в последнее время направлена на исследование рабочих процессов в бизнес-среде. Хотя бизнес-процессы и заслуживают того внимания, которое им уделяется, существует еще один класс рабочих процессов, наиболее часто встречающихся при решении сложных научных вычислительных задач [1,2,3]. Процессы данного класса получили название научных потоков работ. К основным отличиям бизнес-процессов и научных вычислений можно отнести следующие:

  • Бизнес процессы ориентированы, по большей части, на сложные потоки управления, в то время как в научных процессах большее внимание уделяется потокам данных.
  • Научные процессы предъявляют высокие требования к средствам преобразования данных, так как экспериментальные данные представлены в сильно различающихся форматах.
  • В научных процессах особо важная роль отводится поддержке средств моделирования и анализа полученных данных.
  • Интеграция разнородных данных в соответствии с семантическим описанием их структуры является неотъемлемой частью научного вычислительного процесса.
  • Научные процессы тесно взаимодействуют с человеческими ресурсами, которые могут “вмешиваться” практически в любое состояние, например, изменяя контекст, вводя дополнительные параметры.
  • Важной задачей научных вычислительных процессов является хранение промежуточных результатов вычислений для последующей обработки и анализа.

Термин научные потоки работ описывает набор структурированных действий и вычислений, которые возникают при решении научной проблемы. Данный тип рабочих процессов особенно важен с точки зрения автоматизации повседневной деятельности научных сотрудников. Несколько причин, по которым научные потоки работ представляют особый интерес для исследователей в данной области:

  • Научные сотрудники составляют значительный процент пользователей информационных и вычислительных сетевых ресурсов.
  • Наука всегда была требовательной к объемам вычислений и обрабатываемой информации. Ученые больше не могут обходиться при проведении повседневных экспериментов без помощи разнообразных измерительных и вычислительных систем, данных смежных областей.
  • Научные потоки работ могут стать основными составляющими успеха при автоматизации гетерогенных вычислительных процессов. Потоки работ, позволяющие выполнять параллельные вычисления, асинхронное взаимодействие с пользователями и внешними системами, обработку исключительных ситуаций, дают ученым возможность полноценно использовать комплексные вычислительные процессы для решения сложных научных проблем, не прибегая к низкоуровневому программированию.

Специфика научных вычислительных процессов определяет ряд задач, которые должна решать система управления потоками работ:

  • Решение научной проблемы, как правило, сопряжено с обращением к ряду вычислительных и измерительных систем. Вычисления включают в себя большое количество этапов по преобразованию и обработке данных, а также этапы обычной верификации и валидации данных на входе и выходе математических алгоритмов.
  • Должны обрабатываться несоответствия в форматах данных между ресурсами хранилищ научной информации и аналитическими средствами с конвертированием данных в случае необходимости к требуемому представлению.
  • При возникновении исключительных ситуаций должен выполняться “семантический откат” выполненных в ходе процесса изменений, так как обычный откат изменений в хранилищах данных зачастую невозможен в связи с большой продолжительностью по времени некоторых этапов вычислительного процесса.
  • Многие научные вычислительные процессы могут продолжаться длительный период времени (недели и даже месяцы), что накладывает дополнительные требования к надежности и отказоустойчивости системы управления потоками работ.
  • Научные потоки работ также могут привлекать человеческие ресурсы. Это особенно актуально на ранних стадиях работы вычислительного процесса. Роли участвующих в процессе людей должны быть четко определены для обеспечения эффективного взаимодействия процесса и наиболее подходящего специалиста.
  • Вычислительная среда гетерогенна. Она включает в себя различные средства, начиная от суперкомпьютеров и специализированных измерительных систем до рабочих станций. Это обеспечивает дополнительную сложность задачи поддержки и управления вычислительными процессами.

На текущий момент большая часть действий, составляющих научные вычислительные процессы, уже выполняется учеными-экспериментаторами. Однако, при их автоматизации с помощью научных потоков работ, повышается эффективность обеспечения вычислений, которая определяется такими факторами, как: выразительные языки описания рабочих процессов, эффективные средства их исполнения и мониторинг выполнения этапов вычислительного процесса.

Проблемы, возникающие на пути решения задачи автоматизации научных вычислительных процессов

Научные потоки работ выходят за рамки обычных бизнес процессов. Для практического использования научных рабочих процессов должен быть решен ряд возникающих при этом задач. Первая категория таких задач относится к рабочим процессам в целом. Она включает такие задачи, как:

  • декларативное определение потоков управления и данных;
  • семантическая обработка исключений;
  • принятие решений человеком по отдельным этапам вычислений;
  • управление ролями участников процесса и динамическое изменение этих ролей;
  • автоматическое исполнение и мониторинг рабочих процессов;
  • координация и синхронизация с другими научными и бизнес процессами.

Вторая категория задач характерна для научных потоков работ и включает требования, выполнение которых необходимо при проведении научных вычислений, но которые не могут быть полностью адресованы традиционным системам управления потоками работ:

  • возможность взаимодействия с большим количеством аналитических средств, не только с хранилищами данных;
  • функционирование в различных вычислительных средах, включая суперкомпьютеры;
  • широкие возможности по преобразованию данных;
  • наглядное визуальное представление описания и состояний исполняющегося потока работ с поддержкой вывода графической информации.

На основании приведенного сравнения требований к функциональности стандартных и научных рабочих процессов можно выделить список общих требований к системе исполнения потоков работ для возможности моделирования сложных научных вычислений:

  • наличие выразительных средств декларации потоков работ;
  • обеспечение прозрачного доступа к научным данным и вычислительным сервисам;
  • возможность построения композиций вычислительных процессов;
  • масштабируемость: многие научные потоки работ оперируют большими объемами данных и/или нуждаются в высокоскоростном доступе к вычислительным системам;
  • асинхронное взаимодействие: долгоживущие потоки работ должны иметь возможность исполнения в фоновом режиме на удаленном сервере без необходимости сохранения постоянной связи с клиентом;
  • эффективные механизмы обработки исключительных ситуаций;
  • взаимодействие с пользователями: многие научные потоки работ нуждаются в принятии решений человеком на различных этапах выполнения;
  • динамический выбор вычислительных систем, удовлетворяющих потребностям процесса;
  • эффективные механизмы преобразования данных в различных форматах.

Архитектура системы управления научными потоками работ

В данном разделе описывается архитектура разрабатываемой системы автоматизации исполнения научных потоков работ. Данное решение следует ряду WEB-стандартов для поддержки открытой модульной архитектуры. На следующей диаграмме приведена компонентная структура системы исполнения научных рабочих процессов:

Рис. 1. Компонентная схема системы исполнения рабочих процессов

В качестве языка описания автоматизированных рабочих процессов в системе используется язык BPEL4WS (Business Process Execution Language For WEB-Services[4]) как наиболее выразительный язык, позволяющий описывать как блочные, так и графовые потоки работ. Вычислительные сервисы, сервисы преобразования данных и другие участники рабочего процесса представлены WEB-сервисами, следующими архитектуре WSA и стандартам WSDL (Web Services Description Language[5]) и SOAP (Simple Object Access Protocol[6]). Язык описания композиций WEB-сервисов BPEL4WS поддерживает основные конструкции, необходимые для эффективного описания вычислительных процессов:

  • параллельное вычисление с поддержкой графовых структур;
  • обработка исключительных ситуаций с возможностью “семантической” компенсации контекстов в случае долгоживущих вычислительных транзакций;
  • преобразование данных;
  • асинхронное взаимодействие с поддержкой механизмов корреляции сообщений;
  • возможность динамического выбора участников процесса;
  • представление рабочего процесса в виде WEB-сервиса (создание композиций вычислительных процессов).

Для возможности визуального моделирования описаний научных процессов реализованы средства моделирования BPEL4WS-документов с поддержкой средств синтаксической и структурной верификации, а также механизмов управления уровнями детализации редактируемых описаний (рис.2).

Рис. 2. Средства визуального моделирования описаний рабочих процессов

Регистрация новых описаний рабочих процессов и их размещение в репозитории системы управления осуществляется посредством административного WEB-сервиса, после чего информация о зарегистрированном процессе и списке активных экземплярах доступна для просмотра и модификации (рис.3).

Рис. 3. Интерфейс просмотра и модификации зарегистрированной информации

Динамический запуск и исполнение потоков работ осуществляются через визуальное приложение, оформленное в виде Java-апплета и взаимодействующее с сервером исполнения по специальному XML-протоколу. Данный клиентский интерфейс позволяет визуализировать процесс исполнения потока работ (рис.4).

Рис. 4. Клиентский интерфейс интерпретатора описаний рабочих процессов

Разработанная система исполнения рабочих процессов имеет развитые средства визуальной отладки потоков работ. При этом реализована клиент-серверная архитектура, состоящая из сервера отладки, визуального клиента и XML-протокола для их взаимодействия, позволяющая выполнять полноценную отладку рабочих процессов в реальном времени (рис.5).

Рис. 5. Клиентский интерфейс модуля отладки

Для возможности протоколирования хода исполнения рабочего процесса предназначен модуль журналирования состояний действий и исключительных ситуаций, возникающих на маршруте рабочего процесса. Доступ к журналу сообщений осуществляется через WEB-интерфейс. Фрагмент протокола исполнения рабочего процесса представлен на рис. 6.

Рис. 6. Протокол исполнения рабочего процесса

Управление безопасностью доступа к операциям рабочего процесса осуществляется посредством подключаемых модулей безопасности, с помощью которых можно реализовать любую схему управления доступом. Для аутентификации и авторизации пользователя внешними системами, к которым производится обращение на маршруте потока работ, поддерживается возможность распространения контекста безопасности в заголовках SOAP-сообщений, передаваемых внешним вычислительным сервисам.

Применение технологии научных потоков работ к решению задачи гидрофизических исследований и мониторинга

В этом разделе рассматривается задача применения технологии рабочих процессов к решению задачи автоматизации исследований гидрофизических процессов.

В течение длительного периода на стационарном гидрофизическом полигоне ТОИ ДВО РАН “мыс Шульца” проводятся комплексные океанологические наблюдения. Полученные сведения описывают разнообразные гидрофизические процессы в прибрежной области и являются основой для дальнейшего изучения шельфовой зоны Японского моря.

В настоящее время накоплен и продолжает поступать разнообразный материал экспериментальных измерений, результатов обработки и интерпретации. По результатам натурных данных гидроакустических измерений проводилось численное моделирование эволюции внутренних волн и распространения звука в шельфовой области [7,8,11,12]. Соответствующая схема исследований представлена на следующей диаграмме (рис.7):

Рис. 7. Базовая схема мониторинга

В соответствии с приведенной схемой процесс гидрофизического мониторинга условно разбивается на три основных этапа:

  1. Процесс сбора экспериментальных данных (рис.8).
  2. Рис. 8. Пример процесса последовательного сбора экспериментальных данных

    Каждая из групп экспериментальных установок управляется отдельным микропроцессором [9,11] и представлена снаружи Web-сервером, поддерживающим взаимодействие по протоколу SOAP. Для снятия показаний с приборов в рамках рабочего процесса происходит последовательное обращение к методам таких Web-сервисов. Полученный таким образом массив информации является входным параметром процесса первичной обработки данных.

  3. Процесс первичной обработки информации и размещение ее в хранилище данных (рис.9).
  4. Рис. 9. Пример простого процесса первичной обработки экспериментальных данных

    На данном этапе происходит обращение рабочего процесса к Web-сервисам конвертирования, а затем агрегирования данных, в задачу которых входит преобразование форматов данных, получаемых с различных измерительных устройств, к каноническому формату и их агрегирование [10] в соответствии с каноническим описанием (метаданными) [12]. После этого процесс обращается к Web-сервису импорта-экспорта хранилища экспериментальных данных для загрузки обработанной информации. Дальнейшая процедура анализа полученных данных – математическая обработка.

  5. Процесс математической обработки (рис.10).

Рис. 10.Типовая схема процесса математической обработки экспериментальных данных

Данный процесс обращается к подключаемым Web-сервисам, реализующим различные алгоритмы математической обработки экспериментальных данных. При этом на этапе контроля применимости данного алгоритма процесс может привлекать людей для формирования экспертной оценки. В случае успешной отработки алгоритма происходит сохранение результата обработки в хранилище данных посредством обращения к сервису импорта. Число подобных итераций равно числу доступных математических алгоритмов. При этом сам процесс выполнения такого алгоритма может также быть представлен в виде отдельного потока работ, выполняя, например:

    • Обращение к дополнительным источникам данных для получения статистической информации, необходимой для выполнения расчетов [10].
    • Использование внешних вычислительных сервисов общего характера для решения конкретных математических уравнений.
    • Обработку исключительных ситуаций.
    • Привлечение экспертов к отдельным этапам работы алгоритма.

Таким образом, весь процесс гидрофизического мониторинга укладывается в применение набора стандартных технологий, предлагаемых потоками работ, в значительной степени автоматизирующих данный процесс и делающих его более гибко определяемым и управляемым. На данном этапе работ над проектом выполняется прототипирование системы управления гидрофизическими наблюдениями на базе технологии научных рабочих процессов.

Заключение

Научные потоки работ представляют собой интересный объект для исследования. Во-первых, научные вычислительные процессы имеют ключевые характеристики традиционных рабочих процессов, что делает их полигоном для обширного применения уже имеющихся наработок и исследований в этой области. Во-вторых, научные рабочие процессы достаточно сильно отличаются от бизнес-процессов, чтобы являться объектом отдельных исследований. В процессе этих исследований появляется множество интересных задач, которые не возникают в результате анализа традиционных потоков работ. Процессы, аналогичные научным вычислениям, имеют место и в других применениях технологии рабочих процессов, что гарантирует актуальность рассматриваемых в данной статье проблем и их решений.

Литература

  1. Catherine Houstis, Spyros Lalis “A grid service-based infrastructure for accessing scientific collections: the case of the Arion system” // 2002
  2. Bertram Ludдscher, Ilkay Altintas “Scientific Workflow Management and the Kepler System” // September 2004; revised March 2005, http://www.sdsc.edu/%7Eludaesch/Paper/kepler-swf.pdf
  3. Bertram Ludдscher, Kai Lin “Managing Scientific Data: From Data Integration to Scientific Workflows” // 2004, http://users.sdsc.edu/~ludaesch/Paper/gsa-sms.pdf
  4. Business Process Execution Language for Web Services Version 1.1 // http://www-106.ibm.com/developerworks/library/ws-bpel/
  5. Web Services Description Language (WSDL) Version 2.0 Part 1: Core Language // http://www.w3.org/TR/2004/WD-wsdl20-20040326/
  6. SOAP Version 1.2 Part 1: Messaging Framework // http://www.w3.org/TR/2003/REC-soap12-part1-20030624/
  7. Борисов О.В., Рутенко А.Н., Трофимов М.Ю. Пример гидроакустического мониторинга на шельфе Японского моря // Акустический журнал 1997. - Т 43.
  8. Борисов С.В., Рутенко А.Н., Коротченко Р.А. и др. Измерительно-регистрационный комплекс для акустико-гидрофизических исследований на шельфе и некоторые результаты его применения в натурных экспериментах.
  9. Коротченко Р.А., Трофимов М.Ю. Комплекс программ компьютерного моделирования гидрофизического полигона // Информатика в океанологии. ТОИ ДВО РАН, Владивосток, 1996. - С. 81-96
  10. Нестеренко А.К., Сысоев Т.М., Бездушный А.А., Бездушный А.Н., Серебряков В.А. Интеграция распределенных данных на основе технологий Semantic Web и рабочих процессов. // Сборник докладов Шестой Всероссийской конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Пущино, 2004.
  11. Коротченко Р.А., Бездушный А.Н., Ярощук И.О. Проект виртуального геофизического полигона на основе морской экспериментальной станции ДВО РАН "мыс Шульца"" // В кн. материалы докл. 3-й Всерос. симпозиума "Сейсмоакустика переходных зон". Владивосток: ДВГУ, 2003. - С.163-165.
  12. Р.А. Коротченко, И.О. Ярощук, А.Н. Бездушный. Версия схемы метаданных экспериментальных исследований с приложением в гидроакустике // Электронный журнал, посвященный созданию и использованию электронных библиотек, том 7, выпуск 1. Москва: Институт развития информационного общества - 2004.
  13. А.К. Нестеренко, А.А. Бездушный, Т.М. Сысоев, А.Н. Бездушный. Возможности службы управления потоками работ по манипулированию ресурсами репозитория ИСИР // Сборник научных трудов X научно-практического семинара "Новые технологии в информационном обеспечении науки". Москва: 2003. - С.206-231.
!19

Интеграция и загрузка структурированных данных в ИС на основе платформы ИСИР

Аджиев А.С.
(Межведомственный суперкомпьютерный центр РАН)

Введение

Одной из важнейших проблем, возникающих при организации работы информационной системы (ИС), является ее наполнение данными. При этом, как правило, структура (схема данных, онтология) репозитория ИС отличается от структуры данных, вводимых в систему. Иногда структура данных вообще не известна априори (полуструктурированные данные). Однако в большинстве ИС обычно загружается информация с известной структурой. Как правило, это структурированный текст, семантика компонентов структуры которого априори известна. Структура такого текста – однородная последовательность групп связанных ресурсов. Например, последовательность публикаций с указанием авторов, или последовательность организаций с указанием сотрудников. Структуру каждой такой группы будем называть структурой источника данных, а соответствующую ему онтологию – онтологией источника или исходной онтологией. Онтологию целевого репозитория будем называть целевой онтологией.

Как правило, для ИС существует несколько источников данных. Это могут быть другие ИС, базы данных, интерактивные вводы пользователей и другие. Информация может грузиться в пакетном режиме или вводиться интерактивно прямо в базу знаний ИС. В обоих случаях помимо задачи преобразования данных и их интеграции часто возникают также задачи исправления ошибок в них, а также контроль их адекватности оператором. Решение этих задач может быть осуществлено, как в процессе модификации базы, так и потом, в режиме "наведения порядка в ИС".

Для каждого источника данных решение всех трех задач, как правило, индивидуально. Однако решение отдельных подзадач часто более универсально и может быть применено для нескольких разных источников (например, поставляющих в ИС ресурсы одного и того же типа, и др.). Создаваемая подсистема призвана решать эти задачи.

Постановка и анализ задачи

Архитектура ИС на основе ИСИР

Интегрированная система информационных ресурсов (ИСИР) [5] – универсальная платформа для построения информационных систем и порталов. В основе любой ИСИР-системы лежит объектная модель данных, представленная как OWL-онтология (в более ранних версиях – RDFS-схема). Код прикладной логики ИС также работает с объектными данными, представленными в формате RDF, либо в виде эквивалентной структуры JavaBean классов. Фактически данные хранятся в хранилище более простой структуры (обычно реляционная СУБД), скрытом от прикладного кода ИС. Платформа ИСИР предоставляет также средства аудита объектов и разграничения прав доступа к ним для разных клиентов. OWL-онтология [6] ИС является целевой онтологией для загрузчика-интегратора.

Онтология источника данных

В соответствии с общепринятым определением, онтология [8] описывает информацию, как совокупность связанных между собою информационных ресурсов, структура которой удовлетворяет заданным ограничениям. Будем считать, что в репозитории ИС и загружаемых данных каждому ресурсу соответствует один объект реального мира из предметной области ИС. Причем, в загружаемых данных одному объекту реального мира может соответствовать несколько информационных ресурсов (имеются дубликаты), а в целевом репозитории ИС – только один.

При интеграции происходит преобразование информации от исходной онтологии к целевой. Обе эти онтологии (их части, описывающие структуру загружаемых данных) описывают одну предметную область и содержат классы и связи, имеющие сходную семантику. В процессе преобразования новые объекты и связи данных в целевой онтологии вычисляются по объектам и связям загружаемых данных.

Будем исходить из ситуации, когда загружаемые данные заданы как структурированный текст, где каждый синтаксический элемент соответствует некоторому классу онтологии источника, а синтаксические связи и пути между синтаксическими элементами соответствуют связям онтологии источника. Таким образом, онтология источника в нашем случае является концептуальной схемой данных, включающей словарь классов объектов и возможных бинарных отношений с известной семантикой. База знаний, определенная синтаксической структурой, выражена в виде дерева, выделяется средствами синтаксического анализа и представляется как XML-документ.

Связи могут быть выражены не только синтаксически, но и ссылками на объект связи (здесь понятия “связь”, “объект” и “субъект” мы понимаем в смысле RDF [7]). Эта ситуация возникает, например, при преобразовании в дерево и сериализации графовых структур, обычно применяемой в репликации данных между разными базами данных и ИС (например – XML-представление RDF-графа базы знаний, где для ссылки используется атрибут rdf:resource). В таких случаях считаем, что в исходной онтологии такое описание связи в загружаемых данных соответствует не только связи, но и ресурсу – объекту связи. Поскольку в загружаемых данных мы допускаем дубликаты, то ограничение, что связями исходной онтологии являются лишь синтаксические связи в структуре текста, не сужает класс решаемых задач.

Таким образом, без ограничения общности считаем, что на входе загрузчика имеем XML-текст с известной структурой и семантикой ее элементов, которую и рассматриваем как исходную концептуальную схему или онтологию.

Проблемы, возникающие при преобразовании данных, классификация ошибок и конфликтов

Как правило, между исходной и целевой онтологиями нельзя установить взаимно однозначного соответствия по семантике понятий и связей (иначе концептуальные схемы данных совпали бы, и преобразование данных не потребовалось). Обычно существуют различия – конфликты схем данных [1,2].

В наиболее общем виде объекты и связи целевой онтологии представимы как функции от объектов и связей в онтологии источника данных. Такие функции принимают на входе и выдают коллекции из объектов и связей каждого типа. Например, связи представимы как булевские функции, показывающие, есть ли между заданными объектами связь заданного типа. Можно построить преобразователь данных, в котором эти функции будут реализованы на алгоритмическом языке (Java). Но такие функции не могут обладать даже минимальной универсальностью, так как должны быть переписаны даже при незначительных изменениях задачи.

Все классы и связи целевой онтологии имеют свои прототипы в исходной онтологии (классы и связи, по экземплярам которых они вычисляются). Будем считать, что для любых двух ресурсов, связанных между собою в целевой онтологии, можно указать в исходной онтологии соответствующие пути от ресурсов – прототипов субъекта связи, к ресурсам – прототипам объекта связи, и это Xpath-пути в XML-представлении загружаемых данных. Сформулированное ограничение несколько сужает класс задач, решаемых загрузчиком-интегратором. Например, если исходные данные - персоны с указанием возраста, а в репозитории ИС надо проставить связи между теми из них, кто имеет одинаковый возраст – такая задача не входит в рассматриваемый класс задач (указанная связь не имеет прототипа).

Многие исследователи, в соответствии со своими потребностями, давали разные классификации конфликтов онтологий (например [1, 2 и 3]). Все эти классификации выделяли, в целом, сходные наборы конфликтов. Применительно к сформулированной выше задаче интеграции на основе существующих работ можно выделить следующий перечень конфликтов:

  1. Конфликт типов или форматов атрибутов. Атрибут в одной схеме имеет не тот тип или формат, что у семантически эквивалентного ему атрибута другой схемы. Например, целое число или дата могут быть выражены строкой, дата записана разными способами, а физические величины – в разных единицах измерения.
  2. Использование различного набора атомарных атрибутов для описания объектов одного класса. Например, для конференции можно указать даты начала и конца, или дату начала и длительность. Адрес может быть указан как одна строка, либо как набор атрибутов “индекс”, “город”, “улица” и т.д.
  3. Использование различных объектных структур и степени детализации [4] для описания информации об объектах одного класса. Например, персона в одной онтологии может быть представлена строкой, содержащей ее имя, а в другой быть отдельным ресурсом сложной структуры.
  4. Использование разных по семантике элементов онтологии для типизации одних и тех же по семантике объектов (семантические конфликты). Например, в исходной онтологии есть классы “учащиеся” и “работники”, в то время как в целевой те же объекты типизируются как “местные” и “иногородние” или просто “персоны”. В таких случаях семантика данных в терминах целевой онтологии определяется самими данными, а значит и преобразование каждого конкретного ресурса определяется отдельно значениями атрибутов и связей этого ресурса.
  5. Конфликты ограничений целостности онтологий. Например, какие-то связи могут иметь разные ограничения кардинальности или должны принимать значения из фиксированного набора ресурсов. Значения каких-то атрибутов могут быть несовместимы между собою по семантическим причинам (например, возраст детей быть больше возраста родителей).

Описанная выше классификация построена на основе классификаций, предложенных в [1,2], из которых были удалены конфликты имен (поскольку исходная онтология является по условию известной), а также обобщены некоторые классы конфликтов.

Помимо конфликтов схем, на практике часто встречаются также ошибки данных. Их можно разделить на ошибки значений, и семантические ошибки. В ошибки значений атомарных атрибутов входят опечатки и отклонения формата значения атрибута от декларированного в исходной онтологии. Их можно обнаружить и исправить при интеграции. Мы не рассматриваем ошибки "объектных атрибутов", т.е. несоответствия входных данных ограничениям исходной онтологии, поскольку по условию задачи семантика входных данных интерпретируется в соответствии с заданной априори схемой.

К семантическим будем относить ошибки, когда фактическая семантика отдельных объектов не соответствует декларируемой для нее в исходной онтологии. Например, когда вместо фамилии персоны написано отчество. По сути, такие ошибки можно рассматривать как частный случай семантических конфликтов, или как особенность онтологии источника.

Принятие недостоверных решений, роль эксперта

Решение задачи интеграции можно рассматривать как объединенную онтологию, включающую в себя исходную и целевую онтологии, а также, как дополнительные ограничения целостности, правила (алгоритмы) преобразования знаний из исходной онтологии в целевую. Загрузчик-интегратор можно рассматривать как агент, осуществляющий необходимый логический вывод в этой онтологии на имеющейся объединенной базе знаний. Можно выделить 2 типа правил преобразования:

  1. Правила, формулируемые в терминах сущностей объединенной онтологии (т.е. в терминах классов и связей).
  2. Правила, формулируемые в терминах обрабатываемых знаний.

Правила, формулируемые в терминах обрабатываемых знаний, на основе описанной выше классификации конфликтов можно разбить на 6 подтипов:

  1. Нормализация и исправление ошибок значений атомарных атрибутов.
  2. Вычисление значений атомарных атрибутов, не существующих в онтологии источника, преобразование форматов и типов.
  3. Исправление семантических ошибок и конфликтов.
  4. Идентификация ресурсов. Выявление ресурсов, соответствующих тому же объекту реального мира, что и заданный ресурс.
  5. Оценка приоритетности данных при слиянии ресурсов, соответствующих одному объекту реального мира, в случаях, когда оценка проводится на основе самих данных.
  6. Решение конфликтов ограничений целостности.

По условию постановки задачи и ограничений, наложенных на исходную онтологию, правила первого типа могут быть формально заданы на одном из языков преобразования объектных данных, например, XSLT. Правила второго типа формализовать сложнее. Они не всегда могут быть заданы как машинно-выполнимые алгоритмы, и часто требуют информацию, не содержащуюся в объединенной базе знаний, то есть внесение информации извне (например, вопрос к эксперту). Будем называть результаты, выдаваемые такими правилами, недостоверными решениями.

Недостоверные решения могут приниматься специальными алгоритмическими модулями, которые выносят решение на основе анализа данных, статистики предыдущих сеансов загрузки, мнения человека-эксперта и других факторов. В последнем случае модуль использует специальный пользовательский интерфейс, который предоставляет эксперту всю необходимую информацию для принятия решения.

Архитектура загрузчика-интегратора

Создаваемый загрузчик-интегратор должен осуществлять пакетную загрузку данных в ИС из файла, содержащего однородную последовательность групп связанных ресурсов, т.е. должен циклически обрабатывать все такие группы. Алгоритмические модули принятия недостоверных решений в простых случаях принимают решения самостоятельно, и лишь в сложных обращаются к эксперту. При этом циклическая обработка приостанавливается до получения от эксперта ответа.

Модульный принцип построения

Описываемая архитектура загрузчика-интегратора является единой для всех возможных источников данных рассматриваемого класса и всех целевых ИС. Но каждый алгоритмический модуль, реализующий конкретное правило преобразования, зависит от конкретной задачи. Однако некоторые, в особенности, простые алгоритмические модули, могут применяться, хотя и не во всех, но в достаточно широкому кругу задач. Таким образом, загрузчик-интегратор создается на основе общего ядра, реализующего алгоритмы, не зависящие от конкретной онтологии или правил (главный цикл обработки, логический вывод на онтологии, средства построения интерфейсов экспертом и др.), а также реализующих специфические правила алгоритмических модулей, с которыми ядро взаимодействует на основе стандартных интерфейсов. Многие модули могут быть представлены как композиции таких элементарных модулей. Например, строка, содержащая список телефонных номеров, может быть сначала разбита модулем разбиения на отдельные подстроки-номера, а затем каждый номер приведен к установленному формату другим модулем. Для ИС с большим количеством источников данных имеет смысл создание библиотеки алгоритмических модулей, использующихся в разных задачах.


 

Процесс нормализации, преобразования, интеграции и загрузки данных, шестишаговая архитектура

Существуют следующие взаимосвязи, ограничивающие порядок решения разных подзадач при интеграции и загрузке данных:

  • Преобразование объектной структуры не может быть выполнено до того, как станет известна точная семантика каждого элемента данных в терминах целевой онтологии. Например, если в целевой онтологии есть “студенты” и “преподаватели”, а в исходной только “персоны”, необходимо выяснить, кого надо преобразовывать к “студенту”, а кого к “преподавателю”.
  • Уточнение семантики в ряде случаев не может быть выполнено до нормализации значений атомарных атрибутов. Например, в примере выше “персона” может иметь атрибут “должность”, по которому определяется принадлежность к студентам или преподавателям, и этот атрибут должен быть нормализован прежде, чем он будет проанализирован.
  • С другой стороны, иногда нормализация невозможна до уточнения семантики. Если “персоны” имеют атрибут “доп. информация”, где для студентов указывается номер комнаты в общежитии, а для преподавателей телефон, для нормализации номеров комнат и телефонов должны быть применены разные алгоритмические модули, а тип “персоны” должен быть установлен до нормализации.
  • Для слияния дубликатов необходима их идентификация, то есть выявление всех групп ресурсов, соответствующих одному объекту реального мира. Идентификация проводится на основе анализа связей и атрибутов. Значит, атрибуты должны нормализоваться до идентификации дубликатов.
  • В идентификации данных и слиянии дубликатов принимают участие не только загружаемые данные, но и данные в хранилище. Значит, преобразование данных надо делать до идентификации дубликатов.
  • Ограничения целостности должны выполняться только для данных в хранилище ИС. Загружаемые данные могут им не удовлетворять (напрмиер, не иметь обязательных атрибутов), если после интеграции с уже имеющимися в хранилище данными все ограничения будут выполнены. Это означает, что решение конфликтов ограничений целостности необходимо выполнять после или в процессе интеграции данных в хранилище ИС.

С учетом сформулированных выше требований, обработка может быть разбита на 6 стадий, образующих шестишаговую архитектуру загрузчика-интегратора, и организована в виде потока работ:

  1. Нормализация и вычисление строковых атрибутов целевой онтологии, решение семантических ошибок и конфликтов.
  2. Преобразование данных к целевой онтологии.
  3. Загрузка в репозиторий.
  4. Идентификация ресурсов (поиск дубликатов).
  5. Слияние дубликатов.
  6. Приведение данных в соответствие с ограничениями целостности.

На стадиях 4, 5 и 6 ведется работа с данными, находящимися в хранилище. Модули стадии 1, нормализующие атомарные атрибуты, могут работать с данными, как в исходном XML, так и в хранилище. Возможна работа без стадий 2 и 3, для нормализации, удаления дубликатов и устранения конфликтов целостности в репозитории, то есть в режиме "наведения порядка". В этом случае обработке подвергаются все хранимые в системе данные.

Разделение стадий 1 и 2 условно, поскольку реализующие их алгоритмические модули работают одновременно, как единая стадия преобразования данных и исправления ошибок. Сама единая стадия может быть разбита на несколько шагов, в каждом из которых исправляется часть ошибок и преобразуется часть данных. Это позволит разнести по времени труд экспертов, исправляющих разные ошибки. Промежуточные результаты работы этих шагов будем называть промежуточным XML.


Результатом работы первой и второй стадий будет промежуточный RDF – RDF-текст, обладающий следующими свойствами:

  • Промежуточный RDF соответствует целевой онтологии, но может содержать дополнительно не входящие в нее элементы (атрибуты ресурсов). Эти элементы не сохраняются в хранилище, но хранимая в них информация может использоваться для поиска дубликатов, принятия решений при слиянии ресурсов и решения конфликтов целостности.
  • Могут быть не соблюдены ограничения целостности целевой онтологии (в частности, кардинальность свойств). Соблюдаются только набор классов и типов свойств, а также домены и области значений свойств.

Рассмотрим пример, показывающий необходимость в промежуточном RDF дополнительной информации, а также иллюстрирующий работу загрузчика-интегратора (на рисунке ниже). На загрузку подаются XML-описания персон и организаций. Описания организаций содержат список должностей и ИНН занимающих их персон, а также адрес организации. Описания персон содержат имена и ИНН. Целевая онтология предусматривает хранение персон с именами и адресами мест их работы, и не включает ИНН. После преобразования данных промежуточный RDF будет содержать для каждой персоны несколько дубликатов. Все они на пятой стадии сливаются в один ресурс. Единственный способ распознать потом дубликаты – сопоставить их ИНН.

Работа модулей принятия недостоверных решений и вмешательство экспертов необходимы только на первой, четвертой, пятой и шестой стадиях. Кроме того, при построении загрузчика-интегратора иногда технически возможно и оправдано решать задачи одних стадий на других стадиях. Например, некоторые простейшие задачи нормализации, уточнения семантики и слияния дубликатов, не требующие вмешательства эксперта, могут быть выполнены на второй стадии средствами XSLT.

Первая и вторая стадии. Преобразование данных, нормализация и вычисление атомарных атрибутов, решение семантических конфликтов

Единицей обработки для загрузчика-интегратора на этих стадиях является группа связанных между собою ресурсов. Преобразование данных задается в терминах XSLT, как универсального языка, позволяющего задавать практически любые требуемые преобразования XML-данных. XSLT значительно удобнее для этих целей, чем алгоритмический язык. Однако для исключения возможных ограничений на класс решаемых задач допускается написание преобразователя, работающего с DOM-моделью текущей группы ресурсов на Java.

Алгоритмические модули принятия недостоверных решений решают на первой стадии конфликты первых трех типов: исправление ошибок и нормализация атомарных атрибутов, вычисление новых атрибутов и исправление семантических ошибок и конфликтов. Решение семантических конфликтов и нормализация атомарных значений, как было показано, не могут быть в общем случае полностью разнесены во времени. Иногда частичное решение этих задач необходимо совместить в одном модуле, когда решения разнотипных конфликтов взаимозависимы (например, нормализация значения атрибута и определение его семантики).

Алгоритмические модули первого уровня реализуются как Java-классы с заданным интерфейсом. Модуль получает как параметры коллекцию вершин XML-дерева текущей группы ресурсов, и вычисляет на основе них необходимые значения. Такой подход позволяет абстрагироваться в модулях от расположения вершин в XML-дереве и использовать одни и те же модули в разных интеграторах.

В силу определения, исходная онтология и схема промежуточного XML, может иметь лишь связи вида 1:1 и 1:n (1 к многим), поскольку XML-данные имеют древовидную структуру. Однако в промежуточном RDF могут появиться также связи n:1 и m:n, что потребует генерацию дубликатов. Для этих целей имеется встроенный механизм генерации уникальных URI для RDF-ресурсов.

Третья стадия. Загрузка данных в репозиторий ИС

Компонента 3 стадии универсальна и не зависит от решаемой задачи загрузки. Загруженные ресурсы не должны быть доступны пользователям ИС до окончания их идентификации, слияния и приведения в соответствие с ограничениями целостности.

Четвертая стадия. Идентификация загружаемых ресурсов

Перед началом работы блока идентификации определяется круг обработки. Это могут быть ресурсы, загружаемые в текущем сеансе загрузки, или все ресурсы хранилища, если интегратор работает в режиме “наведения порядка в хранилище”, т.е. устранения образовавшихся ранее дубликатов. Множество ресурсов каждого типа (класса целевой онтологии) должно быть разбито на классы эквивалентности, включающие ресурсы-дубликаты одного и того же объекта.

В качестве параметров модулю принятия недостоверных решений передается ресурс, для которого необходимо отыскать дубликаты, а также множество ресурсов, из которых он может делать выбор кандидатов в дубликаты – множество анализа. Множество может включать любые ресурсы репозитория ИС того же класса и суперклассов. На выходе модуль должен выдать подмножество множества анализа, состоящее из найденных дубликатов.

Модули идентификации можно рассматривать как правила определения дубликатовограничения целостности в объединенной онтологии задачи, которые определяют в ней новый тип – класс эквивалентности. Модуль должен удовлетворять следующему важному условию: решение о включении ресурса в класс эквивалентности не должно зависеть от наличия или отсутствия каких-либо других ресурсов во множестве анализа.

Модули идентификации должны быть указаны для всех типов ресурсов целевой онтологии, для которых ищутся дубликаты. Они могут быть не только сложными алгоритмами на Java, но и встроенными элементарными модулями. Например, выдающими для каждого ресурса только его самого (если никакие ресурсы не должны быть слиты между собой), или объединяющие в один класс все ресурсы, связанные с ресурсами из одного класса эквивалентности некоторой связью (например, все даты рождения одной персоны). Возможно построение композиционного модуля идентификации на основе нескольких модулей. Каждый из таких модулей может анализировать определенные атрибуты ресурса и выбирать свои кандидаты в дубликаты. С помощью заданного теоретико-множественного выражения из результатов, выданных элементарными модулями, вычисляется множество – результат композиционного модуля. Входящие в состав композиционного простые модули будут иметь более широкую применимость в разных задачах интеграции, чем сам композиционный модуль.

Модуль идентификации вызывается для каждого ресурса в кругу обработки, а также для ресурсов за пределами круга, попавших в какой-либо класс эквивалентности. Каждое множество, выдаваемое модулем, вместе с ресурсом, для которого оно вычислено, образует первичный класс эквивалентности.

При вычислении окончательного разбиения на классы эквивалентности необходимо минимизировать количество обращений к модулям принятия недостоверных решений, так как последние могут содержать сложные алгоритмы или обращаться к эксперту. Поскольку отношение принадлежности двух ресурсов к одному классу эквивалентности рефлексивно, транзитивно и симметрично, окончательное разбиение на классы с минимальным числом вызовов может быть получено следующим алгоритмом:

  1. Сначала принимаем, что каждый экземпляр обрабатываемого типа (класса целевой онтологии) из круга обработки образуют свои собственные классы эквивалентности – таково стартовое разбиение.
  2. В цикле перебираются все экземпляры данного типа (класса целевой онтологии) из круга обработки. Для каждого экземпляра выполняются следующие действия:
    1. Вызывается соответствующий типу модуль принятия недостоверных решений, во множество анализа которого включаются все элементы круга обработки обрабатываемого типа, кроме уже входящих в класс эквивалентности текущего экземпляра.
    2. Если множество анализа пустое, модуль не вызывается, осуществляется переход к следующему элементу.
    3. Полученный первичный класс объединяется с классом эквивалентности текущего экземпляра.
    4. Все пересекающиеся классы эквивалентности сливаются в один класс.

Легко показать, что:

  • Этот алгоритм строит правильное множество классов эквивалентности, а именно, транзитивное, симметричное и рефлексивное замыкание отношения "анализируемый ресурс – найденный дубликат", определяемого модулем принятия недостоверных решений.
  • Суммарное количество элементов всех первичных классов равно величине n-m, где nобщее количество экземпляров обрабатываемого типа в кругу обработке, а тколичество классов эквивалентности.

Последнее означает, что если модуль обращается с вопросом к эксперту, количество указаний на дубликаты, которое придется сделать эксперту, не больше общего количества дубликатов в кругу обработки (как правило, оно меньше, так как обычно очевидные дубликаты модуль выявляет самостоятельно).

Учет ограничений целостности целевой онтологии

При идентификации и слиянии дубликатов может быть использован логический вывод из целевой онтологии, сделанный на основе ее ограничений целостности. Платформа ИСИР позволяет указывать следующие ограничения в онтологий ИС:

  1. Домены и множества значений свойств (глобальные и в контексте класса).
  2. Кардинальность свойств: <=1, >=1 или =1, а также обратная функциональность (inverse functional property [6]).
  3. Зависимость объектов по некоторому свойству. Для свойства с кардинальностью 1:n можно указать, что объект свойства, должен вести себя как атомарный, то есть быть доступным только через своего владельца и удаляться из репозитория вместе с владельцем.
  4. Кардинальность "1 значение на язык" - свойство должно иметь не более чем по одному локализованному значению для каждого языка системы.

Ограничения первого типа в промежуточном RDF выполнены по определению. Ограничения четвертого типа сводятся к ограничениям кардинальности, если рассматривать каждое свойство типа "1 значение на язык" как совокупность нескольких (по числу возможных языков) свойств единичной кардинальности. Ограничение по зависимости объектов не может быть явно использовано при поиске дубликатов. Таким образом, на 4 стадии мы можем учитывать только ограничение кардинальности. Конкретно, это выражается в информации, является ли связь однозначной или многозначной, чтобы после разбиения на классы объекты однозначной связи субъектов из одного класса эквивалентности также лежали все в одном классе. Ограничение минимальной кардинальности, а также зависимость объектов, будут учтены на 5 и 6 стадиях.

Связи между ресурсами из разных классов эквивалентности, рассматриваемые как связи между этими классами, должны удовлетворять кардинальности свойств, поскольку на 5 стадии каждый класс должен быть слит в один элемент. При независимом поиске дубликатов для разных типов ресурсов такие ограничения не будут выполнены. Необходимо изменить описанный алгоритм так, чтобы полученный набор классов удовлетворял ограничениям кардинальности.

На разбиение на классы эквивалентности могут влиять связи вида 1:1, 1:n и n:1. 2 ресурса из одного класса, находящиеся в такой связи “со стороны, противоположной единице” не могут быть связаны с ресурсами из разных классов. Существуют 2 способа решения этой проблемы:

  1. Соответствующие классы должны быть разбиты на подклассы ресурсов, связанных этой связью с ресурсами одного класса (второй слева рисунок).
  2. Классы на другой стороне связи должны быть слиты в один класс (третий слева рисунок).

Например, если 2 организации попали в один класс, а 2 их директора в разные, то либо 2 директора должны быть слиты в одного, либо 2 организации разнесены на 2 класса, так как не может быть 2 директора у одной организации.

Простейшим решением проблемы будет возложение на разработчиков модулей ответственности за непротиворечивость, т.е. выполнение кардинальности для классов. Это сильно усложнит разработку модулей и ограничит их применимость в других задачах. Однако этот путь также поддержан в системе.

Альтернативным, но, как показано ниже, не универсальным вариантом является использование правил разрешения конфликтов. Для этого все типы ресурсов, вовлеченные в устранение дубликатов, нужно упорядочить по приоритетности разбиения на классы эквивалентности одного над разбиением другого. В случае конфликта разбиение менее приоритетного пересматривается.

Процесс вычисление разбиений организуется как циклический обход всех вовлеченных типов ресурсов от более приоритетного к менее приоритетному, разбивая ресурсы каждого типа на классы эквивалентности. При повторном проходе каждого типа ресурсов стартовым для алгоритма является разбиение, полученное на предыдущей итерации. Циклический обход повторяется до тех пор, пока не прекратится укрупнение классов эквивалентности.

Определим правила корректировки разбиения для связей вида 1:1, 1:n и n:1:

  1. Если приоритетнее ресурс со стороны единицы, во множество анализа модуля идентификации на другой стороне связи включаются только ресурсы, связанные с ресурсами из того же класса, что и ресурс, связанный с ресурсом, для которого вычисляется первичный класс эквивалентности. Если имеется нарушение кардинальности (ресурс с менее приоритетной стороны связан с несколькими ресурсами из разных классов эквивалентности), для ресурса создается по дубликату для каждой связи.
  2. Если ресурс со стороны единицы менее приоритетен, модуль идентификации ресурсов на другой стороне может делать выборку из всех ресурсов (с учетом аналогичных ограничений от других связей), а после вычисления класса для обрабатываемого ресурса все классы, в которые попали ресурсы, связанные с ресурсами этого класса, сливаются в один класс. Если имеется нарушение кардинальности (ресурс с более приоритетной стороны связан с несколькими ресурсами), все ресурсы, связанные с ним на менее приоритетной стороне, включаются в один класс эквивалентности. Получившиеся классы становятся стартовыми для алгоритма разбиения для этих ресурсов.
  3. Если имеют место одновременно ситуации правила 1 по более, чем одной связи, множество анализа берется как пересечение допустимых множеств анализа, вычисленных по каждой связи.
  4. Если имеют место одновременно ситуации правила 2 по более, чем одной связи, результирующие стартовые классы эквивалентности строятся как объединение пересекающихся классов, вычисленных по каждой связи.
  5. Если по разным связям имеют место ситуации правил 1 и 2, для такого типа ресурсов применение правил должно быть выключено. Модуль идентификации должен сам учесть кардинальность при разбиении.

Заметим, что в ситуации 5 алгоритм с правилами не всегда применим. Такой пример показан на рисунке. Здесь объекты слева и справа имеют более высокий приоритет, чем средние. При таком соотношении классов эквивалентности любое разбиение средних объектов будет ошибочным. Возникновение такой тупиковой ситуации свидетельствует о неверном упорядочивании типов. Однако бывают случаи, неразрешимые для алгоритма с правилами при любом упорядочивании.

Необходимым для корректности разбиения с использованием правил является условие, что алгоритмические модули не используют для принятия решения о разбиении на классы эквивалентности менее приоритетных типов, или текущее разбиение этого же типа. Можно показать, что в этом случае разбиение на классы эквивалентности может быть получено за один обход всех вовлеченных типов данных (классов целевой онтологии). Когда это ограничение не выполняется (например, при репликации иерархических структур, когда необходимым условием включения ресурсов в один класс является включенность в один класс их предков по иерархии), или корректное упорядочивание по приоритетам невозможно, модуль принятия решения сам должен обеспечить выполнение кардинальности.

В силу конечности количества ресурсов в репозитории итоговое разбиение на классы эквивалентности ресурсов всех типов будет получено за конечное число итераций обхода вовлеченных типов ресурсов. Можно показать также, что на любом шаге алгоритма разбиение не противоречит ограничениям максимальной кардинальности и условиям разбиения на классы эквивалентности объединенной онтологии.

Пятая стадия. Слияние ресурсов

После разбиения ресурсов на классы эквивалентности все ресурсы каждого класса должны быть слиты в один ресурс. Слияние связей определяется слиянием ресурсов. Слияние осуществляется алгоритмическими модулями принятия недостоверных решений. Модули указываются для каждого типа ресурсов целевой онтологии. В качестве параметров модулю передается коллекция ресурсов одного класса эквивалентности. Модуль может вызывать другие алгоритмические модули слияния ресурсов для произвольных подмножеств сливаемого класса (например, встроенные модули).

Существуют встроенные алгоритмические модули, выполняющие наиболее общеупотребительные элементарные операции слияния, такие как:

  1. Игнорирование загружаемого ресурса (ресурса в круге обработки) при наличии в хранилище соответствующего хранимого ресурса.
  2. Замещение в хранилище существующего ресурса.
  3. Поатрибутное слияние ресурсов. Все атомарные атрибуты всех ресурсов добавляются к результирующему ресурсу.
  4. Выполнение разных модулей слияния в зависимости от соотношения дат загрузки или модификации ресурсов.
  5. Вопрос эксперту с помощью стандартной формы.

При поатрибутном слиянии ресурсов для атомарных атрибутов могут быть использованы эти же встроенные модули (кроме 3 и 4). При удалении игнорируемого ресурса из хранилища удаляются также и все зависимые от него ресурсы. Это означает, что каждый шаг процедуры слияния должен начинаться с вызова модуля слияния для одного из классов эквивалентности независимых ресурсов. Дальше вызываются модули слияния для всех его зависимых ресурсов в той последовательности, как они встречаются в путях по графу зависимости.

Когда будут обработаны все классы эквивалентности независимых ресурсов, процедура слияния будет полностью завершена.

Шестая стадия. Приведение данных в соответствие с ограничениями целостности

На этой стадии данные модифицируются в соответствии со всеми ограничениями целостности, кроме ограничений максимальной кардинальности (они были выполнены на 4 стадии) и условий зависимости между ресурсами (они были выполнены на 5 стадии). Например, дописываются обязательные атрибуты. Возможные ограничения целостности, накладываемые в ИС, плохо поддаются формализации. Модули, решающие такие конфликты, последовательно вызываются в заданном порядке, и каждый из них имеет свободный доступ к хранилищу.

Заключение

Можно утверждать, что описанный выше подход к решению задачи интеграции и загрузки информации из структурированного текста в ИС с объектной структурой данных применим для решения любых задач в обозначенном в главе "Постановка задачи" классе при условии, что правила преобразования данных сформулированы описанным выше способом. Действительно, при описании работы загрузчика-интегратора на каждом уровне сначала формулировалась задача в общем виде, а затем приводилось ее решение, не ограничивающее ее общности.

Описанный подход является лишь одним из возможных. В любом случае, при построении загрузчика-интегратора для конкретного источника необходимо специфицировать правила преобразования данных, и разные подходы, по сути, определяют разные способы такой спецификации. В простейшем виде, например, спецификация выражается в программном коде загрузчика, написанном "с нуля" для конкретной задачи. В описанном выше подходе это XSLT-таблица преобразования данных и набор алгоритмических модулей, содержащих, по возможности, алгоритмы – ответы на простые вопросы "как решить ту или иную подзадачу?". Простота вопросов определяет их универсальность, то есть применимость одного решения в разных задачах.

В настоящий момент в рамках проекта ИСИР разрабатывается подсистема, реализующая описанный выше подход.

Литература

  1. Erhard Rahm, Philip A. Bernstein. A survey of approaches to automatic schema matching. //The VLDB Journal 10: 334–350 (2001) / Digital Object Identifier (DOI) 10.1007/s007780100057
  2. Брюхов Д.О. Конструирование информационных систем на основе интероперабельных сред информационных ресурсов.// Диссертация на соискание ученой степени кандидата технических наук.
  3. Andreas Maier, J. Aguado, A. Bernaras, I. Laresgoiti, C. Pedinaci, N. Pena, T. Smithers. Integration with Ontologies. // Conference Paper WM2003, April 2003, Luzern
  4. А.С. Аджиев, А.Н. Бездушный, С.П. Коновалов, В.А. Серебряков. Общероссийский web-портал математических ресурсов. // Интегрированная система информационных ресурсов: сборник трудов ВЦ РАН, 2004 г.
  5. Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., Серебряков В.А. Архитектура и технологии RDFS-среды разработки цифровых библиотек и Web-порталов. // Электронные библиотеки, 2003. - Том 6, выпуск 4.
  6. Web Ontology Language (OWL) W3C recommendations 10 Feb 2004. http://www.w3.org/2004/OWL/.
  7. Resource Description Framework (RDF) W3C specification, http://www.w3.org/RDF/.
  8. Всемирная “Свободная энциклопедия”,http://wikipedia.org/
!20

Концепция построения типовой системы ввода,
учета и выдачи информации

Сенько А.М., Якшин М.М.
(Библиотека по естественным наукам РАН)

 

В настоящее время значительное внимание уделяется созданию систем ввода, учета и выдачи информации о различного рода документах, информационных ресурсах и системах. К таким системам можно отнести, например, систему “Наука России” (БЕН РАН), СМИРС (ЦИТиС) и многие другие. Все эти системы решают одни и те же задачи, строятся на основе сходных бизнес-процессов и, как следствие, могут быть заменены типовой системой ввода, учета и выдачи информации, настраиваемой под определенную предметную область и определенный круг задач.

В системе “Наука России” [1,2] и производных от нее основное внимание уделено настраиваемости схемы данных. Существует возможность задания произвольных сущностей (таблиц), их полей (на основе фиксированных в системе типов данных) и отношений между ними. При всем этом системы на базе “Науки России” являются системами централизованного типа, с четко выраженным центральным сервером и процессом переноса данных с одного центрального сервера на другой путем процедур импорта и экспорта.

Система мониторинга и анализа государственных информационных ресурсов и систем (СМИРС) Минэкономразвития России ориентирована на определенную узкую предметную область и не представляет возможностей настройки без существенного изменения исходного кода. Кроме того, существующий вариант системы достаточно жестко привязан к определенной архитектуре и подходам к организации клиентских мест – через J2EE/EJB и “толстых” клиентов на основе Java.

В данной статье будет рассмотрена архитектура типовой системы, на основе которой могут строиться разнообразные информационные системы как локального, так и распределенного характера, различающиеся по структуре и семантике хранимой информации и бизнес-процессам.

Система строится из одной или нескольких однотипных компонентов-ячеек, обладающих определенными свойствами. В минимальном варианте система может состоять из одной ячейки - локального компонента.

Локальный компонент (ЛК)

Основная задача ЛК – ввод, редактирование, хранение данных и представление их в форме различных отчетов и справок.

Компонент состоит из нескольких подсистем, выполняющих определенные функции и решающих определенные задачи. Каждая из таких задач может решаться на отдельном АРМ. Приблизительный состав подсистем и решаемых ими задач выглядит так:

  • подсистема ввода данных (первичный ввод данных, проверка и подтверждение, редактирование ранее введенных данных);
  • подсистема поиска (поиск по локальным данным, генерация отчетов по шаблонам);
  • администрирование (настройка схемы данных, управление правами и привилегиями пользователей).

В качестве интерфейса предлагается использовать Web-интерфейс, широко применяемый для систем подобного рода, где присутствует одна база данных и множество различных АРМ для работы с ней. Такой подход также легко позволяет организовать доступ к системе как с локальных рабочих мест внутри организации, так и извне (для авторизованных пользователей).

ЛК может использоваться в качестве самостоятельной системы в случае работы с небольшими объемами данных либо с данными, работа с которыми ведется, в основном, в пределах одной организации. При этом ЛК взаимодействует только с пользователями, отвечая на их запросы по протоколу http. Не имеет значения, где при этом находится пользователь и как он осуществляет доступ к системе: с локальной машины (на которой установлен и сам ЛК), через ЛВС (внутри той же организации) или через глобальную сеть Интернет; средства взаимодействия и обмена данными с другими ЛК отсутствуют.

Здесь же стоит отметить, что данная архитектура не накладывает никаких ограничений ни на объем данных, работа с которыми может быть возложена на ЛК, ни на другие его внутренние характеристики. Такие ограничения возникают при выборе методов и средств разработки внутренней архитектуры ЛК, вспомогательных программных средств (таких как СУБД, Web-сервер и т.д.) на этапе проектирования уже конкретной системы.

Распределенный компонент (РК)

Для создания более сложных систем имеет смысл применять распределенный подход. В этом случае система строится из нескольких ЛК, объединенных в единую сеть.

При этом каждый из компонентов дополняется определенной функциональностью, позволяющей обмениваться данными с другими компонентами. В этом случае мы можем говорить уже о распределенном компоненте.

К подсистеме ввода данных добавляется функция импортирования данных, а к подсистеме поиска – возможность выгрузки (экспортирования) данных в другой РК.

Благодаря функциям экспортирования и импортирования данных система допускает различие схем (разнородность) данных в различных РК. В случае, если хранимые данные однотипны, преобразование информации (конвертация) не требуется и эти функции сводятся к тривиальной передаче информации по каналам связи - тогда можно говорить о простом обмене данными между РК.

РК могут быть связаны с использованием одной из двух схем:

  1. интеграция в единое хранилище – импортирование данных из подчиненного компонента в вышестоящий;
  2. виртуальная интеграция – данные физически хранятся только в одном РК, передача данных между БД не происходит; поиск и получение информации выполняются с помощью распределенного запроса.

Первую схему предполагается использовать в следующих случаях:

  • затруднена передача данных между РК по постоянному каналу (физически нет быстрого доступа в Интернет, предъявляются повышенные требования к безопасности и т.п.);
  • данные в нижестоящей организации обновляются достаточно редко и предпочтительнее иметь их экспортированную копию в вышестоящем РК;
  • объемы данных в нижестоящей организации достаточно малы (возможно также, что в этом случае нецелесообразно использовать РК, а достаточно предоставить авторизованный доступ для этой организации к вышестоящему ЛК).

Преимуществами второй схемы являются:

  • снижение требований к программно-аппаратным комплексам каждого РК в отдельности (вследствие существенного снижения объемов хранимой информации);
  • максимальная актуальность получаемых при поиске результатов (т.к. нет промежуточных синхронизаций).

Для реализации второй схемы необходимо дополнить поисковую систему каждого РК модулем поддержки распределенных запросов (на основе технологии XMPP/Jabix). При этом усложняется решение вопросов безопасности.

Стоит отметить, что при организации сложных сетей с использованием вышеизложенных принципов обе схемы могут комбинироваться для создания сетей смешанной интеграции.

При построении сложных сетей со структурой, отличной от древовидной, возникает проблема дублирования данных – не имеет значения, какая при этом используется схема интеграции. Одним из решений этой проблемы является четкое соблюдение древовидной структуры (организационная мера), другое зависит от схемы интеграции:

  1. При интеграции в единое хранилище каждой записи присваивается идентификатор (ID), уникальный в рамках всей системы и однозначно определяющий, в каком РК эта запись была создана – таким образом, записи с одинаковыми ID считаются дублями и выявляются автоматически в процессе импортирования;
  2. При виртуальной интеграции работа по выявлению дублей в результатах поискового запроса возлагается на специальный агент-интегратор сети Jabix – независимый модуль, не являющийся частью рассматриваемой системы.

Выбор схемы интеграции (единое хранилище, виртуальная или смешанная), так же, как и структура самой сети, зависит от конкретной решаемой задачи и определяется на этапе проектирования соответствующей системы.

Этапы разработки и трудозатраты

Разработку системы целесообразно разделить на четыре этапа, в соответствии с изложенными выше структурными элементами:

  1. Разработка полнофункционального ЛК;
  2. Разработка РК: добавление к ЛК функций обмена данными между собой;
  3. Добавление к РК поддержки распределенного поиска и получения информации на основе технологии XMPP/Jabix;
  4. Коммутация РК с различными схемами данных.

Первый этап является основным и наиболее трудоемким. По его окончании мы имеем полнофункциональную локальную систему с on-line доступом.

По завершении второго этапа мы можем строить распределенные системы с интеграцией в единое хранилище. Одним из вариантов такой системы является система с одним полнофункциональным (разве что, без функции ручного ввода данных) центральным РК и множеством клиентских РК с минимальной функциональностью, обеспечивающей только возможность ручного ввода данных.

Завершение третьего этапа дает нам возможность сроить системы с виртуальной и смешанной интеграцией. При этом трудозатраты на написание конвертеров для системы Jabix минимальны, т.к. на этом этапе схема данных во всей системе остается единой, следовательно, и все конвертеры одинаковы.

Четвертый этап позволяет перейти к системам с различными схемами данных внутри себя (или, как вариант, к интеграции систем, созданных на предыдущем этапе). Этот этап можно разделить на два, в зависимости от степени различия схем данных:

  1. Различаются (и могут настраиваться динамически в процессе работы системы) только наборы атрибутов отдельных сущностей, сами сущности и связи между ними одинаковы и фиксированы;
  2. В дополнение к предыдущему могут различаться (а, возможно, и динамически изменяться) и наборы самих сущностей, и их связи.

В первом случае задача ведения БД в каждом из РК не представляет особых сложностей; создание конвертеров для импортирования, экспортирования данных и поддержки Jabix можно автоматизировать.

Трудозатраты и возможные проблемы во втором случае пока оценить довольно трудно.

Сравнение предлагаемой концепции с реализацией систем на базе “Науки России”

Если сравнить предполагаемый вариант реализации системы (в соответствии с описанной концепцией) и существующие варианты реализации системы “Наука России”, можно отметить следующее:

  1. Типовая система является распределенной системой, тогда как “Наука России” - жестко централизованная и любой межсистемный обмен возможен только в ручном варианте (с помощью операций импорта-экспорта).
  2. Типовая система не имеет, по крайней мере на первых этапах своего развития, динамической настройки схемы данных, так как этот процесс требует сложного преобразования существующих данных в нескольких разных системах, так, чтобы данные остались согласованными. Теоретически, реализация этого возможна при реализации четвертого этапа – гетерогенных систем с различными схемами данных, но он достаточно сложен и неочевидна целесообразность его разработки. В случае, если необходимо менять схему данных в уже работающей системе, можно предложить следующее решение: перегенерация системы целиком (см. ниже) и импорт данных из старой (возможно, с некоторой промежуточной конвертацией). При нормальной работе системы изменение схемы данных будет требоваться достаточно редко.
  3. Поисковые запросы к локальной базе данных (одиночной или агрегированной) в типовой системе рассчитываются заранее, а не строятся динамически по текущей схеме данных, как в “Науке России”, благодаря чему возможно значительное увеличение скорости выполнения различных сложных запросов.
  4. В типовой системе возможно автоматическое межсистемное взаимодействие для реализации интеграции в единое хранилище или межсистемное взаимодействие по запросам пользователя для реализации виртуальной интеграции.

Генерация систем

Такая конфигурация одной системы со своей определенной предметной областью и связями в ней может быть задана в виде одного структурированного описания. Необходимо задать параметры предполагаемой предметной области (сущности и связи между ними, поля, характеризующие сущности, используемые типа данных и т.п.), а также все, что относится к распределенности системы: топологию, способы интеграции, конфигурацию каждого из узлов и особенности сборки системы для каждого узла.

Описав все эти данные в одном файле конфигурации такой системы, представляется возможным синтезировать готовую конечную систему в виде рабочих модулей, собранных и настроенных под каждый из узлов с установкой связей, описанных выше. Исходными данными для построения такой системы будут являться файл (или файлы) со структурированным описанием и некий набор готовых модулей, из которых можно собрать готовые инсталляции ЛК и/или РК.

Проектирование и реализация такой метасистемы – генератора является отдельной перспективной задачей, которую имеет смысл выполнять после разработки всех модулей и механизмов их взаимодействия.

Литература

1. Каленов Н.Е., Васильев А.В., Власова С.А., Глушановский А.В. Автоматизированная информационная система "Наука России" // Информационно-библиотечное обеспечение науки: Проблемы интеграции информационных ресурсов: сб. статей. – М., 1995. – С. 112-115

2. Якшин М.М. WEB-интерфейс системы "Наука России" // Современные технологии в информационном обеспечении науки. - М., 2003. – С. 47-52

 

 

!21

Федеративные коллекции научных данных в грид-среде

Жучков А.В. (Телекоммуникационный центр “Наука и общество”)
Твердохлебов Н.В (Институт химической физики им. Н.Н Семенова РАН)

Введение

Тотальная компьютеризация революционизировала процесс получения данных во многих науках. В некоторых дисциплинах (биотехнологии, химия полимеров и др.) этот процесс поставлен на промышленную основу. Скорость поступления новых данных стала критической не только для их детального анализа, но даже и просто для полноценного их обзора в разумное время. Результаты научных исследований не ждут годами публикаций в “толстых журналах”, а появляются в Web-пространстве практически сразу по завершении работы. Сложившаяся ситуация требует создания новых информационных технологий, сочетающих в себе возможности высокопроизводительной обработки данных и организации распределенно хранящихся информационных массивов.

“Глобализация” наиболее ярко проявляется в сфере информационных технологий. Сегодняшний уровень коммуникаций позволяет географически удаленным исследователям совместно работать над общими научными, техническими, гуманитарными и иными проектами в рамках “виртуальных организаций” (ВО) [1]. В связи с этим новые информационные технологии должны предоставить возможность оперирования распределенными вычислительными и информационными ресурсами ВО с обеспечением адекватного уровня информационной безопасности и учета взаимного использования информационно-вычислительных и коммуникационных ресурсов.

Принято считать, что наиболее перспективны исследования, проводящиеся на стыке разных наук. Однако, в условиях сильнейшей специализации и накопления огромных объемов предметно-ориентированной информации становится все труднее обеспечить взаимопонимание исследователей из разных предметных областей. Они не только буквально говорят на разных языках, но и стандарты хранения и представления информации в их предметных областях столь разнятся, что зачастую просто несовместимы. В связи с этим одной из ключевых задач сегодняшнего дня информационных технологий является разработка стандартов и таких функциональностей интегрирующей операциональной среды, которые позволят исследователям – участникам ВО совместно использовать разнородные распределенных коллекции данных.

Наиболее распространенными видами коллекций научной информации сегодня являются базы данных (БД) и электронные библиотеки (ЭБ). В рамках этих коллекций накапливаются как данные экспериментов и результаты их обработки, так и различные текстовые, графические и иные документы - научные отчеты, описания экспериментов, а также персональные библиографические подборки, являющиеся неотъемлимой частью результатов научных исследований.

В настоящее время интенсивно обсуждается вопрос, какая форма представления и организации данных является наиболее адекватной современным требованиям исследователей. Существует традиционный подход, основанный на использовании в новом, цифровом окружении традиционных библиотечных технологий. Основной чертой этих технологий является использование в качестве единицы хранения документа как неделимого объекта (атома). Такой вариант хранения позволяет достаточно быстро перевести в ЭБ информацию, хранящуюся сейчас на бумажных носителях. Однако, использование таких крупных атомов, даже при создании развернутых метаданных, не позволяет эффективно использовать хранимую информацию в научных коллекциях данных ВО.

На наш взгляд, наиболее перспективным является подход, в котором ЭБ (Digital Library) представляются как распределенные хранилища разнородных данных, “упакованных” в самые различные информационные объекты – тексты, таблицы, изображения, двоичные данные, аудио- и видеозаписи и пр. [2]. Такая концепция хранения вместе с использованием семантических связей предоставляет возможность гибко выстраивать над общим полем распределенных разнородных данных персонализированные тематические коллекции, которые будучи федеративно-администрируемыми, составляют целостное информационное пространство.

Для реализации описанного подхода наилучшим образом подходит технология грид, в рамках которой к настоящему времени имеется достаточно развитое базовое программное обеспечение промежуточного уровня (middleware), разработанное альянсом крупнейших американских университетов и распространяемое в открытом коде - Globus Toolkit [3]. Это программное обеспечение является стандартом де-факто и используется в крупнейших международных проектах, таких как European DataGrid, GridAlliance и других. Globus Toolkit является также основой операциональной среды, разрабатываемой для интеграции электронных информационных ресурсов в проекте “Библиогрид”, реализуемом совместно Телекоммуникационным центром “Наука и общество” (ЮМОС), РГБ, ГИВЦ Роскультуры и рядом университетских библиотек [4].

“Библиогрид” - технологическая интеграционная среда для разнородных, распределенных, федеративно-администрируемых электронных библиотек

Участие авторов в проектах, посвященных созданию грид-сетей (EU DataGrid, RGrid), и одновременно в крупномасштабных проектах по информационному обеспечению научных исследований [5] позволило сформулировать наше видение основных задач, которые должны быть решены при создании интеграционной грид-среды для разнородных, распределенных, федеративно-администрируемых элетронных библиотек. Перечень таких задач включает:

  • обеспечение интероперабельности в среде разнородных распределенных информационно-вычислительных ресурсов;
  • обеспечение технологического единства с информационными пространствами наиболее крупных проектов, в том числе международных, с целью возможности взаимодействия с ресурсами этих проектов;
  • обеспечение информационной безопасности при работе в публичных сетях;
  • реализация семантической интеграции и семантически обусловленного поиска информации в гетерогенных информационных ресурсах (базах данных, Web-сайтах и др.);
  • разработка и реализация расширяемого множества грид-сервисов для ЭБ.

Важными задачами проекта “Библиогрид” являются демонстрация возможностей интеграции в грид-пространстве разнородных информационных объектов (ИО) науки и культуры, стимулирование формирования стандартов метаданных для ИО в этих областях, вовлечение учреждений науки и культуры в процесс создания тематических ВО и формирования требований пользовательского сообщества к функциональности интегрирующей грид-среды.

Целью проекта “Библиогрид” является разработка и реализация информационно-вычислительных ресурсов, сервисов и технологий, позволяющих пользователям, входящим в формально оформленные виртуальные организации, манипулировать с информационными объектами (ИО) посредством набора грид-сервисов (служб). При этом мы понимаем ВО, как динамическое объединение пользователей, ресурсов и служб, в котором однозначно определены политики безопасности и доступа ко всем видам ресурсов. Доступ к любым ресурсам только через участие в соответствующей ВО является принципиальным требованием в грид-сегментах и обусловлен технологией функционирования системы безопасности. Пользователь, становясь участником какой-либо ВО, получает соответствующий сертификат доверия от сертификационного центра, которому, в свою очередь, доверяют все владельцы ресурсов данной ВО. Сертификационный центр не только выдает, но и отзывает сертификаты, построенные на базе асимметричной криптографии, поддерживает репозитории для действующих сертификатов, а также формирует списки отозванных сертификатов. При этом пользователь может одновременно быть участником разных ВО, а множества ресурсов различных ВО могут перекрываться. Все вопросы аутентификации, авторизации и учета использования ресурсов берут на себя службы грид-среды.

Ключевыми элементами концепции построения “Библиогрид” являются информационные объекты (ИО) и сервисы. Любой ИО в “Библиогрид” служит для агрегирования данных, метаданных и сюжетов (наборов сервисов). В качестве ИО могут выступать, например, записи в базе данных электронных библиотек диссертаций, базе данных читателей библиотек, базе данных классификаторов (УДК, ББК и пр.), базе данных статей научных журналов и т.д. Каждому ИО должно сопоставляться метаописание в формате, являющимся расширением формата METS, и каждое метаописание представляется в виде XML-файлов. Разрабатываемая структура обобщенного ИО должна обеспечить гибкость и расширяемость.

Для согласованного использования в рамках ВО наработанного множества ИО, в том числе и метаописаний, используется механизм репозитория, который обеспечивает их хранение и использование на основе разделения (обобществления) и согласованного использования информационно-вычислительных ресурсов ВО, включая объединение в коллекции, авторские подборки, резервное копирование и другие функции. Важно подчеркнуть, что при этом сам репозитарий реализуется на основе распределённых и федеративно-администрируемых ресурсов. Технология грид и middleware Globus Toolkit предусматривают достаточно высокую степень виртуализации ресурсов и это позволяет использовать для создания и расширения репозитория практически любые доступные ресурсы грид-сегмента.

Взаимодействие пользователей ВО с репозиторием осуществляется посредством набора сервисов (служб), обеспечивающих управление репозиторием в целом и доступ к ИО и коллекциям. Под сервисом понимается компонент грид-среды – один из элементов программного обеспечения промежуточного уровня, обеспечивающий заданную функциональность. Сервисы доступны пользователям ВО по сети в соответствии с их сертификатами и реализуют один или несколько интерфейсов, каждый из которых определяет набор операций, активизируемых путем обмена определенной последовательностью сообщений. Сервис стандартным образом описывается на некотором расширении языка WSDL [6], разрабатываемом консорциумом W3C. Экземпляры сервисов (instance) могут создаваться и ликвидироваться динамически.

Сервисы характеризуются функциональностями, которые они реализуют. Целесообразно разделять их на системные и прикладные. Системные сервисы могут включаться в состав разнообразных сложных сервисов высокого уровня. Набор системных сервисов изменяется от версии к версии, однако базовыми являются следующие:

  • сервисы безопасности: авторизация, аутентификация и делегирование, в сочетании с билинговыми сервисами высокого уровня позволяют ВО проводить политику доступа к различным ресурсам, отслеживая права доступа и безопасность для большого количества пользователей;
  • сервисы управления заданиями, являющиеся реализациями грид-протокола GRAM;
  • сервисы управления данными (особо отметим сервисы организации реплик и сервисы OGSA-DAI [7]); поддерживаются сервисом GridFTP;
  • информационные службы грид-сегмента.

С помощью сервисов осуществляется взаимодействие не только с репозиторием метаописаний, но и между всеми ресурсами (и сервисами) грид-сети. Это требует разработки согласованных протоколов взаимодействия и форматов информационного обмена, что и происходит в настоящее время в грид-сообществе. Ситуация двигается в сторону создания набора унифицированных интерфейсов и протоколов взаимодействия системных элементов и ресурсов грид-среды, совокупность которых образует ключевой интегрирующий слой грид-сегмента, который можно назвать “общей шиной грид” [8].

Проект “Библиогрид” предусматривает разработку и реализацию на базе системных сервисов необходимого для пользователей набора высокоуровневых сервисов - доступа к репозиторию метаописаний, формирования и представления ИО, вычислительных процедур обработки данных, администрирования и других.

Программно-аппаратная основа проекта “Библиогрид”

Разработка и исследование системных и прикладных сервисов потребовала создания исследовательского прототипа грид-сегмента. Этот прототип построен на основе распределённых гетерогенных ресурсов Южной Московской Опорной Сети (ЮМОС) [9], а входящие в “Библиогрид” ВО предоставляют также свои вычислительные ресурсы, емкости хранения и некоторые иные ресурсы, представляющие интерес в рамках проекта (базы данных общего пользования, доступ к компьютеризированным приборам и т.п.). В рамках данного проекта ЮМОС, помимо телекоммуникационной поддержки, выступает в качестве провайдера базового middleware, то есть отвечает за администрирование системных грид-служб, а также предоставляет свой сертификационный центр (СА) и поддерживает LDAP-сервер для хранения всей служебной информации участвующих в проекте ВО. Повышенное внимание к системе безопасности связано, прежде всего, с тем, что грид-сегменты не являются традиционными клиент-серверными системами. В них участники ВО могут получить полный доступ к имеющимся ресурсам сегмента, и только использование инфраструктуры отрытых ключей PKI (Public Key Infrastructure), представляющей собой интегрированный набор криптографических служб и инструментов, встроенных в middleware, повышает безопасность работы в грид-среде до приемлемого уровня. Это особенно необходимо, так как одной из ВО, использующих инфраструктуру “Библиогрид”, является коллаборация медико-биологических проектов по разработке вакцин и диагностических систем, а эта область традиционно очень чувствительна к вопросам конфиденциальности информации.

Инфраструктура безопасности проекта предназначена для создания и развертывания приложений, применяющих шифрование с открытым ключом (класс криптографических методов, использующих двуключевые шифры), а также для управления ими. С помощью технологии PKI пользователь генерирует пару ключей (private key и public key), сохраняет их на ключевом носителе, формирует запрос на сертификат в электронном виде и отправляет его в СА. При работе используются сертификаты стандарта X.509. В качестве ПО промежуточного уровня применено ПО Globus Toolkit версии 3.2. В процессе разработки проекта версии Globus несколько раз модифицировались до версии 4.0, однако принципиальных сложностей с заменой не наблюдалось. В качестве основного решения, определяющего политику безопасности, было использовано базовое грид-решение, основанное на использовании Community Authorization Service (CAS).

Репозиторий метаданных формата METS был реализован с использованием свободно распространяемого программного обеспечения Fedora [10]. Данное ПО уже достаточно хорошо себя зарекомендовало в качестве репозитория в ряде библиотек. Удачным примером может служить национальная библиотека Эстонии. Однако требованиям проекта “Библиогрид” ПО Fedora удовлетворяет не в полной мере. Так, в частности, оно не представляет распределённого хранилища, тем более - виртуально организованного. Все указатели на контент (на ИО) задаются в явном виде. В связи с этим в последующих реализациях нашего грид-сегмента планируется создать этот компонент среды, а также сервис доступа к распределённому хранилищу XML-метаданных на основе сервисов, встроенных в грид-платформу.

В состав распределённого репозитория вошли структурированные БД МНТП “Вакцины нового поколения и медицинские диагностические системы будущего”, коллекции диссертаций РГБ и ряд других информационных массивов. Основные затраты ресурсов при этом были связаны с наполнением репозитория метаданных. Значительную сложность представляло составление метаописаний по-разному структурированных и весьма объемных источников данных. По сути, для каждой коллекции приходилось создавать ad hoc небольшое ПО, автоматизирующее этот процесс.

В качестве интерфейсной части использовалось ПО “Gazelle”, ранее разработанное в рамках проектов по информационному обеспечению медико-биологических исследований. Это ПО позволяет применять, помимо рубрикаторов, классификаторов и словарного поиска, механизмы онтологий для семантической интеграции источников информации [11]. “Gazelle” является достаточно интеллектуальным приложением - оно поддерживает средства создания онтологий, их редактирования, многоязыковой поддержки и другие возможности работы с онтологиями, а также возможности привязки различных структурных компонентов данных, представленных в распределённых коллекциях, к концептам онтологических структур. Однако и сами онтологии, являясь отражением взгляда конкретного учёного или группы экспертов на часть понятийного пространства, должны являться элементом контента распределённой ЭБ. На последующих этапах проекта “Библиогрид” предполагается разработать технологию и сервисы хранения авторских онтологий участников ВО в репозитории ИО.

Как уже отмечалось выше, основной целью проекта является создание в грид-среде специализированных сервисов для работы с ЭБ. Для этого в middleware Globus существуют три варианта:

  • использование возможностей базового грид-сервиса, предназначенного для управления данными: Grid Data Service (GDS);
  • наращивание возможностей GDS за счёт создания новых Activity этого сервиса;
  • создание других специализированных высокоуровневых сервисов.

Все эти варианты использовались в процессе создания и исследования прототипа. Однако, в конечном итоге, если не рассматривать в качестве конечной задачи расширение грид как среды программирования, необходимую пользователям функциональность для создания ЭБ реализовывали именно специализированные высокоуровневые сервисы с использованием архитектуры OGSA на базе существующего в middleware инструментария (контейнеры, сервисы безопасности мониторинга и т. п.). В качестве языка запросов на данном этапе применялся язык SQL. При дальнейших исследованиях планируется применять уже используемые в грид-приложениях реализации языков Xquery и ОQL. Некоторые, представляющие для нас большой интерес, высокоуровневые интеграционные сервисы, например, The Grid Distributed Query Service (GDQS), поддерживающий OQL в качестве сквозного языка запросов, разрабатываются в рамках ряда европейских проектов.

Электронные научные коллекции МНТП “Вакцины нового поколения и медицинские диагностические системы будущего” в среде “Библиогрид”.

Межведомственная научно-техническая программа (МНТП) “Вакцины нового поколения и диагностические системы будущего”, объединяющая более 90 организаций, с 1999 года реализует совокупность проектов по разработке новых иммунологических препаратов. Для информационного обеспечения этих проектов в рамках программы на базе ЮМОС были созданы корпоративная сеть и специализированная информационная система, объединяющая различные информационные ресурсы, в том числе создаваемые в ходе медико-биологических исследований, включая различные базы данных и электронные библиотеки. Одной из самых трудоемких задач при этом стало формирование метаописаний слабоформализованных информационных ресурсов проектов МНТП, без которых процедуры поиска в большом объеме слабоструктурированной информации оказались малоэффективны. Вследствие большого объема информационных ресурсов (авторских коллекций данных) для выполнения этой задачи за разумное время пришлось создавать набор узкоспециализированных программных средств для автоматизированного анализа текстов научных отчетов и содержимого разнообразных авторских баз данных. Такая ситуация, как мы полагаем, повсеместна, и это явилось причиной появления концепции использования в грид-среде для поддержки научных исследований специализированного информационного объекта – типового шаблона научного отчета [2]. Научный отчет является основной формой представления результатов исследований, и его обобщенная структура аналогична структуре научной статьи или доклада. В состав этого, базового для научных исследований, информационного объекта необходимо включить такие элементы (сами являющиеся ИО), как фиксированные и динамические текстовые блоки, рисунки, графики, таблицы и т.п. Достаточная номенклатура таких ИО является еще предметом исследований и, очевидно, средства грид-среды должны обеспечить ее расширяемость. Использование такого подхода позволяет решить одну из самых трудных задач - автоматизировать генерацию метаописаний столь нестандартных ИО, как научные отчеты и публикации. Формализация структуры ИО и свойств его элементов позволяют создать, в худшем случае, настраиваемое ПО, которое позволит автоматизированно анализировать документ, составлять его метаописание на языке XML (что обеспечит возможность гибкого и расширяемого описания структур) и размещать его в репозитории метаданных на одном из доступных ресурсов распределенной грид-сети. Более того, как мы полагаем, такое построение ИО позволит применить в дальнейшем технологию мультиагентных систем для анализа метаописаний в репозиториях и автоматизированного построения тематических онтологий, описывающих модели соответствующей предметной области. Как показал опыт, построение и использование таких онтологий обеспечивает исследователям эффективную ориентацию в больших массивах разнородной информации, семантическую интеграцию разнородных ИО и семантически обусловленный поиск в грид-пространстве, а сами онтологии предметной области, как ИО, оказываются не только эффективным инструментом, но и существенным научным результатом [12].

Указанные возможности имеют также большое значение при работе со значительными по объему массивами научных данных, получаемых в результате массированного использования компьютеризированного научного оборудования. Примером может служить используемый при протеомных исследованиях в рамках МНТП масспектрометр Finnigan LTQ FT, который формирует результаты структурного анализа ферментов со скоростью до нескольких мегабайт в секунду. Аналогичная ситуация имеет место при компьютерном моделировании в задачах большой размерности (химии высокомолекулярных соединений, физико-химии быстротекущих процессов, геофизике, экономике и т.д.) на высокопроизводительных вычислительных ресурсах – суперкомпьютерах, кластерах и вычислительных фермах. Включение такого рода ресурсов (компьютеризированных приборов и соответствующих информационных ресурсов) в грид-среду позволит решить сразу несколько задач:

  • безопасный удаленный доступ к высокопроизводительным приборам и свободным вычислительным фермам через механизм грид-сертификатов;
  • размещение огромных объемов научных данных на распределенных ресурсах грид-сегмента без потери целостности коллекции;
  • возможность эффективной ориентации в пространстве распределенных данных и семантический поиск информации по разнородным распределенным коллекциям данных;
  • возможность самоорганизации элементов информационного пространства за счет обеспеченного сертификатами ВО взаимодействия мультиагентных грид-сервисов, анализирующих репозитории метаописаний и выстраивающих по заданным критериям тематические онтологии.

Приведённые примеры показывают эффективность использования ЭБ участниками научных ВО, которые получают возможность работать с разнородными распределёнными данными непосредственно в среде, ориентированной на высокопроизводительные вычисления, увязывая информацию из ЭБ (авторских коллекций данных) с различными исследованиями, в том числе исследованиями in silico.

Заключение

Предлагаемый подход, основанный на применении современных грид-технологий, позволяет уже сегодня осуществлять практические шаги по построению ЭБ как объединения федеративных распределенных коллекций. Среда грид, в особенности использованная OGSA архитектура, является удобной платформой развития подобных ЭБ, прежде всего для создания ЭБ больших распределённых корпоративных проектов, в том числе, и научных, со сложившийся или очевидной структурой ВО. Она представляет прекрасный полигон для выбора и создания информационных сервисов, включая работающие в БД и коллекциях, не имеющих публичного доступа.

Реализация конкретных проектов требует большой работы по формированию метоописаний данных. Однако, по всей видимости, это неизбежный процесс. ВО должна обладать возможностями и пониманием необходимости проведения такой работы. Развитая система репозиториев метаописаний ИО переводит взаимодействие с ЭБ на совершенно новый уровень и позволяет осуществлять семантическую интеграцию коллекций, выстраивая связи между ИО любого уровня.

Работы в рамках данного проекта можно рассматривать и как создание и развитие среды программирования для создания ЭБ. Действительно, все службы и компоненты middleware доступны из JAVA-среды, а следовательно, все вновь созданные сервисы или функциональные дополнения базовых сервисов представляют собой новые дополнительные объекты в библиотеках Runtime-среды. Конечно, необходимость использования только JAVA для такого программирования можно воспринимать как достаточно жёсткое ограничение, однако оно связано с реализацией концепции OGSA-DAI и обеспечивает полноценную мультиплатформенность разработанных грид-сервисов.

Важно заметить, что целью данного этапа проекта не являлось продемонстрировать эффективность подхода, тем более её оценивать количественно в сравнении со скажем привычным клиент-серверным подходом к построению ЭБ. Цель заключается в том, чтобы показать принципиальную возможность создания ЭБ в грид-среде. Некоторые преимущества такого подхода очевидны:

  • использование большого числа готовых решений базового ПО промежуточного уровня Globus Toolkit для построения ЭБ;
  • поддержка одного из приоритетных направлений мировой IT-политики и вовлечение в этот процесс ведущих библиотек страны;
  • и, как мы полагаем, главное - это организация работы ЭБ в среде, ориентированной, прежде всего, на массированную обработку и анализ данных, в среде удобной для работы научных коллективов, где ЭБ рассматриваются прежде всего как среда совместной деятельности по обработке и анализу данных.

Участники проекта “Библиогрид” рассчитывают на то, что используемый в проекте подход будет востребован при построении корпоративных информационных систем или крупных информационных проектов. Исследовательская компонента концепции предполагает активное сотрудничество с любыми заинтересованными субъектами и дает возможность на равных условиях участвовать в текущих и будущих международных проектах.

Литература

1. Bleecker S.E. The Virtual Organization // Futurist, 00163317, Mar/Apr94, Vol. 28, Issue 2, pp. 9-14.

2. Castelli D. DILIGENT: A Digital Library Infrastructure for Supporting Joint Research // In Proc. of IEEE Conf.: Local to Global Data Interoperability – Challenges and Technologies. June 20-24, 2005. Italy. pp. 56-59.

3. Ferreira L., Berstis V., Armstrong J. et al. Introduction to Grid Computing with Globus. IBM, 2002.

4. Жучков А.В. Проект "БиблиоГрид" и его технологические особенности // Труды Международной конференции "Электронный век культуры" / Сочи. 6-10 сентября 2004 г. - М.: РГБ, 2004.

5 Жучков А.В., Голицын С.В., Твердохлебов Н.В., Яновский А. К. Создание и развитие информационных ресурсов корпоративной сети МНТП "Вакцины нового поколения и медицинские диагностические системы будущего" // Аллергия, астма и клиническая иммунология. – 2003. - №9.- С. 216-218.

6. http://www.w3.org/TR/wsdl .

7. http://www.ogsadai.org/ .

8. Kerr A. How Do We Manage the Data of the Future? // In Proc. of IEEE Conf.: Local to Global Data Interoperability–Challenges and Technologies. June 20-24, 2005. Italy. pp.1-2.

9. Жучков А.В. ЮМОС - новые возможности старой сети // Материалы конф. “Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса”. - М.: ГПНТБ России, 2004. - ISBN 5-85638-091-6.

10. The Flexible Extensible Digital Object and Repository Architecture (Fedora). http://www.fedora.info .

11. Жучков А.В. и др. Интеграция и поиск информации в гетерогенных динамических информационных массивах с помощью онтологий. // Труды 6-й Всеросс. науч. конф. “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” - RCDL 2004. Пущино, 29 сентября - 1 октября 2004 г., сc.82-85.

12. Joutchkov A., et al. Grid-Based Onto-Technologies Provide an Effective Instrument for Biomedical Research // From Grid to HealthGrid. Studies in Health Technology and Informatics. Edited by Solomonides T. London: IOS Press, 2005, pp. 37-46.

 

 

 

 

!22

О ФОРМИРОВАНИИ, ЭКСПЕРТИЗЕ И КОРРЕКЦИИ
ТЕМАТИЧЕСКОГО ПРОФИЛЯ СЕРИАЛЬНЫХ ИЗДАНИЙ,
ОБРАБАТЫВАЕМЫХ ИНФОРМАЦИОННЫМ ЦЕНТРОМ-ГЕНЕРАТОРОМ

Андронова М.Б.
(Всероссийский институт научной и технической информации РАН)

Процесс комплектования научного фонда крупного политематического информационного центра предполагает постоянный контроль соответствия входного потока научно-технической литературы целям и задачам информационного центра-генератора, создающего вторичные информационные ресурсы.

Основным видом документов, обрабатываемых информационным центром-генератором для подготовки своих информационных продуктов, являются сериальные издания. Сериальные издания составляют в среднем 70% от всего объема поступающих опубликованных документов.

Контроль входного потока сериальных изданий осуществляется по трем основным направлениям:

    • обеспечение полноты репертуара профильных сериальных изданий;
    • дополнение входного потока новыми профильными сериальными изданиями;
    • исключение из входного потока изданий, переставших представлять интерес для информационного центра.

Таким образом, одним из основных критериев отбора сериальных изданий во входной поток информационного центра является соответствие тематического профиля издания тематическому профилю подготавливаемых информационных продуктов. Встает задача корректного определения тематического профиля издания. Кроме задач комплектования, эта задача также активно решается при автоматизации технологических процессов подготовки вторичных информационных ресурсов.

Корректное определение и унификация способа выражения тематического профиля сериального издания позволяют в дальнейшем объединять различные сериальные издания в определенные группы по тематическому признаку, что может быть использовано как информационным центром, так и библиотеками и подписными агентствами.

Структурирование процесса формирования, определения и коррекции тематического профиля сериального издания

Структурирование процесса формирования тематического профиля сериального издания представлено схематически (рис.1). Формирование тематического профиля состоит из взаимосвязанных, протекающих параллельно процессов:

  • формирование первоначального тематического профиля сериального издания (левая часть структурной схемы) осуществляют редакционная коллегия и возглавляющий ее главный редактор, определяющие политику, идеологию и тематическое направление издания;
  • экспертиза объективно существующего первоначального тематического профиля сериальных изданий с точки зрения экспертов информационного центра, выражение тематического профиля унифицированным способом и регулярная коррекция результатов экспертизы.

Представленный таким образом процесс формирования, определения и коррекции тематического профиля сериального издания необходимо рассматривать как систему, взаимодействия авторов оригинальных работ, редакционных коллегий сериальных изданий и экспертов информационного центра.

Можно выделить несколько важных этапов процесса формирования, определения и коррекции тематического профиля: мотивация авторов при выборе изданий для публикации оригинальных работ, формирование тематического профиля сериального издания редакционной коллегией, анализ и коррекция тематического профиля издания в процессе создания реферативного журнала и баз экспертами информационного центра.

Мотивация авторов при выборе изданий для публикации оригинальных работ

Первоначальным материалом для формирования тематического профиля сериального издания являются статьи, направляемые авторами в редколлегии изданий.

В [1, С. 162-166] отмечается, что публикации являются “общепризнанным показателем продуктивности творческого труда исследователя”. Публикации в журналах для авторов имеют несколько функций:

  1. утверждение приоритета ученого на то или иное исследование;
  2. средство самовыражения и самоутверждения в науке;
  3. распространение научной информации (там же, С. 165), причем доля этой

функции составляет до 80%.

Для определения вклада авторов оригинальных статей в процесс формирования тематического профиля сериального издания предполагается изучение мотивов, которыми авторы руководствуются при выборе издания для публикации, взаимосвязи этих мотивов, а также их связи с такими сведениями об авторах как образование, специальность по опыту работы, научный стаж и т. п.

При проведении анкетирования с целью выявления мотивации авторов были сформулированы и предложены респондентам следующие возможные варианты мотивов:

1) Издание выпускается по месту работы. В этом случае ведущими мотивами авторов являются простота и легкость размещения статьи, короткие сроки публикации, отсутствие очереди, отсутствие детальной экспертизы, невысокие требования к подготавливаемому материалу (несложные правила, постоянные редакторы и т.п.);

2) Направление статей всегда в одно и то же издание. Мотивами являются сложившиеся отношения с редакцией, привычность действий. Также этот вариант возможен, если автор считает, что только это издание соответствует полностью тематике его научных интересов;

3) По предложению соавтора или научного руководителя. Предполагается выявить две категории авторов, пишущих в соавторстве: в первую группу войдут авторы, занимающие пассивные позиции при выборе издания и руководствующиеся в этом вопросе рекомендациями активных соавторов, составляющих вторую группу;

4) Критерием выбора является научный престиж издания;

5) Издание входит в перечень изданий, в которых должны быть опубликованы основные результаты научных исследований диссертаций, утвержденный Высшей аттестационной комиссией РФ. Этим мотивом предположительно могут руководствоваться авторы, готовящиеся к защите диссертаций, аспиранты и соискатели ученых степеней кандидатов и докторов наук;

6) Постоянное изучение репертуара изданий, публикующих статьи по тематике научных интересов автора, и оперативное изменение выбора издания для публикации собственных оригинальных статей.

Таким образом, представляется необходимым исследовать мотивы выбора авторами изданий для публикации оригинальных работ как важную часть процесса формирования первоначального тематического профиля сериального издания.

Формирование тематического профиля редакцией (редакционной коллегией) издания

Первоначальный тематический профиль издания окончательно формирует редакция (редакционная коллегия) и главный редактор, определяющие политику, идеологию и тематическое направление издания.

Редакция – творческий коллектив, ведущий сбор, организацию и обработку информации, литературную, специальную и художественную обработку текстов и иллюстраций к опубликованию и производству, макетирование и формирование выпусков периодического издания.

Редакция ведет также текущее и перспективное тематическое планирование и оценку произведений, формирует институт авторов и рецензентов. Вопросы планирования и организации деятельности периодического издания, его структуры, принципов оформления, иногда и комплектование выпусков редакция согласовывает с редакционной коллегией.

Редакционная коллегия – совещательный орган при Главном редакторе, состоящий из специалистов соответствующего профиля, общественных деятелей, представителей творческих союзов и ведущих сотрудников редакции, определяющий стратегию издания [2].

Научный уровень журнала непосредственно зависит от авторитета главного редактора и состава редколлегии издания.

Одним из наиболее важных инструментов отбора статей по критерию тематического соответствия и научной значимости является рецензирование статей до публикации.

Существует несколько понятий термина “рецензия” и, соответственно, понятия “рецензирование”. Наиболее обобщающим определением, раскрывающим суть процесса рецензирования статей при отборе материала для публикации в научном журнале, можно считать определение рецензии и рецензирования, приведенное в [3], причем во втором из приведенных значений: “Рецензия – 1) статья, целью которой является критический разбор какого-либо научного или художественного произведения, спектакля, кинофильма и т. д.; 2) отзыв на научную работу или какое-либо произведение перед их публикацией, защитой. Рецензировать - писать рецензию на что-либо, давать отзыв о чем-либо”.

Понятие рецензирования с точки зрения его значения для развития науки в целом и для издания научных журналов в частности подробнее раскрывается в [1, c. 168-169]: “Рецензирование – это своеобразный “фильтр”, пропускающий только те рукописи, которые в целом соответствуют определенным минимальным требованиям. Эти требования могут в определенных пределах изменяться в зависимости от конкретных условий места и времени. Однако низший предел таких колебаний определяется общим уровнем развития науки”. Здесь же отмечается, что “институт рецензентов играет исключительно важную роль в науке, так как не допускает снижения общего научного уровня публикаций, способствует выработке единой научной терминологии и т. д.”

Главным инструментом при отборе редколлегией статей является рубрикатор издания. Потребность в рубрицировании издания на основе содержания статей возрастает с каждым днем в связи с тем, что рост числа сериальных изданий, появление большого числа новых изданий требует определения их места в общем потоке родственных изданий, исключения дублирования и т.п.

Однако предварительный анализ анкетного опроса 170 российских научных и научно-практических журналов, проводимый в ВИНИТИ с 2003 года с целью уточнения библиографических сведений об изданиях, показал, что рубрикатор в виде нормативного документа имеется не во всех редакциях и обычно представляет собой неразветвленную одноуровневую структуру по сравнению с рубрикатором ГРНТИ.

Таким образом, необходимо систематизировать причины возможных отказов авторам в публикации их работ и классифицировать рубрикаторы научных и научно-практических изданий по степени их детализации как важную составную часть процесса формирования первоначального тематического профиля сериального издания.

 

Анализ и коррекция тематического профиля издания в процессе создания реферативного журнала и баз данных многопрофильного информационного центра

Технологический процесс аналитико-синтетической переработки документов – статей из сериального издания-первоисточника (СИП), в ходе которого на его основе в информационном центре создаются вторичные информационные ресурсы (РЖ и реферативная БД), можно рассматривать как особым образом организованную экспертную оценку тематического профиля.

Введем дефиниции экспертов и опишем их задачи с точки зрения определения тематического профиля (ТП) СИП.

Предварительная экспертиза СИП. В ВИНИТИ существует практика комплексной оценки ТП СИП, впервые попавшего в сферу интересов информационного центра, и внесения результата этой оценки в массив наиболее важных сведений об изданиях.

В связи с этим введем понятие эксперта-комплектатора (ЭКП). ЭКП оценивает ТП СИП, впервые попавшего в сферу интересов информационного центра. На основании этой оценки принимается решение о включении его во входной поток. В круг задач ЭКП входят:

  1. выявление тематического профиля СИП, впервые попавшего в сферу интересов информационного центра;
  2. сопоставление ТП СИП с классификационной системой, применяемой информационным центром, на уровне рубрик первого уровня ГРНТИ;
  3. принятие решения о соответствии ТП классификационной системе;
  4. выбор рубрик ГРНТИ первого уровня, описывающих ТП СИП;
  5. фиксирование результатов этого выбора путем записи индексов рубрик первого уровня ГРНТИ в массив наиболее важных сведений об издании.

Оценка ЭКП является предварительной, при этом подготавливается материал для оценки ТП последующим эшелоном экспертов.

ЭКП оценивает ТП СИП и выбирает индексы рубрик ГРНТИ первого уровня для описания издания в целом, но делает это путем визуального просмотра отдельных статей, обычно из одного или двух первых поступивших выпусков. Технологический процесс обработки СИП в информационном центре организован таким образом, что полугодовой или годовой комплект издания у ЭКП, как правило, не накапливается, сразу после создания библиографического описания нового СИП первые поступившие выпуски проходят регистрацию и передаются на следующие участки технологической обработки, последующие выпуски поступают на регистрацию, минуя ЭКП, то есть ТП по годовому комплекту издания оцениваться ЭКП не может.

Вследствие этого не достигается полнота и точность оценки ТП для изданий типа “Известия”, “Вестники”, “Труды”, выходящих по сериям и меняющих ТП от выпуска к выпуску, а также для некоторых других СИП.

Таким образом, есть ряд случаев, когда ТП СИП не может быть определен ЭКП достоверно по имеющимся в его распоряжении одному-двум выпускам издания, и возникает необходимость в корректировке ТП на годовом комплекте издания.

Для корректировки предварительной оценки предлагается исследовать систему оценки ТП последующим эшелоном экспертов информационного центра и ввести схему обратной связи.

Эксперт-редактор-1 (ЭР-1). Эксперт, оценивающий ТП не издания в целом, а отдельно взятой статьи из текущего выпуска издания, также на основе рубрик первого уровня ГРНТИ, путем присвоения статье индексов рубрик. ЭР-1 может присваивать статье из издания как один, так и несколько индексов рубрикатора, если считает ее соответствующей не одной, а нескольким тематикам по классификационной системе.

Введение обратной связи для корректировки сведений о ТП СИП в массиве наиболее важных сведений об издании на данном этапе нецелесообразно.

Эксперт-редактор-2 (ЭР-2). Эксперт, оценивающий тематику отдельно взятой статьи по классификационной системе путем присвоения статье индекса рубрики Рубрикатора ВИНИТИ до необходимой глубины. Предполагается, что в роли ЭР-2 выступает ученый, обладающий достаточным научным кругозором для того, чтобы на этом этапе произвести отсев статей, не соответствующих тематическому профилю вторичных информационных ресурсов или не отвечающих требованиям научного качества. То есть ЭР-2 оценивает не только тематику, но и научное качество статьи. Таким образом, в базу данных информационного центра направляется документ, описывающий тематику статьи из СИП развернутой лингвистической конструкцией, соответствующей названию рубрики, в которую документ помещен ЭР-2.

Обратную связь для корректировки предварительной оценки ТП СИП целесообразно вводить после оценки тематики ЭР-2.

Взаимодействие экспертов, включающее в себя процедуру и результат оценки ТП СИП каждым из них, а также взаимное влияние принимаемых ими решений, необходимо рассматривать как единую систему.

Литература

  1. Михайлов А.И., Черный А.И., Гиляревский Р.С. Научные коммуникация и информатика. – М.: Наука.- 1976. – 434 с.
  2. Акопов А.И. Периодические издания.-.Ростов-на-Дону.- 1999. - С. 13-14
  3. Современный словарь иностранных слов. – М.- Рус. яз.- 1993.- С. 531

 

!23

Разработка технологии использования электронных источников

Батюшко А.А., Беляева Л.С., Омерда В.В., Пономаренко Т.П., Самоходкина Е.Г.
(Всероссийский институт научной и технической информации РАН)

Введение

До настоящего времени практически вся производственная технология ВИНИТИ ориентирована на обработку бумажного входного потока. Многочисленные проекты лишь усовершенствовали отдельные операции, но не меняли эту принятую ориентацию. Однако последние 10-15 лет характеризовались плавным переводом научно-технической литературы на электронные носители (CD ROM, дискеты, Интернет-издания), которые по ряду причин реально не вовлекались во входной поток (материалы распечатывались на бумажных носителях и только после этого поступали в обработку по традиционной схеме). Такие решения были рациональны до самого последнего времени, так как не были созданы условия для вовлечения электронных изданий во входной поток на производственной основе. Появлявшиеся во входном потоке публикации на электронных носителях имели самые разнообразные форматы записи, не была обеспечена регулярность поступления, форматы одного и того издания могли произвольным образом по желанию издающей организации видоизменяться. Формировать производственные технологии в таких условиях было экономически невыгодно.

В последние годы ситуация кардинальным образом изменилась. Появилось большое число конкурирующих агрегаторов научной и технической литературы, обеспечивающих унифицированный доступ к большим объемам информации. Транспортная среда доступа к удаленным источникам информации (Интернет) стала обладать достаточной пропускной способностью. Именно поэтому работы по вовлечению электронных изданий стали приобретать реальную производственную ценность.

При разработке подобных технологий следует иметь ввиду, что нельзя создать однородную единую систему, позволяющую работать со всеми типами информации, получаемых из любых источников. Во-первых, на технологию влияет вид информации (сериальная литература, книги, патенты и т.д.); во-вторых, источники русскоязычной литературы, являющейся основой входного потока ВИНИТИ, не имеют той стройной системы агрегации, которая характерна для зарубежных изданий. Кроме того, каждый конкретный источник имеет свои особенности доступа, которые требуют постоянной настройки и адаптации.

В статье излагаются результаты построения и опытной эксплуатации одной из ветвей технологии обработки электронных изданий, а именно, электронных изданий журнальной литературы.

Исследование возможностей формирования входного потока научно-технической информации ВИНИТИ на основе сетевых электронных ресурсов

Организация доступа к крупным полнотекстовым и реферативным Интернет- ресурсам, позволяющим наиболее рационально, с наименьшими затратами на адаптацию к системе ВИНИТИ, решать задачу обработки больших объемов информации, предусматривает осуществление последовательных действий, в частности:

    • изучение предложений и установление взаимоотношений с владельцами электронных ресурсов; организация в случае необходимости тестовых доступов к предлагаемым электронным ресурсам;
    • оформление и подписание лицензионных соглашений, определяющих права доступа, условия оплаты доступа, ответственных со стороны ВИНИТИ за администрирование и организацию доступа к приобретаемым сетевым ресурсам, а также необходимые данные о сетевых ресурсах ВИНИТИ (IP-адреса, полное имя домена, адресные данные);
    • подключение к сетевым ресурсам, проверка наличия доступа на компьютерах ВИНИТИ, исправление неполадок в случае сбоев в подключении.

Как правило, открытие доступа к электронным ресурсам не вызывает больших проблем. Если подписано лицензионное соглашение, осуществлена оплата и владелец или посредник получили все необходимые и правильные сведения от ВИНИТИ, доступ осуществляется в назначенные сроки.

ВИНИТИ в настоящее время имеет возможность использовать агрегированные реферативные и полнотекстовые ресурсы для корректировки входного потока и отбора в ИП ВИНИТИ наиболее качественного мирового потока журналов по всему тематическому спектру ИП ВИНИТИ. К таким ресурсам относятся:

    • полнотекстовые ресурсы, на которые ВИНИТИ имеет подписку через консорциумы и программы поддержки библиотек (НЭИКОН, РАН, РФФИ);
    • реферативные ресурсы – БД и электронные библиотеки, предоставляющие платный или бесплатный доступ к реферативной части и полным текстам подписанных ресурсов;
    • разрозненные полнотекстовые ресурсы, доступные на различных условиях ВИНИТИ через крупных агрегаторов.

К наиболее информативным, технологически и программно адаптируемым Интернет-ресурсам на данном этапе отнесены: полнотекстовые ресурсы – журналы Elsevier (платформы ScienceDirect), журналы издательств, поддерживаемых РФФИ (Kluwer, Springer, APS, AIP, IOP, RSC, Blackwell и др.); журналы издательства CUP; журналы, доступные в полнотекстовых БД Ebsco (EIFL). На сегодняшний день освоены электронные ресурсы НЭБ РФФИ и Science Direct.

Использование полнотекстовых журналов Научной электронной библиотеки (НЭБ) РФФИ. Из 1200 журналов, представленных на Интернет-платформе НЭБ РФФИ и выделенных в качестве потенциально необходимых для ВИНИТИ, в результате анализа по разработанным ВИНИТИ критериям (“импакт-фактор”, метод “многофакторной экспертизы” и экспертных оценок тематических редакций) были отобраны для приоритетной обработки 670 наименований зарубежных журналов, из которых в рабочем режиме в электронном виде было обработано 430 наименований.

В ходе работы по использованию электронных ресурсов совершенствовался механизм откачки резюме статей из журналов НЭБ с учетом многопрофильности информационных продуктов ВИНИТИ, то есть единовременно обрабатывались не полные комплекты журналов, а поквартальные выпуски приоритетных наименований по всему спектру тематических направлений. Это позволяет редакциям ритмично наполнять текущие выпуски соответствующих РЖ.

Использование журналов издательств, представленных на Интернет-платформе ScienceDirect издательства Elsevier. Интернет-платформа ScienceDirect издательства Elsevier, включает более 2000 названий журналов, распределенных по 19-ти тематических коллекциям, и предоставляет в открытом (бесплатном) доступе информацию до уровня рефератов статей всех журналов. Для технологической обработки во входной поток включены 70 наименования из 101 наименования коллекции Materials Science, которые доступны ВИНИТИ до уровня полного текста.

Технология учета, регистрации и библиографической обработки публикаций из электронных источников

В связи с сокращением поступления в ВИНИТИ изданий на традиционных бумажных носителях и увеличением количества разнообразных электронных ресурсов был разработан программно-технологический комплекс по включению в РЖ и БД электронных документов.

Технология обработки условно состоит из двух частей.

Первая часть зависит от структуры и формата исходного файла. Она включает в себя программные средства конверсии, аппарат настройки на алфавит и пр. Результатом является файл стандартного формата и кодировки: формат ISO-2709, поля данных представлены в соответствии с НТП ВИНИТИ 10-2004, кодировка в соответствии с алфавитом ВИНИТИ (НТП 15-99). При конверсии учитываются: шрифтовое выделение; юникодная кодировка; специальные названия тегов; верхний и нижний регистр.

Вторая часть – универсальная, включает в себя операции регистрации, загрузки, печати, корректуры документов. Зависимость от поставщика данных уже исключена, информация о нем сохранена в канале поступления и коде организации.

Технология отбора, учета, регистрации и библиографической обработки публикаций из электронных источников реализует обработку данных, начиная с откачки из электронной библиотеки и заканчивая поступлением их в информационные продукты ВИНИТИ:

Откачка данных из Интернет, формирование их в виде файлов

Отдел Комплектования входного потока НТЛ готовит план по откачке статей из выпусков сериальных изданий из расчета 10 тыс. статей в месяц. Планируемые объемы делятся между операторами, которые производят откачку документов из электронных библиотек. Результат представляет собой файлы со статьями в HTML-формате, которые автоматически помещаются в стандартный сетевой каталог Ѓ , предназначенный для дальнейшей обработки. Имена файлов уникальны, генерируются автоматически, содержат идентификатор оператора.

Разбор информации из файлов. Загрузка в Массив транзитных данных

Оператор участка электронной регистрации по мере поступления файлов в сетевой каталог Ѓ , обрабатывает откаченные файлы, анализирует протоколы, исправляет ошибки-отказы.

Первый этап обработки – конверсия файлов из HTML-формата в ISO-формат. Результат представляет собой файлы со статьями в ISO-формате, которые автоматически помещаются в сетевой каталог , предназначенный для дальнейшей обработки. Ошибки, возникшие в результате конверсии, должны быть тщательно проанализированы, новые кодировки символов включены в словари.

Второй этап обработки – загрузка данных из ISO-файлов, находящихся в сетевом каталоге , в транзитную таблицу.

Транзитная таблица содержит описания документов – статей из журналов – в унифицированной форме. Записи в транзитной таблице существуют не постоянно, а до тех пор, пока они не загружены в Массив документов. После этого они удаляются из транзитной таблицы, либо хранятся там ограниченное время для предотвращения повторной загрузки.

Для формализации процесса загрузки документов разработаны таблицы-словари, описывающие допустимые форматы: таблица-список форматов файлов, таблица, содержащая для каждого формата список допустимых меток, и таблица статусов – индикаторов состояния документов.

К обязательным элементам во входном файле данных относятся:

    • название журнала;
    • год издания СИ;
    • сведения о нумерации (номер и/или том и т.п.);
    • заглавие документа (статьи);
    • страницы (для статьи).

Регистрация электронных изданий

После загрузки статей в единую транзитную таблицу оператор участка электронной регистрации осуществляет регистрацию выпусков электронного сериального издания, заключающуюся в автоматической идентификации журнала и сведений о нумерации его выпусков. В результате каждому выпуску издания присваивается уникальный идентификатор. Ошибки-отказы в идентификации и регистрации передаются для исправления в группу Администратора БД.

Загрузка в технологическую базу данных

По расписанию каждую ночь зарегистрированные выпуски и статьи из них автоматически загружаются в Каталог поступлений ВИНИТИ и Массив документов.

Первый этап – загрузка зарегистрированных выпусков в Каталог поступлений ВИНИТИ (монографический уровень).

Второй этап – загрузка статей в Массив документов (аналитический уровень). Массив документов образует систему хранения документов (статей), предназначенных для отражения в информационных продуктах ВИНИТИ и находящихся в процессе обработки на различных технологических участках. При загрузке каждый документ получает свой уникальный идентификатор, происходит контроль на соответствие данных алфавиту ВИНИТИ и на дубли. Загрузки могут проводиться не только автоматически, но и, в случае сбоев или ошибок, вручную. Контроль последовательности загрузки: сначала должна быть загрузка в Каталог, затем в Массив документов – контролируется как на уровне СУБД, так и клиентских программ.

После выполнения этих операций на сайте ВИНИТИ в Каталоге поступлений можно просмотреть загруженные выпуски журналов и оглавления к ним.

Печать формуляров загруженных статей

Для дальнейшей обработки электронной статьи на нее готовится бумажный документ (формуляр), на котором печатаются уникальные идентификаторы и библиографические описания выпуска журнала и статьи, разбитые по полям. Если статья имела авторские ключевые слова и аннотацию, они так же выводятся на формуляр. На формуляре предусмотрено место для реферата, составляемого референтом, поля для индексирования, рубрицирования и сведений об оплате.

Оператор распечатывает формуляры к загруженным статьям, объединенным по выпускам изданий, и описи-оглавления статей в выпуске. Формуляры статей из выпуска и описи помещаются в конверты, к которым прикрепляются библиографические карточки. Т.е. формируется аналог выпуска, имеющий опись, подборку статей-формуляров, библиографическую карточку и технологический маршрут. Конверты передаются в Отдел Научной систематизации для библиографической и тематической разметки.

Для печати формуляров используется принтер с двусторонней печатью.

Тематическая разметка формуляров статей

Тематическая разметка заключается в определении по рубрикатору ВИНИТИ тематики статьи и направлении ее в редакцию, отвечающей за подготовку соответствующего РЖ и БД ВИНИТИ. Разметчик получает конверты с формулярами и проводит тематическую разметку статей, сгруппированных по выпускам изданий: определяет и проставляет штамп редакции. Около 50% обрабатываемых изданий размечаются автоматически.

Помимо этого происходит библиографическая обработка описаний статей (заглавий, сведений к заглавию, авторов и пр.) и контроль на спецзнаки, формулы и греческие буквы.

Конверты с результатами разметки передаются на следующий технологический участок для корректуры.

Завершение работы с формулярами

Оператор-корректор получает конверты-выпуски с формулярами, на которых проставлены коды тематической разметки и внесены необходимые исправления. Оператор вносит эту информацию в БД, после чего происходит завершение всех технологических операций: закрывается маршрут, происходит передача на хранение, аккумулируются данные о разметке.

Диспетчер разбирает обработанные конверты, раскладывая формуляры по редакциям в соответствии со штампом тематической разметки. Рассортированные материалы развозятся по тематическим редакциям.

Работа с формулярами в редакциях

Формуляры статей обрабатываются в редакциях по стандартной технологии подготовки выпусков РЖ ВИНИТИ.

Если информации на формуляре (библиографическое описание, авторская аннотация, ключевые слова) специалисту отдела научной информации недостаточно для обработки документа, он заказывают распечатки электронных копий (pdf-формат, возможно сохранение на электронном носителе) полного текста статей или получает их самостоятельно по адресу электронной библиотеки (электронный адрес указан на формуляре).

Экспорт данных

В ряд подразделений регулярно поступают ISO-файлы, содержащие описания документов на аналитическом уровне, зарегистрированные в Массиве документов и прошедшие корректорский участок. Цель этой технологической операции - сокращение объема ручного набора данных при производстве выпусков РЖ и БД ВИНИТИ и исключение ошибок в описаниях документов и указателях в части элементов данных аналитического уровня.

Диспетчеризация технологического процесса

Диспетчер электронного потока – центральная фигура технологического процесса.

Диспетчер работает как с выпусками журналов в целом, так и с отдельными статьями в выпусках. В его функции входит распределение и прием работы операторов и разметчиков, контроль над технологическим процессом, связь с другими подразделениями, экспорт данных, завершение технологического процесса, разбор ошибок и нестандартных ситуаций, получение сводок и др.

Программный комплекс

Система реализована в архитектуре “клиент-сервер”. В качестве СУБД используется MS SQL-2000. Клиентские программы разработаны при помощи систем программирования Delphi и Visual C++.

Для реализации автоматизированной технологии обработки документов из электронных источников разработаны специализированные программы:

  • откачка статей из электронных библиотек;
  • конвертор HTML-файлов в формат ISO;
  • регистрация выпусков сериальных изданий по электронным документам;
  • загрузка, печать формуляров, корректура и разметка документов (статей из выпуска журнала);
  • экспорт SQL-таблиц в ISO-файл;
  • диспетчеризация технологического процесса, получение сводок и отчетов.

Результаты эксплуатации

Экспериментальная обработка электронных изданий была начата еще в 2003 г., пробовались различные форматы данных, начиналась разработка технологии и программного обеспечения. Однако только в 2004 г. работа была переведена в опытно-производственный режим, с регулярным наращиванием входного потока. Со второй половины 2004 г. откачивалось из НЭБ РФФИ и поступало в редакции для подготовки БД и РЖ ВИНИТИ по 10 тыс. документов ежемесячно. С 2005 г. начата обработка материалов из Science Direct.

Отдел Комплектования входного потока НТЛ регулярно обновлял и расширял перечень изданий, подлежащих обработке, в соответствии и запросами редакций и их реакцией на поступающий входной поток статей. Именно эти источники и формировали требуемый ежемесячный объем в 10 тыс. статей.

Характеристики входного потока обрабатываемых изданий. Реальный входной поток электронных изданий, прошедших обработку в 2004 г. – 2005 г., составил 512 наименований журналов, получение которых в печатном виде стало невозможно.

Из 512 отобранных для обработки изданий 166 являются ядерными для ВИНИТИ, 260 – полноразметочными.

Заслуживающим внимания является то обстоятельство, что во второй половине 2004 г. практически не увеличилось поступление статей в редакции. При том, что 10 тыс. статей ежемесячно поступают в редакции в виде формуляров (электронная регистрация), очевидно замещение бумажного потока электронным.

Временные характеристики получения и обработки НТЛ. Издания из электронных библиотек находятся под непрерывным контролем Отдела Комплектования входного потока НТЛ, и все новые выпуски сразу после выставления их на сайтах электронных библиотек откачиваются для обработки в ВИНИТИ. Причем зачастую это происходит даже с опережением: в ноябре доступны декабрьские номера и т.д.

Сокращение времени обработки происходит за счет исключения из технологического процесса двух операций: библиографического контроля и ксерокопирования статей. По временным нормам на технологические этапы весь процесс от откачки до поступления материалов в редакции не должен превышать 7 рабочих дней.

Затраты на производственную эксплуатацию. Процесс обработки электронных изданий по сравнению с традиционной бумажной технологий включает новые технологические операции: откачка и загрузка статей из электронных библиотек, печать формуляров загруженных статей (этот этап потребляет основную часть материальных ресурсов), внесение результатов разметки и корректорской правки.

Однако наряду с новыми затратами снижение себестоимости происходит за счет автоматизации операций регистрации журналов и разметки (около 50%), исключения процессов библиографического контроля и ксерокопирования статей, замены ручного набора описаний статей их электронными версиями.

Разработанная и внедренная в опытно-промышленную эксплуатацию технология направлена на обеспечение автоматизированной массовой обработки электронных изданий непосредственно с исходных файлов, а также предоставление возможности дальнейшей обработки документов из таких изданий с включением в конечные информационные продукты – без ручного ввода элементов данных, - за счет полного использования информации, содержащейся в исходных файлах.

Параллельно продолжаются исследования возможностей расширения комплектования входного потока на основе электронных источников. Главное внимание уделяется крупным издательствам и электронным библиотекам, которые могут предложить большие коллекции аннотированных публикаций из периодических и продолжающихся изданий по профилю ВИНИТИ.

Литература

1. Шапкин А.В. Автоматизированная система комплектования и регистрации входного потока ВИНИТИ. Ч. 1 // НТИ. Сер. 1. – 2005. - № 4. – С. 16-31.

2. Егоров В.С., Малинина К.О., Шапкин А.В. Электронные издания на входе ВИНИТИ: средства регистрации и включения документов в информационные продукты // НТИ-2002. Информационное общество. Интеллектуальная обработка информации. Информационные технологии. Материалы 6-й международной конференции (Москва, 16-18 октября 2002 г.). – М.: ВИНИТИ, 2002. – С. 382-385.

 

 

!24

Вопросы создания полнотекстовой базы данных
в библиотеке Математического института им. В.А.Стеклова РАН.

Погорелко К.П.
(Отдел БЕН РАН в Математическом институте РАН)

В 2003 г. в библиотеке Математического института им. В.А.Стеклова (МИАН) начались работы по созданию полнотекстовой базы, отражающей фонды библиотеки и открытой для доступа через интернет. Первым заказчиком, который выразил желание разместить выпуски своего журнала, стала редакционная коллегия Трудов МИАН. За счет редакции был закуплен и установлен документный сканер Fujitsu fi-410c. В дальнейшем за счет гранта РФФИ был закуплен и установлен книжный сканер Minolta PS7000. В это же время Отделением Математических Наук РАН велись переговоры о совместной работе с проектом RUS-DML (Германия – ГПНТБ), предусматривающим перевод в цифровой формат и предоставление в открытый доступ математических публикаций на русском языке. Библиотека МИАН как отдел БЕН РАН заключила соглашение о партнерстве с этим проектом. По этому соглашению предусматривалась работа по общим стандартам (сканирование и метаописание) и обмен результатами работы. Таким образом, стандарты, с которыми начала работать библиотека МИАН, не являлись результатом выбора, а были определены стандартами основного исполнителя работ по проекту RUS-DML – Центра оцифровки в Геттингене (SUB).

Подход, принятый в SUB, предусматривает представление полнотекстовых документов в виде изображений страниц без попыток распознавания текста. Следует отметить, что распознавание математических текстов весьма затруднено, т.к. в тексте могут встречаться специальные символы и формулы, которые не всегда могут быть выделены и представлены как отдельные изображения. Неправильное распознавание специальных символов и формул приводит к значительным искажениям или полной потере смысла текста.

В отношении сканирования изображений стандарт предусматривает использование формата TIFF по одной странице на изображение и по одному изображению в файле с определенным набором тэгов. Основной формат изображения - черно-белый с компрессией по стандарту CCITT T.6. Для случаев, когда двухуровневое сканирование не может применяться (например – фотографии), допускается использование серого формата без сжатия. Разрешающая способность в обоих случаях составляет 600 точек на дюйм.

В отношении метаописаний статей стандарт, используемый в SUB, предусматривает только поля, имеющие интерес для зарубежного читателя – транслитерация и перевод русскоязычного названия, в то время как для отечественного читателя эти поля не имеют значения, а ему необходимо русскоязычное название. Другой проблемой является то, что стандарт метаописания SUB является его внутренним технологическим и с трудом поддается изменениям. Для нужд RUS-DML SUB и ГПНТБ был разработан новый стандарт, но он до сих пор находится в состоянии уточнения. Для того, чтобы это не тормозило работу, была достигнута договоренность об общей схеме описания данных – соответствие страниц с номерами кадров изображения и идентификационный тэг статьи – идентификатор в европейской реферативной базе по математике Zentralblatt.

Сканирование печатных изданий проводилось на двух типах сканеров. У тех изданий, которые имеются в библиотеке в значительном количестве экземпляров, проводилась обрезка корешка. Получившиеся листы пропускались через документный сканер, который производит одновременное сканирование обеих сторон листа. Результатом работы программного обеспечения документного сканера является файл в формате pdf, содержащий последовательный набор изображений, размер которых соответствует оригиналу. Для дальнейшей работы производится экспорт изображений в набор файлов в формате TIFF с необходимыми параметрами компрессии. Документный сканер имеет широкий диапазон регулировок яркости, контрастности и величины отсечки, что позволяет, как правило, хорошо настроиться на конкретный экземпляр и получать изображения хорошей четкости. Характерными искажениями для изображений, полученных на документном сканере, являются перекосы строк, вызванные неизбежными перекосами листов при протяжке и косым расположеним строк на оригинале.

Сканирование изданий с малой экземплярностью проводилось на книжном сканере. Результатом работы программного обеспечения книжного сканера является последовательность файлов, содержащих изображения страниц в формате TIFF. Изображение может иметь только предустановленные стандартные размеры, например, А3, А4 и т.п. Программное обеспечение может удалять изображение рук оператора, но не способно удалять затемнения от краев книги. Кроме того, на некоторых экземплярах книг процесс сканирования нестабилен и, тем самым, невозможно обеспечить одинаковое расположение листов в пределах сканированной области. Диапазон регулировок яркости и контрастности у книжного сканера хуже, чем у документного. Кроме того, старые выпуски печатались на бумаге плохого качества, что приводит как к нечетким изображениям букв, так и к появлению “шума” - дополнительных точек.

На рынке существует ряд программных средств, позволяющих улучшать полученные изображения, устранять “шум” и выравнивать строки. В качестве примера можно упомянуть программные средства компании “Pixel Translations”. Но, с одной стороны, они недешевы и, с другой стороны, не обеспечивают эффективного решения такой задачи, как обрезка рисунка в размер оригинала и расчистка полей для случая, когда страница не имеет фиксированного расположения на отсканированном изображении. Для того, чтобы обеспечить получение изображений высокого качества и эффективную работу оператора по очистке изображения, была разработана специальная программа по редактированию изображений в формате TIFF. Данная программа позволяет задавать размер результирующего изображения, ширину полей и проводить обрезку в визуальном режиме. Для тех случаев, когда страница оказывается размещенной слишком близко к краю, имеется возможность сдвига изображения. Имеются средства для устранения искажений перекоса как по вертикали, так и по горизонтали. Имеются средства для автоматического улучшения качества изображения. Первое осуществляет заливку букв, когда растр в буквах оказывается разорванным в силу малой контрастности. Второе позволяет убирать “шум”, устраняя группы пикселей размера меньше заданного. Для расчистки изображения вручную имеется “ластик” и возможность увеличения изображения (“zoom”). В случае ошибок оператора предусмотрена возможность “отката” - перезагрузка текущего изображения. Переход к следующему изображению осуществляется нажатием одной кнопки “next”.

В результате работы программы по расчистке изображений получается набор файлов с изображениями страниц. При этом порядок следования страниц соответствует упорядоченности имен файлов. Конкретный формат имен зависит от того, с какого сканера получено изображение. Имя может иметь и произвольный формат, если это изображение было вставлено позднее вручную, в случае, когда при сканировании был допущен пропуск. Для того, чтобы полученные изображения соответствовали требованиям, предъявляемым SUB, эти файлы должны иметь фиксированный формат имен и специальные тэги TIFF, определяющие номер этого файла и его принадлежность. Для этого существует специальная программа, которая в автоматическом режиме переписывает файлы в другую директорию, осуществляя их переименование и формирование соответствующих тэгов. В результате полученный набор изображений готов к процедуре метаописания.

На этапе метаописания вводится информация, описывающая данный выпуск. Как правило, это - ссылка на соответствующий элемент базы межбиблиотечного каталога периодики или книжного каталога. Далее проводится роспись статей. Для каждой статьи вводится ее идентификация в виде ссылки на соответствующий элемент базы отечественных статей по математике. В случае, если этого выпуска в базе нет, возможно отдельное задание описывающих статью полей. Для связи с проектом RUS-DML осуществляется поиск статьи в базе Zentralblatt. Соответствующий идентификатор запоминается. Если статьи в Zentralblatt не найдено, то отсылается соответствующее уведомление о пропуске и изображение первой страницы статьи. В завершение вводится диапазон номеров изображений, содержащих данную статью. В таком виде информация готова для обмена с базой RUS-DML.

Для поиска статей предполагается использовать механизм поиска, реализованный для базы статей по отечественным публикациям в области математики. Для книг, в случае наличия полного текста, соответствующая ссылка появляется при поиске по книжному каталогу.

Презентация полнотекстовых материалов предусматривается в двух режимах по выбору пользователя. Он может скачать готовый pdf-файл со статьей или осуществлять постраничный просмотр с возможностью движения вперед или назад. Для книг, где результирующий pdf-файл может иметь значительные размеры, предусматривается возможность генерации pdf-файла с указанным диапазоном страниц “на лету”.

Отдельной проблемой являются авторские права. Так, например, в случае “Трудов МИАН” авторские права принадлежат как редколлегии, так и Академии наук и коллективу авторов. Поэтому, для предоставления издания в открытый доступ помимо разрешения от редколлегии надо получать разрешения от Отделения Математических наук как представителя Академии и от каждого автора в отдельности. Для этого, очевидно, придется создавать отдельную подсистему.

Данная работа выполняется при поддержке гранта РФФИ.

 

 

!25

Разработка и реализация лингвистического обеспечения
корпоративной информационно-поисковой системы

Кулькова Г. В.
(НОУ Корпоративный университет "Северсталь")

Корпоративный университет "Северсталь" входит в состав “Северсталь-групп”, где он предназначен быть агентом формирования единой культуры ведения бизнеса посредством системы управления знаниями. Университет является инструментом поддержки управленческих решений высшего менеджмента, а также исследовательским, информационным, образовательным, методическим и консультационным центром для всей

группы компаний. Центральной частью Корпоративного университета и основным инструментом реализации его миссии является система управления знаниями. Управление знаниями осуществляется в процессах передачи эффективных управленческих технологий, поддержки управленческих решений и обеспечения консалтинговых и образовательных проектов. Кроме того, система управления знаниями должна обеспечить формирование и

распространение общей управленческой культуры группы "Северсталь".

Необходимость создания системы управления знаниями для группы "Северсталь" определяется, во-первых, географической удаленностью предприятий группы и сложностью построения эффективных коммуникаций, особенно в плане обмена передовым опытом, и, во-вторых, неравномерностью развития разных предприятий в различных областях деятельности. Одно предприятие может продвинуться дальше других в области маркетинга,

но отставать в области управления человеческими ресурсами, тогда как другое предприятие может иметь ряд успешных технологий управления персоналом, но испытывать трудности организации маркетинговой службы. Если эти предприятия вместо того, чтобы тратить ресурсы на решение своих проблем самостоятельно, будут обмениваться опытом, это принесет пользу им обоим и группе "Северсталь" в целом. Результатом признания важности создания системы управления знаниями корпорации является подписание Генеральным директором ЗАО “Северсталь-групп” А.А.Мордашовым стандарта “Управление знаниями”, который сейчас находится в стадии внедрения.

Основой системы управления знаниями служит корпоративная информационно-поисковая система (ИПС) для хранения и распространения информации. Структура создаваемой информационно-поисковой системы может быть представлена как совокупность трёх системных слоев:

  • Пользовательский интерфейс, включающий рубрикаторы по отраслям знаний, управленческим технологиям и экспертам; развитые программы информационного поиска в базах знаний; систему часто задаваемых вопросов; тематические форумы; тематические рассылки и обзоры.
  • Базы данных, включая базу данных по предметным областям; базу отчетов по проектам, по зарубежным командировкам; базу данных об экспертах и консультантах (персоналия); базу распорядительной документации (система документооборота).
  • Нормативно-методическое обеспечение, в том числе: нормативные файлы информационно-поисковых языков; методики индексирования документов и информационного поиска; стандарты документопотока; методики ведения и поддержки баз данных; методики занесения документов и данных об экспертах в базы данных.

К подсистеме лингвистического обеспечения относятся следующие компоненты системы: рубрикаторы и программы информационного поиска, включая их нормативные файлы, а также методики индексирования (внесения данных в регистрационные записи) и поиска.

В настоящее время пилотная версия информационно-поисковой системы запущена в не-скольких подразделениях ОАО "Северсталь". В структурных подразделениях компании производится первичная обработка документов, индексирование документов и запросов, поиск информации.

Конечные пользователи заполняют регистрационные записи о документах в базах данных.

В ходе опытной эксплуатации пилотной системы Корпоративный университет предоставляет методическую и серверную поддержку. В качестве технологической платформы используется среда Lotus DominoDoc. Техническую поддержку предоставляет Центр информационных технологий Корпоративного университета. В Центре управления знаниями Корпоративного университета осуществляются следующие функции: управление и совершенствование ИПС; информационное обслуживание абонентов; научная обработка документов; методическое обеспечение процессов.

Первая из этих функций частично возложена на группу лингвистического обеспечения Центра управления знаниями, которая должна обеспечить ведение и поддержку баз данных ИПЯ ИПС; контроль использования ИПЯ (контроль и учет практического использования рубрик рубрикаторов); принятие и оформление классификационных решений; усовершенствование локального рубрикатора; ведение ИПЯ ключевых слов (лексикографический контроль использования, исключение устаревших слов); разработку методик использования ИПЯ.

ИПС выполняет следующие функции:

  • Обеспечение тематического поиска документов (по локальному рубрикатору).
  • Обеспечение простого и расширенного поиска (по одному и нескольким атрибутам, полнотекстового, по ключевым словам).
  • Обеспечение в результате поиска комплектования документов по атрибутам поиска.

Разработка вопросов лингвистического обеспечения (ЛО) информационно-поисковых систем (ИПС) является важнейшим шагом на пути решения проблемы обработки информации и обеспечения доступа к ней. Набор используемых лингвистических средств определяется функциональным назначением системы, типо- видовой структурой документально-информационного потока, обрабатываемого системой и т. д. Достижение основной цели ЛО ИПС — обеспечения максимальной полноты и точности информационного поиска — обычно связано с использованием различных лингвистических средств, дополняющих друг друга.

Основываясь на опыте разработки лингвистического обеспечения систем научно-технической информации [1, 2], следует сделать вывод, что необходимая семантическая сила ЛО нашей корпоративной информационно-поисковой системы может быть достигнута путем использования четырёхчленного комплекса информационно-поисковых языков (ИПЯ). В этот комплекс входят как разрабатываемые нами ИПЯ, так и средства, уже имеющиеся в системе. В первом случае - это язык ключевых слов, набор общесистемных и локальных рубрикаторов, язык метаданных. Во втором случае - это средства полнотекстового поиска, обеспечиваемые средой Lotus DominoDoc. Такой состав ЛО соответствует требованиям минимальной избыточности, заключающимся в применении только таких лингвистических средств, которые необходимы для решения задач, предъявляемых данной системе пользователями.

Мы столкнулись с необходимостью обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективным для поиска по широкотематическим запросам являются классификационные ИПЯ, для поиска по детальным запросам — вербальные ИПЯ. Следовательно, в составе лингвистического обеспечения требуется наличие хотя бы одного вербального и одного классификационного ИПЯ.

Наша логика построения информационно-поисковой системы в данном случае была следующей:

Вербальные ИПЯ

Наиболее эффективным среди вербальных ИПЯ является язык ключевых слов, свободно выбираемых из лексикона специалистов-пользователей и вводимых в базы данных в нормализованной лексикографической форме. Причины использования языка ключевых слов таковы:

  • очень широкий тематический состав обрабатываемых документов, делающий весьма проблематичным использование жестко нормированной лексики;
  • наличие семантических трудностей индексирования документов и запросов жестко нормированными терминами для уровня подготовки пользователей баз данных;
  • относительная простота использования лексики ключевых слов, близкой к естественному языку.

Однако необходимо учитывать, что неконтролируемое и неуправляемое применение ключевых слов приводит к значительным потерям в характеристиках полноты и точности поиска. С целью устранения недостатков должны строго соблюдаться методические рекомендации и инструкции. В настоящее время разрабатываются методические документы, которые будут определять режим ведения и совершенствования ИПЯ ключевых слов. В частности, изучается вопрос о разработке семантического словаря ключевых слов (информационно-поискового тезауруса), в котором лексические единицы будут характеризоваться смысловыми связями друг с другом, что позволит проводить содержательный поиск информации, не ограничиваясь выдачей материалов по формальному совпадению слов запроса и документа.

Классификационные ИПЯ

Вопрос наличия в составе лингвистического обеспечения общесистемного рубрикатора научно-технической информации решен стандартами ГОСТ 7.49-84 [3] и ГОСТ 7.77-98 [4]. Минимум дополнительных классификационных ИПЯ, обеспечивающий достаточно большое покрытие потребностей информационного взаимодействия — это ИПЯ локального рубрикатора, который находится в процессе разработки с целью более тонкого отражения внутренних информационных потоков группы "Северсталь". Локальный рубрикатор входного потока документов в 2004 году был зарегистрирован в Межгосударственной системе научно-технической информации (ГСНТИ).

ИПЯ метаданных.

В Центре управления знаниями НОУ Корпоративный университет "Северсталь" разработан и находится в процессе технической реализации ИПЯ метаданных. Данный язык реализуется в виде формата регистрационных карточек на следующие виды документов: аналитический отчет (записка); бизнес-план; отчет о командировке; отчет о выполненном проекте; нормативный документ (закон, положение, правила, инструкция, государственный стандарт, стандарт предприятия, технические условия); презентация; статья (опубликованная в журнале, газете); учебный дистанционный курс; прочие документы (документы, которые могут быть размещены в корпоративном электронном каталоге по усмотрению исполнителя и регистратора документов в зависимости от ценности их содержания).

Регистрационная карточка - это набор полей (атрибутов) документа (элементов метаданных). Регистрационная карточка предназначена для размещения сведений о документе в корпоративном электронном каталоге. Регистрационная карточка разработана на основе минимального набора метаданных, который известен как "Дублинское ядро" и теперь оформлен как международный стандарт ISO 15836:2003 [5]. Во внимание был принят также опыт разработки отечественного стандарта ГОСТ 7.70-2003 [6], который предлагает гораздо более обширный набор реквизитов описания информационных ресурсов.

Для каждого вида документов корпоративной ИПС определены состав и содержание элементов метаданных (полей). Критерием отбора полей для формирования записей в структуре карточки явилась практика составления библиографических описаний, а также соответствие потребностям и задачам нашей информационно-поисковой системы.

Поскольку ИПС создается как инструмент, поддерживающий процессы управления знаниями, необходимыми являются поля определения тематики документа: поле ключевых слов, поле локального рубрикатора, поле рубрикатора ГРНТИ.

Правила использования ИПЯ метаданных и ИПЯ ключевых слов определяются нормативным документом "Правила заполнения полей регистрационной карточки документа", который задает состав и содержание реквизитов документа, размещаемых в корпоративном электронном каталоге, а также общие требования к заполнению полей регистрационной карточки.

Реквизиты документов можно условно разделить на три группы: обязательные, обязательные для отдельных видов документов и факультативные.

К первой группе относятся 13 реквизитов, являющихся обязательными для всех видов документов:

  • Наименование документа. Здесь помещается наименование, приведенное на титульном листе, название статьи, название учебного курса. Присваивается либо создателем документа, либо администратором базы данных, ответственным за регистрацию документов.
  • Автор. Исполнитель документа, автор(ы) статьи, автор(ы) материалов учебного курса.
  • Организация — создатель документа. Полное официальное наименование организации либо подразделения, в которых создан публикуемый документ.
  • Ключевые слова. Слова, в наибольшей мере характеризующие содержание документа и обеспечивающие возможность информационного поиска.
  • Реферат. Сокращенное текстовое изложение содержания (темы, предмета) документа.
  • Дата. Дата создания документа, приведенная на титульном листе, дата публикации статьи, дата запуска учебного курса в эксплуатацию, дата введения стандарта в действие. Приводится в формате ГОСТ ИСО 8601 [7].
  • Формат документа. Отражается способ представления документа (документ Microsoft Word, таблица Excel и т. п.).
  • Индекс локального рубрикатора. Тематика документа, выраженная кодами локального рубрикатора НОУ "Корпоративный университет "Северсталь". Присваивается в группе лингвистического обеспечения ЦУЗ.
  • Индекс рубрикатора ГРНТИ. Тематика документа, выраженная кодами Государственного рубрикатора НТИ, определенного межгосударственными стандартами ГОСТ 7.49 [3] и ГОСТ 7.77 [4]. Присваивается в группе лингвистического обеспечения ЦУЗ.
  • Язык документа. Указывается язык, на котором написан текст документа. Наименования языков приводят в полной форме.
  • Приложения. Ссылки "http" на документы, ресурсы, связанные с публикуемым документом.
  • Права интеллектуальной собственности. Указывается отношение организации либо лица к обладанию авторскими правами на документ.

Вторую группу реквизитов составляют поля, обязательные для отдельных видов документов. Данные реквизиты позволяют предоставить пользователю максимально необходимую информацию о публикуемом документе. К ним относятся:

  • Местонахождение организации — создателя документа (страна). Названия стран приводят в полной форме.
  • Местонахождение организации — создателя документа (город). Записывается в виде, приведенном на титульном листе документа.
  • Местонахождение организации — создателя документа (адрес). Указывается официальный почтовый адрес организации.
  • Организация-соисполнитель. Приводится полное официальное наименование организации, принимавшей участие в проекте, либо организации, для которой разрабатывался бизнес-план, либо организации — соразработчика учебного курса.
  • Местонахождение организации-соисполнителя (страна).
  • Местонахождение организации-соисполнителя (город).
  • Местонахождение организации-соисполнителя (адрес).
  • Соисполнители. Приводятся фамилии, имена, отчества представителей организации, принимавшей участие в проекте, либо участвовавших в разработке учебного курса.
  • Группа командированных. Реквизит, обязательный для отчета о командировке. Приводятся ФИО командированных.
  • Наименование мероприятия. Указывается мероприятие, для которого готовился данный аналитический отчет либо презентация.
  • Место проведения мероприятия. Место презентации, или другого мероприятия, для которого готовился данный аналитический отчет.
  • Место назначения (фирма). Приводится официальное наименование фирмы, компании, предприятия, организации, которая была посещена в ходе командировки.
  • Место назначения (страна).
  • Место назначения (город).
  • Место назначения (адрес).
  • Представители принимающей стороны. Приводятся ФИО и должности лиц, к которым была направлена группа командированных.
  • Период командировки. Даты начала и окончания командировки.
  • Продолжительность курса. Время, рекомендуемое для изучения данного курса.
  • Дата (год). Указывается для годовых, квартальных, ежемесячных отчетов.
  • Дата (квартал). Указывается для квартальных отчетов. Записывается арабскими цифрами (1, 2, 3 или 4).
  • Дата (месяц). Указывается для ежемесячных отчетов в виде буквенного наименования.
  • Дата проведения презентации.
  • Дата принятия нормативного документа.
  • Дата введения в действие нормативного документа.
  • Стоимость обучения. Для учебного курса.
  • Обозначение документа. Например: обозначение стандарта предприятия, приведенное на титульном листе. Например: СТП-КБ-9.1.01.01.
  • Тип учебного курса. Указывается, закуплен курс или разработан.
  • Форма обучения. Указывается, самостоятельная или групповая форма обучения запланирована для данного курса.
  • Инструктор. Приводится ФИО инструктора данного курса.
  • Источник. Указывается источник, из которого взята статья (название газеты, журнала, адрес страницы в Интернете).
  • Номер и страницы. Указывается номер журнала, газеты, том (если есть), номера страниц (если есть).
  • Обозначение заменённого документа. Для стандартов указывается обозначение удалённого из базы стандарта в случае, если новый стандарт размещается вместо ранее действовавшего.
  • Вид нормативного документа (закон, положение, инструкция, правила, ГОСТ, СТП, ОСТ, ТУ).

Третью группу составляют факультативные реквизиты, позволяющие предоставить поль-зователю дополнительную информацию о документе. К ним относятся:

  • Язык реферата. Приводится в случае, если он отличен от языка основного документа.
  • Инвентарный номер документа.
  • Местонахождение бумажного оригинала. Указывается полное официальное наименование организации/подразделения, где хранится бумажный оригинал документа.
  • Дата окончания срока действия стандарта.
  • Дата опубликования нормативного документа.

Общие требования к заполнению полей предусматривают необходимость всестороннего ознакомления с документом, чёткого описания его в реферате, а также уточняют правила орфографического представления текста.

В качестве приложения к "Правилам заполнения полей регистрационной карточки документа" разработаны дополнительные нормативные документы: "Правила заполнения поля Ключевые слова", "Требования к содержанию и структуре реферата". Первый из них включает:

  • Схему выделения ключевых слов документа (по ГОСТ 7.66-92) [8], которая предусматривает изучение полного текста документа, анализ всех имеющихся текстовых частей документа (заглавия, реферата, содержания, введения, заключения, заголовков частей и глав, первых фраз частей и параграфов, иллюстраций, схем, таблиц, слов, выделенных в тексте).
  • Правила образования ключевых слов, которые обеспечивают минимальное употребление словосочетаний, использование существительных в единственном числе, за исключением слов, имеющих только множественное число.
  • Рекомендации по использованию в качестве ключевых слов географических названий, наименований технических средств, организаций, зарубежных фирм, наименований языков, законов, теорий, формул.
  • Правила записи одиночных прилагательных, причастий, деепричастий, глаголов, наречий; правила описания временных интервалов и дат, слов в латинской транскрипции, наименований программных продуктов.

Требования к реферату — краткому точному изложению содержания документа — определены документом "Требования к содержанию и структуре реферата", разработанным в соответствие с отечественными и международными стандартами [9,10]. В нем объясняются функции реферата, определяются его структура и особенности текста, в частности, правила написания имен собственных, сокращений, единиц физических величин, географических названий, таблиц, формул, чертежей. Рекомендуется средний объем текста реферата — 850 печатных знаков.

Принятый языковой состав лингвистического обеспечения корпоративной ИПС представляется наиболее эффективным как в функциональном отношении, так и с точки зрения его экономичности. Предварительные результаты опытной эксплуатации системы свидетельствуют, что он позволяет обеспечить: индексирование документов и запросов; эффективный поиск в документальных базах данных по содержательным запросам; внутрисистемную лингвистическую совместимость.

 

ЛИТЕРАТУРА

1. Положение о лингвистическом обеспечении Государственной автоматизированной системы научно-технической информации.— М.: ГКНТ, 1986.

2. Антопольский А. Б. Лингвистическое обеспечение электронных библиотек.— М.: Информрегистр, 2003 .— С. 56-66.

3. ГОСТ 7.49-84 СИБИД. Рубрикатор ГАСНТИ. Структура, правила использования и ведения.— М.: Изд-во стандартов, 1984.

4. ГОСТ 7.77-98 СИБИД. Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения.— Минск: Изд-во стандартов, 1998.

5. ISO 15836:2003 Information and documentation — The Dublin Core metadata element set.— Geneve, 2003.

6. ГОСТ 7.70-2003 СИБИД. Описание баз данных и машиночитаемых информационных массивов. Состав и обозначение характеристик.— М.: Изд-во стандартов, 2003.

7. ГОСТ ИСО 8601-2001 СИБИД. Представление дат и времени дня. Общие требования.— Минск: Изд-во стандартов, 2001.

8. ГОСТ 7.66-92 СИБИД. Индексирование документов. Общие требования к координатному

индексированию.— М.: Изд-во стандартов, 1992.

9. ГОСТ 7.9-95 (ИСО 214-76) СИБИД. Реферат и аннотация. Общие требования.— М.: Изд-во стандартов, 1996.

10. ISO 214:1976 Documentation — Abstracts for publications and documentation.— Geneve, 1976.

 

 

!26

Сводный электронный каталог “Книжные памятники архангельской области”:
проблемы формирования и использования

Тикунова И.П.
(Архангельская областная научная библиотека им. Н.А.Добролюбова)

Русский Север на протяжении столетий являлся богатейшей кладовой памятников книжной культуры. Первые книги проникли на Север в IX-XI вв. вместе с новгородской колонизацией. Известны крупнейшие книжные собрания Соловецкого, Антониево-Сийского, Николо-Карельского и других монастырей Русского Севера. Древние рукописи и первопечатные книги хранились в семейных библиотеках старообрядцев, переписывались и переплетались в скитах и общинах. И сегодня библиотеки, музеи и архивы Архангельской области имеют в своих фондах уникальные коллекции рукописных и старопечатных книг.

Книжные памятники как объекты культурного наследия требуют установления особого режима их охраны и использования. Создание общедоступных электронных информационных ресурсов является одним из способов сохранения и включения в научную и образовательную среду информации о книжных памятниках. Эта деятельность рассматривается в качестве важного направления в подпрограмме “Книжные памятники Российской Федерации” Национальной программы сохранения библиотечных фондов Российской Федерации.

В 2004 г. в рамках реализации проекта “Создание “Свода книжных памятников Архангельской области” при поддержке Федерального агентства по культуре и кинематографии Архангельская областная научная библиотека им. Н.А.Добролюбова инициировала и приступила к созданию базы данных “Сводный электронный каталог “Книжные памятники Архангельской области”.

Объектами библиографирования были определены единичные книжные памятники, хранящиеся в фондах библиотек, музеев и архивов Архангельской области, в том числе: рукописные книги ХVI - начала ХХ вв., западноевропейские книги ручного пресса ХVI-ХVIII вв., старопечатные кириллические издания ХVI - начала ХХ вв., книги гражданской печати ХVIII – 1-й трети ХIХ вв., напечатанные на старославянском, русском и иностранных языках.

Первая проблема, с которой сталкиваются создатели электронных баз данных, - выбор программного обеспечения, которое позволяло бы соответствовать профессиональным стандартам и коммуникативным форматам. Архангельская областная научная библиотека им. Н.А.Добролюбова имеет многолетний опыт использования АБИС ИРБИС (разработчик - ГПНТБ России) для создания как локальных электронных баз данных (электронный каталог на собственный документный фонд), так и сводных электронных каталогов (сводный каталог периодических изданий, выписываемых библиотеками Архангельска). Поэтому в качестве программного обеспечения для формирования сводного электронного каталога “Книжные памятники Архангельской области” была выбрана именно эта автоматизированная библиотечно- информационная система.

Специалисты Архангельской областной научной библиотеки им. Н.А.Добролюбова адаптировали ее к требованиям, определенным Правилами библиографического описания старопечатных изданий, разработанными Российской государственной библиотекой (М., 2003), ввели дополнительные поля для ввода и поиска информации, например: хронологический период и статус книжного памятника, обоснование статуса. Были использованы такие возможности АБИС ИРБИС, как ссылка на внешний объект. При этом библиографическая запись включает сведения об издании, а информация об особенностях экземпляров этого изданиях, хранящихся в библиотеках, музеях, архивах Архангельской области (описание и полный текст, изображение внешнего вида, титульного листа или отдельных фрагментов) представлена в отдельных файлах, размещенных на сервере библиотеки, адрес которых прописан в специальном поле.

На следующем этапе создания электронного каталога был осуществлен ввод библиографических записей на документы из фонда Архангельской областной научной библиотеки им. Н.А.Добролюбова. В ходе работы апробировались принятые методические решения, выявлялись и устранялись возникавшие погрешности при вводе и поиске информации, вырабатывались необходимые рекомендации для будущих участников создания каталога.

Большую помощь в работе оказали специалисты двух крупнейших библиотек России. Сотрудники научно- исследовательского отдела редкой книги Российской государственной библиотеки (г. Москва) консультировали по вопросам идентификации и описания книжных памятников, а специалисты Российской национальной библиотеки (г. Санкт- Петербург) предоставили электронные записи на документы из фонда Архангельской областной научной библиотеки им. Н.А.Добролюбова, включенные в базу данных “Русская книга гражданской печати XVIII в. в фондах библиотек РФ (1708-1800)”. В результате за короткий срок (три месяца) была сформирована база данных “Сводный электронный каталог “Книжные памятники Архангельской области”, включавшая более 400 библиографических записей.

Привлечение к работе над каталогом других фондодержателей книжных памятников стало следующей задачей организаторов сводного электронного каталога. Чтобы заинтересовать потенциальных участников, было проведено специальное совещание руководителей наиболее крупных музеев, библиотек и Государственного архива Архангельской области, где были подняты вопросы по изучению и описанию книжных памятников, продемонстрированы поисковые возможности базы данных “Сводный электронный каталог “Книжные памятники Архангельской области”, представленной на сайте Архангельской областной научной библиотеки им. Н.А.Добролюбова, а также обсуждались организационные вопросы работы над сводным электронным каталогом.

Учитывая различный уровень технической оснащенности учреждений- фондодержателей книжных памятников, было разработано 4 варианта участия в создании каталога:

  • Вариант 1 “Web-каталогизация”, предполагающий участие в каталогизации в режиме удаленного авторизованного доступа, возможен при наличии у исполнителя компьютерной техники, подключения к сети Интернет и установки модуля “Web-каталогизатор” АБИС ИРБИС;
  • Вариант 2 “Машиночитаемая каталогизация”, предполагающий участие в каталогизации в локальном режиме, возможен при наличии у исполнителя компьютерной техники и установки АБИС “ИРБИС” для создания локальной БД;
  • Вариант 3 “Каталогизация в традиционном режиме”, когда библиографические записи создаются на специально разработанных бланках в электронном или печатном варианте;
  • Вариант 4 “Каталогизация силами специалистов Архангельской областной научной библиотеки им. Н.А.Добролюбова” возможен при условии доступа специалистов к книжным памятникам, хранящимся в фонде участника сводного электронного каталога.

Чтобы повысить ответственность участников, обеспечить соблюдение разработанных правил машиночитаемой каталогизации, урегулировать вопросы интеллектуальной собственности, со всеми учреждениями, пожелавшими участвовать в работе над каталогом, были заключены двухсторонние договоры о сотрудничестве в области создания сводного электронного каталога “Книжные памятники Архангельской области”.

Для ускорения работы по сбору информации о книжных памятниках, хранящихся в фондах библиотек и музеев Архангельской области, и для расширения круга участников каталога всем крупным фондодержателям книжных памятников было предложено познакомиться с библиографическим списком “Книжные памятники Архангельской области”: Из фондов Архангельской областной научной библиотеки им. Н.А.Добролюбова” и отметить в нем документы, хранящиеся в их собственных фондах.

Решая проблему унификации библиографического и научного описания книжных памятников, специалисты Архангельской областной научной библиотеки им. Н.А.Добролюбова позаботились о методической поддержке своих партнеров. Был подготовлен целый пакет методических и инструктивных материалов, включающий рабочие листы для машиночитаемой каталогизации книжных памятников, инструкции и рекомендации по их библиографическому описанию. Было организовано специальное обучение и консультирование по вопросам идентификации, библиографического и научного описания старопечатных книг как во время посещения библиотек и музеев, так и с помощью современных средств связи.

Первоначально доступ пользователей к базе данных был организован только в удаленном режиме через веб- сайт Архангельской областной научной библиотеки им. Н.А.Добролюбова (http://webirbis.aonb.ru). Этот вариант позволяет вести поиск информации по ключевым словам, автору и заглавию, типу, хронологическому периоду, статусу и держателю документа.

Однако возможности доступа к Интернет- ресурсам в большинстве библиотек и музеев Архангельской области невелики. Чтобы расширить доступ пользователей к базе данных “Сводный электронный каталог “Книжные памятники Архангельской области” было решено обеспечить его в локальном режиме путем создания поисковой версии базы данных на CD-RОМ. Для этого был использован стандартный поисковый интерфейс АБИС ИРБИС для работы в локальной сети посредством АРМ “ЧИТАТЕЛЬ”.

Данный вариант базы данных позволяет вести поиск информации по большему количеству признаков (ключевым словам, автору и заглавию документа, месту и году его издания, названию издающей организации, виду, типу и характеру документа, стране издания, языку, на котором издана или написана книга, держателю документа, хронологическому периоду и статусу книжного памятника). При этом ссылки на прикрепленные к библиографическим записям файлы доступны, если компьютер, на котором запущен данный диск, имеет выход в Интернет. Кроме того, в интерфейсе программы предусмотрена возможность составить и распечатать список отобранных документов, сделать экспорт данных на жесткий диск в виде iso-файла.

Сегодня база данных “Сводный электронный каталог “Книжные памятники Архангельской области” представляет собой регулярно пополняемый комплексный массив информации, отражающий наличие, местонахождение и количественный состав книжных памятников Архангельской области по различным признакам. Она содержит около 500 библиографических записей на единичные книжные памятники, а также иллюстрации и описания специфических особенностей этих документов из фондов почти десятка библиотек, музеев, архивов и частных коллекций Архангельской области. Данный электронный информационный ресурс дает пользователям качественно новые возможности работы с информацией о книжных памятниках Архангельской области, совмещая возможности традиционного каталога и информационного мини-портала.

Работа над сводным электронным каталогом “Книжные памятники Архангельской области” продолжается, а значит, впереди ждут новые проблемы и решения. Организаторы проекта надеются, что со временем база данных “Сводный каталог “Книжные памятники Архангельской области” займет достойное место в Общероссийском Своде книжных памятников Российской Федерации.

 

 

!27

Интернет - каталог периодических изданий LATINDEX
Мексиканского Автономного Университета

Хачко О.А.
(Всероссийский институт научной и технической информации РАН)

Назначение системы, цели и задачи

LATINDEX (Латиндекс) -региональная система информации, предоставляющая в режиме он-лайн описания научных журналов стран Латинской Америки, Карибского бассейна, Испании и Португалии. LATINDEX является продуктом совместной работы ряда организаций этих стран (преимущественно Институтов научной и технической информации, Национальных советов по науке и технологии), координирующих свои действия в области сбора и распространения библиографической информации о сериальных научных изданиях, выпускаемых в регионе. Пользование каталогом бесплатно. Каталог доступен через Интернет по адресу http://www.latindex.unam.mx/.

Система LATINDEX была создана в 1995 году и в настоящее время отражает издания 31 страны, а также издания международных организаций.

Потенциальными пользователями LATINDEX считаются все те, кто создает, использует и участвует в обмене научной информацией, выпускаемой в регионе, а именно: исследователи, преподаватели, администраторы, лица, планирующие научную деятельность, издатели, библиотекари, специалисты в области информации. LATINDEX также предназначен для международного сообщества - организаций и отдельных лиц, интересующихся содержанием, темами и мероприятиями, имеющими отношение к науке и научной информации в регионе.

Назначение LATINDEX – посредством объединенных ресурсов распространять, обеспечивать доступ и поднимать качество сериальных научных изданий, производимых в регионе. С этой целью координируются действия по сбору, обработке, распространению, использованию и производству научной информации. Особыми задачами системы считаются определение политики и организация действий, которые приведут к интеграции усилий в различных регионах и странах-участниках в области производства, распространения, систематизации и использования научной информации, усилению влияния, улучшению качества и повышению популярности ибероамериканских научных журналов в Карибском бассейне (термины ибероамериканский, Ибероамерика используется в том случае, когда речь идет обо всех испано- и португалоговорящих странах Латинской Америки, а также Испании и Португалии). Предполагается также использовать обрабатываемую информацию как основу для разработки новых информационных продуктов.

Разработчики системы поставили своей задачей не только развивать систему информации для ввода и справочного использования разнообразных данных о сериальных научных изданиях, но также и развивать компьютерную и пользовательскую инфраструктуру, устанавливать связи с другими информационными системами, базами данных и издателями сериальных научных изданий, и, что самое главное - определить критерии и стандарты качества для выпуска сериальных научных изданий.

Географический охват системы - Латинская Америка, Карибский бассейн, Испания и Португалия. Языковой охват системы - все языки, имеющие хождение в регионе.

Тематически представлены сериальные издания, распределенные по категориям, имеющим отношение к точным, естественным, социальным и гуманитарным наукам.

Структура LATINDEX

LATINDEX предоставляет своим пользователям три основных информационных продукта:

Справочник, который с 1997 года предоставляет как нормализованные (в соответствии с нормами ISSN) данные по широкому кругу академических или представляющих академический интерес журналов, так и некоторые другие данные, имеющие отношение к издателю, полному адресу, способу распространения и ценам. С 1997 года Справочник доступен через Интернет. Содержит более 13 тыс. наименований. Динамика роста количества журналов, зарегистрированных в Справочнике LATINDEX, представлена в таблице (см. Приложение 1).

Каталог научных журналов с описательной информацией, добавочной по отношению к Справочнику. Названия, включенные в Каталог, отобраны и классифицированы на основании критериев, выработанных LATINDEX. Каталог доступен через Интернет с середины 2002 года. Содержит около 2000 наименований.

Указатель электронных ресурсов находится в процессе становления. В настоящее время коллекция полнотекстовых журналов содержит около 2000 наименований.

География изданий стран-участников системы в трех информационных продуктах LATINDEX отражена в Приложении 2.

Отбор изданий

В Справочник включены журналы, которые систематически публикуют информацию, представляющую интерес для исследователей, учащихся, профессионалов, технических работников, студентов и работников производственной, учебной и культурой сферы. Справочник не содержит изданий, посвященных работе предприятий, а также изданий рекламного характера. Статьи, опубликованные в различных журналах Справочника, можно найти в следующих национальных и региональных базах данных, связанных с LATINDEX: CLASE (латиноамериканские журналы по социальным и гуманитарным наукам), PERIУDICA (латиноамериканские журналы по науке и технологии), LILACS (латиноамериканские медицинские журналы), ISOC (испанские журналы по социальным и гуманитарным наукам), ICYT (испанские журналы по науке и технологии), IME (испанские медицинские журналы). Содержания многих из этих журналов доступны в своей полнотекстовой версии на сайтах научных электронных библиотек, таких как: SciELO (Scientific Electronic Library Online), RedALYC (Red de Revistas Cientнficas de America Latina y el Cбribe, Espaсa y Portugal), E-Journal (UNAM). Издание в Справочнике описывается по 45 позициям (пример приведен в Приложении 3).

Каталог LATINDEX, начавший работать в режиме он-лайн в марте 2002 года, содержит описательную информацию, которая дополняет данные, содержащиеся в Справочнике. Журналы, отраженные в Каталоге, являются подмножеством Справочника LATINDEX. Эти наименования были отобраны и расклассифицированы каждой страной-участницей проекта на основании международных критериев качества, принятых для издаваемых журналов, утвержденных и апробированных Системой LATINDEX. Был выработан перечень критериев оценки журналов (33 критерия), разбитых на четыре группы:

  1. основные характеристики,
  2. оформительские характеристики,
  3. управление и издательская политика,
  4. характеристики, имеющие отношение к содержанию издания.

К основным характеристикам относятся:

  1. Наличие упоминания об издателе или организации, ответственной за выпуск издания.
  2. Наличие положительной оценки содержания. Содержание издания получает положительную оценку, если не менее 40% его материалов - оригинальные и не опубликованные ранее статьи, описание технических характеристик, нормативов или спецификаций, материалы конференций (доклады, сообщения), письма в редакцию, обзорные статьи и т.п.
  1. Журнал должен просуществовать минимум год к моменту проведения его оценки. Имеющее периодичность 1 или 2 раза в год издание должно оцениваться минимум по трем выпускам. В любом случае, рассматриваются только самые свежие выпуски.
  2. Материалы должны быть подписаны авторами, либо указывается коллективный автор,
  3. На видном месте должно быть указано место издания.
  4. Обязательно указание издающей организации.
  5. Обязательно должно быть упомянуто имя главного редактора.
  6. На видном месте должен быть указан почтовый адрес издания либо E-mail для возможного контакта в целях подписки, покупки, посылки работ и пр.

Оформительские характеристики имеют отношение к оформлению страниц, наличию оглавления журнала, размещения библиографических ссылок, наличию сведений об издательском совете, институциональной принадлежности авторов и др. (9 характеристик).

Характеристики, касающиеся издательской политики (8 характеристик), имеют отношение к наличию четкой формулировки целей, тематического охвата издания, а также определение читательского адреса. Издание оценивается положительно, если оно содержит сведения о системах оценок, которым подвергалось его содержание (в том числе и указание на то, отражается ли журнал в какой-либо службе индексирования, реферирования, каталогах или базах данных). Оценивается также выполнение издательского плана. Важным считается и то, какое количество материалов исходит от авторов, внешних по отношению к издательскому коллективу журнала.

Характеристики, касающиеся содержания, имеют отношение к оригинальности представленных материалов, наличию резюме, ключевых слов и пр. (8 характеристик).

В любом случае, для оценки издания необходимо просмотреть не менее 3 выпусков. Для включения в Каталог издание должно положительно соответствовать всем основным характеристикам, а также положительно оцениваться минимум по 17 остальным параметрам, то есть каждое издание должно быть положительно оценено по 75% параметрам, утвержденным LATINDEX.

Для включения в Указатель электронных ресурсов издание должно быть подвергнуто особой системе оценок (33 характеристики). Эти критерии были выработаны рабочей группой, которая сформулировала критерии издательского качества, работающие для печатных журналов, а также применимы и к любому журналу, издаваемому в электронном виде, включая также и дополнительные характеристики, присущие только e-журналам. На этапе эксперимента эта методика отбора была применена к 39 журналам 4 стран с положительным результатом.

Характеристики подразделяются на 4 группы. Первая группа – это основные характеристики, сходные с теми, которые необходимы для включения издания в Каталог LATINDEX (а также, дополнительно, наличие URL издания). Вторая группа характеристик имеет отношение к оформлению издания, дополнительно учитывается легкость навигация. Третья группа имеет отношение к управлению и издательской политике (практически аналогично третьей группе характеристик для вхождения в Каталог). Четвертая группа оценивает содержание издания, систему ссылок и дополнительные услуги.

Тематика LATINDEX

Тематическая классификация изданий в системе LATINDEX не является иерархической. Используется всего 172 тематических деления. Ниже в качестве примера приводится фрагмент этого списка:

1

Агрономия

27

Гериатрия

53

Литература

2

Акушерство и гинекология

28

Гражданское право

54

Математика

3

Анатомия

29

Демография

55

Медицина

4

Анестезиология

30

Дерматология

56

Международная экономика

5

Антропология

31

Дизайн

57

Международное право

6

Археология

32

Живопись

58

Международные отношения

7

Архитектура

33

Защита и безопасность

59

Металлургия

8

Астрономия

34

Здравоохранение

60

Микробиология

9

Библиография

35

Зоология

61

Морское право

10

Библиотековедение

36

Зоотехника

62

Музеология

11

Биология

37

Изящные искусства

63

Музыка

12

Биотехнология

38

Инфектология

64

Мультидисциплинарные

13

Биофизика

39

Информационные науки

65

Налоговое право

14

Биохимия

40

Искусственный интеллект - робототехника

66

Наука

15

Ботаника

41

Искусство

67

Науки о Земле

16.

Бухгалтерский учет

42

История

68

Науки о коммуникациях

17

Ветеринария

43

История искусства

69

Науки об атмосфере

18

Вычислительные науки

44

История науки

70

Невозобновимые природные ресурсы

19

Гастроэнтерология

45

Ихтиология

71

Неврология

20

Генетика

46

Кардиология

72

Нефрология

21

География

47

Картография

73

Образование

22

Геодезия

48

Кино

74

Одонтология

23

Геология

49

Криминология

75

Океанография

24

Геофизика

50

Культура

76

Онкология

25

Геохимия

51

Латиноамериканские исследования

77

Оториноларингология

26

Геральдика

52

Лингвистика

78

Офтальмология

Поиск издания

Справочник и Каталог предлагает различные поисковые варианты названий изданий: либо по перечням (тематика, название, издатель или страна), или же по библиографическому полю записи.

Поисковыми библиографическими элементами в Справочнике являются название, тематика, издательство, язык издания, название реферативной службы (базы данных), в которой оно отражено, год начала издания, год прекращения выпуска издания, город, штат (провинция и пр.), страна, актуальность (существует, прекращен и пр.), вид носителя, периодичность, ISSN (см. Рис. 1). Результатом отбора служит список изданий, полное и краткое описание которых можно посмотреть. Полное описание содержит 45 библиографических элементов, таких как, например, полное название издания, сокращенное название издания, год начала выпуска издания, год окончания выпуска издания, ISSN, периодичность, издатель, тип издания, вид носителя, коллективный автор, адрес (в том числе и электронный), URL, тематика, классификационные коды (если они имеются) Дьюи и УДК, перечень реферативных служб или баз данных, в которых данное издание отражается (фрагмент полной записи см. в Приложении 3). Краткое описание издания содержит 15 элементов данных, таких как полное и краткое название, издательство, тематика (по тематическому указателю LATINDEX), язык, периодичность, URL.

 

Рис. 1. Поиск по библиографическим полям в Справочнике.

Поисковыми элементами Каталога являются название издания, издатель, тематика, язык текста, страна, вид издания (научное, научно-популярное, профессионально-техническое), вид носителя, ISSN. В результате поиска выдается список изданий, описание которых выгладит следующим образом (Рис. 2):

Рис. 2 Страница описания журнала в Каталоге:

  • описание издания, выбранное для Каталога (Название журнала. Издатель. Страна. Тематика. ISSN),
  • изображение обложки издания,
  • резюме на 2-х языках – испанском или английском.

Три кнопки позволяют (слева направо) просмотреть:

1. Описание в Справочнике (45 элементов данных),

2. Перечень характеристик, то есть описание оценочных характеристик издания, на основании которых оно было включено в Каталог.

3. Вывести на печать содержимое страницы.

 

 

Указатель электронных ресурсов предполагает поиск по тематике издания, названию и стране. Результатом поиска является таблица.

Название

URL

Временной охват

Характер доступа

Выходной формат

Atmosfera

www.ejournal.unam.mx/atmosfera/atmosfera_index.html

1988

Бесплатно

PDF

Brazilian journal of chemical engineering

www.scielo.br/bjce

 

 

 

Laborat acta

www.imbiomed.com.mx/1/1/articulos.php?method=showIndex&id_revista=3

1997

Ограниченный

PDF

Quimica e industria

www.quimicaeindustria.com

 

Бесплатно

 

По ссылке можно попасть на web-страницу нужного журнала.

Использование критериев оценки LATINDEX для анализа изданий вне системы

Как считают исследователи региона, система оценки сериальных изданий, разработанная LATINDEX, послужила импульсом для проведения систематических исследований в области оценки испанских журналов всех областей знания. Целью исследования, описанного в статье (1) было попытаться улучшить качество журналов, отражаемых в базе данных ISOC (испанские журналы по социальным и гуманитарным наукам). В следующей статье тех же авторов (2) была использована данная система оценки применительно к журналам, входящим в базу данных ICYT (испанские журналы по науке и технологии). Авторы статей подчеркивают, что, несмотря на то, что эта схема является достаточно строгой, она может быть успешно применена наряду с другими системами оценки изданий.

Приложение 1.

Динамика роста количества журналов, зарегистрированных в Справочнике LATINDEX.

Страна

Кол-во журналов в 1997 г.

Кол-во журналов в 2001 г.

Кол-во журналов в 2005 г.

Страна

Кол-во журналов в 1997 г.

Кол-во журналов в 2001 г.

Кол-во журналов в 2005 г.

Антигуа и Барбуда

-

1

3

Куба

234

357

392

Аргентина

203

1471

2221

Мартиника

 

 

1

Багамские о-ва

-

3

3

Мексика

949

1130

1512

Барбадос

-

10

10

Никарагуа

2

6

9

Белиз

-

1

1

Панама

17

22

25

Боливия

-

16

19

Парагвай

4

6

9

Бразилия

415

2899

3095

Перу

40

64

139

Венесуэла

124

204

254

Португалия

-

933

1006

Гаити

-

1

1

Пуэрто-Рико

20

82

145

Гайана

 

 

2

Сальвадор

16

16

21

Гватемала

23

25

36

Тринидад и Тобаго

-

10

10

Гондурас

8

10

11

Уругвай

55

58

130

Доминиканская Республика

9

11

14

Чили

106

1050

1422

Испания

-

2294

2672

Эквадор

35

35

98

Колумбия

139

193

461

Ямайка

3

8

8

Коста-Рика

46

53

142

Международные организации

12

22

41

 

Приложение 2.

Приведенная ниже таблица отражает географию изданий стран-участников системы в трех информационных продуктах LATINDEX (данные на май 2005 года).

 

Страна

Справочник

Каталог

Указатель электронных ресурсов (полнотекстовые журналы)

Антигуа и Барбуда

3

-

1

Аргентина

2221

171

300

Багамские острова

3

-

-

Барбадос

10

1

-

Белиз

1

-

-

Боливия

19

2

2

Бразилия

3095

213

408

Венесуэла

254

105

82

Гаити

1

-

-

Гайана

2

-

-

Гватемала

36

-

3

Гондурас

11

-

1

Доминиканская Республика

14

1

1

Испания

2672

660

526

Колумбия

461

147

93

Коста-Рика

142

11

34

Куба

392

80

57

Мартиника

1

-

1

Мексика

1512

237

364

Никарагуа

9

1

2

Панама

25

1

1

Парагвай

9

-

4

Перу

139

30

35

Португалия

1006

74

17

Пуэрто-Рико

145

26

37

Сальвадор

21

-

4

Тринидад и Тобаго

10

-

-

Уругвай

130

6

47

Чили

1422

170

218

Эквадор

98

5

12

Ямайка

8

1

-

Международные организации

41

2

7

Всего

13913

2041

2257

 

Приложение 3.

Фрагмент полного библиографического описания издания в Справочнике LATINDEX.

Tнtulo

Agronomнa Costarricense

Tнtulo abreviado

Agr. costarr.

Paнs

Costa Rica

Situaciуn

Vigente

Aсo de inicio

1977

Aсo de terminaciуn

 

Frecuencia

Semestral

Tipo de publicaciуn

Publicaciуn periуdica

Soporte

Impreso en papel, En lнnea

Idioma

Multilingьe

ISSN

0377-9424

Tнtulo anterior

 

Tнtulo posterior

 

Temas

Agronomнa, Biotecnologнa

Clasificaciуn Decimal Universal

 

Clasificaciуn Dewey

630

Organismo responsable

Universidad de Costa Rica, Colegio de Ingenieros Agronomos, Ministerio de Agricultura y Ganaderнa

Lugar

San Josй

Editorial

Universidad de Costa Rica

Calle

 

Ciudad

Ciudad Universitaria Rodrigo Facio

Estado/Provincia/Departamento

San Josй

Paнs del editor

Costa Rica

Cуdigo postal

2060

Apartado postal

75

EMAIL

agro_costarricense@cia.ucr.ac.cr

Enlace electrуnico parcial

www.cia.ucr.ac.cr/

Telйfonos

506-207-3057

Fax

506-234-1627

Indizada/Resumida en

Bio-Control News and Information, Biological Abstracts, CAB Abstracts, Chemical Abstracts, Forestry Abstracts, Grasslands and Forage Abstracts, Helminthological Abstracts, I N I S Atomindex (International Nuclear Information System), Periуdica (Indice de Revistas Latinoamericanas en Ciencias), Poultry Abstracts, Review of Plant Pathology, Sugar Industry Abstracts, Nutrition Abstracts and Reviews. Serie A: Human and Experimental, Nutrition Abstracts and Reviews. Serie B: Livestock and Feeding, Review of Agricultural Entomology, Review of Medical and Veterinary Entomology, Agris

Naturaleza de la publicaciуn

Revista de Investigaciуn Cientнfica

Naturaleza del organismo responsable

Instituciуn Educativa

Precio

ў750

Tiraje

2500 ejemplares

URL

1. www.mag.go.cr/rev_agr/inicio.htm

Formato de salida

1. Impreso y digital

Acceso

1. Gratuito

Литература

1. Adelaida Romбn Romбn, Manuela Vбzquez Valero, Carmen Urdнn Camino. Los criterios de calidad editorial LATINDEX en el marco de la evaluaciуn de las revistas espaсolas de humanidades y ciencias sociales. // Revista espaсola de documentaciуn cientнfica. – 2002. - Vol. 25. - N.3. – P.286-307.

2. Carmen Urdнn Caminos, Manuela Vбzquez Valero, Adelaida Romбn Romбn. Los criterios de calidad editorial LATINDEX en el marco de la evaluaciуn de las revistas espaсolas de ciencia y tecnologнa. // Revista espaсola de documentaciуn cientнfica. – 2003. - Vol.265. - N.1. – P.56-73.

!28