Информационное обеспечение науки Новые технологии

И.Н. Жиганов, В.Д. Мильграм

(ООО "Биоинформсервис")

ОПЫТ ОРГАНИЗАЦИИ КОМПЛЕКСНОГО
ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ
В ОБЛАСТИ НАУК О ЖИЗНИ

В рамках Государственной научно-технической программы "Средства обеспечения исследований в области физико-химической биологии и биотехнологии" (руководитель академик РАН Д.Г. Кнорре) в 1992 г. выделено специальное направление "Информационное обеспечение и поддержка исследований", одной из основных задач которого является организация работы биологической научной сети в России.

Во всем мире все более возрастает необходимость в доступе к достоверной и современной информации в области наук о жизни и биотехнологии. В последние годы в странах бывшего СССР наблюдается дисбаланс между высоким уровнем научных исследований и разработок в области наук о жизни и биотехнологии и низким уровнем их информационного обеспечения. В современных условиях нестабильной экономики и слабого финансирования науки в странах СНГ возникла особая необходимость в оперативном доступе к информации о научных фондах и финансировании научных исследований, что особенно важно для сохранения научных кадров.

Состояние развития информационной инфраструктуры в СССР, и особенно телекоммуникации, всегда было недостаточным. В настоящее время, как следствие проблем перестройки экономики и общественной жизни, нарушена координация исследований, разрушены многолетние связи и кооперация между научными сотрудниками и организаторами науки. Деятельность многих информационных служб как головных, так и ведомственных, по разным причинам практически остановлена. И хотя в настоящее время только в Москве начали функционировать несколько телекоммуникационных систем, они рассчитаны на потребителя, способного оплачивать такие услуги по коммерческим ценам, и поэтому недоступны для работников науки и высшей школы и других видов "некоммерческих" пользователей. Жизненно необходимо искать новые, нетрадиционные источники информации и способы коммуникации между российскими учеными и их коллегами, как внутри СНГ, так и за рубежом. Таким образом, необходимость создания в России хорошо развитой Региональной информационной службы по наукам о жизни и биотехнологии для решения важнейшей задачи организации обмена биологической информацией и предоставления доступа к важнейшим источникам международной и отечественной научной информации для широкого круга научных работников очевидна.

Для координации всех работ по информационному обеспечению было создано малое предприятие (ныне Общество с ограниченной ответственностью) "Биоинформсервис", выполняющее функции головного предприятия по направлению "Информационное обеспечение и поддержка исследований".

Технически создаваемая биологическая научная сеть Биосеть представляет собой автоматически действующий узел Internet, работающий внутри России через другие узлы Internet (коммуникационные сети Гласнет, Релком) или непосредственно с региональными и доменными узлами Биосети, создаваемыми в рамках проекта. Система является открытой для расширения, и поэтому дополнение новых узлов или отдельных пользователей не приведет к остановке или перестройке ее работы.

При выборе организаций-исполнителей учитывалось наличие в их распоряжении информационных и коммуникационных ресурсов, опыта информационного и сетевого обслуживания, а также наличие квалифицированного персонала.

В соответствии со структурой Программы финансировались следующие НИОКРы:

  • обеспечение руководителей Миннауки и Госпрограмм административной информацией (создана база данных МИНМАКС);

  • техническое дооснащение и развитие Биоинформсети;

  • научно-методическое руководство по сопровождению проектов, включая информационный маркетинг;

  • поддержка функционирующих серверов с целью их координированного использования участниками госпрограмм;

  • поддержка баз данных и обеспечение участников госпрограмм научно-технической информацией;

  • развитие системы оперативной полиграфии и издание информационно-методических материалов.

Биосеть начала функционировать как домен из 11 сетевых адресов:

Описание узлов Биоинформсети дано на примере узлов в НИИ ФХБ им. А.Н. Белозерского и Биотехнологическом центре Санкт-Петербургского университета как наиболее продвинутого в техническом и информационном плане.

1. E-mail сервер (SERVE@INDY.GENEBEE.MSU.SU) обеспечивает поиск по банкам последовательностей и третичных структур биополимеров, а также и некоторые другие процедуры биокомпьютинга. В настоящий момент на сервере представлены следующие виды обработки:

  • поиск по банкам данных, включающий:

а) поиск по ключевым словам (словам описаний и их комбинациям);

б) поиск участков сходства (быть может неточного) с паттерном (консенсусом);

в) поиск гомологий относительно последовательности или выравнивания (такой поиск может идти с учетом нескольких матриц весов замены остатков);

  • построение множественного выравнивания для группы последовательностей;

  • предсказание вторичной структуры белка на основе выделения гомологий его последовательности относительно профилей последовательностей из банка третичных структур белков (PDB банк), построение плотов свойств аминокислот;

  • предсказание вторичной структуры РНК на основе выравнивания группы родственных последовательностей;

  • построение филогенетических деревьев для набора выравненных последовательностей.

Сервер обеспечивает регулярное обновление и хранение в специальном формате следующих банков данных: нуклеотидных последовательностей (GenBank), белковых последовательностей (SwissProt) и банка третичных структур биополимеров (PDB). В настоящее время сервер доступен для любого пользователя сети Internet через электронную почту (SERVE@INDY.GENEBEE.MSU.SU). Подготовлен 1-й вариант WWW-сервера, работающего по HTTP протоколу (WWW.GENEBEE.MSU.SU), который будет включать также и дополнительные виды биокомпьютерной обработки:

  • поиск сходств по банкам относительно последовательности или выравнивания, не базирующийся на использовании матрицы весов замены остатков (поиск "коррелирующих" участков последовательностей);

  • поиск по банку белковых последовательностей тех фрагментов, которые имеют конформацию, потенциально сходную с данной третичной структурой белка (обратная задача фолдинга для белка);

  • поиск по банку нуклеотидных последовательностей тех из них, фрагменты которых имеют заданную вторичную структуру (обратная задача фолдинга для вторичной структуры РНК);

  • поиск структурных гомологий для данной конформации в банке третичных структур белков.

Для работы сервера частично были использованы вычислительные программы из пакета программ GeneBee для IBM PC, частично были написаны новые программы графической станции INDY и для транспьютерного комплекса. Формирование поступающего по электронной почте запроса на обработку может производиться либо с помощью установленного на компьютере пользователя пакета программ GeneBee (программы-клиента), либо формироваться по файлу-образцу. В случае обращения к WWW-серверу, запрос формируется пользователем в интерактивном режиме, с помощью предоставляемого сервером меню, отображаемого на компьютере пользователя WWW-клиентом (Mosaic, Netscape, Lynx).

Ежедневные обновления банка нуклеотидных последовательностей (GenBank) перекачиваются на сервер каждые 12 часов в автоматическом режиме. Данные поступают из FTP-сервера Национального центра биологической информации при Национальном институте здравоохранения США (NCBI-NIH) и архивируются в единую базу данных на центральном компьютере комплекса - графической станции INDY. Каждый новый выпуск полного GenBank'а также автоматически перекачивается по FTP и архивируется, проводя тем самым синхронизацию накопленного материала. Другие два банка (SwissProt и PDB) автоматически обновляются по мере появления их очередных версий на соответствующих FTP-серверах.

Взаимодействие конечных пользователей с сервером (GeneBee-NET) происходит по схеме клиент - сервер. Пользовательский компьютер (IBM-совместимый) снабжается программой-клиентом, позволяющей в графическом и псевдографическом режимах составлять задания на обработку, связываться с сервером по электронной почте или HTTP протоколу, получать результаты обратно и, наконец, манипулировать полученным результатом обработки.

2. Узел Биоинформсети в Биотехнологическом центре СПГУ.
Исполнитель - Биотехнологический центр СПГУ.

Первый из региональных узлов "Биоинформсети" начал функционировать в Санкт-Петербурге. Большинство институтов Санкт-Петербурга крайне заинтересовано в работе Биоинформсети, так как имеют ограниченный доступ к другим источникам информации. Поскольку этот региональный узел имеет выход в Internet, экономически оптимальным для него (при наличии льгот) является получение информации из баз данных STN International, доступ к которым обеспечивается Московским информационным центром РАН-СТН и МПП "Биоинформсервис". В связи с этим очевидна актуальность задачи поддержания функционирования и дальнейшего совершенствования работы узла в Санкт-Петербурге, с одной стороны, поставляющего биологическую информацию пользователям по электронным сетям, а с другой - связывающегося с Центральным или другим узлом в Москве и другими узлами сети Internet, располагающими небесплатной информацией.

Узел Биоинформсети предоставляет пользователям по электронным сетям:

  • библиографическую информацию;

  • информацию о структуре и функции биополимеров;

  • программы для анализа последовательностей биополимеров;

Результаты поиска сходных последовательностей по банкам последовательностей биополимеров с помощью программ FASTA, BLAST и программ пакета Genebee.

В настоящее время СПГУ имеет IP-подключение к глобальной сети Internet (адрес 193.124.85.210 или hq.lgu.spb.su). Это значительно повышает возможности узла по оказанию информационных услуг пользователям.

3.Узел Биоинформсети в Институте молекулярной биологии РАН. Исполнитель - Институт молекулярной биологии РАН

Узел в ИМБ предоставляет услуги пользователям как из ИМБ РАН, так и пользователям из Института кристаллографии, Центра "Биоинженерия" РАН, Института биологии гена, Института общей генетики РАН и Института биологической и медицинской химии РАМН. Для конечных пользователей сети реализована возможность доступа к ресурсам Internet через новые информационноемкие технологии с современным интерфейсом (WWW, MIME, Netscape). Для сетевых узлов введены таблицы маршрутизации и таблицы Domain Name Service (DNS). Выполнялась регулярная профилактика операционной системы централизованного узла (backup, контроль задействованных пользователями ресурсов, постановка новых версий программного обеспечения), а также проводились консультации и занятия, организован семинар.

Узел Института молекулярной биологии РАН включен в режим GateWay, т.е. организована маршрутизация пакетов информации для узлов, не принадлежащих Институту (с подключением новых удаленных узлов). Авторизованы пользователи из ИМБ и других учреждений РАН. Локальная сеть расширена посредством высокоскоростной связи (10 МБит/сек) по коаксиальному кабелю. В течение года подключено два новых сегмента локальной сети, установлены 24 новых домена в разных зданиях Института. Существующие четыре сегмента сети объединены через центральный роутер TCP/IP. Подобная топология сети стала de facto стандартом для создания единого информационного пространства в большинстве научных учреждений в странах с высоким уровнем развития информационных технологий.

Осуществлена установка программного комплекса DNS: серверной части BIND (Berkley Internet Name Domainserver) - на UNIX-компьютерах и клиентной части - на узлы локальной сети. Установлены серверная часть IMAP (Internet Mail Access Protocol) на центральном UNIX-компьютере, клиентная часть протоколов IMAP и NNTP (News Network Transfer Protocol) на узлы локальной сети, а также клиентная часть HTTP (Hyper Text Transfer Protocol) на графическую станцию Silicon Graphics (Mosaica).

Проведена адаптация программных комплексов молекулярной механики ICM и ZMM для графической станции Silicon Graphics 4D/70 GT. Проведена адаптация для этой станции графического пакета программного комплекса ICM. Были осуществлены занятия с пользователями по комплексу ICM (обучение командному языку, работа с меню).

Поддеpжка и использование баз данных
и дpугих видов инфоpмационного сеpвиса

В настоящее время работы по информационному обеспечению разделились на два направления:

  • работы по использованию платных информационных ресурсов;

  • обеспечение доступа к бесплатным ресурсам через Internet с использованием телеконференций и электронных досок объявлений (BBS).

Анализ этих ресурсов показал наличие достоинств и недостатков у обоих типов ресурсов, однако в любом случае их нельзя рассматривать как альтернативные. Пеpвое напpавление использует уже сложившиеся инфоpмационные технологии (Сurrent Contents on Diskettes и Science Citations Index, онлайн доступ через соответствующего провайдера).

Поддержка и использование баз данных Информационное обеспечение исполнителей ГНТП, составляющих приоритетное направление "Науки о жизни и биотехнология", проводилось на некоммерческой основе с использованием ресурсов, имеющихся в распоряжении Институтов РАН, МГУ и "Биоинформсервис". Особое внимание уделялось кооперации с организациями-поставщиками баз данных (Институтом биоорганической химии им. М.М. Шемякина и Ю.А. Овчинникова, Московским информационным центром РАН-СТН, НИИ физико-химической биологии МГУ), которые получали финансовую поддержку из различных источников, в частности РФФИ и Фонда Сороса. Такой подход позволил использовать с максимальными скидками платные базы данных, которые имеют гарантированную полноту охвата материала, развитые системы индексации и поисковых команд.

Учебно-научный центр при ИБХ РАН проводил обслуживание участников госпрограмм на основе баз данных Current Contents, Dervent Biotechnology Abstracts, Medline (на компакт- и флоппи-дисках). К текущей информации из этих баз обращались пользователи из 22 организаций Москвы, Пущино, Новосибирска, Санкт-Петербурга и Саратова. Исполнители - МИЦ РАН-СТН, МП "Биоинформсервис".

Обслуживание с передачей файлов по электронной почте и/или на дискетах проводилось на основе баз данных Biological Abstracts, Chemical Abstracts и Medline в системе STN International, которая предоставила пользователям России значительные скидки. Информацию из этих баз данных получили 30 научных организаций Москвы, Пущино, Санкт-Петербурга, Саратова, Владивостока и других городов России.

Функционирование библиотечного
узла Биоинформсети

Продолжалось информационное наполнение библиотечного узла системы. По мере централизованного поступления информации в академические библиотеки через БЕН РАН отбирались, вводились в компьютер и передавались по электронной почте для ввода в библиотечный узел библиографические описания непериодических изданий по биологии и данные о поступивших журналах. В течение 1995 года в библиотечный узел введено описаний более 500 отечественных и 1000 зарубежных книг и данные о поступлении 20000 выпусков журналов.

Работы по издательской деятельности
Исполнитель - ООО "Биоинформсервис"

В рамках этого проекта расширена издательская база, приобретены лазерный принтер и копировальный аппарат RICOH FT 2260. Продолжено издание методических руководств по поиску информации в базах данных системы STN International: опубликована брошюра "Базы данных STN (краткое описание и кластеры)", подготовлены к изданию - "Поиск патентной информации" и "Поиск в базе данных Chemical Abstracts". В стадии переработки и дополнения находится "Общий справочник организаций, выполняющих работы по физико-химической биологии и биотехнологии, финансируемых Миннауки РФ". С 1995 г. начато издание журнала "Обозрение по генной инженерии и биотехнологии". Подготовка издания осуществляется под эгидой Всероссийской общественной организации "Академия биотехнологии" и ГНТП "Средства обеспечения исследований по физико-химической биологии и биотехнологии" (исполнитель "Биоинформсервис") при поддержке Миннауки РФ. Журнал издается на русском языке и соответствует англоязычному варианту "Genetic Engineering and Biotechnology Monitor", выпускаемому ЮНИДО. Первый номер выпущен тиражом 400 экземпляров. В целях ознакомления и привлечения подписчиков 300 экземпляров журнала направлены в Научные советы по ГНТП, научные, производственные и общественные организации, а также в учебные учреждения Минвуза РФ. Планируется продолжение выпуска информационного бюллетеня по ГНТП и журнала "Обозрение по генной инженерии и биотехнология", а также издание бюллетеня по законченным разработкам.

Дальнейшие перспективы

1. Расширить разработки по поддержанию сетевых узлов, в частности оказать поддержку их организации в Казанском университете, Саратове и Новосибирске.

2. Продолжить работу по обеспечению участников госпрограмм научно-технической информацией. Предусмотреть возможности приобретения лицензионных ресурсов Биоинформсети, так как доступ к используемым в настоящее время ресурсам в значительной мере определяется льготами, предоставляемыми зарубежными партнерами.

3. В узле при Институте молекулярной биологии РАН провести установку и обучение конечных пользователей новым информационным технологиям с современным интерфейсом (WWW, MIME, Netscape). Осуществлять поддержку дальнейшего развития локальной сети ИМБ с подключением новых сегментов домена, а также установления нового высокоскоростного соединения с сетевым координационным центром в ИОХ РАН (радиомост со скоростью 2 Мбит/сек между среднеудаленными доменами).

4. Увеличить число провайдеров (коммуникационных посредников). В частности, целесообразно построить работу регионального узла в СПГУ на базе открытого в 1995 г. отделения сети STN Санкт-Петербурга. Это позволит расширить возможности доступа к базам данных этой сети, сократить расходы на оплату коммуникаций и время получения информации.

5. Подготовить и издать каталог программных и информационных продуктов, представляющих интерес для пользователей, ведущих исследования в рамках ГНТПР, входящих в приоритетное направление "Науки о жизни и биотехнология".