Машинный поиск информации по органическому синтезу и

комбинаторной химии.

Хуторецкий В.М.

(Институт органической химии РАН (khutor@ioc.ac.ru).)

Интернет быстро входит в жизнь и это, конечно, крайне нужная вещь, точнее две. Одна - самое дешевое из быстрых средств коммуникации, как телефон в пятидесятые годы. Совсем другое дело Интернет как источник информации. Стараниями журналистов он представляется чуть ли не синонимом бесплатной информации. И это правда в той его огромной и отнюдь не бесполезной части, которая называется реклама. Однако если про науку говорить, то информационное наполнение бесплатного Интернета, мягко говоря, несовершенно, а если попросту, то оно и не скоро станет лучше. Очевидны два. возможных мотива для того, чтобы организовывать бесплатный доступ к добытой нелегким трудом информации.

Полезные адреса в Интернет http://

www.nlm.nih.gov/databases/freemedl.html MedLine

chemweb.com/ 140 журналов по органической

химии с 1980 г. (заголовки из

Beilstein Information Systems)

patents.ibm.com/ патенты США с 1971 г.

www.ncbi.nlm.nih.gov/Entrez/index.html - биопоследовательности

Первый: за работу уже заплачено, включая обязательство сделать ее общедоступной. Есть такие гранты. Еще шаг в этом направлении - в соответствии с законом США, принятым в 1996 г., информация, полученная за государственный счет, должна предоставляться любому пользователю по цене копирования. В результате в Сети появился бесплатный доступ к полным текстам патентов США, медицинской базе данных MEDLINE, многим биологическим информационным ресурсам. Второй мотив реклама, которая, как и в средствах массовой информации, может быть и довольно скрытой. Пример: информационная система Бейльштейн еще совсем недавно предоставляла в Сети бесплатный доступ к рефератам из 140 самых уважаемых журналов по органической химии. Сейчас годовая подписка на эту услугу стоит 500 долларов, а бесплатна только библиография. Однако наиболее важная возможность структурного поиска в полной базе данных, где собраны и эти материалы, и машинная версия знаменитого справочника, была и есть платная. Причем серьезно платная - 40 тысяч долларов в год с академической скидкой. Других мотивов, кроме чистого энтузиазма, не видно. Что же касается энтузиазма, то сообщениям о сотнях научных электронных журналов в Интернете можно противопоставить цифры, представленные Chemical Abstracts Service (далее CAS). За 3 года работы с материалами из Интернет им удалось отобрать для реферирования около 1000 статей и сообщений на конференциях, отвечающих принятым в научном сообществе критериям новизны, достоверности, длительной доступности и установленного авторства. Для сравнения: общее количество рефератов в журнале Chemical Abstracts или, что одно и то же, базе данных CA, превышает 700 тысяч за один год.

Существует другой, платный Интернет. Нам он мало знаком, поскольку пропуском в него служит кредитная карточка, практически не известная в нашем обществе. В этой части Интернета на наших глазах, а точнее сказать за нашей спиной, происходит создание новой научно-информационной среды. В этом Интернете постепенно, со временем появятся как полные тексты всех научных журналов, так и большинство известных традиционных источников вторичной научной информации. Поиск в нем сможет производить специальная программа лингвистического и логического анализа гипертекста, которая за ночь, в отсутствие человека, опрашивает все доступные сайты и анализирует представленные на них тексты по частоте встречаемости и степени пространственной близости заданных слов. Человек просматривает результаты, корректирует запрос и цикл повторяется - до достижения приемлемого результата. Это, конечно, схема, но она уже работает, в частности в НИФХИ им. Карпова. Проблема, как всегда, в деньгах. Начальный набор программного обеспечения стоит несколько тысяч долларов. Вход на полнотекстовый сайт обходится, по порядку величины, в пару долларов, но когда просматриваются сотни сайтов и выводятся тысячи документов, то приходится рассматривать такой поиск как самостоятельный научный проект с вероятностным результатом.

При любом подходе надо твердо понимать, что реальный доступ к научно-технической информации, через Интернет или каким бы то ни было иным путем (наиболее привычный из них - подписка на журнал), - платный.

Сравним между собой наиболее используемые источники платной машиночитаемой химической информации.

Охват химической тематики по годам и источникам

База данных

(генератор)

год

начала

охват хим. журналов

(общий)

патенты

Science Citation Index (ISI) (CD ROM)

1986

~500

(3300)

нет

Current Contents (ISI) (CD ROM)

1993

~1000

(6600)

нет

Beilstein (BIS)

(online)

1779

140

нет

Registry/CA/CAold (CAS) (online)

1957

8000

есть

На слайде не представлен отечественный РЖ Химия, который так и создавался как русскоязычный аналог CAS. В 1998 г. РЖ Химия стоил на четверть, а рефератов опубликовал в пять раз меньше, чем СА. Можно отметить, что биохимия в него вообще не входит, тогда как в СА она как раз самый крупный раздел, одна треть общего числа документов. Но это не спасает положения: количество структур, регистрируемых в РЖ Химия, тоже в 5 раз меньше того, что поступает в СA. Ни одна из представленных в таблице систем, кроме CAS, не содержит патентной, наиболее близкой к реализации, информации. Из этого сравнения довольно ясно, что химику особенно выбирать-то не из чего. Только тандем Registry-CA охватывает практически всю химическую литературу, а Beilstein может служить дополнением к этому тандему в части литературы по органической химии ранее 1957 года. Дальнейшее рассмотрение в сущности ограничивается именно этим тандемом, причем его структурная часть играет ведущую роль в поиске, а библиографическая - в выдаче информации.

Перейдем, наконец, собственно к поиску информации и начнем пока с обычного синтеза, без всякой комбинаторики. Что представляет собой солидная синтетическая статья или патент? По сути дела это таблица с комментариями. Перед таблицей - общая формула, а в таблице - значения радикалов: R1, R2, R3 - и т.д.

Где R1= CN, NO2, C(O)CH3 и т.д.; R2= OH, NH2, NHNH2, NHOH и т.д.; R3= Me, Et, Pr и т.д.

Заметьте, никаких имен, хотя множество веществ получено и впервые описано. CAS REGISTRY предназначен как раз для того, чтобы гарантировать возможность найти любое из упомянутых в химической литературе веществ. Каждое вещество, строение которого хоть чем-то подтверждено, получает в REGISTRY полное химическое название. Здесь же регистрируются и тривиальные и полу-систематические названия типа аспирин - ацетилсалициловая кислота, и просто торговые марки: вроде К-060, PEG-2000 и т.п. Но и этого мало. Вещество получает паспорт: регистрационный номер, CAS RN. В записи REGISTRY все когда-либо упомянутые имена и присвоенное веществу официальное название привязаны к этому номеру. Этот паспорт используется в каталогах реактивов, фармацевтических справочниках, отчетах о вредных выбросах, Конвенции по запрещению химического оружия - список можно продолжать долго. Регистрационные номера - типичный, хотя и отнюдь не единственный, пример добавленной ценности (value added) во вторичной информации. Автор статьи этих номеров не писал и сам своих веществ не регистрировал.

В системе баз данных CAS именно этот номер представляет вещество, он же является результатом поиска в REGISTRY. Уже по нему или по списку этих номеров ведется поиск в библиографических базах данных, прежде всего в CA. Поэтому задача поиска информации о веществе для начала сводится к задаче отыскания его регистрационного номера.

Однако требование быстрой коммерциализации результатов порождает новые разделы науки. Так на наших глазах возникла комбинаторная химия. Комбинаторную химию как широкое понятие определяют как создание большого числа соединений путем быстрого одновременного, параллельного или автоматизированного синтеза. Наибольшее применение комбинаторная химия нашла как дальнейшее развитие идеи скрининга, не обязательно, хотя и чаще всего, биологического. В ней идея массовых испытаний индивидуальных веществ уступает место идее испытания смесей (библиотек) с отбором нужных свойств. Эта область деятельности стала возможной в результате фундаментальных достижений как в органической и биологической химии, так и в миниатюризации, робототехнике и изучении и применении рецепторов.

Узким местом в создании новых лекарств сейчас является количество доступных для испытаний структур. Если не разделять набор получаемых в одной реакции соединений, можно, вместо одного нового соединения в неделю, делать сто штук в день. Важно заметить активность смеси, а обнаружить, какой компонент за нее отвечает - дело техники, пусть и весьма дорогостоящей и изощренной.

Не могу останавливаться на особенностях поиска различных классов веществ, но отмечу лишь, что помимо комбинаторной химии, в биохимии сейчас автоматические анализаторы выдают целый поток веществ, для которых известна только последовательность расположения ограниченного числа повторяющихся элементов, аминокислот и нуклеотидов. Их строение доказывает только стандартность методики получения, и описание этих веществ не включают в статьи, а сразу депонируют в базы данных. За последние 3-4 года количество расшифровываемых биопоследовательностей сравнялось с огромным числом ежегодно синтезируемых "нормальных" веществ. Это означает, что скорость суммарного пополнения баз данных о веществах удвоилась и существенно превысила миллион в год. Примерно 80% биопоследовательностей попадают в бесплатные, доступные через Интернет, хранилища. Общий же их поток доступен в той же REGISTRY, они имеют CAS RN.

С поиском информации о комбинаторных библиотеках ситуация сложнее.

Ведь вещество получает RN только в том случае, если его существование чем-то подтверждено. Поэтому лишь компоненты малых библиотек получают регистрационный номер. В огромных библиотеках каждое вещество не характеризуют, в этом как раз и есть их достоинство. Но здесь же и проблемы. Лишь недавно запатентована первая комбинаторная библиотека. Индивидуальные ее компоненты, с информационной точки зрения, не совсем вещества и не совсем получены, а потому паспорта (регистрационного номера) не имеют. Для их индексирования используют скорее общие термины контролируемого словаря. Это утвержденные, обязательные для использования индексатором (составителем базы данных) обозначения понятий. Применительно к веществу - классов веществ. Во многих случаях нет общепринятого названия даже и для класса веществ. Тогда его называют так, как автор назвал. Тем не менее, регистрационный номер родоначального соединения обычно тоже приводят с окончанием D - derivatives, что означает неопределенные производные.

В REGISTRY содержится практически полный список из 19 миллионов веществ, составов, композиций, опубликованных с 1957 г. по вчерашний день. В старой части Бейльштейна имеется еще 3 миллиона веществ, полученных до 1957 г. и не вошедших в REGISTRY. Так что есть массив данных, чтобы организовать в нем серьезный поиск.

Важно только понимать, какой вопрос задавать будем. Ведь однозначно назвать мало-мальски сложное вещество трудно. Одной молекулярной формуле вообще, как правило, соответствуют несколько, а то и несколько десятков веществ. Машинный поиск вносит существенное улучшение: можно искать не целое название или формулу, а их фрагменты. По сути дела, именно возможность поиска фрагмента в огромных массивах данных создает качественное отличие машинного поиска от ручного. Мало того - можно сочетать в одном запросе поиск фрагментов названий с самыми разнообразными характеристиками молекулярных формул. Такой поиск, называемый словарным, дешевле структурного и по возможности его и используют. Очень часто это все же не удается и приходится искать структурный фрагмент предполагаемых веществ, т.е. таких, где ни название, ни состав молекулы целиком не известны.

Например, требуется найти любые гетероциклические соединения, содержащие присоединенную к кольцу дигалоидаминную группу, где галоидом могут быть либо хлор, либо бром. А ниже - пара простейших ответов из почти сотни найденных.

Примеров такого рода, когда ищутся неизвестные вещества, лишь бы они удовлетворяли сочетанию некоторых заданных структурных признаков, много, а потому структурный поиск, невозможный вручную, применяется довольно часто. Структурный поиск особенно важен при определении новизны синтезируемых структур и поиске закономерностей структура-свойство. В последнем случае структурный фрагмент можно искать в той же REGISTRY, а свойство - не только в химической, но и в инженерной, медицинской или иной БД. Если в этой базе данных не применяются регистрационные номера CAS, то используют команду SELECT NAME, которая выберет в REGISTRY все имеющиеся имена для всего набора найденных веществ и перенесет их в эту базу данных для поиска. А имен у веществ, особенно коммерчески доступных, может быть очень много.

Поиск информации в области комбинаторной химии состоит из отыскания веществ и специфической техники эксперимента. Информация о веществах включается здесь в понятие комбинаторная библиотека, а о технике эксперимента - в понятие комбинаторный синтез. Стратегия поиска комбинаторных библиотек включает в себя и структурный поиск, но не ограничивается им. Кроме отыскания регистрационных номеров, она требует использования названий классов веществ. Комбинаторный характер работы, то есть специфический способ ее выполнения, который касается техники эксперимента, крайне важной в автоматизированном синтезе, передается словесным описанием. И только их объединение дает требуемый результат:

 

Поиск информации в любого рода химии поиском веществ не исчерпывается. Найти вещества в REGISTRY, а затем, по списку их RN, работы о них в CA - еще не победа. Прочесть сотню рефератов можно, но зачастую ответов бывает слишком много, чтобы все их читать. Кроме того, плата за поиск пропорциональна числу выведенных документов, а значит не только смотреть лишние, но еще и платить за ненужные придется. Нас же чаще интересует не вообще упоминание таких-то веществ (что само по себе замечательно и иногда достаточно), но нечто более конкретное о них. Конкретизировать запрос можно словесным описанием, но сделать это совсем не так просто, как кажется начинающим пользователям. Существует другая, более формализованная возможность, то есть еще один вид добавленной ценности во вторичной информации. В CA ведется ролевое индексирование в ходе создания поискового образа документа.

Имеются 7 широких суперролей и 38 ролей, которые могут входить более чем в одну суперроль. Самая частая, естественно, получение. При помощи ролей можно находить как более конкретные варианты способов получения (от лабораторного синтеза до заводского производства), так и разные способы применения, что ранее, без ролей, было довольно трудно. Можно искать с ролями, например, терапевтическое использование, реакции, встречаемость в геологических и астрономических объектах, процессы.

Однако настоящего языка такие роли заменить не могут и, если требуется передать более тонкие нюансы смысла, то, конечно, приходится описывать идею словами. Очень важно для полноты поиска не упустить в запросе официально утвержденные, уже упомянутые контролируемые индексные термины. Их существование проверяют в путеводителе по указателям СА (Index Guide). Первый контролируемый термин, связанный с комбинаторными библиотеками, появился в CA в 1992 г.

(1992 г.) Combinatorial library- новые библиотеки

(1997 г.) Peptide library

Library (nucleic acid)

cDNA library

Genome library

Combinatorial chemistry - новое в методах

Свободные термины:

Combinatorial/combichem

(polymer/resin/solid) (support/phase/bound)

(parallel/concurrent/split/simultaneous) synthesis

spatially addressable

synthetic diversity

diversomer technology

Несколько новых добавили в 1997 г. Ряд относящихся к рассматриваемой области свободных терминов также приведен в списке. Термины естественного языка вообще обычно приходится искать методом последовательных приближений: провести предварительный поиск, отобрать в подходящих работах новые (в смысле ранее не заданные) слова и повторить поиск. А то, что единственным термином можно что-то всерьез передать, это пока утопия, хотя математические лингвисты работают. Какое из представленных ниже парных слов или словосочетаний надо запросить, чтобы получить наиболее полный ответ: cancer - tumor; decomposition - decay; global warming - greenhouse effect? Конечно, оба и еще несколько других. А система (машина) только буквы сравнивает и сообщает, сколько раз нашла заданное их сочетание. Oxidation - пожалуйста, но если не запросить oxidn, то есть наиболее распространенную в реферативном журнале сокращенную форму этого слова, то и получишь хорошо если половину имеющихся ответов. Машина не думает, думать - задача спрашивающего.

А это не обязательно конечный пользователь, сплошь и рядом это информационный посредник, специалист по поиску. Когда мы говорим об увеличении ценности информации в ходе ее доведения до конечного пользователя, нельзя не упомянуть и о положительном вкладе брокера (так полушутливо называют информационных посредников по аналогии с торговыми). И хотя весь наш жизненный опыт восстает против идеи полезности посредника, поиск информации - специальность. Пользователь знает (к сожалению, далеко не всегда!) что искать, брокер - как искать. Простейшие поиски, как это постепенно произошло с простейшими спектрами, пользователи могли бы освоить и сами, что и происходит во всем мире. Только надо отчетливо осознавать, что это всегда будет стоить дороже, чем через брокера. И не только из-за знаний, которые надо иметь и все время пополнять, система ведь совершенствуется со временем. У индивидуального пользователя, которому нужно, это экспериментально полученная цифра, всего 2-3 поиска в год, сразу возникает ряд проблем: кто связь поддерживает; под большим сомнением любая скидка; ждать грантов на информационное обеспечение одного института наивно; а чего стоит оплатить поиск из бюджетных средств! Вот и приходится в некоммерческих организациях все платные поиски пока только специалистам поручать.

Сложные поиски, да еще от которых защита, контракт, приоритет зависят, во всем мире проводят специалисты. А как отличить простой поиск от сложного? Правильный ответ ведь неизвестен. По правде говоря, такого ответа и не существует вовсе, поиск всегда можно провести различными способами и, соответственно, с несколько отличающимися результатами. Приходится выбирать, на что полагаться: на свое везение или на знания специалиста. Надо думать, что когда разбогатеем, тоже начнем переходить к самостоятельным поискам, только до этого дожить надо и приобрести не то, что навыки - для начала хотя бы потребность в настоящем поиске. Для этого, конечно, необходимо обучение, которое активно ведется в МИЦ.

Московский информационный центр РАН-STN в Институте органической химии (МИЦ) вносит свой, заметьте отрицательный, вклад в цену и положительный - в ценность извлекаемой информации. Нам удалось добиться главного - привести в соответствие наши цены с доходами пользователей. Сделано это в три стадии:

· 1. получена пятикратная скидка для Академии наук, Государственных научных центров и ВУЗов от CAS на ее базы данных (вообще она дается только учебным заведениям - подписчикам печатного CA);

Но почему все с оговорками и ограничениями? Почему не бесплатно и не всем? Пробовали сделать и бесплатно. Тотчас находится пользователь, которому позарез нужны несколько тысяч ссылок в возможно более полном (т.е. самом дорогом) формате выдачи. А финансирование жестко лимитировано. Вот и приходится ставить денежный ограничитель. Но мягкий, не закрывающий дверь наглухо. Для льготных пользователей условный средний поиск $5-10 стоит вместо $50. Есть и не льготные пользователи, но для них мировые цены.

Вместо заключения - сильно сокращенная цитата:

"В поведении конечного пользователя давно подмечено стремление избегать систем со сложным командным языком, сколь бы ценную информацию они не содержали.

Другой трюизм заключается в том, что конечный пользователь, получив хоть какие-то данные, легко уверяет себя в том, что извлек всю имеющуюся информацию. Такой дилетантизм обычно безвреден, но чтобы заполнить бездну между ускользающими данными и действительно жаждущими знаний пользователями, нужны информационные профессионалы.

Третий трюизм о конечном пользователе состоит в том, что, получив однажды настоящую информацию, он требует её еще и еще".

Mick O'Leary, Information Today, 2/97.