СОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ ТЕХНОЛОГИИ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ СРЕДСТВ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ

А.В. НЕСТЕРОВ

КОМПЬЮТЕРНОЕ СРЕДСТВО БИБЛИОМЕТРИЧЕСКОГО АНАЛИЗА В БИБЛИОТЕКЕ

Впервые термин библиометрия ввел А. Притчард в 1969 г. (I). Под библиометрией подразумевается количественный анализ процессов документальной коммуникации. Программное обеспечение для такого анализа представлено ППП Института научной информации США.

Основатель этого института Гарфилд в своей работе "Количественный анализ библиографической информации" определил библиометрию, как метод количественных исследований документов, существующих в виде материальных объектов или библиографических единиц, а также заменителей того и другого. Вроде бы данное определение не включает закон Ципфа, однако оно отделяет библиометрию от наукометрии, которая оценивает количественно научную продуктивность в целом (15). Выделяют три основных направления в библиометрическом анализе:

1. Анализ данных по источникам, то есть числа публикаций, числа авторов, время издания, стоимость.

2. Изучение социтирования.

3. Анализ данных по проблеме индексирования, социологии науки и научной политики.

Результатом такой работы является метаинформация, которая очень полезна трем категориям пользователей:

  1. библиотечным и информационным работникам;
  2. руководителям научных исследований;
  3. экспертам, анализирующим документально-информационный поток.

Существуют другие точки зрения, например, высказанные С.Д. Хайтун (8), Ю.В. Грановским (9) и др.

Г.В. Вайят (4) считает, что одной из характерных особенностей развития науки середины XX века является самопознание науки, выразившееся в образовании науковедения. Его цель - изучение различных процессов и отношений, характерных для науки наших дней, а также практическое использование этого изучения. Новая информация усваивается лишь тогда, когда она без особого труда укладывается в общепринятые представления. Информация не признается в качестве таковой, пока она не превращается в знание.

Библиометрические методы используются для разнообразных целей: выбор стратегии научных исследований, определение наиболее перспективных научных направлений, изучение научных коммуникаций, оценка научного потенциала.

Среди библиографических показателей выделяются: количество публикаций, библиографических ссылок и некоторые показатели патентного анализа.

При библиографическом анализе учитываются следующие аспекты: нелинейная зависимость от предметных областей, сравнимость на межнациональном уровне, временной интервал (5-10 лет), охват теоретических и практических работ, учет экономической стороны вопроса.

Одним из основных методов библиометрии является метод цитирования. Мотивация процесса цитирования субъективна (5). Известны два подхода при анализе мотивов. Один из них выделяет четыре класса мотивов: концептуально-операционные (теоретический подход - метод исследования), основные - второстепенные, эволюционные - дискуссионные, подтверждение - отрицание.

Другой подход трактует мотивы как традиции, знаки вежливости, поддержки связей в научных и издательских областях.

Одной из сложных проблем в информатике, библиометрии и науковедении является проблема целевой функции. Во многих докладах на конференции по информатике и науковедению (6) высказывались мысли о том, что специалисты по информатике и науковедению могли бы и могут делать выводы о производительности, ценности, перспективности отдельных ученых, коллективов ученых, организаций и научных направлений. Аналогичная картина наблюдается за рубежом. Имеются публикации о возможности прогнозировать будущих нобелевских лауреатов, издаются атласы фронтов наук, оживилась дискуссия по поводу гипотезы Ортеги (7).

Методы информатики позволяют делать количественные и качественные оценки некоторых документальных характеристик, связанных с публикуемой информацией, однако выводы, сделанные на основе этих данных, могут иметь различный аспект.

Информационный аналитик должен брать на себя моральную ответственность за выводы только в области своей науки, то есть он может выявлять элементный состав, объяснять внутренние и внешние связи, но не браться за вынесение каких-либо оценок в других областях деятельности. В противном случае мы можем наблюдать нарушение научной этики и проявление некомпетентности. В работе (8) приводятся этика информатики, состоящая из двух постулатов: I) никто не может быть привлечен к ответственности за рамками своей компетентности ; 2) понятие "этика" употребляется, в первую очередь, в эндогенном смысле.

Информация может быть ложной, неполной и неточной, поэтому на ряду с основной функцией коммуникационной системы необходимо включать антифункцию, которая является опасной для людей, потребляющих информацию. Сама информация, даже будучи истинной, может представлять опасность, так как она может быть не снабжена юзи-информацией, то есть информацией об ее использовании и о возможных опасностях.

Существует еще несколько взглядов, сформулированных в виде научных направлений, теорий и методов. В частности, А.В. Соколов отмечает, что термин информатика и информация многозначны и предполагает, что огромное многообразие трактовок не является субъективным, а отражает закономерное развитие науки и делает вывод о становлении и развитии системы информационно-коммуникационных наук (9). Автор выделяет из всех коммуникаций (транспортных, энергетических и т.п.) только информационные. Объекты познания (практическая деятельность людей, фрагмент реальной действительности) включаются в систему научного знания в виде образцов, абстракций, описаний и понятий. Под предметом познаний выступает сторона (аспект, грань) объекта, субъективно выбранная для исследования методами данной дисциплины.

Автор (9) предлагает ввести критерий отграничения, позволяющий провести границу между предметами различных учений, изучающих один и тот же объект. Он выделяет три типа информации: биологическая, социальная, техническая (искусственная). Три типа наук, которые изучают информационные процессы в биологической, социальной и технической сферах, образуют семь типов учений, связанных с сочетанием этих сфер. Особым типом сочетания является наука, которая изучает все эти сферы одновременно. Автор назвал ее меганаукой об информационной коммуникации в соответствии с работой (10).

А.В.Соколов выделяет документально-коммуникационные системы как частный случай информационно-коммуникационных систем, а затем утверждает, что документ есть производная от информации. Примером обобщающей концепции социально-коммуникационных дисциплин может служить концепция информационных наук Б.С. Брукса (11). Одной из концепций общей меганауки является информология (12), а также теория информационных процессов (13).

Среди подобных работ особое место занимает работа Б.М. Кедрова (14), где он отмечает, что "Классификация наук означает связь наук, выраженную в их расположении в определенном последовательном ряду или системе согласно некоторым общим принципам. Поэтому проблема классификации наук является одной из наиболее важных и общих проблем современной науки".

Проблема классификации наук, научных направлений, тематик, рубрик и т.п. встает не только в наукометрии, но и в библиометрии, где она выглядит, как проблема классификации вообще человеческой деятельности, зафиксированной в документах.

Одна из основных задач документальной классификации в библиометрии заключается в дифференциации научных направлений или в разложении в документальный спектр человеческой деятельности, развитие которой характеризуется всеобщим законом дифференциации направлений и интеграцией результатов этих направлений деятельности людей.

В данной работе сделана попытка сформулировать количественный метод библиометрии, связанный с классификацией документальных рубрик, отражающих человеческую деятельность.

Классификацией наук, сфер деятельности люди стали заниматься давно. Известно множество таких классификаций (18). Однако все они базируются на логической основе без применения количественных методов.

Будем считать, что все науки или, в общем случае, сферы деятельности человека можно разделить на три группы: общественные, или науки о поведении человека (о целеустремленных системах) как главенствующие, так как само деление наук выполняет общественные функции, затем науки о природе (о самоорганизующих системах) и, наконец, формальные (абстрактные) науки. Научная деятельность отличается от деятельности в какой-либо сфере свойством научности, которое имеет большое количество толкований, поэтому под деятельностью будем понимать целеустремленную деятельность индивида или системы в смысле Р. Акоффа (17), а деление наук будем производить как деление сфер деятельности индивида.

Противопоставим деятельность человека деятельности природы, подразумевая под деятельностью природы ее развитие как самоорганизующейся материи, тогда абстрактная деятельность человека окажется нейтральной. Самой абстрактной деятельностью является математика, поэтому расположим математику в центре оси, на которой будем откладывать в виде точек сферы деятельности человека.

Формальный аппарат размещения конкретной науки по оси заключается в следующем. Будем считать, что в математике все опубликованные документы имеют математические или в общем случае количественные методы, тогда отношение количества документов, содержащих такие методы Ni к общему количеству документов Nj будет равно I, так как Ni = Nj. В самом простом понимании любая математическая работа посвящена количественным методам и поэтому должна содержать формулы, таблицы, графики, либо какие-то другие средства изображения математических и логических зависимостей в виде схем, знаков и символов. Если взять логарифм данного отношения, то тогда математика на оси займет точку с координатой ноль. Все остальные науки будут представлены в виде точек или отрезков, если сфера деятельности вообще не имеет количественных методов, например журналистика. Точка на оси определяется описанным выше методом, то есть логарифмом отношения документов, обладающих какими-либо формальными свойствами, характеризующими использование количественных методов, например наличие формул или их количества на общее количество страниц в документе, к общему количеству документов, или логарифмом обратного отношения (рис. I):

M=logNi / Nj

Вторым формальным атрибутом, по которому можно оценивать документ на заданной оси (оси деятельности), является наличие использования компьютерных средств (микропроцессорных средств, программно-управляемых средств и т.п.), которые являются носителями математических (количественных) методов в различных сферах человеческой деятельности - Kj.

Возможен случай, когда сфера деятельности не имеет ни одного документа с математическими методами или компьютерными средствами, тогда эти сферы деятельности попадают в крайний левый или крайний правый отрезок, а в самих отрезках дифференциацию сфер деятельности можно проводить следующим формальным образом, например по количеству публикаций в год или от общего к конкретному.

Данный аппарат классификации сфер деятельности является формальным и показывает, насколько математизированы или компьютеризированы сферы деятельности, то есть их наукоемкость, однако он не отражает интеграционный характер результатов сфер деятельности.

Для отражения этого аспекта человеческой деятельности можно использовать аппарат связности документов между собой с помощью библиографических ссылок и других методов. В частности, каждая из сфер деятельности (точка на оси) связана с другими сферами (точками) количеством цитируемых связей. Наиболее развит этот аппарат у Гарфилда. Можно выбрать наиболее сильные связи какой-то точки с другими точками, например с семью точками, и отложить количество связей по восьми осям на диаграмме, как это показано на рис. 2.

По осям диаграммы откладываются количество связей между исходной (первой) точкой и семью наиболее сильно связанными точками. Если связь между первой и второй точками, например 10 единиц, то на первой и второй осях откладываются радиусы 10 единиц и эти точки соединяются окружностью соответствующего радиуса. Затем подсчитывается суммарное количество связей по каждой оси и откладывается соответствующая сумма на соответствующей оси. Или можно взять среднюю арифметическую величину, либо какую-нибудь другую.

В результате этих операций получается восьмигранник, центр тяжести (точка А на рис. 2) которого смещен относительно координатного центра в сторону одной или двух осей. Это смещение показывает, какая из сфер деятельности преобладает по количеству связей. Это свойство можно использовать для выделения кластера документов,

который может представлять сферу деятельности. Наименование кластера представляет собой фронт направлений в данной сфере деятельности.

Подсчет Мj, Кj, Nj, координат точки А, например с месячным циклом, позволяет строить спектр сфер по оси деятельности и спектр фронтов направлений по сферам деятельности и проводить количественный библиометрический анализ документально-информационных потоков в динамике с месячным тактом. Теперь рассмотрим, как можно изобразить с помощью компьютерных средств результаты библиометрического анализа.

Для отражения информации об объекте на экране компьютера можно воспользоваться системным подходом, то есть рассмотреть изображение объекта в виде точки на экране в трех аспектах: элементном, структурном и функциональном. Под функциональным аспектом будем понимать движение точки в каком-либо пространстве атрибутов объекта. Здесь можно выделить три типа: статистическое движение, то есть движение каких-либо атрибутов при неподвижной точке на экране, например изменение яркости точки; динамическое движение, то есть движение точки на экране; и структурное движение, то есть при неподвижной точке на экране происходит изменение структуры объекта, например вращательное, волновое движение, изменение цвета точки. На структурном уровне движение можно разбить на три вида: движение типа превращения, например мигание точки, движение во времени и в пространстве, которое, в свою очередь, делится на три пространственных координатных движения. Схема классификации приведена на рис. 3.

Рис. З

Таким образом, можно выделить семь атрибутов отображения объекта, которые можно использовать для отражения объекта на экране компьютера, в частности три геометрических координаты (точки в пространстве атрибутов), две структурные координаты точки (мигание и перемещение во времени), и две функциональные координаты точки (яркость и цветность).

В данном случае, когда мы рассматриваем документальную коммуникационную систему, состоящую из источников, среды и приемников, необходимо выбрать семь атрибутов, наилучшим образом отражающих данную систему. Естественно, что для разных целей сочетание этих семи атрибутов может быть различно, но можно определить эти сочетания, причем их может быть семь типов, которые представлены в табл. I.

Таблица I

 

Источник

Среда

Приемник

I

+

 

 

 

2

 

+

 

3

 

 

 

+

4

+

+

 

5

+

 

+

6

 

+

+

7

+

+

+

Табл. I

Наиболее полное сочетание является седьмым типом, однако по количеству атрибутов, описывающих один из элементов коммуникационной системы, данные типы делятся на виды, количество которых может быть определено количеством сочетаний из семи атрибутов по трем элементам коммуникационной системы таким образом, чтобы в каждом сочетании обязательно присутствовал хотя бы один атрибут, описывающий один из трех элементов. Если нас интересует в большей степени источник, то можно взять пять атрибутов, относящихся к источнику, или к источнику и среде, или к источнику, среде и приемнику и по одному атрибуту, описывавшему среду и приемник по отдельности или совместно. Среди атрибутов объекта можно выделить атрибуты, описывающие совместные или универсальные свойства объекта или элементов объекта, например время.

Для библиотечных применений можно взять за данные следующие атрибуты: три атрибута, описывающие документальный источник, один - время, два, описывающие документальную коммуникационную среду и один, описывающий приемник, всего семь.

Рассмотрим более конкретно эти атрибуты. В качестве источника возьмем документальную рубрику. К атрибутам, описывающим документальные рубрики, можно отнести интенсивность использования количественных методов и компьютерных средств в рубрике, а также интенсивность публикаций в документальной рубрике.

В качестве документальной коммуникационной среды возьмем весь спектр документальных рубрик, а за атрибуты, описывающие эту среду, возьмем интенсивность библиографических связей документальной рубрики с другими рубриками и экстенсивность этих связей и, наконец, один атрибут, описывающий интенсивность использования читателями документальной рубрики.

Выберем в качестве атрибутов, характеризующих рубрику, интенсивность использования количественных методов, например, в простейшем случае, логарифм отношения количества документов, в которых есть наличие формул к общему количеству документов; следующим атрибутом является интенсивность использования компьютерных средств, выраженная отношением количества документов, в которых описаны компьютерные средства к общему количеству документов и, наконец, интенсивность публикаций в документальной рубрике, выраженная через отношение количества документов, вышедших за какой-то промежуток времени, к общему количеству документов.

Следующим атрибутом объекта является интенсивность библиографических связей рубрики с другими рубриками, которая выражается в виде отношения количества библиографических связей данной рубрики к общему количеству библиографических связей между восьмью наиболее связанными рубриками, причем, рубрике с максимальным количеством связей присваивается, например, красный цвет, а остальным рубрикам присваиваются цвета в соответствии с цветовым спектром. Еще одним атрибутом является экстенсивность библиографических связей, выражаемая через отношение количества всех библиографических связей к общему количеству документов в рубрике.

Атрибут, который характеризует приемник документальной коммуникационной системы, определим как отношение количества используемых читателями документов из рубрики к общему количеству документов в рубрике. Последним атрибутом, является время.

Итак, на экране компьютера в изометрии по трем осям координат откладываются значения трех атрибутов: атрибуты, характеризующие используемые количественные методы, компьютерные средства рубрик и экстенсивную характеристику связанности рубрики с другими рубриками. Полученная точка на экране обладает яркостью и цветностью, которые зависят от температуры рубрики и интенсивности библиографических связей рубрики с другими рубриками и, наконец, данная точка на экране может мигать, частота мигания этой точки зависит от интенсивности использования читателями документов из данной рубрики. Указанная точка на экране компьютера может перемещаться на экране в зависимости от времени. Естественно, что все остальные атрибуты также могут меняться в зависимости от времени. Схематически изображение объекта на экране компьютера можно представить на рис. 4, где N - количество документов в рубрике; М - количество документов, обладающих атрибутом - наличие количественных методов; К - количество документов с атрибутом - используемые компьютерные средства; S - количество библиографических ссылок рубрики с другими семью наиболее сильно связанными рубриками; Δ N - количество документов, поступивших в рубрику за время Δ t; F - количество документов, использованных читателями; t↓1, t↓2 - значения времени.

В общем, виде совокупность рубрик будет представлена в виде совокупности точек или точечной поверхности, которая осуществляет волновое движение во времени. Связь между рубриками отображается посредством связи точек, наиболее связанные точки будут иметь одинаковый цвет, а интенсивность связи будет определяться цветовым спектром. Для наиболее интенсивной связи будет использоваться красный цвет.

Документальный поток, поступающий в библиотеку, обрабатывается с недельным циклом, поэтому документально-информационный эксперт может наблюдать целостную "картинку" на экране с недельной динамикой, например, за предыдущий месяц, и обнаружить какие-либо изменения в ней. Если с точки зрения эксперта эти изменения существенны, то он может выявить, в какой j-й рубрике или подрубрике они произошли, а далее определить, за счет каких документов эти изменения произошли. Анализ текстов выявленных документов определяет окончательный диагноз этих изменений и устанавливает важность этих документов, их вес, ценность в рубрике с помощью какой-либо формальной системы.

ГПНТБ СО АН СССР (отдел автоматизированных систем обработки и анализа НТИ) ведет работы по созданию компьютерного рабочего места документально-информационного эксперта, реализованного на основе пакета прикладных программ "Эксперт" (ЕС 1840) на языке Паскаль (примерно 6000 операторов), в котором одним из фрагментов является вышеописанный модифицированный метод.

Данная реализация этого подхода к библиометрическому анализу в библиотеке создает предпосылки для организации в ней института экспертов, а также практическую возможность глубокой обработки данных документально-информационного потока силами документально-информационных работников на персональных компьютерах, включенных в интегрированную компьютерную систему коммуникации НТИ ГПНТБ СО АН СССР (16).

Литература

  1. Вurton Н.D. Use of virtual information for bibliometric analysis// Inf. Process and manag.- 1988. - 24. - N 1. - P. 39-41.
  2. Хайтун С.Д. Наукометрия: состояние и перспективы. - М.: Наука, 1983.
  3. Грановский Ю.В. Наукометричеокий анализ информационных потоков
  4. в химии. - М.: Наука, 1980. - 141 с.
  5. Вайятт Г.В. Когда информация становится знанием // Коммуникация в современной науке. - М., 1976. - С. 374-390.
  6. Использование библиометрических и других наукометрическнх показателей для анализа научной продуктивности // ЭИ. Информатика. - 1988. - № 21. - С. 6-16.
  7. Информатика и науковедение: Тез. докл. - Тамбов, 1988. - 437 с.
  8. 7. Проверка гипотезы Ортеги: факты и артефакты //ЭИ. - Информатика. - 1988. - № 18. - С. 7-8.
  9. Существует ли этика информатики? // РЖ. - Информатика. - 1988.-№ 6. - С. 13. - Реф. 6И83.
  10. Соколов А.В. Система информационно-коммуникационных наук // НТИ. Сер. 2. - 1985. - № 4. - С. 1-9.
  11. Копнин П.В. Гносеологические и логические основы науки. - М.:
  12. Мысль, 1974. - 588 с.
  13. Брукс Б.С. Теоретическая информатика во втором этапе механизации процессов информационного поиска // Теоретические проблемы информатики. - М.: МФД, 1979. - С. 12-25.
  14. Сидоров В.И. Наука об информации и ее проблемы // Международный форум по информации и документалистике. - 1983. - 8. -№ I. - С. 17-21.
  15. Куликовский Л.Ф. и др. Элементы теории информационных процессов. - Куйбышев, 1976. - 31 с.
  16. Кедров Б.М. Классификация наук. - М.: Изд. ВПШ и АОН при ЦК
  17. КПСС, I96I. - 471 с.
  18. Broadus R.N. Toward a definition of bibliometrics // Scientometrics, 1987. - 12. - N 5-6. - P. 373-379.
  19. Нестеров А.В. Информатика в Библиотеке // Создание и интеграция документальных и фактографических ИПС. - Новосибирск, 1988. - С. 20-40 / ГПНТБ СО АН СССР.
  20. Акофф Р., Эмери Ф. О целеустремленных системах. - М.: Сов. Радио, 1974. - 272 с.
  21. Бернал Дж. Наука в истории общества. - М.: Изд. Иностранной литературы, 1956. - 724 с.