Информационное обеспечение науки Новые технологии

А.Н. Ефимов, С.Б. Литвинюк

(Московский Государственный Университет Путей Сообщения)

ТЕХНОЛОГИЯ КОНТРОЛЯ И ИССЛЕДОВАНИЕ
ОШИБОК ПРИ АВТОМАТИЗИРОВАННОМ
ВВОДЕ И РАСПОЗНАВАНИИ ТЕКСТА
ДОКУМЕНТОВ

В докладе рассматриваются понятие "достоверности информации", классификация типов ошибок, возникающих в процессе работы программ оптического распознавания символов. Рассматриваются возможные методы поиска и исправления ошибок, возникающих на этапе ввода, а также производится сравнительный анализ эффективности методов их коррекции.

Одним из способов ускорения ввода информации, содержащейся на жесткой копии документа в вычислительную систему (например, для дальнейшей ее обработки) является сканирование - процесс, в результате которого получают растровый графический образ исходного документа. А затем, обрабатывая полученную информацию специальной программой распознавания текста - OCR (Optic Character Recognition), получают файл в удобном для последующей обработки формате. Однако существует множество проблем, связанных с искажением исходных данных, вводимых в ЭВМ. С развитием технологии автоматизированной обработки информации меняются и способы сбора, подготовки и ввода данных в ЭВМ, но, к большому сожалению, ошибки были всегда, и до настоящего момента проблема борьбы с ними остается открытой. Тем более, что вместе со сменой оборудования и технологии ввода информации изменяются характер и качество искажений.

Существует много определений понятия достоверности информации. В одних источниках под Достоверностью Информации понимают степень (или уровень) адекватного отображения ею реальных событий или процессов. В других - как свойство не иметь скрытых ошибок. Чтобы более точно определиться, какой смысл вкладывается в это понятие, необходимо ввести ряд терминов, тесно связанных и взаимоопределяющих друг друга.

Адекватное отображение - уточнение этого термина предлагает Ю.Н. Мельников [3], говоря о равенстве реальной информации некоторым истинным значениям в пределах заданной точности.

Под Ошибкой или Искажением обычно понимаются различие между реально существующим значением данных и истинным [6].

В системах автоматизированной обработки информации принято определение сообщения. Обычно под Сообщением понимают ту часть информации, которая переносится на машинный носитель и в последствии поступает в ЭВМ для дальнейшей обработки или хранения.

Для того, чтобы в дальнейшем не было путаницы, Документом назовем исходный материал (информацию), представленную в виде печатного листа - жесткой копии. А так как нашей целью является изучение процесса автоматизации ввода информации с документа в ЭВМ; и достоверность именно этой части информации нас интересует, то и сами определения Сообщения и Документа, в нашем случае, примем как тождественные.

Как же оценивать достоверность информации? Основным показателем достоверности информации принято считать вероятность появления в ней ошибок или связанную с ней очевидным соотношением степень достоверности информации (безошибочность информации) :

.

В [2] выделяются следующие основные причины искажения данных:

  1.  Несовершенство структуры системы обработки информации (сюда относятся, и недостатки технологического процесса обработки данных, и недостатки модели объекта управления);

  2.  Несовершенство алгоритмов, ошибки в программах, которые обрабатывают запросы на выдачу определенных сообщений;

  3.  Ненадежность работы оборудования;

  4.  Ошибки человека-оператора.

Тогда, принимая во внимание все вышеизложенное, будем придерживаться определения достоверности данных как их свойства адекватного отображения реального мира и оценивать ее с помощью вероятностей и.

Далее, необходимо определить влияющие на достоверность факторы. Авторами [3] и [9] предпринята попытка сгруппировать ошибки в информации по степени их влияния на показатели качества функционирования АСУ (по степени тяжести последствий от ошибок):

  1.  Ошибки, существенно не влияющие на качество функционирования системы;

  2.  Ошибки, приводящие к небольшому снижению качества работы системы (проявляются обычно в неверных действиях системы);

  3.  Ошибки, резко снижающие качество работы системы и тем самым приводящие к невозможности ее эксплуатации.

Возможна также классификация ошибок по месту их зарождения и месту их расположения. Такая классификация была предложена в [6]. Из нее следует, что по месту зарождения ошибки могут появляться на этапе заполнения входных документов (в нашем случае - это этап формирования и создания исходного документа), на этапе ввода информации в ЭВМ, а также на этапе машинной обработки.

Для того, чтобы определить свойства и типы ошибок, нам потребуются следующие определения:

Запись - структура, обычно содержащая определенное число компонент (полей) - реквизитов. Реквизиты в записи не обязательно должны быть одного типа.

Реквизит - некоторое поле, которое используется для различных объектов одного и того же типа.

Таким образом, запись можно представить в виде строки, состоящей из последовательности реквизитов.

Блоком записей можно будет назвать набор таких строк.

Разделяя ошибки по типам, авторы [1] и [8] выделяют символьные (семантические), форматные простые и форматные сложные (синтаксические). Форматные ошибки изменяют структуру и форму сообщения, нарушая его содержание. Для таких ошибок характерно [1] изменение значности (разрядности) реквизита (добавление или пропуск символов), появление "запрещенных символов" в реквизите, сдвиг реквизитов, нарушение макета информационного сообщения, изменение количества реквизитов в сообщении и т. п. Семантические ошибки, в свою очередь, делятся на орфографические, смысловые (корреляционные) и блочные.

Практически все авторы работ по проблеме достоверности информации единодушно отмечают, что основным источником ошибок является человек-оператор ЭВМ. А поскольку из всех этапов технологического процесса обработки данных в ЭВМ, самая большая доля труда человека-оператора приходится на этапе сбора и первичной обработки исходной информации, то этот этап и становится центром внимания при решении задач повышения достоверности информации в АСУ. По данным [4], [5] и [7] на этапе сбора, подготовки и ввода сообщений вносятся от 61% до 98% всех ошибок.

Результат распознавания

OCR-программой

Распознаваемый символ, повторенный

100 раз

при нормальном межсимвольном интервале

при межсимвольном интервале 25 пунктов

распознанный

символ

количество повторений символов

распознанный символ

количество повторений символов

"

0

"

ft

It

lf

ll

11

tt

tr

tf

0

44

7

12

7

7

8

3

27

^

^

/ \

А(русс)

Л

2

14

4

80

^

Л

0

100

ж

ж

2

13

ж

100

м

м

ьЛ

71

1

1

1

2

м

100

у

у

100

у

Y

0

99

ы

ы

78

22

ы

100


 

Таблица 1

В ходе выполнения экспериментов были выявлены устойчивые закономерности распознавания некоторых отдельных символов, а также их сочетаний. На основе обработки полученного материала была составлена таблица наиболее устойчивых результатов распознавания, фрагмент которой, приведен в Таблице 1. Этот фрагмент иллюстрирует поведение OCR-программы при распознавании текста, состоящего из 100 повторов одного и того же символа. Данный тест оказался весьма строгим и позволил выявить наибольшее количество символов, которые не могли быть распознаны правильно. Здесь же отмечается большое количество переходов одних символов в другие. Так, например, во второй строке таблицы представлено, как символ "кавычки" ни разу не был распознан при нормальном межсимвольном интервале, и в каком разнообразии вариантов этот же символ был распознан при увеличении этого интервала до 25 пунктов. Здесь и далее в таблице в столбце "Распознаваемый символ, повторенный 100 раз" перечислены отдельные символы или группы символов, в которые перешел исходный, а в столбце "количество повторений символов" указано число таких комбинаций, встретившихся в тестовом примере.

Для того чтобы разнообразие анализируемых переходов было разумным по объему, были введены строгие ограничения на качество тестируемого материала и на частоту появления ошибки. Таким образом, в статистических расчетах нашли отражение лишь наиболее часто возникающие ошибки.

Результатом анализа полученных экспериментальных данных стало выделение трех классов ошибок, возникающих в процессе работы OCR-программ:

  1.  Подмена символа;

  2.  Добавление символа;

  3.  Потеря символа.



Рисунок 1

При этом, если такая ошибка как подмена символа, чаще всего возникает из-за неправильного распознавания символа, и в результате, как правило, происходит подмена символа на другой - по начертанию схожий; например: "0" "О" (ноль в О); "О" русская в "O" латинскую; строчные буквы в заглавные и наоборот, то два других класса ошибок можно описать лишь статистически из-за большого разнообразия этих ошибок. Так, например, добавление символа чаще всего происходит из-за того, что при ошибке программы в подборе шага сравнения эталона с оригиналом, буква М может быть распознана дважды (по частям) как 1 и Л (действительно, похоже: ), что в результате дает на выходе два символа против ожидаемого одного.

Аналогично может произойти "объединение" нескольких соседних символов в один: 2U  W, или часто наблюдаются переходы 84 М. При распознавании очень мелкого шрифта (5 пунктов) строка из всех восьмерок давала устойчивый результат: 888 Ш. В этих случаях имеет место ошибка распознавания, приводящая к потере символов. Аналогичная ошибка происходит при игнорировании программой распознаваемого символа.

Для обобщения результатов, представленных в таблице, было предложено в качестве математической модели использовать граф, подобный известному в теории кодирования графу переходов разрешенных кодовых комбинаций в запрещенные [12]. Предложенный граф описывает характер и веса вероятностей переходов распознаваемого символа : самого в себя (правильное распознавание) ; в другой отдельный символ ; в набор (сочетания) символов ; потеря символа ,
где
, , и - веса соответствующих вероятностей переходов (См. Рисунок 1).

Такой граф соответствует каждой строке таблицы. Однако он по отношению к множеству повторенных экспериментов окажется устойчивым лишь при определенных условиях:

  • Качество оригинала;

  • Тип шрифта оригинала;

  • Параметры шрифта (размер).

Изменение хотя бы одного из этих параметров может повлечь за собой изменения в весовой (вероятностной) картине приведенной таблицы.

Таким образом, можно составить целое дерево, описывающее зависимость вероятности появления ошибок при распознавании и параметров, характеризующих качество оригинала. Так если представить, что некий оригинал имеет набор характеристик , то есть , то для выборки из различных по своим параметрам оригиналов можно построить граф изменения вероятности распознавания символов (см. Рисунок 2.).



Рисунок 2


Для проведения анализа возможных ошибок введём понятие разрешенный алфавит, которым назовем набор символов, отвечающий определенным требованиям. Например, можно определить некий алфавит, как набор символов, состоящий только из кириллических заглавных букв. В этом случае аналогичные строчные буквы соответствовать данному алфавиту не будут. Таким образом, если разрешенным алфавитом для исходного документа является набор цифр, то с уверенностью можно заявить об имеющей место ошибке, если после операции распознавания на выходе появились любые другие символы, не принадлежащие этому алфавиту. Аналогичные заявления можно сделать и для таких разрешенных алфавитов, как буквы, знаки препинания, а также для смешанных алфавитов, представляющих собой набор из символов нескольких различных алфавитов. Всякий раз, когда на выходе системы распознавания будет появляться символ, не относящийся к известному, заранее определенному (разрешенному) алфавиту, можно гарантировать, что произошла ошибка распознавания.

Имеется вероятность возникновения такой ошибки, когда символ на выходе, распознанный неверно, будет принадлежать разрешенному алфавиту. Такого вида ошибки обнаружить гораздо сложнее. Подобное явление широко освещено в теории кодирования [12]. Так известно, что при передаче данных на расстояние, каждый байт дополняется контрольной суммой - битом, который принимает такое значение, которое приводит сумму всех значений битов в информационном байте к четному числу. Зная это правило, на принимающей стороне легко можно будет обнаружить однократную ошибку, которая переведет полученную сумму из четной в нечетную. Однако при возникновении двойной ошибки, которая может привести к восстановлению четности, доказать некорректность данных будет гораздо сложнее.

Из всего вышесказанного можно сделать заключение, что существует некий разрешенный алфавит, которому принадлежат символы исходного документа; существует некая программа, которая преобразует информацию из одного формата исходного документа в другой. Тогда, если на выходе программы преобразования возник символ, не соответствующий разрешенному алфавиту - можно констатировать факт возникновения ошибки. В случае, когда полученный символ принадлежит разрешенному алфавиту, необходимо будет предпринять ряд дополнительных мер для проверки качества распознавания. Цель проводимого исследования - оценить вероятности возникновения ошибок при распознавании и максимально конкретизировать причины их возникновения.

Литературы

  1. Бройдо В.Л. Достоверность экономической информации в АСУ. - Л., изд-во ЛГУ, 1984, 199 с.
  2. Мамиконов А.Г., Цвиркун А.Д., Кульба В.В Автоматизация проектирования АСУ. - М., ЭнергоАтомИздат, 1981, 328 с.
  3. Мельников Ю.Н. Учебное пособие по курсу "Основы построения АСУ". - М., МЭИ, 1978.
  4. Пивоваров А.Н. Опыт использования рациональных приемов и методов обеспечения достоверности обработки постоянной информации в АСУ. - Л., 1978.
  5. Пивоваров А.Н. К оценке искажений в реквизитах информации при обработке данных в АСУ. -Управляющие системы и машины, 1978, №2, с. 44-47.
  6. Пивоваров А.Н. Методы обеспечения достоверности информации в АСУ. - М., Радио и Связь, 1982, 144 с.
  7. Синавина В.С. Оценка качества функционирования АСУ. - М., Статистика, 1976, 136 с.
  8. Тимофеев Б.Б., Литвинов В.А., Методы обнаружения ошибок в алфавитно-цифровых последовательностях на этапе подготовки и ввода данных в ЭЦВМ. - Управление системы и машины, 1977, №4, с. 20-27.
  9. Шульц Я. Ограничения влияния ошибок входных данных в АСУ. - Podnikova organizace, 1976, V.30, #12, p 44-46. (ВЦП.№-А-47612).
  10. Резер В.С. Рациональный выбор параметров схем обработки первичной информации в подсистемах АСУ ЖТ. - М., Диссертация на соискание уч. степени Кандидата Тех. Наук, 1988.
  11. Журнал "МИР ПК", 7/91; 1/92; 12/95.
  12. Харкевич А.А. "Борьба с помехами", М.: Наука,1992. с. 192-195.