(19) RU (11) 2145115 (13) C1
(51) 7 G06K9/00
(12) ОПИСАНИЕ ИЗОБРЕТЕНИЯ к патенту Российской Федерации
Статус: по данным на 17.11.2005 — действует
(14) Дата публикации: 2000.01.27
(21) Регистрационный номер заявки: 98114579/09
(22) Дата подачи заявки: 1998.08.10
(24) Дата начала действия патента: 1998.08.10
(46) Дата публикации формулы изобретения: 2000.01.27
(56) Аналоги изобретения: FineReader Версия 3.0. Руководство пользователя. Bit
Software, Inc. — Казань: Казанский производственный комбинат программных средств,
1997. US 5544257 A, 06.08.96. US 5550931 A, 27.08.96. EP 0779592 A2, 18.06.97.
WO 97/18525 A1, 22.05.97. RU 2113726 C1, 20.06.98.
(71) Имя заявителя: Закрытое акционерное общество «Аби Программное обеспечение»
(72) Имя изобретателя: Попов С.Г.; Терещенко В.В.; Ян Д.Е.
(73) Имя патентообладателя: Закрытое акционерное общество «Аби Программное
обеспечение»
(98) Адрес для переписки: 115573, Москва, Ореховый б-р, д.39, корп.1, кв.145,
Линнику Л.Н.
(54) ГРУППОВОЙ СПОСОБ АБИ (ABBYY) ВЕРИФИКАЦИИ КОМПЬЮТЕРНЫХ КОДОВ С СООТВЕТСТВУЮЩИМИ
ИМ ОРИГИНАЛАМИ
Изобретение относится к вычислительной технике. Его использование при верификации
компьютерных кодов с соответствующими им оригиналами позволяет повысить скорость
верификации и ее точность. Способ включает в себя преобразование исходной символьной
информации оригинала документа в совокупность адекватных ей компьютерных кодов
в найденных и отобранных полях документов и приведение в соответствие компьютерных
кодов с оригиналом. Технический результат достигается благодаря тому, что выделяют
компьютерные коды символов, определяя достоверность распознавания каждого символа
на основе результатов распознавания изображения этого символа известными способами,
сравнения этих результатов между собой и с результатом словарного контроля,
причем верификацию осуществляют над параллельно выведенными на устройство отображения
визуальной информации несколькими графическими изображениями. 1 з.п.ф-лы.
ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Изобретение относится к области электроники и может быть использовано, например,
в качестве группового способа верификации компьютерных кодов с соответствующими
им оригиналами.
Известен способ верификации компьютерных кодов с соответствующими им оригиналами,
включающий преобразование исходной символьной информации оригинала документа
в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях
документа и сличение оператором соответствия компьютерных кодов с оригиналом.
Известен также способ верификации компьютерных кодов с соответствующими им
оригиналами, включающий преобразование исходной символьной информации оригинала
документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных
полях документа и приведение в соответствие компьютерных кодов с оригиналом, — прототип.
Недостатком известных способов являются относительно низкие их функциональные
и технические характеристики, в том числе низкие значения достигаемых скорости
верификации ее усредненной точности.
Решаемой изобретением задачей является совершенствование способов верификации
компьютерных кодов с соответствующими им оригиналами с достижением технического
результата в виде повышения скорости верификации и ее усредненной точности.
Скорость верификации определяется как количество верифицируемых символов в единицу
времени.
Для удобства и однозначного понимания целесообразно привести расшифровки и
определения используемых далее обозначений, символов и/или терминов.
Исходное графическое изображение на материальном носителе — подлежащее вводу
в компьютер изображение с целью последующей компьютерной обработки или хранения
в машиночитаемом виде.
Графическое изображение, введенное в компьютер, — компьютерное представление
некоторого фрагмента графической информации.
Компьютерный код символа — компьютерное представление некоторого фрагмента
символьной информации.
Компьютерные коды символов получают в процессе компьютерного распознавания
графического изображения, введенного в компьютер, например, с помощью сканера,
или его фрагментов.
Процесс верификации — производимое человеком и/или заменяющим его устройством,
и/или компьютерной программой сличение (определение адекватности) компьютерных
кодов символов с графическим изображением, введенным в компьютер.
Процесс распознавания — процесс обработки системой распознавания введенного
в компьютер графического изображения некоторого символа, в результате чего система
распознавания приписывает изображению компьютерный код этого символа.
Точность процесса распознавания — усредненный процент правильно распознанных
символов по статистически представительному практически релевантному множеству
текстов.
Правильно распознанные символы — символы, компьютерный код которых правильно
определен системой распознавания.
Неправильно распознанные символы — символы, компьютерный код которых неправильно
определен системой распознавания.
Выделенные символы — символы, выделенные в процессе фильтрации для последующей
верификации. В идеале выделенные символы должны включать все неправильно распознанные
символы.
Цена ошибки — параметр, адекватный величине убытка, причиненного попаданием
неправильно распознанного символа в окончательный результат распознавания.
Обозначения:
Nисх — общее число символов в документе,
Nвыд — число символов, выделенное алгоритмом фильтрации,
Nневыд — число символов, не выделенное алгоритмом фильтрации,
Nпр — число правильно распознанных символов,
Nнепр — общее число неправильно распознанных символов,
Nвыд.пр — число выделенных правильно распознанных символов,
Nвыд.непр. — число выделенных неправильно распознанных символов,
Nневыд.пр. — число невыделенных правильно распознанных символов,
Nневыд.непр — число невыделенных неправильно распознанных символов,
верхний индекс C (как в NC) обозначает число символов, которые получили в процессе
распознавания компьютерный код C,
A — точность распознавания данного документа,
A=Nпр/Nисх,
Aср — усредненная точность распознавания данного документа:
где N — общее число документов в выборке, a i — номер документа в выборке,
где С — числовое значение компьютерного кода распознанного символа (порядковый
номер), выбираемое из всего множества допустимых значений без исключений,
NгрC — количество сгруппированных для верификации одинаковых компьютерных кодов,
Nэкр — количество графических изображений выводимых на экран одновременно (из
общего количества NгрC).
В качестве кратких сведений, раскрывающих сущность изобретения, следует отметить,
что достигаемый технический результат обеспечивают с помощью предложенного группового
способа АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами,
включающего преобразование исходной символьной информации оригинала документа
в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях
документа и приведение в соответствие компьютерных кодов с оригиналом. Отличительные
особенности заявленного способа заключаются в том, что в процессе фильтрации
выделяют компьютерные коды символов, определяя достоверность распознавания каждого
символа на основе результатов распознавания изображения этого символа различными
известными способами, сравнения этих результатов между собой и с результатом
словарного контроля и выбирая их из исходной последовательности компьютерных
кодов символов общим числом Nисх, в количестве Nвыд = F — aNневыд.непр, где
а — экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и
усредненной точности системы распознавания в пределах: 10-12 1015, a F — экспериментальный
параметр, выбираемый в зависимости от точности системы распознавания и числа
подлежащих распознаванию символов в документе в пределах: 1 F1016.
Затем после фильтрации группируют одинаково распознанные компьютерные коды
общим числом Nвыд таким образом, что в каждую группу включают NвыдC одинаковых
компьютерных кодов символов, где C — числовое значение верифицируемого компьютерного
кода, выбираемое из всего множества допустимых значений, выбирая значение NвыдC
в пределах: 1(NвыдC + Nвыд)/Nвыд 2. При этом в каждую группу NвыдC включают
правильно распознанные компьютерные коды символов в количестве Nвыд прC и неправильно
распознанные компьютерные коды символов в количестве Nвыд непрC, а соотношение
между Nвыд прC и Nвыд непрC выбирают в пределах: -0.5(Nвыд прC + Nвыд непрC — bNвыдC)/Nвыд прC 1.5, где b- экспериментальный коэффициент, выбираемый в зависимости
от четкости и контрастности исходного графического изображения в пределах: 10-9b1.
Для верификации выбирают количество Nгр сгруппированных одинаковых компьютерных
кодов в пределах Nгр= NСвыд, где -экспериментальный коэффициент, в зависимости
от количества группируемых выделенных компьютерных кодов и включаемых дополнительно
эталонных и/или вспомогательных и/или информационных кодов выбираемый в пределах
10-5 106, — экспериментальный вероятностный коэффициент уверенности в достоверности
распознавания, выбираемый на основании статистической обработки и результатов
оценки качества исходных графических изображений на материальном носителе, в
пределах 0,01 1.
Группы одинаково распознанных компьютерных кодов выводят для их верификации
специализированным устройством или оператором, например, в случайном порядке
либо в порядке убывания весовой WC значимости группы компьютерных кодов, которую
определяют экспериментально на основе статистической обработки больших массивов
информации в зависимости от алфавитного порядка и/или размера группы компьютерных
кодов, и/или степени важности данного компьютерного кода для содержания документа
и др., исходя из практической значимости достоверности верификации компьютерных
кодов, и выбирают в пределах: 10-8 WC/NвыдC1016. Производят верификацию, сличая,
например, показанное на устройстве отображения визуальной информации изображение,
введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно
в устройство отображения визуальной информации вводят Nэкр разных графических
изображений, предоставляя при этом на верификацию одного изображения промежуток
Твер времени, который по отношению к Nэкр выбирают в экспериментально найденных
пределах: -20 log2(TверNэкр) 37, где — экспериментальный коэффициент, выбираемый
в зависимости от кинетических характеристик устройства ввода символьной информации
в компьютер в пределах 0.2c-1 10c-1.
При изложении сведений, подтверждающих возможность осуществления изобретения,
целесообразно более детально описать предложенный групповой способ АБИ (ABBYY)
верификации компьютерных кодов с соответствующими им оригиналами. При описании
способа нецелесообразно детально останавливаться на известных из опубликованных
данных особенностях выполнения его операций, в частности, преобразование исходной
символьной информации оригинала документа в совокупность адекватных ей компьютерных
кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных
кодов с оригиналом.
Детально целесообразно остановиться только на отличительных существенных особенностях
осуществления операций предложенного способа, заключающихся в том, что в процессе
фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания
каждого символа на основе результатов распознавания изображения этого символа
различными известными способами, сравнения этих результатов между собой и с
результатом словарного контроля и выбирая их из исходной последовательности
компьютерных кодов символов общим числом Nисх, в количестве Nвыд= F-Nневыд.непр,,
где a — экспериментальный коэффициент, выбираемый в зависимости от цены ошибки
и усредненной точности системы распознавания в пределах: 1012 1015, a F — экспериментальный
параметр, выбираемый в зависимости от точности системы распознавания и числа
подлежащих распознаванию символов в документе в пределах: 1 F 1016. Обычно а
выбирают в диапазоне 1 — 105, a F — в диапазоне 10 F 106.
В некоторых случаях, в частности, словарный контроль существенно повышает достоверность
распознавания отдельных символов, так при этом даже полная невозможность распознания
некоторых символов позволяет определить их значение исходя из смыслового содержания
слова и месторасположения нераспознанных символов в слове. Если в результате
выделения в соответствии с приведенными аналитическими соотношениями необходимых
количеств компьютерных кодов получают дробные, отрицательные значения и какие-либо
другие значения, некорректные исходя из условий возможности их дальнейшего использования,
то их исключают из рассмотрения и/или автоматически удаляют.
Затем группируют после фильтрации одинаково распознанные компьютерные коды
общим числом Nвыд таким образом, что в каждую группу включают NвыдC одинаковых
компьютерных кодов символов, где C — числовое значение верифицируемого компьютерного
кода из всего множества допустимых значений, выбирая значение NвыдC в пределах:
1 (NвыдC + Nвыд)/Nвыд 2. Определение числового значения C может быть произвольным
или в результате, например, последовательно выбора из множества его допустимых
значений. При этом в каждую группу NвыдC включают правильно распознанные компьютерные
коды символов в количестве Nвыд прC и неправильно распознанные компьютерные
коды символов в количестве Nвыд непрC, а соотношение между Nвыд прC и Nвыд непрC
выбирают в пределах: -0.5 (Nвыд прC + Nвыд непрC — bNвыдC)/Nвыд прC1.5, где
b — экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности
исходного графического изображения в пределах: 10-9b1. Для верификации выбирают
количество Nгр сгруппированных одинаковых компьютерных кодов в пределах: Nгр=
NCвыд, где — экспериментальный коэффициент, в зависимости от количества группируемых
выделенных компьютерных кодов и включаемых дополнительно эталонных и/или вспомогательных
и/или информационных кодов выбираемый в пределах 10-5 106, — экспериментальный
вероятностный коэффициент уверенности в достоверности распознавания, выбираемый
на основании статистической обработки и результатов оценки качества исходных
графических изображений на материальном носителе в пределах 0,01 1. Качество
исходных графических изображений определяется, в частности, тем, что предъявляют
для распознавания, например, изготовленное на ксерокопировальном аппарате изображение,
факсограмму, машинописный или рукописный текст.
Группы одинаково распознанных компьютерных кодов выводят для их верификации
специализированным устройством или оператором, например, в случайном порядке
либо в порядке убывания весовой WC значимости группы компьютерных кодов, которую
определяют экспериментально на основе статистической обработки больших массивов
информации в зависимости от алфавитного порядка и/или размера группы компьютерных
кодов, и/или степени важности данного компьютерного кода для содержания документа
и др., исходя из практической значимости достоверности верификации компьютерных
кодов, и выбирают в пределах: 10-8WC/NвыдC 1016. Производят верификацию, сличая,
например, показанное на устройстве отображения визуальной информации изображение,
введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно
в устройство отображения визуальной информации вводят Nэкр разных графических
изображений, предоставляя при этом на верификацию одного изображения промежуток
Твер времени, который по отношению к Nэкр выбирают в экспериментально найденных
пределах: -20 log2(TверNэкр) 37, где — экспериментальный коэффициент, выбираемый
в зависимости от кинетических характеристик устройства ввода символьной информации
в компьютер в пределах 0.2c-1 10-1. Как следует из соотношения, размерность
коэффициента равна величине, обратной секунде.
Достигаемый технический результат, как показали данные экспериментов, может
быть реализован только взаимосвязанной совокупностью всех существенных признаков
заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия
дают основание сделать вывод о новизне данного технического решения, а совокупность
испрашиваемых притязаний в связи с их неочевидностью — о его изобретательском
уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие
критерию «промышленная применимость» предложенного способа доказывается
как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически
трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения
заявленных пределов были получены на основе статистической обработки результатов
экспериментальных исследований, анализа и обобщения их и известных из опубликованных
источников данных, а также с использованием изобретательской интуиции, исходя
из условия достижения указанного технического результата.
Кроме указанного выше технического результата практическое осуществление заявленного
объекта позволяет существенно расширить возможности его использования применительно,
например, к различным документам, заполняемым рукописными символами.
ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Групповой способ верификации компьютерных кодов с соответствующими им оригиналами,
включающий преобразование исходной символьной информации оригинала документа
в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях
документа и приведение в соответствие компьютерных кодов с оригиналом, отличающийся
тем, что выделяют компьютерные коды символов, определяя достоверность распознавания
каждого символа на основе результатов распознавания изображения этого символа
известными способами, сравнения этих результатов между собой и с результатом
словарного контроля и, выбирая их из исходной последовательности компьютерных
кодов общим числом Nисх, в количестве Nвыд = F — aNневыд.непр, где a — экспериментальный
коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности
системы распознавания в пределах 10-12 a 1015, F — экспериментальный параметр,
выбираемый в зависимости от точности системы распознавания и числа подлежащих
распознаванию символов в документе в пределах 1 F 1016, Nневыд.непр — число
невыделенных неправильно распознанных символов, группируют одинаково распознанные
компьютерные коды общим числом Nвыд таким образом, что в каждую группу включают
NвыдC одинаковых компьютерных кодов, где C — числовое значение верифицируемого
компьютерного кода из всего множества допустимых значений, выбирая значение
NвыдC в пределах 1 (NвыдC + Nвыд)/Nвыд 2, причем в каждую группу NвыдC включают
правильно распознанные компьютерные коды символов в количестве Nвыд.прC и неправильно
распознанные компьютерные коды в количестве Nвыд.непрC, а соотношение между
Nвыд.прC и Nвыд.непрC выбирают в следующих пределах: 0,5 (Nвыд.прC + Nвыд.непрC — bNвыд)/Nвыд.прC 1,5, где b — экспериментальный коэффициент, выбираемый в зависимости
от четкости и контрастности исходного графического изображения в пределах 10-9
b 1, выбирая количество Nгр сгруппированных для верификации одинаковых компьютерных
кодов в пределах Nгр = NCвыд, где — экспериментальный коэффициент, в зависимости
от количества группируемых выделенных компьютерных кодов и включаемых дополнительно
эталонных, и/или вспомогательных, и/или информационных кодов, выбираемый в пределах
10-5 106, — экспериментальный вероятностный коэффициент уверенности в достоверности
распознавания, выбираемый на основании статистической обработки и результатов
оценки качества исходных графических изображений на материальном носителе, в
пределах 0,01 1, группы одинаково распознанных компьютерных кодов выводят для
их верификации специализированным устройством или оператором, например, в случайном
порядке, производят верификацию, сличая, например, показанное на устройстве
отображения визуальной информации изображение, введенное в компьютер, с изображением
компьютерного кода символа, для чего одновременно в устройство отображения визуальной
информации вводят Nэкр разных графических изображений, предоставляя при этом
на верификацию одного изображения промежуток Tвер времени, который по отношению
к Nэкр выбирают в экспериментально найденных пределах: -20 log2(TверNэкр) 37,
где — экспериментальный коэффициент, выбираемый в зависимости от кинетических
характеристик устройства ввода символьной информации в компьютер в пределах
0,2c-1 10c-1.
2. Способ по п.1, отличающийся тем, что группы одинаково распознанных компьютерных
кодов выводят для их верификации специализированным устройством или оператором
в порядке убывания весовой значимости WС группы компьютерных кодов, которую
определяют экспериментально на основе статистической обработки больших массивов
информации в зависимости от алфавитного порядка, и/или размера группы компьютерных
кодов, и/или степени важности данного компьютерного кода для содержания документа,
исходя из практической значимости достоверности верификации компьютерных кодов,
и выбирают в пределах 10-8 WС/NвыдC 1016.
ИЗВЕЩЕНИЯ ОБ ИЗМЕНЕНИИ ПРАВОВОГО СТАТУСА
Код изменения правового статуса PC4A — Регистрация договора об уступке патента
на изобретение
Дата публикации бюллетеня 2003.05.10
Номер бюллетеня 13/2003
(73) Имя патентообладателя Аби Софтвер Лтд. (CY)
Номер договора 16021
Дата заключения договора 2003.02.05
|