RU2013156781A

RU2013156781A - Выявление китайской, японской и корейской письменности

Info

Publication number: RU2013156781A
Application number: RU2013156781/08A
Authority: RU
Inventors: Михаил Юрьевич Атрощенко; Дмитрий Георгиевич Дерягин; Юрий Георгиевич Чулинин
Original assignee: ООО "Аби Девелопмент"
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2015-06-27
Also published as: US9378414B2; US20150178559A1; US9811726B2; RU2613847C2; US20160307033A1

Abstract

1. Способ определения того, что текст содержит символы китайского, японского или корейского языка, включающий в себя:получение изображения документа;бинаризацию изображения документа;поиск связных компонент на бинаризованном изображении документа;выявление множества фрагментов на основе связных компонент;формулировку для каждого фрагмента из множества фрагментов гипотезы о принадлежности языку с оценкой вероятности этой гипотезы;выбор из множества фрагментов подмножества фрагментов, имеющих наивысшие оценки вероятности;проверку, с использованием процессора, гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов; иопределение с помощью процессора наличия китайских, японских и корейских (CJK) символов на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.2. Способ по п. 1, дополнительно включающий в себя:анализ признаков первого подмножества из множества фрагментов иопределение характеристики документа на основании анализа признаков первого подмножества из множества фрагментов, при этом формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.3. Способ по п. 2 отличающийся тем, что характеристикой документа является ориентация документа.4. Способ по п. 2, дополнительно включающий в себя:определение второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;повторный анализ признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик докуме�

Claims

1. Способ определения того, что текст содержит символы китайского, японского или корейского языка, включающий в себя:

получение изображения документа;

бинаризацию изображения документа;

поиск связных компонент на бинаризованном изображении документа;

выявление множества фрагментов на основе связных компонент;

формулировку для каждого фрагмента из множества фрагментов гипотезы о принадлежности языку с оценкой вероятности этой гипотезы;

выбор из множества фрагментов подмножества фрагментов, имеющих наивысшие оценки вероятности;

проверку, с использованием процессора, гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов; и

определение с помощью процессора наличия китайских, японских и корейских (CJK) символов на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.

2. Способ по п. 1, дополнительно включающий в себя:

анализ признаков первого подмножества из множества фрагментов и

определение характеристики документа на основании анализа признаков первого подмножества из множества фрагментов, при этом формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.

3. Способ по п. 2 отличающийся тем, что характеристикой документа является ориентация документа.

4. Способ по п. 2, дополнительно включающий в себя:

определение второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;

повторный анализ признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.

5. Способ по п. 1, дополнительно включающий в себя:

распознавание подмножества фрагментов в каждой из четырех ориентаций;

вычисление уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;

определение для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и

определение ориентации изображения документа на основе подсчета голосов.

6. Способ по п. 1, отличающийся тем, что для формулировки гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов используется байесовская сеть.

7. Способ по п. 1, отличающийся тем, что для формулировки гипотезы о принадлежности языку для фрагмента используется определение признаков фрагмента, причем эти признаки основаны на информации о растровых и геометрических свойствах фрагмента.

8. Способ по п. 7, отличающийся тем, что признаки фрагмента содержат, как минимум, натуральный логарифм отношения ширины фрагмента к его высоте; количество горизонтальных штрихов, разделенное на высоту; количество вертикальных штрихов, разделенное на ширину; длину самого длинного горизонтального штриха, разделенную на высоту; и длину самого длинного вертикального штриха.

9. Способ по п. 1, в котором фрагмент содержит одно из следующего: один символ, два или более склеенных символов, часть одного символа, один символ и часть второго символа.

10. Способ по п. 5, в котором каждый голос для первой ориентации дополнительно проверяется на наличие европейского символа в любой ориентации.

11. Система, включающая в себя:

один или более процессоров, сконфигурированных для:

получения изображения документа;

бинаризации изображения документа;

поиска связных компонент на бинаризованном изображении документа;

выявления множества фрагментов на основе связных компонент;

определения гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов, причем гипотеза о принадлежности языку имеет оценку вероятности;

выбора подмножества фрагментов из множества фрагментов, имеющих высокую оценку достоверности;

проверки гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов и

определения наличия китайских, японских и корейских (CJK) символов на полученном изображении документа на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.

12. Система по п. 11, в которой один или более процессоров дополнительно сконфигурирован для:

анализа признаков первого подмножества из множества фрагментов и

определения характеристики документа на основе анализируемых признаков первого подмножества из множества фрагментов, в котором формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.

13. Система по п. 12, в которой характеристикой документа является ориентация документа.

14. Система по п. 12, в которой один или более процессоров дополнительно сконфигурированы для:

определения второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;

повторного анализа признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.

15. Система по п. 11, отличающийся тем, что один или несколько дополнительных процессоров сконфигурированы для:

распознавания подмножества фрагментов в каждой из четырех ориентаций;

вычисления уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;

определения для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и

определения ориентации изображения документа на основе подсчета голосов.

16. Энергонезависимый машиночитаемый носитель, в котором имеются команды, причем эти команды включают в себя:

команды для получения изображения документа;

команды для бинаризации изображения документа;

команды для поиска связной компоненты на бинаризованном изображении документа;

команды по выявлению множества фрагментов на основе связных компонент;

команды для определения гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов, в котором гипотеза о принадлежности языку имеет оценку вероятности;

команды для выбора подмножества фрагментов из множества фрагментов, имеющих наивысшие оценки достоверности;

команды по проверке гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов, а также

команды для определения присутствия китайских, японских и корейских (CJK) символов на полученном изображении документа на основании, по меньшей мере, проверки языковой гипотезы для подмножества фрагментов.

17. Энергонезависимый машиночитаемый носитель по п. 16, команды на котором дополнительно включают в себя:

команды для анализа признаков первого подмножества из множества фрагментов, а также

команды для определения характеристики документа на основании анализируемых признаков первого подмножества из множества фрагментов, в котором формулировка гипотезы о принадлежности языку для каждого фрагмента частично основано на характеристике документа.

18. Энергонезависимый машиночитаемый носитель по п. 17, в котором характеристикой документа является ориентация документа.

19. Энергонезависимый машиночитаемый носитель по п. 17, команды на котором дополнительно включают в себя:

команды для определения второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;

команды для повторного анализа признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.

20. Энергонезависимый машиночитаемый носитель по п. 17, команды на котором дополнительно включают в себя:

команды для распознания подмножества фрагментов в каждой из четырех ориентаций;

команды для вычисления уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;

команды для определения для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и

команды для определения ориентации изображения документа на основе подсчета голосов.