RU2013156781A - Выявление китайской, японской и корейской письменности - Google Patents

Выявление китайской, японской и корейской письменности Download PDF

Info

Publication number
RU2013156781A
RU2013156781A RU2013156781/08A RU2013156781A RU2013156781A RU 2013156781 A RU2013156781 A RU 2013156781A RU 2013156781/08 A RU2013156781/08 A RU 2013156781/08A RU 2013156781 A RU2013156781 A RU 2013156781A RU 2013156781 A RU2013156781 A RU 2013156781A
Authority
RU
Russia
Prior art keywords
fragments
document
subset
hypothesis
language
Prior art date
Application number
RU2013156781/08A
Other languages
English (en)
Other versions
RU2613847C2 (ru
Inventor
Михаил Юрьевич Атрощенко
Дмитрий Георгиевич Дерягин
Юрий Георгиевич Чулинин
Original Assignee
ООО "Аби Девелопмент"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ООО "Аби Девелопмент" filed Critical ООО "Аби Девелопмент"
Priority to RU2013156781A priority Critical patent/RU2613847C2/ru
Priority to US14/561,851 priority patent/US9378414B2/en
Publication of RU2013156781A publication Critical patent/RU2013156781A/ru
Priority to US15/193,058 priority patent/US9811726B2/en
Application granted granted Critical
Publication of RU2613847C2 publication Critical patent/RU2613847C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/246Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

1. Способ определения того, что текст содержит символы китайского, японского или корейского языка, включающий в себя:получение изображения документа;бинаризацию изображения документа;поиск связных компонент на бинаризованном изображении документа;выявление множества фрагментов на основе связных компонент;формулировку для каждого фрагмента из множества фрагментов гипотезы о принадлежности языку с оценкой вероятности этой гипотезы;выбор из множества фрагментов подмножества фрагментов, имеющих наивысшие оценки вероятности;проверку, с использованием процессора, гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов; иопределение с помощью процессора наличия китайских, японских и корейских (CJK) символов на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.2. Способ по п. 1, дополнительно включающий в себя:анализ признаков первого подмножества из множества фрагментов иопределение характеристики документа на основании анализа признаков первого подмножества из множества фрагментов, при этом формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.3. Способ по п. 2 отличающийся тем, что характеристикой документа является ориентация документа.4. Способ по п. 2, дополнительно включающий в себя:определение второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;повторный анализ признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик докуме�

Claims (20)

1. Способ определения того, что текст содержит символы китайского, японского или корейского языка, включающий в себя:
получение изображения документа;
бинаризацию изображения документа;
поиск связных компонент на бинаризованном изображении документа;
выявление множества фрагментов на основе связных компонент;
формулировку для каждого фрагмента из множества фрагментов гипотезы о принадлежности языку с оценкой вероятности этой гипотезы;
выбор из множества фрагментов подмножества фрагментов, имеющих наивысшие оценки вероятности;
проверку, с использованием процессора, гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов; и
определение с помощью процессора наличия китайских, японских и корейских (CJK) символов на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.
2. Способ по п. 1, дополнительно включающий в себя:
анализ признаков первого подмножества из множества фрагментов и
определение характеристики документа на основании анализа признаков первого подмножества из множества фрагментов, при этом формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.
3. Способ по п. 2 отличающийся тем, что характеристикой документа является ориентация документа.
4. Способ по п. 2, дополнительно включающий в себя:
определение второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;
повторный анализ признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.
5. Способ по п. 1, дополнительно включающий в себя:
распознавание подмножества фрагментов в каждой из четырех ориентаций;
вычисление уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;
определение для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и
определение ориентации изображения документа на основе подсчета голосов.
6. Способ по п. 1, отличающийся тем, что для формулировки гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов используется байесовская сеть.
7. Способ по п. 1, отличающийся тем, что для формулировки гипотезы о принадлежности языку для фрагмента используется определение признаков фрагмента, причем эти признаки основаны на информации о растровых и геометрических свойствах фрагмента.
8. Способ по п. 7, отличающийся тем, что признаки фрагмента содержат, как минимум, натуральный логарифм отношения ширины фрагмента к его высоте; количество горизонтальных штрихов, разделенное на высоту; количество вертикальных штрихов, разделенное на ширину; длину самого длинного горизонтального штриха, разделенную на высоту; и длину самого длинного вертикального штриха.
9. Способ по п. 1, в котором фрагмент содержит одно из следующего: один символ, два или более склеенных символов, часть одного символа, один символ и часть второго символа.
10. Способ по п. 5, в котором каждый голос для первой ориентации дополнительно проверяется на наличие европейского символа в любой ориентации.
11. Система, включающая в себя:
один или более процессоров, сконфигурированных для:
получения изображения документа;
бинаризации изображения документа;
поиска связных компонент на бинаризованном изображении документа;
выявления множества фрагментов на основе связных компонент;
определения гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов, причем гипотеза о принадлежности языку имеет оценку вероятности;
выбора подмножества фрагментов из множества фрагментов, имеющих высокую оценку достоверности;
проверки гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов и
определения наличия китайских, японских и корейских (CJK) символов на полученном изображении документа на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.
12. Система по п. 11, в которой один или более процессоров дополнительно сконфигурирован для:
анализа признаков первого подмножества из множества фрагментов и
определения характеристики документа на основе анализируемых признаков первого подмножества из множества фрагментов, в котором формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.
13. Система по п. 12, в которой характеристикой документа является ориентация документа.
14. Система по п. 12, в которой один или более процессоров дополнительно сконфигурированы для:
определения второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;
повторного анализа признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.
15. Система по п. 11, отличающийся тем, что один или несколько дополнительных процессоров сконфигурированы для:
распознавания подмножества фрагментов в каждой из четырех ориентаций;
вычисления уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;
определения для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и
определения ориентации изображения документа на основе подсчета голосов.
16. Энергонезависимый машиночитаемый носитель, в котором имеются команды, причем эти команды включают в себя:
команды для получения изображения документа;
команды для бинаризации изображения документа;
команды для поиска связной компоненты на бинаризованном изображении документа;
команды по выявлению множества фрагментов на основе связных компонент;
команды для определения гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов, в котором гипотеза о принадлежности языку имеет оценку вероятности;
команды для выбора подмножества фрагментов из множества фрагментов, имеющих наивысшие оценки достоверности;
команды по проверке гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов, а также
команды для определения присутствия китайских, японских и корейских (CJK) символов на полученном изображении документа на основании, по меньшей мере, проверки языковой гипотезы для подмножества фрагментов.
17. Энергонезависимый машиночитаемый носитель по п. 16, команды на котором дополнительно включают в себя:
команды для анализа признаков первого подмножества из множества фрагментов, а также
команды для определения характеристики документа на основании анализируемых признаков первого подмножества из множества фрагментов, в котором формулировка гипотезы о принадлежности языку для каждого фрагмента частично основано на характеристике документа.
18. Энергонезависимый машиночитаемый носитель по п. 17, в котором характеристикой документа является ориентация документа.
19. Энергонезависимый машиночитаемый носитель по п. 17, команды на котором дополнительно включают в себя:
команды для определения второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;
команды для повторного анализа признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.
20. Энергонезависимый машиночитаемый носитель по п. 17, команды на котором дополнительно включают в себя:
команды для распознания подмножества фрагментов в каждой из четырех ориентаций;
команды для вычисления уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;
команды для определения для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и
команды для определения ориентации изображения документа на основе подсчета голосов.
RU2013156781A 2013-12-20 2013-12-20 Выявление китайской, японской и корейской письменности RU2613847C2 (ru)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2013156781A RU2613847C2 (ru) 2013-12-20 2013-12-20 Выявление китайской, японской и корейской письменности
US14/561,851 US9378414B2 (en) 2013-12-20 2014-12-05 Chinese, Japanese, or Korean language detection
US15/193,058 US9811726B2 (en) 2013-12-20 2016-06-26 Chinese, Japanese, or Korean language detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013156781A RU2613847C2 (ru) 2013-12-20 2013-12-20 Выявление китайской, японской и корейской письменности

Publications (2)

Publication Number Publication Date
RU2013156781A true RU2013156781A (ru) 2015-06-27
RU2613847C2 RU2613847C2 (ru) 2017-03-21

Family

ID=53400368

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013156781A RU2613847C2 (ru) 2013-12-20 2013-12-20 Выявление китайской, японской и корейской письменности

Country Status (2)

Country Link
US (2) US9378414B2 (ru)
RU (1) RU2613847C2 (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6655331B2 (ja) * 2015-09-24 2020-02-26 Dynabook株式会社 電子機器及び方法
CN105469047B (zh) * 2015-11-23 2019-02-22 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统
US11995400B2 (en) 2021-09-07 2024-05-28 International Business Machines Corporation Rapid language detection for characters in images of documents
US12061675B1 (en) * 2021-10-07 2024-08-13 Cognistic, LLC Document clustering based upon document structure

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4950167A (en) 1989-10-19 1990-08-21 Jewish Employment And Vocational Service Visual detail perception test kit and methods of use
US5425110A (en) 1993-04-19 1995-06-13 Xerox Corporation Method and apparatus for automatic language determination of Asian language documents
BR9609099A (pt) 1995-06-07 1999-02-02 Elcor Corp Processo e dispositivo para a separação de um fluxo de gás
US6137905A (en) * 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JPH10177623A (ja) * 1996-12-16 1998-06-30 Ricoh Co Ltd 文書認識装置および言語処理装置
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6005986A (en) 1997-12-03 1999-12-21 The United States Of America As Represented By The National Security Agency Method of identifying the script of a document irrespective of orientation
US6512522B1 (en) 1999-04-15 2003-01-28 Avid Technology, Inc. Animation of three-dimensional characters along a path for motion video sequences
US6657625B1 (en) 1999-06-09 2003-12-02 Microsoft Corporation System and method of caching glyphs for display by a remote terminal
US6661417B1 (en) 2000-08-28 2003-12-09 Dynalab Inc. System and method for converting an outline font into a glyph-based font
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US7027054B1 (en) 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method
US7106905B2 (en) 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
TWI332635B (en) 2007-01-05 2010-11-01 Compal Electronics Inc Method for determing oriention of chinese words
US8027539B2 (en) 2008-01-11 2011-09-27 Sharp Laboratories Of America, Inc. Method and apparatus for determining an orientation of a document including Korean characters
KR100921689B1 (ko) * 2008-05-08 2009-10-15 엔에이치엔(주) 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체
US8787690B2 (en) 2008-11-12 2014-07-22 Abbyy Development Llc Binarizing an image
US20110043528A1 (en) 2009-08-24 2011-02-24 Apple Inc. Cache management for glyph display
US8965129B2 (en) * 2013-03-15 2015-02-24 Translate Abroad, Inc. Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices

Also Published As

Publication number Publication date
US9378414B2 (en) 2016-06-28
US20150178559A1 (en) 2015-06-25
US9811726B2 (en) 2017-11-07
RU2613847C2 (ru) 2017-03-21
US20160307033A1 (en) 2016-10-20

Similar Documents

Publication Publication Date Title
AU2015318386B2 (en) Intelligent scoring method and system for text objective question
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
US11455344B2 (en) Computer implemented system and method for geographic subject extraction for short text
RU2016110434A (ru) Способ и устройство для идентификации области
RU2016113791A (ru) Способ и устройство для построения шаблона и способ и устройство для идентификации информации
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
US20090132477A1 (en) Methods of object search and recognition.
RU2013156781A (ru) Выявление китайской, японской и корейской письменности
CN108874889B (zh) 基于目标体图像的目标体检索方法、系统及装置
US11005843B1 (en) System and means for detecting automated programs used to generate social media input
US20220301334A1 (en) Table generating method and apparatus, electronic device, storage medium and product
Papandreou et al. ICDAR 2013 document image skew estimation contest (DISEC 2013)
NZ589039A (en) Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value
US9330086B2 (en) Method and apparatus for identifying a language used in a document and performing OCR recognition based on the language identified
RU2016137529A (ru) Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка
CN106156002A (zh) 分词词库的选择方法和系统
Daas et al. Profiling of Twitter users: a big data selectivity study
JP5958453B2 (ja) 無線局識別装置、無線局識別方法および無線局識別プログラム
CN107016316B (zh) 一种条形码的识别方法和装置
US11386340B2 (en) Method and apparatus for performing block retrieval on block to be processed of urine sediment image
CN105630807B (zh) 一种未知道路与已知道路关联关系的分析方法和装置
CN104572767A (zh) 一种站点语种分类的方法和系统
Álvaro et al. An image-based measure for evaluation of mathematical expression recognition
CN102855291A (zh) 一种向输入法词库中添加词条的方法及装置
JP5806974B2 (ja) 近隣情報検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
QZ41 Official registration of changes to a registered agreement (patent)

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20171031

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20151118

Effective date: 20180710

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20181121

QB4A Licence on use of patent

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20201211

QC41 Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right

Free format text: LICENCE FORMERLY AGREED ON 20201211

Effective date: 20220311