RU2013156781A - Выявление китайской, японской и корейской письменности - Google Patents
Выявление китайской, японской и корейской письменности Download PDFInfo
- Publication number
- RU2013156781A RU2013156781A RU2013156781/08A RU2013156781A RU2013156781A RU 2013156781 A RU2013156781 A RU 2013156781A RU 2013156781/08 A RU2013156781/08 A RU 2013156781/08A RU 2013156781 A RU2013156781 A RU 2013156781A RU 2013156781 A RU2013156781 A RU 2013156781A
- Authority
- RU
- Russia
- Prior art keywords
- fragments
- document
- subset
- hypothesis
- language
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2445—Alphabet recognition, e.g. Latin, Kanji or Katakana
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/246—Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
Abstract
1. Способ определения того, что текст содержит символы китайского, японского или корейского языка, включающий в себя:получение изображения документа;бинаризацию изображения документа;поиск связных компонент на бинаризованном изображении документа;выявление множества фрагментов на основе связных компонент;формулировку для каждого фрагмента из множества фрагментов гипотезы о принадлежности языку с оценкой вероятности этой гипотезы;выбор из множества фрагментов подмножества фрагментов, имеющих наивысшие оценки вероятности;проверку, с использованием процессора, гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов; иопределение с помощью процессора наличия китайских, японских и корейских (CJK) символов на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.2. Способ по п. 1, дополнительно включающий в себя:анализ признаков первого подмножества из множества фрагментов иопределение характеристики документа на основании анализа признаков первого подмножества из множества фрагментов, при этом формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.3. Способ по п. 2 отличающийся тем, что характеристикой документа является ориентация документа.4. Способ по п. 2, дополнительно включающий в себя:определение второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;повторный анализ признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик докуме�
Claims (20)
1. Способ определения того, что текст содержит символы китайского, японского или корейского языка, включающий в себя:
получение изображения документа;
бинаризацию изображения документа;
поиск связных компонент на бинаризованном изображении документа;
выявление множества фрагментов на основе связных компонент;
формулировку для каждого фрагмента из множества фрагментов гипотезы о принадлежности языку с оценкой вероятности этой гипотезы;
выбор из множества фрагментов подмножества фрагментов, имеющих наивысшие оценки вероятности;
проверку, с использованием процессора, гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов; и
определение с помощью процессора наличия китайских, японских и корейских (CJK) символов на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.
2. Способ по п. 1, дополнительно включающий в себя:
анализ признаков первого подмножества из множества фрагментов и
определение характеристики документа на основании анализа признаков первого подмножества из множества фрагментов, при этом формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.
3. Способ по п. 2 отличающийся тем, что характеристикой документа является ориентация документа.
4. Способ по п. 2, дополнительно включающий в себя:
определение второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;
повторный анализ признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.
5. Способ по п. 1, дополнительно включающий в себя:
распознавание подмножества фрагментов в каждой из четырех ориентаций;
вычисление уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;
определение для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и
определение ориентации изображения документа на основе подсчета голосов.
6. Способ по п. 1, отличающийся тем, что для формулировки гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов используется байесовская сеть.
7. Способ по п. 1, отличающийся тем, что для формулировки гипотезы о принадлежности языку для фрагмента используется определение признаков фрагмента, причем эти признаки основаны на информации о растровых и геометрических свойствах фрагмента.
8. Способ по п. 7, отличающийся тем, что признаки фрагмента содержат, как минимум, натуральный логарифм отношения ширины фрагмента к его высоте; количество горизонтальных штрихов, разделенное на высоту; количество вертикальных штрихов, разделенное на ширину; длину самого длинного горизонтального штриха, разделенную на высоту; и длину самого длинного вертикального штриха.
9. Способ по п. 1, в котором фрагмент содержит одно из следующего: один символ, два или более склеенных символов, часть одного символа, один символ и часть второго символа.
10. Способ по п. 5, в котором каждый голос для первой ориентации дополнительно проверяется на наличие европейского символа в любой ориентации.
11. Система, включающая в себя:
один или более процессоров, сконфигурированных для:
получения изображения документа;
бинаризации изображения документа;
поиска связных компонент на бинаризованном изображении документа;
выявления множества фрагментов на основе связных компонент;
определения гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов, причем гипотеза о принадлежности языку имеет оценку вероятности;
выбора подмножества фрагментов из множества фрагментов, имеющих высокую оценку достоверности;
проверки гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов и
определения наличия китайских, японских и корейских (CJK) символов на полученном изображении документа на основании, по меньшей мере, проверки гипотезы о принадлежности языку для подмножества фрагментов.
12. Система по п. 11, в которой один или более процессоров дополнительно сконфигурирован для:
анализа признаков первого подмножества из множества фрагментов и
определения характеристики документа на основе анализируемых признаков первого подмножества из множества фрагментов, в котором формулировка гипотезы о принадлежности языку для каждого фрагмента частично основывается на характеристике документа.
13. Система по п. 12, в которой характеристикой документа является ориентация документа.
14. Система по п. 12, в которой один или более процессоров дополнительно сконфигурированы для:
определения второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;
повторного анализа признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.
15. Система по п. 11, отличающийся тем, что один или несколько дополнительных процессоров сконфигурированы для:
распознавания подмножества фрагментов в каждой из четырех ориентаций;
вычисления уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;
определения для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и
определения ориентации изображения документа на основе подсчета голосов.
16. Энергонезависимый машиночитаемый носитель, в котором имеются команды, причем эти команды включают в себя:
команды для получения изображения документа;
команды для бинаризации изображения документа;
команды для поиска связной компоненты на бинаризованном изображении документа;
команды по выявлению множества фрагментов на основе связных компонент;
команды для определения гипотезы о принадлежности языку для каждого фрагмента из множества фрагментов, в котором гипотеза о принадлежности языку имеет оценку вероятности;
команды для выбора подмножества фрагментов из множества фрагментов, имеющих наивысшие оценки достоверности;
команды по проверке гипотезы о принадлежности языку для каждого фрагмента в подмножестве фрагментов, а также
команды для определения присутствия китайских, японских и корейских (CJK) символов на полученном изображении документа на основании, по меньшей мере, проверки языковой гипотезы для подмножества фрагментов.
17. Энергонезависимый машиночитаемый носитель по п. 16, команды на котором дополнительно включают в себя:
команды для анализа признаков первого подмножества из множества фрагментов, а также
команды для определения характеристики документа на основании анализируемых признаков первого подмножества из множества фрагментов, в котором формулировка гипотезы о принадлежности языку для каждого фрагмента частично основано на характеристике документа.
18. Энергонезависимый машиночитаемый носитель по п. 17, в котором характеристикой документа является ориентация документа.
19. Энергонезависимый машиночитаемый носитель по п. 17, команды на котором дополнительно включают в себя:
команды для определения второго, другого значения характеристики документа на основе анализа признаков второго, другого подмножества из множества фрагментов;
команды для повторного анализа признаков первого подмножества из множества фрагментов с использованием второго, другого значения характеристик документа.
20. Энергонезависимый машиночитаемый носитель по п. 17, команды на котором дополнительно включают в себя:
команды для распознания подмножества фрагментов в каждой из четырех ориентаций;
команды для вычисления уверенности распознавания каждого из выбранного подмножества фрагментов в каждой из четырех ориентаций;
команды для определения для каждого из подмножества фрагментов «голоса» за ту или иную ориентацию исходя из вычисленного уровня уверенности и
команды для определения ориентации изображения документа на основе подсчета голосов.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013156781A RU2613847C2 (ru) | 2013-12-20 | 2013-12-20 | Выявление китайской, японской и корейской письменности |
US14/561,851 US9378414B2 (en) | 2013-12-20 | 2014-12-05 | Chinese, Japanese, or Korean language detection |
US15/193,058 US9811726B2 (en) | 2013-12-20 | 2016-06-26 | Chinese, Japanese, or Korean language detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013156781A RU2613847C2 (ru) | 2013-12-20 | 2013-12-20 | Выявление китайской, японской и корейской письменности |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013156781A true RU2013156781A (ru) | 2015-06-27 |
RU2613847C2 RU2613847C2 (ru) | 2017-03-21 |
Family
ID=53400368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013156781A RU2613847C2 (ru) | 2013-12-20 | 2013-12-20 | Выявление китайской, японской и корейской письменности |
Country Status (2)
Country | Link |
---|---|
US (2) | US9378414B2 (ru) |
RU (1) | RU2613847C2 (ru) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6655331B2 (ja) * | 2015-09-24 | 2020-02-26 | Dynabook株式会社 | 電子機器及び方法 |
CN105469047B (zh) * | 2015-11-23 | 2019-02-22 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及系统 |
US11995400B2 (en) | 2021-09-07 | 2024-05-28 | International Business Machines Corporation | Rapid language detection for characters in images of documents |
US12061675B1 (en) * | 2021-10-07 | 2024-08-13 | Cognistic, LLC | Document clustering based upon document structure |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4950167A (en) | 1989-10-19 | 1990-08-21 | Jewish Employment And Vocational Service | Visual detail perception test kit and methods of use |
US5425110A (en) | 1993-04-19 | 1995-06-13 | Xerox Corporation | Method and apparatus for automatic language determination of Asian language documents |
BR9609099A (pt) | 1995-06-07 | 1999-02-02 | Elcor Corp | Processo e dispositivo para a separação de um fluxo de gás |
US6137905A (en) * | 1995-08-31 | 2000-10-24 | Canon Kabushiki Kaisha | System for discriminating document orientation |
JP2973944B2 (ja) * | 1996-06-26 | 1999-11-08 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
JPH10177623A (ja) * | 1996-12-16 | 1998-06-30 | Ricoh Co Ltd | 文書認識装置および言語処理装置 |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
US6005986A (en) | 1997-12-03 | 1999-12-21 | The United States Of America As Represented By The National Security Agency | Method of identifying the script of a document irrespective of orientation |
US6512522B1 (en) | 1999-04-15 | 2003-01-28 | Avid Technology, Inc. | Animation of three-dimensional characters along a path for motion video sequences |
US6657625B1 (en) | 1999-06-09 | 2003-12-02 | Microsoft Corporation | System and method of caching glyphs for display by a remote terminal |
US6661417B1 (en) | 2000-08-28 | 2003-12-09 | Dynalab Inc. | System and method for converting an outline font into a glyph-based font |
RU2251737C2 (ru) * | 2002-10-18 | 2005-05-10 | Аби Софтвер Лтд. | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании |
US7027054B1 (en) | 2002-08-14 | 2006-04-11 | Avaworks, Incorporated | Do-it-yourself photo realistic talking head creation system and method |
US7106905B2 (en) | 2002-08-23 | 2006-09-12 | Hewlett-Packard Development Company, L.P. | Systems and methods for processing text-based electronic documents |
US7508984B2 (en) * | 2003-07-31 | 2009-03-24 | Ricoh Company, Ltd. | Language recognition method, system and software |
TWI332635B (en) | 2007-01-05 | 2010-11-01 | Compal Electronics Inc | Method for determing oriention of chinese words |
US8027539B2 (en) | 2008-01-11 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Method and apparatus for determining an orientation of a document including Korean characters |
KR100921689B1 (ko) * | 2008-05-08 | 2009-10-15 | 엔에이치엔(주) | 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체 |
US8787690B2 (en) | 2008-11-12 | 2014-07-22 | Abbyy Development Llc | Binarizing an image |
US20110043528A1 (en) | 2009-08-24 | 2011-02-24 | Apple Inc. | Cache management for glyph display |
US8965129B2 (en) * | 2013-03-15 | 2015-02-24 | Translate Abroad, Inc. | Systems and methods for determining and displaying multi-line foreign language translations in real time on mobile devices |
-
2013
- 2013-12-20 RU RU2013156781A patent/RU2613847C2/ru active
-
2014
- 2014-12-05 US US14/561,851 patent/US9378414B2/en not_active Expired - Fee Related
-
2016
- 2016-06-26 US US15/193,058 patent/US9811726B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US9378414B2 (en) | 2016-06-28 |
US20150178559A1 (en) | 2015-06-25 |
US9811726B2 (en) | 2017-11-07 |
RU2613847C2 (ru) | 2017-03-21 |
US20160307033A1 (en) | 2016-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2015318386B2 (en) | Intelligent scoring method and system for text objective question | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
US11455344B2 (en) | Computer implemented system and method for geographic subject extraction for short text | |
RU2016110434A (ru) | Способ и устройство для идентификации области | |
RU2016113791A (ru) | Способ и устройство для построения шаблона и способ и устройство для идентификации информации | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
US20090132477A1 (en) | Methods of object search and recognition. | |
RU2013156781A (ru) | Выявление китайской, японской и корейской письменности | |
CN108874889B (zh) | 基于目标体图像的目标体检索方法、系统及装置 | |
US11005843B1 (en) | System and means for detecting automated programs used to generate social media input | |
US20220301334A1 (en) | Table generating method and apparatus, electronic device, storage medium and product | |
Papandreou et al. | ICDAR 2013 document image skew estimation contest (DISEC 2013) | |
NZ589039A (en) | Recognition of a word image with a plurality of characters by way of comparing two possible candidates based on an evaluation value | |
US9330086B2 (en) | Method and apparatus for identifying a language used in a document and performing OCR recognition based on the language identified | |
RU2016137529A (ru) | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка | |
CN106156002A (zh) | 分词词库的选择方法和系统 | |
Daas et al. | Profiling of Twitter users: a big data selectivity study | |
JP5958453B2 (ja) | 無線局識別装置、無線局識別方法および無線局識別プログラム | |
CN107016316B (zh) | 一种条形码的识别方法和装置 | |
US11386340B2 (en) | Method and apparatus for performing block retrieval on block to be processed of urine sediment image | |
CN105630807B (zh) | 一种未知道路与已知道路关联关系的分析方法和装置 | |
CN104572767A (zh) | 一种站点语种分类的方法和系统 | |
Álvaro et al. | An image-based measure for evaluation of mathematical expression recognition | |
CN102855291A (zh) | 一种向输入法词库中添加词条的方法及装置 | |
JP5806974B2 (ja) | 近隣情報検索装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
QZ41 | Official registration of changes to a registered agreement (patent) |
Free format text: LICENCE FORMERLY AGREED ON 20151118 Effective date: 20171031 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20151118 Effective date: 20180710 |
|
PC43 | Official registration of the transfer of the exclusive right without contract for inventions |
Effective date: 20181121 |
|
QB4A | Licence on use of patent |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20201211 |
|
QC41 | Official registration of the termination of the licence agreement or other agreements on the disposal of an exclusive right |
Free format text: LICENCE FORMERLY AGREED ON 20201211 Effective date: 20220311 |