KR20170137285A - 판독/입력 오류 단어 정정 장치 및 방법 - Google Patents
판독/입력 오류 단어 정정 장치 및 방법 Download PDFInfo
- Publication number
- KR20170137285A KR20170137285A KR1020160069179A KR20160069179A KR20170137285A KR 20170137285 A KR20170137285 A KR 20170137285A KR 1020160069179 A KR1020160069179 A KR 1020160069179A KR 20160069179 A KR20160069179 A KR 20160069179A KR 20170137285 A KR20170137285 A KR 20170137285A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- syllables
- syllable
- database
- recognized
- Prior art date
Links
Images
Classifications
-
- G06F17/273—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G06F17/30663—
-
- G06F17/30861—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K19/00—Record carriers for use with machines and with at least a part designed to carry digital markings
- G06K19/06—Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code
- G06K19/06009—Record carriers for use with machines and with at least a part designed to carry digital markings characterised by the kind of the digital marking, e.g. shape, nature, code with optically detectable marking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
판독/입력 오류 단어 정정 장치 및 방법이 개시된다. 단어를 인식하는 인식 모듈; 단어가 미리 저장되는 데이터베이스(database); 상기 인식 모듈에서 인식된 단어를 상기 데이터베이스에 저장된 단어 중에서 검색하여 출력하며, 상기 데이터베이스에서 검색이 되지 않는 경우에는 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 검색 모듈을 구성한다. 상술한 판독/입력 오류 단어 정정 장치 및 방법에 의하면, OCR의 판독 오류나 웹 브라우저 검색창의 오타 입력이 발생한 경우, 제대로 인식된 음절들의 상호 조합(combination)에 의해 단어를 DB(database)에서 검색하도록 구성됨으로써, 검색어 가운데 OCR 판독 오류된 음절이 있거나 오타 입력된 음절이 있더라도 정확하게 검색어를 찾아내어 사용자에게 제공할 수 있는 효과가 있다. 특히, 포인트 적립이나 경품 추첨 참여를 위해 영수증을 OCR 판독하여 상품명을 인식하고자 하는 경우, 판독 오류가 나더라도 영수증에 기재된 상품명 등을 졍확하게 인식하고 처리할 수 있는 효과가 있다.
Description
본 발명은 판독/입력 오류 단어 정정 장치 및 방법에 관한 것으로서, 구체적으로는 OCR(Optical Character Recongtion)에 의해 잘못 인식된 단어나 검색창을 통해 잘못 입력되는 단어를 자동으로 정정하는 장치 및 방법에 관한 것이다.
최근의 웹 검색 엔진(web search engine)은 검색어 자동 완성 기능을 제공하고 있다. 검색어 자동 완성 기능은 주로 검색어로서 입력되는 단어들을 데이터베이스화하여 검색어 자동 완성 기능을 구현하고 있다.
등록특허공보 10-1132469는 이러한 검색어 자동 완성 기능의 대표적인 예를 개시하고 있다.
그러나, 검색어 입력시 오타가 많이 나는 경우에는 검색어 자동 완성에 한계가 있으며 제대로 검색하지 못하는 경우가 많다.
한편, OCR(Optical Character Recognition) 인식에 의해 단어를 판독하는 경우에는 판독(reading)하는 단어의 음절들에 판독 오류가 발생하는 경우가 있다.
OCR 인식 단어를 검색하고자 하는 경우에도 검색창의 오타처럼 판독 오류에 의해 검색이 되지 못하는 경우도 있다.
이처럼 입력 오타 오류나 OCR 판독 오류에 의해서 검색 기능에 제한을 받을 수 있으며, 검색어를 자동으로 정정하여 검색할 수 있는 방안은 실질적으로 없다고 볼 수 있다.
이에, 단어 중간의 음절들이 오타 입력되거나 판독 오류가 발생할 때 자동으로 검색어를 정정하여 완성시켜주는 기능이 요구된다.
본 발명의 목적은 판독/입력 오류 단어 정정 장치를 제공하는 데 있다.
본 발명의 다른 목적은 판독/입력 오류 단어 정정 방법을 제공하는 데 있다.
상술한 본 발명의 목적에 따른 판독/입력 오류 단어 정정 장치는, 단어를 인식하는 인식 모듈; 단어가 미리 저장되는 데이터베이스(database); 상기 인식 모듈에서 인식된 단어를 상기 데이터베이스에 저장된 단어 중에서 검색하여 출력하며, 상기 데이터베이스에서 검색이 되지 않는 경우에는 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 검색 모듈을 포함하도록 구성될 수 있다.
여기서, 상기 nCr은, n개의 음절 중에서 r개의 음절을 선택한 조합을 의미하고, 상기 n은, 상기 인식 모듈에서 인식된 단어의 음절 개수를 의미하고, 상기 r은, 1보다 크고 n이하인 정수로 구성될 수 있다.
그리고 상기 인식 모듈은, 웹 브라우저(web browser)의 검색창을 통해 입력되는 단어 또는 OCR(Optical Character Recognition)에 의해 판독되는 단어를 인식하도록 구성될 수 있다.
그리고 상기 검색 모듈은, 상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성될 수 있다.
한편, 상기 검색 모듈은, 상기 단어에 한글 음절이 포함된 경우 상기 포함된 한글 음절 중에서 적어도 둘 이상의 음절을 조합한 음절들을 모두 포함하는 단어 또는 어느 하나의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성될 수 있다.
그리고 상기 검색 모듈은, 상기 단어에 알파벳 또는 숫자가 포함된 경우 상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성될 수 있다.
상술한 본 발명의 다른 목적에 따른 판독/입력 오류 단어 정정 방법은, 인식 모듈이 단어를 인식하는 단계; 검색 모듈이 상기 인식 모듈에서 인식된 단어를 상기 데이터베이스에 저장된 단어 중에서 검색하는 단계; 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에 미리 저장되어 있는 경우, 상기 검색 모듈이 상기 검색된 단어를 출력하는 단계; 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계를 포함하도록 구성될 수 있다.
여기서, 상기 nCr은, n개의 음절 중에서 r개의 음절을 선택한 조합을 의미하고, 상기 n은, 상기 인식 모듈에서 인식된 단어의 음절 개수를 의미하고, 상기 r은, 1보다 크고 n이하인 정수로 구성될 수 있다.
그리고 상기 인식 모듈이 단어를 인식하는 단계는, OCR(Optical Character Recognition)에 의해 판독되는 단어 또는 웹 브라우저(web browser)의 검색창을 통해 입력되는 단어를 인식하도록 구성될 수 있다.
그리고 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계는, 상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성될 수 있다.
한편, 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계는, 상기 단어에 한글 음절이 포함된 경우 상기 포함된 한글 음절 중에서 적어도 둘 이상의 음절을 조합한 음절들을 모두 포함하는 단어 또는 어느 하나의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성될 수 있다.
그리고 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계는, 상기 단어에 알파벳 또는 숫자가 포함된 경우 상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성될 수 있다.
상술한 판독/입력 오류 단어 정정 장치 및 방법에 의하면, OCR의 판독 오류나 웹 브라우저 검색창의 오타 입력이 발생한 경우, 제대로 인식된 음절들의 상호 조합(combination)에 의해 단어를 DB(database)에서 검색하도록 구성됨으로써, 검색어 가운데 OCR 판독 오류된 음절이 있거나 오타 입력된 음절이 있더라도 정확하게 검색어를 찾아내어 사용자에게 제공할 수 있는 효과가 있다.
특히, 포인트 적립이나 경품 추첨 참여를 위해 영수증을 OCR 판독하여 상품명을 인식하고자 하는 경우, 판독 오류가 나더라도 영수증에 기재된 상품명 등을 졍확하게 인식하고 처리할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 판독/입력 오류 단어 정정 장치의 블록 구성도이다.
도 2는 본 발명에 따른 판독/입력 오류 단어의 조합에 대한 예시도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 판독/입력 오류 단어 정정 방법의 흐름도이다.
도 2는 본 발명에 따른 판독/입력 오류 단어의 조합에 대한 예시도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 판독/입력 오류 단어 정정 방법의 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 발명을 실시하기 위한 구체적인 내용에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 판독/입력 오류 단어 정정 장치의 블록 구성도이고, 도 2는 본 발명에 따른 판독/입력 오류 단어의 조합에 대한 예시도이다.
먼저 도 1을 참조하면, 본 발명의 일 실시예에 따른 판독/입력 오류 단어 정정 장치(100)는 입력 모듈(110), 인식 모듈(120), 데이터베이스(database)(130) 및 검색 모듈(140)을 포함하도록 구성될 수 있다.
판독/입력 오류 단어 정정 장치(100)는 웹 브라우저(web browser)의 검색어 입력창을 통해 입력되는 검색어의 오타 입력이라든가 OCR(Optical Character Recognition) 판독 오류에 의한 단어의 오류에 의해 발생되는 검색어 오류를 자동으로 정정하여 완성시켜 주도록 구성된다.
판독/입력 오류 단어 정정 장치(100)는 오타 입력된 음절이나 판독 오류가 난 음절을 무시하고 나머지 제대로 입력되거나 판독된 음절을 이용하여 데이터베이스(130)에 미리 저장된 단어들과 대비하여 사용자가 원하는 검색어를 자동으로 정정하여 주도록 구성된다.
이하, 세부적인 구성에 대하여 설명한다.
입력 모듈(110)은 단어를 입력받도록 구성될 수 있다.
입력 모듈(110)은 종이 문서의 문자나 숫자를 판독하는 OCR 인식기(10)가 될 수 있고 검색어 입력창이 구비된 웹 브라우저(web browser)(20)가 될 수도 있다.
인식 모듈(120)은 입력 모듈(110)에 의해 판독되거나 입력된 단어를 인식하도록 구성될 수 있다.
인식 모듈(120)은 판독되거나 입력된 단어가 어떠한 단어인지 인식하는 구성으로서, ASCII 코드 등의 문자 변환 코드를 이용하여 인식하도록 구성될 수 있다. 즉, 입력된 단어나 판독된 단어가 'apple'이라면 각각 a, p, p, l, e의 ASCII 코드를 순서대로 인식하게 된다.
데이터베이스(130)는 단어가 미리 저장되도록 구성될 수 있다.
데이터베이스(130)에는 검색의 대상이 되는 단어들이 미리 저장될 수 있다.
예를 들어, 상품에 대한 검색어를 입력받는 경우라면 상품명이 데이터베이스(130)에 미리 저장되도록 구성될 수 있다.
이러한 데이터베이스(130)는 특정 용도에 의해 미리 해당 용도의 단어들이 저장되도록 구성되는 것이 바람직하다.
다른 예로서는 지명이 될 수도 있고, 요리명, 기업명 등이 될 수도 있으며, 그 용도에 따라 다양한 카테고리의 단어들로 구성될 수 있다.
검색 모듈(140)은 인식 모듈(120)에서 인식된 단어를 데이터베이스(130)에 저장된 단어 중에서 검색하여 출력 내지는 디스플레이하도록 구성될 수 있다.
입력 모듈(110)에 의해 정상적으로 단어가 입력되고 인식 모듈(120)에서도 정상적으로 단어가 인식된 경우에는 검색 모듈(140)이 그 단어를 데이터베이스(130)에서 검색하여 그대로 출력하면 된다.
그러나, 인식 모듈(120)에 의해 인식된 단어에 판독 오류나 오타 오류가 존재하여 데이터베이스(130)에 저장된 단어 중에서 검색되지 않는 경우에는 검색 모듈(140)은 해당 단어를 데이터베이스(130)에서 찾아서 정정해주도록 구성될 수 있다.
인식된 단어는 여러 음절들로 구성되는데, 모든 음절에 오류가 발생한 것이 아니라면, 정상적으로 인식된 음절들을 이용하여 데이터베이스(130)에서 해당 단어를 검색하도록 구성될 수 있다.
즉, 검색 모듈(140)은 앞서 인식된 단어가 데이터베이스(130)에서 검색이 되지 않더라도, 인식된 단어 중에는 판독 오류나 오타 오류가 발생하지 않고 정상적으로 판단되거나 입력된 음절들이 있을 수 있으며, 이러한 음절들을 이용하여 단어를 데이터베이스(130)에서 정확하게 검색해 낼 수 있다.
예를 들어 도 2를 참조하면, 마트(mart)의 구매 영수증을 OCR 판독하여 상품명을 검색하는 예를 도시하고 있다.
도 2에서는 영수증상의 단어가 "농심신라면매운맛250g"이라고 가정할 때, OCR 판독에 의해 "렁심신나맨메운맛258h"라고 판독 오류가 날 수 있다. 판독 오류가 나더라도 모든 음절에서 판독 오류가 나지 않고 일부 음절에서는 제대로 판독이 될 수 있다. 위의 예에서는 '심', '신', '운', '맛', '2', '5'의 여섯 음절이 제대로 판독된 것을 나타낸다.
검색 모듈(140)은 기본적으로 "렁심신나맨메운맛258h"의 12자에 대한 조합(combination) 연산을 수행하여 이와 일치하는 단어를 데이터베이스(130)에서 검색할 수 있다.
예를 들어, 12C12 부터 12C11, 12C10,..., 12C1까지 모든 음절의 조합 구성에 대해 데이터베이스(130)에 일치하는 조합 구성을 갖는 단어가 있는지 검색하도록 구성될 수 있다.
즉, 검색 모듈(140)은 데이터베이스(130)에서 단어가 검색되지 않는 경우, 인식 모듈(110)에서 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(12C12 부터 12C11, 12C10,..., 12C1)한 음절들을 모두 포함하는 단어 또는 어느 하나(2C1)의 음절을 포함하는 단어를 데이터베이스(130)에서 다시 검색하여 출력하도록 구성될 수 있다.
이때, nCr은 n개의 음절 중에서 r개의 음절을 선택한 조합을 의미하고, n은 인식 모듈(120)에서 인식된 단어의 음절 개수를 의미하고, r은 1보다 크고 n이하인 정수로 구성될 수 있다.
검색 모듈(140)은 어느 음절이 정확하게 판독되거나 입력되었는지 알 수 없더라도 음절들의 모든 조합에 대해 그 조합을 포함하는 단어를 검색하기 때문에 어느 음절이 정확하게 판독되었거나 입력되었는지 알 필요는 없다.
그리고 조합 음절의 수가 많은 경우, 예를 들어, 12C3보다는 12C9가 더 검색 정확도가 높다고 볼 수 있다. 이에, 검색 모듈(140)은 이러한 검색 조건을 설정하여 단어를 검색하고 채택하도록 구성될 수 있다. 검색 모듈(140)은 검색된 단어가 여러 개인 경우 위 검색 조건을 고려하여 검색된 단어의 정확도에 대한 확률을 계산하여 표시하도록 구성될 수 있다.
이러한 조합 연산(combination)보다 더 정확하게는 조합 연산에 의한 음절들에 대해 판독/입력 오류 단어의 음절들 간의 순서를 유지시켜주는 조건에 따라 검색을 하도록 구성될 수 있다.
즉, 검색 모듈(140)은 적어도 둘 이상의 음절이 조합된 음절들에서 판독/입력 오류 단어의 음절의 순서가 유지되도록 음절들을 조합한 음절들을 포함하는 단어를 데이터베이스(130)에서 검색하여 출력하도록 구성될 수 있다.
검색 대상이 되는 정확한 단어가 데이터베이스(130) 상에 띄어쓰기가 되어 있는지의 여부는 검색 모듈(140)에서 고려할 필요가 없다.
한글의 경우에는 조합 음절에서 그 음절들의 판독 순서가 정확하게 유지되지 않더라도 쉽게 단어를 검색해 낼 수 있다. 예를 들어, "렁심신나맨메운맛258h"에서 12C6에 의해 '심', '신', '운', '맛', '2', '5'의 여섯 음절을 포함하는 단어를 검색할 때 각 음절의 순서를 고려하지 않아도 "농심신라면매운맛250g"을 쉽게 검색해 낼 수 있다.
그러나, 숫자나 알파벳의 경우에는 그 순서가 바뀌면 제대로 검색이 되지 않는다.
이에, 검색 모듈(140)은 한글에 대해서는 필요에 따라서 그 음절의 순서를 고려하도록 조건을 설정하여 단어를 검색하고, 알파벳이나 숫자에 대해서는 음절 순서를 고려하여 검색하도록 구성될 수 있다.
그런데, 인식 모듈(120)에서 인식된 단어의 음절들 중에는 동일한 글자나 숫자가 중복되어 인식되는 경우가 있다.
예를 들어, 숫자 '0'이 하나의 단어에서 두 번 판독되거나 입력될 수 있다. 이러한 경우에는 검색 모듈(140)이 동일한 글자나 숫자를 각각 별개의 글자나 숫자로 취급하여 적용하도록 구성될 수 있다. 즉, 검색 모듈(140)은 숫자 '0'에 각각 구별 표시를 부가하여 '0a', '0b'로 설정하고 서로 다른 숫자인 것으로 가정하여 조합을 생성하도록 구성될 수 있다. 그리고 검색을 할 때에는 이러한 구별 표시를 무시하고 검색을 수행할 수 있다.
이러한 입력 오타나 OCR 판독 오류의 정정 기능은 다양한 예에서 활용될 수 있다.
기본적으로는 웹 검색창을 통해 오타를 자동 정정해 줄 수 있다.
다른 예로서, 만약 영수증의 상품명을 OCR 판독하여 특정 상품명이 인식되는 경우, 이를 이용하여 포인트를 주거나 경품 추첨에 응모하는 예가 있을 수 있다. 이때, OCR 판독 오류가 발생하게 되면, 데이터베이스(130)에 미리 저장된 상품명과 대비하여 검색하여 바로 정정할 수 있다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 판독/입력 오류 단어 정정 방법의 흐름도이다.
도 3 및 도 4를 참조하면, 먼저 인식 모듈(120)이 단어를 인식한다(S101).
여기서, 인식 모듈(120)은 입력 모듈(110)에 의해 입력되거나 판독되는 단어를 인식하도록 구성될 수 있다. 구체적으로는 OCR(Optical Character Recognition)에 의해 판독되는 단어 또는 웹 브라우저(web browser)의 검색창을 통해 입력되는 단어를 인식하도록 구성될 수 있다.
다음으로, 검색 모듈(140)이 인식 모듈(120)에서 인식된 단어를 데이터베이스(130)에 저장된 단어 중에서 검색한다(S102).
여기서, 검색 모듈(140)은 검색 결과 인식 모듈(120)에서 인식된 단어기 데이터베이스(130)에 저장된 단어 중에서 검색되는지 판단한다(S103).
위 검색 결과 인식 모듈(120)에 의해 인식된 단어가 데이터베이스(130)에 미리 저장되어 있는 경우, 검색 모듈(140)이 검색된 단어를 출력한다(S104).
한편, 위 검색 결과 인식 모듈(120)에 의해 인식된 단어가 데이터베이스(130)에서 검색되지 않는 경우, 검색 모듈(140)이 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 데이터베이스(130)에서 검색하여 출력한다(S105).
여기서, nCr은 n개의 음절 중에서 r개의 음절을 선택한 조합을 의미하고, n은 인식 모듈(120)에서 인식된 단어의 음절 개수를 의미하며, r은 1보다 크고 n이하인 정수로 구성될 수 있다.
한편, 검색 모듈(140)은 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 데이터베이스(130)에서 검색하여 출력하도록 구성될 수 있다.
다른 한편, 단계 S105는 다음의 세부 단계로 구성될 수 있다.
먼저 검색 모듈(140)은 인식 모듈(120)에서 인식된 단어에 한글 또는 알파벳/숫자가 포함되는지 판단한다(S105a).
단어에 한글 음절이 포함된 경우, 검색 모듈(140)은 검색 조건에 따라서 그 한글 음절 중에서 적어도 둘 이상의 음절을 조합한 음절들을 모두 포함하는 단어 또는 어느 하나의 음절을 포함하는 단어를 데이터베이스(130)에서 검색하여 출력하거나(S105b) 또는 그 한글 음절 중에서 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 데이터베이스(130)에서 검색하여 출력한다(105b).
단어에 알파벳 또는 숫자가 포함된 경우, 검색 모듈(140)은 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 데이터베이스(130)에서 검색하여 출력한다(S105c).
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110: 입력 모듈
120: 인식 모듈
130: 데이터베이스
140: 검색 모듈
120: 인식 모듈
130: 데이터베이스
140: 검색 모듈
Claims (10)
- 단어를 인식하는 인식 모듈;
단어가 미리 저장되는 데이터베이스(database);
상기 인식 모듈에서 인식된 단어를 상기 데이터베이스에 저장된 단어 중에서 검색하여 출력하며, 상기 데이터베이스에서 검색이 되지 않는 경우에는 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 검색 모듈을 포함하고,
상기 nCr은, n개의 음절 중에서 r개의 음절을 선택한 조합을 의미하고,
상기 n은, 상기 인식 모듈에서 인식된 단어의 음절 개수를 의미하고,
상기 r은, 1보다 크고 n이하인 정수로 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 장치. - 제1항에 있어서, 상기 인식 모듈은,
웹 브라우저(web browser)의 검색창을 통해 입력되는 단어 또는 OCR(Optical Character Recognition)에 의해 판독되는 단어를 인식하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 장치. - 제1항에 있어서, 상기 검색 모듈은,
상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 장치. - 제1항에 있어서, 상기 검색 모듈은,
상기 단어에 한글 음절이 포함된 경우 상기 포함된 한글 음절 중에서 적어도 둘 이상의 음절을 조합한 음절들을 모두 포함하는 단어 또는 어느 하나의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 장치. - 제1항에 있어서, 상기 검색 모듈은,
상기 단어에 알파벳 또는 숫자가 포함된 경우 상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 장치. - 인식 모듈이 단어를 인식하는 단계;
검색 모듈이 상기 인식 모듈에서 인식된 단어를 상기 데이터베이스에 저장된 단어 중에서 검색하는 단계;
상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에 미리 저장되어 있는 경우, 상기 검색 모듈이 상기 검색된 단어를 출력하는 단계;
상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계를 포함하고,
상기 nCr은,
n개의 음절 중에서 r개의 음절을 선택한 조합을 의미하고,
상기 n은, 상기 인식 모듈에서 인식된 단어의 음절 개수를 의미하고,
상기 r은, 1보다 크고 n이하인 정수로 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 방법. - 제6항에 있어서, 상기 인식 모듈이 단어를 인식하는 단계는,
OCR(Optical Character Recognition)에 의해 판독되는 단어 또는 웹 브라우저(web browser)의 검색창을 통해 입력되는 단어를 인식하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 방법. - 제6항에 있어서, 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계는,
상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 방법. - 제6항에 있어서, 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계는,
상기 단어에 한글 음절이 포함된 경우 상기 포함된 한글 음절 중에서 적어도 둘 이상의 음절을 조합한 음절들을 모두 포함하는 단어 또는 어느 하나의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 방법. - 제6항에 있어서, 상기 검색 결과 상기 인식된 단어가 상기 데이터베이스에서 검색되지 않는 경우, 상기 검색 모듈이 상기 인식된 단어에 포함된 음절 중에서 적어도 둘 이상의 음절을 조합(nCr, nCr- 1,..., nC2)한 음절들을 모두 포함하는 단어 또는 어느 하나(nC1)의 음절을 포함하는 단어를 상기 데이터베이스에서 검색하여 출력하는 단계는,
상기 단어에 알파벳 또는 숫자가 포함된 경우 상기 적어도 둘 이상의 음절이 조합된 음절들을 모두 포함하면서 판독/입력 오류 단어의 각 음절의 순서가 유지되는 단어를 상기 데이터베이스에서 검색하여 출력하도록 구성되는 것을 특징으로 하는 판독/입력 오류 단어 정정 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160069179A KR101995540B1 (ko) | 2016-06-03 | 2016-06-03 | 판독/입력 오류 단어 정정 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160069179A KR101995540B1 (ko) | 2016-06-03 | 2016-06-03 | 판독/입력 오류 단어 정정 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170137285A true KR20170137285A (ko) | 2017-12-13 |
KR101995540B1 KR101995540B1 (ko) | 2019-07-15 |
Family
ID=60944169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160069179A KR101995540B1 (ko) | 2016-06-03 | 2016-06-03 | 판독/입력 오류 단어 정정 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101995540B1 (ko) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100191001B1 (ko) * | 1995-12-11 | 1999-06-15 | 이찬진 | 고속교정장치 및 그 방법 |
JP2000268037A (ja) * | 1999-03-17 | 2000-09-29 | Csk Corp | 端末及び翻訳サーバ |
KR20010075552A (ko) * | 1998-10-02 | 2001-08-09 | 포만 제프리 엘 | 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법 |
KR20070036293A (ko) * | 2005-09-29 | 2007-04-03 | 엔에이치엔(주) | 음소 분리를 통한 문자열 검색 방법, 웹 문서 검색 방법 및방법 실행 프로그램을 기록한 저장매체 |
KR20070092596A (ko) * | 2004-04-19 | 2007-09-13 | 엑스비블리오 비.브이. | 렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술 |
KR20080039009A (ko) * | 2006-10-31 | 2008-05-07 | 포항공과대학교 산학협력단 | 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치 |
KR20090070930A (ko) * | 2007-12-27 | 2009-07-01 | 주식회사 다음커뮤니케이션 | 단어 교정 장치 및 그 방법 |
KR20100007722A (ko) * | 2008-07-10 | 2010-01-22 | 삼성전자주식회사 | 카메라 기반 영상의 문자 인식 및 번역 방법 |
KR101132469B1 (ko) | 2007-07-19 | 2012-03-30 | 엔에이치엔(주) | 초성 자동완성 및 그에 따른 검색 결과 제공 방법 및시스템 |
KR101242182B1 (ko) * | 2012-11-21 | 2013-03-12 | (주)지앤넷 | 음성인식장치 및 음성인식방법 |
KR101470547B1 (ko) * | 2014-08-29 | 2014-12-10 | 주식회사 무하유 | 독음데이터를 이용한 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체 |
-
2016
- 2016-06-03 KR KR1020160069179A patent/KR101995540B1/ko active IP Right Grant
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100191001B1 (ko) * | 1995-12-11 | 1999-06-15 | 이찬진 | 고속교정장치 및 그 방법 |
KR20010075552A (ko) * | 1998-10-02 | 2001-08-09 | 포만 제프리 엘 | 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법 |
JP2000268037A (ja) * | 1999-03-17 | 2000-09-29 | Csk Corp | 端末及び翻訳サーバ |
KR20070092596A (ko) * | 2004-04-19 | 2007-09-13 | 엑스비블리오 비.브이. | 렌더링된 문서로부터의 비주얼 캡쳐 데이터 처리 기술 |
KR20070036293A (ko) * | 2005-09-29 | 2007-04-03 | 엔에이치엔(주) | 음소 분리를 통한 문자열 검색 방법, 웹 문서 검색 방법 및방법 실행 프로그램을 기록한 저장매체 |
KR20080039009A (ko) * | 2006-10-31 | 2008-05-07 | 포항공과대학교 산학협력단 | 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치 |
KR101132469B1 (ko) | 2007-07-19 | 2012-03-30 | 엔에이치엔(주) | 초성 자동완성 및 그에 따른 검색 결과 제공 방법 및시스템 |
KR20090070930A (ko) * | 2007-12-27 | 2009-07-01 | 주식회사 다음커뮤니케이션 | 단어 교정 장치 및 그 방법 |
KR20100007722A (ko) * | 2008-07-10 | 2010-01-22 | 삼성전자주식회사 | 카메라 기반 영상의 문자 인식 및 번역 방법 |
KR101242182B1 (ko) * | 2012-11-21 | 2013-03-12 | (주)지앤넷 | 음성인식장치 및 음성인식방법 |
KR101470547B1 (ko) * | 2014-08-29 | 2014-12-10 | 주식회사 무하유 | 독음데이터를 이용한 문서 표절률 산출 방법 및 이 방법을 수행하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 저장매체 |
Also Published As
Publication number | Publication date |
---|---|
KR101995540B1 (ko) | 2019-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8594999B2 (en) | Typing candidate generating method for enhancing typing efficiency | |
US7516404B1 (en) | Text correction | |
US10242296B2 (en) | Method and device for realizing chinese character input based on uncertainty information | |
JP2001505330A (ja) | テキストストリーム中の単語の切れ目を与える方法及び装置 | |
WO2022267353A1 (zh) | 文本纠错的方法、装置、电子设备及存储介质 | |
US8725497B2 (en) | System and method for detecting and correcting mismatched Chinese character | |
US5148367A (en) | European language processing machine with a spelling correction function | |
US20070022114A1 (en) | Apparatus, system, and server capable of effectively specifying information in document | |
EP2447854A1 (en) | Method and system of automatic diacritization of Arabic | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
KR101995540B1 (ko) | 판독/입력 오류 단어 정정 장치 및 방법 | |
Hocking et al. | Optical character recognition for South African languages | |
KR20130122437A (ko) | 영어의 한글 표기 방법 및 시스템 | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
KR100391720B1 (ko) | 음성 인식용 문자 변환 장치 및 그 방법 | |
Mridha et al. | An approach for detection and correction of missing word in Bengali sentence | |
KR100342785B1 (ko) | 한국어 문자열간의 전역 유사도 측정 방법 | |
JP2001283156A (ja) | 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP7257204B2 (ja) | 文字列検索装置、文字列検索方法、および、文字列検索プログラム | |
JP2000235567A (ja) | 声調符号無入力式中国語文字変換装置 | |
KR101080880B1 (ko) | 외래어의 자동 음차 표기 방법 및 장치 | |
KR100608786B1 (ko) | 이동 통신 단말기에서의 만능 문자를 이용한 전화번호부검색 방법 | |
JP2939945B2 (ja) | ローマ字住所認識装置 | |
JP3387421B2 (ja) | 単語入力支援装置及び単語入力支援方法 | |
Shabnam et al. | A faster approach to sort unicode represented bengali words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
J301 | Trial decision |
Free format text: TRIAL NUMBER: 2017101005828; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20171201 Effective date: 20190530 |
|
S901 | Examination by remand of revocation | ||
GRNO | Decision to grant (after opposition) | ||
GRNT | Written decision to grant |