KR20160073146A

KR20160073146A - 혼동행렬을 이용한 필기인식 단어 보정 방법 및 장치

Info

Publication number: KR20160073146A
Application number: KR1020140181561A
Authority: KR
Inventors: 장영환
Original assignee: 주식회사 디오텍
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2016-06-24

Abstract

본 발명은 혼동행렬을 이용한 필기인식 단어 보정 방법 및 장치에 관한 것으로서, 본 발명에 따른 혼동행렬을 이용한 필기인식 단어 보정 방법은 필기된 문자열을 인식한 결과인 대상 문자열을 단어 사전에 등록되어 있는 문자열들과 매칭하여, 언어적으로 의미가 있는 대상 문자열과 유사한 검색 문자열을 추출하는 단계, 문자와 문자 사이의 편집거리를 기록한 혼동행렬을 이용하여 대상 문자열과 검색 문자열의 편집거리 (Edit Distance) 를 측정하는 단계, 대상 문자열을 의도한 문자로 보정하기 위해 검색 문자열을 편집거리가 가까운 순서에 따라 제공하는 단계를 포함하여, 필기 인식된 단어를 용이하게 보정할 수 있는 효과가 있다.

Description

혼동행렬을 이용한 필기인식 단어 보정 방법 및 장치{METHOD AND APPARATUS FOR CORRECTING A HANDWRITING RECOGNITION WORD USING A CONFUSION MATRIX}

본 발명은 혼동행렬을 이용하여 필기인식 단어를 보정하는 방법 및 장치에 관한 것으로서, 보다 상세하게는 필기인식 단어를 사용자가 의도한 문자로 보정하기 위해 편집거리 (Edit Distance) 가 가까운 순서에 따라서 단어를 제공하는 방법 및 장치에 관한 것이다.

일반적으로 컴퓨터 또는 이동통신 단말기 등의 전자 기기들은 문자 입력을 위하여 문자와 자판을 매칭하는 자판 입력 방식을 제공한다. 그러나 터치 패드 등과 같은 입력 장치들이 등장함에 따라 사용자가 직접 문자를 써서 입력하는 필기형 입력 방식이 제안되고 있다.

이러한 필기형 입력 방식은 터치 패드와 같은 입력 장치를 이용하여 사용자가 직접 필기를 하고 이를 필기인식 장치가 인식함으로써 문자를 입력하는 방식이다.

그러나, 일반적인 필기형 입력 방식은 문자를 펜과 같은 도구나 손으로 필기하면 필기인식 장치가 입력된 필기와 가장 근접하다 판단되는 문자를 입력된 문자로 인식하게 된다. 이때 필기를 입력하는 사람마다 글씨체가 조금씩 차이가 있기 때문에 필기인식 장치가 입력된 필기를 사용자의 의도와 다른 문자로 인식하는 경우가 많다.

최근에는 필기인식 장치가 사용자가 의도한 단어를 정확하게 인식하기 위하여 필기인식 장치는 최초 인식된 단어와 유사한 단어를 추천하여, 추천된 유사한 단어에서 의도한 단어를 찾는 방법으로 필기인식률을 높이고 있다.

하지만, 이와 같은 방법은 사용자가 필기한 필기와 유사한 단어를 추천하는 방식이 아니라, 필기인식 장치가 사용자의 필기를 인식한 단어와 유사한 단어를 추천하는 방식을 취하고 있어 필기인식 장치가 실질적으로 사용자의 의사에 부합하는 단어를 찾지 못하는 문제가 있다.

따라서 필기인식 단어를 사용자가 의도한 단어로 더 정확하게 보정 할 수 있는 방법 및 장치의 개발이 요구되고 있다.

필기를 분석하는 것을 용이하게 해주는 시스템, 필기인식을 제공하는 것을 용이하게 해주는 기계 구현 방법 및 필기를 분석하는 것을 용이하게 해주는 기계 구현 시스템 (특허출원번호 제 10-2008-7013987 호)

본 발명이 해결하고자 하는 과제는 필기된 문자열을 인식하여 인식된 문자열과 유사한 언어적으로 의미가 있는 문자열을 혼동행렬을 이용하여 편집거리가 가까운 순서로 표시함으로써, 필기 인식된 단어를 용이하게 보정할 수 있는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 문자의 차이에 따른 특징을 반영하여 혼동행렬을 작성함으로써, 단어의 보정을 보다 용이하게 할 수 있는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 과제는 혼동행렬을 작성하는 방법을 복수로 제공함으로써, 상황에 따른 효율적인 필기 인식된 단어를 보정할 수 있는 방법을 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 방법은 필기된 문자열을 인식한 결과인 대상 문자열을 단어 사전에 등록되어 있는 문자열들과 매칭하여, 언어적으로 의미가 있는 대상 문자열과 유사한 검색 문자열을 추출하는 단계, 문자와 문자 사이의 편집거리 (Edit Distance) 를 기록한 혼동행렬을 이용하여 대상 문자열과 검색 문자열의 편집거리를 측정하는 단계, 대상 문자열을 사용자가 의도한 문자로 보정하기 위해 검색 문자열을 편집거리가 가까운 순서에 따라 제공하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 언어적으로 의미가 있는 검색 문자열을 추출하는 단계는, 대상 문자열에 문자를 삽입, 삭제 및 교환을 하여 단어 사전에 등록되어 있는 문자열과 매칭하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 문자열이 음성 기호를 포함하는 문자로 이루어진 경우 혼동행렬은 각 글자를 음성기호와 본문자로 구분하여, 음성기호 및 본문자 각각의 편집거리를 측정한 것의 평균을 각 문자의 편집거리로 기록한 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.

본 발명의 또 다른 특징에 따르면, 문자열이 한글로 이루어진 경우, 혼동행렬은 각 글자의 초성, 중성 및 종성을 구분하여 초성, 중성 및 종성 각각의 편집거리를 측정한 것의 평균을 각 문자의 편집거리로 기록한 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.

본 발명의 또 다른 특징에 따르면, 검색 문자열을 편집거리가 가까운 순서에 따라 제공하는 단계는, 대상 문자열을 편집거리와 함께 제공하는 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.

본 발명의 또 다른 특징에 따르면, 혼동행렬은 필기 인식 결과를 반영한 혼동행렬인 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.

본 발명의 또 다른 특징에 따르면, 혼동행렬은 사용자 정의 기반 혼동행렬인 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 장치는 필기된 문자열를 인식한 결과인 대상 문자열로부터 단어 사전에 등록되어 있는 문자열들과 매칭하여 언어적으로 의미가 있는 대상 문자열과 유사한 검색 문자열을 추출하고, 혼동행렬을 이용하여 대상 문자열과 검색 문자열의 편집거리를 측정하는 프로세서, 언어적으로 의미가 있는 문자열을 포함하는 단어사전 및 혼동행렬을 저장하는 저장부 및 검색 문자열을 표시하는 표시부를 포함하는 것을 특징으로 한다.

본 발명은 필기된 문자열을 인식하여 인식된 문자열과 유사한 언어적으로 의미가 있는 문자열을 혼동행렬을 이용하여 편집거리가 가까운 순서로 표시함으로써, 필기 인식된 단어를 용이하게 보정할 수 있는 효과가 있다.

본 발명은 문자의 차이에 따른 특징을 반영하여 혼동행렬을 작성함으로써, 단어의 보정을 보다 용이하게 할 수 있는 효과가 있다.

본 발명은 혼동행렬을 작성하는 방법을 복수로 제공함으로써, 상황에 따른 효율적인 필기 인식된 단어를 보정할 수 있는 방법을 제공할 수 있는 효과가 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1 은 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 장치의 구성도이다.
도 2 는 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 방법의 동작 순서도이다.
도 3 는 본 발명의 일 실시예에 따른 영어 문자에 대한 혼동행렬을 도시한 것이다.
도 4a 는 본 발명의 다른 실시예에 따른 라틴어 문자에 대한 혼동행렬을 도시한 것이다.
도 4b 는 본 발명의 다른 실시예에 따른 라틴어 문자에 대한 편집거리를 측정하는 방법을 도시한 것이다.
도 5a 는 본 발명의 다른 실시예에 따른 한글 문자에 대한 혼동행렬을 도시한 것이다.
도 5b 는 본 발명의 다른 실시예에 따른 한글 문자에 대한 편집거리를 측정하는 방법을 도시한 것이다.
도 6 은 본 발명의 일 실시예에 따른 혼동행렬을 이용한 영어 문자의 필기인식 단어 보정 방법의 구현 태양을 도시한 것이다.
도 7 은 본 발명의 다른 실시예에 따른 혼동행렬을 이용한 라틴어 문자의 필기인식 단어 보정 방법의 구현 태양을 도시한 것이다.
도 8 은 본 발명의 다른 실시예에 따른 혼동행렬을 이용한 한글 문자의 필기인식 단어 보정 방법의 구현 태양을 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 발명의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 도시된 것이며, 본 발명이 도시된 구성의 크기 및 두께에 반드시 한정되는 것은 아니다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

본 명세서에서 ‘대상 문자열’ 이란, 사용자가 입력한 필기데이터를 인식하여 문자 (텍스트) 데이터로 변환한 것을 의미한다. 따라서, 대상 문자열은 보정되지 않은 상태로서, 필기데이터를 문자로 변환한 상태 그 자체를 의미한다.

본 명세서에서 ‘검색 문자열’ 이란, 대상 문자열을 변형한 문자열 중에서 단어 사전에 등록된 단어로서, 대상 문자열을 변형한 문자열 중에서 언어적으로 의미가 있는 문자열을 의미한다. 대상 문자열의 변형은 대상 문자열을 구성하는 문자를 삭제하거나, 대상 문자열을 구성하는 문자를 다른 문자로 치환하거나, 대상 문자열에 새로운 문자를 삽입하는 것을 포함한다. 즉, 검색 문자열이란 대상 문자열을 기초로 사용자가 입력을 의도한 단어를 예측한 것으로서 의도한 입력단어에 대한 후보군을 의미한다.

본 명세서에서 ‘편집거리’ (Edit Distance) 란, 특정 컴퓨터 알고리즘을 통해 두 개의 문자열의 유사도를 측정한 결과로, 레빈쉬타인 거리 (Levenshtein Distance) 라고도 한다. 원래의 단어를 목표한 단어로 변경하는데 필요한 변경 연산의 횟수를 세는 방식으로 편집거리를 측정할 수 있다. 즉, 편집 거리는 두 문자열 동일한 경우에는 0 이 되고, 두 문자열의 유사도가 작아질수록 더 커지게 된다.

본 명세서에서 ‘혼동행렬’ (Confusion Matrix) 이란, 문자와 문자 사이에 혼동률을 이용하여 문자와 문자 사이의 편집거리를 기록한 행렬을 의미한다. 혼동률이란 문자를 다른 문자로 혼동하여 인식할 확률을 의미한다. 구체적으로 혼동행렬을 구성하는 방법은 아래에서 상세하게 설명하도록 한다.

도 1 은 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 장치의 블록도이다.

도 1 을 참조하면 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 장치 (100) 는 프로세서 (110), 표시부 (120), 저장부 (130), 메모리 (140) 를 포함한다.

단어 보정 장치 (100) 는 대상 문자열을 기초로 하여 단어 사전에 등록되어 있는 문자열들과 매칭하여 검색 문자열을 추출하고, 혼동행렬을 이용하여 대상 문자열과 검색 문자열의 편집거리를 측정하고, 대상 문자열을 사용자가 의도한 문자로 보정하기 위해 검색 문자열을 편집거리가 가까운 순서에 따라 제공하는 컴퓨팅 디바이스이다. 단어 보정 장치 (100) 는 개인용 PC, 테블릿 PC, 스마트폰, 노트북 PC 등과 같은 다양한 형태의 장치일 수 있다.

프로세서 (110) 는 저장부 (130) 에 저장된 데이터에 기초하여 저장부 (130) 에 저장된 프로그램이나 명령어들의 세트를 실행하는 등의 연산을 수행함으로써, 검색 문자열을 추출하고, 혼동행렬을 이용하여 대상 문자열과 검색 문자열의 편집거리를 측정하고, 검색 문자열을 편집거리가 가까운 순서에 따라 제공하도록 구성된다. 상술한 동작은 도 2 를 참조하여 상세히 후술한다.

표시부 (120) 는 대상 문자열을 사용자가 의도한 문자로 보정하기 위해 검색 문자열을 편집거리가 가까운 순서에 따라 표시한다. 표시부 (120) 는 특정 디스플레이 장치로 제한되지 않으며 다양한 표시장치를 포함할 수 있다.

저장부 (130) 는 단어사전, 혼동행렬, 단어 보정 장치 (100) 의 제어 및 처리를 위한 프로그램 또는 데이터 등을 저장한다. 저장부 (130) 는 다양한 범용 저장장치를 포함할 수 있다.

메모리 (140) 는 단어 보정 장치 (100) 에서 처리하고자 하는 데이터를 일시적으로 저장한다. 단어 보정 장치 (100) 는 메모리 (140) 에 필기된 문자열을 인식한 결과인 대상 문자열, 대상 문자열과 유사하다고 추출된 검색 문자열, 혼동행렬 등을 일시적으로 저장한 후 프로세서 (110) 를 통해 처리한다.

도 2 는 본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 방법을 설명하기 위한 순서도이다. 설명의 편의를 위해 도 1 및 도 3 내지 도 8 을 함께 참조하여 설명한다.

본 발명의 일 실시예에 따른 혼동행렬을 이용한 필기인식 단어 보정 방법은 단어 보정 장치 (100) 가 대상 문자열을 변형하여 단어 사전에 등록되어 있는 문자열들과 매칭하여, 검색 문자열을 추출함으로써 개시된다 (S210).

단어 보정 장치 (100) 는 인식된 대상 문자열이 사전 데이터 베이스와 매칭되지 않는 경우 검색 문자열을 추출한다. 단어 보정 장치 (100) 는 대상 문자열을 구성하는 문자를 삭제하거나, 대상 문자열을 구성하는 문자를 다른 문자로 치환하거나, 대상 문자열에 새로운 문자를 삽입하는 과정을 통해서 대상 문자열을 변형한 문자열을 단어 사전의 문자열과 매칭하여 검색 문자열을 추출할 수 있다. 예를 들어, 대상 문자열로 ‘paisons’ 가 인식된 경우, 대상 문자열로 인식된 ‘paisons’ 이란 문자열은 단어 사전에 없는 문자열이므로 단어 보정 장치 (100) 는 대상 문자열을 변형한 문자열이고, 사전에 등록된 문자열인 ‘Raisons’, ‘poisons’, ‘passons’, ‘prisons’ 등을 검색 문자열로 추출할 수 있다.

본 발명의 몇몇 실시예에 따르면, 문자열이 한글과 같이 조합문자 이거나, 라틴문자, 베트남문자와 같이 음성 기호와 본문자가 결합된 형태의 문자인 경우, 단어 보정 장치 (100) 가 검색 문자열을 추출하는 방법은 알파벳과 같은 문자와 동일한 방법이 사용된다. 즉, 단어 보정 장치 (100) 가 검색 문자열을 추출하는 단계는 조합문자나 음성 기호가 포함된 문자인 경우에도 알파벳과 동일한 방법인 대상 문자열을 구성하는 문자를 삭제하거나, 대상 문자열을 구성하는 문자를 다른 문자로 치환하거나, 대상 문자열에 새로운 문자를 삽입하는 과정을 통해서 대상 문자열을 변형한 문자열을 단어 사전의 문자열과 매칭하여 검색 문자열을 추출할 수 있다.

다음으로, 단어 보정 장치 (100) 는 문자와 문자 사이의 편집거리를 기록한 혼동행렬을 이용하여 상기 대상 문자열과 상기 검색 문자열의 편집거리를 측정한다 (S220).

필기 인식 결과를 반영한 혼동행렬을 구하기 위하여는, 우선 각 문자간의 혼동률을 구하여야 한다. 상술한 바와 같이 혼동률은 문자를 다른 문자로 혼동하여 인식할 확률을 의미한다. 구체적으로 혼동률이 0 이면 두 문자가 혼동될 가능성이 없다는 의미이고 혼동률이 크면 혼동될 가능성이 높다는 의미이다. 예를 들어, ‘C’ 와 ‘c’ 는 동일한 문자의 대문자와 소문자로 필기 인식 시 서로 크기만 다를 뿐 형태가 유사하여 오인되어 인식될 가능성이 높아 혼동률을 클 것이다. 반면에 ‘a’ 와 ‘k’ 같은 경우는 단어의 형상이 상이하여 필기인식 장치가 혼동될 가능성이 낮아 혼동률이 낮을 것이다. 다수의 사용자를 대상으로 반복적인 실험을 통해 통계적으로 유의미한 알파벳 문자간의 혼동률을 구할 수 있다. 혼동률은 서로 오인되어 인식될 가능성이 없는 경우는 0% 이고, 항상 오인되어 인식될 경우 혼동률은 100% 이다. 즉 혼동률은 0% 내지 100% 의 범위를 갖는다. 이러한 알파벳 문자간의 혼동률과 식 1 을 이용하여 문자 l1 과 문자 l2 사이의 문자간 편집 거리를 구할 수 있다.

[식 1]

식 1 에 의하면, 문자 사이의 편집거리는 혼동률이 0% 일 경우 최댓값인 1.0 이고, 혼동률이 100% 일 경우 최솟값인 0 이다. 즉, 문자사이의 편집거리는 0 내지 1의 범위를 갖는다.

도 3 는 본 발명의 일 실시예에 따른 영어 문자에 대한 혼동행렬을 도시한 것이다. 도 3 을 참조하면 혼동행렬은 대상문자 (310) 와 비교문자 (320) 및 대상문자 (310) 와 비교문자 (320) 사이의 편집거리 (330) 를 포함할 수 있다. 다만, 도 3 은 실제데이터에 기반한 것이 아니라 혼동행렬의 표현 방식에 대한 예를 도시한 것에 불과하며, 실제데이터는 표시한 것과 다를 수 있다.

이러한 혼동행렬을 통계적인 필기 인식 결과를 반영하여 구성함으로써, 잘못 인식된 문자에 대하여 일률적으로 1 의 편집거리를 두는 방식에 비하여 유사한 문자는 편집거리를 가깝게 하여, 문자와 문자 사이의 편집거리를 보다 세밀하게 표현할 수 있다는 본 발명의 유리한 효과가 획득된다.

본 발명의 몇몇 실시예에 따르면, 혼동행렬은 사용자 정의 기반 혼동행렬일 수 있다. 사용자 정의 기반의 혼동행렬은 사용자가 각 문자사이의 혼동률을 임의적으로 판단하여 그에 따른 편집거리를 포함할 수 있다. 통계적인 필기 인식 결과를 반영하기 어려운 경우 사용자의 판단에 따라 합리적이라 편집거리를 포함하는 혼동행렬을 적용할 수 있으며, 특정 문자를 필기인식 장치가 인식하기 어렵게 필기하는 사용자가 있는 경우 해당 사용자에게 특화된 혼동행렬을 통해 보다 효율적으로 사용자가 의도한 문자를 더 명확하게 비교할 수 있다.

본 발명에 따른 단어 보정 장치 (100) 로 영문 알파벳과 음성기호를 포함하는 단어들간에 핀집거리를 측정하는 경우 측정방법은 다음과 같다. 예를 들어, 라틴문자 ‘a’ 는 알파벳 문자 ‘a’ 위에 음성기호를 포함하고 있다. 또한 라틴문자 ‘a’ 는 동일한 알파벳 문자 ‘a’ 위에 ‘a’ 와 상이한 음성기호를 포함하고 있다. 따라서 ‘a’ 와 ‘a’ 의 편집거리를 문자 전체로 비교하여 1 이라고 한다면, ‘a’ 와 ‘a’ 는 음성기호만 다른 것에 비하여 편집거리가 다소 멀다 할 수 있다. 따라서 이러한 경우 음성기호와 본문자를 구분하여 편집거리를 구할 수 있다. 예를 들어 ‘a’ 와 ‘a’ 의 편집거리는 본문자의 경우 ‘a’ 로 동일하여 본문자 사이의 편집거리는 0 이고, 문자 ‘a’ 의 음성기호와 문자 ‘a’ 의 음성기호를 비교하면 음성기호가 콤마 형상이고 방향만 상이한 것에 불과하여 음성기호 혼동율은 높을 것이고 따라서 음성기호 사이의 편집거리를 통계적으로 측정하여 0.74 라 할 수 있다. 그리고 본문자의 편집거리 0 과 음성기호 사이의 편집거리 0.74 의 평균인 0.37 을 문자 ‘a’ 와 문자 ‘a’ 의 편집거리로 할 수 있다.

도 4a 는 본 발명의 다른 실시예에 따른 라틴어 문자에 대한 혼동행렬을 도시한 것이다. 도 4a 를 참조하면, 혼동행렬은 대상문자 (410) 와 비교문자 (420) 및 대상문자 (410) 와 비교문자 (420) 사이의 편집거리 (430) 를 포함할 수 있다. 도 4 에 개시된 데이터는 실제데이터에 기반한 것이 아니라 혼동행렬의 표현 방식에 대한 예를 도시한 것에 불과하기 때문에, 실제데이터는 도 4 에 표시된 것과 다를 수 있다.

도 4b 는 본 발명의 다른 실시예에 따른 단어 보정 장치 (100) 가 라틴어 문자에 대한 편집거리를 측정하는 방법을 도시한 것이다. 도 4b 를 참조하면, 비교대상 (440) 을 음성기호 (451, 461) 와 본문자 (452, 462) 로 나누어 대상문자 (450) 와 비교문자 (460) 사이의 편집거리 (470) 을 구한다. 즉, 문자열이 본문자과 음성 기호를 포함하는 문자로 이루어진 경우, 혼동행렬은 각 글자를 음성기호와 본문자로 구분하고, 음성기호 및 본문자 각각의 편집거리를 측정한 평균을 문자의 편집거리로 하여 문자간 편집거리를 기록한 것일 수 있다.

본 발명에 따른 단어 보정 장치 (100) 로 한글로 이루어진 단어들간에 편집거리를 측정하는 경우 측정 방법은 다음과 같다. 예를 들어, 문자 ‘한’은 초성 ‘ㅎ’, 중성 ‘ㅏ’ 및 종성 ’ㄴ’ 이 결합된 문자이고 문자 ‘훈’ 은 초성 ‘ㅎ’, 중성 ‘ㅜ’ 및 종성 ’ㄴ’이 결합된 문자이다. ‘한’ 과 ‘훈’ 의 편집거리를 문자 전체로 비교하여 1 이라고 하는 경우 종성 만 ‘ㅏ’ 와 ‘ㅜ’ 으로 다를 뿐 초성 및 종성은 동일한 것에 비해 편집거리가 다소 멀다 할 수 있다. 따라서 초성과 종성은 동일하므로 편집거리가 0 이고 중성은 ‘ㅏ’ 와 ‘ㅜ’ 로 편집거리를 0.9 라 한다면 문자 전체의 편집거리는 초성, 중성 및 종성의 편집거리의 평균인 0.3 이라 할 수 있다.

도 5a 는 본 발명의 다른 실시예에 따른 한글 문자에 대한 혼동행렬을 도시한 것이다. 도 5a 를 참조하면, 혼동행렬은 대상문자 (510) 와 비교문자 (520) 간의 편집거리 (530) 를 표시할 수 있다. 도 5 에 개시된 데이터는 실제데이터에 기반한 것이 아니라 혼동행렬의 표현 방식에 대한 예를 도시한 것에 불과하기 때문에, 실제데이터는 도 5 에 표시된 것과 다를 수 있다.

도 5b 는 본 발명의 다른 실시예에 따른 한글 문자에 대한 편집거리를 측정하는 방법을 도시한 것이다. 도 5b 를 참조하면, 비교대상 (540) 을 초성 (551, 561), 중성 (552, 562) 및 종성 (553, 563) 으로 나누어 대상문자 (550) 와 비교문자 (560) 사이의 편집거리 (570) 을 구한다. 즉, 문자열이 한글 문자로 이루어진 경우, 혼동행렬은 각 글자의 초성, 중성 및 종성을 구분하여 초성, 중성 및 종성 각각의 편집거리를 측정한 평균을 문자의 편집거리로 하여 문자간 편집거리를 기록한 것일 수 있다.

단어 보정 장치 (100) 는 상술한 혼동행렬을 이용하여 대상 문자열과 검색 문자열의 편집거리를 측정할 수 있다.

도 6 은 본 발명의 일 실시예에 따른 혼동행렬을 이용한 영어 문자의 필기인식 단어 보정 방법의 예를 도시한 것이다. 도 6 을 참고하면, 혼동행렬을 이용한 영어 문자의 필기인식 단어 보정 방법의 예는 대상 문자열 (610), 검색 문자열 (630), 검색 문자열의 동작 (640) 및 편집거리 (650) 를 포함한다.

대상 문자열 (610) 은 대상 문자열이 무엇인지를 표시 하고 도 6 의 경우 대상 문자열은 ‘paisons’ 이다. 검색 문자열 (630) 은 복수의 검색 문자열을 나열하고 있다. 그리고 동작 (640) 을 통해 대상 문자열과 검색 문자열의 차이점을 알 수 있다.

대상 문자열과 검색 문자열의 문자열간 편집거리 (650) 는 대상 문자열과 검색 문자열 사이의 대응하는 각 문자와 문자 사이의 편집거리를 모두 합쳐서 구할 수 있다. 예를 들어, 검색 문자열 ‘Raisons’ 는 대상 문자열 ‘paisons’ 와 비교하여 ‘p’ 만 ‘R’ 로 치환된 것이므로 ‘p’ 와 ‘R’ 의 편집거리가 검색 문자열 ‘Raisons’ 와 대상 문자열 ‘paisons’ 의 편집거리이다. 다른 예를 들어, 검색 문자열 ‘poisons’ 는 대상 문자열 ‘paisons’ 와 비교하여 ‘p’ 가 ‘P’ 로 치환 되었으며, ‘a’ 가 ‘o’ 로 치환되어 치환된 문자가 2개이다. 따라서 검색 문자열 ‘poisons’ 와 대상 문자열 ‘paisons’ 의 편집거리는 두 문자의 편집거리의 합으로 결정될 수 있다.

편집거리 (650) 는 세 가지 방법으로 측정한 편집거리를 도시한다. 방법 1 (651) 은 기존의 방법에 따라서 문자가 다르면 모두 편집거리를 1로 하여 문자열 사이의 편집거리를 측정한 결과이고, 방법 2 (652) 는 혼동행렬이 필기 인식 결과를 반영한 혼동행렬인 경우의 문자열 사이의 편집거리를 측정한 결과이고, 방법 3 (653) 은 혼동행렬이 사용자 정의 기반 혼동행렬인 경우의 문자열 사이의 편집거리를 측정한 결과이다. 도 6 에 도시된 바와 같이, 단어 보정 장치 (100) 는 영어 문자의 필기인식 단어인 대상 문자열과 검색 문자열의 편집거리를 측정함으로써, 보다 용이하게 검색 문자열을 통해 대상 문자열을 보정 할 수 있다는 본 발명의 유리한 효과가 획득된다.

본 발명의 몇몇 실시예에 따르면, 단어 보정 장치 (100) 는 영문 알파벳과 음성기호를 포함하는 문자열 사이의 편집거리를 측정할 수 있다. 도 7 은 본 발명의 다른 실시예에 따른 혼동행렬을 이용한 라틴어 문자의 필기인식 단어 보정 방법의 예를 도시한 것이다. 도 7 을 참고하면, 혼동행렬을 이용한 라틴어 문자의 필기인식 단어 보정 방법의 예는 대상 문자열 (710), 검색 문자열 (730), 검색 문자열을 동작 (740) 및 편집거리 (750) 을 포함한다. 다만, 대상 문자열 (710), 검색 문자열 (730), 검색 문자열의 동작 (740) 및 편집거리 (750) 는 도 6 의 대상 문자열 (610), 검색 문자열 (630), 검색 문자열의 동작 (640) 및 편집거리 (650) 와 유사하므로 중복 설명은 생략한다. 도 7 에 도시된 바와 같이, 단어 보정 장치 (100) 는 라틴어 문자의 필기인식 단어인 대상 문자열과 검색 문자열의 편집거리를 측정함으로써, 보다 용이하게 검색 문자열을 통해 대상 문자열을 보정 할 수 있다는 본 발명의 유리한 효과가 획득된다.

본 발명의 몇몇 실시예에 따르면, 단어 보정 장치 (100) 는 한글 문자열 사이의 편집거리를 측정할 수 있다. 도 8 은 본 발명의 다른 실시예에 따른 혼동행렬을 이용한 한글 문자의 필기인식 단어 보정 방법의 예를 도시한 것이다. 도 8 을 참고하면, 혼동행렬을 이용한 한글 문자의 필기인식 단어 보정 방법의 예는 대상 문자열 (810), 검색 문자열 (830), 검색 문자열을 동작 (840) 및 편집거리 (850) 을 포함한다. 다만, 대상 문자열 (810), 검색 문자열 (830), 검색 문자열의 동작 (840) 및 편집거리 (850) 는 도 6 의 대상 문자열 (610), 검색 문자열 (630), 검색 문자열의 동작 (640) 및 편집거리 (650) 와 유사하므로 중복 설명은 생략한다. 도 8 에 도시된 바와 같이, 단어 보정 장치 (100) 는 한글 문자의 필기인식 단어인 대상 문자열과 검색 문자열의 편집거리를 측정함으로써, 보다 용이하게 검색 문자열을 통해 대상 문자열을 보정 할 수 있다는 본 발명의 유리한 효과가 획득된다.

단어 보정 장치 (100) 는 편집거리를 측정한 이후에, 대상 문자열을 의도한 문자로 보정하기 위해 검색 문자열을 편집거리가 가까운 순서에 따라 제공한다 (S230).

단어 보정 장치 (100) 는 대상 문자열을 사용자가 의도한 문자로 보정을 하기 위해 검색 문자열 중에서 하나의 검색 문자열을 선택하게 할 수 있다. 단어 보정 장치 (100) 는 검색 문자열을 나열할 때 대상 문자열과의 편집거리가 가까운 검색 문자열부터 나열을 하는 것이 가능하다. 편집거리는 혼동률을 기반으로 측정 될 수 있으므로, 일반적으로 대상 문자열과 편집거리가 가까운 문자열이 편집거리가 먼 문자열에 비하여 사용자가 의도한 문자일 확률이 높다. 따라서, 단어 보정 장치 (100) 는 편집거리가 가까운 검색 문자열을 먼저 제공함으로써, 사용자가 보다 용이하게 대상 문자열을 보정할 수 있게 하는 유리한 효과가 획득된다.

예를 들어, 도 6을 다시 참조하면 혼동행렬을 이용한 영어 문자의 필기인식 단어 보정 방법의 예는 거리 순위 (620) 를 포함한다. 거리 순위 (620) 에는 혼동행렬이 필기 인식 결과를 반영한 혼동행렬인 경우의 문자열 사이의 편집거리를 측정한 결과인 방법 2 (652) 에 따라서 편집거리가 가까운 순서로 번호가 부여되고 있다. 따라서 단어 보정 장치 (100) 는 거리 순위 (620) 에 따라서 검색 문자열을 도시함으로써, 사용자가 의도한 것으로 예상되는 문자열이 우선하여 나열되어 사용자가 보다 용이하게 대상 문자열에서 사용자가 의도한 문자열을 선택할 수 있게 하는 효과를 획득할 수 있다.

또한 경우에 따라서 거리 순위 (620) 에 따라 나열함과 동시에 편집거리를 함께 표시하여 사용자의 선택을 도울 수도 있다.

다만 편집거리를 함께 표시하는 방법에 있어서, 단어의 길이를 이용하여 편집거리를 보정한 유사도를 편집거리를 대신하여 표시할 수도 있다. 유사도는 식 2 와 같이 계산될 수 있다.

[식 2]

단 L 은 대상 문자열 및 선택 문자열중 긴 문자열의 길이이고, E 는 두 문자열간의 편집거리를 의미한다.

예를 들어, 대상 문자열이 Apo 이고 선택 문자열이 App 인 경우에 있어서 대상 문자열이 Apo 와 선택 문자열 App 의 편집거리를 1 이라 가정하면 긴 문자열의 길이는 3 이고 편집거리는 1 이므로 유사도는 식 2 에 의해 (3-1)/3=0.67이다. 다른 예를 들어, 대상 문자열이 interestimg이고 선택 문자열이 interesting 이라면, 대상 문자열 interestimg 과 선택 문자열 interesting 의 긴 문자열의 길이는 11 이고 편집거리는 1 이므로 유사도는 식 2 에 의해 (11-1)/11=0.09이다. 상술한 두 가지 예를 비교하면 Apo 와 App 의 차이보다 interestimg 와 interesting 의 유사도의 차이가 더 작게 표현된다. 짧은 문자열과 긴 문자열에서 한 문자가 차지 하는 비중이 차이가 있기 때문에 동일한 편집거리를 갖는 문자열 사이의 유사도를 비교하면 긴 문자열에서의 유사도의 차이가 더 작게 표현된다. 이처럼 문자열의 길이를 반영한 유사도를 표시함으로써, 보다 용이하게 검색 문자열과 대상 문자열을 직관적으로 비교 할 수 있다는 본 발명의 유리한 효과가 획득된다.

다만, 본 발명의 몇몇 실시예에 따르면, 혼동행렬이 사용자 정의 기반 혼동행렬인 경우의 편집거리를 측정한 결과인 방법 3 (653) 에 따른 순서로 검색 문자열을 나열할 수 있다.

도 7 및 도 8 을 다시 참고하면 도 6 과 동일한 방법으로 거리 순위 (720, 820) 에 따라서 검색 문자열을 도시할 수 있어 중복된 설명을 생략하도록 한다.

본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 단어 보정 장치
110 : 프로세서
120 : 표시부
130 : 저장부
140 : 메모리

Claims

필기된 문자열을 인식한 결과인 대상 문자열을 단어 사전에 등록되어 있는 문자열들과 매칭하여, 언어적으로 의미가 있는 상기 대상 문자열과 유사한 검색 문자열을 추출하는 단계;
문자와 문자 사이의 편집거리 (Edit Distance) 를 기록한 혼동행렬을 이용하여 상기 대상 문자열과 상기 검색 문자열의 편집거리를 측정하는 단계;
상기 대상 문자열을 사용자가 의도한 문자로 보정하기 위해 상기 검색 문자열을 상기 편집거리가 가까운 순서에 따라 제공하는 단계를 포함하는 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
제 1 항에 있어서,
상기 언어적으로 의미가 있는 검색 문자열을 추출하는 단계는,
상기 대상 문자열에 문자를 삽입, 삭제 및 치환을 하여 단어 사전에 등록되어 있는 문자열과 매칭하는 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
제 1 항에 있어서,
상기 문자열이 음성 기호를 포함하는 문자로 이루어진 경우
상기 혼동행렬은 각 글자를 음성기호와 본문자로 구분하여, 음성기호 및 본문자 각각의 편집거리를 측정한 것의 평균을 각 문자의 편집거리로 기록한 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
제 1 항에 있어서,
상기 문자열이 한글로 이루어진 경우,
상기 혼동행렬은 각 글자의 초성, 중성 및 종성을 구분하여 초성, 중성 및 종성 각각의 편집거리를 측정한 것의 평균을 각 문자의 편집거리로 기록한 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
제 1 항에 있어서,
상기 검색 문자열을 상기 편집거리가 가까운 순서에 따라 제공하는 단계는,
상기 대상 문자열을 상기 편집거리와 함께 제공하는 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
제 1 항에 있어서,
상기 혼동행렬은 필기 인식 결과를 반영한 혼동행렬인 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
제 1 항에 있어서,
상기 혼동행렬은 사용자 정의 기반 혼동행렬인 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 방법.
필기된 문자열를 인식한 결과인 대상 문자열로부터 단어 사전에 등록되어 있는 문자열들과 매칭하여 언어적으로 의미가 있는 상기 대상 문자열과 유사한 검색 문자열을 추출하고, 혼동행렬을 이용하여 상기 대상 문자열과 상기 검색 문자열의 편집거리를 측정하는 프로세서;
언어적으로 의미가 있는 문자열을 포함하는 단어사전 및 상기 혼동행렬을 저장하는 저장부; 및
상기 검색 문자열을 표시하는 표시부를 포함하는 것을 특징으로 하는, 혼동행렬을 이용한 필기인식 단어 보정 장치.