KR970008023B1

KR970008023B1 - 사전검색장치

Info

Publication number: KR970008023B1
Application number: KR1019940009402A
Authority: KR
Inventors: 후미히또 니시노; 나오미 수기모또
Original assignee: 후지쓰 가부시끼가이샤; 세끼자와 다다시
Priority date: 1993-07-19
Filing date: 1994-04-30
Publication date: 1997-05-20
Also published as: KR950004036A; CN1097883A; CN1095137C; US5615378A; JPH0736882A

Abstract

요약없음

Description

사전검색장치

제1도는 입력부로부터 사전검색장치에 입력한 부정확한 입력문자열과 그에 상응하는 정확한 문자열의 예를 나타낸 도면.

제2도는 본 발명의 제1예의 블록도.

제3도는 제1도의 처리를 나타낸 도면.

제4도는 제2도의 입력부로부터 입력한 부정확한 입력문자열과 그에 상응하는 정확한 문자열의 예를 나타낸 도면.

제5도는 제2도의 문자-그룹 ID변환부를 설명한 플로챠트.

제6도는 본 발명의 제2예의 블록도,

제7A도는 제6도의 입력부로부터 입력한 입력열을 나타내고,

제7B도는 제7A도의 입력열로부터 얻은 부분 문자열을 나타낸 도면.

제8도는 본 발명의 제3예의 블록도.

제9도는 본 발명의 제4예의 블록도.

제10도는 제9도의 판독문자 및 후보문자열의 예를 나타낸 도면.

제11도는 본 발명의 제5예의 변환문자정의체 예를 나타낸 도면.

제12도는 본 발명의 제6예의 변환문자정의체 예를 나타낸 도면.

제13도는 본 발명의 제7예의 변환문자정의체 예를 나타낸 도면.

제14도는 본 발명의 제7예에서 사용한 오토마톤(automaton)을 나타낸 도면.

제15도는 본 발명의 제8예의 변환문자정의체 예를 나타낸 도면.

제16도는 본 발명의 제9예의 변환문자정의체 예를 나타낸 도면.

본 발명은 일본어, 중국어, 한국어, 영어등으로 기록된 문서를 여러가지로 처리하기 위하여 사용되는 사전 검색장치에 관한 것이며 특히 본 발명은 사전검색장치를 사용하여 형태요소 해석, 부정확한 문자정정, 문자표준화 또는 문자인식후의 처리를 실행하는 장치에 관한 것이다.

최근에 워드프로세서, 개인용 컴퓨터, 워크스테이션등의 컴퓨터가 널리 사용되고 있다. 문서의 번역, 검색 또는 배포와 같은 여러가지 문서처리는 컴퓨터로 실행하는 것이 바람직하다. 번역등과 같은 처리를 실행하기 위해서는 컴퓨터에 문서를 저장시키고 문서내의 문장에 대해 단어사전을 참조하여 형태요소 해석을 실행한다.

종래의 형태요소 해석은 입력문자열이 컴퓨터에 정확하게 입력된다는 전제하에서 실행되었다. 형태요소 해석을 실행하기 위해서는 문서의 문장을 정확하게 입력하여야 한다.

그러나 현실적으로는 시스템 개발자가 의도하지 않은 여러가지 다른 문자열이 입력문자열로서 입력되는 일이 많다.

제1도에는 일본에 문자로 기록된 부정확한 입력문자열과 그에 상응하는 정확한 문자열의 표기에 대한 예를 나타낸다. 제1도에서 발음은 각 문자열마다 ( )로 표시되어 있다.

제1도의 No. 1에서 정확한 문자열 "(KO)(N)(PI)(YU)(-)(TA)"는 영어로 "컴퓨터"를 의미한다. 부정확한 문자열에서는 장음 기호 '" 대신에 "(minus)"를 사용하고 있다. No. 3에서의 정확한 문자열 "(PA) (-) (ZA) (-)"는 영어로 "파서"를 의미한다. 부정확한 문자열 "(PA) (-) (SA) (-)"에서는 세번째 문자부호 "ZA"가 잘못되었다.

No. 3에서의 정확한 문자열, "(DOKU) (SEN) (JOU)"는 영어로 "경쟁자가 없다"를 의미한다. 부정확한 문자열 "(DOKU) (DAN) (JOU)"에서는 두번째 한자가 모양은 비슷하나 의미가 다른 것이다. 상기의 세가지 입력착오는 유사한 문자를 사용하였기 때문에 일어난 것이다.

No. 4에서는 정확한 문자열과 부정확한 문자열이 다같이 "TO MA TO"라고 발음이 같으며 영어로 "토마토"를 뜻하는 의미도 같다. 그러나 부정확한 문자열에는 히라가나(일본어의 한가지 문자표기법)가 정확한 입력인 가나까나(일본어로 또 하나의 문자표기법) 대신에 입력되어 있다. 이 경우에 부정확한 문자열은 표기상 철자의 다른 형태로 허용이 가능하지만 컴퓨터에서는 이를 부정확한 문자열로 취급한다.

정확한 문자열과 부정확한 문자열간의 상기와 같은 창은 인간에게는 사소한 일에 속할지 모르지만 번역시스템 등에 사용되는 사전에 정확한 단어만을 등록시켰을 경우에는 해석을 정확히 실행하지 못하는 문제가 야기된다.

No. 5에서는 정확한 문자열과 부정확한 문자열이 다같이 "타끼자와"라는 일본의 성을 표시한다. 그 발음과 의미는 다 같으며 그 자체(字體)만이 구식과 신식으로 다를 뿐이다. 이렇게 자체가 다른 것을 사용하는 일은 문서를 작성할때 상이한 환경, 예를들어 사람이 다르거나 혹은 이용하는 가나-한자 전환사전(즉 일본문자-한자전환사전)에 따라 생긴다. 정확한 문자열은 신식체로 기록하므로 구식체로 기록하면 부정확한 문자열이 된다. 표준어에서 탈락된 구식체가 시스템 사전에 등록되어 있지 않으면 그러한 부정확한 문자열은 비등록 단어로 출력되므로 정확한 후보가 종래의 형태요소 분석에는 나타나지 않는다.

또한 인쇄문자 판독기, 육필문자판독기 등과 같은 종래의 문자인식처리는 각 판독문자마다 복수의 후보문자를 출력한다.

문자인식처리장치에 의해 입력문자가 얻어지면 인식후 처리장치는 각 입력문자마다 복수의 후보문자를 받아서 후보문자의 조합을 이용하여 사전을 검색한다. n 길이를 찾는 문자열의 각 문자마다에 m 후보문자가 있을 경우에는 문자인식후 처리장치는 문자열의 mⁿ조합으로부터 사전을 검색하게 된다.

따라서 각 후보문자의 수가 증가해서 후보문자의 조합수가 증가하면 문자인식후 처리속도가 늦어진다.

문자인식후 처리속도를 증가시키기 위하여 종래의 방법에 의해 각 문자위치에서의 후보문자의 수를 m' 후보문자로 줄이도록(m'＜m) 시도해 보아도 정확한 문자가 m' 후보문자에서 탈락되어 있으면 정확한 단어를 검색할 수가 없다.

따라서 본 발명의 목적은 지금까지 잘못된 입력으로 인해 사전의 검색이 불가능했던 단어의 사전을 변환 문자정의체로 정의되어 있는 문자집합의 요소를 동일요소로 간주함으로써 검색할 수 있는 사전검색장치를 제공하는데 있다.

본 발명의 다른 목적은 지금까지 사전검색이 불가능했던 단어도 사전검색할 수 있는 상기의 사전검색장치를 사용함으로써 잘못된 입력도 받아들일 수 있는 형태요소 해석장치를 제공하는데 있다.

본 발명의 또 다른 목적은 지금까지 검색이 불가능했던 단어의 사전을 검색할 수 있는 상기의 사전검색장치를 사용함으로써 문자를 표준화해서 잘못된 단어를 정정할 수 있는 문자열 정정장치를 제공하는데 있다.

본 발명의 또다른 목적은 문자인식처리장치의 각 문자위치에서의 후보문자를 그룹화함으로써 각 문자위치에서의 문자후보의 수와 문자후보의 조합수를 줄여서 처리속도를 증가시킬 수 있는 문자인식후의 처리장치를 제공하는데 있다.

상기의 목적을 달성하기 위하여 본 발명은 입력부로부터의 문자열 입력을 변환문자정의체, 문자-그룹 ID 변환부, 입력문자열 변환부, 단어사전, 사전변환부, 변환단어사전 및 사전검색부에 의해 변환하고 그 변환된 문자열을 출력부에 출력하는 사전검색장치를 구성하였다. 변환문자정의체는 문자집합 C={C₁,C₂……C_n)을 몇개의 부분집합(G₁⊂C)으로 분류하여 각 부분집합마다 그룹 ID를 부여하에서 형성된다.

문자그룹 ID변환부는 변환정의체를 이용해서 문자열의 각 문자를 그룹 ID로 교체한다. 입력문자열 변환부는 입력으로부터 입력된 입력문자열을 문자-그룹 ID변환부를 호출해서 입력그룹 ID열로 변환한다. 단어사전은 입력부에 나타난 의미있는 부분 문자열이 되는 단어를 저장한다. 사전변환부는 사전에 정의되어 있는 각 단어의 표기문자열을 문자-그룹 ID변환부를 호출해서 표기그룹 ID열로 변환한다. 변환단어사전은 사전변환부에 의해 변환된 단어를 저장한다. 사전검색장치는 입력문자열 변환부에서 변환된 입력그룹 ID열을 표기그룹 ID로 표현하는 변환단어사전을 검색한다.

문법 G는 비단말기호의 집합 N, 단말기호의 집합 ∑, 생성규칙의 집합 P 및 출발신호 S를 사용해서 G=(N,∑,P,S)로 표시한다. 문법 G상의 언어 L은 L(G)={t｜S→*t∧t∈∑*}로 표시하는데, 여기서, ∑*는 ∑ 기호로 형성된 길이가 0 이상의 열의 집합을 의미한다.

여기서 ω, ω'이 단어이며, 문자열이 C₁라 하면 ω=C₁, C₂……, C_n는 ∑에 속하지 않는 단말기호이고, ω'=C₁, C₂……, C₁'……, C_n는 ∑에 속하지 않는 단말기호이다. 도출(導出) S→^*μωυ가 있어도 S≠→^*μωυ가 없는 경우에는 문법 G는 C₁를 C₁'로 바꾸기만 하여도 언더 L(G)로 채택되지 않는다. 즉 단 하나의 부정확한 문자때문에 정확한 해석이 불가능해진다.

본 발명에서는 변환문자정의체를 설정함으로써 C₁및 C₁'를 동일 그룹으로 만드는 변환 F를 도입할 수가 있다(F(ω')). 이때에 문법 G_F=(N,F,(∑),P,S)가 정의되어 이 G_F를 사용해서 채택되는 언어 L(G_F)는 L(G_F)={t｜S→*F(t)∧F(t)∈∑*}가 된다.

문법 G_F하에서 도출 S→ *F(μ)F(ω)F(υ)가 있을 경우에는 F(ω)=F(ω')로부터 도출 S→ *F(μ)F(ω')F(υ)가 생긴다.

즉 이는 변환문자정의체에 의해 동일 그룹으로 대응되는 문자중에 잘못된 것이 있더라도 해석이 정확히 실행된다는 것을 의미한다.

예컨대 상기한 제1도 No. 1의 경우에 장음기호 "(―――)"와 마이너스부호 "(minus)"를 동일 그룹으로 정의한다면 사전에 정확한 문자열만이 정의되어 있더라도(∑에 속함) 입력한 마이너스부호인 "minus"를 사용한 부정확한 문자열 대신에 장음기호 " (―――)"를 사용한 정확한 단어를 찾을 수가 있으므로 문자열의 교정이 가능하다.

제1도 No. 5에서는 각 다른 문자체가 동일 그룹에 정의되어 있고 신식체를 사용한 정확한 문자열만이 등록되어 있다면 입력한 구식체를 사용한 부정확한 단어 대신에 신식체를 사용한 정확한 단어를 검색할 수가 있으므로 문자열 표준화의 실행이 가능해진다.

본 발명의 다른 태양으로서 기계번역이나 자연언어 인터페이스와 같은 문장해석장치에서는 잘못된 입력을 허용하는 형태요소 해석장치가 입력부, 확장사전검색부, 문법규칙 및 문법검사부로 구성된다. 입력부는 문장을 확장사전검색부에 입력한다.

확장사전검색부는 상기의 사전검색장치를 가지며 입력부로부터의 출력문자에 대한 사전을 검색한다.

문법부는 사전검색의 결과를 문법규칙과 대조해서 형태요소 해석을 실행하여 형태요소 해석결과를 사전정보와 더불어 출력한다.

본 발명의 다른 태양으로서 문법검사부와 출력문자에 의한 형태요소 해석의 결과를 복합하는 형태요소 복합부를 설치함으로써 형태요소 해석장치내에 문자열 정정장치를 구비한다.

본 발명의 또다른 태양으로서 문자인식처리장치로부터의 후보문자열 출력을 입력부에 입력하고 형태요소 결정부를 문법검사부와 출력부사이에 설치함으로써 형태요소 해석장치내에 인식후의 처리장치를 구비한다.

후보문자열은 문자인식처리장치에 의해 얻어진 입력문자열의 각 문자에 대한 복수의 후보문자를 갖는다. 형태요소 결정부는 문법검사부에 의한 형태요소 해석결과로부터 얻어진 복수의 형태요소 해석후보로부터 평가함수를 이용하여 후보순위를 결정함으로써 형태요소 해석후보를 출력부에 출력한다.

문자인식후의 처리장치에서는 문자인식처리장치로부터의 후보문자입력이 각 후보문자에 대응하는 그룹수로 변환한다. 그러므로 문자인식처리장치에 의해 잘못 판독되기 쉬운 유사한 문자는 동일 그룹으로 그룹화시키는 것과 마찬가지로 변환문자정의체를 미리 정의해둔다. 따라서 후보문자의 그룹수가 감소함에 따라 사전대조를 위한 후보문자의 조합수도 감소한다. 그리고 문자처리장치로부터 출력된 후보문자에 부정호가한 문자가 포함되어 있더라도 동일 그룹에 부정확한 문자와 유사한 정확한 문자가 들어있으면 정확한 단어를 찾을 수 있다.

실시예

일본어로 기록된 문서처리로 적용되는 본 발명의 사전검색장치, 형태요소 해석장치, 문자열 정정장치 및 문자인식후의 장치의 예를 이하에 기술한다. 그러나 본 발명은 일본어외에도 영어, 중국어, 한국어등과 같은 다른 언어에도 적용이 가능하다. 또한 본 발명은 자연어뿐 아니라 어휘와 문법규칙을 정의한 프로그램언어에도 적용할 수 있다.

이하의 실시예에서는 동일 기능을 갖는 것에는 각 도면상에 동일 부호를 사용하고 또 중복설명은 피한다.

실시예 1

본 발명의 사전검색장치를 이하에 기술한다.

제2도는 이 실시예의 블록도이다.

입력부(1)는 파일, 입력장치등으로부터의 문자열을 판독하고 입력문자열의 부호와 문자열을 출력한다. 입력문자열변환부(2)는 입력부(1)로부터 입력된 입력문자열을 문자그룹 ID변환부(3)를 호출해서 입력그룹 ID 열로 변환한다. 문자그룹 ID변환부(3)는 변환문자정의체(4)를 이용하여 문자열의 각 문자를 그룹 ID로 대체한다.

변환문자정의체(4)는 문자집합 C=C₁,C₂……, C_n을 몇개의 부분집합 (G₁⊂C)으로 분류하고 각 부분집합에 그룹 ID를 부여하여 형성한다. 사전변환부(5)는 문자그룹 ID변환부(3)을 호출해서 단어사전(6)에 정의된 각 단어의 표기문자열을 표기그룹열에 변환하고 표기그룹 ID에 의해 미리 정의해둔 변환단어사전(7)을 만든다

단어사전(6)은 입력부(1)에 나타난 의미있는 부분문자열의 단어를 저장한다.

변환단어사전(7)은 변환문자정의체(4)의 정의에 의거 사전변환부(5)에 의해 단어사전(6)의 표기부를 그를 ID로 대체할 문자이다.

사전검색부(8)는 입력문자변환부(2)에서 변환된 입력그룹 ID열에 대한 표기그룹 ID에 의해 기록된 변환 단어사전(7)을 검색하고, 그 결과를 출력부(9)에 출력한다.

다음에 상기의 사전검색장치를 제3도를 참조해서 기술한다.

입력부(1)에서 파일, 키보드등으로부터 문자열을 판독하여 입력문자열변환부(2)에 출력한다. 제4도에 부정확한 문자열과 그에 상응하는 정확한 문자열의 일본어로 된 예를 나타낸다. 제4도에서 각 문자열은 표기와 같이 나타내고 발음은 ( )에 표시하였다. 제4도의 정확한 문자열 "(KO) (N) (PI) (YU) (-) (TA)"는 영어로 컴퓨터를 의미하고 발음 ""는 모음을 길게 발음하는 장음기호이다. 부정확한 문자열에서는 셋째번 문자 "(PI)"가 잘못되어 있어 정확한 문자 "(PI)"가 "(HI)"로 바뀐 것이다.

제3도에서 입력문자열변환부(2)는 입력부(1)로부터 공급된 문자열의 각 문자를 문자그룹 ID변환부(3)에 의해 그룹 ID로 변환한다.

문자-그룹 ID변환부(3)의 처리를 제5도의 플로챠트를 참조해서 기술한다.

스텝 1에서 변환코자 하는 문자열 S를 입력한다.

스텝 2에서 포인터 D가 문자열 S의 선두문자를 지시하도록 값을 설정한다.

스텝 3에서 포인터가 문자열의 끝(최종 문자의 뒤)을 가르키는지의 여부를 판정한다. 포인터가 문자열 S의 끝을 가르키는 경우에는 변환처리를 끝내고 그룹 ID로 교체된 문자열을 사전검색부(8)로 복귀시킨다.

포인터 P가 문자열의 끝을 가르키지 않을 경우에는 처리는 스텝 4로 진행된다.

스텝 4에서 포인터 P가 가르키는 문자 C₁는 제3도의 변환문자정의체에 의해 정의되어 있는 그룹 ID_g1로 치환된다.

스텝 5에서 포인터 P는 1문자만큼 진행하고 처리하는 스텝 3으로 복귀한다.

제3도에 상기한 처리에 의해 입력부(1)로부터 문자열변환부(2)로 입력되는 입력문자열 "(KO) (N) (HI) (YU) (-) (TA)"는 입력그룹 ID열 "123145"로 변환되어 사전검색부(8)로 출력된다.

다음에는 사전검색부(8)에 의해 검색되는 변환단어사전(7)에 대해 기술한다.

단어사전(6)은 입력부(1)에 나타난 의미있는 부분문자열을 저장한다. 제3도에 단어사전(6)의 일부분을 나타낸다.

제3도에는 표기, 발음 및 품사만을 나타내고 있지만 의미적인 속성등과 같은 여러가지 정보도 부가시킬 수가 있다.

사전변환부(5)는 문자그룹 ID열 변환부(3)를 호출하여 단어사전(6)에 정의되어 있는 각 단어의 표기문자열을 그룹 ID열로 변환하고 변환단어사전(7)은 이 그룹 ID열을 저장한다. 제3도에 변환단어사전(7)의 단어의 일부와 그에 상응하는 문자그룹열을 나타낸다.

사전검색부(8)는 입력그룹 ID열에 상응하는 키(key)로서 그룹 ID열을 갖는 사전요소를 변환단어사전(7)으로부터 검색한다.

입력그룹 ID열 "12345"에 대한 사전검색 결과로서 "(KO) (N) (PI) (YU) (-) (TA) 123145"가 검색된다. 상기한 바와같이 본 실시예에 의하면 지금까지 검색이 불가능했던 부정확한 단어 "(KO) (N) (HI) (YU) (-) (TA)"도 정확한 단어 "(KO) (N) (PI) (YU) (-) (TA)"로 검색이 가능하다.

상기의 예에서는 변환문자정의체(4)는 유사한 문자집합으로 형성하였다. 그러나 변환문자정의체(4)는 가다까나와 히라가나로 된 한쌍의 집합, 신식자체와 구식자체의 집합등으로도 형성할 수 있다.

상기한 바와같이 변환문자정의체에 정의되어 있는 문자열의 요소들을 동일한 것으로 간주하기 때문에 지금까지 검색이 불가능했던 부정확한 입력단어를 검색할 수가 있다.

또한 단어사전(6) 및 변환단어사전(7)을 전방 일치압축구조, 2진 트리(binary tree), TRIE구조와 같은 통상의 지연어처리에서 사용되는 단어사전과 유사한 사전구조로도 할 수 있다.

실시예 2

상기 실시예 1의 사전검색장치를 확장사전검색부로 사용함으로써 기계번역, 자연어 인터페이스등의 문장을 해석하는 형태요소 해석장치는 에러입력을 허용하는 형태요소를 해석하는 것이 가능하다. 상기의 해석을 실행하는 형태요소 해석장치의 예를 이하에 기술한다.

제6도는 이 실시예의 블록도이다.

확장사전검색장치(10)는 상기 실시예 1에서 기술한 사전검색장치와 같은 구조를 갖는다. 이 확장검색부(10)는 후술하는 입력부(11)로부터 입력한 텍스트를 관리하여 텍스트내의 임의의 위치로부터 사전을 검색하고 문서검사부(13)와 함께 작용하여 다른 후보의 검색을 제어한다. 확장사전검색부(10)의 각 블록(2)∼(8)은 제2도의 블록숫자와 동일하다.

입력부(11)는 파일, 입력장치등으로부터의 문자열을 판독하여 입력문자열의 부호화된 문자열을 출력한다.

문법규칙(12)은 입력테스트의 문법을 공급한다. 이 문법규칙(12)에는 종래의 문법규칙을 이용할 수 있다.

문법검사부(13)는 확장사전검색부(10)로부터의 출력인 형태요소별이 문법규칙(12)에 적합한지의 여부를 판단한다.

적합하지 않을 경우에는 문법검사부(13)가 확장사전검색부(10)에게 다른 후보를 출력해줄것을 요구한다. 문법검사부(13)는 인접행렬과 같은 종전의 형태요소 해석을 사용하거나 문맥자유 문법규칙을 이용할 수 있다.

출력부(14)는 문법검사부(13)에서 적합하다고 판단한 형태요소 해석의 결과를 출력한다.

이 실시예에서는 입력부(11)로부터의 입력인 입력열이 단어만이 아니라 문장도 공급된다. 제7A도에 나타낸 "(TA) (N) (GO) (WO) (ODO) (RU)"는 영어로 "탱고를 추다"를 의미하는 입력이다.

확장사전검색부(10)는 입력문자열을 부분문자열로 분해하고 사전검색부(8)를 호출한다.

이 경우에 확장사전검색부(10)는 제7B도의 No. 1∼No. 6에 나타낸 각 문자열에 대해 사전검색부(8)를 호출한다.

사전검색부(8)는 문자열의 구성부분에 대해 변환단어사전(11)을 검색한다. 검색이 끝나면 검색결과는 문법검사부(13)로 복귀한다.

문법검사부(13)는 종래의 형식요소해석과 마찬가지로 복귀한 단어를 문법규칙(12)과 대조하고 문자포인터를 진행시켜 형태요소 해석을 계속한다. 형태요소 열이 문법규칙(12)에 적합하지 않을 경우에는 문법검사부(13)는 사전검색부(8)에게 다른 후보를 출력해줄 것을 요구한다. 결과적으로 사전 정보의 형태요소 해석결과는 출력부(14)에 출력된다.

상술한 바와 같이 에러출력을 허용하는 형태요소 해석장치는 실시예 1에서 기술한 사전검색장치를 갖는 확장사전검색부로 형태요소 해석장치를 구성함으로써 얻어진다.

상술한 경우에 입력문자열 S를 사전검색장치(8)에 입력하면 사전검색부(8)는 입력문자열 S에 대해 사전의 단어를 검색한다. 그러나 검색부(8)는 문자열 S=C₁,C₂,…,C_n의 앞부분인 부분문자열 S₁=C₁,C₂,…C_n(in)에 대한 사전의 단어를 검색할 수 있다

실시예 3

상기 실시예 2의 형태요소 해석장치를 사용하면 에러문자를 정정하거나 문장에 있는 상이한 문자체를 표준화하는 문자열 교정장치를 얻을 수 있다. 문자열 교정장치를 이하에 기술한다.

제8도에서 형태요소 구성부(15)는 문법검사부(13)와 출력부(14) 사이에 설치한다. 형태요소 구성부(15)는 문법검사부(13)에서 얻어진 형태요소 해석결과를 구성하고, 구성된 결과를 텍스트로서 출력한다. 예컨대 문법검사부(13)에서 얻어진 형태요소 열의 표기부분을 결과로서 출력하면 텍스트가 얻어진다.

실시예 4

상술한 실시예 1의 사전검색부를 문자인식 후처리장치의 확장사전검색부로 사용함으로서 문자인식후 처리 장치내의 각 문자위치에 있는 후보문자의 수를 줄일 수 있고 또 그 처리속도를 증가시킬 수 있다.

문자인식후 처리장치의 실시예를 제9도를 참조해서 이하에 기술한다.

인쇄문자판독기, 육필문자판독기 등과 같이 문자를 인식하는 입력장치는 판독문자열의 각 문자에 대해 후보문자집합을 할당한다. 입력부(11)는 입력장치에 의해 후보문자집합이 할당된 열을 판독해서 이를 사전검색부(10)에 출력한다.

형태요소 결정부(16)는 문법검사부(13)와 출력부(14) 사이에 접속되어 형태요소 해석결과에 의거 복수의 형태요소 해석후보로부터 적당한 평가함수를 사용해서 후보순위를 결정하여 결정형태요소 해석결과를 출력한다.

다음에는 본 실시예의 문자인식후처리방법을 이하에 기술한다.

이 경우에 OCR(광학문자판독기)는 제10도에 나타낸 바와같은 문자 "(KO) (N) (PI) (YU) (-) (TA)"를 판독한다. OCR은 문자열을 인식하여 각 문자에 대하여 후보문자를 할당한다. 여기서 각 판독문자는 제10도에 나타낸 후보문자로 할당되고 이 후보문자는 확장사전검색부(10)에 출력된다.

입력문자열 변환부(2)는 문자-그룹 ID 변환부(3)의 변환문자정의체(4)를 사용해서 각 후보문자를 그룹수로 변화한다. 제3도에 변환문자정의체(4)의 내용을 나타낸다. 결과로서 그룹멤버, (1), (2,7), (3), (1), (4), (5)가 얻어진다.

사전검색부(8)는 이 그룹멤버에 의해 2개의 그룹수열 "123145"와 "173145"를 얻어서 이 그룹수열에 대해 변환단어사전(7)을 검색한다. 이에 따라 "(KO) (N) (PI) (YU) (-) (TA)"인 단어가 포함된 후보가 얻어진다. 이 후보는 문법검사부(13)에 출력된다.

복수의 후보가 얻어지면 문법검사부(13)는 문법규칙(12)에 따라 형태요소 해석을 실행한다. 형태요소 결정부(16)는 형태요소 해석결과로부터 적당한 평가함수를 사용해서 복수의 형태요소 해석후보의 후보순위를 결정하고 이 형태요소 해석후보를 출력부(14)에 출력한다.

상기의 실시예 4에서는 복수의 유사한 문자를 1개의 그룹으로 간주함으로써 각 문자위치의 후보문자를 그룹으로서 관리한다. 따라서 각 문자위치에서의 후보수가 줄어들므로 후보문자내의 그룹수는 후보문자수에 비해 상대적으로 대폭 줄어든다. 그러므로 속도가 개선된 문자인식후처리장치를 얻을 수 있다.

본 실시예에서 후보문자의 수가 m'수가 줄어드는 경우에는 그룹번호열은 k(m)로 줄어든다. 그러나 각 그룹은 사실상 N1 문자요소로 구성되어 있기 때문에 실제로는의 후보문자가 존재하는 것과 같아진다. 그러므로 후보문자의수가 감소했더라도 지금까지 검색이 불가능했던 정확한 단어를 이 실시예에서는 검색할 수 있는 가능성이 높아졌다.

실시예 5

상기의 실시예 1의 사전검색장치에서는 ID 그룹으로서 그룹번호가 사용되었다. 그러나 적당한 문자나 명칭을 그룹번호대신에 사용할 수도 있다.

이 실시예에서는 실시예 1의 제2도에서의 변환문자정의체(4)의 그룹분류를 제11도에 나타낸 예와같은 내용을 고체하였다.

제11도에서 그룹번호대신에 제2도에 나타낸 변환문자정의체(4)에서의 그룹의 각 멤버문자인 선두문자가 되는 대표문자로 교체하였다. 또한 제2도의 변환단어사전(7)의 그룹번호 대신에 이 대표문자로 교체하였다. "(KO) (N) (PI) (YU) (-) (TA)"인 단어에 대해 그룹 ID 열 "(KO) (SO) (HI) (KO) (-) (TA)"가 주어졌다.

이 실시예의 기타부분은 실시예 1의 부분과 마찬가지이다. 그리고 이 사전검색장치는 실시예 2∼4의 확장 사전검색부(10)에 적용될 수가 있다.

실시예 6

실시예 1 및 5의 사전검색장치에서 하나의 문자는 변환문자정의체(4)에서의 유사한 문자의 그룹분류에 따라 하나의 그룹에 속하게 된다. 그러나 하나의 문자 C₁가 복수의 그룹에 속하게 할 수도 있다.

이 실시예에서는 실시예 1의 제2도에서의 변환문자정의체(4)의 그룹분류대신에 제12도에 나타낸 예와같은 내용으로 교체하였다.

제12도에서 문자(KU)에 붙인 "☆"는 "(GU)", "(TA)", "(DA)"를 갖는 그룹번호 5의 한 요소임과 동시에 "(U)", "(FU)", "(seven)", "(one)"을 갖는 그룹번호 6의 요소이다. 하나의 문자가 복수그룹의 요소가 되기 때문에 문자-그룹 ID 변환부(3)는 하나의 문자에 복수의 해답을 출력한다. 그러나 변환단어사전(7)에서의 유사한 문자그룹수열에 상응한 후보단어의 번호는 단어 "(GU) (TA) (DA)"와 "(U) (FU) (seven) (one)"을 상호간 유사하지 않은 다른 그룹으로 분류함으로써 줄일 수 있다.

이 실시예의 다른 부분은 실시예 1의 해당부분과 동일하다. 그리고 이 사전검색장치는 실시예 2∼4의 확장검색장치에 적용될 수 있다.

실시예 7

실시예 1, 5 및 6의 사전검색장치에서는 각 문자에 하나 또는 그 이상의 그룹이 주어진다. 이 실시예에서는 문자열 S=C₁,C₁₊₁,…C₁₊₁에 그룹 ID가 주어졌다.

이 실시예에서는 문자열-그를 ID 부(3')가 문자-그룹 ID 변환부(3) 대신에 사용된다. 그리고 실시예 1의 제1도에서의 변환문자정의체(4)의 그룹분류대신에 제13도의 예와같은 내용으로 교체하였다.

제13도에서 하나의 한자 "(KA)", 한쌍의 가다까나 "(KA) (RO)" 및 한쌍의 한자 "(KA) (KUCHI)"는 그룹 1로 분류한다. 마차가지로 하나의 한자 "(JIN)", 한쌍의 가다가나 "(I) (NI)", 및 한쌍의 가다까나(I)와 한자 "(NI)"는 그룹 2로 분류하고, 하나의 한자 "(ketsu)"와 한쌍의 한자 "(ITO) (KICHI)"는 그룹 3으로 분류한다.

문자열-그룹 ID의 변환방법으로서 Aho-Cora-sick 방법(Aho-A. and Corasick, M : Efficient String Matching : An Aid to Biblio graphic Search, CACM vol. 18, No. 6(1975))을 이용한다.

즉 문자열-그룹 ID 변환문자정의체(4)에 정의된 모든 변환문자열을 토대로 조회의 도중단계를 상태로서 기억하는 제14도에 나타내는 패턴조합용의 오토마톤을 생성하고, 오토마톤의 어떤 상태에서 불일치가 생길때는 도중의 상태로부터 조합을 할 수 있도록 천이를 결정하도록 한 것이다. 그리고 최종상태에 대하여 변화하는 그룹 ID를 정의해두고 최종상태에 도달할때에는 그 그룹 ID로 변화한다.

상술한 바와 같은 변환문자정의체(4)를 정의함으로써 OCR과 같은 문자인식처리장치가 제13도에서의 그룹 1의 한자문자 "(KA)"를 같은 그룹내의 2개의 가다까나문자인 "(KA)" 및 "(RO)"로 분해하여 판독하거나 또는 같은 그룹인 2개의 한자문자 "(RIKI)" 및 "(KUCHI)"를 같은 그룹의 한자문자 "(KA)"로 조합하여 판독하여도 사전검색이 정확히 이루어진다.

이 실시예의 다른 부분은 실시예 1의 해당부분과 마차가지이다. 이 사전검색장치는 실시예 2∼4의 확장사전검색장치에도 적용할 수가 있으며, 특히 실시예 4의 문자인식후처리장치의 확장사전검색부(10)에 가장 적합하다.

실시예 8

이 실시예에서는 실시예 7을 진행시켜 문자열 S=C₁,C₁₊₁,…C_1+L에 그룹 ID 열 g_j,g_j+1,…, g_j+k를 부여한다.

이 실시예에서 실시예 1의 제3도에서의 변환문자정의체(4)의 그룹분류대신에 제15에 나타낸 예와 같은 내용을 교체한다.

제15도에서 그룹 ID 1은 하나의 가다까나 "(KA)"와 하나의 한자 "(RIKI)"로 주어지고, 그룹 ID 2는 하나의 가다까나 "(RO)"와 하나의 한자 "(KUCHI)"로 주어지고, 그룹 ID 및 2는 하나의 한자 "(KA)"로 주어지고, 그룹 ID 3은 하나의 가다까나 "(I)"로 주어지고, 그룹 ID 4는 하나의 가다까나 "(NI)"와 하나의 한자 "(NI)"로 주어지고, 그룹 ID 3 및 4는 하나의 한자 "(JIN)"로 주어지고, 그룹 ID 5는 하나의 가다까나 "(HI)"로 주어지고,그룹 ID 3 및 5는 하나의 한자 "(KA)"로 주어진다.

이 실시예에서도 실시예 7의 경우와 마찬가지로 Aho-Corasic 방법을 적용하였으나 처리가 최종상태에 도달하면 그룹 ID로 변환되는 대신에 그룹 ID 열로 변환되는 것이 다르다.

이 실시예의 다른 부분은 실시예 1의 해당부분과 마찬가지이다. 이 사전검색장치는 실시예 2∼4의 확장사전검색장치(10)에 적용할 수 있으며, 특히 실시예 4의 사전문자인식처리장치의 확장사전검색부(10)에 가장 적합하다.

실시예 9

상술한 실시예 1, 5∼8에서 하나의 문자 또는 하나의 문자열에 그룹 ID 또는 그룹 ID 열이 주어진다. 그러나 이 실시예에서는 광학패턴표현에 그룹 ID 열 g_j,g_j+1,…, g_j+k가 주어지는 것으로 한다.

이 실시에에서는 문자열-그룹 ID 변환부 (3')를 문자-그룹 ID 변환부(3) 대신에 사용한다. 문자열-그룹 ID 변환부(3')의 예로써 종래의 표현변환을 사용하였다. 또, 실시예 1의 제2도에서의 변환문자정의체(4)의 그룹분류대신에 제16도에 나타낸 예와같은 내용을 교체하였다.

제15도에서 "(E) (-) (TO)"에 있는 "☆"는 메타문자로서 바로 앞의 문자는 0배 이상의 배수로 계속된다.

제15도에서 "(E) (-) (TO)"에 있는 "☆"는 메타문자로서 바로 앞의 문자는 0배 이상의 배수로 계속된다는 것을 의미한다. 패턴열 "(E) (-) (TO)"는 종래의 표현변화에 의해 그룹 ID "4, 101, 20"으로 변환한다.

이 예에서는 패턴열 "(E) (-) (TO)", "(E) (-) (-) (TO)"를 동일 그룹으로 할 수 있다.

이 실시예의 다른 부분은 실시예 1의 해당부분과 마찬가지이다. 이 사전검색장치는 실시예 2∼4의 확장사전검색부(10)에 적용할 수 있다,

본 발명은 다음과 같은 효과를 얻을 수 있다.

1. 지금까지 사전검색이 불가능했던 단어를 변환문자정의체에 정의되어 있는 문자집합을 동일한 것으로 간주함으로써 사전검색을 가능케 한다.

2. 그러므로 에러입력을 포함한 문서도 형태요소 해석이 정확이 실행될 수 있다.

3. 또한 문자열을 표준화하여 에러단어를 정정하는 문자열정정장치도 얻을 수 있다,

4. 문자인식처리장치의 출력의 각 문자위치에서의 후보문자를 관리함으로써 각 문자위치에서의 후보그룹수를 감소시키고 후보문자의 조합수를 감소시킬 수 있으므로 처리속도가 개선된 문자인식후처리장치를 얻을 수 있다.

Claims

입력부로부터 문자열을 변환하여 출력부에 상기의 변환된 문자열을 출력하는 사전검색장치에 있어서, 문자집합 C={C₁,C₂,…C_n}을 몇개의 부분집합(G₁⊂C)으로 분류하여 형성되고, 각 부분집합마다 그룹 ID를 제공하는 변환문자정의체와, 상기 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 입력부로부터 입력된 입력문자열을 입력그룹 ID로 변환하는 입력문자열변환부와, 입력부에 나타난 의미있는 부분문자열과 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환부를 호출하여 사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 변환하는 사전변환부와, 상기 사전변환부에 의해 변환된 단어를 저장하는 변환단어사전과, 상기 입력문자 열변환부에서 변한된 입력그룹 ID 열에 대하여 상기 표기그룹 ID로 표현되어 있는 변환단어사전을 검색하는 사전검색부를 구비한 사전검색장치.
제1항에 있어서, 상기 변한문자정의에는 그룹 ID로써 그룹내의 문자를 대표하는 대표문자를 설정하고, 상기 변환단어사전은 입력문자열의 각 문자대신에 대표문자를 저장하는 사전검색장치.
제1항에 있어서, 상기 변환문자정의체는 하나의 문자 C₁를 복수의 그룹의 요소가 되는 것을 인정하여 문자-그룹 ID 변환부로 복수의 해답을 출력하는 사전검색장치.
제1항에 있어서, 상기 변환문자정의에는 문자열 S=C₁,C₁₊₁,…C_1+K에 대해 그룹 IDg가 주어지는 것을 인정하는 사전검색장치.
제1항에 있어서, 상기 변환문자정의체는 문자열 S=C₁,C₁₊₁,…C_1+K에 대해 그룹 ID 열 g_i,g_i+1,…, g_i+k가 주어지는 것을 인정하는 사전검색장치.
제1항에 있어서, 상기 변환문자정의체는 임의의 패턴표현 ei에 대해 그룹 ID 열 g_j,g_j+1,…, g_j+k가 주어지는 것을 인정하는 사전검색장치.
문장을 해석하는 형태요소 해석장치에 있어서, 확장사전검색부에 문장을 입력하는 입력부와, 상기 입력부로부터 입력된 출력문장의 사전을 검색하는 확장사전검색부로서, 문자집합 C={C₁,C₂,…C_n}를 몇개의 부분집합(G₁⊂C)으로 분류하여 형성하고, 각 부분집합에 그룹 ID를 제공하는 변환문자정의부와, 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 입력부로부터 입력된 입력문자열을 입력그룹 ID 열로 변환하는 입력문자열변환부에 입력부에 나타난 의미있는 부분문자열인 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환부를 호출하여 단어사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 전환하는 사전변환부와, 상기 사전변환부에 의해 변환된 단어를 저장하는 전환단어사전과 상기 입력문자열 변환부에서 변환된 입력그룹 ID 열의 표기그룹 ID로 표현된 변환단어사전을 검색하는 사전검색부를 포함하는 확장사전검색부와, 문법규칙과 사전 검색결과를 문법규칙과 대조하는 형태요소 해석을 실행하고, 형태요소 해석결과를 사전정보와 더불어 출력부에 출력하는 문법검사부를 구비하는 형태요소 해석장치.
문자열 정정장치에 있어서, 입력문장을 확장사전검색장치에 입력하는 입력부와, 상기 입력부로부터 입력된 출력문장의 사전을 검색하는 확장사전검색부로서 문자집합 C={C₁,C₂,…C_n}을 몇개의 부분집합(G₁⊂C)으로 분류하여 형성하고, 각 부분집합에 그룹 ID를 제공하는 변환문자정의체와, 상기 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 상기 입력부로 입력된 입력문자열을 입력그룹 ID 열로 변환하는 입력문자열 변환부와, 상기 입력부에 나타난 의미있는 부분문자열인 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환부를 호출하여 단어사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 변환하는 사전검색부와, 상기 사전검색부에 의해 변환된 단어를 저장하는 변환단어사전과, 상기 입력문자열변환부에서 변환된 입력그룹 ID 열에 대한 표기그룹 ID로 표현된 상기 전환단어사전을 검색하는 사전검색부를 포함하는 확장사전검색부와, 사전 규칙과 사전검색결과를 문법규칙과 대조하는 형태요소 해석을 실행하고, 형태요소 분석결과를 사전정보와 더불어 출력부에 출력하는 문법검사부와, 상기 문법검사부와 출력부 사이에 설치되어 있으며, 상기 문법검사에 의해 형태요소 해석결과를 구성하여 문장을 출력하는 형태요소 구성부를 구비한 문자열정정장치.
문자인식용 후처리장치에 있어서, 문자인식처리장치로부터 확장사전검색장치에 출력하는 입력문자열의 각 문자에 대한 복수의 문자후보를 갖는 후보문자열을 입력하는 입력부와, 상기 입력부로부터 입력된 출력 문장의 사전을 검색하는 확장사전검색부로써 문자집합 C={C₁,C₂,…C_n}를 몇개의 부분집합(G₁⊂C)으로 분류하여 형성하고, 각 부분집합에 그룹 ID를 제공하는 변환문자정의체와 상기 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 상기 입력부로 입력된 입력문자열을 입력그룹 ID 열로 변환하는 입력문자열변환부와, 상기 입력부에 나타난 의미있는 부분문자열인 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환를 호출하여 단어사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 변환하는 사전검색부와, 상기 사전검색부에 의해 변환된 단어를 저장하는 변환단어사전과, 상기 입력문자열변환부에서 변환된 입력그룹 ID 열에 대한 표기그룹 ID로 표현된 상기 변환단어사전을 검색하는 사전검색부를 포함하는 확장사전검색부와, 사전규칙과 사전검색 결과를 문법규칙과 대조하는 형태요소 해석을 실행하고, 형태요소 해석결과를 사전정보와 더불어 출력부에 출력하는 문법검사부와 상기 문법검사부와 입력부 사이에 설치되어 있으며, 적당한 평가함수를 이용하여 상기 문법검사부에 의한 형태요소 해결결과로부터 얻어진 복수의 형태요소 해석후보로부터 후보순위를 결정함으로써 형태요소 해석후보를 출력부에 출력하는 형태요소 결정부를 구비한 문자인식용 후처리장치.