KR970008023B1 - 사전검색장치 - Google Patents

사전검색장치 Download PDF

Info

Publication number
KR970008023B1
KR970008023B1 KR1019940009402A KR19940009402A KR970008023B1 KR 970008023 B1 KR970008023 B1 KR 970008023B1 KR 1019940009402 A KR1019940009402 A KR 1019940009402A KR 19940009402 A KR19940009402 A KR 19940009402A KR 970008023 B1 KR970008023 B1 KR 970008023B1
Authority
KR
South Korea
Prior art keywords
character
dictionary
group
unit
input
Prior art date
Application number
KR1019940009402A
Other languages
English (en)
Other versions
KR950004036A (ko
Inventor
후미히또 니시노
나오미 수기모또
Original Assignee
후지쓰 가부시끼가이샤
세끼자와 다다시
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쓰 가부시끼가이샤, 세끼자와 다다시 filed Critical 후지쓰 가부시끼가이샤
Publication of KR950004036A publication Critical patent/KR950004036A/ko
Application granted granted Critical
Publication of KR970008023B1 publication Critical patent/KR970008023B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

요약없음

Description

사전검색장치
제1도는 입력부로부터 사전검색장치에 입력한 부정확한 입력문자열과 그에 상응하는 정확한 문자열의 예를 나타낸 도면.
제2도는 본 발명의 제1예의 블록도.
제3도는 제1도의 처리를 나타낸 도면.
제4도는 제2도의 입력부로부터 입력한 부정확한 입력문자열과 그에 상응하는 정확한 문자열의 예를 나타낸 도면.
제5도는 제2도의 문자-그룹 ID변환부를 설명한 플로챠트.
제6도는 본 발명의 제2예의 블록도,
제7A도는 제6도의 입력부로부터 입력한 입력열을 나타내고,
제7B도는 제7A도의 입력열로부터 얻은 부분 문자열을 나타낸 도면.
제8도는 본 발명의 제3예의 블록도.
제9도는 본 발명의 제4예의 블록도.
제10도는 제9도의 판독문자 및 후보문자열의 예를 나타낸 도면.
제11도는 본 발명의 제5예의 변환문자정의체 예를 나타낸 도면.
제12도는 본 발명의 제6예의 변환문자정의체 예를 나타낸 도면.
제13도는 본 발명의 제7예의 변환문자정의체 예를 나타낸 도면.
제14도는 본 발명의 제7예에서 사용한 오토마톤(automaton)을 나타낸 도면.
제15도는 본 발명의 제8예의 변환문자정의체 예를 나타낸 도면.
제16도는 본 발명의 제9예의 변환문자정의체 예를 나타낸 도면.
본 발명은 일본어, 중국어, 한국어, 영어등으로 기록된 문서를 여러가지로 처리하기 위하여 사용되는 사전 검색장치에 관한 것이며 특히 본 발명은 사전검색장치를 사용하여 형태요소 해석, 부정확한 문자정정, 문자표준화 또는 문자인식후의 처리를 실행하는 장치에 관한 것이다.
최근에 워드프로세서, 개인용 컴퓨터, 워크스테이션등의 컴퓨터가 널리 사용되고 있다. 문서의 번역, 검색 또는 배포와 같은 여러가지 문서처리는 컴퓨터로 실행하는 것이 바람직하다. 번역등과 같은 처리를 실행하기 위해서는 컴퓨터에 문서를 저장시키고 문서내의 문장에 대해 단어사전을 참조하여 형태요소 해석을 실행한다.
종래의 형태요소 해석은 입력문자열이 컴퓨터에 정확하게 입력된다는 전제하에서 실행되었다. 형태요소 해석을 실행하기 위해서는 문서의 문장을 정확하게 입력하여야 한다.
그러나 현실적으로는 시스템 개발자가 의도하지 않은 여러가지 다른 문자열이 입력문자열로서 입력되는 일이 많다.
제1도에는 일본에 문자로 기록된 부정확한 입력문자열과 그에 상응하는 정확한 문자열의 표기에 대한 예를 나타낸다. 제1도에서 발음은 각 문자열마다 ( )로 표시되어 있다.
제1도의 No. 1에서 정확한 문자열 "(KO)(N)(PI)(YU)(-)(TA)"는 영어로 "컴퓨터"를 의미한다. 부정확한 문자열에서는 장음 기호 '" 대신에 "(minus)"를 사용하고 있다. No. 3에서의 정확한 문자열 "(PA) (-) (ZA) (-)"는 영어로 "파서"를 의미한다. 부정확한 문자열 "(PA) (-) (SA) (-)"에서는 세번째 문자부호 "ZA"가 잘못되었다.
No. 3에서의 정확한 문자열, "(DOKU) (SEN) (JOU)"는 영어로 "경쟁자가 없다"를 의미한다. 부정확한 문자열 "(DOKU) (DAN) (JOU)"에서는 두번째 한자가 모양은 비슷하나 의미가 다른 것이다. 상기의 세가지 입력착오는 유사한 문자를 사용하였기 때문에 일어난 것이다.
No. 4에서는 정확한 문자열과 부정확한 문자열이 다같이 "TO MA TO"라고 발음이 같으며 영어로 "토마토"를 뜻하는 의미도 같다. 그러나 부정확한 문자열에는 히라가나(일본어의 한가지 문자표기법)가 정확한 입력인 가나까나(일본어로 또 하나의 문자표기법) 대신에 입력되어 있다. 이 경우에 부정확한 문자열은 표기상 철자의 다른 형태로 허용이 가능하지만 컴퓨터에서는 이를 부정확한 문자열로 취급한다.
정확한 문자열과 부정확한 문자열간의 상기와 같은 창은 인간에게는 사소한 일에 속할지 모르지만 번역시스템 등에 사용되는 사전에 정확한 단어만을 등록시켰을 경우에는 해석을 정확히 실행하지 못하는 문제가 야기된다.
No. 5에서는 정확한 문자열과 부정확한 문자열이 다같이 "타끼자와"라는 일본의 성을 표시한다. 그 발음과 의미는 다 같으며 그 자체(字體)만이 구식과 신식으로 다를 뿐이다. 이렇게 자체가 다른 것을 사용하는 일은 문서를 작성할때 상이한 환경, 예를들어 사람이 다르거나 혹은 이용하는 가나-한자 전환사전(즉 일본문자-한자전환사전)에 따라 생긴다. 정확한 문자열은 신식체로 기록하므로 구식체로 기록하면 부정확한 문자열이 된다. 표준어에서 탈락된 구식체가 시스템 사전에 등록되어 있지 않으면 그러한 부정확한 문자열은 비등록 단어로 출력되므로 정확한 후보가 종래의 형태요소 분석에는 나타나지 않는다.
또한 인쇄문자 판독기, 육필문자판독기 등과 같은 종래의 문자인식처리는 각 판독문자마다 복수의 후보문자를 출력한다.
문자인식처리장치에 의해 입력문자가 얻어지면 인식후 처리장치는 각 입력문자마다 복수의 후보문자를 받아서 후보문자의 조합을 이용하여 사전을 검색한다. n 길이를 찾는 문자열의 각 문자마다에 m 후보문자가 있을 경우에는 문자인식후 처리장치는 문자열의 mn조합으로부터 사전을 검색하게 된다.
따라서 각 후보문자의 수가 증가해서 후보문자의 조합수가 증가하면 문자인식후 처리속도가 늦어진다.
문자인식후 처리속도를 증가시키기 위하여 종래의 방법에 의해 각 문자위치에서의 후보문자의 수를 m' 후보문자로 줄이도록(m'<m) 시도해 보아도 정확한 문자가 m' 후보문자에서 탈락되어 있으면 정확한 단어를 검색할 수가 없다.
따라서 본 발명의 목적은 지금까지 잘못된 입력으로 인해 사전의 검색이 불가능했던 단어의 사전을 변환 문자정의체로 정의되어 있는 문자집합의 요소를 동일요소로 간주함으로써 검색할 수 있는 사전검색장치를 제공하는데 있다.
본 발명의 다른 목적은 지금까지 사전검색이 불가능했던 단어도 사전검색할 수 있는 상기의 사전검색장치를 사용함으로써 잘못된 입력도 받아들일 수 있는 형태요소 해석장치를 제공하는데 있다.
본 발명의 또 다른 목적은 지금까지 검색이 불가능했던 단어의 사전을 검색할 수 있는 상기의 사전검색장치를 사용함으로써 문자를 표준화해서 잘못된 단어를 정정할 수 있는 문자열 정정장치를 제공하는데 있다.
본 발명의 또다른 목적은 문자인식처리장치의 각 문자위치에서의 후보문자를 그룹화함으로써 각 문자위치에서의 문자후보의 수와 문자후보의 조합수를 줄여서 처리속도를 증가시킬 수 있는 문자인식후의 처리장치를 제공하는데 있다.
상기의 목적을 달성하기 위하여 본 발명은 입력부로부터의 문자열 입력을 변환문자정의체, 문자-그룹 ID 변환부, 입력문자열 변환부, 단어사전, 사전변환부, 변환단어사전 및 사전검색부에 의해 변환하고 그 변환된 문자열을 출력부에 출력하는 사전검색장치를 구성하였다. 변환문자정의체는 문자집합 C={C1,C2……Cn)을 몇개의 부분집합(G1⊂C)으로 분류하여 각 부분집합마다 그룹 ID를 부여하에서 형성된다.
문자그룹 ID변환부는 변환정의체를 이용해서 문자열의 각 문자를 그룹 ID로 교체한다. 입력문자열 변환부는 입력으로부터 입력된 입력문자열을 문자-그룹 ID변환부를 호출해서 입력그룹 ID열로 변환한다. 단어사전은 입력부에 나타난 의미있는 부분 문자열이 되는 단어를 저장한다. 사전변환부는 사전에 정의되어 있는 각 단어의 표기문자열을 문자-그룹 ID변환부를 호출해서 표기그룹 ID열로 변환한다. 변환단어사전은 사전변환부에 의해 변환된 단어를 저장한다. 사전검색장치는 입력문자열 변환부에서 변환된 입력그룹 ID열을 표기그룹 ID로 표현하는 변환단어사전을 검색한다.
문법 G는 비단말기호의 집합 N, 단말기호의 집합 ∑, 생성규칙의 집합 P 및 출발신호 S를 사용해서 G=(N,∑,P,S)로 표시한다. 문법 G상의 언어 L은 L(G)={t|S→*t∧t∈∑*}로 표시하는데, 여기서, ∑*는 ∑ 기호로 형성된 길이가 0 이상의 열의 집합을 의미한다.
여기서 ω, ω'이 단어이며, 문자열이 C1라 하면 ω=C1, C2……, Cn는 ∑에 속하지 않는 단말기호이고, ω'=C1, C2……, C1'……, Cn는 ∑에 속하지 않는 단말기호이다. 도출(導出) S→*μωυ가 있어도 S≠→*μωυ가 없는 경우에는 문법 G는 C1를 C1'로 바꾸기만 하여도 언더 L(G)로 채택되지 않는다. 즉 단 하나의 부정확한 문자때문에 정확한 해석이 불가능해진다.
본 발명에서는 변환문자정의체를 설정함으로써 C1및 C1'를 동일 그룹으로 만드는 변환 F를 도입할 수가 있다(F(ω')). 이때에 문법 GF=(N,F,(∑),P,S)가 정의되어 이 GF를 사용해서 채택되는 언어 L(GF)는 L(GF)={t|S→*F(t)∧F(t)∈∑*}가 된다.
문법 GF하에서 도출 S→ *F(μ)F(ω)F(υ)가 있을 경우에는 F(ω)=F(ω')로부터 도출 S→ *F(μ)F(ω')F(υ)가 생긴다.
즉 이는 변환문자정의체에 의해 동일 그룹으로 대응되는 문자중에 잘못된 것이 있더라도 해석이 정확히 실행된다는 것을 의미한다.
예컨대 상기한 제1도 No. 1의 경우에 장음기호 "(―――)"와 마이너스부호 "(minus)"를 동일 그룹으로 정의한다면 사전에 정확한 문자열만이 정의되어 있더라도(∑에 속함) 입력한 마이너스부호인 "minus"를 사용한 부정확한 문자열 대신에 장음기호 " (―――)"를 사용한 정확한 단어를 찾을 수가 있으므로 문자열의 교정이 가능하다.
제1도 No. 5에서는 각 다른 문자체가 동일 그룹에 정의되어 있고 신식체를 사용한 정확한 문자열만이 등록되어 있다면 입력한 구식체를 사용한 부정확한 단어 대신에 신식체를 사용한 정확한 단어를 검색할 수가 있으므로 문자열 표준화의 실행이 가능해진다.
본 발명의 다른 태양으로서 기계번역이나 자연언어 인터페이스와 같은 문장해석장치에서는 잘못된 입력을 허용하는 형태요소 해석장치가 입력부, 확장사전검색부, 문법규칙 및 문법검사부로 구성된다. 입력부는 문장을 확장사전검색부에 입력한다.
확장사전검색부는 상기의 사전검색장치를 가지며 입력부로부터의 출력문자에 대한 사전을 검색한다.
문법부는 사전검색의 결과를 문법규칙과 대조해서 형태요소 해석을 실행하여 형태요소 해석결과를 사전정보와 더불어 출력한다.
본 발명의 다른 태양으로서 문법검사부와 출력문자에 의한 형태요소 해석의 결과를 복합하는 형태요소 복합부를 설치함으로써 형태요소 해석장치내에 문자열 정정장치를 구비한다.
본 발명의 또다른 태양으로서 문자인식처리장치로부터의 후보문자열 출력을 입력부에 입력하고 형태요소 결정부를 문법검사부와 출력부사이에 설치함으로써 형태요소 해석장치내에 인식후의 처리장치를 구비한다.
후보문자열은 문자인식처리장치에 의해 얻어진 입력문자열의 각 문자에 대한 복수의 후보문자를 갖는다. 형태요소 결정부는 문법검사부에 의한 형태요소 해석결과로부터 얻어진 복수의 형태요소 해석후보로부터 평가함수를 이용하여 후보순위를 결정함으로써 형태요소 해석후보를 출력부에 출력한다.
문자인식후의 처리장치에서는 문자인식처리장치로부터의 후보문자입력이 각 후보문자에 대응하는 그룹수로 변환한다. 그러므로 문자인식처리장치에 의해 잘못 판독되기 쉬운 유사한 문자는 동일 그룹으로 그룹화시키는 것과 마찬가지로 변환문자정의체를 미리 정의해둔다. 따라서 후보문자의 그룹수가 감소함에 따라 사전대조를 위한 후보문자의 조합수도 감소한다. 그리고 문자처리장치로부터 출력된 후보문자에 부정호가한 문자가 포함되어 있더라도 동일 그룹에 부정확한 문자와 유사한 정확한 문자가 들어있으면 정확한 단어를 찾을 수 있다.
실시예
일본어로 기록된 문서처리로 적용되는 본 발명의 사전검색장치, 형태요소 해석장치, 문자열 정정장치 및 문자인식후의 장치의 예를 이하에 기술한다. 그러나 본 발명은 일본어외에도 영어, 중국어, 한국어등과 같은 다른 언어에도 적용이 가능하다. 또한 본 발명은 자연어뿐 아니라 어휘와 문법규칙을 정의한 프로그램언어에도 적용할 수 있다.
이하의 실시예에서는 동일 기능을 갖는 것에는 각 도면상에 동일 부호를 사용하고 또 중복설명은 피한다.
실시예 1
본 발명의 사전검색장치를 이하에 기술한다.
제2도는 이 실시예의 블록도이다.
입력부(1)는 파일, 입력장치등으로부터의 문자열을 판독하고 입력문자열의 부호와 문자열을 출력한다. 입력문자열변환부(2)는 입력부(1)로부터 입력된 입력문자열을 문자그룹 ID변환부(3)를 호출해서 입력그룹 ID 열로 변환한다. 문자그룹 ID변환부(3)는 변환문자정의체(4)를 이용하여 문자열의 각 문자를 그룹 ID로 대체한다.
변환문자정의체(4)는 문자집합 C=C1,C2……, Cn을 몇개의 부분집합 (G1⊂C)으로 분류하고 각 부분집합에 그룹 ID를 부여하여 형성한다. 사전변환부(5)는 문자그룹 ID변환부(3)을 호출해서 단어사전(6)에 정의된 각 단어의 표기문자열을 표기그룹열에 변환하고 표기그룹 ID에 의해 미리 정의해둔 변환단어사전(7)을 만든다
단어사전(6)은 입력부(1)에 나타난 의미있는 부분문자열의 단어를 저장한다.
변환단어사전(7)은 변환문자정의체(4)의 정의에 의거 사전변환부(5)에 의해 단어사전(6)의 표기부를 그를 ID로 대체할 문자이다.
사전검색부(8)는 입력문자변환부(2)에서 변환된 입력그룹 ID열에 대한 표기그룹 ID에 의해 기록된 변환 단어사전(7)을 검색하고, 그 결과를 출력부(9)에 출력한다.
다음에 상기의 사전검색장치를 제3도를 참조해서 기술한다.
입력부(1)에서 파일, 키보드등으로부터 문자열을 판독하여 입력문자열변환부(2)에 출력한다. 제4도에 부정확한 문자열과 그에 상응하는 정확한 문자열의 일본어로 된 예를 나타낸다. 제4도에서 각 문자열은 표기와 같이 나타내고 발음은 ( )에 표시하였다. 제4도의 정확한 문자열 "(KO) (N) (PI) (YU) (-) (TA)"는 영어로 컴퓨터를 의미하고 발음 ""는 모음을 길게 발음하는 장음기호이다. 부정확한 문자열에서는 셋째번 문자 "(PI)"가 잘못되어 있어 정확한 문자 "(PI)"가 "(HI)"로 바뀐 것이다.
제3도에서 입력문자열변환부(2)는 입력부(1)로부터 공급된 문자열의 각 문자를 문자그룹 ID변환부(3)에 의해 그룹 ID로 변환한다.
문자-그룹 ID변환부(3)의 처리를 제5도의 플로챠트를 참조해서 기술한다.
스텝 1에서 변환코자 하는 문자열 S를 입력한다.
스텝 2에서 포인터 D가 문자열 S의 선두문자를 지시하도록 값을 설정한다.
스텝 3에서 포인터가 문자열의 끝(최종 문자의 뒤)을 가르키는지의 여부를 판정한다. 포인터가 문자열 S의 끝을 가르키는 경우에는 변환처리를 끝내고 그룹 ID로 교체된 문자열을 사전검색부(8)로 복귀시킨다.
포인터 P가 문자열의 끝을 가르키지 않을 경우에는 처리는 스텝 4로 진행된다.
스텝 4에서 포인터 P가 가르키는 문자 C1는 제3도의 변환문자정의체에 의해 정의되어 있는 그룹 IDg1로 치환된다.
스텝 5에서 포인터 P는 1문자만큼 진행하고 처리하는 스텝 3으로 복귀한다.
제3도에 상기한 처리에 의해 입력부(1)로부터 문자열변환부(2)로 입력되는 입력문자열 "(KO) (N) (HI) (YU) (-) (TA)"는 입력그룹 ID열 "123145"로 변환되어 사전검색부(8)로 출력된다.
다음에는 사전검색부(8)에 의해 검색되는 변환단어사전(7)에 대해 기술한다.
단어사전(6)은 입력부(1)에 나타난 의미있는 부분문자열을 저장한다. 제3도에 단어사전(6)의 일부분을 나타낸다.
제3도에는 표기, 발음 및 품사만을 나타내고 있지만 의미적인 속성등과 같은 여러가지 정보도 부가시킬 수가 있다.
사전변환부(5)는 문자그룹 ID열 변환부(3)를 호출하여 단어사전(6)에 정의되어 있는 각 단어의 표기문자열을 그룹 ID열로 변환하고 변환단어사전(7)은 이 그룹 ID열을 저장한다. 제3도에 변환단어사전(7)의 단어의 일부와 그에 상응하는 문자그룹열을 나타낸다.
사전검색부(8)는 입력그룹 ID열에 상응하는 키(key)로서 그룹 ID열을 갖는 사전요소를 변환단어사전(7)으로부터 검색한다.
입력그룹 ID열 "12345"에 대한 사전검색 결과로서 "(KO) (N) (PI) (YU) (-) (TA) 123145"가 검색된다. 상기한 바와같이 본 실시예에 의하면 지금까지 검색이 불가능했던 부정확한 단어 "(KO) (N) (HI) (YU) (-) (TA)"도 정확한 단어 "(KO) (N) (PI) (YU) (-) (TA)"로 검색이 가능하다.
상기의 예에서는 변환문자정의체(4)는 유사한 문자집합으로 형성하였다. 그러나 변환문자정의체(4)는 가다까나와 히라가나로 된 한쌍의 집합, 신식자체와 구식자체의 집합등으로도 형성할 수 있다.
상기한 바와같이 변환문자정의체에 정의되어 있는 문자열의 요소들을 동일한 것으로 간주하기 때문에 지금까지 검색이 불가능했던 부정확한 입력단어를 검색할 수가 있다.
또한 단어사전(6) 및 변환단어사전(7)을 전방 일치압축구조, 2진 트리(binary tree), TRIE구조와 같은 통상의 지연어처리에서 사용되는 단어사전과 유사한 사전구조로도 할 수 있다.
실시예 2
상기 실시예 1의 사전검색장치를 확장사전검색부로 사용함으로써 기계번역, 자연어 인터페이스등의 문장을 해석하는 형태요소 해석장치는 에러입력을 허용하는 형태요소를 해석하는 것이 가능하다. 상기의 해석을 실행하는 형태요소 해석장치의 예를 이하에 기술한다.
제6도는 이 실시예의 블록도이다.
확장사전검색장치(10)는 상기 실시예 1에서 기술한 사전검색장치와 같은 구조를 갖는다. 이 확장검색부(10)는 후술하는 입력부(11)로부터 입력한 텍스트를 관리하여 텍스트내의 임의의 위치로부터 사전을 검색하고 문서검사부(13)와 함께 작용하여 다른 후보의 검색을 제어한다. 확장사전검색부(10)의 각 블록(2)∼(8)은 제2도의 블록숫자와 동일하다.
입력부(11)는 파일, 입력장치등으로부터의 문자열을 판독하여 입력문자열의 부호화된 문자열을 출력한다.
문법규칙(12)은 입력테스트의 문법을 공급한다. 이 문법규칙(12)에는 종래의 문법규칙을 이용할 수 있다.
문법검사부(13)는 확장사전검색부(10)로부터의 출력인 형태요소별이 문법규칙(12)에 적합한지의 여부를 판단한다.
적합하지 않을 경우에는 문법검사부(13)가 확장사전검색부(10)에게 다른 후보를 출력해줄것을 요구한다. 문법검사부(13)는 인접행렬과 같은 종전의 형태요소 해석을 사용하거나 문맥자유 문법규칙을 이용할 수 있다.
출력부(14)는 문법검사부(13)에서 적합하다고 판단한 형태요소 해석의 결과를 출력한다.
이 실시예에서는 입력부(11)로부터의 입력인 입력열이 단어만이 아니라 문장도 공급된다. 제7A도에 나타낸 "(TA) (N) (GO) (WO) (ODO) (RU)"는 영어로 "탱고를 추다"를 의미하는 입력이다.
확장사전검색부(10)는 입력문자열을 부분문자열로 분해하고 사전검색부(8)를 호출한다.
이 경우에 확장사전검색부(10)는 제7B도의 No. 1∼No. 6에 나타낸 각 문자열에 대해 사전검색부(8)를 호출한다.
사전검색부(8)는 문자열의 구성부분에 대해 변환단어사전(11)을 검색한다. 검색이 끝나면 검색결과는 문법검사부(13)로 복귀한다.
문법검사부(13)는 종래의 형식요소해석과 마찬가지로 복귀한 단어를 문법규칙(12)과 대조하고 문자포인터를 진행시켜 형태요소 해석을 계속한다. 형태요소 열이 문법규칙(12)에 적합하지 않을 경우에는 문법검사부(13)는 사전검색부(8)에게 다른 후보를 출력해줄 것을 요구한다. 결과적으로 사전 정보의 형태요소 해석결과는 출력부(14)에 출력된다.
상술한 바와 같이 에러출력을 허용하는 형태요소 해석장치는 실시예 1에서 기술한 사전검색장치를 갖는 확장사전검색부로 형태요소 해석장치를 구성함으로써 얻어진다.
상술한 경우에 입력문자열 S를 사전검색장치(8)에 입력하면 사전검색부(8)는 입력문자열 S에 대해 사전의 단어를 검색한다. 그러나 검색부(8)는 문자열 S=C1,C2,…,Cn의 앞부분인 부분문자열 S1=C1,C2,…Cn(in)에 대한 사전의 단어를 검색할 수 있다
실시예 3
상기 실시예 2의 형태요소 해석장치를 사용하면 에러문자를 정정하거나 문장에 있는 상이한 문자체를 표준화하는 문자열 교정장치를 얻을 수 있다. 문자열 교정장치를 이하에 기술한다.
제8도에서 형태요소 구성부(15)는 문법검사부(13)와 출력부(14) 사이에 설치한다. 형태요소 구성부(15)는 문법검사부(13)에서 얻어진 형태요소 해석결과를 구성하고, 구성된 결과를 텍스트로서 출력한다. 예컨대 문법검사부(13)에서 얻어진 형태요소 열의 표기부분을 결과로서 출력하면 텍스트가 얻어진다.
실시예 4
상술한 실시예 1의 사전검색부를 문자인식 후처리장치의 확장사전검색부로 사용함으로서 문자인식후 처리 장치내의 각 문자위치에 있는 후보문자의 수를 줄일 수 있고 또 그 처리속도를 증가시킬 수 있다.
문자인식후 처리장치의 실시예를 제9도를 참조해서 이하에 기술한다.
인쇄문자판독기, 육필문자판독기 등과 같이 문자를 인식하는 입력장치는 판독문자열의 각 문자에 대해 후보문자집합을 할당한다. 입력부(11)는 입력장치에 의해 후보문자집합이 할당된 열을 판독해서 이를 사전검색부(10)에 출력한다.
형태요소 결정부(16)는 문법검사부(13)와 출력부(14) 사이에 접속되어 형태요소 해석결과에 의거 복수의 형태요소 해석후보로부터 적당한 평가함수를 사용해서 후보순위를 결정하여 결정형태요소 해석결과를 출력한다.
다음에는 본 실시예의 문자인식후처리방법을 이하에 기술한다.
이 경우에 OCR(광학문자판독기)는 제10도에 나타낸 바와같은 문자 "(KO) (N) (PI) (YU) (-) (TA)"를 판독한다. OCR은 문자열을 인식하여 각 문자에 대하여 후보문자를 할당한다. 여기서 각 판독문자는 제10도에 나타낸 후보문자로 할당되고 이 후보문자는 확장사전검색부(10)에 출력된다.
입력문자열 변환부(2)는 문자-그룹 ID 변환부(3)의 변환문자정의체(4)를 사용해서 각 후보문자를 그룹수로 변화한다. 제3도에 변환문자정의체(4)의 내용을 나타낸다. 결과로서 그룹멤버, (1), (2,7), (3), (1), (4), (5)가 얻어진다.
사전검색부(8)는 이 그룹멤버에 의해 2개의 그룹수열 "123145"와 "173145"를 얻어서 이 그룹수열에 대해 변환단어사전(7)을 검색한다. 이에 따라 "(KO) (N) (PI) (YU) (-) (TA)"인 단어가 포함된 후보가 얻어진다. 이 후보는 문법검사부(13)에 출력된다.
복수의 후보가 얻어지면 문법검사부(13)는 문법규칙(12)에 따라 형태요소 해석을 실행한다. 형태요소 결정부(16)는 형태요소 해석결과로부터 적당한 평가함수를 사용해서 복수의 형태요소 해석후보의 후보순위를 결정하고 이 형태요소 해석후보를 출력부(14)에 출력한다.
상기의 실시예 4에서는 복수의 유사한 문자를 1개의 그룹으로 간주함으로써 각 문자위치의 후보문자를 그룹으로서 관리한다. 따라서 각 문자위치에서의 후보수가 줄어들므로 후보문자내의 그룹수는 후보문자수에 비해 상대적으로 대폭 줄어든다. 그러므로 속도가 개선된 문자인식후처리장치를 얻을 수 있다.
본 실시예에서 후보문자의 수가 m'수가 줄어드는 경우에는 그룹번호열은 k(m)로 줄어든다. 그러나 각 그룹은 사실상 N1 문자요소로 구성되어 있기 때문에 실제로는의 후보문자가 존재하는 것과 같아진다. 그러므로 후보문자의수가 감소했더라도 지금까지 검색이 불가능했던 정확한 단어를 이 실시예에서는 검색할 수 있는 가능성이 높아졌다.
실시예 5
상기의 실시예 1의 사전검색장치에서는 ID 그룹으로서 그룹번호가 사용되었다. 그러나 적당한 문자나 명칭을 그룹번호대신에 사용할 수도 있다.
이 실시예에서는 실시예 1의 제2도에서의 변환문자정의체(4)의 그룹분류를 제11도에 나타낸 예와같은 내용을 고체하였다.
제11도에서 그룹번호대신에 제2도에 나타낸 변환문자정의체(4)에서의 그룹의 각 멤버문자인 선두문자가 되는 대표문자로 교체하였다. 또한 제2도의 변환단어사전(7)의 그룹번호 대신에 이 대표문자로 교체하였다. "(KO) (N) (PI) (YU) (-) (TA)"인 단어에 대해 그룹 ID 열 "(KO) (SO) (HI) (KO) (-) (TA)"가 주어졌다.
이 실시예의 기타부분은 실시예 1의 부분과 마찬가지이다. 그리고 이 사전검색장치는 실시예 2∼4의 확장 사전검색부(10)에 적용될 수가 있다.
실시예 6
실시예 1 및 5의 사전검색장치에서 하나의 문자는 변환문자정의체(4)에서의 유사한 문자의 그룹분류에 따라 하나의 그룹에 속하게 된다. 그러나 하나의 문자 C1가 복수의 그룹에 속하게 할 수도 있다.
이 실시예에서는 실시예 1의 제2도에서의 변환문자정의체(4)의 그룹분류대신에 제12도에 나타낸 예와같은 내용으로 교체하였다.
제12도에서 문자(KU)에 붙인 "☆"는 "(GU)", "(TA)", "(DA)"를 갖는 그룹번호 5의 한 요소임과 동시에 "(U)", "(FU)", "(seven)", "(one)"을 갖는 그룹번호 6의 요소이다. 하나의 문자가 복수그룹의 요소가 되기 때문에 문자-그룹 ID 변환부(3)는 하나의 문자에 복수의 해답을 출력한다. 그러나 변환단어사전(7)에서의 유사한 문자그룹수열에 상응한 후보단어의 번호는 단어 "(GU) (TA) (DA)"와 "(U) (FU) (seven) (one)"을 상호간 유사하지 않은 다른 그룹으로 분류함으로써 줄일 수 있다.
이 실시예의 다른 부분은 실시예 1의 해당부분과 동일하다. 그리고 이 사전검색장치는 실시예 2∼4의 확장검색장치에 적용될 수 있다.
실시예 7
실시예 1, 5 및 6의 사전검색장치에서는 각 문자에 하나 또는 그 이상의 그룹이 주어진다. 이 실시예에서는 문자열 S=C1,C1+1,…C1+1에 그룹 ID가 주어졌다.
이 실시예에서는 문자열-그를 ID 부(3')가 문자-그룹 ID 변환부(3) 대신에 사용된다. 그리고 실시예 1의 제1도에서의 변환문자정의체(4)의 그룹분류대신에 제13도의 예와같은 내용으로 교체하였다.
제13도에서 하나의 한자 "(KA)", 한쌍의 가다까나 "(KA) (RO)" 및 한쌍의 한자 "(KA) (KUCHI)"는 그룹 1로 분류한다. 마차가지로 하나의 한자 "(JIN)", 한쌍의 가다가나 "(I) (NI)", 및 한쌍의 가다까나(I)와 한자 "(NI)"는 그룹 2로 분류하고, 하나의 한자 "(ketsu)"와 한쌍의 한자 "(ITO) (KICHI)"는 그룹 3으로 분류한다.
문자열-그룹 ID의 변환방법으로서 Aho-Cora-sick 방법(Aho-A. and Corasick, M : Efficient String Matching : An Aid to Biblio graphic Search, CACM vol. 18, No. 6(1975))을 이용한다.
즉 문자열-그룹 ID 변환문자정의체(4)에 정의된 모든 변환문자열을 토대로 조회의 도중단계를 상태로서 기억하는 제14도에 나타내는 패턴조합용의 오토마톤을 생성하고, 오토마톤의 어떤 상태에서 불일치가 생길때는 도중의 상태로부터 조합을 할 수 있도록 천이를 결정하도록 한 것이다. 그리고 최종상태에 대하여 변화하는 그룹 ID를 정의해두고 최종상태에 도달할때에는 그 그룹 ID로 변화한다.
상술한 바와 같은 변환문자정의체(4)를 정의함으로써 OCR과 같은 문자인식처리장치가 제13도에서의 그룹 1의 한자문자 "(KA)"를 같은 그룹내의 2개의 가다까나문자인 "(KA)" 및 "(RO)"로 분해하여 판독하거나 또는 같은 그룹인 2개의 한자문자 "(RIKI)" 및 "(KUCHI)"를 같은 그룹의 한자문자 "(KA)"로 조합하여 판독하여도 사전검색이 정확히 이루어진다.
이 실시예의 다른 부분은 실시예 1의 해당부분과 마차가지이다. 이 사전검색장치는 실시예 2∼4의 확장사전검색장치에도 적용할 수가 있으며, 특히 실시예 4의 문자인식후처리장치의 확장사전검색부(10)에 가장 적합하다.
실시예 8
이 실시예에서는 실시예 7을 진행시켜 문자열 S=C1,C1+1,…C1+L에 그룹 ID 열 gj,gj+1,…, gj+k를 부여한다.
이 실시예에서 실시예 1의 제3도에서의 변환문자정의체(4)의 그룹분류대신에 제15에 나타낸 예와 같은 내용을 교체한다.
제15도에서 그룹 ID 1은 하나의 가다까나 "(KA)"와 하나의 한자 "(RIKI)"로 주어지고, 그룹 ID 2는 하나의 가다까나 "(RO)"와 하나의 한자 "(KUCHI)"로 주어지고, 그룹 ID 및 2는 하나의 한자 "(KA)"로 주어지고, 그룹 ID 3은 하나의 가다까나 "(I)"로 주어지고, 그룹 ID 4는 하나의 가다까나 "(NI)"와 하나의 한자 "(NI)"로 주어지고, 그룹 ID 3 및 4는 하나의 한자 "(JIN)"로 주어지고, 그룹 ID 5는 하나의 가다까나 "(HI)"로 주어지고,그룹 ID 3 및 5는 하나의 한자 "(KA)"로 주어진다.
이 실시예에서도 실시예 7의 경우와 마찬가지로 Aho-Corasic 방법을 적용하였으나 처리가 최종상태에 도달하면 그룹 ID로 변환되는 대신에 그룹 ID 열로 변환되는 것이 다르다.
이 실시예의 다른 부분은 실시예 1의 해당부분과 마찬가지이다. 이 사전검색장치는 실시예 2∼4의 확장사전검색장치(10)에 적용할 수 있으며, 특히 실시예 4의 사전문자인식처리장치의 확장사전검색부(10)에 가장 적합하다.
실시예 9
상술한 실시예 1, 5∼8에서 하나의 문자 또는 하나의 문자열에 그룹 ID 또는 그룹 ID 열이 주어진다. 그러나 이 실시예에서는 광학패턴표현에 그룹 ID 열 gj,gj+1,…, gj+k가 주어지는 것으로 한다.
이 실시에에서는 문자열-그룹 ID 변환부 (3')를 문자-그룹 ID 변환부(3) 대신에 사용한다. 문자열-그룹 ID 변환부(3')의 예로써 종래의 표현변환을 사용하였다. 또, 실시예 1의 제2도에서의 변환문자정의체(4)의 그룹분류대신에 제16도에 나타낸 예와같은 내용을 교체하였다.
제15도에서 "(E) (-) (TO)"에 있는 "☆"는 메타문자로서 바로 앞의 문자는 0배 이상의 배수로 계속된다.
제15도에서 "(E) (-) (TO)"에 있는 "☆"는 메타문자로서 바로 앞의 문자는 0배 이상의 배수로 계속된다는 것을 의미한다. 패턴열 "(E) (-) (TO)"는 종래의 표현변화에 의해 그룹 ID "4, 101, 20"으로 변환한다.
이 예에서는 패턴열 "(E) (-) (TO)", "(E) (-) (-) (TO)"를 동일 그룹으로 할 수 있다.
이 실시예의 다른 부분은 실시예 1의 해당부분과 마찬가지이다. 이 사전검색장치는 실시예 2∼4의 확장사전검색부(10)에 적용할 수 있다,
본 발명은 다음과 같은 효과를 얻을 수 있다.
1. 지금까지 사전검색이 불가능했던 단어를 변환문자정의체에 정의되어 있는 문자집합을 동일한 것으로 간주함으로써 사전검색을 가능케 한다.
2. 그러므로 에러입력을 포함한 문서도 형태요소 해석이 정확이 실행될 수 있다.
3. 또한 문자열을 표준화하여 에러단어를 정정하는 문자열정정장치도 얻을 수 있다,
4. 문자인식처리장치의 출력의 각 문자위치에서의 후보문자를 관리함으로써 각 문자위치에서의 후보그룹수를 감소시키고 후보문자의 조합수를 감소시킬 수 있으므로 처리속도가 개선된 문자인식후처리장치를 얻을 수 있다.

Claims (9)

  1. 입력부로부터 문자열을 변환하여 출력부에 상기의 변환된 문자열을 출력하는 사전검색장치에 있어서, 문자집합 C={C1,C2,…Cn}을 몇개의 부분집합(G1⊂C)으로 분류하여 형성되고, 각 부분집합마다 그룹 ID를 제공하는 변환문자정의체와, 상기 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 입력부로부터 입력된 입력문자열을 입력그룹 ID로 변환하는 입력문자열변환부와, 입력부에 나타난 의미있는 부분문자열과 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환부를 호출하여 사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 변환하는 사전변환부와, 상기 사전변환부에 의해 변환된 단어를 저장하는 변환단어사전과, 상기 입력문자 열변환부에서 변한된 입력그룹 ID 열에 대하여 상기 표기그룹 ID로 표현되어 있는 변환단어사전을 검색하는 사전검색부를 구비한 사전검색장치.
  2. 제1항에 있어서, 상기 변한문자정의에는 그룹 ID로써 그룹내의 문자를 대표하는 대표문자를 설정하고, 상기 변환단어사전은 입력문자열의 각 문자대신에 대표문자를 저장하는 사전검색장치.
  3. 제1항에 있어서, 상기 변환문자정의체는 하나의 문자 C1를 복수의 그룹의 요소가 되는 것을 인정하여 문자-그룹 ID 변환부로 복수의 해답을 출력하는 사전검색장치.
  4. 제1항에 있어서, 상기 변환문자정의에는 문자열 S=C1,C1+1,…C1+K에 대해 그룹 IDg가 주어지는 것을 인정하는 사전검색장치.
  5. 제1항에 있어서, 상기 변환문자정의체는 문자열 S=C1,C1+1,…C1+K에 대해 그룹 ID 열 gi,gi+1,…, gi+k가 주어지는 것을 인정하는 사전검색장치.
  6. 제1항에 있어서, 상기 변환문자정의체는 임의의 패턴표현 ei에 대해 그룹 ID 열 gj,gj+1,…, gj+k가 주어지는 것을 인정하는 사전검색장치.
  7. 문장을 해석하는 형태요소 해석장치에 있어서, 확장사전검색부에 문장을 입력하는 입력부와, 상기 입력부로부터 입력된 출력문장의 사전을 검색하는 확장사전검색부로서, 문자집합 C={C1,C2,…Cn}를 몇개의 부분집합(G1⊂C)으로 분류하여 형성하고, 각 부분집합에 그룹 ID를 제공하는 변환문자정의부와, 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 입력부로부터 입력된 입력문자열을 입력그룹 ID 열로 변환하는 입력문자열변환부에 입력부에 나타난 의미있는 부분문자열인 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환부를 호출하여 단어사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 전환하는 사전변환부와, 상기 사전변환부에 의해 변환된 단어를 저장하는 전환단어사전과 상기 입력문자열 변환부에서 변환된 입력그룹 ID 열의 표기그룹 ID로 표현된 변환단어사전을 검색하는 사전검색부를 포함하는 확장사전검색부와, 문법규칙과 사전 검색결과를 문법규칙과 대조하는 형태요소 해석을 실행하고, 형태요소 해석결과를 사전정보와 더불어 출력부에 출력하는 문법검사부를 구비하는 형태요소 해석장치.
  8. 문자열 정정장치에 있어서, 입력문장을 확장사전검색장치에 입력하는 입력부와, 상기 입력부로부터 입력된 출력문장의 사전을 검색하는 확장사전검색부로서 문자집합 C={C1,C2,…Cn}을 몇개의 부분집합(G1⊂C)으로 분류하여 형성하고, 각 부분집합에 그룹 ID를 제공하는 변환문자정의체와, 상기 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 상기 입력부로 입력된 입력문자열을 입력그룹 ID 열로 변환하는 입력문자열 변환부와, 상기 입력부에 나타난 의미있는 부분문자열인 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환부를 호출하여 단어사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 변환하는 사전검색부와, 상기 사전검색부에 의해 변환된 단어를 저장하는 변환단어사전과, 상기 입력문자열변환부에서 변환된 입력그룹 ID 열에 대한 표기그룹 ID로 표현된 상기 전환단어사전을 검색하는 사전검색부를 포함하는 확장사전검색부와, 사전 규칙과 사전검색결과를 문법규칙과 대조하는 형태요소 해석을 실행하고, 형태요소 분석결과를 사전정보와 더불어 출력부에 출력하는 문법검사부와, 상기 문법검사부와 출력부 사이에 설치되어 있으며, 상기 문법검사에 의해 형태요소 해석결과를 구성하여 문장을 출력하는 형태요소 구성부를 구비한 문자열정정장치.
  9. 문자인식용 후처리장치에 있어서, 문자인식처리장치로부터 확장사전검색장치에 출력하는 입력문자열의 각 문자에 대한 복수의 문자후보를 갖는 후보문자열을 입력하는 입력부와, 상기 입력부로부터 입력된 출력 문장의 사전을 검색하는 확장사전검색부로써 문자집합 C={C1,C2,…Cn}를 몇개의 부분집합(G1⊂C)으로 분류하여 형성하고, 각 부분집합에 그룹 ID를 제공하는 변환문자정의체와 상기 변환문자정의체를 사용하여 문자열의 각 문자를 그룹 ID로 교체하는 문자-그룹 ID 변환부와, 상기 문자-그룹 ID 변환부를 호출하여 상기 입력부로 입력된 입력문자열을 입력그룹 ID 열로 변환하는 입력문자열변환부와, 상기 입력부에 나타난 의미있는 부분문자열인 단어를 저장하는 단어사전과, 상기 문자-그룹 ID 변환를 호출하여 단어사전에 정의되어 있는 각 단어의 표기문자열을 표기그룹 ID 열로 변환하는 사전검색부와, 상기 사전검색부에 의해 변환된 단어를 저장하는 변환단어사전과, 상기 입력문자열변환부에서 변환된 입력그룹 ID 열에 대한 표기그룹 ID로 표현된 상기 변환단어사전을 검색하는 사전검색부를 포함하는 확장사전검색부와, 사전규칙과 사전검색 결과를 문법규칙과 대조하는 형태요소 해석을 실행하고, 형태요소 해석결과를 사전정보와 더불어 출력부에 출력하는 문법검사부와 상기 문법검사부와 입력부 사이에 설치되어 있으며, 적당한 평가함수를 이용하여 상기 문법검사부에 의한 형태요소 해결결과로부터 얻어진 복수의 형태요소 해석후보로부터 후보순위를 결정함으로써 형태요소 해석후보를 출력부에 출력하는 형태요소 결정부를 구비한 문자인식용 후처리장치.
KR1019940009402A 1993-07-19 1994-04-30 사전검색장치 KR970008023B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP5178209A JPH0736882A (ja) 1993-07-19 1993-07-19 辞書検索装置
JP93-178209 1993-07-19

Publications (2)

Publication Number Publication Date
KR950004036A KR950004036A (ko) 1995-02-17
KR970008023B1 true KR970008023B1 (ko) 1997-05-20

Family

ID=16044492

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940009402A KR970008023B1 (ko) 1993-07-19 1994-04-30 사전검색장치

Country Status (4)

Country Link
US (1) US5615378A (ko)
JP (1) JPH0736882A (ko)
KR (1) KR970008023B1 (ko)
CN (1) CN1095137C (ko)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978421B1 (en) * 1994-06-19 2005-12-20 Mitsuhiro Aida Handwriting text input system
JP2773652B2 (ja) * 1994-08-04 1998-07-09 日本電気株式会社 機械翻訳装置
JP2817776B2 (ja) * 1995-05-25 1998-10-30 日本電気株式会社 単語変換装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
KR100318573B1 (ko) * 1996-10-16 2001-12-28 마찌다 가쯔히꼬 문자 입력 장치 및 문자 입력 프로그램을 기억한 기록 매체
US5907838A (en) * 1996-12-10 1999-05-25 Seiko Epson Corporation Information search and collection method and system
US5970449A (en) * 1997-04-03 1999-10-19 Microsoft Corporation Text normalization using a context-free grammar
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001325252A (ja) * 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
KR20020018326A (ko) * 2000-09-01 2002-03-08 김시환 정보 검색 시스템과 그 방법
US20020093535A1 (en) * 2001-01-17 2002-07-18 Murphy Michael William User interface for character entry using a minimum number of selection keys
US6986106B2 (en) 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US20030233237A1 (en) * 2002-06-17 2003-12-18 Microsoft Corporation Integration of speech and stylus input to provide an efficient natural input experience
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
JP3910894B2 (ja) * 2002-09-03 2007-04-25 株式会社コナミデジタルエンタテインメント サーバ装置及びプログラム
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
US7634500B1 (en) 2003-11-03 2009-12-15 Netlogic Microsystems, Inc. Multiple string searching using content addressable memory
US7848573B2 (en) * 2003-12-03 2010-12-07 Microsoft Corporation Scaled text replacement of ink
US7506271B2 (en) * 2003-12-15 2009-03-17 Microsoft Corporation Multi-modal handwriting recognition correction
GB2419432A (en) * 2004-10-20 2006-04-26 Ibm A method and system for creating hierarchical classifiers of software components in natural language processing
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
US8041557B2 (en) * 2005-02-24 2011-10-18 Fuji Xerox Co., Ltd. Word translation device, translation method, and computer readable medium
NO20052966D0 (no) * 2005-06-16 2005-06-16 Lumex As Monsterkodede ordboker
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7353332B2 (en) * 2005-10-11 2008-04-01 Integrated Device Technology, Inc. Switching circuit implementing variable string matching
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7783654B1 (en) 2006-09-19 2010-08-24 Netlogic Microsystems, Inc. Multiple string searching using content addressable memory
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US7860849B1 (en) 2007-01-18 2010-12-28 Netlogic Microsystems, Inc. Optimizing search trees by increasing success size parameter
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9031831B1 (en) * 2010-01-14 2015-05-12 Abbyy Development Llc Method and system for looking up words on a display screen by OCR comprising a set of base forms of recognized inflected words
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9195716B2 (en) * 2013-02-28 2015-11-24 Facebook, Inc. Techniques for ranking character searches
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108009276A (zh) * 2017-12-19 2018-05-08 北京云知声信息技术有限公司 字典搜索方法、系统及比较装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS595380A (ja) * 1982-06-30 1984-01-12 Sharp Corp 情報検索装置
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
JPH02140868A (ja) * 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム

Also Published As

Publication number Publication date
CN1095137C (zh) 2002-11-27
US5615378A (en) 1997-03-25
CN1097883A (zh) 1995-01-25
JPH0736882A (ja) 1995-02-07
KR950004036A (ko) 1995-02-17

Similar Documents

Publication Publication Date Title
KR970008023B1 (ko) 사전검색장치
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
US8660834B2 (en) User input classification
US4903206A (en) Spelling error correcting system
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
US11386269B2 (en) Fault-tolerant information extraction
Hládek et al. Learning string distance with smoothing for OCR spelling correction
Widiarti et al. A method for solving scriptio continua in Javanese manuscript transliteration
Tufiş et al. DIAC+: A professional diacritics recovering system
Lehal et al. A shape based post processor for Gurmukhi OCR
Pal et al. Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance
Singh et al. Handling real-word errors of hindi language using n-gram and confusion set
Kang et al. Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval
US6757647B1 (en) Method for encoding regular expressions in a lexigon
Clergeau-Tournemire et al. Integration of lexical and syntactical knowledge in a handwriting-recognition system
Mohapatra et al. Spell checker for OCR
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Goyal et al. Forward-backward transliteration of punjabi gurmukhi script using n-gram language model
Sari et al. MOrpho-LEXical analysis for correcting OCR-generated Arabic words (MOLEX)
Islam et al. A generalized approach to word segmentation using maximum length descending frequency and entropy rate
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
Mon Spell checker for Myanmar language
Rani et al. Post-processing methodology for word level Telugu character recognition systems using Unicode Approximation Models
Mon et al. Myanmar spell checker

Legal Events

Date Code Title Description
A201 Request for examination
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20051111

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee