JPS63116283A - Japanese sentence reader - Google Patents

Japanese sentence reader

Info

Publication number
JPS63116283A
JPS63116283A JP61262363A JP26236386A JPS63116283A JP S63116283 A JPS63116283 A JP S63116283A JP 61262363 A JP61262363 A JP 61262363A JP 26236386 A JP26236386 A JP 26236386A JP S63116283 A JPS63116283 A JP S63116283A
Authority
JP
Japan
Prior art keywords
word
candidate
character
words
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61262363A
Other languages
Japanese (ja)
Inventor
Haruo Mizukami
水上 治雄
Keiji Kobayashi
啓二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP61262363A priority Critical patent/JPS63116283A/en
Publication of JPS63116283A publication Critical patent/JPS63116283A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To reduce the number of proposed words and storage capacity and to shorten a processing time by providing the titled device with a proposed word selecting means for selecting a word indicating that the sum of the similarities of recognized proposed characters exceeds a prescribed threshold as a proposed word. CONSTITUTION:A word collating means 6 compares a character string obtained by combining respective recognized proposed characters with a word having the same length in a word dictionary 5 in each character position, and at the time of coincidence, the word, its grammatical property and the similarity of the recognized proposed word are sent to a proposed word selecting means 7. When the sum of respective similarities exceeds the prescribed threshold regulated by the number of characters in the word, the means 7 decides the word as a proposed word and stores the word, the grammatical property of the word and the similarity as an evaluated value in a proposed word storing means 8. In other cases, the word is not decided as a proposed word. Consequently, the number of proposed words to be the objects for the inspection of word connection based upon a word connection inspecting means 10 can be reduced, the storage capacity of the means 8 can be reduced and respective processing times can be shortened.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、日本文を構成する文字を1文字ごとに認識
した結果から、文法的に確からしい結果を選択して読取
り結果とする日本文読取り装置に関するものである。
[Detailed Description of the Invention] [Industrial Application Field] This invention is a method of reading Japanese sentences by selecting grammatically probable results from the results of character-by-character recognition of the characters that make up Japanese sentences. It concerns a reading device.

〔従来の技術〕[Conventional technology]

第6図は従来の日本文読取り装置の構成を示すブロック
図である。第6図中で、1は帳票、2は走査手段、3は
入力日本文を構成する文字を1文字ごとに切り出して認
識し、入力文字に対する認識候補文字とその類似度を出
力する文字認識手段、4は入力文字に対する。<J R
候補文字とその類似度を記憶する認識結果記憶手段、5
は日本文において使用される単語とその文法的属性を格
納した単語辞書、6は認識結果記憶手段4内の認識候補
文字を組み合わせた文字列と、単語辞書5内の単語が一
致した単語を選択する単語照合手段、8は単語照合手段
6で選択された候補となる単語を記憶する候補単語記憶
手段、9は連続する単語列が文法的に接続可能かどうか
の情報を浴納した文法辞書、10は文法辞書9を用いて
候補単語記1手段8に記憶された候補単語から、文法的
に接続可能となる単語列を選択する単語接続検定手段、
11は接続可能となる単語列を記憶する単語列記憶手段
、12は単語列記憶手段11内の単語列から、入力日本
文に対する読取り結果を一意に決定する読取り結果決定
手段である。
FIG. 6 is a block diagram showing the configuration of a conventional Japanese text reading device. In Fig. 6, 1 is a form, 2 is a scanning means, and 3 is a character recognition means that cuts out and recognizes characters constituting an input Japanese sentence character by character, and outputs recognition candidate characters and their similarity to the input characters. , 4 for input characters. <J.R.
Recognition result storage means for storing candidate characters and their similarity; 5
6 is a word dictionary that stores words used in Japanese sentences and their grammatical attributes; 6 is a word dictionary that matches a character string that is a combination of recognition candidate characters in the recognition result storage means 4 and a word in the word dictionary 5; 8 is a candidate word storage means for storing candidate words selected by the word matching means 6; 9 is a grammar dictionary containing information on whether consecutive word strings are grammatically connectable; 10 is word connection testing means for selecting word strings that can be connected grammatically from the candidate words stored in the candidate word record 1 means 8 using the grammar dictionary 9;
Reference numeral 11 denotes word string storage means for storing connectable word strings, and reference numeral 12 denotes reading result determination means for uniquely determining the reading result for the input Japanese sentence from the word strings in the word string storage means 11.

第7図は、第6図の日本文読取り装置に入力される入力
日本文及びその認識候補文字の例を示す図である。第7
図は日本文読取り装置に入力される帳票1上に印刷又は
記入された入力日本文の例、及び入力日本文の各文字を
文字認識手段3で認識して得られる認識候補文字の例を
示している。第7図中で、13は入力日本文「文字を読
む」であり、14〜19は入力日本文13を構成する各
文字であり、20〜41は各文字14〜19に対する認
識候補文字である。
FIG. 7 is a diagram showing an example of an input Japanese sentence input to the Japanese sentence reading device of FIG. 6 and its recognition candidate characters. 7th
The figure shows an example of an input Japanese sentence printed or written on a form 1 that is input into a Japanese sentence reading device, and an example of recognition candidate characters obtained by recognizing each character of the input Japanese sentence with the character recognition means 3. ing. In Fig. 7, 13 is the input Japanese sentence "read the characters", 14 to 19 are each character composing the input Japanese sentence 13, and 20 to 41 are recognition candidate characters for each character 14 to 19. .

第8図は、第6図の日本文読取り装置における認識結果
記憶手段の記憶内容を示す図でめる。第8図は入力日本
文13の各文字14〜19を文字認識手段3で認識して
得られた各認識候補文字20〜41と、その類似度を認
識結果記憶手段4に記憶した例を示している。第8図中
で、5ij(1≦i≦6 、1<j<7 )は各認識候
補文字20〜41の類似度である。なお、◆で示したと
ころは認識候補文字が無いことを示し、それに対する類
似度はOとする。
FIG. 8 is a diagram showing the storage contents of the recognition result storage means in the Japanese text reading device of FIG. 6. FIG. 8 shows an example in which recognition candidate characters 20 to 41 obtained by recognizing each character 14 to 19 of an input Japanese sentence 13 by the character recognition means 3 and their similarity are stored in the recognition result storage means 4. ing. In FIG. 8, 5ij (1≦i≦6, 1<j<7) is the degree of similarity of each recognition candidate character 20 to 41. Note that the area marked with ◆ indicates that there is no recognition candidate character, and the degree of similarity thereto is set to O.

第9図及び第10図は、それぞれ第6図の日本文読取り
装置における単語辞書の例を示す図である。第9図及び
第10図中で、42〜62は単語である。なお、ここで
は句点、動詞の語幹、動詞の活用語尾も、便宜上それぞ
れ単語として扱うものとする。
9 and 10 are diagrams showing examples of word dictionaries in the Japanese sentence reading device of FIG. 6, respectively. In FIGS. 9 and 10, 42 to 62 are words. Note that here, for convenience, period marks, verb stems, and conjugated endings of verbs are also treated as words.

第11図は、第6図の日本文読取り装置における単語照
合手段で単語照合を行った結果を示す図である。第11
図は単語照合手段6において、各認識候補文字20〜4
1を組み合わせた文字列と、単語辞書5内の単語を照合
して選択した例であり、候補単語記憶手段8に記憶する
。第11図中で、42〜62は候補単語である。
FIG. 11 is a diagram showing the results of word matching performed by the word matching means in the Japanese sentence reading device shown in FIG. 11th
In the figure, in the word matching means 6, each recognition candidate character 20 to 4
This is an example in which a character string combining 1 and a word in the word dictionary 5 are selected and stored in the candidate word storage means 8. In FIG. 11, 42 to 62 are candidate words.

第12図は、第6図の日本文読取り装置における文法辞
書の例を示す図である。第12図中で、63〜87は2
個の連続する単語の文法的属性どうしが接続可能となる
かどうかの接続情報を表わし、○印は接続可能であるこ
とを示し、X印は接続不可能であることを示す・ 第13図は、第6図の日本文読取り装置における単語接
続検定手段の動作を説明するための図である。第13図
中で、「−一」は連続する単語が接続可能となることを
示し、r−−−−−→」は連続する単語が凄続不可能と
なることを示す。才だ、各単語に複数の文法的属性が付
いている時は、その個数分は同一単語を示しである。
FIG. 12 is a diagram showing an example of a grammar dictionary in the Japanese sentence reading device of FIG. 6. In Figure 12, 63-87 are 2
13 represents connection information indicating whether grammatical attributes of consecutive words can be connected, ○ mark indicates that they can be connected, and X mark indicates that they cannot be connected. FIG. 7 is a diagram for explaining the operation of the word connection test means in the Japanese sentence reading device of FIG. 6. In FIG. 13, "-1" indicates that consecutive words can be connected, and "r----->" indicates that consecutive words cannot be connected. When each word has multiple grammatical attributes, the number of grammatical attributes indicates the same word.

第14図は、第6図の日本文読取り装置における単語列
記憶手段の記憶内容を示す図である。第14図は単語列
記憶手段11に記憶した単語列を示している。
FIG. 14 is a diagram showing the memory contents of the word string storage means in the Japanese sentence reading device of FIG. 6. FIG. 14 shows a word string stored in the word string storage means 11.

第15図は、第6図の日本文読取り装置における読取り
結果決定手段での入力日本文に対する読取り結果を示す
図である。第15図は読取り結果決定手段12により読
取り結果を決定した入力日本文に対する読取り結果を示
している。
FIG. 15 is a diagram showing the reading result of the input Japanese sentence by the reading result determination means in the Japanese sentence reading device of FIG. FIG. 15 shows the reading results for the input Japanese sentences whose reading results have been determined by the reading result determining means 12.

次に、上記従来の日本文読取り装置の動作について説明
する。帳票1上の入力日本文13は走査手段2で走査し
、文字認識手段3で1文字ごとに切り出し、パターンマ
ツチング等の方法によって認識する。そして、入力文字
としての確度の高い順序に類似度を付けた複数の認識候
補文字20〜41を出力する。文字認識手段3が出力す
る各認識候補文字20〜41とその類似度5ij(1≦
iく6.1くj≦7)は、認識結果記憶手段4に記憶す
る。
Next, the operation of the conventional Japanese text reading device described above will be explained. The input Japanese text 13 on the form 1 is scanned by the scanning means 2, cut out character by character by the character recognition means 3, and recognized by a method such as pattern matching. Then, a plurality of recognition candidate characters 20 to 41 are outputted in which the degree of similarity is assigned to the order of accuracy as input characters. Each recognition candidate character 20 to 41 output by the character recognition means 3 and its similarity 5ij (1≦
(6.1) (j≦7) is stored in the recognition result storage means 4.

単語照合手段6では、認識結果記憶手段4内の各認識候
補文字20〜41を組み合わせた文字列と単語辞書5内
の単語を各文字位置ごとに比較し、その比較結果が一致
した場合に、その単語及び単語を構成する文字と一致し
た認識候補文字の類似度と、単語の文法的属性を候補単
語記憶手段8に送る。この例では、例えば「言語情報と
認識情報を用いた文字認識後処理J(を子通信学会研究
会資料PRL 82−76)に示されるように、単語辞
書5内の単語と認識候補文字の組み合わせた文字列が一
致した時、すべての単語を候補単語記憶手段8に送る。
The word matching means 6 compares the character string that is a combination of the recognition candidate characters 20 to 41 in the recognition result storage means 4 and the word in the word dictionary 5 for each character position, and when the comparison results match, The degree of similarity of the recognition candidate character that matches the word and the characters constituting the word, and the grammatical attributes of the word are sent to the candidate word storage means 8. In this example, for example, as shown in ``Character recognition post-processing using language information and recognition information J (child communications society research group material PRL 82-76), combinations of words in the word dictionary 5 and recognition candidate characters are used. When the searched character strings match, all the words are sent to candidate word storage means 8.

つまり、入力日本文13の第1文字目からは、文字「文
」14に対する認識候補文字[文J20が単語辞書5内
の単語「文」59と一致するので、この単語「文」59
及び認識候補文字「文」20の類似度S、Iと文法的属
性を候補単語記憶手段8に送る。
In other words, from the first character of the input Japanese sentence 13, the recognition candidate character for the character "Bun" 14 [sentence J20 matches the word "Bun" 59 in the word dictionary 5, so this word "Bun" 59
Then, the similarity degrees S, I and grammatical attributes of the recognition candidate character "sentence" 20 are sent to the candidate word storage means 8.

さらに、入力日本文13の第1文字目からは、単語「文
字」61.単語「文字」60.単語「女」52、単語「
夫」58.単語「主」49.単語「主宰」50.単語「
天」56.単語「大」53゜単語「大学」55.単語「
大学」54を選択して、候補単語記憶手段8に送る。同
様にして、第2文字目からは、単語「字」48を単語「
学」46を選択する。第3文字目からは、単語「を」4
5゜単語「ま」43を選択する。第4文字目からは、単
語「読」57.単語「語」47.単語「誘」62゜単語
「諸」51を選択する。第5文字目からは、単語「む」
44を選択する。第6文字目からは、単語「。」42を
選択する。そして、第11図に示す候補単語を候補単語
記憶手段8に記憶する。
Furthermore, from the first character of the input Japanese sentence 13, the word "character" 61. Word “character” 60. Word “woman” 52, word “
Husband” 58. Word “Lord” 49. Word “preside” 50. word"
Heaven” 56. Word “large” 53° Word “university” 55. word"
``University'' 54 is selected and sent to the candidate word storage means 8. Similarly, starting from the second character, change the word "ji" 48 to the word "ji" 48.
46. From the third letter, the word "wo" 4
5° Select the word "ma" 43. From the 4th letter, the word "yomi" 57. Word “word” 47. Select the word ``Yu'' 62 and the word ``Sho'' 51. From the 5th letter, the word "mu"
Select 44. From the 6th character onward, the word "." 42 is selected. Then, the candidate words shown in FIG. 11 are stored in the candidate word storage means 8.

単語接続検定手段10では、文法辞書9の各接続情報6
3〜84を用いて、接続可能となる単語列を選択して単
語列記憶手段11に送る。この例では、第13図(こ示
すように文頭から順に、連続する単語に対して接続可能
となるかどうかを検定する。例えば、第1文字目から選
択された単語「文」59.単語「女」52.単語「夫」
58゜単語「主」49.単語「天」56.単語「大」5
3と、第2文字目から選択された単語「字」48゜単語
「学」46とは、文法辞書9の各接続情報63〜66に
よっていずれも接続可能とならない。また、第1文字目
から選択された単語「文字」61゜単語「文学」60.
単語「主宰」50.単語「大字」55.単語「大学」5
4と、第3文字目から選択された単語「を」45とは、
各接続情報67及び69により接続可能となる。同様に
して、第13図に示したように単語接続検定手段10に
より単語接続検定を行って、第14図に示した単語列を
単語列記憶手段11に記憶する。
In the word connection test means 10, each connection information 6 of the grammar dictionary 9
3 to 84 are used to select connectable word strings and send them to the word string storage means 11. In this example, we test whether or not it is possible to connect consecutive words in order from the beginning of the sentence as shown in Figure 13.For example, the word ``sentence'' 59 selected from the first character. Woman” 52. Word “husband”
58° Word “Lord” 49. Word “heaven” 56. Word "large" 5
3 and the word ``character'' 48 and the word ``gaku'' 46 selected from the second character cannot be connected by each connection information 63 to 66 of the grammar dictionary 9. Also, the word "Character" 61° and the word "Literature" 60. selected from the first character.
Word “preside” 50. Word “Oaza” 55. Word "university" 5
4 and the word “wo” 45 selected from the third letter is,
Connection is possible using each connection information 67 and 69. Similarly, a word connection test is performed by the word connection test means 10 as shown in FIG. 13, and the word string shown in FIG. 14 is stored in the word string storage means 11.

読取り結果決定手段12では、単語列記憶手段11に複
数の単語列が存在するので、各単語を構成する文字と一
致した認識候補文字の類似度の和が最大となる単語列を
読取り結果とする。この例の場合には、単語列を成す単
語「文字」61−単語「を」45−単語「読」57−単
語「む」44−単語「。」42の各文字と一致した認識
候補文字の類似度の和が最大となり、第15図に示した
読取り結果を得る。
Since a plurality of word strings exist in the word string storage means 11, the reading result determining means 12 selects as the reading result the word string for which the sum of the similarities of the recognition candidate characters that match the characters constituting each word is maximum. . In this example, the recognition candidate characters that match each character in the word string 61 - word ``wo'' 45 - word ``yomi'' 57 - word ``mu'' 44 - word ``.'' 42 are The sum of similarities becomes maximum, and the reading result shown in FIG. 15 is obtained.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

上記従来の日本文読取り装置は以上のように構成されて
いるので、認識候補文字を組み合わせた文字列と単語辞
書5内の単語が一致した場合に、その一致のとれた単語
を候補単語として単語接続検定手段10により単語接続
検定を行っていたので、候補単語を記憶するのに必要な
候補単語記憶手段8の記憶容量が増大し、さらに、単語
接続検定手段10での単語接続検定の対象となる候補単
語の組み合わせが多くなるために、処理時間の増大を招
くことになるという問題点があった。
The conventional Japanese sentence reading device described above is configured as described above, so that when a character string that is a combination of recognition candidate characters matches a word in the word dictionary 5, the matching word is used as a candidate word. Since the word connection test was performed by the word connection test means 10, the storage capacity of the candidate word storage means 8 required to store candidate words increased, and furthermore, the word connection test by the word connection test means 10 increased. There is a problem in that the number of combinations of candidate words increases, resulting in an increase in processing time.

この発明は、かかる問題点を解決するためになされたも
ので、記憶容量の削減及び処理時間の減少を図ることが
できる日本文読取り装置を得ることを目的とする。
The present invention was made to solve these problems, and an object of the present invention is to provide a Japanese text reading device that can reduce storage capacity and processing time.

〔問題点を解決するための手段〕[Means for solving problems]

この発明に係る日本文読取り装置は、文字認識手段で得
られた認識候補文字を組み合わせた文字列が単語辞書内
の単語と一致した時に、各文字位置で一致する認識候補
文字の類似度の和が、所定の閾値以上となる単語を候補
単語として選択する候補単語選択手段を設けたものであ
る。
The Japanese sentence reading device according to the present invention provides a method for reading Japanese text when a character string obtained by combining recognition candidate characters obtained by a character recognition means matches a word in a word dictionary. However, candidate word selection means is provided for selecting a word whose value is equal to or greater than a predetermined threshold value as a candidate word.

〔作用〕[Effect]

この発明の日本文読取り装置1こおいては、候補単語選
択手段は、認識候補文字の類似度の和が所定の閾値以上
となる単語を候補単語として選択することにより、単語
接続検定手段による単語接続検定の対象となる候補単語
の個数を少なくできる。
In the Japanese sentence reading device 1 of the present invention, the candidate word selection means selects as a candidate word a word for which the sum of the similarity degrees of recognition candidate characters is equal to or more than a predetermined threshold value. The number of candidate words to be tested for connectivity can be reduced.

〔実施例〕〔Example〕

第1図はこの発明の一実施例である日本文読取り装置の
構成を示すブロック図で、第6図に示す従来装置のもの
と同−又は相当部分は同一符号を用いて表示してあり、
その詳細な説明は省略する。
FIG. 1 is a block diagram showing the configuration of a Japanese text reading device which is an embodiment of the present invention, and the same or equivalent parts as those of the conventional device shown in FIG. 6 are indicated using the same reference numerals.
A detailed explanation thereof will be omitted.

第1図中で、7は候補単語を選択する候補単語選択手段
である。
In FIG. 1, 7 is a candidate word selection means for selecting candidate words.

第2図は、第1図の日本文読取り装置における候補単語
選択手段の動作を説明するための図である。第2図中で
、○は候補単語選択手段7が候補単語として選択したC
とを示し、×は候補単語選択手段7が候補単語として選
択しなかつたことを示す。
FIG. 2 is a diagram for explaining the operation of the candidate word selection means in the Japanese sentence reading device of FIG. 1. In FIG. 2, ○ indicates C selected as a candidate word by the candidate word selection means 7.
, and × indicates that the candidate word selection means 7 did not select the word as a candidate word.

第3図は、第1図の日本文読取り装置における候補単語
記憶手段の記憶内容を示す図である。第3図は候補単語
選択手段7で選択した候補単語を示す例でるり、この候
補単語は候補単語記憶手段8に記憶する。
FIG. 3 is a diagram showing the stored contents of the candidate word storage means in the Japanese sentence reading device of FIG. 1. FIG. 3 shows an example of candidate words selected by the candidate word selection means 7, and these candidate words are stored in the candidate word storage means 8.

第4図は、第1図の日本文読取り装置における単語接続
検定手段の動作を説明するための図である。第4図中で
、「−m−」は連続する単語が接続可能となることを示
し、「−一−−→」は連続する単語が接続不可能となる
ことを示す。
FIG. 4 is a diagram for explaining the operation of the word connection test means in the Japanese sentence reading device of FIG. 1. In FIG. 4, "-m-" indicates that consecutive words can be connected, and "-1--→" indicates that consecutive words cannot be connected.

第5図は、第1図の日本文読取り装置における単語列記
憶手段の記憶内容を示す図である。第5図は単語接続検
定手段10で選択てれた接続可能な単語列を示している
FIG. 5 is a diagram showing the memory contents of the word string storage means in the Japanese sentence reading device of FIG. 1. FIG. 5 shows connectable word strings selected by the word connection testing means 10.

次に、上記この発明の一実施例である日本文読取りvc
置の動作について説明する。文字認識手段3で入力日本
文13の各文字14〜19に対する各認識候補文字20
〜41、及びその類似度5ij(1≦L < 6 、1
< j < 7 )を求めて、認識結果記憶手段4に記
憶した後に、文頭から順に単語照合手段6により、各認
識候補文字20〜41を組み合わせた文字列と単語辞書
5内の長さが同一の単語を各文字位置ごとに比較し、そ
の比較結果で一致がとれた場合に、単語とその文法的属
性、及び単語を構成する各文字と一致するg識候補文字
の類似度を候補単語選択手段7に送る。この例では、従
来の日本文読取り装置と同様に、入力日本文13の第1
文字目の文字「文」14に対する認識候補文字「文J2
0と単語辞書5内の単語「文」59が一致するので、候
補単語選択手段7へその文法的属性を類似度Sllと共
に送る。候補単語選択手段7では、単語「文」59と一
致する認識候補文字「文」20の類似度Sttが単語の
文字数で正規化された所定の閾値TH以上となるならば
、候補単語として、単語「文」59.単語「文」59の
文法的属性、及び単語「文」59の評価値として類似度
8+1を候補単語記憶手段8に記憶し、一方、そうでな
ければ候補単語としない。また、例えば第1文字目の文
字「文」14と、第2文字目の文字「字」15に対する
それぞれの認識候補文字「文J20と「字」28を組み
合わせた文字列「文字」は、単語辞書5内の単語「文字
」61と一致するので、同様にして候補単語選択手段7
へ送る。候補単語選択手段7では、単語「文字」61と
一致する各認識候補文字「文J20及び「字」28のそ
れぞれの類似度811及びS2、を加算して、単語「文
字」61の評価値とする。そして、この評価値が所定の
閾値TH以上となるならば、候補単語としてその文法的
属性及び評価値と共に、候補単語記憶手段8に記憶する
Next, the Japanese sentence reading vc, which is an embodiment of the above-mentioned invention, will be explained.
The operation of the position will be explained below. The character recognition means 3 selects each recognition candidate character 20 for each character 14 to 19 of the input Japanese sentence 13.
~41, and its similarity 5ij (1≦L<6, 1
< j < 7) is determined and stored in the recognition result storage means 4, and then the word matching means 6 sequentially searches from the beginning of the sentence to determine whether the length of the combination of each recognition candidate character 20 to 41 and the length in the word dictionary 5 is the same. words are compared for each character position, and if a match is found as a result of the comparison, a candidate word is selected based on the word, its grammatical attributes, and the degree of similarity between each character that makes up the word and the matching candidate character. Send to means 7. In this example, like the conventional Japanese text reading device, the first part of the input Japanese text 13 is
Recognition candidate character ``sentence J2'' for the character ``sentence'' 14
0 and the word "sentence" 59 in the word dictionary 5, the grammatical attributes thereof are sent to the candidate word selection means 7 together with the similarity Sll. The candidate word selection means 7 selects the word as a candidate word if the similarity Stt of the recognition candidate character "SENTEN" 20 that matches the word "SENTEN" 59 is equal to or higher than a predetermined threshold TH normalized by the number of characters in the word. “Sentence” 59. A similarity of 8+1 is stored in the candidate word storage means 8 as the grammatical attribute of the word "sentence" 59 and the evaluation value of the word "sentence" 59, while if not, it is not selected as a candidate word. Furthermore, for example, the character string "character" which is a combination of the recognition candidate characters "senji J20" and "ji" 28 for the first character "bun" 14 and the second character "ji" 15 is the word Since it matches the word "character" 61 in the dictionary 5, the candidate word selection means 7
send to The candidate word selection means 7 adds the similarity degrees 811 and S2 of each recognition candidate character "sentence J20" and "character" 28 that match the word "character" 61, and calculates the evaluation value of the word "character" 61. do. If this evaluation value is equal to or greater than a predetermined threshold TH, it is stored as a candidate word in the candidate word storage means 8 along with its grammatical attributes and evaluation value.

そして、単語照合手段6で照合がとれたすべての単語に
ついて上記処理を行い、第2図に示した候補単語を候補
単語選択手段7で選択すると、候補単語記憶手段8の内
容は第3図に示したようになる。
Then, when the above processing is performed on all the words matched by the word matching means 6 and the candidate words shown in FIG. 2 are selected by the candidate word selection means 7, the contents of the candidate word storage means 8 are as shown in FIG. It will be as shown.

単語接続検定手段10では、第4図に示したように候補
単語記憶手段8から接続可能となる単語列を選択する。
The word connection testing means 10 selects connectable word strings from the candidate word storage means 8 as shown in FIG.

例えば、入力日本文13の第1文字目から選択された単
語「文」59.単語「女」52、単語「夫」58と、第
2文字目から選択された単語「字」48.単語「学」4
6とは、文法辞書9の各接続情報63及び64によって
いずれも接続可能とならない。また、第1文字目から選
択された単語「文字」61.単語「文学」6oと、第3
文字目から選択てれた単語「を」45とは、接続情報6
7により接続可能となる。同様にして、単語接続検定手
段10で単語接続検定を行い、第5図に示した単語列を
単語列記憶手段11に記憶する。
For example, the word "bun" 59 is selected from the first character of the input Japanese sentence 13. The word "woman" 52, the word "husband" 58, and the word "character" 48 selected from the second character. Word “Study” 4
6, neither of them can be connected according to the connection information 63 and 64 of the grammar dictionary 9. Also, the word "character" 61. selected from the first character. The word “literature” 6o and the 3rd
The word "wo" 45 selected from the first character is the connection information 6
7 enables connection. Similarly, the word connection test means 10 performs a word connection test, and the word string shown in FIG. 5 is stored in the word string storage means 11.

読取り結果決定手段12では、単語列記憶手段11内の
単語列が複数存在するので、各単語の評価値の和が最大
となるような単語列を読取り結果とする。この例の場合
に、単語列を成す単語「文字」61−単語「を」45−
単語「読」57−単語「む」44−単語「。」42の評
価値の和が最大となり、第15図に示した読取り結果を
得る。
Since there are a plurality of word strings in the word string storage means 11, the reading result determining means 12 determines the word string that maximizes the sum of the evaluation values of each word as the reading result. In this example, the word "character" 61 - the word "wo" 45 - which forms the word string
The sum of the evaluation values of the word "yomi" 57 - the word "mu" 44 - the word "." 42 becomes the maximum, and the reading result shown in FIG. 15 is obtained.

また、候補単語選択手段7において、認識候補文字の順
位の和を使用する場合は、以下に述べるようになる。
Further, when the candidate word selection means 7 uses the sum of the ranks of recognition candidate characters, the following will be described.

単語照合手段6では、認識候補文字を組み合わせた文字
列と単語辞書S内の単語が各文字位置において一致した
場合に、単語と単語の文法的属性、及び単語を構成する
文字と一致する認識候補文字の順位を候補単語選択手段
7に送る。候補単語選択手段7では、単語の各文字に対
応する認識候補文字の順位の和を求めて単語の評価値と
し、それが所定の閾値未満となる時のみ、候補単語とし
て選択し、候補単語記憶手段8に記憶する。そして、単
語接続検定手段10で文法辞書9を用いて連続する単語
間の接続検定を行い、接続可能となる単語列を選択し、
単語列記憶手段11に記憶する。
In the word matching means 6, when a character string in which recognition candidate characters are combined and a word in the word dictionary S match at each character position, the word and the grammatical attributes of the word and the recognition candidates that match the characters constituting the word are used. The character ranking is sent to candidate word selection means 7. Candidate word selection means 7 calculates the sum of the rankings of recognition candidate characters corresponding to each character of a word and uses it as an evaluation value of the word, and only when the evaluation value is less than a predetermined threshold is selected as a candidate word and stores the candidate word. The information is stored in means 8. Then, the word connection test means 10 tests the connection between consecutive words using the grammar dictionary 9, and selects word strings that can be connected.
It is stored in the word string storage means 11.

読取り結果決定手段12では、単語列を構成する各単語
の評価値の総和が最小となるものを選択することによっ
て読取り結果を決定する。
The reading result determination means 12 determines the reading result by selecting the word with the minimum sum of the evaluation values of each word constituting the word string.

なお、上記実施例では、通常の日本文を用いた場合につ
いて説明したが、これ以外に都道府県・市区郡などのべ
た書き住所の読取りにも用いることができる。
In the above embodiment, a case was explained in which ordinary Japanese characters are used, but it can also be used to read solid-letter addresses such as prefectures, cities, wards, and counties.

また、上記実施例では、入力文字に対する認識候補文字
の数の最大値を7個として説明したが、この発明の装置
ではこれに限定されるものではない。
Further, in the above embodiment, the maximum number of recognition candidate characters for an input character is seven, but the apparatus of the present invention is not limited to this.

〔発明の効果〕〔Effect of the invention〕

この発明は以上説明したとおり、日本文読取り装置にお
いて、単語照合手段で選択された単語と単語辞書内の単
語と一致がとれた認識候補文字の類似度の和を単語に対
する評価値として求め、その評価値が所定の闇値以上と
なる単語のみを候補単語として選択する候補単語選択手
段を設けたので、この種の従来装置に比べて記憶容量が
削減され、かつ処理時間が減少するなどの極めて優れた
効果を奏するものである。
As explained above, in the Japanese sentence reading device, the sum of the degrees of similarity between the words selected by the word matching means and the recognition candidate characters matched with the words in the word dictionary is obtained as an evaluation value for the word. Since we have provided a candidate word selection means that selects only words whose evaluation value is equal to or higher than a predetermined dark value as candidate words, the storage capacity and processing time are reduced compared to conventional devices of this type. It has excellent effects.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例である日本文読取り装置の
構成を示すブロック図、第2図は、第1図の日本文読取
り装置における候補単語選択手段の動作を説明するため
の図、第3図は、第1図の日本文読取り装置における候
補単語記憶手段の記憶内容を示す図、第4図は、第1図
の日本文読取り装置における単語接続検定手段の動作を
説明するための図、第5図は、第1図の日本文読取り装
置にかける単語列記憶手段の記憶内容を示す図、第6図
は従来の日本文読取り装置の構成を示すブロック図、第
7図は、第6図の日本文読取り装置に入力される入力日
本文及びその認識候補文字の例を示す図、第8図は、第
6図の日本文読取り装置における認識結果記憶手段の記
憶内容を示す図、第9図及び第10図は、それぞれ第6
図の日本文読取り装置における単語辞書の例を示す図、
第11図は、第6図の日本文読取り装置における単語照
合手段で単語照合を行った結果を示す図、第12図は、
第6図の日本文読取り装置における文法辞書の例を示す
図、第13図は、第6図の日本文読取り装置における単
語接続検定手段の動作を説明するための図、第14図は
、第6図の日本文読取り装置における単語列記憶手段の
記憶内容を示す図、第15図は、第6図の日本文読取り
装置における読取り結果決定手段での入力日本文に対す
る読取り結果を示す図である。 図において、1・・・帳票、2・・・走査手段、3・・
・文字認識手段、4・・・認識結果記憶手段、5・・・
単語辞書、6・・・単語照合手段、7・・・候補単語選
択手段、8・・・候補単語記憶手段、9・・・文法辞書
、10・・・単語接続検定手段、11・・・単語列記憶
手段、12・・・読取り結果決定手段、13・・・入力
日本文、14〜19・・・文字、20〜41・・・認識
候補文字、42〜62・・・単語(候補単語)、63〜
87・・・接続情報である。 なお、各図中、同一符号は同一、又は相当部分を示す。
FIG. 1 is a block diagram showing the configuration of a Japanese text reading device that is an embodiment of the present invention, and FIG. 2 is a diagram for explaining the operation of the candidate word selection means in the Japanese text reading device of FIG. 3 is a diagram showing the memory contents of the candidate word storage means in the Japanese sentence reading device of FIG. 1, and FIG. 4 is a diagram showing the operation of the word connection testing means in the Japanese sentence reading device of FIG. 1. 5 is a diagram showing the storage contents of the word string storage means for the Japanese sentence reading device of FIG. 1, FIG. 6 is a block diagram showing the configuration of the conventional Japanese sentence reading device, and FIG. FIG. 6 is a diagram showing an example of the input Japanese sentence input to the Japanese text reading device of FIG. 6 and its recognition candidate characters; FIG. , FIG. 9 and FIG. 10 are respectively No. 6
A diagram showing an example of a word dictionary in the Japanese sentence reading device shown in FIG.
FIG. 11 is a diagram showing the results of word matching performed by the word matching means in the Japanese sentence reading device shown in FIG. 6, and FIG.
FIG. 6 is a diagram showing an example of the grammar dictionary in the Japanese sentence reading device, FIG. 13 is a diagram for explaining the operation of the word connection test means in the Japanese sentence reading device of FIG. 6, and FIG. 6 is a diagram showing the storage contents of the word string storage means in the Japanese sentence reading device, and FIG. 15 is a diagram showing the reading result for the input Japanese sentence by the reading result determining means in the Japanese sentence reading device of FIG. 6. . In the figure, 1... form, 2... scanning means, 3...
・Character recognition means, 4... Recognition result storage means, 5...
Word dictionary, 6... Word matching means, 7... Candidate word selection means, 8... Candidate word storage means, 9... Grammar dictionary, 10... Word connection testing means, 11... Words Column storage means, 12... Reading result determining means, 13... Input Japanese sentence, 14-19... Characters, 20-41... Recognition candidate characters, 42-62... Words (candidate words) , 63~
87...Connection information. In each figure, the same reference numerals indicate the same or equivalent parts.

Claims (3)

【特許請求の範囲】[Claims] (1)入力日本文を1文字ごとに認識し、各文字に対す
る複数の認識候補文字とその類似度を求め、類似度の大
きい順序に認識候補文字と類似度を出力する文字認識手
段と、 前記認識候補文字と類似度を入力日本文の各文字位置に
対応づけて記憶する認識結果記憶手段と、日本文におい
て使用される単語及びその単語ごとの文法的属性を格納
した単語辞書と、 単語の文法的属性間の文法的接続情報を格納した文法辞
書と、 前記認識候補文字を組み合わせた任意の長さの文字列と
前記単語辞書内の長さが一致する単語を文字位置ごとに
比較し、一致がとれた単語を選択する単語照合手段と、 前記単語照合手段で選択された単語と一致がとれた認識
候補文字の類似度の和を単語に対する評価値として求め
、その評価値が所定の閾値以上となる単語のみを候補単
語として選択する候補単語選択手段と、 前記候補単語とその候補単語の文法的属性、及び前記候
補単語選択手段で求めた評価値を、入力日本文の文字位
置に対応づけて記憶する候補単語記憶手段と、 入力日本文に対する候補単語の列から、各単語の文法的
属性どうしが文法的に接続可能かどうかを前記文章辞書
を用いて検定し、接続可能となる単語列を選択する単語
接続検定手段と、 前記接続可能となる単語列、及び単語ごとに前記候補単
語選択手段で求めた評価値を記憶する単語列記憶手段と
、 前記接続可能となる単語列からその評価値の総和が最大
となる単語列を、入力日本文に対する読取り結果として
選択する読取り結果決定手段とを備えたことを特徴とす
る日本文読取り装置。
(1) a character recognition means that recognizes an input Japanese sentence character by character, determines a plurality of recognition candidate characters and their similarities for each character, and outputs recognition candidate characters and similarities in order of increasing similarity; a recognition result storage means for storing recognition candidate characters and degrees of similarity in association with each character position of an input Japanese sentence; a word dictionary storing words used in Japanese sentences and grammatical attributes for each word; comparing a grammar dictionary storing grammatical connection information between grammatical attributes, a character string of an arbitrary length that is a combination of the recognition candidate characters, and a word of the same length in the word dictionary for each character position; A word matching means for selecting a matched word, and a sum of degrees of similarity between the word selected by the word matching means and the matching recognition candidate character, as an evaluation value for the word, and the evaluation value is set as a predetermined threshold. candidate word selection means for selecting only the words satisfying the above as candidate words; and the candidate word, the grammatical attributes of the candidate word, and the evaluation value obtained by the candidate word selection means, corresponding to the character position of the input Japanese sentence. a candidate word storage means for storing the candidate words in combination with each other; and the sentence dictionary is used to test whether the grammatical attributes of each word are grammatically connectable to each other from the string of candidate words for the input Japanese sentence, and words that can be connected are determined. word connection testing means for selecting columns; word string storage means for storing the connectable word strings and the evaluation value obtained by the candidate word selection means for each word; 1. A Japanese sentence reading device, comprising reading result determining means for selecting a word string with the largest sum of evaluation values as a reading result for an input Japanese sentence.
(2)前記候補単語選択手段は、前記単語照合手段で選
択された単語と一致がとれた認識候補文字の順位の和を
単語に対する評価値として求め、その評価値が所定の閾
値未満となる単語のみを候補単語として選択する手段で
あることを特徴とする特許請求の範囲第1項記載の日本
文読取り装置。
(2) The candidate word selection means calculates the sum of ranks of recognition candidate characters that match the word selected by the word matching means as an evaluation value for the word, and words for which the evaluation value is less than a predetermined threshold. 2. The Japanese sentence reading device according to claim 1, further comprising means for selecting only candidate words.
(3)前記読取り結果決定手段は、前記接続可能となる
単語列からその評価値の総和が最小となる単語列を、入
力日本文に対する読取り結果として選択する手段である
ことを特徴とする特許請求の範囲第2項記載の日本文読
取り装置。
(3) The reading result determining means is a means for selecting a word string having the smallest sum of evaluation values from the connectable word strings as the reading result for the input Japanese sentence. Japanese text reading device according to item 2 of the scope.
JP61262363A 1986-11-04 1986-11-04 Japanese sentence reader Pending JPS63116283A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61262363A JPS63116283A (en) 1986-11-04 1986-11-04 Japanese sentence reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61262363A JPS63116283A (en) 1986-11-04 1986-11-04 Japanese sentence reader

Publications (1)

Publication Number Publication Date
JPS63116283A true JPS63116283A (en) 1988-05-20

Family

ID=17374699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61262363A Pending JPS63116283A (en) 1986-11-04 1986-11-04 Japanese sentence reader

Country Status (1)

Country Link
JP (1) JPS63116283A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02238589A (en) * 1989-03-13 1990-09-20 Nippon Telegr & Teleph Corp <Ntt> Term collating method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59160275A (en) * 1983-03-01 1984-09-10 Toshiba Corp Word recognizing device
JPS59197974A (en) * 1983-04-25 1984-11-09 Toshiba Corp Character recognizing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59160275A (en) * 1983-03-01 1984-09-10 Toshiba Corp Word recognizing device
JPS59197974A (en) * 1983-04-25 1984-11-09 Toshiba Corp Character recognizing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02238589A (en) * 1989-03-13 1990-09-20 Nippon Telegr & Teleph Corp <Ntt> Term collating method

Similar Documents

Publication Publication Date Title
US8364470B2 (en) Text analysis method for finding acronyms
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH0351020B2 (en)
KR20040101678A (en) Apparatus and method for analyzing compounded morpheme
US20040267737A1 (en) Database search system
JPS63116283A (en) Japanese sentence reader
JP2792147B2 (en) Character processing method and device
JP3758241B2 (en) Voice information retrieval device
JPS62251986A (en) Misread character correction processor
KR870000657A (en) Table Character Identification Device and Processing Method
JPS60225273A (en) Word retrieving system
JP3353769B2 (en) Character recognition device, character recognition method, and character recognition program recording medium
JPH0340434B2 (en)
JPS59100939A (en) Japanese word input device
JPH0576675B2 (en)
JP2895137B2 (en) Japanese sentence error automatic detection and correction device
JP2947832B2 (en) Word matching method
Ng et al. A word finding automation for Chinese sentence tokenization
JPS6175467A (en) Kana and kanji converting device
JPH01134585A (en) Document reader device having function for processing separated character
JPH0528323A (en) Character recognition device
JPS61184682A (en) Kana/kanji conversion processor
JPS6340936A (en) Voice kana to kanji conversion system
JPS63157266A (en) Forming system for word dictionary
Khine et al. Myanmar Words Sorting