JPS62256075A - Dictionary retrieving system - Google Patents

Dictionary retrieving system

Info

Publication number
JPS62256075A
JPS62256075A JP61097935A JP9793586A JPS62256075A JP S62256075 A JPS62256075 A JP S62256075A JP 61097935 A JP61097935 A JP 61097935A JP 9793586 A JP9793586 A JP 9793586A JP S62256075 A JPS62256075 A JP S62256075A
Authority
JP
Japan
Prior art keywords
dictionary
kanji
character
kana
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61097935A
Other languages
Japanese (ja)
Inventor
Yoshinori Kitahara
義典 北原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61097935A priority Critical patent/JPS62256075A/en
Publication of JPS62256075A publication Critical patent/JPS62256075A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To properly retrieve a dictionary even when various fluctuations in the notation in an item according to an operator by forming the plural patterns in the fluctuation of the notation of a KANJI (Chinese character) KANA (Japanese syllabary) mixed word and retrieving the dictionary as a character sequence candidate. CONSTITUTION:In a dictionary reading part 5, initially, the 'kakitori' having ka of KANJI, ki of KANA, to of KANJI and ri of KANA of the character code sequence candidate is taken out from a buffer memory 4 and the character code sequence is retrieved from the heading of the dictionary 6. Since there is no heading of the 'kakitori' in the dictionary 6, the second character code sequence candidate 'kakito' having ka of KANJI, ki of KANA and to of KANJI is taken out from the buffer memory 4 and said character code string is retrieved from the heading of the dictionary 6. Since there is no heading of the 'kakito' in the dictionary 6, the third character code sequence candidate 'kakitori' having kaki of KANJI, to of KANJI and ri of KANA is taken out from the buffer memory 4 and said character code sequence is retrieved from the heading of the dictionary 6. Since there is the character code string 'kakitori' kaki or KANJI and to of KANJI and ri of KANA in the item of the dictionary 6, the dictionary reading part 5 reads information corresponding to the item of the 'kakitori' from the dictionary 6.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、漢字かな混じり語および文を合成音声に変換
する音声合成装置1項目を入力して情報を読み出す情報
検索装置等1文字列の辞書検索方式に関する。
[Detailed Description of the Invention] [Industrial Application Field] The present invention relates to a speech synthesis device that converts kanji-kana mixed words and sentences into synthesized speech, an information retrieval device that reads information by inputting one item, etc. Concerning dictionary search methods.

〔従来の技術〕[Conventional technology]

従来の方式は、特開昭60−24632に記載のように
、仮名文字列項目の入力に対しては仮名コードに変換し
、漢字文字列項目の入力に対しては漢字コード及び仮名
コードに変換して辞書検索を行なう方式となっていた。
In the conventional method, as described in Japanese Patent Application Laid-Open No. 60-24632, input of a kana character string item is converted to a kana code, and input of a kanji character string item is converted to a kanji code and a kana code. The method was to perform a dictionary search.

しかし、辞書項目には仮名文字列のみ、あるいは漢字文
字列のみのものばかりでなく、漢字仮名混じりの文字列
もあり、このような漢字仮名混じり文字列の表記ゆれに
ついては配慮されていなかった。
However, dictionary entries do not only include only kana character strings or only kanji character strings, but also include character strings that include a mixture of kanji and kana, and no consideration was given to such variations in the notation of character strings that include kanji and kana.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

上記従来方式は、漢字仮名混じり文字列の辞書検索につ
いて配慮されておらず、例えば「書き取りjという辞書
具8しに対して、「書取り」。
The above-mentioned conventional method does not take into account the dictionary search of character strings containing kanji and kana, and for example, for the dictionary tool 8 "dictori j", it is "dictori".

「書取」のような文字列が入力されると辞書検索が不可
能になるという問題点があった。また、このような表記
のゆれに対して、辞書項目に考えられる全ての表記を登
録すると、辞書の容量が膨大になるという問題がある。
There was a problem in that when a character string such as ``dictori'' was entered, dictionary searches were impossible. Furthermore, if all possible notations are registered in dictionary items due to such variations in notation, there is a problem in that the capacity of the dictionary becomes enormous.

本発明の目的は、辞書項目を増大させることなしに、表
記ゆれのある漢字仮名混じり文字列の入力に対して、正
当な辞書検索が行なわれる方式を提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to provide a method that allows a valid dictionary search to be performed on input of a character string containing kanji, kana, and kanji with variations in spelling, without increasing the number of dictionary items.

〔問題点を解決するための手段〕[Means for solving problems]

上記目的は、辞書項目あるいは六方項目文字列を構成す
る各文字コードが漢字コードであるがあるいは仮名コー
ドであるがを識別し、漢字コードを全て残し1文字コー
ド列の順序を保持したまま、仮名コードを1個以上除去
していき、文字コードの組合せを生成し、辞書検索を行
なうことにより達成される。
The above purpose is to identify whether each character code constituting a dictionary entry or hexagonal entry character string is a kanji code or a kana code, and to leave all kanji codes and preserve the order of the one-character code string. This is achieved by removing one or more codes, generating a combination of character codes, and performing a dictionary search.

〔作用〕[Effect]

本発明においては、漢字仮名混じり文字列中の漢字のみ
を残し仮名文字を除去することによって複数の文字列を
生成する。我々は通常漢字仮名混じり語を筆記あるいは
キーλカする際に1例えば「行なう」は「行う」、「書
き取り」は「書取り」や「書取」のように仮名文字は省
略することがあっても漢字は省略することがないので有
効に作用する。
In the present invention, a plurality of character strings are generated by leaving only the kanji characters in the kanji-kana-mixed character string and removing the kana characters. When we usually write or write words containing kanji and kana, we sometimes omit the kana characters, for example, ``do'' is used as ``do'', and ``dicti'' is written as ``dictori'' or ``dictori''. However, kanji are not omitted, so it works effectively.

〔実施例〕〔Example〕

以下、本発明の一実施例を図を使用して説明する。 Hereinafter, one embodiment of the present invention will be described using the drawings.

第1図は本発明の一実施例の構成図である。文字コード
識別部1は入力された文字コード列を構成する各文字コ
ードが漢字コードであるが仮名コードであるかを識別す
る処理ブロック、文字列生成部2は入力文字列を格納し
たバッファメモリ3より文字コードを読み出し、辞書検
索のための文字列候補を生成し、バッファメモリ4に格
納する処理ブロック、辞書読み出し部5は文字列生成部
2において生成されバッファメモリ4に格納された文字
列と辞96の見出しとを照合し一致すれば辞書項目情報
を読み出す処理ブロックである。
FIG. 1 is a block diagram of an embodiment of the present invention. A character code identification unit 1 is a processing block that identifies whether each character code constituting an input character code string is a kanji code or a kana code, and a character string generation unit 2 is a buffer memory 3 that stores input character strings. A processing block that reads out character codes, generates character string candidates for dictionary search, and stores them in the buffer memory 4. The dictionary reading unit 5 reads character strings generated in the character string generation unit 2 and stores them in the buffer memory 4. This is a processing block that compares the heading of the dictionary 96 and reads dictionary item information if there is a match.

次に、各処理ブロックの動作を例を用いて説明する1例
として、辞書6には「書取り」という見出しが存在し、
入力コード文字列が「書き取り」である場合を考える。
Next, as an example to explain the operation of each processing block using an example, there is a heading "dictori" in the dictionary 6,
Consider the case where the input code string is "dictation".

入力コード文字列は、文字コード識別部1において各構
成文字コードが各々漢字コードであるかあるいは仮名コ
ードであるがを識別し、漢字コードであれば1、仮名コ
ードであれば0を字種フラグとして文字コードとともに
バッファメモリ3に書き込む、したがって「書き取り」
の入力文字列に対しては第2図のように「書」および「
取」の字種フラグが1となり。
In the input code character string, the character code identification unit 1 identifies whether each constituent character code is a kanji code or a kana code, and sets the character type flag to 1 if it is a kanji code and 0 if it is a kana code. write to buffer memory 3 along with the character code as ``write''
For input character strings, "calligraphy" and "calligraphy" as shown in Figure 2.
The character type flag for "tori" becomes 1.

「き」および「す」は0となる。ただし、コード列中の
特定のビットあるいはコード列の構成より容易に漢字コ
ードおよび仮名コードの識別が可能である場合には字種
フラグは不要である0次に、文字列生成部2は、バッフ
ァメモリ3に書き込まれている文字コードのうち字種フ
ラグが1である文字コード「書」および「取」は必ず残
し1文字コードの順序は保持したまま字種フラグが0で
ある文字コード「き」および「す」のうちがら0個以上
の文字コードを除去して文字コード列の組合せを作すバ
ッファメモリ4に格納する。「書き取り」の例では、第
3図に示すように「書き取り」、「書き取」、「書取り
」、「書取」の文字コード列候補がメモリバッファ4に
格納される。
"ki" and "su" are 0. However, if the kanji code and kana code can be easily identified from specific bits in the code string or the structure of the code string, the character type flag is not necessary. Among the character codes written in memory 3, the character codes "Ki" and "Tori" whose character type flag is 1 must be left out, and the character codes "Ki" whose character type flag is 0 are retained while preserving the order of the character codes. '' and ``su'', zero or more character codes are removed and stored in a buffer memory 4 that creates a combination of character code strings. In the example of ``dictation'', character code string candidates of ``dictation'', ``dictation'', ``dictation'', and ``dictation'' are stored in the memory buffer 4, as shown in FIG.

辞書読み出し部5では、バッファメモリ4よりまず文字
コード列候補「書き取り」を取り出し、辞書6の見出し
の中から該文字コード列を検索する。辞書6の中には「
書き取り」という見出しは存在しないので、次にバッフ
ァメモリ4より第2番目の文字コード列候補「書き取」
を取り出し辞書6の見出しの中から該文字コード列を検
索する。
The dictionary reading unit 5 first takes out the character code string candidate "Kitori" from the buffer memory 4 and searches for the character code string among the headings in the dictionary 6. Dictionary 6 contains “
Since there is no heading ``Kitori'', next select the second character code string candidate ``Kitori'' from buffer memory 4.
is retrieved and the character code string is searched from among the headings in the dictionary 6.

辞書6の中にはr書き取」という見出しは存在しないの
で、次にバッファメモリ4より第3番目の文字列コード
候補「書取り」を取り出し辞書6の見出しの中から該文
字コード列を検索する1文字コード列「書取り」は辞書
6の項目中に存在するので、辞書読み出し部5は辞書6
より「書取りJの項目に対応する情報を読出す。
Since there is no heading ``r dictori'' in the dictionary 6, the third character string code candidate ``dictori'' is retrieved from the buffer memory 4 and searched for the character code string among the headings in the dictionary 6. Since the one-character code string "Kidori" exists in the dictionary 6, the dictionary reading unit 5 reads the dictionary 6.
``Read out the information corresponding to the item of dictation J.''

以上は本発明の一実施例であり、入力文字コード列より
検索文字列候補を生成し、辞書項目を検索する方式にな
っているが、辞書項目の文字コード列より発生し得る表
記ゆれパタンを生成してもよい、つまり、まず入力文字
コード列に対して、該文字コード列の第1文字目の漢字
コードと同一の漢字コードで始まる辞書項目を検索する
0次に、該辞書項目の文字コード列について、各文字コ
ードが漢字コードであるか仮名コードであるかを識別し
、該文字コード列中の漢字コードは全て残し、文字コー
ド列の順序を保持したまま仮名コードを0個以上除去す
ることによって複数の文字コード列候補を生成する。そ
して、該複数文字コード列候補の各々と入力文字コード
との照合を行ない、該複数文字コード列候補のいずれか
と一致すれば。
The above is an embodiment of the present invention, in which a search character string candidate is generated from an input character code string and a dictionary item is searched. In other words, first, the input character code string is searched for a dictionary entry that starts with the same kanji code as the first character of the character code string. Next, the characters of the dictionary entry are searched for. Regarding the code string, identify whether each character code is a kanji code or a kana code, leave all the kanji codes in the character code string, and remove 0 or more kana codes while maintaining the order of the character code string. By doing this, multiple character code string candidates are generated. Then, each of the plurality of character code string candidates is compared with the input character code, and if it matches any one of the plurality of character code string candidates.

該辞書項目に対応する辞書情報を読み出す1以上のよう
に構成することもできる。
It is also possible to configure one or more reading dictionary information corresponding to the dictionary item.

〔発明の効果〕〔Effect of the invention〕

本発明によれば、漢字仮名混じり語について複数の表記
のゆらぎのバタンを生成し文字列候補として辞書検索を
行なうので1人によって項目に様様な表記のゆれが生じ
ても正当に辞書検索を行なうことができる。また、辞書
に複数の表記のゆらぎのパタンを登録しておく必要がな
いので辞書容量を増大させることもない。
According to the present invention, a plurality of spelling variations for words containing kanji and kana are generated and a dictionary search is performed as a character string candidate, so even if one person has various spelling variations for an item, the dictionary search can be performed correctly. be able to. Furthermore, since there is no need to register a plurality of spelling fluctuation patterns in the dictionary, the dictionary capacity does not need to be increased.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例の構成図、第2図は第1図中
のバッファメモリ3に文字列「書き取り」が格納された
場合の一例を示す図、第3図は第1図中のバッファメモ
リ4に文字列「書き取り」より生成された文字列候補が
格納された場合の一実施例を示す図である。 1・・・文字コード識別部、2・・・文字列生成部、3
・・・メモリバッファ、4・・・メモリバッファ、5・
・・辞書読み出し部、6・・・辞書、7・・・文字コー
ド、8・・・字゛ζ′1、〜
FIG. 1 is a block diagram of an embodiment of the present invention, FIG. 2 is a diagram showing an example of a case where the character string "write" is stored in the buffer memory 3 in FIG. 1, and FIG. 3 is a diagram similar to the one shown in FIG. FIG. 4 is a diagram showing an example in which a character string candidate generated from the character string "dicti" is stored in the buffer memory 4 in the computer. 1...Character code identification section, 2...Character string generation section, 3
...Memory buffer, 4...Memory buffer, 5.
...Dictionary reading section, 6...Dictionary, 7...Character code, 8...Character ゛ζ'1, ~

Claims (1)

【特許請求の範囲】[Claims] 1、漢字仮名混じり文字コード列に対応する項目を表記
で辞書検索し、該辞書項目情報を読み出す辞書検索装置
において、辞書項目文字コード列あるいは入力項目文字
コード列を構成する各文字コードが漢字コードであるか
仮名コードであるかを識別し、該文字コード列中の漢字
コードを全て残し、文字コード列の順序を保持したまま
仮名コードをすべて除去することによって辞書項目文字
列あるいは入力項目文字列を生成し、辞書検索を行なう
ことを特徴とする辞書検索方式。
1. In a dictionary search device that searches a dictionary for an item corresponding to a kanji/kana mixed character code string by notation and reads out the dictionary item information, each character code constituting the dictionary item character code string or input item character code string is a kanji code. Dictionary item string or input item string by identifying whether it is a character code string or a kana code, leaving all kanji codes in the character code string, and removing all kana codes while maintaining the order of the character code string. A dictionary search method characterized by generating a dictionary and performing a dictionary search.
JP61097935A 1986-04-30 1986-04-30 Dictionary retrieving system Pending JPS62256075A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61097935A JPS62256075A (en) 1986-04-30 1986-04-30 Dictionary retrieving system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61097935A JPS62256075A (en) 1986-04-30 1986-04-30 Dictionary retrieving system

Publications (1)

Publication Number Publication Date
JPS62256075A true JPS62256075A (en) 1987-11-07

Family

ID=14205524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61097935A Pending JPS62256075A (en) 1986-04-30 1986-04-30 Dictionary retrieving system

Country Status (1)

Country Link
JP (1) JPS62256075A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753534A (en) * 2019-03-29 2020-10-09 柯尼卡美能达美国商务解决方案有限公司 Identifying sequence titles in a document

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753534A (en) * 2019-03-29 2020-10-09 柯尼卡美能达美国商务解决方案有限公司 Identifying sequence titles in a document
CN111753534B (en) * 2019-03-29 2024-01-26 柯尼卡美能达美国商务解决方案有限公司 Identifying sequence titles in a document

Similar Documents

Publication Publication Date Title
JPH0533422B2 (en)
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JPS62256075A (en) Dictionary retrieving system
Daciuk Treatment of unknown words
JP2792147B2 (en) Character processing method and device
JP3585944B2 (en) Data processing method and apparatus
JP2526670B2 (en) Word dictionary search device
JP2580566B2 (en) Speech synthesizer
JPH0944496A (en) Method and device for analyzing natural language
JPS6282466A (en) Dictionary retrieving device
JP2744241B2 (en) Character processor
JP3273778B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JPH0670788B2 (en) Nest dictionary search device
JPH0236475A (en) Character string retrieving device
JPH08180060A (en) Electronic dictionary display device
JPS63138479A (en) Character recognizing device
JPS62208169A (en) Sentence analytical processing system
JPS62288933A (en) Hand-written input dictionary retrieving device
JPH07105232A (en) Character string retrieving method
JPH0567146A (en) Data editor
JPH01205266A (en) Word dictionary retrieving device
JPH02297193A (en) Dictionary consulting device
JPH01205267A (en) Word dictionary retrieving device
JP2004318753A (en) Device and method for converting word and phrase to data
JPH0612417A (en) Code converting system