WO2007088902A1 - Character processing device, method and program, and recording medium - Google Patents

Character processing device, method and program, and recording medium Download PDF

Info

Publication number
WO2007088902A1
WO2007088902A1 PCT/JP2007/051622 JP2007051622W WO2007088902A1 WO 2007088902 A1 WO2007088902 A1 WO 2007088902A1 JP 2007051622 W JP2007051622 W JP 2007051622W WO 2007088902 A1 WO2007088902 A1 WO 2007088902A1
Authority
WO
WIPO (PCT)
Prior art keywords
character
word
string
reading
notation
Prior art date
Application number
PCT/JP2007/051622
Other languages
French (fr)
Japanese (ja)
Inventor
Yoshiharu Sato
Noriko Ishibashi
Miyuki Seki
Hiroaki Kanokogi
Takashi Umeoka
Original Assignee
Microsoft Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corporation filed Critical Microsoft Corporation
Priority to CN2007800028749A priority Critical patent/CN101371252B/en
Publication of WO2007088902A1 publication Critical patent/WO2007088902A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Definitions

  • the present invention does not take these conventional approaches, and retains information that a word string having a long warmth is internally composed of a plurality of words as in the first method. Hold it virtually in the dictionary as if it were a word. Then, matching is performed in long units, the appearance probability of the path is calculated, the first candidate of the conversion result is determined as a desired character string, and then divided into constituent word strings, and subsequent processing such as candidate generation is performed. .
  • FIG. 1 is a block diagram showing a hardware configuration of an embodiment of the present invention.
  • FIG. 5 is an explanatory diagram showing a word rating with a node added.
  • a single word reading string and a corresponding notation string are written as one record, and several different records are listed.
  • the acquired character string of reading is stored in the system memory 20 in association with the character string of the notation of the immediately preceding word acquired previously.
  • a method for associating a method of giving the storage address storing the immediately preceding notation as the notation acquired as attribute information and a method of storing it in a table form are widely known. Use it.

Abstract

Provided is a character processing device, which is provided with a phrase dictionary for transforming a character string of reading a word into a character string of a corresponding notation by using a word lattice, such that the notation acquired from a phrase dictionary is added as a bypass, in addition to the node of the notation acquired from a word dictionary (110), to the word lattice, in case the same reading as that described in the phrase dictionary is given.

Description

文字処理装置、方法、プログラムおよび記録媒体  Character processing apparatus, method, program, and recording medium
技術分野  Technical field
[0001] 本発明は、単語ラテイスを使用して入力された複数の単語についての読み (たとえ ば、ひらがなやローマ字)の文字列を読みに対応する表記 (漢字、かな混じり漢字、 英文字など)に変換する文字処理装置、方法、プログラムおよび記録媒体に関する。 背景技術  [0001] The present invention is a notation (kanji, kana mixed kanji, english characters, etc.) corresponding to the reading of a character string (for example, hiragana or romaji) for a plurality of words input using the word lattice. The present invention relates to a character processing device, a method, a program, and a recording medium. Background art
[0002] 従来、単語ラテイスを使用してかな漢字変換を行なう方法が知られている。単語ラテ イスは、非特許文献 1に記載されているように、入力の複数の読み、あるいはこれらの 入力の読みに対応する複数の表記を、その接続順に並べたネットワークである。この ネットワークを構成する各表記の各々は、ノードと呼ばれる。接続順に並べられた複 数のノード全体はノ スと呼ばれる。このノードとなる表記は単語辞書を参照して得ら れる。単語辞書は、 1つの読みとこの読みに対応する 1つ表記(見出し語とも呼ばれる )を 1つのレコードの中に含み、異なる複数のレコードで構成した読み 表記変換辞 書である。  Conventionally, a method of performing kana-kanji conversion using a word lattice is known. As described in Non-Patent Document 1, the word lattice is a network in which a plurality of input readings or a plurality of notations corresponding to the input readings are arranged in the order of connection. Each notation constituting this network is called a node. Multiple nodes arranged in the order of connection are called nodes. The notation of this node is obtained by referring to the word dictionary. The word dictionary is a reading notation conversion dictionary that includes one reading and one notation corresponding to this reading (also called a headword) in one record, and is composed of multiple different records.
[0003] たとえば、「とっきょちょう」という読みを与えると、  [0003] For example, given a reading of “Tokkyocho”,
パス 1 「とっきょ」(注. Tokkyoという発音を有するひらがなの文字列)→「町」 (注. C houという発音を有する漢字、意味は town)  Pass 1 "Tokkyo" (Note. Hiragana character string with pronunciation Tokkyo) → "Machi" (Note. Kanji with pronunciation C hou, meaning town)
パス 2 「とっきょ」→「庁」(注. Chouという発音を有する漢字、意味は office) パス 3 「特許」(注. Tokkyoという発音を有する漢字の文字列、意味は Patent)→「 庁」 . . . .  Pass 2 “Tokkyo” → “Government” (Note. Kanji with pronunciation Chou, meaning office) Pass 3 “Patent” (Note. Character string of Kanji with pronunciation Tokkyo, meaning Patent) → “Government”. ..
などの複数のパスを有する単語ラテイスがかな漢字変換装置のメモリ上で CPUによ り作成される c  A word lattice with multiple paths is created by the CPU in the Kana-Kanji conversion device memory c
[0004] CPUは、各パス上の連続する所定数、通常、よく使用される個数は 1〜3個のノー ドの出現確率を言語辞書を参照して取得し、次に 1つのパス上の全ノードの出現確 率を積算することにより、 1つのパスにおけるノードの出現確率を計算する。ちなみに 、言語辞書は、所定数個の表記の文字列とその出現確率を 1つのレコードの中に含 み、複数のレコードで構成される辞書である。 [0004] The CPU obtains the appearance probability of a predetermined number of nodes on each path, usually one to three, which is often used, by referring to the language dictionary, and then on one path. By calculating the probability of appearance of all nodes, the appearance probability of a node in one path is calculated. By the way, the language dictionary contains a predetermined number of written strings and their occurrence probabilities in one record. This is a dictionary composed of a plurality of records.
[0005] 上述の例で言えば、「とっきょ」、「町」、 A1 (出現確率の値)が言語辞書の 1つのレコ ードとなる。  [0005] In the above example, “Tokkyo”, “Town”, and A1 (value of appearance probability) are one record in the language dictionary.
[0006] 上述の処理手順を繰り返して、 CPUは単語ラテイス上の全てのパスについての出 現確率を計算する。 CPUは計算された複数の出現確率の中の最も高いパスの確率 を検出する。最も高い出現確率を有するパスの示すノードのつながり(系列)が与えら れた読みの文字列に対応する最有力のかな漢字変換結果と決定される。(非特許文 献 1)  [0006] By repeating the above processing procedure, the CPU calculates the appearance probabilities for all paths on the word lattice. The CPU detects the probability of the highest path among the calculated appearance probabilities. The node connection (sequence) indicated by the path having the highest appearance probability is determined as the most prominent kana-kanji conversion result corresponding to the given character string. (Non-patent literature 1)
決定された最有力のかな漢字変換結果がディスプレイの表示画面に表示されて、 ユーザの確定操作後、文書処理装置 (ワードプロセッサ用のプログラム)に、確定され た力な漢字変換結果が引き渡される。ユーザが頻繁に使用する表記の文字列につ The determined Kana-Kanji conversion result is displayed on the display screen, and after the confirmation operation by the user, the determined powerful Kanji conversion result is delivered to the document processing device (word processor program). A string of notation frequently used by the user.
V、ての使用頻度を言語辞書の出現確率に反映することも行なわれて 、る。 V, the frequency of use is also reflected in the appearance probability of the language dictionary.
[0007] このような文字処理方法では、入力された読みの文字列は、出現頻度の高い表記 に変換される力 時として、不具合が生じる。たとえば、地名、会社名、ことわざなどの 表現で、多数の単語で構成される連語などでは、表記はあら力じめ定められている。 ところで、統計的な言語モデルの開発において、ある単語パスの出現確率は、一般 に、コーパスと呼ばれる統計資料の出現確率に基づいて計算される。ところが、地名 などの固有名詞やことわざなどは、コーパスで出現する確率は通常高くなぐ信頼で きる確率は設定することが難しい。したがって、固有名詞の類は決まった表記がある のに、統計的に計算するとそのような変換結果を保証できないこととなってしまう。 [0007] In such a character processing method, a problem occurs when the input reading character string is converted to a notation having a high appearance frequency. For example, expressions such as place names, company names, proverbs, and collocations consisting of many words are stipulated. By the way, in the development of a statistical language model, the appearance probability of a certain word path is generally calculated based on the appearance probability of a statistical material called a corpus. However, it is difficult to set a reliable probability that a proper noun such as a place name or a proverb usually has a high probability of appearing in a corpus. Therefore, although the proper noun class has a certain notation, such a conversion result cannot be guaranteed if it is statistically calculated.
[0008] 上述のこのような連語の読みが入力された場合、上述の文字処理手法では、複数 のパスを作成し、パスの出現確率を計算するので、初期の使用常態では慣用表現と は異なるかな漢字変換結果となってしまう場合がある。 [0008] When the above-mentioned collocation reading is input, the above-described character processing method creates a plurality of paths and calculates the appearance probability of the path, so that it is different from the conventional expression in the initial use state. It may result in Kana-Kanji conversion results.
[0009] 非特許文献 1: http:〃 www.jaist.ac.jp/~kshirai/lec/i223/07.pdf [0009] Non-Patent Document 1: http: 〃 www.jaist.ac.jp/~kshirai/lec/i223/07.pdf
非特許文献 2:『N-gramの部分的強調による定型表現への言語モデル適応手法』 ( 電通学会論文誌 Vol.J86-D-II Nol2、 2003年 12月)  Non-Patent Document 2: “Language Model Adaptation Method to Fixed Expressions by Partial Emphasis on N-gram” (Dentsu IEICE Transactions Vol.J86-D-II Nol2, December 2003)
発明の開示  Disclosure of the invention
[0010] そこで、本発明の目的は、単語ラテイスを使用し、慣用的に使用される連語への変 換と、同じ読みを有する連語以外の表記への変換とをバランスよく行なうことが可能な 文字処理装置、方法、プログラムおよび記録媒体を提供することにある。 [0010] Therefore, an object of the present invention is to use a word lattice and convert it to a commonly used collocation. It is an object of the present invention to provide a character processing device, method, program, and recording medium capable of performing conversion in a balanced manner and conversion to a representation other than a multiple word having the same reading.
[0011] なお、他の従来技術としては、以下のものがある。  [0011] Other conventional techniques include the following.
1. 該当固有名詞等を、長い単位で辞書に登録する。そうすると、長い範囲を 1語で 押さえているため、長い登録単語が第 1候補になりすい。  1. Register the proper nouns in the dictionary in long units. Then, since the long range is held down with one word, the long registered word becomes the first candidate.
2. 辞書 '文法の与える確率に、辞書 '文法のコンパイル時、ないし、力な漢字変換 の実行時に、重み調整を加え、第 1候補になりやすいようにする。(非特許文献 2) 第 1の方法は、第 1候補に出やすくなるのだが、その長い範囲でタイピングしたとき にだけ有効で、その長 、範囲で候補一覧を生成せざるをえな 、と 、う問題がある。  2. Add a weight adjustment to the probability given by the dictionary 'grammar when compiling the dictionary' grammar or when performing powerful kanji conversion so that it is likely to be the first candidate. (Non-patent document 2) The first method is easy to appear in the first candidate, but it is effective only when typing in that long range, and it is necessary to generate a candidate list in that length and range. There is a problem.
[0012] 第 2の方法は、複雑な計算が必要となり、実用的な手法は存在しない。 [0012] The second method requires complicated calculations, and there is no practical method.
[0013] 本発明は、これら従来のアプローチを取らず、第 1の方法のように、あた力も長い単 語列を、内部的に複数の単語から構成されるという情報を持ったまま、 1単語である かのように仮想的に辞書に持つ。そして、長い単位でマッチングして、パスの出現確 率を計算し、変換結果の第 1候補を所望の文字列として決定した後に、構成単語列 に分割し、候補生成などの後続の処理を行う。 [0013] The present invention does not take these conventional approaches, and retains information that a word string having a long warmth is internally composed of a plurality of words as in the first method. Hold it virtually in the dictionary as if it were a word. Then, matching is performed in long units, the appearance probability of the path is calculated, the first candidate of the conversion result is determined as a desired character string, and then divided into constituent word strings, and subsequent processing such as candidate generation is performed. .
[0014] より詳細には、本発明の第 1の形態は、 単語ラテイスを使用して複数の単語の読 みの文字列を対応する複数の表記の文字列に変換する文字処理装置であって、 複数の連語の読み文字列と、対応する表記の文字列を 1つのレコードとなし、異な る複数のレコードを有する連語辞書を記憶した第 1の記憶手段と、  [0014] More specifically, a first aspect of the present invention is a character processing device for converting a character string read from a plurality of words into a corresponding character string having a plurality of notations using a word lattice. A first storage means for storing a collocation dictionary having a plurality of different collocations, a corresponding notation string as one record, and a plurality of different records;
変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単 語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記 の文字列を取得する検索手段と、  Searches the collocation dictionary with a plurality of word reading character strings to be converted, and a plurality of word notation character strings corresponding to the character strings in the collocation dictionary with the same reading as the plurality of word reading character strings Search means for obtaining
該検索手段の検索により得られる複数の連語の表記の文字列を複数のノードとし て前記単語ラテイスに追加する第 1の情報処理手段と、  First information processing means for adding a plurality of notation character strings obtained by the search by the search means as a plurality of nodes to the word lattice;
複数の単語の表記を 1組となし、複数組の出現確率を記憶した第 2の記憶手段と、 前記複数の連語の表記の出現確率を記憶した第 3の記憶手段と、  A second storage means storing a plurality of sets of appearance probabilities, and a third storage means storing the appearance probabilities of the plurality of collocation expressions;
前記第 2の記憶手段および第 3の記憶手段に記憶された出現確率に基づき、前記 連語の表記の文字列がノードとして追加された単語ラテイス上の最も出現確率が高く なるパス上の表記の文字列を変換候補として取得する第 2の情報処理手段と を具えたことを特徴とする。 Based on the appearance probabilities stored in the second storage means and the third storage means, the highest appearance probability on the word lattice in which the character string of the collocation is added as a node is the highest. And a second information processing means for acquiring a character string written on the path as a conversion candidate.
[0015] 本発明の第 2の形態では、前記第 1の記憶手段を第 3の記憶手段として使用し、前 記レコードの中に、出現確率を含めることを特徴とする。 [0015] In the second aspect of the present invention, the first storage means is used as a third storage means, and the appearance probability is included in the record.
[0016] 本発明の第 3の形態では、単語ラテイスを使用して複数の単語の読みの文字列を 対応する複数の表記の文字列に変換する文字処理装置の文字処理方法であって、 前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を 1つ のレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第 1の記憶手 段、複数の単語の表記を 1組となし、複数組の出現確率を記憶した第 2の記憶手段と 、前記複数の連語の表記の出現確率を記憶した第 3の記憶手段検索手段、第 1の情 報処理手段および第 2の情報処理手段を有し、 [0016] In a third aspect of the present invention, there is provided a character processing method for a character processing device that uses a word lattice to convert a plurality of word reading character strings into a plurality of corresponding character strings. The character processing unit is a first storage means that stores a multiple word reading character string, a corresponding character string as one record, and a multiple word dictionary having a plurality of different records. A second storage means that stores a plurality of sets of appearance probabilities, a third storage means search means that stores the appearance probabilities of the plurality of collocation notations, a first information processing means, and a first information processing means 2 information processing means,
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を 検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応 する複数の単語の表記の文字列を取得し、  The retrieval means retrieves the collocation dictionary with a reading string of a plurality of words to be converted, and reads a plurality of words corresponding to the string in the collocation dictionary with the same reading as the reading string of the plurality of words. Get the notation string,
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードと して前記単語ラテイスに前記第 1の情報処理手段により追加し、  Adding a plurality of word notation character strings obtained by the search by the search means to the word lattice as a plurality of nodes by the first information processing means;
前記第 2の記憶手段および第 3の記憶手段に記憶された出現確率に基づき、前記 連語の表記の文字列がノードとして追加された単語ラテイス上の最も出現確率が高く なるパス上の表記の文字列を変換候補として前記第 2の情報処理手段により取得す る  Based on the appearance probabilities stored in the second storage means and the third storage means, the character of the notation on the path having the highest appearance probability on the word lattice in which the character string of the combination word is added as a node A column is obtained as a conversion candidate by the second information processing means.
こと特徴とする。  It is a feature.
[0017] 本発明の第 4の形態では、前記第 1の記憶手段を第 3の記憶手段として使用し、前 記レコードの中に、出現確率を含めることを特徴とする請求項 3に記載の文字処理方 法。  [0017] In the fourth aspect of the present invention, the first storage unit is used as a third storage unit, and the appearance probability is included in the record. Character processing method.
[0018] 本発明の第 5の形態では、単語ラテイスを使用して複数の単語の読みの文字列を 対応する複数の表記の文字列に変換する文字処理装置のための文字処理プロダラ ムであって、  [0018] In a fifth aspect of the present invention, there is provided a character processing program for a character processing device that uses a word lattice to convert a plurality of word reading character strings into a plurality of corresponding character strings. And
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を 1つ のレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第 1の記憶手 段、複数の単語の表記を 1組となし、複数組の出現確率を記憶した第 2の記憶手段と 、前記複数の連語の表記の出現確率を記憶した第 3の記憶手段、検索手段、第 1の 情報処理手段および第 2の情報処理手段を有し、 The character processing device has a plurality of conjunctive reading character strings and a corresponding character string. A first storage means storing a collocation dictionary having a plurality of different records; a second storage means storing a plurality of sets of appearance probabilities; A third storage means for storing the appearance probabilities of a plurality of collocation expressions, a search means, a first information processing means, and a second information processing means;
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を 検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応 する複数の単語の表記の文字列を取得するステップと、  The retrieval means retrieves the collocation dictionary with a reading string of a plurality of words to be converted, and reads a plurality of words corresponding to the string in the collocation dictionary with the same reading as the reading string of the plurality of words. Obtaining a notation string;
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードと して前記単語ラテイスに前記第 1の情報処理手段により追加するステップと、 前記第 2の記憶手段および第 3の記憶手段に記憶された出現確率に基づき、前記 連語の表記の文字列がノードとして追加された単語ラテイス上の最も出現確率が高く なるパス上の表記の文字列を変換候補として前記第 2の情報処理手段により取得す るステップと  Adding a plurality of word-notation character strings obtained by the search by the search means to the word lattice as a plurality of nodes by the first information processing means; the second storage means and the third storage means; Based on the appearance probabilities stored in the storage means, the character string of the notation on the path having the highest appearance probability on the word lattice in which the character string of the combined word notation is added as a node is used as the conversion candidate. Steps acquired by processing means
を備えたこと特徴とする。  It is characterized by having.
[0019] 本発明の第 6の形態では、前記第 1の記憶手段を第 3の記憶手段として使用し、前 記レコードの中に、出現確率を含めることを特徴とする。 [0019] In a sixth aspect of the present invention, the first storage means is used as a third storage means, and the appearance probability is included in the record.
[0020] 本発明の第 7の形態では、第 5または第 6の形態のプログラムを記録したことを特徴 とする。 [0020] The seventh aspect of the present invention is characterized in that the program of the fifth or sixth aspect is recorded.
図面の簡単な説明  Brief Description of Drawings
[0021] [図 1]図 1は本発明実施形態のハードウェア構成を示すブロック図である。 FIG. 1 is a block diagram showing a hardware configuration of an embodiment of the present invention.
[図 2]図 2は本発明実施形態のソフトウェアの構成を示すブロック図である。  FIG. 2 is a block diagram showing a software configuration according to the embodiment of the present invention.
[図 3]図 3は本発明実施形態の文字処理手順を示すフローチャートである。  FIG. 3 is a flowchart showing a character processing procedure according to the embodiment of the present invention.
[図 4]図 4は単語ラテイスの一例を示す説明図である。  FIG. 4 is an explanatory diagram showing an example of word ratings.
[図 5]図 5はノードが追加された単語ラテイスを示す説明図である。  [FIG. 5] FIG. 5 is an explanatory diagram showing a word rating with a node added.
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0022] 以下、図面を参照して本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(実施形態 1)  (Embodiment 1)
[0023] 実施形態 1の文字処理装置のシステム構成の一例を図 1に示す。文字処理装置と しては汎用のパーソナルコンピュータ、携帯電話機など、情報処理機能を有する種 々の情報処理装置を使用することができる。 FIG. 1 shows an example of the system configuration of the character processing device according to the first embodiment. With character processor Thus, various information processing apparatuses having an information processing function such as general-purpose personal computers and mobile phones can be used.
[0024] 図 1において、 10は CPUであり、後述の文字処理プログラムを使用して、本発明に 係わる文字処理を実行する。 CPU10が本発明の検索手段、第 1および第 2の情報 処理手段として機能する。  In FIG. 1, reference numeral 10 denotes a CPU, which executes character processing according to the present invention using a character processing program described later. The CPU 10 functions as search means and first and second information processing means of the present invention.
[0025] 20は ROMおよび RAMを有するシステムメモリであり、 CPU10に対する入出力デ ータを一時記憶する。  [0025] Reference numeral 20 denotes a system memory having a ROM and a RAM, which temporarily stores input / output data for the CPU 10.
[0026] 30は入力装置であり、たとえば、キーボードなどの読みの文字列を入力する装置を 使用することができる。キーボード以外にも、たとえば、読みの文字列を記憶した記憶 媒体から読みの文字列を読み取るデータ読取装置、通信により外部機器力 読みの 文字列を入力する通信装置を入力装置 30として使用することができる。  [0026] Reference numeral 30 denotes an input device. For example, a device such as a keyboard for inputting a reading character string can be used. In addition to the keyboard, for example, a data reading device that reads a reading character string from a storage medium that stores the reading character string, or a communication device that inputs a reading character string through external communication can be used as the input device 30. it can.
[0027] 40はハードディスク (HD)であり、文字処理プログラムおよび文字処理で使用する 後述の辞書を記憶する。ハードディスク 40が本発明の第 1〜第 3の記憶手段として機 能する。  Reference numeral 40 denotes a hard disk (HD), which stores a character processing program and a later-described dictionary used for character processing. The hard disk 40 functions as the first to third storage means of the present invention.
[0028] 50はディスプレイであり、文字処理プログラムにより決定された編間候補を表示する  [0028] Reference numeral 50 denotes a display that displays inter-knitting candidates determined by the character processing program.
[0029] 図 2は図 1のハードディスク 40に実装されるソフトウェアの構成を示す。 FIG. 2 shows a configuration of software installed in the hard disk 40 of FIG.
[0030] 100は単語ラテイスを使用して複数の単語の読みの文字列を対応する複数の表記 の文字列に変換する文字処理プログラムである。 110は単語辞書であり、従来と同様 [0030] 100 is a character processing program for converting a plurality of word reading character strings into a corresponding plurality of notation character strings using a word lattice. 110 is a word dictionary, the same as before
、 1つの単語の読みの文字列および対応する表記の文字列を 1つのレコードとなし、 複数の異なるレコードを記載している。 A single word reading string and a corresponding notation string are written as one record, and several different records are listed.
[0031] 120は、言語辞書であり、複数の単語の表記および対応する出現確率を記載して いる。実施形態 1では言語辞書 120は従来と同様とすることができる。 [0031] Reference numeral 120 denotes a language dictionary, which describes a plurality of words and corresponding appearance probabilities. In the first embodiment, the language dictionary 120 can be the same as the conventional one.
[0032] 130は本発明に係わる連語辞書であり、慣用的に使用される複数の連語 (たとえば[0032] 130 is a collocation dictionary according to the present invention, and a plurality of commonly used collocations (for example,
、地名、会社名などの固有表現、ことわざなど)について、読みの文字列および表記 の文字列、各連語の出現確率を 1つのレコードとなし、異なる複数のレコードを連語 辞書 130に記載している。 (Proprietary expressions such as place names, company names, proverbs, etc.), the reading character string and the written character string, the appearance probability of each collocation is one record, and multiple different records are listed in the collocation dictionary 130 .
[0033] なお、単語数が少な 、場合、連語辞書 130に記載する連語の文字列と同じ表記の 文字列を言語辞書 120にも記載しておく。この場合、連語辞書 130の方の出現確率 が言語辞書 120の出現確率よりも予め高く設定しておくことに注意されたい。 [0033] When the number of words is small, the same notation as the string of collocations described in the collocation dictionary 130 is used. The character string is also written in the language dictionary 120. In this case, it should be noted that the appearance probability of the collocation dictionary 130 is set higher than the appearance probability of the language dictionary 120 in advance.
[0034] 実施形態 1では単語辞書 110を記憶するハードディスク 40が本発明の第 2の記憶 手段として機能し、連語辞書 130を記憶するハードディスク 40が本発明の第 1および 第 3の記憶手段として機能する。  In the first embodiment, the hard disk 40 that stores the word dictionary 110 functions as the second storage unit of the present invention, and the hard disk 40 that stores the collocation dictionary 130 functions as the first and third storage units of the present invention. To do.
[0035] 図 3は文字処理プログラム 100の中の本発明に係わるプログラム部分の処理手順 を示す。図 4および 5はシステムメモリ 20上に構築される単語ラテイスを理解が容易な ようにネットワークの形態で示して 、る。  FIG. 3 shows the processing procedure of the program portion according to the present invention in the character processing program 100. 4 and 5 show the word ratings constructed on the system memory 20 in the form of a network for easy understanding.
[0036] 図 3〜図 5を参照しながら、文字処理装置の動作を説明する。  [0036] The operation of the character processing device will be described with reference to FIGS.
[0037] 入力装置 30から読みの文字列として「とっきょちょう」が入力され、変換候補として「 特許庁」が得られるまでの CPU10の処理内容を説明する。  [0037] The processing contents of the CPU 10 until "Tokkocho" is input as a reading character string from the input device 30 and "Japan Patent Office" is obtained as a conversion candidate will be described.
[0038] 図 3のステップ S 10で、 CPU 10はシステムメモリ 20上に図 4に示す単語ラテイスを 従来と同様の方法で、構築する。簡単に述べると、 CPU10は読みの文字列「とっきょ 」で単語辞書 110を検索し、「とっきょ」、「トツキヨ」および「特許」を変換可能な表記の 文字列として取得する。取得した 3つの文字列をそれぞれ、システムメモリ 20に記憶 する。つぎに、 CPU10は残りの読みの文字列「ちょう」に対応する変換可能な表記の 文字列「ちょう」、「チョウ」(Chouという発音を有するカタカナの文字列)、「町」. . . 「 庁」を単語辞書 110から検索により取得する。  In step S 10 of FIG. 3, the CPU 10 builds the word lattice shown in FIG. 4 on the system memory 20 in the same manner as in the past. Briefly, the CPU 10 searches the word dictionary 110 with the reading character string “Tokkyo”, and acquires “Tokkyo”, “Totsuki” and “patent” as convertible character strings. Each of the obtained three character strings is stored in the system memory 20. Next, the CPU 10 converts the character strings “Cho”, “Chou” (a katakana character string with the pronunciation “Chou”), “Machi” ... “Office” is retrieved from the word dictionary 110 by a search.
[0039] 取得した読みの文字列が、先ほど取得した直前の単語の表記の文字列と関連付け られてシステムメモリ 20に記憶される。関連付けの方法としては、直前の表記が記憶 された記憶アドレスを属性情報として取得した表記にもたせる方法、表形態に記憶す るなどの方法が広く知られているので、当業者は好適な方法を使用すればよい。  [0039] The acquired character string of reading is stored in the system memory 20 in association with the character string of the notation of the immediately preceding word acquired previously. As a method for associating, a method of giving the storage address storing the immediately preceding notation as the notation acquired as attribute information and a method of storing it in a table form are widely known. Use it.
[0040] この例では 2つの単語についての読みの文字列が入力された例である力 3っ以 上の単語が入力された場合には、以下、単語単位で読みの文字列に対応する表記 の文字列を CPU10が取得して、単語ラテイスを構築する。  [0040] In this example, the reading character strings for two words are input. When three or more words are input, the following notation corresponding to the reading character strings in units of words. CPU10 obtains the character string and constructs a word rating.
[0041] 続いて、 CPU10は図 3のステップ S20に進む。ここで、 CPU10は、本発明の検索 手段として、入力の読みの文字列、この場合、「とっきょちょう」で、連語辞書 130を検 索する。この検索により連語辞書 130から連語の表記「特許庁」とその出現確率 A1 が得られる。 Subsequently, the CPU 10 proceeds to step S20 in FIG. Here, as a search means of the present invention, the CPU 10 searches the collocation dictionary 130 with a character string of the input reading, in this case, “Tokkocho”. As a result of this search, the combined word notation “JPO” and its appearance probability A1 from the collocation dictionary 130 Is obtained.
[0042] 手順はステップ S30に進み、 CPU10はシステムメモリ 20上の単語ラテイス(図 4参 照)に取得した連語の表記「特許」、「庁」をノードとして図 5に示すように追加する。取 得した連語の各単語をノードとしてもよいし、全体をノードとしてもよい。図 5の例は単 語をノードとしている。なお、追加したノードで構成されるノ スをこの実施形態ではバ ィパス (符号 1010)と呼ぶことにする。バイパス 1010は従来のパスと区別するために バイパスであることを示す属性情報が与えられる。  The procedure proceeds to step S30, and the CPU 10 adds the acquired collocation notation “patent” and “government” to the word rating (see FIG. 4) in the system memory 20 as nodes as shown in FIG. Each word of the acquired collocation may be a node, or the whole may be a node. The example in Fig. 5 uses words as nodes. Note that the node composed of the added nodes is called a bypass (reference numeral 1010) in this embodiment. Bypass 1010 is given attribute information indicating that it is bypass to distinguish it from the conventional path.
[0043] 手順は S40に進み、図 5の単語ラテイス上の各パスの出現確率を CPU10が計算す る。図 5の例では、第 1のパスは「とっきょ」→「チョウ」であるので、「とっきょ」 +「チョウ」 で言語辞書 120が検索され、対応の出現確率 B1を CPU10により取得する。  The procedure proceeds to S40, and the CPU 10 calculates the appearance probability of each path on the word lattice of FIG. In the example of FIG. 5, since the first path is “Tokkyo” → “Chow”, the language dictionary 120 is searched for “Tokkyo” + “Chow”, and the corresponding appearance probability B1 is obtained by the CPU 10.
[0044] このようにして、単語辞書 110によりノードを取得したパス(図 4)については、言語 辞書 120から出現確率を取得する。  In this way, the appearance probability is acquired from the language dictionary 120 for the path (FIG. 4) from which the node is acquired by the word dictionary 110.
[0045] バイパス 1010上のノード「特許」、「庁」については、ステップ S20で連語辞書 130 力も出現確率 A1が得られているので、 CPU10は各パスについて、相互に比較し、 たとえば、ソーティングと呼ばれる情報処理手法を使用して、最も高い出現確率を有 するパスを検出する。検出されたパス上のノードを結合した表記の文字列が CPU10 によりは読みの文字列「とっきょちょう」に対する変換候補としてディスプレイ 50により 取得されて表示される (ステップ S40)。以後、ユーザは従来と同様に、入力装置 30 を使用して確定、あるいは変換の指示を CPU10に与えて、ユーザが望む変換結果 を取得する。  [0045] For the nodes "patent" and "office" on the bypass 1010, the appearance probability A1 is also obtained for the collocation dictionary 130 in step S20, so the CPU 10 compares each path with each other, for example, sorting and Using the information processing method called, the path with the highest appearance probability is detected. A notation character string obtained by combining the nodes on the detected path is acquired by the display 50 as a conversion candidate for the reading character string “Tokkocho” by the CPU 10 and displayed (step S40). Thereafter, the user confirms using the input device 30 or gives a conversion instruction to the CPU 10 as before, and acquires the conversion result desired by the user.
[0046] この例では、文字処理装置の初期使用状態では「とっきょちょう」について、連語辞 書 130から取得した表記で構成される図 5のパス 1010の出現確率が最高値を持つ ことになる。このため、図 5のノ ィパス 1010上のノード (特許庁)が変換候補として決 定される。  [0046] In this example, in the initial use state of the character processing device, the appearance probability of the path 1010 in Fig. 5 composed of the notation obtained from the collocation dictionary 130 has the highest value for "Tokkocho". Therefore, the node (Patent Office) on the no-path 1010 in FIG. 5 is determined as a conversion candidate.
[0047] その後、ユーザが「特許庁」という表記を頻繁に使用すると、従来と同様、言語辞書 120上の「特許庁」に対応する出現頻度が高くなるように更新され、図 5のバイノス 10 00上のノード (特許庁)が変換候補として決定される。  Thereafter, when the user frequently uses the expression “Patent Office”, the appearance frequency corresponding to “Patent Office” on the language dictionary 120 is updated so as to increase as in the conventional case, and the binos 10 in FIG. The node above 00 (Patent Office) is determined as a conversion candidate.
[0048] もしも「特許町」という町に住む人がこの文字処理装置を使用して住所を入力すると 、言語辞書 120に記載された「特許町」の出現頻度がユーザの使用に応じて更新さ れるので、このユーザが「とっきょちょう」と文字処理装置入力した場合には「特許町」 が変換結果として得られることになる。 [0048] If a person who lives in the town of “Patent Town” inputs an address using this character processing device, Since the appearance frequency of “Patent Town” described in the language dictionary 120 is updated according to the user's use, if the user inputs “Tokkyocho” as a character processing device, “Patent Town” Will be obtained as
[0049] 以上説明したよう、単語ラテイスに連語辞書 130から取得した表記をノードとして追 加することにより、従来では初期の使用状態では、慣用表現力 Sかならずしも変換結果 とならない問題を解決することができる。 [0049] As described above, by adding the notation obtained from the collocation dictionary 130 as a node to the word lattice, it is possible to solve the problem that the conventional expressive power S is not necessarily a conversion result in the initial use state. it can.
(実施形態 2)  (Embodiment 2)
[0050] 実施形態 1では連語の出現確率を連語辞書 130に読みの文字列、表記の文字列 と共に記載していたが、出現確率を言語辞書 120に記載してもよいし、また、別の辞 書やテーブルに記載してもよ ヽ。  In Embodiment 1, the appearance probability of the collocation is described in the collocation dictionary 130 together with the read character string and the written character string. However, the appearance probability may be described in the language dictionary 120. It may be written in a dictionary or table.
[0051] 以上、述べた実施形態は本発明の説明のための例示である。本発明の技術思想 は特許請求の範囲に示されており、この技術思想に基づき、上述の実施形態に対す る種々の改良形態が存在することは当業者であれば容易に理解し得よう。  [0051] The above-described embodiments are examples for explaining the present invention. The technical idea of the present invention is shown in the scope of claims, and it will be easily understood by those skilled in the art that various improvements to the above-described embodiment exist based on this technical idea.
産業上の利用可能性  Industrial applicability
[0052] 本発明によれば、連語辞書カゝら取得した単語の表記を単語ラテイスにノードとして 追加することにより、従来では初期の使用状態で、慣用表記が変換結果とならない問 題を改善する。また、使用頻度に応じて、慣用表記と同じ読みを有する、慣用表記以 外の表記が変換結果となるので、バランスのよ 、変換結果が得られる。 [0052] According to the present invention, by adding the word notation obtained from the collocation dictionary as a node to the word lattice, conventionally, it is possible to improve the problem that the conventional notation is not a conversion result in the initial use state. . In addition, according to the frequency of use, a conversion result is obtained because a conversion other than the conventional expression having the same reading as the conventional expression is the conversion result.

Claims

請求の範囲 The scope of the claims
[1] 単語ラテイスを使用して複数の単語の読みの文字列を対応する複数の表記の文字 列に変換する文字処理装置であって、  [1] A character processing device for converting a plurality of word reading character strings into a plurality of corresponding notation character strings using a word lattice,
複数の連語の読み文字列と、対応する表記の文字列を 1つのレコードとなし、異な る複数のレコードを有する連語辞書を記憶した第 1の記憶手段と、  A first storage means for storing a collocation dictionary having a plurality of different collocation reading strings and a corresponding notation string as one record and having a plurality of different records;
変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単 語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記 の文字列を取得する検索手段と、  Searches the collocation dictionary with a plurality of word reading character strings to be converted, and a plurality of word notation character strings corresponding to the character strings in the collocation dictionary with the same reading as the plurality of word reading character strings Search means for obtaining
該検索手段の検索により得られる複数の連語の表記の文字列を複数のノードとし て前記単語ラテイスに追加する第 1の情報処理手段と、  First information processing means for adding a plurality of notation character strings obtained by the search by the search means as a plurality of nodes to the word lattice;
複数の単語の表記を 1組となし、複数組の出現確率を記憶した第 2の記憶手段と、 前記複数の連語の表記の出現確率を記憶した第 3の記憶手段と、  A second storage means storing a plurality of sets of appearance probabilities, and a third storage means storing the appearance probabilities of the plurality of collocation expressions;
前記第 2の記憶手段および第 3の記憶手段に記憶された出現確率に基づき、前記 連語の表記の文字列がノードとして追加された単語ラテイス上の最も出現確率が高く なるパス上の表記の文字列を変換候補として取得する第 2の情報処理手段と を具えたことを特徴とする文字処理装置。  Based on the appearance probabilities stored in the second storage means and the third storage means, the character of the notation on the path having the highest appearance probability on the word lattice in which the character string of the combination word is added as a node A character processing device comprising: second information processing means for acquiring a column as a conversion candidate.
[2] 前記第 1の記憶手段を第 3の記憶手段として使用し、前記レコードの中に、出現確 率を含めることを特徴とする請求項 1に記載の文字処理装置。 [2] The character processing device according to claim 1, wherein the first storage unit is used as a third storage unit, and an appearance probability is included in the record.
[3] 単語ラテイスを使用して複数の単語の読みの文字列を対応する複数の表記の文字 列に変換する文字処理装置の文字処理方法であって、 [3] A character processing method of a character processing device for converting a character string of a plurality of word readings to a corresponding plurality of character strings using a word lattice,
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を 1つ のレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第 1の記憶手 段、複数の単語の表記を 1組となし、複数組の出現確率を記憶した第 2の記憶手段と 、前記複数の連語の表記の出現確率を記憶した第 3の記憶手段検索手段、第 1の情 報処理手段および第 2の情報処理手段を有し、  The character processing device is a first storage means for storing a multiple word reading character string, a corresponding character string as one record, and storing a multiple word dictionary having a plurality of different records. A second storage means that stores a plurality of sets of appearance probabilities, a third storage means search means that stores the appearance probabilities of the plurality of collocation expressions, a first information processing means, Having a second information processing means;
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を 検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応 する複数の単語の表記の文字列を取得し、 前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードと して前記単語ラテイスに第 1の情報処理手段により追加し、 The retrieval means retrieves the collocation dictionary with a reading string of a plurality of words to be converted, and reads a plurality of words corresponding to the string in the collocation dictionary with the same reading as the reading string of the plurality of words. Get the notation string, A plurality of word representation character strings obtained by the search by the search means are added as a plurality of nodes to the word lattice by the first information processing means;
前記第 2の記憶手段および第 3の記憶手段に記憶された出現確率に基づき、前記 連語の表記の文字列がノードとして追加された単語ラテイス上の最も出現確率が高く なるパス上の表記の文字列を変換候補として前記第 2の情報処理手段により取得す る  Based on the appearance probabilities stored in the second storage means and the third storage means, the character of the notation on the path having the highest appearance probability on the word lattice in which the character string of the combination word is added as a node A column is obtained as a conversion candidate by the second information processing means.
こと特徴とする文字処理装置の文字処理方法。  A character processing method for a character processing device.
[4] 前記第 1の記憶手段を第 3の記憶手段として使用し、前記レコードの中に、出現確 率を含めることを特徴とする請求項 3に記載の文字処理装置の文字処理方法。 4. The character processing method for a character processing device according to claim 3, wherein the first storage unit is used as a third storage unit, and an appearance probability is included in the record.
[5] 単語ラテイスを使用して複数の単語の読みの文字列を対応する複数の表記の文字 列に変換する文字処理装置のための文字処理プログラムであって、 [5] A character processing program for a character processing device that uses a word lattice to convert a plurality of word reading character strings into a plurality of corresponding character strings,
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を 1つ のレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第 1の記憶手 段、複数の単語の表記を 1組となし、複数組の出現確率を記憶した第 2の記憶手段と 、前記複数の連語の表記の出現確率を記憶した第 3の記憶手段、検索手段、第 1の 情報処理手段および第 2の情報処理手段を有し、  The character processing device is a first storage means for storing a multiple word reading character string, a corresponding character string as one record, and storing a multiple word dictionary having a plurality of different records. A second storage means that stores a set of appearance probabilities, a third storage means that stores the appearance probabilities of the plural conjunctions, a search means, a first information processing means, Having a second information processing means;
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を 検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応 する複数の単語の表記の文字列を取得するステップと、  The retrieval means retrieves the collocation dictionary with a reading string of a plurality of words to be converted, and reads a plurality of words corresponding to the string in the collocation dictionary with the same reading as the reading string of the plurality of words. Obtaining a notation string;
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードと して前記単語ラテイスに前記第 1の情報処理手段により追加するステップと、 前記第 2の記憶手段および第 3の記憶手段に記憶された出現確率に基づき、前記 連語の表記の文字列がノードとして追加された単語ラテイス上の最も出現確率が高く なるパス上の表記の文字列を変換候補として前記第 2の情報処理手段により取得す るステップと  Adding a plurality of word-notation character strings obtained by the search by the search means to the word lattice as a plurality of nodes by the first information processing means; the second storage means and the third storage means; Based on the appearance probabilities stored in the storage means, the character string of the notation on the path having the highest appearance probability on the word lattice in which the character string of the combined word notation is added as a node is used as the conversion candidate. Steps acquired by processing means
を備えたこと特徴とする文字処理プログラム。  A character processing program comprising:
[6] 前記第 1の記憶手段を第 3の記憶手段として使用し、前記レコードの中に、出現確 率を含めることを特徴とする請求項 5に記載の文字処理プログラム。 [7] 請求項 5または 6に記載のプログラムを記録したことを特徴とする記録媒体。 6. The character processing program according to claim 5, wherein the first storage unit is used as a third storage unit, and an appearance probability is included in the record. [7] A recording medium on which the program according to claim 5 or 6 is recorded.
PCT/JP2007/051622 2006-01-31 2007-01-31 Character processing device, method and program, and recording medium WO2007088902A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007800028749A CN101371252B (en) 2006-01-31 2007-01-31 Character processing device, method and program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006022294A JP4845523B2 (en) 2006-01-31 2006-01-31 Character processing apparatus, method, program, and recording medium
JP2006-022294 2006-01-31

Publications (1)

Publication Number Publication Date
WO2007088902A1 true WO2007088902A1 (en) 2007-08-09

Family

ID=38327473

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/051622 WO2007088902A1 (en) 2006-01-31 2007-01-31 Character processing device, method and program, and recording medium

Country Status (4)

Country Link
JP (1) JP4845523B2 (en)
CN (1) CN101371252B (en)
TW (1) TW200821868A (en)
WO (1) WO2007088902A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455159A (en) * 2012-05-30 2013-12-18 苏州卫生职业技术学院 English character string input technique applied to English input method and implementation method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222B (en) * 2009-02-20 2012-05-30 北京大学 Multilayer index voice document searching method
JP5626557B2 (en) * 2009-12-04 2014-11-19 バイドゥ株式会社 Character string conversion device, search device, character string conversion method, character string conversion program
JP2011210149A (en) * 2010-03-30 2011-10-20 Baidu Japan Inc Character string conversion device, retrieval device, character string conversion method, and character string conversion program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6389975A (en) * 1986-10-03 1988-04-20 Ricoh Co Ltd Language analyzer
JPH06131326A (en) * 1992-10-22 1994-05-13 Seiko Epson Corp Kana @(3754/24)japanese syllabary) kanji @(3754/24)chinese character converter
JP2004118461A (en) * 2002-09-25 2004-04-15 Microsoft Corp Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6389975A (en) * 1986-10-03 1988-04-20 Ricoh Co Ltd Language analyzer
JPH06131326A (en) * 1992-10-22 1994-05-13 Seiko Epson Corp Kana @(3754/24)japanese syllabary) kanji @(3754/24)chinese character converter
JP2004118461A (en) * 2002-09-25 2004-04-15 Microsoft Corp Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455159A (en) * 2012-05-30 2013-12-18 苏州卫生职业技术学院 English character string input technique applied to English input method and implementation method

Also Published As

Publication number Publication date
CN101371252B (en) 2013-11-13
CN101371252A (en) 2009-02-18
JP4845523B2 (en) 2011-12-28
JP2007206796A (en) 2007-08-16
TW200821868A (en) 2008-05-16

Similar Documents

Publication Publication Date Title
JP5997217B2 (en) A method to remove ambiguity of multiple readings in language conversion
JP3998668B2 (en) Morphological analyzer, method and program
JP2007004633A (en) Language model generation device and language processing device using language model generated by the same
JP2007226729A (en) Translation word information output processing program, processing method, and processing apparatus
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP2007141133A (en) Device, method and program of example translation
JP2007287134A (en) Information extracting device and information extracting method
JP2013196358A (en) Retrieval supporting apparatus and retrieval supporting method
JP2004070959A (en) Adaptive context sensitive analysis
JP2015022590A (en) Character input apparatus, character input method, and character input program
WO2007088902A1 (en) Character processing device, method and program, and recording medium
JPWO2008108061A1 (en) Language processing system, language processing method, language processing program, and recording medium
JP2009251292A (en) Learning content generator, learning content generating method, program for operating computer as learning content generator, and computer readable medium storing the program
TWI273450B (en) Method and apparatus for searching data
JP6619932B2 (en) Morphological analyzer and program
JP4251000B2 (en) Kana-kanji conversion device, kana-kanji conversion method, and kana-kanji conversion program
JP7247593B2 (en) Generation device, software robot system, generation method and generation program
KR101543024B1 (en) Method and Apparatus for Translating Word based on Pronunciation
JP2010257085A (en) Retrieval device, retrieval method, and retrieval program
JP5289261B2 (en) Text conversion device, method and program
JP4155970B2 (en) Information processing apparatus, synonym database generation method, and synonym database generation program
JP6805927B2 (en) Index generator, data search program, index generator, data search device, index generation method, and data search method
JP2004118461A (en) Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium
JP4847210B2 (en) Input conversion learning program, input conversion learning method, and input conversion learning device
JP7200474B2 (en) CONVERSION AID DEVICE, CONVERSION AID SYSTEM, CONVERSION AID METHOD, AND COMPUTER PROGRAM

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 200780002874.9

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07707808

Country of ref document: EP

Kind code of ref document: A1