WO2009139240A1

WO2009139240A1 - 情報処理装置および情報処理方法ならびに記録媒体

Info

Publication number: WO2009139240A1
Application number: PCT/JP2009/057169
Authority: WO
Inventors: 金安徐; 誠也長田; 潔山端
Original assignee: 日本電気株式会社
Priority date: 2008-05-13
Filing date: 2009-04-08
Publication date: 2009-11-19
Also published as: JP2011175306A

Abstract

　情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備える。これにより、変換対象となっている語が日中変換辞書に登録されていない日本語の未知語である場合に、当該未知語の中国語への変換精度の向上を図る。

Description

情報処理装置および情報処理方法ならびに記録媒体

　本発明は、情報処理にかかり、特に、日本語の文字情報を中国語に変換する情報処理技術に関する。

　第一の言語（例えば、日本語）を、第二の言語（例えば、中国語）に変換する処理を自動的に行う機械翻訳システムや言語横断型情報検索システムが開発されている。このようなシステムは、一般的に、第一言語と第二言語の対訳辞書を備えており、この対訳辞書を用いて、第一言語の文字情報を第二言語に変換している。

　そして、特許文献１では、対訳辞書を用いて翻訳候補となる第二言語が複数検索された場合に、適切な翻訳を行うためのシステムを開示している。具体的に、特許文献１に開示のシステムは、まず、変換対象である日本語単語と、当該日本語単語と異なる表記で同じ意味を表す日本語単語である言い換え単語と、を対応付けて登録した言い換え辞書を備えている。そして、日中対訳辞書を用いて、入力された日本語単語に対応付けられた中国語単語が複数検索された場合に、上記言い換え辞書を利用して入力された日本語単語の言い換え単語を検索し、この言い換え単語と複数の中国語単語のうち、類似度が高いものを訳語として選択している。

　しかしながら、上記特許文献１の技術では、まず、日本語単語に対応付けられた中国語単語を検索しているため、この時点で対応する中国語が検索できないような未知語に対しては、適切な意味の中国語を検索することができない。従って、翻訳精度が低い、という問題があった。

　一方で、二言語間の対訳辞書に登録されていない未知語を高精度に翻訳するためのシステムが、特許文献２，３に開示されている。

　特許文献２に開示されている表音文字列翻訳装置は、第１自然言語第２自然言語間訳語検索部と、第１自然言語第２自然言語間表音文字列変換部と、第２自然言語表記列生成部と、第１自然言語第２自然言語間電子辞書と、カタカナピンイン変換表と、ピンイン漢字変換表と、を備えている。そして、この表音文字列翻訳装置では、日中両言語間のカタカナピンイン変換表とピンイン漢字変換表とを予め用意し、システムに与えることによって、日本語の表音文字列を中国語の漢字に変換している。

　また、特許文献３では、未知語に対して、漢字とひらがな文字列に分割する機械翻訳方法を提案している。具体的に、特許文献３のシステムは、入力装置と、入力処理部と、形態素解析部と、変換部と、未登録語判定部と、未登録語訳語生成部と、出力処理部と、出力装置と、を備えている。そして、このシステムにおける未知語処理方法は、未登録語訳生成部で日本語単語が未登録語であると判断された場合に、当該未登録語を一または複数のひらがな文字の連続であるひらがな文字列と、一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された非ひらがな文字列のみに対して訳語を生成している。

特開２００６－３０９３４６号公報特許第３４０７２０１号公報特許第４０１８６６８号公報

　しかしながら、上記特許文献２に開示の技術では、二言語間の表音文字列の対応関係が単一ではないため、未知語に対して処理を行った場合には、当該未知語を高精度に翻訳することができない、という問題が生じる。これは、表音未知語のカタカナが検出された場合に、カタカナピンイン変換表を用いてカタカナを中国語ピンインに変換する仕組みとなっているが、日本語カタカナと中国語ピンインとの対応関係が単一ではなく、一つの日本語音節単位のカタカナに対応できる中国語ピンイン候補が複数ある場合があることによる。例えば、日本語カタカナ「サ」に対応できる中国語ピンイン候補は、少なくとも「sa」、「sha」、「xia」の三つある。さらには、一つの中国語ピンインに対して、漢字候補が多数存在するため、さらに上記問題が生じうる。例えば、上述した例である「sa」、「sha」、「xia」の場合は、それぞれのピンインの中国語漢字候補が１０～２０個前後がある。このため、上記特許文献２の技術では、依然として正確に翻訳することが困難となっている。

　また、上記特許文献３の技術では、日本語のひらがなを含む未知語に対する処理は、その未知語に含む漢字の部分だけその未知語の中国語の訳語とするため、意味的な欠落が多数存在する、という問題が生じる。すると、日本語のひらがなを含む未知語を処理した結果、多くの場合は、その未知語の意味を正しく翻訳できない。一例として、日本語動詞「考える」が未知語の場合には、特許文献３のシステムでは、「考」が出力される。そして、「考」の中国語の意味は日本語では「試験」または「テスト」となり、誤訳となってしまう。つまり、正しい訳語である「思考」や「考慮」を得ることができず、翻訳精度の向上を図ることができない。

　このため、本発明の目的は、上述した課題である、変換対象となっている日本語が対訳辞書に登録されていない未知語である場合に、当該未知語の中国語への変換精度の向上を図る、ことにある。

　かかる目的を達成するため本発明の一形態である情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備えたことを特徴とする。

　また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、を備えたことを特徴とする。

　また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、を備えたことを特徴とする。

　また、本発明の他の形態である情報処理装置は、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。

　また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を実現させるためのプログラムを格納している。

　また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、を実現させるためのプログラムを格納している。

　また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、を実現させるためのプログラムを格納している。

　また、本発明の他の形態である記録媒体は、コンピュータに、入力された日本語の文字情報の構造を解析する解析手段と、上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を実現させるプログラムを格納しており、上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。

　また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、を有することを特徴とする。

　また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報の構造を解析する解析工程と、上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、上記中国語変換工程による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成工程と、を有することを特徴とする。

　また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報の構造を解析する解析工程と、上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、上記解析工程にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換工程による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳工程と、を有することを特徴とする。

　また、本発明の他の形態である情報処理方法は、入力された日本語の文字情報の構造を解析する解析工程と、上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索工程と、を有し、上記検索工程は、上記未知語検出工程にて検出した日本語である上記未知語と、上記中国語変換工程にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、ことを特徴とする。

　本発明は、以上のように構成されるため、これによると、対訳辞書に登録されていない日本語の未知語であっても、高精度に中国語に変換することができる、という優れた効果を有する。

実施形態１における情報処理システムの構成を示す機能ブロック図である。日本語辞書の類似語の概念の階層の一例を示す説明図である。日本語辞書の概念の階層の一例を示す説明図である。日中漢字対応データベースの一例を示す説明図である。実施形態１における情報処理システムの動作を示すフローチャートである。実施形態２における情報処理システムの構成を示す機能ブロック図である。実施形態２における情報処理システムの動作を示すフローチャートである。実施形態３における情報処理システムの構成を示す機能ブロック図である。実施形態３における情報処理システムの動作を示すフローチャートである。実施形態３における中国語への翻訳結果の一例を示す図である。実施形態４における情報処理システムの構成を示す機能ブロック図である。実施形態４における情報処理システムの動作を示すフローチャートである。実施形態５における情報処理システムの構成を示す機能ブロック図である。実施形態５における情報処理システムの動作を示すフローチャートである。

　本発明の一形態である情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備えたことを特徴とする。

　そして、上記情報処理装置では、上記言い換え手段は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、ことを特徴とする。

　さらに、上記情報処理装置では、上記未知語検出手段は、上記入力された日本語の文字情報のうち、仮名文字を含む語を上記未知語として検出する、ことを特徴とする。

　上記発明によると、情報処理装置が日本語の文字情報の入力を受け付けると、まず、この文字情報内で、日本語と中国語との対訳辞書に登録されていない未知語を検出する。続いて、検出した日本語の未知語を、同じく日本語における漢字を含む他の言い換え語に言い換える。例えば、仮名文字を含む未知語を、類似語情報に登録されている日本語漢字を含む類似語に、他の言い換え語として言い換える。そして、未知語の言い換え語に含まれる日本語漢字を対応する中国語漢字に変換して、未知語を中国語に変換する。

　このように、日本語の未知語を同じく日本語の他の言い換え語に言い換えた後に、この言い換え語に含まれる日本語漢字を中国語漢字に変換するため、対訳辞書に登録されていない未知語であっても、中国語への変換精度が高まる。特に、仮名文字を含む未知語を、漢字を含む日本語の類似語に言い換えた後に中国語に変換することで、日本語と中国語とが相互に漢字を含む言語であるという特性を利用して、さらに変換精度の向上を図ることができる。

　また、上記情報処理装置では、上記言い換え手段は、上記未知語を言い換えた上記言い換え語のうち、当該言い換え語に含まれる漢字の数に応じて、上記中国語変換手段にて変換する上記言い換え語を選択する、ことを特徴とする。

　また、上記情報処理装置では、上記言い換え手段は、上記未知語を言い換えた上記言い換え語のうち、全てが漢字にて構成されているものを、上記中国語変換手段にて変換する上記言い換え語とする、ことを特徴とする。

　これにより、漢字を多く含む言い換え語、望ましくは全てが漢字にて構成されている言い換え語を中国語に変換するため、より多くの対応する中国語漢字に変換することができ、適切な変換を行うことができる。

　また、上記情報処理装置では、上記言い換え手段は、上記類似語情報の類似語間における優先度情報に基づいて、上記中国語変換手段にて変換する上記言い換え語を選択する、ことを特徴とする。

　また、上記情報処理装置では、上記言い換え手段は、上記未知語を上記類似語に言い換えた上記言い換え語のうち、上記類似語情報の類似語間における上位／下位概念情報に基づく上記未知語に対する上記言い換え語の上記上位／下位概念の距離に応じて、上記第二言語変換手段にて変換する上記言い換え語を選択する、ことを特徴とする。

　これにより、未知語を言い換えた類似語の中から、類似語間の優先度や、上位／下位概念に応じて言い換え語を選択することで、例えば、より使用頻度の高い語や一般的な語を言い換え語として選択して中国語に変換でき、より適切な中国語を得ることができる。

　また、上記情報処理装置では、上記言い換え手段は、上記未知語の上記類似語に日本語漢字を含む語が存在しない場合に、上記未知語の上記類似語のうち上記日本語と中国語との対訳辞書に登録されている語を上記言い換え語として言い換え、上記中国語変換手段は、上記言い換え語を日本語と中国語との対訳辞書に基づいて中国語に変換する、ことを特徴とする。

　これにより、仮に未知語の類似語で日本語漢字を含む語が存在しない場合であっても、未知語は、類似語のうち中国語に翻訳可能な語に言い換えられるため、対訳辞書に基づいて中国語に翻訳することが可能となる。

　これによると、上述した情報処理装置は、日本語の未知語と中国語との対訳辞書を生成する辞書作成支援装置として機能する。

　これによると、上述した情報処理装置は、未知語を含む日本語であっても中国語に翻訳可能な翻訳装置として機能する。

　これによると、上述した情報処理装置は、日本語の未知語と、これの中国語の対訳と、をキーワードとして、両言語で情報検索を行う言語横断型情報検索装置として機能する。

　そして、上記言い換え手段は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、ことを特徴とする。

　そして、上記情報処理方法では、上記言い換え工程は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、ことを特徴とする。

　上述した構成を有する、記録媒体、又は、情報処理方法、の発明であっても、上記情報処理装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

　以下、本発明に係る、情報処理装置、記録媒体、及び、情報処理方法、の各実施形態について、図１乃至図１４を参照しながら説明する。なお、以下の実施形態では、情報処理装置の一例として、日本語を中国語に変換する変換装置や辞書作成支援装置、翻訳装置、言語横断型情報検索装置を挙げて説明するが、本発明はかかる利用に限定されない。

＜実施形態１＞
　本発明の第１の実施形態を、図１乃至図５を参照して説明する。図１は、情報処理システムの構成を示す機能ブロック図である。図２乃至図４は、変換に使用するデータの一例を示す図である。図５は、変換装置の動作を示すフローチャートである。

　［構成］
　図１は、本実施形態における日本語を中国語に変換する情報処理システムの構成を示す図である。この図に示すように、情報処理システムは、変換装置１（情報処理装置）とデータベース２（記憶装置）とによって構成されている。但し、情報処理システムの構成は、図１に示すものに限定されない。例えば、データベース２がそれぞれネットワーク上の他のコンピュータに構成されており、当該ネットワーク上のコンピュータから変換装置１に種々のデータが提供されてもよい。また、図１に示す情報処理システムが１台のコンピュータにて構成されていてもよく、あるいは、変換装置１が複数台のコンピュータにて構成されていてもよい。以下、各構成について詳述する。

　まず、データベース２は、日中翻訳辞書２１と、日本語辞書２２と、日中漢字対応データベース２３と、を備えている。そして、上記日中翻訳辞書２１は、日本語と中国語の対訳辞書情報であり、各日本語の単語や語句といった各形態素に対応する中国語が記憶されている。

　また、日本語辞書２２は、種々の日本語語句の類似語情報を記憶した、日本語類似語辞書や日本語単語辞書である。例えば、以下のようなデータを使用することができる。
・日本科学技術情報センター［ＪＯＩＳ］の「ＪＳＴシソーラス」
http://jois.jst.go.jp/JOIS/html/thesaurus_index.htm
・日本語大シソーラス類語検索大辞典CDーROM版，山口翼著，大修館書店，2006年01月

　ここで、日本語辞書２２の一例を、図２及び図３に示す。図２は、「ソフトドリンク」という語句の類似語の概念の階層を示す説明図である。図３は、「ソフトドリンク」の類似語が記述されている例（ＪＯＩＳのＪＳＴシソーラス）を示す説明図である。この図３では、ＪＳＴシソーラスに記録された「ソフトドリンク」と、その同義語である「清涼飲料」の辞書情報を示している。また、図３に示す記号列の「ＵＳＥ」は国際ＩＳＯ基準では「優先語」と意味し、「ＵＦ」は「非優先語」と意味する。従って、図３の例では、「ソフトドリンク」という言い方より、「清涼飲料」のほうが優先語であることを意味する。なお、この日本語辞書２２の具体的な利用方法については後述する。

　また、上記日中漢字対応データベース２３は、日本語漢字に対応する中国語漢字、つまり、各日本語にそれぞれ対応する中国語簡体字や繁体字を登録したデータベース（対応漢字情報）である。この日中漢字対応データベース２３の一例を、図４に示す。この図に示すように、日本語漢字と、日本語漢字に対応する中国語の簡体字と繁体字とが、関連付けられて登録されている。また、日中漢字対応データベース２３は、人々が使う頻度の高い漢字と、使う頻度の低い漢字とを分けて構築されており、頻度の高低を表す情報が、各漢字に関連付けられて記憶されている。これにより、後述する日中漢字変換部１６によって、検出された未知語の言い換え語候補の中から、使用頻度が高く分かりやすい中国語漢字が選択される。

　次に、変換装置１の構成について詳述する。変換装置１は、演算装置と記憶装置とを備えた一般的なコンピュータである。そして、変換装置１は、図１に示すように、演算装置に本発明である変換処理用プログラムが組み込まれることで構築された、日本語入力受付部１１と、日本語文章解析部１２と、未知語検出部１３と、未知語言い換え部１４と、最適候補推定部１５と、日中漢字変換部１６と、を備えている。

　上記日本語入力受付部１１は、図示しないキーボードやファイル等を通じて変換装置１に入力された日本語文章情報を受け付け、日本語文章解析部１２に渡す。なお、入力される日本語は、必ずしも文章であることに限定されず、日本語の文字情報であればよい。

　また、上記日本語文章解析部１２（解析手段）は、入力された日本語文章の構造を解析する。具体的には、予めシステムに与えられた文法ルールや単語リストなどの辞書情報などを用いて、形態素解析または単語分割、構文解析などの処理を行い、日本語を形態素や単語に分割する。そして、未知語検出部１３に渡す。なお、日本語文章の解析処理方法は、いかなる方法を用いてもよい。

　また、未知語検出部１３（未知語検出手段）は、上述したように解析された形態素や単語のうち、日中翻訳辞書２１に登録されていない未知語を検出する。このとき、特に、解析により分割された単語のうち、ひらがなやカタカナといった仮名文字を含む単語を、未知語として検出する。なお、未知語検出部１３は、コンピュータ上で日本語テキストを表現するのに用いられている文字コードの種別（例えば、EUC、Unicode、JIS、SJIS等）と、英数字、ひらがな、カタカナ、漢字等のコードとに基づいて、単語が仮名を含むかどうかの判定を行う。そして、未知語検出部１３は、検出した未知語を、未知語言い換え部１４に渡す。なお、未知語検出部１３による未知語の検出は、必ずしも仮名文字を含む単語を未知語として検出することに限定されない。仮名文字を含まない単語を未知語として検出してもよい。

　また、未知語言い換え部１４（言い換え手段）は、上述したように検出された未知語を、日本語の他の語（言い換え語）に言い換える。具体的に、本実施形態では、上述した日本語辞書２２（類似語情報）を用いて、未知語の類似語を抽出して、言い換え語の候補として選定する。例えば、未知語が「ソフトドリンク」である場合には、図２に示す類似語の概念の階層に挙がっている同義概念の「清涼飲料」や上位概念の「飲料」、さらには、下位概念の「炭酸飲料」などが、言い換え語の候補となる。このとき、未知語言い換え部１４は、特に、漢字を含む類似語を言い換え語の候補として選定する。そして、未知語言い換え部１４は、選定した言い換え語の候補を、最適候補推定部１５に渡す。

　また、最適候補推定部１５（言い換え手段）は、上述したように選定された言い換え語の候補のうち、まずは、全てが漢字にて構成されている言い換え語つまり同義語が存在する場合に、これを言い換え語の最適候補として推定する。このとき、同義語が複数存在する場合には、上述した日本語辞書２２内の優先度を表す情報に基づいて（図２、図３参照）、優先語から非優先語への順位で最適な候補を推定する。つまり、まずは、優先度の最も高い優先語を、日中漢字変換部１６にて中国語に変換する言い換え語として選択する。

　一方で、最適候補推定部１５は、全てが漢字にて構成されている言い換え語の候補が存在しない場合には、漢字数の最も多いものを最適候補として推定（選択）する。このとき、最適候補推定部１５は、漢字数が最も多いものが複数存在して、複数の最適候補が存在する場合には、上記日本語辞書２２内の上位、下位概念を表す情報に基づいて（図２、図３参照）、最適候補を特定する。具体的には、同義概念との概念間の距離が最も小さい上位概念または下位概念から最適候補を推定する。最終的には、類似語の最上位概念（ルート）または最下位概念まで、上述した最適候補の推定処理を行う。最後まで最適候補を見つからない場合、処理を終了する。なお、必ずしも漢字数の最も多いものを最適候補として推定する必要はない。例えば、言い換え語の後方のうち、各語の全体に対する漢字の割合が最も高いものを最適候補として推定してもよい。

　また、最適候補推定部１５は、未知語の言い換え語として漢字を含む類似語が存在しない場合には、日本語辞書２２中に存在する類似語のうち、日中翻訳辞書２１に登録されている類似語を言い換え語の候補として優先して推定（選択）する。この場合には、後述する日中漢字変換部１６は、この推定された言い換え語を、日中翻訳語辞書２１を用いて対応する中国語に翻訳する。

　また、上記日中漢字変換部１６（中国語変換手段）は、上記最適候補推定部１５にて最適候補として推定（選択）された未知語の言い換え語に含まれる日本語漢字を、日中漢字対応データベース２３に基づいて中国語漢字に変換する。そして、日中漢字変換部１６は、変換した中国語漢字を出力する。なお、日中漢字変換部１６は、日本語漢字に対応する中国語漢字が複数存在する場合には、各漢字に関連付けられて記憶されている頻度の高低を表す情報に基づいて、変換する中国語漢字を決定する。例えば、頻度が最も高い中国語漢字に変換する。

　［動作］
　次に、上述した変換装置１の動作を、図５のフローチャートを参照して説明する。まず、キーボードやファイル等を通じて入力された日本語文章を受け付ける（ステップＳ１）。以下、一例として、「ソフトドリンクをいただけますか」という日本語文章が入力された場合を説明する。

　続いて、入力された日本語文章に対して、形態素解析または単語分割等の解析処理を行う（ステップＳ２、解析工程）。例えば、上記日本語文章の場合には、形態素解析の結果は、「ソフトドリンク／を／いただ／け／ます／か」となる。このとき、形態素解析を行った結果となる各形態素には、独自の属性値が付与される。ここで、属性値とは、原形、品詞、活用形、意味分類、アスペクト等の情報からなる。すると、上記「ソフトドリンク」の属性値には、品詞が「未知語」、訳語が空欄として設定される。

　そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う（ステップＳ３、未知語検出工程）。このとき、仮名を含む未知語が検出されない場合には（ステップＳ３でノー）、処理を終了する。仮名を含む未知語が検出された場合には（ステップＳ３でイエス）、次の処理（ステップＳ４）へ進む。なお、ここでは、上記文章中、「ソフトドリンク」の品詞属性である「未知語」の情報と、文字コードの種別と、ひらがな、カタカナ、漢字等のコードとにより、「ソフトドリンク」を仮名を含む未知語として検出する。

　続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書２２を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する（ステップＳ４、言い換え工程）。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語（類似語）つまり全てが漢字の言い換え語が存在する場合には（ステップＳ５でイエス）、その類似語である同義語を優先して最適候補と推定する（ステップＳ６）。このとき、同義語が複数存在する場合には、日本語辞書２２を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には（ステップＳ５でノー）、全類似語候補の中から漢字数の多いものを最適候補とする（ステップＳ７）。

　なお、図５には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものを最適候補とする。そして、概念の距離同一のものが複数存在する場合には、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書２１にすでに登録された類似語を最適候補とする処理も行われる。なお、前記未知語の類似語候補がサ変の場合はサ変語幹のみを用いて（サ変語尾を切り捨て）、形容動詞の場合は形容動詞語幹のみを用いて（形容動詞語尾を切り捨て）、上述した言い換え処理を行う。

　具体的には、日本語辞書２２を用いて、上記未知語である「ソフトドリンク」を、漢字を含む文字列に言い換える処理を行う。なお、日本語辞書２２の構成は、上述したように図２，３に示すとおりであり、これによると、「ソフトドリンク」の言い換え語候補として、全てが漢字の同義語である「清涼飲料」が推定される。なお、「清涼飲料」の方が「ソフトドリンク」よりも優先度が高い優先語（図３の記号ＵＳＥを参照）であると計算されているため、当該「清涼飲料」を最適候補として推定する。

　なお、必要に応じて、「ソフトドリンク」の同義語である「清涼飲料」を用いて、ＪＳＴシソーラスで辞書の逆引きを行うことが出来る。その結果、図２に示される「ソフトドリンク」の同義語や類似語の概念の階層関係を含む図３に示される辞書情報を読み込んで記憶する。これには、「ソフトドリンク」の同義語である「清涼飲料」と、下位概念である「果実飲料」と「炭酸飲料」と「乳飲料」、上位概念である「飲料」、最上位概念である「食品」等の情報が含まれる。

　続いて、上記ステップＳ６あるいはステップＳ７で推定された言い換え語の最適候補に対して、日中漢字対応データベース２３を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う（ステップＳ８、中国語変換工程）。その後、変換結果である中国語の文字情報を、変換装置１に装備されたディスプレイなどの出力装置に出力する（ステップＳ９）。

　具体的には、上述したように、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース２３（図４参照）に基づいて、文字ごとに中国語漢字の「清涼飲料」（中国語簡体字でもよい）に変換する。

　このようにすることにより、日本語の未知語を同じく日本語の他の言い換え語に言い換えた後に中国語に変換するため、日中翻訳辞書２１に登録されていない未知語であっても、中国語への変換精度が高まる。特に、未知語を、日本語漢字を含む言い換え語に言い換えることで、漢字を用いる中国語への変換精度の向上を図ることができる。

　なお、上記では、未知語「ソフトドリンク」を「清涼飲料」に変換する場合を例示したが、例えば、以下のような変換例も考えられる。ここでは、入力された日本語文章の中に仮名を含む未知語「考える」が検出された場合を考える。すると、まず、上述したように、日本語動詞シソーラスから、「考える」の類似語である「思考」、「考慮」、「思う」等の言い換え候補を獲得できる。そして、最適な言い換え候補として、「思考」や「考慮」を推定することができ、これを中国語漢字に変換することにより、未知語「考える」を、中国語の訳語として「思考」や「考慮」に変換することができる。これにより、未知語「考える」を含む入力された日本語文章の翻訳結果を、中国語側に通じる変換して出力することができる。

　＜実施形態２＞
　次に、本発明の第２の実施形態を、図６乃至図７を参照して説明する。図６は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図７はその動作を示すフローチャートである。

　［構成］
　本実施形態は、上述した情報処理システムを、翻訳辞書生成支援システムとして使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態１における変換装置１及びデータベース２からなる情報処理システムとほぼ同様の構成を採っている。

　具体的に、本実施形態におけるデータベース２は、図６に示すように、日中翻訳辞書２１と、日本語辞書２２と、日中漢字対応データベース２３と、を備えている。また、変換装置１（情報処理装置）は、図６に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部１１と、日本語文章解析部１２と、未知語検出部１３と、未知語言い換え部１４と、最適候補推定部１５と、日中漢字変換部１６と、を備えている。

　そして、これに加えて、本実施形態における変換装置１は、図６に示すように、演算装置にプログラムが組み込まれることによって構築された辞書生成部１７を備えている。この辞書生成部１７（未知語変換辞書生成手段）は、上述したように日中漢字変換部１６にて変換された変換結果を、変換対象となった未知語の対訳として、日中翻訳辞書２１に記憶する機能を有する。例えば、上述したように、未知語が「ソフトドリンク」であり、その中国語への変換結果が「清涼飲料」である場合には、日本語「ソフトドリンク」の対訳として、中国語「清涼飲料」を、日中翻訳辞書２１に登録する。

　ここで、上記日本語文章解析部１２は、上述した実施形態１にて説明したものとほぼ同様の構成であるが、本実施形態では特に、入力された日本語文章の構造を、予めシステムに与えられた文法ルールや単語リストなどの辞書情報などを用いて、形態素解析または単語分割などの処理を行い、日本語を形態素や単語に分割する処理を行う。なお、その他の構成は、実施形態１と同様であるため、その詳細な説明は省略する。

　［動作］
　次に、上記構成の変換装置１の動作を、上記実施形態１で説明した図５及び図７を参照して説明する。なお、図７は、上述した実施形態１の図５を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後（図５のステップＳ８以降）の動作を示している。従って、以下では、図５を参照して説明する動作については、簡単に説明する。

　まず、キーボードやファイル等を通じて入力された日本語文章、例えば、「ソフトドリンクをいただけますか」という日本語文章、を受け付ける（ステップＳ１）。続いて、入力された日本語文章に対して、形態素解析または単語分割等の解析処理を行う（ステップＳ２、解析工程）。

　そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う（ステップＳ３、未知語検出工程）。このとき、仮名を含む未知語が検出されない場合には（ステップＳ３でノー）、処理を終了する。仮名を含む未知語が検出された場合には（ステップＳ３でイエス）、次の処理（ステップＳ４）へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。

　なお、図５には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書２１にすでに登録された類似語を最適候補とする。

　続いて、上記ステップＳ６あるいはステップＳ７で推定された言い換え語の最適候補に対して、日中漢字対応データベース２３を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う（ステップＳ８、中国語変換工程）。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース２３（図４参照）に基づいて、文字ごとに中国語漢字の「清涼飲料」（中国語簡体字でもよい）に変換する。

　続いて、上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、この「清涼飲料」という中国語と、日本語の未知語として検出された「ソフトドリンク」とを対応付けて、未知語と中国語の対応辞書を生成する（ステップＳ１１）。そして、この対応辞書を日中翻訳辞書２１に登録する（ステップＳ１２、未知語変換辞書生成工程）。つまり、日本語「ソフトドリンク」の中国語対訳として、「清涼飲料」が登録されることとなる。その後は、必要に応じて、登録された対訳をディスプレイなどに出力する。

　これにより、以後、日中翻訳辞書２１を用いて翻訳を行う場合には、上述したように登録した対訳を利用することが可能となる。

＜実施形態３＞
　次に、本発明の第３の実施形態を、図８乃至図１０を参照して説明する。図８は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図９はその動作を示すフローチャートである。また、図１０は、中国語への翻訳例を示す説明図である。

　［構成］
　本実施形態は、上述した情報処理システムを、翻訳装置として使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態２における変換装置１及びデータベース２からなる情報処理システムとほぼ同様の構成を採っている。

　具体的に、本実施形態におけるデータベース２は、図８に示すように、日中翻訳辞書２１と、日本語辞書２２と、日中漢字対応データベース２３と、を備えている。また、変換装置１（情報処理装置）は、図８に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部１１と、日本語文章解析部１２と、未知語検出部１３と、未知語言い換え部１４と、最適候補推定部１５と、日中漢字変換部１６と、辞書生成部１７と、を備えている。

　そして、これに加えて、本実施形態における変換装置１は、図８に示すように、演算装置にプログラムが組み込まれることによって構築された翻訳部１８と、中国語出力部１９と、を備えている。

　上記翻訳部１８（翻訳手段）は、上述したように日中漢字変換部１６にて変換した変換結果と、予め日中翻訳辞書２１に登録されている対訳辞書に基づいて、入力された日本語文章を中国語に変換する。つまり、上述したように、実施形態２で未知語と中国語との対訳辞書が日中翻訳辞書２１に記憶されているため、当該日中翻訳辞書２１には、入力され解析された日本語文章の語句（形態素）の全てが登録されていることとなり、これを用いて、中国語に翻訳することができる。また、中国語出力部１９は、翻訳部１８による翻訳結果である中国語の文章を、変換装置１に装備されたディスプレイなどの出力装置に出力する。

　ここで、上記日本語文章解析部１２は、上述した実施形態１にて説明したものとほぼ同様の構成であるが、本実施形態では特に、翻訳処理を行うために、入力された日本語文章を、予めシステムに与えられた解析ルールなどの情報を用いて、形態素解析及び構文解析の処理を行う。なお、その他の構成は、実施形態２と同様であるため、その詳細な説明は省略する。

　［動作］
　次に、上記構成の変換装置１の動作を、上記実施形態１で説明した図５及び図９を参照して説明する。なお、図９は、上述した実施形態１の図５を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後（図５のステップＳ８以降）の動作を示している。従って、以下では、図５を参照して説明する動作については、簡単に説明する。

　まず、キーボードやファイル等を通じて入力された日本語文章、例えば、「ソフトドリンクをいただけますか」という日本語文章、を受け付ける（ステップＳ１）。続いて、入力された日本語文章に対して、形態素解析及び構文解析の処理を行う（ステップＳ２、解析工程）。

　上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、この「清涼飲料」という中国語と、日本語の未知語として検出された「ソフトドリンク」とを対応付けて、未知語と中国語の対応辞書を生成して、日中翻訳辞書２１に登録する（ステップＳ２１）。これにより、上記例文「ソフトドリンクをいただけますか」に対し、「ソフトドリンク」が未知語である場合であっても、まず、「ソフトドリンク」と「清涼飲料」から構成される日中翻訳辞書が生成される。そして、この日中対訳辞書２１を用いて、この追加された対訳辞書と予め登録されている対訳辞書とを含む日中対訳辞書２１を用いて、未知語ではない部分と未知語を含む日本語文章「ソフトドリンクをいただけますか」を、図１０に示すように、簡体字あるいは繁体字の中国語に翻訳する（ステップＳ２２、変換工程）。なお、図１０に示す簡体字あるいは繁体字の中国語は、左側から読むことで、日本語の「ソフトドリンクをいただけますか」に対応する中国語訳となっている。その後は、必要に応じて、翻訳結果をディスプレイなどに出力する（ステップＳ２３）。

　＜実施形態４＞
　次に、本発明の第４の実施形態を、図１１乃至図１２を参照して説明する。図１１は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図１２はその動作を示すフローチャートである。

　［構成］
　本実施形態は、上述した情報処理システムを、言語横断型情報検索システムとして使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態１における変換装置１及びデータベース２からなる情報処理システムとほぼ同様の構成を採っている。

　具体的に、本実施形態におけるデータベース２は、図１１に示すように、日中翻訳辞書２１と、日本語辞書２２と、日中漢字対応データベース２３と、を備えている。そして、これに加えて、本実施形態におけるデータベース２は、日本語と中国語とによって構成された検索対象となる所定の内容の検索データベース２４を備えている。なお、この検索データベース２４は、ネットワーク上の他のコンピュータに記憶されているものでもよい。

　また、本実施形態における変換装置１（情報処理装置）は、図１１に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部１１と、日本語文章解析部１２と、未知語検出部１３と、未知語言い換え部１４と、最適候補推定部１５と、日中漢字変換部１６と、を備えている。

　そして、これに加えて、本実施形態における変換装置１は、図１１に示すように、演算装置にプログラムが組み込まれることによって構築された、検索処理部３１と検索結果出力部３２とを備えている。

　そして、上記検索処理部３１（検索手段）は、未知語検出部１３から日本語入力受付部１１に対して入力された日本語の未知語を受け付けると共に、日中漢字変換部１６にて変換された上記未知語の変換結果である中国語を受け付ける。そして、受け付けた日本語である未知語を日本語の検索キーワードとし、また、未知語の対訳となる変換結果を中国語の検索キーワードとして、それぞれの言語で検索データベース２４内の検索を行う。そして、検索結果出力部３２は、上記検索結果をディスプレイなどに出力する。

　ここで、上記日本語文章解析部１２は、上述した実施形態１にて説明したものとほぼ同様の構成であるが、本実施形態では特に、入力された日本語文章の構造を、予めシステムに与えられた解析ルールなどの辞書情報などを用いて、形態素解析の処理、あるいは、形態素解析及び構文解析の処理を行う。なお、その他の構成は、実施形態１と同様であるため、その詳細な説明は省略する。

　［動作］
　次に、上記構成の変換装置１の動作を、上記実施形態１で説明した図５及び図１２を参照して説明する。なお、図１２は、上述した実施形態１の図５を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後（図５のステップＳ８以降）の動作を示している。従って、以下では、図５を参照して説明する動作については、簡単に説明する。

　まず、日中言語コーパスから「ソフトドリンク」に関する日中関連情報を検索する場合に、検索キーワードとして入力された「ソフトドリンク」といった日本語文章を受け付ける（ステップＳ１）。続いて、入力された日本語文章に対して、形態素解析、あるいは、形態素解析及び構文解析、といった解析処理を行う（ステップＳ２、解析工程）。

　続いて、上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、日本語の「ソフトドリンク」を日本語の検索キーワードとし、また、中国語への変換結果である「清涼飲料」を中国語の検索キーワードとする。そして、日本語である「ソフトドリンク」を利用して、日本語の検索データベース２４から当該キーワードに関連した情報を検索する。同時に、中国語である「清涼飲料」を利用して、中国語の検索データベース２４から当該キーワードに関連した情報を検索する（ステップＳ３１、検索工程）。なお、上述した検索処理は、例えば、検索エンジンを用いて、日中両言語コーパスや日中両言語で構成されるウェブ上のデータベースサーバに記憶された検索データベースに対して行ってもよい。その後は、必要に応じて、検索結果をディスプレイなどに出力する（ステップＳ３２）。

　＜実施形態５＞
　本発明の第５の実施形態を、図１３乃至図１４を参照して説明する。図１３は、情報処理システムの構成を示す機能ブロック図であり、図１４は、その動作を示すフローチャートである。

　本実施形態における変換装置１０１とデータベース１０２とからなる情報処理システムは、上述した他の実施形態における情報処理システムとほぼ同様の構成を採っているが、このうち、変換装置１０１が、未知語検出部１１１と、未知語言い換え部１１２と、日中漢字変換部１１３と、を備えている。なお、データベース１０２内の構造は上記同様であり、日中翻訳辞書１２１と、日本語辞書１２２と、日中漢字対応データベース１２３と、を備えている。

　そして、上記未知語検出部１１１は、入力された日本語の文字情報内から（ステップＳ１０１）、日中翻訳辞書１２１に登録されていない未知語を検出する処理を行う（ステップＳ１０２）。また、未知語言い換え部１２２は、日本語辞書１１２に基づいて、未知語を同じく日本語の漢字を含む言い換え語に言い換える処理を行う（ステップＳ１０３）。さらに、日中漢字変換部１１３は、日中漢字対応データベース１２３に基づいて、未知語を言い換えた言い替え語に含まれる日本語漢字を中国語漢字に変換して（ステップＳ１０４）、出力する処理を行う（ステップＳ１０５）。

　上記構成であっても、日本語の未知語を同じく日本語の漢字を含む他の言い換え語に言い換えた後に、当該言い換え語に含まれる日本語漢字を中国語漢字に変換して、中国語に変換することができる。従って、辞書に登録されていない日本語の未知語であっても、より高精度に中国語に変換することができる。

　上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ、ＲＯＭカートリッジ、バッテリバックアップ付きＲＡＭメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性ＲＡＭカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年０５月１３日に出願された日本出願特願２００８－１２５３５４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明の情報処理装置は、日本語の未知語を中国語に変換する変換装置、さらには、辞書作成支援装置や、翻訳装置、言語横断型情報検索装置、として利用することができ、産業上の利用可能性を有する。

１，１０１　変換装置
２，１０２　データベース
１１　日本語入力受付部
１２　日本語文章解析部
１３，１１１　未知語検出部
１４，１１２　未知語言い換え部
１５　最適候補推定部
１６，１１３　日中漢字変換部

Claims

　入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
を備えたことを特徴とする情報処理装置。
　前記言い換え手段は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
ことを特徴とする請求項１記載の情報処理装置。
　前記未知語検出手段は、前記入力された日本語の文字情報のうち、仮名文字を含む語を前記未知語として検出する、
ことを特徴とする請求項１又は２記載の情報処理装置。
　前記言い換え手段は、前記未知語を言い換えた前記言い換え語のうち、当該言い換え語に含まれる漢字の数に応じて、前記中国語変換手段にて変換する前記言い換え語を選択する、
ことを特徴とする請求項１，２又は３記載の情報処理装置。
　前記言い換え手段は、前記未知語を言い換えた前記言い換え語のうち、全てが漢字にて構成されているものを、前記中国語変換手段にて変換する前記言い換え語とする、
ことを特徴とする請求項１，２又は３記載の情報処理装置。
　前記言い換え手段は、前記類似語情報の類似語間における優先度情報に基づいて、前記中国語変換手段にて変換する前記言い換え語を選択する、
ことを特徴とする請求項２，３，４又は５記載の情報処理装置。
　前記言い換え手段は、前記未知語を前記類似語に言い換えた前記言い換え語のうち、前記類似語情報の類似語間における上位／下位概念情報に基づく前記未知語に対する前記言い換え語の前記上位／下位概念の距離に応じて、前記第二言語変換手段にて変換する前記言い換え語を選択する、
ことを特徴とする請求項２，３，４，５又は６記載の情報処理装置。
　前記言い換え手段は、前記未知語の前記類似語に日本語漢字を含む語が存在しない場合に、前記未知語の前記類似語のうち前記日本語と中国語との対訳辞書に登録されている語を前記言い換え語として言い換え、
　前記中国語変換手段は、前記言い換え語を前記日本語と中国語との対訳辞書に基づいて中国語に変換する、
ことを特徴とする請求項２，３，４，５，６又は７記載の情報処理装置。
　入力された日本語の文字情報の構造を解析する解析手段と、
　前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
　前記中国語変換手段による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成手段と、
を備えたことを特徴とする情報処理装置。
　入力された日本語の文字情報の構造を解析する解析手段と、
　前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
　前記解析手段にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換手段による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
を備えたことを特徴とする情報処理装置。
　入力された日本語の文字情報の構造を解析する解析手段と、
　前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
　日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、
　前記検索手段は、前記未知語検出手段にて検出した日本語である前記未知語と、前記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
ことを特徴とする情報処理装置。
　コンピュータに、
　入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
を実現させるためのプログラムが格納された記録媒体。
　前記言い換え手段は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
ことを特徴とする請求項１２記載の記録媒体。
　コンピュータに、
　入力された日本語の文字情報の構造を解析する解析手段と、
　前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
　前記中国語変換手段による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成手段と、
を実現させるためのプログラムが格納された記録媒体。
　コンピュータに、
　入力された日本語の文字情報の構造を解析する解析手段と、
　前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
　前記解析手段にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換手段による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
を実現させるためのプログラムが格納された記録媒体。
　コンピュータに、
　入力された日本語の文字情報の構造を解析する解析手段と、
　前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
　日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を実現させるプログラムであり、
　前記検索手段は、前記未知語検出手段にて検出した日本語である前記未知語と、前記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
ことを特徴とするプログラムが格納された記録媒体。
　入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
を有することを特徴とする情報処理方法。
　前記言い換え工程は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
ことを特徴とする請求項１７記載の情報処理方法。
　入力された日本語の文字情報の構造を解析する解析工程と、
　前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
　前記中国語変換工程による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成工程と、
を有することを特徴とする情報処理方法。
　入力された日本語の文字情報の構造を解析する解析工程と、
　前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
　前記解析工程にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換工程による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳工程と、
を有することを特徴とする情報処理方法。
　入力された日本語の文字情報の構造を解析する解析工程と、
　前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
　前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
　前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
　日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索工程と、を有し、
　前記検索工程は、前記未知語検出工程にて検出した日本語である前記未知語と、前記中国語変換工程にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
ことを特徴とする情報処理方法。