JPWO2008108061A1 - 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体 - Google Patents

言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体 Download PDF

Info

Publication number
JPWO2008108061A1
JPWO2008108061A1 JP2009502445A JP2009502445A JPWO2008108061A1 JP WO2008108061 A1 JPWO2008108061 A1 JP WO2008108061A1 JP 2009502445 A JP2009502445 A JP 2009502445A JP 2009502445 A JP2009502445 A JP 2009502445A JP WO2008108061 A1 JPWO2008108061 A1 JP WO2008108061A1
Authority
JP
Japan
Prior art keywords
document information
dictionary
language processing
input
user dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009502445A
Other languages
English (en)
Inventor
長田 誠也
誠也 長田
潔 山端
潔 山端
金安 徐
金安 徐
崇博 池田
崇博 池田
定政 邦彦
邦彦 定政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008108061A1 publication Critical patent/JPWO2008108061A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

実施形態に係る言語処理システムは、入力文書の入力を受け付ける入力装置1と、文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択手段22と、を備えている。辞書選択手段22は、入力装置1から入力された入力文書と文書情報付きユーザ辞書が有する文書情報との類似度に基づいて、ユーザ辞書の選択を行う。文書情報付きユーザ辞書を記憶する文書情報付きユーザ辞書記憶部31を更に備えてもよい。文書情報付きユーザ辞書には、文書情報として、例えば1または2以上の文が付与されている。

Description

本発明は、ユーザ辞書機能を持つ言語処理システム、言語処理方法、言語処理プログラム、および記録媒体に関する。
ユーザ辞書機能を持つ従来の言語処理システムとしては、例えば、特許文献1に記載されたものがある。同文献のシステムにおいては、分野毎のユーザ辞書がユーザにより作成されている。そして、システムにより、入力文書中の単語の出現頻度が分野毎に調べられ、頻度が高い分野に対応するユーザ辞書が選択される。
また、特許文献2には、語義を選択するために、辞書に制約条件だけでなく用例をも付記しておくことが開示されている。それにより、制約だけでは語義が選択できない際の補償として、事例に基づく翻訳手法と同様の類似表現検索機能を用いることが可能となっている。
特開2001−5812号公報 特開平5−204965号公報
しかしながら、従来の言語処理システムでは、分野体系が予め設定されており、その体系に含まれる分野の中から、ユーザ辞書が分類されるべき分野を選ぶ必要がある。それゆえ、入力文書が属する分野が上記分野体系に含まれない分野である場合、ユーザ辞書を参照して語義を適切に選択することが困難であった。
本発明による言語処理システムは、入力文書の入力を受け付ける入力手段と、文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択手段と、を備え、上記辞書選択手段は、上記入力手段から入力された上記入力文書と上記文書情報付きユーザ辞書が有する上記文書情報との類似度に基づいて、上記選択を行うことを特徴とする。
また、本発明による言語処理方法は、入力手段が入力文書の入力を受け付ける入力ステップと、文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択ステップと、を含み、上記辞書選択ステップにおいては、上記入力手段から入力された上記入力文書と上記文書情報付きユーザ辞書が有する上記文書情報との類似度に基づいて、上記選択が行われることを特徴とする。
また、本発明による言語処理プログラムは、入力手段が入力文書の入力を受け付ける入力ステップと、文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択ステップと、をコンピュータに実行させ、上記辞書選択ステップにおいては、上記入力手段から入力された上記入力文書と上記文書情報付きユーザ辞書が有する上記文書情報との類似度に基づいて、上記選択が行われることを特徴とする。
また、本発明による記録媒体は、入力手段が入力文書の入力を受け付ける入力ステップと、文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択ステップと、をコンピュータに実行させ、前記辞書選択ステップにおいては、前記入力手段から入力された前記入力文書と前記文書情報付きユーザ辞書が有する前記文書情報との類似度に基づいて、前記選択が行われる言語処理プログラムを格納したことを特徴とする。
本発明によれば、分野体系に依存せずに語義を選択することが可能な言語処理システム、言語処理方法、言語処理プログラム、およびこのプログラムを格納した記録媒体が実現される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明による言語処理システムの第1実施形態を示すブロック図である。 文書情報付きユーザ辞書の内容例を示す図である。 図1に示した言語処理システムの動作の一例を説明するためのフローチャートである。 本発明による言語処理システムの第2実施形態を示すブロック図である。 本発明による言語処理システムの第3実施形態を示すブロック図である。 本発明による言語処理システムの第4実施形態を示すブロック図である。 本発明による言語処理システムの第5実施形態を示すブロック図である。 本発明による言語処理システムの第6実施形態を示すブロック図である。 図8に示した言語処理システムの動作の一例を説明するためのフローチャートである。 図8に示した言語処理システムの動作の一例を説明するための図である。 本発明による言語処理システムの第7実施形態を示すブロック図である。 本発明の第1の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するための図である。 本発明の第6の実施例を説明するためのフローチャートである。 実施例の変形例を説明するための図である。 本発明による言語処理システムの第8実施形態を示すブロック図である。
以下、図面を参照しつつ、本発明の好適な実施形態について詳細に説明する。なお、図面の説明においては、同一要素には同一符号を付し、重複する説明を省略する。
(第1実施形態)図1は、本発明による言語処理システムの第1実施形態を示すブロック図である。この言語処理システムは、入力文書の入力を受け付ける入力装置1(入力手段)と、文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択手段22とを備えている。辞書選択手段22は、入力装置1から入力された入力文書と文書情報付きユーザ辞書が有する文書情報との類似度に基づいて、ユーザ辞書の選択を行う。
すなわち本実施形態においては、ユーザ辞書に文書情報が付与されており、その文書情報付きユーザ辞書と入力文書との類似度に基づいて、ユーザ辞書の選択が行われる。これにより、分野体系に依存せずに語義を選択することが可能となる。
より詳細には、本実施形態の言語処理システムは、キーボード等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置等の出力装置4とを含む。
記憶装置3は、文書情報付きユーザ辞書を記憶する文書情報付きユーザ辞書記憶部31を備えている。文書情報付きユーザ辞書の一例を図2に示す。この文書情報付きユーザ辞書の内容には、言語処理をするための単語の見出し語情報、語義、語義を選択するための制約情報(制約条件)、およびこの辞書に関係する文書情報が含まれている。文書情報付きユーザ辞書記憶部31には、このような文書情報付きユーザ辞書が複数格納されている。
データ処理装置2は、自然言語解析手段21と辞書選択手段22とを備えている。辞書選択手段22は、入力装置1から入力された文書と文書情報付きユーザ辞書記憶部31に文書情報として記憶されている文との類似度を計算し、類似度が高いユーザ辞書を選択する。具体的には、例えば、文書情報付きユーザ辞書記憶部31に記憶されている複数の文書情報付きユーザ辞書の中から、入力文書との類似度が最も高い文書情報付きユーザ辞書が選択される。
類似度の高低は、例えば、入力文書と文書情報付きユーザ辞書が持つ文書情報とに共通して含まれる単語の個数により判断される。つまり、共通して含まれる単語が多いほど、上記類似度が高くなる。
自然言語解析手段21は、辞書選択手段22が選択した辞書を使って入力文書の自然言語解析を行う。
図3のフローチャートを参照しつつ、本発明による言語処理方法および言語処理プログラムの一実施形態として、図1に示した言語処理システムの動作の一例を説明する。この方法は、概括すると、入力装置1が入力文書の入力を受け付ける入力ステップと、文書情報付きユーザ辞書の選択を行う辞書選択ステップと、を含む。辞書選択ステップにおいては、入力装置1から入力された入力文書と文書情報付きユーザ辞書が有する文書情報との類似度に基づいて、ユーザ辞書の選択が行われる。本実施形態の言語処理プログラムは、これらのステップをコンピュータに実行させるものである。
より詳細には、まず、入力装置1から入力された文書と、文書情報付きユーザ辞書記憶部31に記憶されている文書との類似度が、辞書選択手段22により計算される。そして、辞書選択手段22により、類似度の高い辞書が選択される(ステップA1)。
次に、選択された文書情報付きユーザ辞書とシステム辞書とを使って、自然言語解析手段21により自然言語解析が行われる(ステップA2)。その後、自然言語解析の結果が出力装置4から出力される(ステップA3)。
本実施形態の効果を説明する。本実施形態においては、入力装置1が入力文書の入力を受け付ける。また、ユーザ辞書には文書情報が付与されている。辞書選択手段22は、文書情報付きユーザ辞書と入力文書との類似度に基づいて、ユーザ辞書の選択を行う。これにより、分野体系に依存せずに語義を選択することが可能となる。さらに、用例を使った語義選択機能を持つ言語処理システムでなくても、文書情報を使った語義の選択が可能になる。
また、分野体系を使用せずに文書情報を使用して語義の選択を行うため、ユーザがユーザ辞書を作成するときに、システムに依存した分野体系に沿って分野を指定する必要がなくなる。
これに対して、従来の言語処理システムには、次の4つの問題点があった。第1の問題点は、特定の言語処理システムが設定した分野体系に含まれていない分野や、システムが決めた分野よりも細分化が必要なときに対応できないことである。その理由は、分野は言語処理システムごとに分野が設定されているため、ユーザが自由に分野を設定することができないためである。
第2の問題点は、特定の言語処理システムだけでなく、さまざまな言語処理システムで使用できる分野ごとのユーザ辞書を作成できないことである。その理由は、分野体系が言語処理システム毎に設定されており、すべての言語処理システムで共通の分野体系を持っていないためである。
第3の問題点は、ユーザがユーザ辞書を正しい分野に分類することが大変なことである。その理由は、すべての言語処理システムで使用できる共通の分野体系があったとしても、ユーザはこの分野体系を理解して、正しい分野にユーザ辞書を分類しなくてはならないためである。
第4の問題点は、ユーザ辞書に用例を付記しておいたとしても、さまざまな言語処理システムで使用できないことである。その理由は、特許文献2のような機能を搭載している言語処理システムは少なく、この言語処理システム用に作った用例付きのユーザ辞書を作ったとしても、他の言語処理システムでは用例の情報を利用した語義の選択ができないためである。
本実施形態によれば、これらの問題点を解消することができる。
(第2実施形態)図4は、本発明による言語処理システムの第2実施形態を示すブロック図である。本実施形態においては、文書情報付きユーザ辞書記憶部31がネットワークの外にあるサーバに記憶されている。その他の構成は、第1実施形態と同様である。辞書選択手段22は、サーバにある文書情報付きユーザ辞書をネットワークを通じて参照することで、類似度が高い辞書を選択する。
本実施形態によれば、文書情報付きユーザ辞書記憶部31がサーバにあることで、あるユーザが作成したサーバ上にあるユーザ辞書も簡単に利用することができる。
(第3実施形態)図5は、本発明による言語処理システムの第3実施形態を示すブロック図である。本実施形態においては、選択済みユーザ辞書記憶部32が更に設けられている。その他の構
成は、第1実施形態または第2実施形態と同様である。選択済みユーザ辞書記憶部32は、辞書選択手段22により選択された文書情報付きユーザ辞書を記憶する。自然言語解析手段21は、この選択済みユーザ辞書記憶部32を参照して、自然言語解析を行う。
本実施形態によれば、辞書選択手段22で選択した辞書を選択済みユーザ辞書記憶部32に記憶していることにより、入力装置1から次の文書が入力されたときに、辞書選択手段22で類似度を計算せずに、選択済みユーザ辞書記憶部32を使って、自然言語解析手段21で自然言語解析をすることが可能となる。これにより、前の文書で使用した選択済みユーザ辞書記憶部32に記憶されている辞書を使いたいときは、辞書選択手段22で類似度の計算をすることなく、高速に自然言語解析をすることができる。
(第4実施形態)図6は、本発明による言語処理システムの第4実施形態を示すブロック図である。本実施形態においては、辞書形式変換手段23が更に設けられている。その他の構成は、第1実施形態と同様である。辞書形式変換手段23は、辞書選択手段22により選択された文書情報付きユーザ辞書を他の自然言語解析手段で使用できる形式に変換する。
なお、本実施形態は、図1に示された第1実施形態だけでなく、図4に示された第2実施形態または図5に示された第3実施形態に、辞書形式変換手段23を加えた形態でもよい。
本実施形態によれば、辞書選択手段22で選択された辞書を他の自然言語解析手段で使用できる形式に変換していることにより、自然言語解析手段21を同様な機能を持つ他の自然言語解析手段にすることが可能になる。これにより、自然言語解析手段を他のシステムに変更したとしても、ユーザ辞書はそのまま使用することが可能となる。
(第5実施形態)図7は、本発明による言語処理システムの第5実施形態を示すブロック図である。本実施形態においては、変換済みユーザ辞書記憶部33が更に設けられている。その他の構成は、図6に示された第4実施形態と同様である。変換済みユーザ辞書記憶部33は、辞書形式変換手段23により辞書形式が変換された辞書を記憶する。自然言語解析手段21は、この変換済みユーザ辞書記憶部33を参照して、自然言語解析を行う。
本実施形態によれば、辞書形式変換手段23で辞書形式を変換した辞書を変換済みユーザ辞書記憶部33に記憶していることにより、入力装置1から次の文書が入力されたときに、辞書選択手段22で類似度を計算せずに、また辞書形式変換手段23によって辞書形式の変換をせずに、変換済みユーザ辞書記憶部33を使って、自然言語解析手段21で自然言語解析をすることが可能となる。これにより、前の文書で使用した変換済みユーザ辞書記憶部33に記憶されている辞書を使いたいときは、辞書選択手段22で類似度の選択をすることなく、また辞書形式変換手段23で辞書形式の変換をすることなく、高速に自然言語解析をすることができる。
(第6実施形態)図8は、本発明による言語処理システムの第6実施形態を示すブロック図である。本実施形態においては、第2の入力装置5および文書情報追加手段24が更に設けられている。その他の構成は、第5実施形態と同様である。
なお、本実施形態は、図7に示された第5実施形態だけでなく、図1に示された第1実施形態、図4に示された第2実施形態、図5に示された第3実施形態、または図6に示された第4実施形態に、第2の入力装置5および文書情報追加手段24を加えた形態でもよい。
図9および図10を参照しつつ、図8に示した言語処理システムの動作の一例を説明する。ステップA1からステップA3までは図3に示された第1実施形態と同様である。
本実施形態においては、ステップA3で自然言語解析の結果が出力された後、この解析結果が正しいかどうかをユーザが判断し、正しいときは例えば図10に示されるような第2の入力装置5のYesボタンを入力し、正しくないときはNoボタンを入力する(ステップA4)。
文書情報追加手段24は、第2の入力装置5からの結果がYesのときは、辞書選択手段22で選択した辞書に入力装置1で入力された文書の情報を追加する(ステップA5)。
本実施形態によれば、第2の入力装置5および文書情報追加手段24を有していることにより、文書情報付きユーザ辞書記憶部31に簡単に文書情報を追加することが可能になる。これにより、文書情報付きユーザ辞書記憶部31に簡単に大量の文書情報を集めることができる。
(第7実施形態)図11は、本発明による言語処理システムの第7実施形態を示すブロック図である。本実施形態は、第1、第2、第3、第4、第5および第6の実施形態と同様に、入力装置、データ処理装置、記憶装置および出力装置を備える。
自然言語処理用プログラムは、データ処理装置7に読み込まれデータ処理装置7の動作を制御し、第1、第2、第3、第4、第5および第6の実施形態におけるデータ処理装置による処理と同一の処理を実行する。自然言語処理用プログラムは、記録媒体6に格納されており、この記録媒体6からデータ処理装置7に読み込まれる。ここで記録媒体6は、例えばリムーバルディスク、ハードディスク、または半導体メモリであるが、他の記録媒体であってもよい。また、自然言語処理用プログラムは、インターネット回線やLAN(Local Area Network)などの通信回線を介してサーバからデータ処理装置7に読み込まれてもよい。
(第8実施形態)図17は、本発明による言語処理システムの第8実施形態を示すブロック図である。 本実施形態においては、入力装置1が、第6実施形態における第2の入力装置5の機能を有している。その他の構成、および言語処理システムの動作は、第6実施形態と同様である。本実施形態においても、第6の実施形態と同様の処理を実行することができる。
なお、本実施形態においても、第6実施形態と同様に、図7に示された第5実施形態だけでなく、図1に示された第1実施形態、図4に示された第2実施形態、図5に示された第3実施形態、または図6に示された第4実施形態に、第6実施形態における第2の入力装置5の機能を入力装置1に持たせ、かつ文書情報追加手段24を加えた形態でもよい。
本発明の第1の実施例を、図面を参照して説明する。かかる実施例は第1実施形態に対応するものである。
本実施例に係る言語処理システムは、入力装置としてキーボードを、データ処理装置としてパーソナル・コンピュータを、データ記憶装置として磁気ディスク装置を、出力装置としてディスプレイを備えている。
パーソナル・コンピュータは、自然言語解析手段、辞書選択手段として機能する中央演算装置を有しており、また磁気ディスク装置には、文書情報付きユーザ辞書が記憶されている。文書情報付き辞書の形式の例を図12に示す。
上記文書情報付きユーザ辞書には、例えば図12に示すような2つの辞書が保存されているとする。1つ目の辞書には、見出し語「ライター」の語義として訳語が「lighter」、制約条件として品詞が名詞、見出し語「チップ」の語義として訳語が「tip」、制約条件として品詞が名詞を持ち、更にこの辞書に「ライターはありますか。」と「チップはカード払いに含めました。」という2つの文が登録されている。
2つ目の辞書には、見出し語「ライター」の語義として訳語が「writer」、制約条件として品詞が名詞、見出し語「チップ」の語義として訳語が「chip」、制約条件として品詞が名詞を持ち、更にこの辞書に「ライターを募集しています。」と「数字の上にチップを置くだけです。」という2つの文が登録されている。
今、入力文書として「ライターはカードで買えますか。」と「チップ込みですか。」という2つの文を持つ文書がキーボードから入力されたとする。
中央演算装置は、入力文書と1つ目の辞書が持つ文書の共通の単語の語数と、入力文書と2つ目の辞書が持つ文書の共通の単語の語数を求めて、どちらが多くの共通の単語を持っているかを調べ、共通の単語を多く持っている辞書を選択する。
例えば図12の場合は、1つ目の辞書は「ライター」「チップ」「カード」の3語、2つ目の辞書は「ライター」「チップ」の2つとなり、1つ目の辞書が選択される。
次に、選択された辞書をユーザ辞書として使って、中央演算装置は自然言語解析手段として機械翻訳処理を行う。機械翻訳処理では「ライターはカードで買えますか。」と「チップ込みですか。」をそれぞれ「Can I buy a lighter by my credit card?」と「Does it include a tip?」として翻訳し、ディスプレイに出力する。
次に、本発明の第2の実施例を説明する。かかる実施例は第2実施形態に対応するものである。本実施例は第1の実施例と構成を同じとするが、文書情報付きユーザ辞書がネットワーク上にあるサーバのデータ記憶装置に記憶されている点で第1の実施例と異なる。
中央演算装置は、入力文書とネットワーク上のサーバのデータ記憶装置に記憶されている文書情報付きユーザ辞書を参照して、辞書を選択する。
次に、本発明の第3の実施例を説明する。かかる実施例は第3実施形態に対応するものである。本実施例は第1の実施例と構成を同じとするが、辞書選択手段として中央演算装置で選択したユーザ辞書を、選択済みユーザ辞書としてデータ記憶部に記憶する点で第1の実施例と異なる。
中央演算装置が辞書選択手段として選択した辞書を、選択済みユーザ辞書としてデータ記憶部に記憶し、選択済みユーザ辞書をユーザ辞書として使って中央演算装置は自然言語処理として機械翻訳処理を行う。
次に、本発明の第4の実施例を説明する。かかる実施例は第4実施形態に対応するものである。本実施例は第1の実施例と構成を同じとするが、辞書選択手段として中央演算装置で選択したユーザ辞書を、ある自然言語解析手段で使用できるユーザ辞書の形式に変換する辞書形式変換手段が中央演算装置にある点で異なる。
次に、本発明の第5の実施例を説明する。かかる実施例は第5実施形態に対応するものである。本実施例は第4の実施例と構成を同じとするが、辞書形式変換手段として中央演算装置で変換されたユーザ辞書を、変換済みユーザ辞書としてデータ記憶部に記憶する点で第4の実施例と異なる。
中央演算装置が辞書形式変換手段として変換した辞書を、変換済みユーザ辞書としてデータ記憶部に記憶し、変換済みユーザ辞書をユーザ辞書として使って中央演算装置は自然言語処理として機械翻訳処理を行う。
次に、本発明の第6の実施例を、図面を参照して説明する。かかる実施例は第6実施形態に対応するものである。本実施例の手順を図15に示す。
本実施例は第1の実施例と構成を同じとするが、第2の入力装置としてマウスを有し、文書情報追加手段が中央演算装置にある点で異なる。
ディスプレイに出力された「Can I buy a lighter by my credit card?」と「Does it include a tip?」が、入力文書の「ライターはカードで買えますか。」と「チップ込みですか。」の翻訳結果として正しいか正しくないかを、図13のような画面でユーザがマウスを使って入力する(ステップA4)。正しいと入力されたときは、中央演算装置が、文書情報追加手段として「ライターはカードで買えますか。」と「チップ込みですか。」を文書情報付きユーザ辞書の文書情報に入力文書の文書情報を追加する(ステップA5)。
正しくないと入力されたときは、ユーザ辞書に正しい辞書があるかどうかを図14のような画面でユーザがマウスを使って選択し(ステップA6)、正しい辞書が
あるときは正しい辞書を選択することで、正しい辞書に入力文書の文書情報を追加する(ステップA7)。なお、ステップA6においてユーザは、マウスではなく入力装置であるキーボードを用いて選択および文書情報の追加を行ってもよい。
正しい辞書がないときは、正しい語義を持つ辞書を新規に作成し、作成した辞書に入力文書の文書情報を追加する(ステップA8)。
以上、第1、第2、第3、第4、第5および第6の実施例では自然言語解析処理として機械翻訳処理で説明したが、音声合成処理、構文解析処理、形態素解析処理、テキストマイニング処理などにしてもよい。
また、文書情報付きユーザ辞書の形式は図12のような形式ではなく、図16のような形式にしてユーザ辞書を1つもしくは複数にまとめてもよい。このときは、入力文書とそれぞれの語義が持つ文書情報の類似度を計算して、それぞれの語義のエントリを選択する。この場合は「ライター」に関しては「訳語:lighter」の語義を持つエントリが選択され、「チップ」に関しては「訳語:tip」の語義を持つエントリが選択される。
また、文書情報付きユーザ辞書が記憶している文書情報は対応する見出し語を含んでいなくても、第1の実施例と同様な方法で、辞書選択手段が辞書を選択することが可能である。これにより、従来の用例を使った翻訳システムとは異なり、見出し語とは無関係だけれども語義を選択するために必要な文書を文書情報付きユーザ辞書に登録できる効果がある。
また、文書情報付きユーザ辞書が記憶している文書情報として、1または2以上の文だけでなく、単語の頻度情報や、文書作成者の名前や組織名や、文書のURLなどのような文書の属性が登録されていてもよい。同様に、入力文書にも文書作成者の名前や組織名、文書のURLなどのような文書の属性が登録されていてもよい。この場合でも、第1の実施例と同様な方法でそれぞれの属性について類似度を計算して、辞書を選択することができる。これにより、多くの文を登録したときに文書情報付きユーザ辞書の記憶量が大きくなってしまうのを抑制したり、文そのままでは登録できないような機密文書を属性とすることで登録できるようになる効果がある。
この出願は2007年3月1日に出願された日本特許出願2007−051089を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

Claims (31)

  1. 入力文書の入力を受け付ける入力手段と、
    文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択手段と、を備え、
    前記辞書選択手段は、前記入力手段から入力された前記入力文書と前記文書情報付きユーザ辞書が有する前記文書情報との類似度に基づいて、前記選択を行うことを特徴とする言語処理システム。
  2. 請求項1に記載の言語処理システムにおいて、
    前記文書情報付きユーザ辞書を記憶する文書情報付きユーザ辞書記憶手段を更に備える言語処理システム。
  3. 請求項1または2に記載の言語処理システムにおいて、
    前記文書情報付きユーザ辞書には、前記文書情報として、1または2以上の文が付与されている言語処理システム。
  4. 請求項1乃至3いずれかに記載の言語処理システムにおいて、
    前記文書情報付きユーザ辞書には、前記文書情報として、文書の属性が付与されている言語処理システム。
  5. 請求項1乃至4いずれかに記載の言語処理システムにおいて、
    前記辞書選択手段により選択された前記文書情報付きユーザ辞書を記憶する選択済みユーザ辞書記憶手段を更に備える言語処理システム。
  6. 請求項1乃至5いずれかに記載の言語処理システムにおいて、
    前記辞書選択手段により選択された前記文書情報付きユーザ辞書を他の自然言語解析手段の辞書形式に変換する辞書形式変換手段を更に備える言語処理システム。
  7. 請求項6に記載の言語処理システムにおいて、
    前記辞書形式変換手段により変換された前記文書情報付きユーザ辞書を記憶する変換済みユーザ辞書記憶手段を更に備える言語処理システム。
  8. 請求項1乃至7いずれかに記載の言語処理システムにおいて、
    前記辞書選択手段により選択された前記文書情報付きユーザ辞書を用いて、前記入力文書の自然言語解析を行う自然言語解析手段を更に備える言語処理システム。
  9. 請求項8に記載の言語処理システムにおいて、
    前記自然言語解析手段による解析結果の当否についてユーザからの入力を受け付ける第2の入力手段と、
    前記第2の入力手段から入力された内容に基づいて、前記文書情報付きユーザ辞書に文書情報を追加する文書情報追加手段と、を更に備える言語処理システム。
  10. 請求項8に記載の言語処理システムにおいて、
    前記入力手段は、前記自然言語解析手段による解析結果の当否についてユーザからの入力を受け付け、
    前記入力手段から入力された内容に基づいて、前記文書情報付きユーザ辞書に文書情報を追加する文書情報追加手段と、を更に備える言語処理システム。
  11. 入力手段が入力文書の入力を受け付ける入力ステップと、
    文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択ステップと、を含み、
    前記辞書選択ステップにおいては、前記入力手段から入力された前記入力文書と前記文書情報付きユーザ辞書が有する前記文書情報との類似度に基づいて、前記選択が行われることを特徴とする言語処理方法。
  12. 請求項11に記載の言語処理方法において、
    前記文書情報付きユーザ辞書を文書情報付きユーザ辞書記憶手段に記憶させるステップを更に含む言語処理方法。
  13. 請求項11または12に記載の言語処理方法において、
    前記文書情報付きユーザ辞書には、前記文書情報として、1または2以上の文が付与されている言語処理方法。
  14. 請求項11乃至13いずれかに記載の言語処理方法において、
    前記文書情報付きユーザ辞書には、前記文書情報として、文書の属性が付与されている言語処理方法。
  15. 請求項11乃至14いずれかに記載の言語処理方法において、
    前記辞書選択ステップにおいて選択された前記文書情報付きユーザ辞書を選択済みユーザ辞書記憶手段に記憶させるステップを更に含む言語処理方法。
  16. 請求項11乃至15いずれかに記載の言語処理方法において、
    前記辞書選択ステップにおいて選択された前記文書情報付きユーザ辞書を他の自然言語解析手段の辞書形式に変換する辞書形式変換ステップを更に含む言語処理方法。
  17. 請求項16に記載の言語処理方法において、
    前記辞書形式変換ステップにおいて変換された前記文書情報付きユーザ辞書を変換済みユーザ辞書記憶手段に記憶させるステップを更に含む言語処理方法。
  18. 請求項11乃至17いずれかに記載の言語処理方法において、
    前記辞書選択ステップにおいて選択された前記文書情報付きユーザ辞書を用いて、前記入力文書の自然言語解析を行う自然言語解析ステップを更に含む言語処理方法。
  19. 請求項18に記載の言語処理方法において、
    前記自然言語解析ステップにおける解析結果の当否についてユーザからの入力を第2の入力手段が受け付ける第2の入力ステップと、
    前記第2の入力手段から入力された内容に基づいて、前記文書情報付きユーザ辞書に文書情報を追加する文書情報追加ステップと、を更に含む言語処理方法。
  20. 請求項18に記載の言語処理方法において、
    前記自然言語解析ステップにおける解析結果の当否についてユーザからの入力を前記入力手段が受け付ける第2の入力ステップと、
    前記入力手段から入力された内容に基づいて、前記文書情報付きユーザ辞書に文書情報を追加する文書情報追加ステップと、を更に含む言語処理方法。
  21. 入力手段が入力文書の入力を受け付ける入力ステップと、
    文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択ステップと、をコンピュータに実行させ、
    前記辞書選択ステップにおいては、前記入力手段から入力された前記入力文書と前記文書情報付きユーザ辞書が有する前記文書情報との類似度に基づいて、前記選択が行われることを特徴とする言語処理プログラム。
  22. 請求項21に記載の言語処理プログラムにおいて、
    前記文書情報付きユーザ辞書を文書情報付きユーザ辞書記憶手段に記憶させるステップを更にコンピュータに実行させる言語処理プログラムを格納した言語処理プログラム。
  23. 請求項21または22に記載の言語処理プログラムにおいて、
    前記文書情報付きユーザ辞書には、前記文書情報として、1または2以上の文が付与されている言語処理プログラム。
  24. 請求項21乃至23いずれかに記載の言語処理プログラムにおいて、
    前記文書情報付きユーザ辞書には、前記文書情報として、文書の属性が付与されている言語処理プログラム。
  25. 請求項21乃至24いずれかに記載の言語処理プログラムにおいて、
    前記辞書選択ステップにおいて選択された前記文書情報付きユーザ辞書を選択済みユーザ辞書記憶手段に記憶させるステップを更にコンピュータに実行させる言語処理プログラム。
  26. 請求項21乃至25いずれかに記載の言語処理プログラムにおいて、
    前記辞書選択ステップにおいて選択された前記文書情報付きユーザ辞書を他の自然言語解析手段の辞書形式に変換する辞書形式変換ステップを更にコンピュータに実行させる言語処理プログラム。
  27. 請求項26に記載の言語処理プログラムにおいて、
    前記辞書形式変換ステップにおいて変換された前記文書情報付きユーザ辞書を変換済みユーザ辞書記憶手段に記憶させるステップを更にコンピュータに実行させる言語処理プログラム。
  28. 請求項21乃至27いずれかに記載の言語処理プログラムにおいて、
    前記辞書選択ステップにおいて選択された前記文書情報付きユーザ辞書を用いて、前記入力文書の自然言語解析を行う自然言語解析ステップを更にコンピュータに実行させる言語処理プログラム。
  29. 請求項28に記載の言語処理プログラムにおいて、
    前記自然言語解析ステップにおける解析結果の当否についてユーザからの入力を第2の入力手段が受け付ける第2の入力ステップと、
    前記第2の入力手段から入力された内容に基づいて、前記文書情報付きユーザ辞書に文書情報を追加する文書情報追加ステップと、を更にコンピュータに実行させる言語処理プログラム。
  30. 請求項28に記載の言語処理プログラムにおいて、
    前記自然言語解析ステップにおける解析結果の当否についてユーザからの入力を前記入力手段が受け付ける第2の入力ステップと、
    前記入力手段から入力された内容に基づいて、前記文書情報付きユーザ辞書に文書情報を追加する文書情報追加ステップと、を更にコンピュータに実行させる言語処理プログラム。
  31. 入力手段が入力文書の入力を受け付ける入力ステップと、
    文書情報が付与されたユーザ辞書である文書情報付きユーザ辞書の選択を行う辞書選択ステップと、をコンピュータに実行させ、
    前記辞書選択ステップにおいては、前記入力手段から入力された前記入力文書と前記文書情報付きユーザ辞書が有する前記文書情報との類似度に基づいて、前記選択が行われる言語処理プログラムを格納したことを特徴とする記録媒体。
JP2009502445A 2007-03-01 2008-02-22 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体 Pending JPWO2008108061A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007051089 2007-03-01
JP2007051089 2007-03-01
PCT/JP2008/000302 WO2008108061A1 (ja) 2007-03-01 2008-02-22 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JPWO2008108061A1 true JPWO2008108061A1 (ja) 2010-06-10

Family

ID=39737959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009502445A Pending JPWO2008108061A1 (ja) 2007-03-01 2008-02-22 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体

Country Status (3)

Country Link
US (1) US20100076749A1 (ja)
JP (1) JPWO2008108061A1 (ja)
WO (1) WO2008108061A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5304389B2 (ja) * 2009-03-30 2013-10-02 日本電気株式会社 会議管理システム、会議管理方法、プログラム
US9348808B2 (en) * 2011-12-12 2016-05-24 Empire Technology Development Llc Content-based automatic input protocol selection
JP6311367B2 (ja) * 2014-03-12 2018-04-18 日本電気株式会社 ユーザ辞書管理装置、ユーザ辞書管理方法、及び、ユーザ辞書管理プログラム
JP6519131B2 (ja) * 2014-09-24 2019-05-29 富士ゼロックス株式会社 辞書選択装置、文書変換システム、プログラム及び文書変換方法
JP2017037513A (ja) * 2015-08-11 2017-02-16 富士通株式会社 言語処理装置、言語処理プログラム及び言語処理方法
JP6766384B2 (ja) * 2016-03-11 2020-10-14 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314294A (ja) * 1993-04-28 1994-11-08 Ibm Japan Ltd 機械翻訳方法及び機械翻訳装置
JPH0997256A (ja) * 1995-09-28 1997-04-08 Oki Electric Ind Co Ltd 辞書登録装置及び機械翻訳装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004264960A (ja) * 2003-02-28 2004-09-24 Advanced Telecommunication Research Institute International 用例ベースの文変換装置、およびコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314294A (ja) * 1993-04-28 1994-11-08 Ibm Japan Ltd 機械翻訳方法及び機械翻訳装置
JPH0997256A (ja) * 1995-09-28 1997-04-08 Oki Electric Ind Co Ltd 辞書登録装置及び機械翻訳装置

Also Published As

Publication number Publication date
US20100076749A1 (en) 2010-03-25
WO2008108061A1 (ja) 2008-09-12

Similar Documents

Publication Publication Date Title
KR101805946B1 (ko) 입-출력 예시를 사용한 텍스트 조작 프로그램 생성
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP2003248676A (ja) 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JPWO2008108061A1 (ja) 言語処理システム、言語処理方法、言語処理プログラムおよび記録媒体
US7346488B2 (en) Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Hall et al. Phonological CorpusTools: Software for doing phonological analysis on transcribed corpora
JP2008250651A (ja) 情報処理装置、情報処理方法、およびプログラム
US10755047B2 (en) Automatic application of reviewer feedback in data files
JP7247593B2 (ja) 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JPH1145278A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2000194721A (ja) 文書群分類装置および文書群分類方法
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP4187802B2 (ja) 文書作成装置
Shilpa et al. DR: Abs-Sum-Kan: an abstractive text summarization technique for an Indian regional language by induction of Tagging rules
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム
Abera et al. Information extraction model for afan oromo news text
US20240184985A1 (en) Information representation structure analysis device, and information representation structure analysis method
WO2024127832A1 (ja) 計算機システム及び文書分析方法
WO2023286340A1 (ja) 情報処理装置および情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205