WO2008029881A1

WO2008029881A1 - Système de traitement du langage naturel et système d'enregistrement de dictionnaire

Info

Publication number: WO2008029881A1
Application number: PCT/JP2007/067416
Authority: WO
Inventors: Shinichi Ando; Kunihiko Sadamasa; Shinichi Doi
Original assignee: Nec Corporation
Priority date: 2006-09-07
Filing date: 2007-09-06
Publication date: 2008-03-13
Also published as: US20090281786A1; CN101512518B; US9575953B2; JP5239863B2; JPWO2008029881A1; CN101512518A

Description

明細書

自然言語処理システムおよび辞書登録システム技術分野

[0001] 本発明は、辞書に格納された言語情報を用いて自然言語を処理する技術に関し、特に辞書の更新を容易に行なうことができる自然言語処理システム、及び、該システムに用レ、る辞書登録システムに関する。

背景技術

[0002] 仮名漢字変換、機械翻訳、音声認識、音声合成と!/、つた自然言語処理システムは、基本的に辞書に格納された単語とそこに付与された言語情報に基づ!/、て処理を行なっており、辞書に格納されていない単語、すなわち未知語を適切に処理することは困難である。一方、自然言語は日々変化しており、新語が生まれたり、また既知語であっても新たな用法が発生したりするため、予めこれら全てを辞書に格納しておくことは難しい。そこで従来から、個々のユーザが必要になった単語を個別に登録すること力 Sできるユーザ辞書機能を提供することでこの問題に対応してきた。

[0003] 辞書登録作業は個々のユーザにとってはコストの力、かる作業である。このため、辞書登録作業のコスト軽減を目的として、個々のユーザが登録した辞書データを複数のユーザ間で共有する方法が提案されてレ、る。

例えば非特許文献 1には最新の辞書や個々のユーザが作成したユーザ辞書を専用のウェブページ上で公開し、各ユーザにこれを活用させる方法が記載されている。ただしこの方法では、個々のユーザは該ホームページを常に監視していない限り、自分にとって有用な辞書が公開されて!/、るかどうかを即座に知ることができな!/、と!/、う問題があった。

[0004] また特許文献 1には、個々のユーザが各自のユーザ辞書に登録した辞書データを横断的に検査して複数のユーザのユーザ辞書に共通して登録されている辞書データを抽出し、抽出した辞書データを共有すべき辞書データとしてユーザ全員のユーザ辞書に反映する方法が記載されて!/、る。

[0005] さらに特許文献 2には、個々のユーザ辞書を特定の専門用語辞書に関連付けて管理する機構を備え、個々のユーザが各自のユーザ辞書に登録した辞書データを横断的に検査して同一の専門用語辞書に関連付けられた複数のユーザ辞書に共通して登録されている辞書データを抽出し、抽出した辞書データを共有すべき辞書データとして該専門用語辞書に反映することで、複数のユーザ間でその辞書データを共有する方法が記載されて!/、る。

[0006] 上記方法では、自動的に抽出した辞書データが辞書に登録されることで、あるユーザにとっては却って自然言語処理の精度が落ちる場合がある。これは抽出された辞書データが、多くのユーザにとっては有用であっても、その他のユーザにとっては必ずしも有益であるとは限らないためである。また、このように不必要な単語の辞書データが登録されることで自然言語処理システムが判断を誤る可能性が高まるためである。このため特許文献 2や特許文献 3には、個々のユーザに新たな辞書データが共有辞書に登録されたことを通知し、その単語を利用するかどうかを問!/、合わせる方法も記載されている。これらの方法は新たな辞書データが利用可能であることを即座にュ一ザに伝達し、また該辞書データを利用するか否かの最終判断をユーザに任せることで不適切な辞書データが個々のユーザ辞書に混入することを防ごうとするものであ

[0007] 非特許文献 1 :日本電気株式会社、「翻訳アダプタ II CROSSROAD Ver.3 HANDBO OK」、 1999年、 Ρ.134-135

特許文献 1：特許公報 346488 IB

特許文献 2：特許公幸 SJP— 2003— 157257A

[0008] 従来技術における第 1の問題点は、個々のユーザにとって各々の辞書データに対して要不要の判断を下すことが難しいことである。その理由は、ユーザがその時点で利用して!/、な!/、単語の辞書データにつ!/、て要不要の判断を迫られたとしても、将来的な可能性を含めてその辞書データが必要になるかどうかはそのユーザにも判断がつかないためである。

また第 2の問題点は、従来の方法においては個々のユーザに随時、登録すべき辞書データを通知して利用するかどうかを問い合わせる力 S、これがユーザの行動を阻害することである。その理由は、従来の方法における通知、問い合わせが、それを受ける側のユーザの都合を考慮せずに行なわれているためである。

発明の概要

[0009] 本発明の目的は、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる自然言語処理システムを提供することにある。

本発明の他の目的は、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる自然言語処理システムを提供することにある。

[0010] 本発明は、登録候補辞書データを記憶する登録候補記憶部と、入力データと登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段と、判定手段で対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付ける問い合わせ手段と、問い合わせ手段へ入力された指示に従って対応辞書データを辞書に登録する辞書登録手段と、辞書に登録された辞書データを用いて入力データに自然言語処理を施す自然言語処理手段とを備える自然言語処理システムを提供する。

[0011] 本発明は、登録候補辞書データを記憶する登録候補記憶部と、入力データと登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段と、判定手段で対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付ける問い合わせ手段と、問い合わせ手段へ入力された指示に従って対応辞書データを辞書に登録する辞書登録手段とを備える辞書登録システムを提供する。

[0012] 本発明は、入力データと記憶装置に記憶されている登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定し、対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付け、入力された指示に従って対応辞書データを辞書に登録し、辞書に登録された辞書データを用いて入力データに自然言語処理を施すことにより自然言語処理を行う自然言語処理方法を提供する。 [0013] 本発明は、入力データと記憶装置に記憶されている登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定し、対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付け、入力された指示に従って対応辞書データを辞書に登録することにより辞書データの登録を行う辞書登録方法を提供する。

[0014] 本発明は、制御演算装置（CPU)を作動させる、コンピュータ読込み可能なコンビュータ 'プログラムで符号化された記録媒体であって、前記 CPUに、登録候補辞書データを記憶装置に記憶する処理と、入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する処理と、前記判定処理で前記対応する単語が存在すると判定された場合に前記登録候補辞書データを前記辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける処理と、前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記辞書に登録する処理と、前記辞書に登録された辞書データを用いて前記入力データに自然言語処理を施す処理とを実行させる媒体を提供する。

[0015] 本発明は、制御演算装置（CPU)を作動させる、コンピュータ読込み可能なコンビュータ 'プログラムで符号化された記録媒体であって、前記 CPUに、登録候補辞書データを記憶装置に記憶する処理と、入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する処理と、前記判定処理で、前記対応する単語が存在すると判定された場合に前記登録候補辞書データを前記辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける処理と、前記問い合わせ処理で入力された指示に従って前記登録候補辞書データを前記辞書に登録する処理とを実行させる媒体を提供する。

[0016] 本発明の上記、及び、他の目的、特徴及び利益は、図面を参照する以下の説明により明らかになる。

図面の簡単な説明 [0017] [図 1]本発明の第 1の実施形態例に係る自然言語処理システムの構成を示すブロック図である。

[図 2]図 1の自然言語処理システムの動作を示すフローチャートである。

[図 3]本発明の第 2の実施形態例に係る辞書登録システムの構成を示すブロック図である。

[図 4]本発明の第 3の実施形態に係るコンピュータシステムの構成を示すブロック図である。

[図 5]登録候補記憶部のデータ構造例を示す図である。

[図 6]辞書データの登録確認画面の一例を示す図である。

[図 7]辞書データの登録確認画面の一例を示す図である。

発明を実施するための最良の形態

[0018] 本発明の第 1の実施形態例に係る自然言語処理システム 10について図面を参照して詳細に説明する。

図 1を参照すると、自然言語処理システム 10は、キーボードやマイク等の入力装置 1と、プログラム制御により動作するデータ処理装置 2と、情報を記憶する記憶装置 3 と、ディスプレイ装置や印刷装置、スピーカ等の出力装置 4とを含む。

[0019] 記憶装置 3は、辞書記憶部 31と登録候補記憶部 32とを備えて!/、る。辞書記憶部 3 1は、個々のユーザの辞書を格納しており、また各々の辞書には単語とそれに対応する言語情報が格納されて!/、る。ここで言語情報は後述する自然言語処理手段 21 がその処理のために参照する情報であり、例えば、仮名表記、読み、訳語、品詞、意味情報などから構成される。登録候補記憶部 32は、個々のユーザの辞書に新たに登録すべき辞書データの候補である登録候補辞書データを記憶して!/、る。ここで辞書データは辞書に登録された情報の最小単位であり、単語とそれに対応する言語情報からなる。

[0020] データ処理装置 2は、自然言語処理手段 21と判定手段 22と問い合わせ手段 23と辞書登録手段 24とを備える。

自然言語処理手段 21は、ユーザからの入力を受け付け、その入力データに対して辞書記憶部 31に格納されて!/、るそのユーザの辞書を利用して自然言語処理を施し、処理の結果を出力する。ここで自然言語処理手段 21の行なう自然言語処理は例えば、機械翻訳処理や音声合成処理である。ここで機械翻訳処理は入力された第一の言語の文字列を第二の言語の文字列に変換する処理であり、音声合成処理は入力された文字列を音声信号に変換する処理である。また自然言語処理手段 21は入力データに対して自然言語処理を施す前に、その入力データを判定手段 22に出力する。なお自然言語処理手段 21が未知語検出機能を備えるようにし、入力データを常に判定手段 22に出力するのではなぐ入力データ内に未知語が発見された場合に限って判定手段 22に入力データが出力され、判定手段 22が動作する形態を取っても良い。

[0021] 判定手段 22は、自然言語処理手段 21から入力された入力データと登録候補記憶部 32に格納された辞書データの単語を比較し、当該入力データに登録候補記憶部 32に格納された辞書データに対応する単語 (以下、「対応する単語」という）が含まれるかどうかを検査する。ここで当該入力データに対応する単語が発見された場合、その対応する単語に対応する登録候補辞書データ（以下、「対応辞書データ」とレ、う）を問い合わせ手段 23に出力する。なお入力データに未知語が発見された場合に限つて判定手段 22が動作する形態をとつた場合には、さらに判定手段 22が入力データに対応する単語が含まれるかどうかを検査する際に、入力データ中の未知語を含む部分と辞書データの単語に重なりがある場合に限って対応する単語が含まれると判定する形態を取っても良い。

[0022] 問い合わせ手段 23は、判定手段 22から入力された対応辞書データを出力装置 4 に表示して辞書に登録するかどうかをユーザに問!/、合わせる。ここで入力装置 1から登録する旨の入力がなされた場合、問い合わせ手段 23はその対応辞書データを辞書登録手段 24に出力する。また入力装置 1から登録する必要がない旨の入力がなされた場合は自然言語処理手段 21に制御を戻す。なお入力装置 1から登録する必要カ¾い旨の入力がなされた場合には、さらに対応辞書データを登録対象外であることを表す情報とともに登録候補記憶部 32に記録することで、その後で登録候補記憶部 32に同じ辞書データが登録されたとしても登録対象外として処理する形態を取つても良い。 [0023] 辞書登録手段 24は、問い合わせ手段 23から入力された対応辞書データを辞書に登録し、自然言語処理手段 21に制御を戻す。

[0024] 次に、図 1及び図 2のフローチャートを参照して、自然言語処理システム 10の動作について詳細に説明する。

まず自然言語処理手段 21は入力装置 1から入力を受け付けると、自然言語処理を実行する前に入力された入力データを判定手段 22に出力する。判定手段 22は、自然言語処理手段 21から入力データを受け付けると、登録候補記憶部 32から登録候補辞書データを取り出す（図 2のステップ A1)。

[0025] 次に登録候補記憶部 32から登録候補辞書データが取り出せた力、、取り出せたならその辞書データが登録対象外でなレ、かを検査し、辞書に登録すべき辞書データの候補が存在するかどうかを調べる (ステップ A2)。ここで登録すべき辞書データの候補が存在しな!/、場合、自然言語処理手段 21は入力データに対して自然言語処理を施し、その結果を出力装置 4に出力する（ステップ A2の判定がノー、ステップ A10)。

[0026] また登録すべき辞書データの候補が存在する場合、判定手段 22は入力データとその各々の辞書データとを比較する（ステップ A3および A4)。入力データに対応する単語が含まれて!/、な!/、場合、自然言語処理手段 21は入力データに対して自然言語処理を施し、その結果を出力装置 4に出力する（ステップ A4の判定がノー、ステップ A10)。

[0027] 入力データに対応する単語が含まれている場合、問い合わせ手段 23は出力装置 4にその辞書データ（対応辞書データ）を表示し、辞書に登録するかどうかをユーザに問い合わせる（ステップ A5)。その後、入力装置 1から問い合わせに対する応答の入力を受け付け、登録対象外と入力された対応辞書データが存在するかどうかを調ベる (ステップ A6)。登録対象外と入力された対応辞書データが存在する場合、問い合わせ手段 23は当該辞書データを登録対象外であることを表す情報とともに登録候補記憶部 32に記録する（ステップ A7)。

[0028] その後、もしくはステップ A6で登録対象外と入力された辞書データが存在しない場合、問レ、合わせ手段 23は登録すると入力された対応辞書データが存在するかどうかを調べる (ステップ A8)。登録すると入力された対応辞書データが存在する場合、辞書登録手段 23は当該辞書データを辞書に登録する（ステップ A9)。

[0029] その後、もしくはステップ A8で登録すると入力された対応辞書データが存在しない場合、自然言語処理手段 21は辞書記憶部 31に記憶された辞書を用いて入力データに自然言語処理を施し、その結果を出力装置 4に出力する (ステップ A10)。

[0030] 次に、本実施の形態の効果について説明する。

本実施の形態では、ユーザが自然言語処理手段 21に入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限って、その辞書データに関する通知、問レ、合わせを行なうように構成されてレ、る。

このため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿って有用性を判断することができ、その要不要の判断を容易に下せるようになる。またユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができ、行動を阻害されずに辞書データの要不要を判断することができるようになる。

[0031] 次に、本発明の第 2の実施形態例に係る辞書登録システム 11について図面を参照して詳細に説明する。辞書登録システム 11は、自然言語処理システム 10のうち辞書データを辞書に登録するために必要な部分により構成されているため、自然言語処理システム 10と共通する部分については図面に図 1と同一の符号を付して説明を省略する。

[0032] 図 3を参照すると、辞書登録システム 11は、図 1の自然言語処理手段 21に代わり、自然言語処理手段 21の未知語検出機能に相当する未知語検索手段 25を備えてい入力装置 1から入力される入力データは、自然言語処理の対象となるデータではなぐ辞書登録処理のために予め用意された文章等のデータである。

また、出力装置 4は、対応辞書データの登録可否問い合わせとそれに対する応答の入力にのみ用いられる。

[0033] 次に、本発明の第 3の実施形態例に係るコンピュータシステム 12について図面を参照して詳細に説明する。

図 4を参照すると、コンピュータシステム 12は、本発明の第 1の実施の形態と同様に、入力装置 1、データ処理装置 6、記憶装置 3、出力装置 4を備える。

自然言語処理用プログラム 5は、データ処理装置 6に読み込まれデータ処理装置 6 の動作を制御し、記憶装置 3に辞書記憶部 31と登録候補記憶部 32を生成する。データ処理装置 6は自然言語処理用検索プログラム 5の制御により第 1の実施の形態におけるデータ処理装置 2による処理と同一の処理を実行する。

また、自然言語登録処理プログラム 5の代わりに辞書登録処理プログラム 7をデータ処理装置 6に読み込み、第 2の実施形態におけるデータ処理装置 2による処理と同一の処理を実行するようにしてもよ!/、。

[0034] 次に、本発明の第 1の実施例を、図面を参照して説明する。かかる実施例は本発明の第 1の実施形態に対応するものである。以下では特に自然言語処理手段 21が機械翻訳処理を行なう場合を考える。

本実施例は、入力装置 1としてキーボードを、データ処理装置 2としてパーソナルコンピュータを、データ記憶装置 3として磁気ディスク記録装置を、出力装置 4としてデイスプレイを備えている。

[0035] パーソナルコンピュータは、自然言語処理手段 21、判定手段 22、問い合わせ手段

23、辞書登録手段 24として機能する中央演算装置を有しており、また磁気ディスク記憶装置には、辞書記憶部 31および登録候補記憶部 32として機能する記憶領域が確保されている。

[0036] ここでは登録候補記憶部 32に登録候補として図 5に示した辞書データが格納されている場合を考える。図 5では登録候補となる辞書データの内容を表形式で示しており、その表の一行一行が一つの辞書データを表している。例えば 1行目は、日本語力 S「ジーン」、英語が「_gene」、品詞が「名詞」である辞書データを表している。またさらに 4列目にはその辞書データが登録対象外であるかどうかを示す情報を格納している。ここで「」は後述する登録対象外であるかどうかの検査が完了して!/、な!/、ことを表し、「対象外」は過去に後述する検査によって対象外と指定された辞書データであることを表している。すなわち図 5において「ジーン」は未検査であるのに対して、「遺伝子診断」は以前にユーザに登録の要不要を問い合わせたことがあり、その結果として登録の必要なしと指示された経緯があるとレ、うことを表して!/、る。 [0037] 本発明の処理は、ユーザが自然言語処理手段 21に処理の対象として入力データを入力することで動作を開始する。ここではユーザが「このような遺伝子はトランスポゾンと呼ばれる」という文を入力データとして入力した場合を考える。

中央演算装置は、入力データに対して機械翻訳処理を施す前に、登録候補記憶部 32から登録候補となる辞書データを取り出し、その内容を検査する。例えば図 5で示される登録候補記憶部 32から辞書データを取り出し、登録対象外の欄を検査することで「遺伝子診断」の辞書データは登録対象外であり、「ジーン」と「トランスポゾン」の辞書データが未検査の登録候補であることを確認する。

[0038] 次に中央演算装置は自然言語処理の対象として入力された入力データと登録候補記憶部 32から取り出した登録候補となる辞書データを比較し、この辞書データ中の「トランスポゾン」とレ、う文字列（対応する単語)が入力データの中に含まれることを検出する。そこで中央演算装置は「トランスポゾン」の辞書データ（対応辞書データ）を出力装置 4に表示し、これを登録するかどうかをユーザに問い合わせる。

[0039] 図 6にユーザに対する問い合わせ画面の例を示す。ここでユーザが「トランスポゾン」の「登録する」のラジオボタン 51をチェックして「実行」ボタン 54を押した場合、中央演算装置は辞書に「トランスポゾン」の辞書データを登録し、登録候補記憶部 32の中の「トランスポゾン」の辞書データを削除する。またユーザが「登録しな!/、」のラジオボタン 52をチェックして「実行」ボタン 54を押した場合、中央演算装置は登録候補記憶部 32の「トランスポゾン」の辞書データの登録対象外の欄に「対象外」であることを示す情報を書き込む。「保留」のラジオボタン 53や「キャンセル」ボタン 55をユーザが選択した場合、辞書登録や登録候補記憶部 32の更新を行わない。またさらに「一時的に利用」というラジオボタンを付加し、表示された辞書データを辞書に登録して恒久的に利用するのではなぐテンポラリな辞書に登録してその入力データの自然言語処理にのみ利用するように動作する構成を取っても良い。

[0040] ここで図 6では登録するかどうかを指定するユーザインターフェイスにラジオボタンを用いる例を示した力図 7のようにチェックボックス 56を用いても良い。図 7の場合、チェックボックス 56がチェックされた辞書データについては、図 6で「登録する」のラジオボタン 51が選択された場合と同様の処理を行ない、チェックがない辞書データについては、図 6で「登録しない」のラジオボタン 52が選択された場合と同様の処理を fiなっても良い。

[0041] その後、中央演算装置は入力された処理対象に翻訳処理を施し、その結果を出力装置 4に出力する。

[0042] なお、ここでは入力データと辞書データとを比較する形態の実施例を記した力まず入力データに自然言語処理を施して「トランスポゾン」もしくはその一部が未知語であることを検出し、この未知語部分が登録候補記憶部 32から取り出した辞書データ「トランスポゾン」と重なりがあると判定された場合に限って、これを出力装置 4に表示して登録するかどうかをユーザに問い合わせる形態を取っても良い。

[0043] 実施形態例の自然言語処理システムによれば、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限つてその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。

そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。

また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができるようになるから、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。

[0044] 実施形態例の自然言語処理システムにおいて、自然言語処理手段が入力データに未知語が含まれて!/、るかどうかを判定する未知語検出機能を備え、自然言語処理手段が入力データに含まれている未知語を検出した場合に、判定手段が作動するようにしてもよい。

[0045] 実施形態例の自然言語処理システムにおいて、自然言語処理手段が入力データに含まれている未知語を検出した場合に、判定手段が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもょレヽ。

上記の実施形態例の自然言語処理システムによれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。

[0046] 実施形態例の自然言語処理システムにお!/、て、自然言語処理手段は、辞書に登録された辞書データのみを用いて入力データに自然言語処理を施すようにしてもよい。

[0047] 実施形態例の自然言語処理システムにお!/、て、自然言語処理手段を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳手段であるか、または入力された文字列を音声信号に変換する音声合成手段としてもよい。

[0048] 実施形態例の辞書登録システムによれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。

[0049] 実施形態例の辞書登録システムにおいて、入力された入力データに未知語が含まれて!/、るかどうかを判定する未知語検出手段を備え、未知語検出手段が入力データに含まれている未知語を検出した場合に、判定手段が作動するようにしてもよい。

[0050] 実施形態例の辞書登録システムにおいて、未知語検出手段が入力データに含まれている未知語を検出した場合に、判定手段が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよ!/、。

上記の辞書登録システムによれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。

[0051] 実施形態例の辞書登録システムにおいて、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された文字列を音声信号に変換する音声合成処理で利用される辞書データとしてあよい。

[0052] 実施形態例の辞書登録システムにお!/、て、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データであるか、または入力された音声信号を文字列に変換する音声認識処理で利用される辞書データとし、判定手段が入力データと登録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを判定するようにしてもよい。

[0053] 実施形態例の自然言語処理方法によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。

[0054] 実施形態例の自然言語処理方法において、入力データに未知語が含まれている力、どうかを判定し、入力データに未知語が含まれていると判定した場合に、入力データと登録候補辞書データとを比較し、入力データに対応する単語が存在するかどうかを判定するようにしてもよい。

[0055] 実施形態例の自然言語処理方法において、入力データに未知語が含まれていると判定した場合に、入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい上記の実施形態例の自然言語処理方法によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。

[0056] 実施形態例の自然言語処理方法にお!/、て、自然言語処理では、辞書に登録された辞書データのみを用いるようにしてもよ!/、。

[0057] 実施形態例の自然言語処理方法にお!/、て、自然言語処理を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理であるか、または入力された文字列を音声信号に変換する音声合成処理としてもょレ、。

[0058] 実施形態例の辞書登録方法によれば、ユーザが入力した入力データに登録すベき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。

[0059] 実施形態例の辞書登録方法において、入力データに未知語が含まれているかどう力、を判定し、入力データに未知語が含まれていると判定した場合に、入力データと登録候補辞書データとを比較し、入力データに対応する単語が存在するかどうかを判定するようにしてあよレヽ。

[0060] 実施形態例の辞書登録方法において、入力データに未知語が含まれていると判定した場合に、入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。上記の実施形態例の辞書登録方法によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。

[0061] 実施形態例の辞書登録方法において、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された文字列を音声信号に変換する音声合成処理で利用される辞書データとしてもよい。

[0062] 実施形態例の辞書登録方法にお!/、て、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された仮名文字歹 IJを漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データであるか、または入力された音声信号を文字列に変換する音声認識処理で利用される辞書データとし、入力データと登録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを判定するようにしてもよい

[0063] 実施形態例の自然言語処理プログラムを記録した媒体によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうようにコンピュータを動作させるため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。

[0064] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能が入力データに未知語が含まれているかどうかを判定する機能を備えるようにし、自然言語処理機能が入力データに未知語が含まれていると判定した場合に、判定処理をコンピュータに実行させるようにしてもよい。

[0065] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能が入力データに未知語が含まれていると判定した場合に、判定処理が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。

上記の実施形態例の自然言語処理プログラムを記録した媒体によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。

[0066] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能は、辞書に登録された辞書データのみを用いて入力データに自然言語処理を施すようにしてもよい。

[0067] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能である力、、または入力された文字列を音声信号に変換する音声合成機能としてもよ!/、。

[0068] 実施形態例の辞書登録プログラムを記録した媒体によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうようにコンピュータを動作させるため、ュ一ザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良レ、。

[0069] 実施形態例の辞書登録プログラムを記録した媒体にお!/、て、コンピュータに、入力データに未知語が含まれているかどうかを判定する未知語検出処理を実行させ、未知語検出処理が入力データに未知語が含まれていると判定した場合に、判定処理をコンピュータに実行させるようにしてもよい。

[0070] 実施形態例の辞書登録プログラムを記録した媒体にお!/、て、未知語検出処理が入力データに未知語が含まれていると判定した場合に、判定処理が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよ!/、。

上記の実施形態例の辞書登録プログラムを記録した媒体によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。 [0071] 実施形態例の辞書登録プログラムを記録した媒体にお!/ヽて、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データであるか、または入力された文字列を音声信号に変換する音声合成機能で利用される辞書データとしてもよい。

[0072] 実施形態例の辞書登録プログラムを記録した媒体にお!/ヽて、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データであるか、または入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換機能で利用される辞書データであるか、または入力された音声信号を文字列に変換する音声認識機能で利用される辞書データとし、入力データと登録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを半 IJ定するようにしてあよレヽ。

[0073] 以上、説明したように、本発明の好適な態様で達成される第 1の効果は、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができることにある。その理由は、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうためである。これにより、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良くなるためである。

また、第 2の効果は、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができることにある。その理由は、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書データが含まれる場合に限って通知、問い合わせを fiなうためである。これにより、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができるようになるためである。

[0074] 本発明は、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳装置、入力された文字列を音声信号に変換する音声合成装置をコンピュータに実現するためのプログラムといった用途に適用できる。なお、実施例ではユーザが自然言語処理の対象とするデータを入力することで動作を開始する例を示したが、例えば将来的に自然言語処理の対象とする可能性がある文書のように、直接自然言語処理の対象としないデータの入力によって動作を開始する構成を取ることで、自然言語処理で用いる辞書の作成を支援する辞書作成支援装置をコンピュータに実現するためのプログラムといった用途にも適用できる。さらには例えば、将来的に自然言語処理の結果として得られるべき文書を入力することによって動作を開始し、この入力データと辞書データに自然言語処理の結果として格納された文字列とを比較して前記入力データに含まれる辞書データが存在するかどうかを判定する構成を取ることで、例えば機械翻訳処理や仮名漢字変換処理や音声認識処理と!/、つた自然言語処理で用いる辞書の作成を支援する辞書作成支援装置をコンピュータに実現するためのプログラムといった用途にも適用できる。

本出願は、 2006年 9月 7日出願に係る日本特許出願 2006— 242519号を基礎とし且つその優先権を主張するものであり、引用によってその開示の内容の全てを本出願の明細書中に加入する。

Claims

請求の範囲

[1] 入力データに自然言語処理を施す自然言語処理システムにおレ、て、

登録候補辞書データを記憶する登録候補記憶部（32)と、

前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段（22)と、前記判定手段で前記対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書記憶部（31)に登録するかどうかをユーザに問い合わせて前記ュ一ザの指示を受け付ける問い合わせ手段（23)と、

前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記辞書記憶部に登録する辞書登録手段（24)と、

前記辞書記憶部に登録された辞書データを用いて前記入力データに自然言語処理を施す自然言語処理手段（21)とを備えることを特徴とする自然言語処理システム

〇

[2] 前記自然言語処理手段（21)が前記入力データに含まれて!/、る未知語を検出する未知語検出機能を備え、

前記自然言語処理手段が前記入力データに含まれて!/、る未知語を検出した場合に、前記判定手段（22)が作動することを特徴とする請求項 1に記載の自然言語処理システム。

[3] 前記自然言語処理手段（21)が前記入力データに含まれて!/、る未知語を検出した場合に、前記判定手段（22)が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在する力、どうかを判定することを特徴とする請求項 2に記載の自然言語処理システム。

[4] 前記自然言語処理手段（21)は、前記辞書記憶部（31)に登録された辞書データのみを用いて前記入力データに自然言語処理を施すことを特徴とする請求項 1ないし請求項 3のいずれかひとつに記載の自然言語処理システム。

[5] 前記自然言語処理手段（21)が、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳手段、および/または、入力された文字列を音声信号に変換する音声合成手段を含むことを特徴とする請求項 1ないし請求項 4のいずれかひとつに記載の自然言語処理システム。

[6] 登録候補辞書データを記憶する登録候補記憶部（32)と、

入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段（22)と、前記判定手段で前記対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書記憶部（31)に登録するかどうかをユーザに問い合わせて前記ュ一ザの指示を受け付ける問い合わせ手段（23)と、

前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記辞書記憶部に登録する辞書登録手段（24)とを備えることを特徴とする辞書登録システム。

[7] 前記入力データに含まれている未知語を検出する未知語検出手段（25)を更に備え、

前記未知語検出手段が前記入力データに含まれている未知語を検出した場合に、前記判定手段（22)が作動することを特徴とする請求項 6記載の辞書登録システム。

[8] 前記未知語検出手段（25)が前記入力データに含まれている未知語を検出した場合に、前記判定手段（22)が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項 7に記載の辞書登録システム。

[9] 前記辞書データが、入力された第一の言語の文字歹 IJを第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、および/または、入力された文字列を音声信号に変換する音声合成処理で利用される辞書データを含むことを特徴とする請求項 6ないし請求項 8のいずれかひとつに記載の辞書登録システム。

[10] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、入力された仮名文字歹 IJを漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データ、および/または、入力された音声信号を文字列に変換する音声認識処理で利用される辞書データを含み、

前記判定手段（22)が前記入力データと前記登録候補辞書データとを比較する際には、前記入力データと前記登録候補記憶部（31)に変換結果として格納された登録候補データの文字列とを比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項 6ないし請求項 8のいずれかひとつに記載の辞書登録システム。

[11] 入力データと記憶装置に記憶されている登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定し、前記対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付け、入力された指示に従って前記登録候補辞書データを前記辞書に登録し、前記辞書に登録された辞書データを用いて前記入力データに自然言語処理を施すことを特徴とする自然言語処理方法。

[12] 前記入力データに未知語が含まれているかどうかを判定し、

前記入力データに未知語が含まれていると判定した場合に、前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記対応する単語が存在するかどうかを判定することを特徴とする請求項 11記載の自然言語処理方法。

[13] 前記入力データに未知語が含まれていると判定した場合に、前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項 12記載の自然言語処理方法。

[14] 前記自然言語処理では、前記辞書に登録された辞書データのみを用いることを特徴とする請求項 11な!/、し請求項 13の!/、ずれかひとつに記載の自然言語処理方法。

[15] 前記自然言語処理が、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理、および/または、入力された文字列を音声信号に変換する音声合成処理を含むことを特徴とする請求項 11ないし請求項 14のいずれかひとつに記載の自然言語処理方法。

[16] 入力データと記憶装置に記憶されている登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定し、前記対応する単語が存在すると判定された場合に前記登録候補辞書データ対応辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付け、

入力された指示に従って前記登録候補辞書データを前記辞書に登録することを特徴とする辞書登録方法。

[17] 前記入力データに未知語が含まれているかどうかを判定し、

前記入力データに未知語が含まれていると判定した場合に、前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記対応する単語が存在するかどうかを判定することを特徴とする請求項 16記載の辞書登録方法。

[18] 前記入力データに未知語が含まれていると判定した場合に、前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項 17記載の辞書登録方法。

[19] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、および/または、入力された文字列を音声信号に変換する音声合成処理で利用される辞書データを含むことを特徴とする請求項 16ないし請求項 18のいずれかひとつに記載の辞書登録方法。

[20] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、入力された仮名文字歹 IJを漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データで、および/または、入力された音声信号を文字列に変換する音声認識処理で利用される辞書データを含み、

前記入力データと前記登録候補辞書データとを比較する際には、前記入力データと前記登録候補辞書データに変換結果として格納された文字列とを比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項 16ないし請求項 1 8のいずれかひとつに記載の辞書登録方法。

[21] 制御演算装置（CPU)を作動させる、コンピュータ読込み可能なコンピュータ 'プログラムで符号化された記録媒体であって、前記 CPUに、

登録候補辞書データを記憶装置に記憶する処理と、前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する処理と、

前記判定処理で前記対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける処理と、

前記問い合わせ手段処理で入力された指示に従って前記登録候補辞書データを前記辞書に登録する処理と、

前記辞書に登録された辞書データを用いて前記入力データに自然言語処理を施す処理とを実行させることを特徴とする媒体。

[22] 前記自然言語処理が、前記入力データに未知語が含まれているかどうかを判定する処理を含み、

前記自然言語処理が前記入力データに未知語が含まれていると判定した場合に、前記判定処理を前記コンピュータに実行させることを特徴とする請求項 21記載の媒体。

[23] 前記自然言語処理が前記入力データに前記未知語が含まれていると判定した場合に、前記判定処理が前記入力データの未知語を含む部分と前記登録候補辞書デ一タとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項 22に記載の媒体。

[24] 前記自然言語処理は、前記辞書に登録された辞書データのみを用いて前記入力データに自然言語処理を施すことを特徴とする請求項 21ないし請求項 23のいずれかひとつに記載の媒体。

[25] 前記自然言語処理が、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能、および/または、入力された文字列を音声信号に変換する音声合成機能を含むことを特徴とする請求項 21ないし請求項 24のいずれかひとつに記載の媒体。

[26] 制御演算装置（CPU)を作動させる、コンピュータ読込み可能なコンピュータ 'プログラムで符号化された記録媒体であって、前記 CPUに、

登録候補辞書データを記憶する処理と、入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する処理と、

前記判定処理で、前記対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける処理と、

前記問い合わせ処理で入力された指示に従って前記登録候補辞書データを前記辞書に登録する処理とを実行させることを特徴とする媒体。

[27] 前記コンピュータに、前記入力データに未知語が含まれているかどうかを判定する処理を更に実行させ、

前記未知語検出処理が前記入力データに含まれている未知語を検出した場合に、前記判定処理を前記コンピュータに実行させることを特徴とする請求項 26に記載の媒体。

[28] 前記未知語検出処理が前記入力データに含まれている未知語を検出した場合に、前記判定処理が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項 27に記載の媒体。

[29] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データ、および/または、入力された文字列を音声信号に変換する音声合成機能で利用される辞書データを含むことを特徴とする請求項 26ないし請求項 28のいずれかひとつに記載の媒体。

[30] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データ、入力された仮名文字歹 IJを漢字仮名混じり文字列に変換する仮名漢字変換機能で利用される辞書データ、および/または、入力された音声信号を文字列に変換する音声認識機能で利用される辞書データを含み、

前記判定処理が前記入力データと前記登録候補辞書データとを比較する際には、前記入力データと前記登録候補辞書データに変換結果として格納された文字列とを比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項 2 6な!/、し請求項 28の!/、ずれかひとつに記載の媒体。