WO2012023450A1

WO2012023450A1 - テキスト処理システム、テキスト処理方法およびテキスト処理プログラム

Info

Publication number: WO2012023450A1
Application number: PCT/JP2011/068008
Authority: WO
Inventors: 長田　誠也; 健花沢; 隆行荒川; 岡部　浩司; 田中　大介
Original assignee: 日本電気株式会社
Priority date: 2010-08-19
Filing date: 2011-08-02
Publication date: 2012-02-23
Also published as: US20130144609A1; JPWO2012023450A1

Abstract

　切れ目情報が含まれないテキストの解析において、処理効率の低下を防止できるテキスト処理システムを提供する。　本発明のテキスト処理システムは、取得したテキストをそのテキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結して連結データを生成する連結手段と、連結対象解析結果の少なくとも一部を用いて連結データを言語解析する解析手段と、解析手段の解析結果を基に連結データに含まれる所定の単位の切れ目を判定する判定手段とを含み、連結対象解析結果は、判定手段で判定された切れ目より後ろの解析結果である。

Description

テキスト処理システム、テキスト処理方法およびテキスト処理プログラム

　本発明は、テキストを処理するテキスト処理システム、テキスト処理方法およびテキスト処理プログラムに関する。

　テキストを処理するテキスト処理システムは、テキストを文要素に分解して解析する。（例えば、特許文献１参照）さらに、テキスト処理システムは、文の切れ目を認識する。（例えば、特許文献２参照）
　また、音声ストリーミングをほぼリアルタイムで音声認識して、所定の単位ごとにテキスト処理するテキスト処理システムも、よく知られている。このような音声認識を用いるテキスト処理システムは、音声認識結果のような句点を含まない、ストリーム的なテキストの所定の単位の切れ目を、精度良く見つけることが必要である。
　しかし、特許文献１は、区切った文要素に対して、複数の文法規則を割り当てるものであり、ストリーム的なテキストの切れ目を精度よく見つけることができない。
　また、特許文献２は、自分側端末と対話翻訳本体部とのやり取りが必要であり、リアルタイムでの処理が難しい。
　そこで、ストリーム的なテキストの所定の単位の切れ目を、精度良く見つけテキスト処理システムとして、節境界を解析するものがある。（例えば、非特許文献１参照）
　非特許文献１は、節境界に基づく係り受けを解析して、要約単位を判定する。
特開２０１０−０７９７０５特開平０４−０５５９７８大野　誠寛，松原　茂樹，柏岡　秀紀，加藤　直人，稲垣　康善：同時的な独話音声要約に基づくリアルタイム字幕生成，情報処理学会研究報告，ＳＬＰ−６２−１０，ｐｐ．５１−５６，Ｊｕｌｙ　７−８，２００６．

　しかし、上述した非特許文献１の手法には、以下のような問題点があった。
　非特許文献１の手法は、要約単位として判定する部分だけでなく、その後ろの部分の係り受け構造を解析してから、要約単位を判定する。よって、非特許文献１の手法は、次の要約単位を判定する際に、再度、次の要約単位の一部となる上記の後ろの部分を再度解析するため、処理効率が低くなってしまうという問題があった。
　本発明の目的は、上述した課題である、切れ目情報を含まないテキストを解析する場合においての処理効率の低下を解決する、テキスト処理システムを提供することにある。

　かかる目的を達成するため、本発明の一形態であるテキスト処理システムは、取得したテキストを当該テキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結して連結データを生成する連結手段と、前記連結対象解析結果の少なくとも一部を用いて前記連結データを言語解析する解析手段と、前記解析手段の解析結果を基に前記連結データに含まれる所定の単位の切れ目を判定する判定手段とを含み、前記連結対象解析結果は、前記判定手段で判定された切れ目より後ろの解析結果である。
　また、本発明の他の形態であるテキスト処理方法は、取得したテキストを当該テキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結して連結データを生成し、前記連結対象解析結果の少なくとも一部を用いて前記連結データを言語解析し、前記解析結果を基に前記連結データに含まれる所定の単位の切れ目を判定し、前記連結対象解析結果が、前記判定された切れ目より後ろの解析結果である。
　さらに、本発明の他の形態であるテキスト処理プログラムは、取得したテキストを当該テキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結して連結データ生成する処理と、前記連結対象解析結果の少なくとも一部を用いて前記連結データを言語解析する処理と、前記解析結果に基づいて前記連結データに含まれる所定の単位の切れ目を判定する処理と、前記連結対象解析結果が、前記判定された切れ目より後ろの解析結果である処理をコンピュータに実行させる。

　本発明に基づけば、切れ目情報が含まれないテキストを解析する場合において、処理効率の低下を解決できる。

本発明の第１の実施の形態に係るハードウェア構成図である。本発明の第１の実施の形態の構成を示すブロック図である。本発明の第１の実施の形態の動作を示す流れ図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第３の実施の形態の構成を示すブロック図である。本発明の第４の実施の形態の構成を示すブロック図である。本発明の第５の実施の形態の構成を示すブロック図である。本発明の第６の実施の形態の構成を示すブロック図である。本発明の第１の実施例を説明するための図である。本発明の第１の実施例を説明するための図である。

　（実施の形態１）
　図１は、本発明の第１の実施の形態に係るテキスト処理システム１のハードウェア構成の一例の図である。
　図１に示すように、テキスト処理システム１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０、メモリ１２、ハードディスクドライブ（ＨＤＤ：Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４、図示しないネットワークを介してデータを通信する通信インタフェース（ＩＦ：Ｉｎｔｅｒｆａｃｅ）１６、ディスプレイ等の表示装置１８、および、キーボードやマウス等のポインティングデバイスを含む入力装置２０を含む。これらの構成要素は、バス２２を介して互いに接続し、データを入出力する。
　図２は、第１の実施の形態のテキスト処理システム１の論理的または機能的な構成例の一例を示すブロック図である。図２に示すように、テキスト処理システム１は、連結手段３０、解析手段３２および判定手段３４を含む。テキスト処理システム１の機能は、例えば、プログラムがメモリ１２（図１参照）にロードされ、ＣＰＵ１０がそのプログラムを実行して、実現される。なお、テキスト処理システム１の全部または一部の機能は、ハードウェアを用いて実現されてもよい。
　また、テキスト処理システム１は、ＣＰＵ１０のようなコンピュータで実行するプログラムを記憶する図示しない記録媒体を含んでいても良い。
　連結手段３０は、取得したテキスト（以下、「取得テキスト」と呼ぶ）を、それより前に取得したテキストの解析結果（以下、「連結対象解析結果」と呼ぶ）の後ろに連結したデータ（以下、「連結データ」と呼ぶ）を生成し、解析手段３２に出力する。この連結対象解析結果は、後述する判定手段３４が出力するデータである。なお、連結手段３０は、例えばテキストを最初に取得した場合のように、前に取得したテキストの解析結果がない場合、取得したテキストを連結データとして解析手段３２に出力する。
　解析手段３２は、連結手段３０から連結データを受け取り、言語解析する。言語解析として、例えば、解析手段３２は、ＣＦＧ（Ｃｏｎｔｅｘｔ−Ｆｒｅｅ　Ｇｒａｍｍａｒ：文脈自由文法）のルールに基づいたＣＹＫ（Ｃｏｃｋｅ−Ｙｏｕｎｇｅｒ−Ｋａｓａｍｉ）法やチャート（Ｃｈａｒｔ）法の構文解析手法を用いる。また、解析手段３２は、言語解析として、日本語や中国語などの形態素解析（Ｍｏｒｐｈｏｌｏｇｉｃａｌ　Ａｎａｌｙｓｉｓ）、品詞タガー（Ｐａｒｔ−ｏｆ−Ｓｐｅｅｃｈ　Ｔａｇｇｅｒ）などの手法を用いてもよい。
　ここで、解析手段３２は、連結データに対して言語解析する際、連結データに含まれる連結対象解析結果の少なくとも一部を、そのまま、つまり再解析しないで、利用する。例えば、連結対象解析結果として部分木の構造が得られているときに、解析手段３２は、その連結対象解析結果内で閉じた部分木をそのまま利用し、連結データを言語解析する。
　判定手段３４は、解析手段３２が解析した結果（以下、「連結データ解析結果」と呼ぶ）に含まれる所定の単位の構造に基づいて、連結データ解析結果の所定の単位の切れ目を判定する。具体的には、判定手段３４は、最後の所定の単位の構造の前を、切れ目と判定する。また、判定手段３４は、文節、節、文、段落などを連結データ解析結果の所定の単位として扱う。
　さらに、判定手段３４は、連結データ解析結果のうち、切れ目より後ろの解析結果（これが、上記の「連結対象解析結果」である。）を連結手段３０に出力する。連結対象解析結果は、次に取得したテキストの所定の単位の一部を構成すると判定された部分である。
　また、判定手段３４は、連結データ解析結果のうち、切れ目より前の解析結果（以下、「所定単位解析結果」と呼ぶ）を表示装置１８に出力する。所定単位解析結果は、所定の単位として成立すると判定された部分である。なお、判定手段３４は、解析手段３２に基づく言語解析の結果を含まないテキスト部分を表示装置１８に出力してもよい。また、判定手段３４は、所定単位解析結果をメモリ１２やＨＤＤ１４に記憶してもよいし、通信ＩＦ１６を介して他のコンピュータに出力してもよい。
　なお、判定手段３４は、連結データ解析結果に所定の単位の構造が含まれない場合、切れ目がないと判定する。そして、判定手段３４は、連結データ解析結果の全体を連結手段３０に出力する。
　次に、本発明を実施するための第１の実施の形態の動作について詳細に説明する。
　図３は、第１の実施の形態の動作の一例を示す流れ図である。
　図３に示すように、連結手段３０は、テキストを取得する（ステップＡ１）。
　次に、連結手段３０は、取得したテキストを、連結対象解析結果の後ろに連結して、連結データを生成する（ステップＡ２）。そして、連結手段３０は、連結データを解析手段３２に出力する。なお、連結手段３０が、最初にテキストを取得した際は、それより前に取得したテキストの解析結果がない。そのため、連結手段３０は、取得したテキストを連結データとする。
　解析手段３２は、連結手段３０が連結した連結データを言語解析する（ステップＡ３）。解析手段３２は、言語解析の結果である、連結データ解析結果を判定手段３４に出力する。
　判定手段３４は、解析手段３２が解析した連結データ解析結果の所定の単位の切れ目を判定する（ステップＡ４）。
　さらに、判定手段３４は、連結データ解析結果のうち、切れ目より前の部分である所定単位解析結果を表示装置１８に出力する。（ステップＡ５）。
　さらに、判定手段３４は、切れ目より後ろの解析結果である連結対象解析結果を連結手段３０に出力する（ステップＡ６）。
　ここで、連結手段３０は、入力装置２０から入力されたテキストの全てが取得されていない場合（ステップＡ７でＮＯ）、前のステップＡ１で取得したテキストの直後の部分から、次のテキストを取得する（ステップＡ１）。
　一方、連結手段３０が、入力装置２０から入力されたテキストの全てを取得した場合（ステップＡ７でＹＥＳ）、テキスト処理システム１は、動作を終了する。
　なお、取得したテキストに続くテキストが、動作終了後に入力装置２０から連結手段３０に新たに入力された場合、連結手段３０は、最後に取得した連結対象解析結果を、新たに入力されたテキストの最初に取得するテキストと連結してもよい。
　次に、本実施の形態の効果について説明する。
　本実施の形態に係るテキスト処理システム１は、所定の単位の切れ目の後ろの部分である連結対象解析結果に次のテキストを連結し、言語解析する際に、連結対象解析結果の少なくとも一部をそのまま用いて言語解析する。このように、本実施の形態に係るテキスト処理システム１は、切れ目の後ろの部分の少なくとも一部が複数回解析されることを防止する。このため、本実施の形態のテキスト処理システム１は、切れ目情報が含まれないテキストを解析する場合において、処理効率の低下を解決できる。その結果、本実施の形態に係るテキスト処理システム１は、高速に、切れ目情報が含まれないテキストの所定の単位を判定し、出力できる。
（実施の形態２）
　図４は、第２の実施の形態のテキスト処理システムの構成例の一例を示すブロック図である。図４を参照すると、本発明の第２の実施の形態は、第１の実施の形態と比較して、分割手段３６が加わっている点で異なる。そのため、分割手段３６を除く他の構成の詳細な説明は省略する。
　分割手段３６は、入力装置２０（図１参照）から入力されるテキスト（以下、「入力テキスト」と呼ぶ）を分割し、取得テキストとする。分割手段３６は、一定の文字数や単語数ごとにテキストを分割してもよい。また、ストリーミング形式でテキストが入力される場合に、分割手段３６は、一定の間隔でストリーミング形式のテキストを区切り、テキストを分割してもよい。
　連結手段３０は、分割手段３６が分割したテキストを、取得テキストとして順次取得する。連結手段３０を含む他の構成は、第１の実施の形態と同様に動作する。
　次に、本実施の形態の効果について説明する。
　第２の実施の形態では、第１の実施の形態と同様に、高速に、切れ目情報が含まれないテキストの所定の単位を判定し、出力できる。
　さらに、第２の実施の形態の連結手段３０は、分割手段３６が分割したテキスト、つまり所定の長さのテキストを受け取る。そのため、第２の実施の形態の連結手段３０は、連結するテキストの長さが長くなる場合もある第１の実施の形態に比べ、より高速に連結データの生成が可能になる。
（実施の形態３）
　図５は、第３の実施の形態のテキスト処理システムの構成例の一例を示すブロック図である。図５を参照すると、本発明の第３の実施の形態は、第２の実施の形態と比較して、音声認識手段３８が加わっている点で異なる。そのため、音声認識手段３８を除く他の構成の詳細な説明は省略する。
　また、本実施の形態における入力装置２０（図１参照）は、例えばマイクで構成される。音声認識手段３８には、入力装置２０から、音声データ（以下、「入力音声」と呼ぶ）が入力される。
　音声認識手段３８は、入力音声を逐次音声認識し、音声認識の結果のテキスト（以下、「音声認識テキスト」と呼ぶ）を出力する。
　分割手段３６は、音声認識テキストを入力テキストとして受け取り、分割し、取得テキストを出力する。（以下、入力テキストは、音声認識テキストを含むものとする。）その他の構成は、第２の実施の形態と同様に動作する。
　なお、第３の実施の形態のテキスト処理システムは、音声認識手段３８と分割装置３６とを、併せてひとつの音声認識装置として構成してもよい。例えば、入力音声に一定時間以上のポーズが入ったときに、音声認識装置が、そこで区切りながら、音声認識テキストを所得テキストして順次出力していく場合である。この場合は、音声認識装置は、音声認識手段３８と分割装置３６との両方として機能する。
　次に、本発明の第３の実施の形態の効果について説明する。
　第３の実施の形態では、音声認識手段３８が、入力音声を音声認識して出力した音声認識テキストを入力テキストとして処理する。そのため、第３の実施の形態は、音声データが入力される場合においても、この音声データの音声認識結果であるテキストに対して、高速に所定の単位を判定できる。
（実施の形態４）
　図６は、第４の実施の形態のテキスト処理システムの構成例の一例を示すブロック図である。第４の実施の形態は、第３の実施の形態と比較して、音声認識手段３８が、音声認識テキストだけでなく、音声認識の際に得られる音響情報も出力する点と、判定手段３４が、その音響情報を判定に使用する点が異なる。そのため、音声認識手段３８及び判定手段３４を除く他の構成の詳細な説明は省略する。
　なお、音響情報とは、例えば、入力音声のポーズ長である。音響情報がポーズ長の場合、判定手段３４は、構文解析結果から単語と単語との間が切れ目となりうる点を判断し、さらに、その単語と単語との間のポーズ長が長い場合に、その単語と単語との間を切れ目と判定する。
　また、音響情報は、話者情報でもよい。音響情報が話者情報の場合、判定手段３４は、音声認識結果に付与されている話者情報を用いて話者が変わった点を判断し、その点を切れ目と判定する。
　なお、第４の実施の形態の分割手段３６は、音響情報を用いて、入力テキスト（音声認識テキスト）を分割してもよい。
　次に、本発明の第４の実施の形態の効果について説明する。
　第４の実施の形態では、判定手段３４が、切れ目を判定するときに音響情報も利用する。この音響情報の利用に基づき、第４の実施の形態は、音響情報を使用しないで判定する第３の実施の形態に比べ、より精度よく切れ目を判定できる。
（実施の形態５）
　図７は、第５の実施の形態のテキスト処理システムの構成例の一例を示すブロック図である。第５の実施の形態は、第１の実施の形態と比較して、テキスト処理手段４０が加わっている点で異なる。そのため、テキスト処理手段４０を除く他の構成の詳細な説明は省略する。
　テキスト処理手段４０は、判定手段３４から出力される所定単位解析結果をテキスト処理する。テキスト処理手段４０は、例えば、所定単位解析結果を翻訳し、処理結果データを出力する。また、テキスト処理手段４０は、所定単位解析結果を用いて音声合成し、所定単位解析結果の音声を処理結果データとして出力してもよい。また、テキスト処理手段４０は、所定単位解析結果を用いて、評判情報を抽出し、それを処理結果データとして出力してもよい。
　次に、本発明の第５の実施の形態の効果について説明する。
　第５の実施の形態では、テキスト処理手段４０が、判定手段３４が判定した切れ目より前の所定単位解析結果を、テキスト処理する。そのため、第５の実施の形態は、ストリーム形式のテキストが入力される場合においても、適切に区切られた単位でテキスト処理が可能になる。
（実施の形態６）
　図８は、第６の実施の形態のテキスト処理システムの構成例の一例を示すブロック図である。第６の実施の形態は、第４の実施の形態と第５の実施の形態とを組み合わせた構成となっている。各構成の動作は、第４の実施の形態及び第５の実施の形態で説明したとおりであるため、詳細な説明を省略する。
　次に、本発明の第６の実施の形態の効果について説明する。
　第６の実施の形態では、第４の実施の形態と第５の実施の形態との効果、例えば、ストリーム形式の音声データが入力される場合においても、適切に区切られた単位でテキスト処理が可能になる。
（第１の実施例）
　次に、本発明の第１の実施例を、図面を参照して説明する。本実施例は、本発明を実施するための第２の実施の形態に対応するものである。
　本実施例において、入力装置２０は、キーボードである。また、パーソナル・コンピュータが、ＣＰＵ１０、メモリ１２、ＨＤＤ１４を有している。さらに、表示装置１８は、ディスプレイである。通信ＩＦ１６は、本実施例の説明では省略する。
　はじめに、「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ　ｂａｇ　ｓｈｅ　ｈａｄ　ｔｈｅ　ｂｉｇ　ｂａｇ」との入力テキストが、入力装置２０であるキーボードから分割手段３６に入力される。
　分割手段３６は、この入力テキストを、例えば、スペースを単語の区切りとし、６単語ずつに分割する。
　連結手段３０は、連結データを解析手段３２に出力するため、分割手段３６で分割された最初の部分である「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ」を取得テキストとして取得し、その前に取得したテキストの解析結果である連結対象解析結果に連結する。
　ただし、ここ時点では連結対象解析結果が存在しないため、連結データは、取得テキストの「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ」となる。
　解析手段３２は、連結データに対して、言語解析する。
　本実施例では、解析手段３２は、言語解析として、ＣＦＧ（文脈自由文法）のルールに基づいて、ＣＹＫ法やチャート法などで構文解析する。
　ＣＦＧルールは、「Ａ→α」の形で表される。本実施例では、解析手段３２は、「Ｓ→ＮＰ＋ＶＰ」、「ＶＰ→ＶＰ＋ＮＰ」、「ＮＰ→ＮＰ＋ＰＰ」、「ＮＰ→ｄｅｔ＋ｎｏｕｎ」、「ＮＰ→ａｄｊ＋ＮＰ」、「ＰＰ→ｐｒｅｐ＋ＮＰ」、「ＮＰ→ｎｏｕｎ」、「ＶＰ→ｖｅｒｂ」というＣＦＧルールに従って、連結データのテキストを構文解析する。なお、Ｓは文、ＮＰは名詞句、ＶＰは動詞句、ＰＰは過去分詞、ｄｅｔは限定詞、ｎｏｕｎは名詞、ａｄｊは形容詞、ｐｒｅｐは前置詞、ｖｅｒｂは動詞、を表している。
　図９は、連結データ「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ」の解析結果の一例である。この解析結果は、括弧を用いて表すと、「（ｈｅ（ｓａｗ（ｔｈｅ　ｇｉｒｌ）））ｗｉｔｈ　ｔｈｅ」となる。また、この構造だけでなく、言語解析中に、さまざまな部分木の構造ができる。組みあがった構造の最上位のノード（ｎｏｄｅ）を［］で表す場合、図９の解析結果は、［Ｓ，ｐｒｅｐ，ｄｅｔ］となる。
　本実施例では、判定手段３４は、文を判定する。より詳細に説明すると、判定手段３４は、最上位のノードが［Ｓ，Ｓ，…，Ｓ，Ｘ］の構造のとき、最後のＳよりも左のＳの構造を文と判定する。なお、ここで、Ｓは文を示し、ＸはＳ以外の非終端記号の連続を示す。ただし、Ｘは、無い場合もある。
　例えば、判定手段３４は、解析結果が［Ｓ，Ｓ，Ｘ］のとき最初のＳを文と判定し、［Ｓ，Ｓ，…，Ｓ，Ｓ，Ｘ］のとき最後の［Ｓ，Ｘ］以外の部分のＳを各々１つの文と判定する。また、判定手段３４は、解析結果が［Ｓ，Ｘ］のとき、文が無いと判定する。
　図９の解析結果の最上位ノードは［Ｓ，ｐｒｅｐ，ｄｅｔ］となっている。従って、図９の解析結果は、［Ｓ，Ｘ］の形である。よって、判定手段３４は、文が１つも無いと判定する。
　そのため、判定手段３４は、表示装置１８に何も出力しない。また、判定手段３４は、解析結果の全体である「（ｈｅ（ｓａｗ（ｔｈｅ　ｇｉｒｌ）））ｗｉｔｈ　ｔｈｅ」を、連結対象解析結果として連結手段３０に出力する。
　連結手段３０は、最初に取得したテキストの次のテキストを取得する。つまり、連結手段３０は、７単語目から１２単語目までの６単語である「ｂａｇ　ｓｈｅ　ｈａｄ　ｔｈｅ　ｂｉｇ　ｂａｇ」を取得する。
　さらに、連結手段３０は、部分木の構造を含む連結対象解析結果「（ｈｅ（ｓａｗ（ｔｈｅ　ｇｉｒｌ）））ｗｉｔｈ　ｔｈｅ」の後ろに、このテキストを連結し、連結データとする。
　解析手段３２は、連結データに対して言語解析する。ここで、１単語目から６単語目までの「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ」の６単語内で閉じた部分木は、前回の解析で作成されている。よって、解析手段３２は、今回の解析においてその部分木を作成しない。なお、閉じた部分木とは、具体的には図９における２つのＮＰにあたる部分である。解析手段３２は、それ以外の部分を解析し、解析結果を出力する（図１０を参照）。この構造は、括弧を用いて表すと、「（ｈｅ（ｓａｗ（（ｔｈｅ　ｇｉｒｌ）（ｗｉｔｈ（ｔｈｅ　ｂａｇ）））））（ｓｈｅ（ｈａｄ（ｔｈｅ（ｂｉｇ　ｂａｇ））））」となる。
　図１０で一例として示すように、組みあがった構造の最上位ノードは［Ｓ，Ｓ］となっているので、判定手段３４は、一番左のＳを文と判定する。よって、判定手段３４は、文と判定された「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ　ｂａｇ」を、１つの単位として表示装置１８であるディスプレイに出力する。また、判定手段３４は、文の切れ目より後ろの部分の解析結果「（ｓｈｅ（ｈａｄ（ｔｈｅ（ｂｉｇ　ｂａｇ））））」を連結対象解析結果として連結手段３０に出力する。連結手段３０は、次に取得したテキストとこの連結対象解析結果とを連結し、連結データを生成する。
　このように、本実施例は、前に解析した連結対象解析結果の解析結果の少なくとも一部をそのまま利用し、重複して言語解析しない。そのため、本実施例は、高速に処理できる。
（第２の実施例）
　次に、本発明の第２の実施例を説明する。本実施例は、第６の実施の形態に対応する。
　ここで、本実施例は、音声認識手段３８と分割装置３６とを、併せてひとつの音声認識装置として構成する。具体的には、本実施例の音声認識装置は、入力音声を音声認識して音声認識テキストと音響情報（本実施例ではポーズ長とする）とを求める。そして、音響情報のポーズ長を基に入力音声に一定時間以上のポーズが入ったことを検出すると、音声認識装置は、そのポーズで音声認識テキストを区切りながら取得テキストとして順次出力する。つまり、音声認識装置は、音声認識手段３８と分割装置３６との両方の機能を有している。
　本実施例の入力装置２０は、マイクである。マイクから「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ　ｂａｇ　ｓｈｅ　ｈａｄ　ｔｈｅ　ｂｉｇ　ｂａｇ」という音声が入力されると、音声認識装置は、この音声を音声認識テキストに変換する。
　さらに、例えば６単語目の「ｔｈｅ」と７単語目の「ｂａｇ」の間にポーズがある場合、音声認識装置は、その場所で音声認識テキストを分割し、取得テキストとして連結手段３０に出力する。
　よって、連結手段３０は、「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ」というテキストを最初に取得し、その次に「ｂａｇ　ｓｈｅ　ｈａｄ　ｔｈｅ　ｂｉｇ　ｂａｇ」を取得する。
　以降、第１の実施例と同様に、解析手段３２は、「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ」という連結テキストを解析する。また、判定手段３４は、この連結テキストの解析結果に文は含まれないと判定し、解析結果の全体である「（ｈｅ（ｓａｗ（ｔｈｅ　ｇｉｒｌ）））ｗｉｔｈ　ｔｈｅ」を連結対象解析結果として連結手段３０に出力する。連結手段３０は、次の取得テキストである「ｂａｇ　ｓｈｅ　ｈａｄ　ｔｈｅ　ｂｉｇ　ｂａｇ」を取得して、連結対象解析結果（「（ｈｅ（ｓａｗ（ｔｈｅ　ｇｉｒｌ）））ｗｉｔｈ　ｔｈｅ」）と連結する。
　以降、第１の実施例と同様に、判定手段３４は、文と判定された「ｈｅ　ｓａｗ　ｔｈｅ　ｇｉｒｌ　ｗｉｔｈ　ｔｈｅ　ｂａｇ」を所定単位解析結果として、テキスト処理手段４０に出力する。テキスト処理手段４０は、この所定単位解析結果を文単位で翻訳し、その翻訳結果を表示装置１８であるディスプレイに出力する。
　このように、本実施例の解析手段３２は、連結手段３０が連結した連結データを解析する。判定手段３４は、解析手段３２の解析結果を用いて切れ目を判定し、文と判定された結果を出力する。そして、テキスト処理手段４０は、判定手段３４の出力を翻訳する。そのため、本実施例の音声認識装置が、入力されたストリーム音声に対して、文の単位と異なるポーズ長に基づいて音声認識の結果を取得テキストとして出力しても、テキスト処理手段４０は、そのテキストを文単位で高速に翻訳できる。
　以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　この出願は、２０１０年８月１９日に出願された日本出願特願２０１０−１８３９９６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１　　テキスト処理システム
　１０　ＣＰＵ
　１２　メモリ
　１４　ＨＤＤ
　１６　通信ＩＦ
　１８　表示装置
　２０　入力装置
　２２　バス
　３０　連結手段
　３２　解析手段
　３４　判定手段
　３６　分割手段
　３８　音声認識手段
　４０　テキスト処理手段

Claims

　取得したテキストを当該テキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結して連結データを生成する連結手段と、
　前記連結対象解析結果の少なくとも一部を用いて前記連結データを言語解析する解析手段と、
　前記解析手段の解析結果を基に前記連結データに含まれる所定の単位の切れ目を判定する判定手段と、を含み、
　前記連結対象解析結果は、前記判定手段で判定された切れ目より後ろの解析結果である
　テキスト処理システム。
　前記連結対象解析結果が部分木を含む場合、
　前記解析手段は、前記連結対象解析結果の内で閉じる部分木を用いて、言語解析する請求項１に記載のテキスト処理システム。
　テキストを分割する分割手段をさらに含み、
　前記連結手段は、前記分割手段が分割したテキストを取得する請求項１または２に記載のテキスト処理システム。
　音声を音声認識する音声認識手段をさらに含み、
　前記分割手段は、前記音声認識手段が音声認識した結果を取得する請求項３に記載のテキスト処理システム。
　前記音声認識手段は、前記音声に対応する音響情報を含む音声認識の結果を出力し、
　前記判定手段または前記分割手段の少なくともいずれかは、前記音響情報を用いる請求項４に記載のテキスト処理システム。
　前記判定手段が判定した切れ目より前の解析結果をテキスト処理するテキスト処理手段を含む請求項１乃至５のいずれかに記載のテキスト処理システム。
　前記判定手段は、前記解析手段に基づく前記連結データの解析結果に所定の単位の構造が含まれる場合、最後の所定の単位の構造の前を切れ目と判定する請求項１乃至６のいずれかに記載のテキスト処理システム。
　前記判定手段は、前記連結データの解析結果の文または節の単位を用いて切れ目を判定する請求項１乃至７のいずれかに記載のテキスト処理システム。
　取得したテキストを当該テキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結した連結データを生成し、
　前記連結対象解析結果の少なくとも一部を用いて前記連結データを言語解析し、
　前記解析結果を基に前記連結データに含まれる所定の単位の切れ目を判定し、
　前記連結対象解析結果が前記判定した切れ目より後ろの解析結果である
　テキスト処理方法。
　取得したテキストを当該テキストより前に取得したテキストの解析結果である連結対象解析結果の後ろに連結して連結データを生成する処理と、
　前記連結対象解析結果の少なくとも一部を用いて前記連結データを言語解析する処理と、
　前記解析結果を基に前記連結データに含まれる所定の単位の切れ目を判定する処理と、を含み、
　前記連結対象解析結果が前記判定した切れ目より後ろの解析結果である処理を
　コンピュータに実行させるテキスト処理プログラム。