WO2020012813A1

WO2020012813A1 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: WO2020012813A1
Application number: PCT/JP2019/021304
Authority: WO
Inventors: 亮介三谷
Original assignee: ソニー株式会社
Priority date: 2018-07-09
Filing date: 2019-05-29
Publication date: 2020-01-16

Abstract

異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法を実現する。入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、言語種類解析部の解析結果に基づいて、入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有する。言語解析実行部は、先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する。言語解析実行部は、言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する。

Description

情報処理装置、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、多言語対応の言語解析を行う情報処理装置、および情報処理方法、並びにプログラムに関する。

　従来の多くの言語解析装置は、特定の一つの言語、例えば、日本語、あるいは英語等、１つの言語のみから構成される文を解析対象とした処理を行う装置として構成されている。そのため、処理対象となる一つの言語以外の言語が入力された場合は、正しい言語解析を行うことができない。

　例えば、複数言語混じりのテキストを解析の対象にする場合、単一言語の入力しか想定していないシステムでは正しい解析結果を出すことは困難である。例えば、形態素解析を例にすると、想定した言語以外の入力文字列は解析辞書に記載されていない場合、未知の形態素とみなされてしまい、各形態素に対して正しい品詞情報を付与することができない。形態素解析以外の言語解析である句解析や構文解析においても、コーパスや辞書等に出現しない言語で記述された文字列に対しては、正しい解析結果を出力することは困難である。

　なお、特許文献１（特開２００２－１９７０８６号公報）は、複数言語混じり文の翻訳において、原言語の解析結果に含まれる目的言語の語彙系列に対し、機能語を目印にした語彙品詞情報の対応表を用いて、目的言語語彙を含む句の品詞を推定して翻訳精度の向上を行う構成を開示している。
　しかし、この処理では、原文中から機能語を含む目的言語句が出現しなければ処理が不可能になる。実際の文書では機能語が省略されているものも多く、この開示技術で処理可能な文は限定されてしまい、様々な入力に対応することが困難であるという問題がある。

特開２００２－１９７０８６号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、入力テキストの句構造に関わらず、異なる言語を含む多言語テキストの言語解析を正しく実行することを可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、
　前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有し、
　前記言語解析実行部は、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理装置にある。

　さらに、本開示の第２の側面は、
　情報処理装置において実行する情報処理方法であり、
　言語種類解析部が、入力テキストの部分文字列単位で言語種類を判別する言語種類解析ステップと、
　言語解析実行部が、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行ステップを実行し、
　前記言語解析実行ステップにおいては、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理方法にある。

　さらに、本開示の第３の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　言語種類解析部に、入力テキストの部分文字列単位で言語種類を判別させる言語種類解析ステップと、
　言語解析実行部に、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行させる言語解析実行ステップを実行させ、
　前記言語解析実行ステップにおいては、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
　具体的には、例えば、入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、言語種類解析部の解析結果に基づいて、入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有する。言語解析実行部は、先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する。言語解析実行部は、言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する。
　本構成により、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

本開示の情報処理装置の構成例について説明する図である。本開示の情報処理装置の構成例について説明する図である。一般的な言語解析処理例について説明する図である。本開示の情報処理装置の実行する処理の一例について説明する図である。本開示の情報処理装置の実行する処理の一例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理の一例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．情報処理装置の実行する処理の概要について
　２．本開示の情報処理装置において実行する言語解析処理について
　２－（１）解析対象データを構成する部分文字列単位の言語識別処理について
　２－（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理について
　２－（３）多言語対応のコーパスと言語解析モデルの生成と利用処理
　３．本開示の情報処理装置の構成例について
　４．本開示の情報処理装置を利用した言語解析処理の具体例について
　５．本開示の情報処理装置が実行する処理のシーケンスについて
　６．複数の異なるタイプのテキストに対する言語解析処理例について
　７．情報処理装置のハードウェア構成例について
　８．本開示の構成のまとめ

　　［１．情報処理装置の実行する処理の概要について］
　前述したように、従来の多くの言語解析装置は、特定の一つの言語、例えば、日本語、あるいは英語等、１つの言語のみを解析することはできるが、処理対象として許容される一つの言語以外の言語が入力された場合は、正しい言語解析を行うことができない。

　例えば、言語解析装置が形態素解析処理を行う場合、複数言語混じりのテキストが装置に入力されると、装置が保持する解析辞書に記載されていない文字列は未知語とみなされてしまい本来の品詞が何かを特定することができず、不完全な形態素解析結果が出力されてしまう。形態素解析以外の言語解析処理である句解析や構文解析においても、コーパスや辞書等に出現しない文字列が入力された場合、正しい解析結果を出力することは困難である。

　以下に説明する本開示の情報処理装置は、解析対象となる入力テキストを構成する部分文字列単位で言語種類を判定し、この判定結果を利用した言語解析を行う。この処理により、既存の言語解析リソースを活用しながら、低コストに複数言語混じりの文書に対して高精度な言語解析が可能となる。

　人間が書いた文書や、マイクを介して入力する発話等をコンピュータに理解させる学術分野である自然言語処理における代表的な言語解析処理として、以下のような解析処理が知られている。
　（ａ）形態素解析
　（ｂ）句解析
　（ｃ）構文解析
　（ｄ）述語項構造解析
　（ｅ）意味解析

　これまでの一般的な言語解析処理では、単一の言語を入力して解析することを想定している。そのために、例えば、以下のようなデータ、すなわち、
　（１）語学学習中のユーザが母国語と、学習中の言語を混在させて発話したユーザ発話データ、
　（２）医学用語等の専門用語等の外来語が頻出するようなテキストデータ、
　（３）他言語の文字列を出力に含む音声認識結果データ、
　これら１つの文に複数の言語が混在するデータを言語解析装置に入力しても正しい解析結果を出力することができない。

　単一の言語を入力して解析することを想定している従来型の言語解析装置は、処理対象とする単一言語の知識しか有していない。
　具体的には例えば、上記（ａ）～（ｅ）の処理を実行するための単一言語対応の辞書や、言語解析用体系的情報であるコーパスや、解析モデルしか有しておらず、これらに登録されていない他言語データについては解析が不可能となる。

　言語解析装置が保持する辞書や、言語解析用体系的情報であるコーパスに登録されていない未知語をどう扱うかは、言語解析装置の実行アプリケーションが予め規定したルールを用いて処理される場合が多い。
　具体的には、例えば、未知語はすべて名詞として処理するといったルールを適用することが多い。
　しかし、このような一律のルールを適用すると、すべての未知語に対する最適な解析結果を得ることは難しく、実際的な自然言語処理解析の精度低下の要因の１つとなっている。

　また、未知語の数を減らす方法として、単一言語対応のシステムに対して、その他言語の情報を網羅的に装置の利用可能な辞書に登録しておく方法がある。
　例えば、「遊ぶ」を意味する言葉として、辞書に以下のようなテキストと品詞との対応情報を予め登録しておく。
　ｐｌａｙ－動詞
　玩－動詞
　ｓｐｉｅｌｅｎ－動詞

　しかし、このようなデータを辞書に登録する場合、以下のような問題が発生する。
　辞書に収録する言語数が増えるごとに辞書サイズが爆発的に膨張する。
　外来語混じりのテキストはコーパスとして収録されることが稀であるために，一貫性のある適当な解析モデルを学習することが困難となる。
　原言語側で使われている品詞と、目的言語側で使われる場合の品詞が異なる場合があるため、単純なマッピングでは異なる品詞を推定してしまう。
　例えばこれらの問題が生じる。

　　［２．本開示の情報処理装置において実行する言語解析処理について］
　次に、本開示の情報処理装置において実行する言語解析処理について説明する。
　本開示の情報処理装置における言語解析処理では、少なくとも以下の処理のいずれかを実行する。
　（１）解析対象データを構成する部分文字列単位の言語識別処理
　（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理
　（３）多言語対応のコーパスと言語解析モデルの生成と利用処理

　以下、これらの各処理について順次、説明する。
　　［２－（１）解析対象データを構成する部分文字列単位の言語識別処理について］
　まず、本開示の情報処理装置において実行する「（１）解析対象データを構成する部分文字列単位の言語識別処理」について説明する。
　「（１）解析対象データを構成する部分文字列単位の言語識別処理」では、以下のステップＳ１１の処理を実行する。

　　（ステップＳ１１）
　本開示の情報処理装置における言語解析処理では、解析対象となるテキスト中に含まれる言語の情報を抽出するために、部分文字列単位の言語識別を行う。具体的には、例えば、部分文字列単位で以下の解析を実行する。
　（ａ）文字種、
　（ｂ）つづり、
　（ｃ）前後の文字列の種類
　これらを解析して、テキスト中で使用されている言語を部分文字列単位で識別する。

　具体例を以下に示す。
　言語解析対象テキスト＝わたしはＪａｐａｎｅｓｅ　ｃｈｅｆです。
　このようなテキストが入力された場合、本開示の情報処理装置は、
　わたしは／Ｊａｐａｎｅｓｅ　ｃｈｅｆ／です。
　このように、解析対象となる入力テキストを、部分文字列単位で区切りを設定し、各区切り単位の言語種類情報を生成する。
　わたしは＝［日本語］
　Ｊａｐａｎｅｓｅ　ｃｈｅｆ＝［英語］
　です。＝［日本語］

　　［２－（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理について］
　次に、本開示の情報処理装置において実行する「（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理」について説明する。

　上記の「（１）解析対象データを構成する部分文字列単位の言語識別処理」の結果を用いて，部分文字列ごとに言語解析を実行する。
　以下に、「（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理」の一例として、入力データに対して形態素解析処理を実行する例について説明する。形態素解析は、以下に示すステップＳ２１～Ｓ２２の順に実行する。

　　（ステップＳ２１）
　ステップＳ２１では、解析対象データを形態素に分割する処理を実行する。

　以下、具体的な処理例について説明する。
　言語解析対象テキスト＝わたしはＪａｐａｎｅｓｅ　ｃｈｅｆです。
　このようなテキストが入力された場合、本開示の情報処理装置は、まず、上記テキストを形態素に分割する。
　例えば、
　　私／は／Ｊａｐａｎｅｓｅ／ｃｈｅｆ／です／。／
　上記区切り（／）で区分された形態素に分割する。

　　（ステップＳ２２）
　ステップＳ２２では、先に実行した「（１）部分文字列単位の言語識別処理」の結果として得られた解析対象データに含まれる言語種類単位で形態素解析を順次、実行する。

　上記「（１）部分文字列単位の言語識別処理」の結果は、
　わたしは＝［日本語］
　Ｊａｐａｎｅｓｅ　ｃｈｅｆ＝［英語］
　です。＝［日本語］
　であり、このテキストには、日本語と英語が含まれていることが言語識別処理結果として出力されている。

　ステップＳ２２では、解析対象データであるテキストに含まれる言語種類単位で形態素解析を順次、実行する。
　本例では、解析対象データであるテキストに含まれる言語には日本語と英語が含まれる。
　従って、日本語と、英語について、順次、各言語対応の辞書を用いて形態素解析、すなわち形態素ごとの品詞の特定処理を実行する。

　ここでは、日本語辞書を用いた形態素解析と、英語辞書を用いた形態素解析をシーケンシャルに実行することになる。
　どちらを先に実行するかは任意であるが、ここでは一例として解析対象データに含まれる形態素の数が少ない方の言語（＝小さい言語クラスタ）を先に実行する例について説明する。

　ステップＳ２１における形態素の分割処理の結果として、
　解析対象データ＝私／は／Ｊａｐａｎｅｓｅ／ｃｈｅｆ／です／。／
　これらの形態素分割がなされている。
　／私／は／です／。／：これらの４つの形態素は日本語であり、
　／Ｊａｐａｎｅｓｅ／ｃｈｅｆ／：これらの２つの形態素が英語である。

　英語の形態素の数が日本語の形態素の数より少ないので、まず、ステップＳ２２－１で、英語辞書（形態素解析辞書（解析モデル））を用いて、英語の形態素の形態素解析を行う。具体的には品詞の特定処理を実行する。その後、ステップＳ２２－２で、日本語辞書（形態素解析辞書（解析モデル））を用いて、日本語の形態素の形態素解析を行う。

　（ステップＳ２２－１）
　まず、ステップＳ２２－１において、先に実行した「（１）．部分文字列単位の言語識別処理」の結果として、言語が英語であると識別された形態素について、英語辞書（形態素解析辞書（解析モデル））を用いて形態素解析を実行する。
　Ｊａｐａｎｅｓｅ
　ｃｈｅｆ
　これらの形態素解析を実行する。ここでの形態素解析は、形態素ごとの品詞の特定処理である。このステップの形態素解析では、形態素の言語に対応する辞書、すなわち英語辞書（形態素解析辞書（解析モデル））を用いて英語の形態素の品詞を特定する処理を実行する。

　言語が英語であると識別された形態素についての形態素解析結果として以下の解析結果が得られる。
　Ｊａｐａｎｅｓｅ（英語：形容詞）
　ｃｈｅｆ（英語：名詞）

　（ステップＳ２２－２）
　次に、ステップＳ２２－２において、先に実行した「（１）．部分文字列単位の言語識別処理」の結果として、言語が日本語であると識別された形態素について日本語辞書（形態素解析辞書（解析モデル））を用いて形態素解析を実行する。

　なお、解析対象データに含まれる言語種類に基づく形態素解析シーケンスの２番目以降の言語種類対応の形態素解析では、先行して実行した他の言語対応の形態素解析結果として得られた形態素の品詞情報をそのまま利用（マッピング）する。
　すなわち、本例では、上記のステップＳ２２－１で得られた、
　Ｊａｐａｎｅｓｅ（英語：形容詞）
　ｃｈｅｆ（英語：名詞）
　これらの英語の品詞情報をそのまま利用する。

　日本語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理を行うと、上記のＪａｐａｎｅｓｅ、ｃｈｅｆは未知語として識別されてしまう。これらの未知語については、先に実行した上記の（ステップＳ２２－１）において出力した解析結果、すなわち解析結果として得られた品詞情報をそのまま利用（マッピング）する。

　日本語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理の結果と、上記のステップＳ２２－１で得られた英語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理の結果を合せることで以下の結果が得られる。
　私（名詞）
　は（助詞）
　Ｊａｐａｎｅｓｅ（英語：形容詞→日本語：形容詞）
　ｃｈｅｆ（英語：名詞→日本語：名詞）
　です（助動詞）
　。（句点）

　上記形態素解析結果中、
　Ｊａｐａｎｅｓｅ（英語：形容詞→日本語：形容詞）
　ｃｈｅｆ（英語：名詞→日本語：名詞）
　これらは、日本語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理においては、日本語ではなく未知語であると解釈されるが、先に実行したステップＳ２２－１の英語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理の結果をそのまま利用する。

　上述した処理例は、形態素解析処理の最初のステップＳ２２－１で、英語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理を実行し、次のステップＳ２２－２で日本語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理を実行した例である。

　次に、この逆のシーケンス、すなわち先に日本語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理を実行し、その後に英語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理を実行する処理例について説明する。

　解析対象データ＝　Ｙｏｕ　ｎｅｅｄ　ａ　少し　ｍｏｒｅ　ｌａｒｇｅ　ｓｐａｃｅ　ｔｏ　ｏｐｅｎ　ｔｈｅ　Ｊａｐａｎｅｓｅ　寿司　ｒｅｓｔａｕｒａｎｔ．
　とする。

　　（ステップＳ１１）
　まず、ステップＳ１１で、部分文字列単位で区切りを設定し、各区切り単位の言語種類情報を生成する。
　Ｙｏｕ　ｎｅｅｄ　ａ＝［英語］
　少し＝［日本語］
　ｍｏｒｅ　ｌａｒｇｅ　ｓｐａｃｅ　ｔｏ　ｏｐｅｎ　ｔｈｅ　Ｊａｐａｎｅｓｅ＝［英語］
　寿司＝［日本語］
　ｒｅｓｔａｕｒａｎｔ＝［英語］

　　（ステップＳ２１）
　ステップＳ２１では、解析対象データを形態素に分割する処理を実行する。
　解析対象データは、以下のように形態素単位で区分される。
　Ｙｏｕ／ｎｅｅｄ／ａ／少し／ｍｏｒｅ／ｌａｒｇｅ／ｓｐａｃｅ／ｔｏ／ｏｐｅｎ／ｔｈｅ／Ｊａｐａｎｅｓｅ／寿司／ｒｅｓｔａｕｒａｎｔ／．／

　　（ステップＳ２２）
　ステップＳ２２では、解析対象データであるテキストに含まれる言語種類単位で形態素解析を順次、実行する。
　本例では、解析対象データであるテキストに含まれる言語には日本語と英語が含まれるが、最初に日本語、次に英語について、順次、各言語対応の辞書を用いて形態素解析、すなわち形態素ごとの品詞の特定処理を実行する。

　（ステップＳ２２－１）
　まず、ステップＳ２２－１において、言語が日本語であると識別された形態素について、日本語辞書（形態素解析辞書（解析モデル））を用いて形態素解析を実行する。

　この処理の結果として、以下の結果が得られる。
　少し（日本語：副詞）
　寿司（日本語：名詞）

　（ステップＳ２２－２）
　次に、ステップＳ２２－２において、言語が英語であると識別された形態素について英語辞書（形態素解析辞書（解析モデル））を用いて形態素解析を実行する。

　なお、前述したように解析対象データに含まれる言語種類に基づく形態素解析シーケンスの２番目以降の言語種類対応の形態素解析では、先行して実行した他の言語対応の形態素解析結果として得られた形態素の品詞情報をそのまま利用（マッピング）する。
　すなわち、本例では、上記のステップＳ２２－１で得られた、
　少し（日本語：副詞）
　寿司（日本語：名詞）
　これらの日本語の品詞情報をそのまま利用する。

　英語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理を行うと、上記の「少し」、「寿司」は未知語として識別されてしまう。これらの未知語については、先に実行した上記の（ステップＳ２２－１）において出力した解析結果、すなわち解析結果として得られた品詞情報をそのまま利用する。

　英語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理の結果と、上記のステップＳ２２－１で得られた日本語辞書（形態素解析辞書（解析モデル））を用いた形態素解析処理の結果を合せることで以下の結果が得られる。
　Ｙｏｕ（代名詞）
　ｎｅｅｄ（動詞）
　ａ（冠詞）
　少し（日本語：副詞→英語：副詞）
　ｍｏｒｅ（副詞）
　ｌａｒｇｅ（形容詞）
　ｓｐａｃｅ（名詞）
　ｔｏ（前置詞）
　ｏｐｅｎ（動詞）
　ｔｈｅ（冠詞）
　Ｊａｐａｎｅｓｅ（形容詞）
　寿司（日本語：名詞→英語：名詞）
　ｒｅｓｔａｕｒａｎｔ（名詞）
　．（記号）

　このように本開示の言語解析処理では、
　（１）解析対象データを構成する部分文字列単位の言語識別処理
　（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理
　これらの処理を実行することで、解析対象データに含まれるすべての形態素の形態素解析を確実に実行することが可能となる。

　　［２－（３）多言語対応のコーパスと言語解析モデルの生成と利用処理について］
　次に、本開示の情報処理装置が生成して利用する多言語対応のコーパスと言語解析モデルの生成と利用処理について説明する。

　本開示の情報処理装置は、言語解析用体系的情報であるコーパスに登録される例文（モデル）に部分的な翻訳を実施し、コーパスに基づいて生成するモデル（例文）データを多言語対応の複数の例文（モデル）に拡張して、多言語対応の複数の例文（モデル）を利用して多言語混じりのテキストの言語解析を実行する構成としてもよい。
　このような多言語対応のモデルを利用して言語解析を行うことで、複数言語の混在テキストに対する言語解析を正確に行うことが可能となる。

　コーパスに基づいて生成するモデル（例文）の例を以下に示す。
　基本モデル（例文）＝私／は／日本人／の／料理人／です／。

　この基本モデルは、日本語を対象とした言語解析に適用するためのコーパスに基づいて生成されるモデル（例文）である。
　本開示の情報処理装置は、この日本語対応のコーパスに基づいて生成されるモデル（例文）に対して部分的な翻訳を実施して多言語対応の複数の例文（モデル）を生成して、多言語混じりのテキストに対する言語解析に利用する。

　例えば、上記の「基本モデル（例文）＝私／は／日本人／の／料理人／です／。」
　この基本モデル（例文）に基づいて、以下の複数の拡張されたモデル（例文）を生成する。
　（ａ）私／は／Ｊａｐａｎｅｓｅ（名詞）／の料理人／です。
　（ｂ）私／は／日本人の／Ｃｈｅｆ（名詞）／です。
　（ｃ）Ｉ（代名詞）／は／日本人／の／料理人／です。

　上記（ａ）～（ｃ）は、上記の「基本モデル（例文）＝私／は／日本人／の／料理人／です／。」に対して、部分的翻訳（日本語から英語）を行ったモデル（例文）である。このようなモデル（例文）を生成して利用可能とすることで、多言語混じりのテキストに対する言語解析の精度を高めることが可能となる。

　　［３．本開示の情報処理装置の構成例について］
　次に、図１を参照して本開示の情報処理装置の構成例について説明する。

　図１は、本開示の情報処理装置１００の一構成例を示す図である。
　図１に示すように、本開示の情報処理装置１００は、解析データ入力部１０１、部分文字列単位言語種類解析部１０２、言語種類単位言語解析実行部１０３、言語解析エンジン１０４を有する。

　解析データ入力部１０１は、言語解析処理の処理対象となるデータを入力する。なお、解析データ入力部１０１は、例えばテキストデータ自体を入力する場合と構成としてもよいが、例えばマイクを介して入力した音声データをテキストデータに変換する処理を行う構成としてもよい。この場合、解析データ入力部１０１は、音声認識機能を有する構成となる。

　解析データ入力部１０１が入力したテキストデータ、または生成したテキストデータは、例えば、先に説明した以下のようなテキストデータである。
　テキストデータ＝私はＪａｐａｎｅｓｅ　ｃｈｅｆです。

　部分文字列単位言語種類解析部１０２は、解析データ入力部１０１から入力したデータについて、部分文字列単位で言語の種類を判別する。部分文字列単位言語種類解析部１０２は、図１に示す言語種類判別辞書１１１を利用して、言語の種類を判別する処理を行う。

　具体的には、先に説明したように解析対象となるテキスト中に含まれる言語の情報を抽出するために、部分文字列単位の言語識別を行う。例えば、部分文字列単位で以下の解析を実行する。
　（ａ）文字種、
　（ｂ）つづり、
　（ｃ）前後の文字列の種類
　これらを解析して、テキスト中で使用されている言語を部分文字列単位で識別する。

　上記のデータ＝私はＪａｐａｎｅｓｅ　ｃｈｅｆです。が入力された場合、部分文字列単位言語種類解析部１０２は、まず、
　わたしは／Ｊａｐａｎｅｓｅ　ｃｈｅｆ／です。
　このように、解析対象となる入力テキストを、部分文字列単位で区切りを設定し、各区切り単位の言語種類情報を生成する。
　わたしは＝［日本語］
　Ｊａｐａｎｅｓｅ　ｃｈｅｆ＝［英語］
　です。＝［日本語］

　言語種類単位言語解析実行部１０３は、前述した「（２）言語識別処理結果として得られた解析対象データに含まれる言語種類単位の言語解析を順次、実行する処理」を実行する。
　すなわち、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。

　例えば、上記のデータ＝私はＪａｐａｎｅｓｅ　ｃｈｅｆです。
　が入力された場合、この入力データには、日本語と英語が含まれるので、日本語と、英語について、順次、各言語対応の辞書を用いて言語解析処理を実行する。
　なお、言語解析処理には、例えば、以下の解析処理がある。
　（ａ）形態素解析
　（ｂ）句解析
　（ｃ）構文解析
　（ｄ）述語項構造解析
　（ｅ）意味解析
　言語種類単位言語解析実行部１０３は、これら（ａ）～（ｅ）の少なくともいずれかの言語解析処理を実行する。

　先に説明した処理例と同様の形態素解析を行う場合の処理例について説明する。
　入力データ＝私はＪａｐａｎｅｓｅ　ｃｈｅｆです。
　この入力データに対して、言語種類単位言語解析実行部１０３は、以下のように形態素単位で区切りを設定する。
　私／は／Ｊａｐａｎｅｓｅ／ｃｈｅｆ／です／。／

　次に、日本語と、英語について、順次、各言語対応の辞書を用いて形態素解析、すなわち形態素ごとの品詞の特定処理を実行する。
　まず、解析対象データに含まれる形態素の数が少ない方の言語（＝小さい言語クラスタ）である英語について、英語辞書（形態素解析辞書（解析モデル））を用いて形態素解析を実行する。

　この結果、言語が英語であると識別された形態素についての形態素解析結果として以下の解析結果が得られる。
　Ｊａｐａｎｅｓｅ（英語：形容詞）
　ｃｈｅｆ（英語：名詞）

　次に、日本語について、日本語辞書（形態素解析辞書（解析モデル））を用いて形態素解析を実行する。なお、既に実行済みの他言語対応の言語解析が行われている場合は、実行済みの解析結果を、今回の処理言語の処理結果にマッピングする処理を併せて行う。これらの処理結果、すなわち形態素解析結果として以下の解析結果が得られる。
　私（名詞）
　は（助詞）
　Ｊａｐａｎｅｓｅ（英語：形容詞→日本語：形容詞）
　ｃｈｅｆ（英語：名詞→日本語：名詞）
　です（助動詞）
　。（句点）

　この結果が、言語解析結果１３０として出力される。
　なお、上述した処理例は、言語種類単位言語解析実行部１０３の実行する言語解析処理が形態素解析処理である例であるが、前述したように、言語解析処理には、形態素解析の他、句解析、構文解析、述語項構造解析、意味解析等があり、言語種類単位言語解析実行部１０３は、これらのいずれかの処理を行う。

　なお、言語種類単位言語解析実行部１０３は、言語解析エンジン１０４とともに様々な言語対応解析モデル１２１～１２３を利用した言語解析処理を実行する。
　図１に示すように、言語解析モデル格納部１２０には、様々な言語種類（日本語、英語等）に対応した言語対応モデルが格納されている。これらは各言語対応の言語解析用体系的情報であるコーパスに基づいて生成されたモデル（例文）データである。

　次に、図２を参照して、先に説明した多言語対応のコーパスと言語解析モデルを利用した情報処理装置１００ｂの構成例について説明する。

　図２に示す情報処理装置１００ｂは、図１に示す情報処理装置１００と同様、解析データ入力部１０１、部分文字列単位言語種類解析部１０２、言語種類単位言語解析実行部１０３、言語解析エンジン１０４を有する。

　図２に示す情報処理装置１００ｂは、言語解析エンジン１０４の参照するモデルが、多言語対応解析モデル１５６である点である。

　この多言語対応解析モデル１５６は、先に説明した［２－（３）多言語対応のコーパスと言語解析モデルの生成と利用処理について］の項目で説明した処理によって生成されるデータである。

　図２に示す第１言語対応コーパス１５１は、例えば、日本語を対象とした言語解析に適用するためのコーパス、すなわち日本語対応コーパスである。
　翻訳実行部１５２は、翻訳辞書１５３を利用して、この第１言語対応コーパス１５１に含まれる文の部分的な翻訳処理を行い、多言語対応コーパス１５４を生成する。

　具体的には、先に説明したように、第１言語対応コーパス１５１に、「基本モデル（例文）＝私／は／日本人／の／料理人／です／。」が格納されている場合、翻訳実行部１５２は、この基本モデル（例文）に基づいて、以下の複数の拡張されたモデル（例文）を生成する。
　（ａ）私／は／Ｊａｐａｎｅｓｅ（名詞）／の料理人／です。
　（ｂ）私／は／日本人の／Ｃｈｅｆ（名詞）／です。
　（ｃ）Ｉ（代名詞）／は／日本人／の／料理人／です。

　上記（ａ）～（ｃ）は、上記の「基本モデル（例文）＝私／は／日本人／の／料理人／です／。」に対して、部分的翻訳（日本語から英語）を行ったモデル（例文）である。このようなモデル（例文）を生成して多言語対応コーパス１５４に格納する。

　多言語対応解析モデル生成部１５５は、この多言語対応コーパス１５４に格納されたデータを利用して、言語種類単位言語解析実行部１０３や言語解析エンジン１０４において実行する言語解析処理、すなわち形態素解析、句解析、構文解析、述語項構造解析、意味解析等の各解析に利用可能なデータ構成を持つモデルデータからなる多言語対応解析モデル１５６を生成する。

　図２に示す情報処理装置１００ｂの言語種類単位言語解析実行部１０３や言語解析エンジン１０４は、この多言語対応解析モデル１５６を利用して、多言語混じりの入力データの言語解析を実行する。
　なお、図２に示す構成例は、多言語対応解析モデル１５６のみを生成して利用する構成としているが、例えば多言語対応の辞書、コーパス、言語対応解析モデルをそれぞれ生成して利用する構成としてもよい。

　　［４．本開示の情報処理装置を利用した言語解析処理の具体例について］
　次に、本開示の情報処理装置を利用した言語解析処理の具体例について説明する。
　以下では、
　（１）一つの言語のみを処理可能な従来型の装置における言語解析処理例、
　（２）本開示の情報処理装置を適用した多言語対応の言語解析処理、
　これら２つの言語解析処理を順次、説明し、２つの処理を比較する。
　なお、いずれも処理対象とする入力テキストは同じ多言語混じりのテキストとする。

　（１）一つの言語のみを処理可能な従来型の装置における言語解析処理例、
　まず、図３を参照して、一つの言語のみを処理可能な従来型の装置における言語解析処理例について説明する。

　図３には、
　（１）入力テキスト
　（２）形態素解析結果
　（３）構文解析結果
　これらの具体的なデータ例を示している。

　入力テキストは、
　先頭部が、韓国語（ハングル）、
　中央部が、日本語、
　終端部が、英語、
　これら３つの言語を含む多言語混じりのテキストである。

　図３に示す（２）形態素解析結果は、日本語辞書を用いた形態素解析結果を示している。
　この形態素解析処理の結果として、
　中央部の日本語のみ、すなわち、
　を（助詞）、
　プレーヤー（名詞）、
　で（助詞）、
　これらの形態素解析、すなわち形態素単位の品詞特定処理が正確に実行されている。

　しかし、先頭部の韓国語（ハングル）と、終端部の英語の部分については、日本語辞書を用いた形態素解析では、品詞特定が不可能となり、結果として未知（ＵＮＫ：Ｕｎｋｎｏｗｎ）というラベルが設定されている。
　すなわち、正しい形態素解析結果は得られない結果となる。

　図３に示す（３）構文解析結果は、日本語辞書を用いた構文解析結果を示している。
　構文解析は、テキストの構造の解析を行うものであり、例えば、Ｓ（文）、ＮＰ（名詞句）、ＶＰ（動詞句）、ＰＰ（前置詞句）、Ｎ（名詞）、Ｖ（動詞）、ＡＤＪ（形容詞）、ＤＥＴ（冠詞）、ＰＲＥＲ（前置詞）、これらのラベルを各テキストの構成部分に割り当てる処理を行うものである。

　図３（３）に示す例では、日本語辞書のみを適用した構文解析結果であり、日本語部分のみについては、正しい構文解析結果が得られている。すなわち、
　プレーヤーで（ＰＰ：前置詞句）
　である。

　しかし、その他の韓国語や英語部分については、構文解析に適用する日本語対応の辞書には登録されていない語、すなわち未知語であるため、すべてＮＰ（名詞句）として処理がなされてしまい、正しい構文解析ができない結果となる。

　このように、一つの言語のみを処理可能な従来型の装置における言語解析処理では、形態素解析処理においても、構文解析処理においても正しい解析結果を出力することはできない。

　（２）本開示の情報処理装置を適用した多言語対応の言語解析処理、
　次に、図４を参照して、本開示の情報処理装置を適用した多言語対応の言語解析処理例について説明する。

　図４には、図３と同様、
　（１）入力テキスト
　（２）形態素解析結果
　（３）構文解析結果
　これらの具体的なデータ例を示している。

　図４に示す（２）形態素解析結果は、図１、または図２に示す情報処理装置が実行した言語解析処理の結果、取得される形態素解析結果を示している。
　すなわち、図１、または図２に示す言語種類単位言語解析実行部１０３において実行した形態素解析処理の結果を示している。

　先に説明したように、図１、または図２に示す言語種類単位言語解析実行部１０３では、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。

　入力テキストは、先頭部が、韓国語（ハングル）、中央部が、日本語、終端部が、英語、これら３つの言語を含む多言語混じりのテキストであるので、これら３つの言語について、順次、各言語対応の辞書を用いて言語解析処理を実行する。
　なお、先に説明したように、第２番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を併せて行う。

　図４に示す（２）形態素解析結果は、この本開示の処理に従った形態素解析処理の結果である。
　先頭部の韓国語（ハングル）については、固有名詞であるとの正確な品詞特定処理がなされている。これは韓国語の辞書を適用した結果である。

　また、中央部の日本語については、
　を（助詞）、
　プレーヤー（名詞）、
　で（助詞）、
　これらの正確な品詞特定処理がなされている。これは日本語の辞書を適用した結果である。

　さらに、終端部の英語については、動詞であるとの正確な品詞特定処理がなされている。これは英語の辞書を適用した結果である。

　このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第２番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい形態素解析結果が得られる。

　図４に示す（３）構文解析結果は、図１、または図２に示す情報処理装置が実行した言語解析処理の結果、取得される構文解析結果を示している。
　すなわち、図１、または図２に示す言語種類単位言語解析実行部１０３において実行した構文解析処理の結果を示している。

　図４に示す（３）構文解析結果は、この本開示の処理に従った構文解析処理の結果である。図４（３）に示すように、
　先頭部の韓国語（ハングル）については、
　（ＮＰ：名詞句）
　中央部の日本語については、
　（ＰＰ：前置詞句）
　終端部の英語については、
　（ＶＰ：動詞句）、
　これらの構文解析結果が得られ、句構造についても正確な解析が実行されている。

　このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第２番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい構文解析結果が得られる。

　このように、本開示の処理を行うことで、形態素解析処理においても、構文解析処理においても正しい解析結果を出力することが可能となる。なお、その他の言語解析、すなわち、句解析、述語項構造解析、意味解析等においても、本開示の処理を適用することで高精度な解析が可能とてなる。

　図５は、本開示の処理を適用して形態素解析と意味酢解析を実行した場合の処理例を示す図である。
　図５には、以下の各データを示している。
　（１）入力テキストと言語種類解析結果
　（２）形態素解析結果
　（３）意味解析結果

　入力テキストは、
　前半部が、韓国語（ハングル）、
　後半部が、日本語、
　である。

　（１）入力テキストと言語種類解析結果は、図１、図２に示す情報処理装置の部分文字列単位言語種類解析部１０２における処理結果から得られる各部分文字列の言語種類を示している。前述したように、部分文字列単位言語種類解析部１０２は、解析データ入力部の入力したデータに含まれる言語の種類を判別する。

　図５に示す（２）形態素解析結果と、（３）意味解析結果は、図１、または図２に示す情報処理装置が実行した言語解析処理の結果、取得される形態素解析結果と意味解析結果を示している。
　すなわち、図１、または図２に示す言語種類単位言語解析実行部１０３において実行した形態素解析処理と意味解析処理の結果を示している。

　図５に示す（２）形態素解析結果は、この本開示の処理に従った形態素解析処理の結果である。
　前半部の韓国語（ハングル）については、固有名詞であるとの正確な品詞特定処理がなされている。これは韓国語の辞書を適用した結果である。

　また、後半部の日本語については、
　を（助詞：格助詞）、
　再生（名詞：サ変）、
　し（動詞：スル）、
　て（助詞：接続助詞）、
　よ（助詞：終助詞）、
　これらの正確な品詞特定処理がなされている。これは日本語の辞書を適用した結果である。

　図５に示す（３）意味解析結果は、図１、または図２に示す情報処理装置が実行した言語解析処理の結果、取得される意味解析結果を示している。
　すなわち、図１、または図２に示す言語種類単位言語解析実行部１０３において実行した意味解析処理の結果を示している。

　先に説明したように、図１、または図２に示す言語種類単位言語解析実行部１０３では、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
　入力テキストは、前半部が韓国語（ハングル）、後半部が日本語、これら２つの言語を含む多言語混じりのテキストであるので、これら２つの言語について、順次、各言語対応の辞書を用いて意味解析処理を実行する。
　なお、先に説明したように、第２番目以降の意味解析処理時には、既に実行済みの他言語対応の意味解析処理結果を、新たに実行する言語の処理結果にマッピングする処理を併せて行う。

　図５に示す（３）意味解析結果は、この本開示の処理に従った意味解析処理の結果である。図５（３）に示すように、
　前半部の韓国語（ハングル）と後半部の日本語を含むテキストの全体について、
　前半部の韓国語（ハングル）で示される曲の再生、すなわち、
　意味概念構造＝音楽の再生
　このような意味解析結果を出力している。

　このように、本開示の言語解析処理では、解析対象データに含まれる言語種類単位の言語解析を順次、実行し、第２番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行することで、すべての言語についての正しい意味解析結果が得られる。

　　［５．本開示の情報処理装置が実行する処理のシーケンスについて］
　次に、図６に示すフローチャートを参照して、本開示の情報処理装置が実行する処理のシーケンスについて説明する。

　図６に示すフローチャートに従った処理は、例えば情報処理装置の記憶部に格納されたプログラムに従って実行される。例えばプログラム実行機能を有するＣＰＵ等のプロセッサによるプログラム実行処理として実行可能である。
　図６に示すフローの各ステップの処理について説明する。

　　（ステップＳ１０１）
　まず、情報処理装置は、ステップＳ１０１において、言語解析処理の解析対象となるデータを入力する。
　この処理は、図１、図２に示す情報処理装置の解析データ入力部１０１が実行する処理である。
　なお、前述したように、解析データ入力部１０１は、例えばテキストデータ自体を入力する場合と構成としてもよいが、例えばマイクを介して入力した音声データをテキストデータに変換する処理を行う構成としてもよい。この場合、解析データ入力部１０１は、音声認識機能を有する構成となる。

　解析データ入力部１０１が入力したテキストデータ、または生成したテキストデータは、部分文字列単位言語種類解析部１０２に入力される。

　　（ステップＳ１０２）
　次に、ステップＳ１０２において、入力テキストデータに対する部分文字列単位の言語種類解析処理を実行する。
　この処理は、図１、図２に示す情報処理装置の部分文字列単位言語種類解析部１０２が実行する処理である。

　部分文字列単位言語種類解析部１０２は、解析データ入力部１０１から入力したデータについて、部分文字列単位で言語の種類を判別する。部分文字列単位言語種類解析部１０２は、図１、図２に示す言語種類判別辞書１１１を利用して、言語の種類を判別する処理を行う。

　　（ステップＳ１０３）
　ステップＳ１０３では、部分文字列単位言語種類解析部１０２で実行した部分文字列単位の言語種類判別結果として、解析対象データに複数の言語種類の文字列が含まれるか否かを判定する。
　解析対象データに複数の言語種類の文字列が含まれる場合は、ステップＳ１０４に進む。
　一方、解析対象データに複数の言語種類の文字列が含まれず、単一言語のみである場合は、ステップＳ１１１に進む。

　　（ステップＳ１１１）
　先に、ステップＳ１１１の処理について説明する。
　ステップＳ１１１は、ステップＳ１０３において、解析対象データに複数の言語種類の文字列が含まれず、単一言語のみである場合に実行される処理である。

　ステップＳ１１１では、解析対象データに含まれる単一言語に対応する言語モデルや辞書を適用して言語解析を実行する。この処理は従来型の言語解析処理と同様の処理である。

　　（ステップＳ１０４～Ｓ１０６）
　次に、ステップＳ１０４～Ｓ１０６の処理について説明する。
　ステップＳ１０４～Ｓ１０６の処理は、ステップＳ１０３において、解析対象データに複数の言語種類の文字列が含まれる場合に実行される処理である。

　ステップＳ１０４～Ｓ１０６の処理は、図１、図２に示す情報処理装置の言語種類単位言語解析実行部１０３が実行する処理である。
　言語種類単位言語解析実行部１０３は、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
　すなわち、解析対象データに含まれる言語種類単位で、その言語対応の辞書やモデルを利用した言語解析を順次、実行する。

　例えば図１に示す構成では、言語種類単位言語解析実行部１０３は、言語解析エンジン１０４とともに様々な言語対応解析モデル１２１～１２３を利用した言語解析処理を実行する。
　図１に示すように、言語解析モデル格納部１２０には、様々な言語種類（日本語、英語等）に対応した言語対応モデルが格納されている。これらは各言語対応の言語解析用体系的情報であるコーパスに基づいて生成されたモデル（例文）データである。

　また、図２に示す構成では、言語種類単位言語解析実行部１０３は、言語解析エンジン１０４とともに多言語対応解析モデル１５６を利用した処理が行われる。
　多言語対応解析モデル１５６は、図２に示す第１言語対応コーパス１５１に含まれる文の部分的な翻訳処理の結果を格納した多言語対応コーパス１５４に格納されたデータを利用して生成されたモデルデータからなる多言語対応モデルデータである。

　言語種類単位言語解析実行部１０３は、ステップＳ１０４～Ｓ１０６において、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。なお、第２番目以降の言語解析処理時には、既に実行済みの他言語対応の言語解析結果を、新たに実行する言語の処理結果にマッピングする処理を実行する。これらの処理によって、すべての言語についての正しい言語解析結果を取得する。

　ステップＳ１０６において、解析対象データに含まれる言語種類単位の言語解析が全て完了したと判定されると処理を終了する。

　このフローに従って言語解析を実行することで、入力データが複数の異なる言語から構成される多言語混じりのテキストであっても、言語解析、すなわち、形態素解析の他、句解析、構文解析、述語項構造解析、意味解析等の様々な言語解析を高精度に実行することが可能となる。

　　［６．複数の異なるタイプのテキストに対する言語解析処理例について］
　次に、図７を参照して複数の異なるタイプのテキストに対する言語解析処理例について説明する。

　図７には、複数の異なるタイプのテキストを入力した場合における本開示の情報処理装置の実行する言語解析処理の処理シーケンスの一例を示している。
　図７には、本開示の情報処理装置の実行する処理を上から時系列に以下のステップＳ１～Ｓ５として示している。
　（ステップＳ１）テキスト入力
　（ステップＳ２）入力テキストの言語判別
　（ステップＳ３）単一言語テキストの言語解析
　（ステップＳ４）多言語テキストノ言語解析
　（ステップＳ５）多言語テキストの言語解析結果を一原語の解析結果にマッピング

　以下、これらの各ステップの処理について説明する。
　　（ステップＳ１）
　情報処理装置の解析データ入力部１０１は、まず、解析対象となるテキストを入力する。ここでは、以下の３つのテキストを入力したものとする。
　（テキスト１）こんにちは、僕はたかしです。
　（テキスト２）友達のＢｏｂ，　ＡｎｄｅｒｓｏｎとＭｉｃｈｅａｌ　Ｃｌｅａｒｋはｎａｔｉｖｅ　ａｍｅｒｉｃａｎ　です。
　（テキスト３）Ｗｅ　ｈａｖｅ　ｂｅｅｎ　ｆｒｉｅｎｄｓ　ｓｉｎｃｅ　Ｉ'ｖｅ　ｂｅｅｎ　ｉｎ　Ｕ．Ｓ　ｔｏ　ｓｔｕｄｙ　ａｂｒｏａｄ．

　テキスト１は日本語のみからなるテキストであり、テキスト２は、日本語と英語の混在テキストであり、テキスト３は、英語のみからなるテキストである。
　これらのテキストは、解析データ入力部１０１から、部分文字列単位言語種類解析部１０２に入力される。

　　（ステップＳ２）
　ステップＳ２では、部分文字列単位言語種類解析部１０２において、入力テキストの言語判別処理が実行される。
　部分文字列単位言語種類解析部１０２は、入力テキスト１～３の各々について、部分文字列単位の言語種類解析処理を実行する。

　図７（Ｓ２）の（Ｂ）具体的データには、部分文字列単位の言語種類の判別結果は省略し、各テキスト全体に含まれる言語の種類に応じたタイプ分類結果を示している。タイプ分類結果は、以下の通りである。
　（テキスト１）こんにちは、僕はたかしです。＝Ｊａ－ｔｙｐｅ１
　（テキスト２）友達のＢｏｂ，　ＡｎｄｅｒｓｏｎとＭｉｃｈｅａｌ　Ｃｌｅａｒｋはｎａｔｉｖｅ　ａｍｅｒｉｃａｎ　です。＝Ｊａ－ｔｙｐｅ２
　（テキスト３）Ｗｅ　ｈａｖｅ　ｂｅｅｎ　ｆｒｉｅｎｄｓ　ｓｉｎｃｅ　Ｉ'ｖｅ　ｂｅｅｎ　ｉｎ　Ｕ．Ｓ　ｔｏ　ｓｔｕｄｙ　ａｂｒｏａｄ．＝Ｅｎ－ｔｙｐｅ１

　Ｊａ－ｔｙｐｅ１、Ｊａ－ｔｙｐｅ２、Ｅｎ－ｔｙｐｅ１等のタイプ識別子は、部分文字列単位言語種類解析部１０２において予め規定したタイプ識別子であり、以下の意味を持つ。
　Ｊａ－ｔｙｐｅ１＝日本語のみのテキスト
　Ｊａ－ｔｙｐｅ２＝日本語をベースとし、一部に他言語（英語）が含まれるテキスト
　Ｅｎ－ｔｙｐｅ１＝英語のみのテキスト

　すなわち、テキスト１が日本語のみのテキストであるＪａ－ｔｙｐｅ１のテキストであり、テキスト２が日本語をベースとして他言語（英語）が含まれるテキストであるＪａ－ｔｙｐｅ２のテキストであり、テキスト３が英語のみのテキストであるＥｎ－ｔｙｐｅ１のテキストであるとのテキストタイプが設定される。

　なお、図では省略しているが、部分文字列単位言語種類解析部１０２は、各テキストに対して、テキストタイプ情報を設定するのみならず、各テキストの部分文字列単位で言語種類情報を設定する。

　テキストタイプ情報と、部分文字列単位で言語種類情報が設定されたデータは、言語種類単位言語解析実行部１０３に入力される。

　　（ステップＳ３）
　言語種類単位言語解析実行部１０３は、まず、ステップＳ３において、単一言語テキストの言語解析処理を実行する。
　本例において、単一言語テキストは、日本語のみのテキストであるテキスト１と、英語のみのテキストであるテキスト３である。

　日本語のみのテキストであるテキスト１に対しては、日本語辞書や日本語対応の解析モデルを適用した言語解析処理を実行する。
　英語のみのテキストであるテキスト３に対しては、英語辞書や英語対応の解析モデルを適用した言語解析処理を実行する。
　これらの処理は、先に図６を参照して説明したフローのステップＳ１１１の処理に相当し、従来型の同様の言語解析処理となる。

　なお、図７に示す例は、言語解析処理として形態素解析を行った例を示している。
　このステップＳ３の処理の結果として、図７（Ｓ３）の（Ｂ）具体的データに示すように、単一言語テキストであるテキスト１とテキスト３について、形態素単位の品詞特定処理が実行される。すなわち以下の処理結果が得られる。

　（テキスト１）こんにちは－感動詞／、－句点／僕－代名詞／は－助詞／たかし－固有名詞／です－助動詞／。－句点／：　Ｊａ　：　Ｊａ－ｔｙｐｅ１
　（テキスト２）友達のＢｏｂ，　ＡｎｄｅｒｓｏｎとＭｉｃｈｅａｌ　Ｃｌｅａｒｋはｎａｔｉｖｅ　ａｍｅｒｉｃａｎ　です。：　Ｅｎ，Ｊａ　：　Ｊａ－ｔｙｐｅ２
　（テキスト３）Ｗｅ－ＰＮＰ／ｈａｖｅ－ＶＢＤ／ｂｅｅｎ－ＶＢＤ／　ｆｒｉｅｎｄ－ＮＮ２／ｓｉｎｃｅ　ＣＯＮＪ／　Ｉ'ｖｅ　ｂｅｅｎ　ｉｎ　Ｕ．Ｓ　ｔｏ　ｓｔｕｄｙ　ａｂｒｏａｄ．　：　Ｅｎ　：　Ｅｎ－ｔｙｐｅ１

　上記の処理結果は、単一言語テキストであるテキスト１とテキスト３についてのみ形態素単位の品詞情報が設定された結果であり、複数言語混じりのテキスト２については処理が行われていない。

　　（ステップＳ４）
　言語種類単位言語解析実行部１０３は、次に、ステップＳ４において、多言語テキストの言語解析処理を行う。
　すなわち、複数言語混じりのテキストであるテキスト２の言語解析処理を実行する。
　本例において、テキスト２は、日本語と英語からなる多言語テキストであり、このテキスト２の言語解析処理を行う。

　この処理は、先に図６を参照して説明したフローのステップＳ１０４～Ｓ１０６の処理に相当し、本開示の情報処理装置特有の言語解析処理である。

　言語種類単位言語解析実行部１０３は、解析対象データに含まれる言語種類単位の言語解析を順次、実行する。
　すなわち、解析対象データに含まれる言語種類単位で、その言語対応の辞書やモデルを利用した言語解析を順次、実行する。

　言語種類単位言語解析実行部１０３は、テキスト２に含まれる言語種類てある日本語と英語それぞれの言語単位の言語解析を順次、実行する。

　このステップＳ４の処理の結果として、図７（Ｓ４）の（Ｂ）具体的データに示すように、日本語と英語の多言語テキストであるテキスト２について、形態素単位の品詞特定処理が実行される。先のステップＳ３の処理結果も含めて、以下の処理結果が得られる。

　（テキスト１）こんにちは－感動詞／、－句点／僕－代名詞／は－助詞／たかし－固有名詞／です－助動詞／。－句点／：　Ｊａ　：　Ｊａ－ｔｙｐｅ１
　（テキスト２）友達－名詞／の－助詞／Ｂｏｂ，　Ａｎｄｅｒｓｏｎ－ＮＮ０／と－助詞／Ｍｉｃｈｅａｌ　Ｃｌｅａｒｋ－ＮＮ０／は－助詞／ｎａｔｉｖｅ－ＪＪ／　ａｍｅｒｉｃａｎ－ＮＮ１／　です－助動詞／。－記号／：　Ｅｎ，Ｊａ　：　Ｊａ－ｔｙｐｅ２
　（テキスト３）Ｗｅ－ＰＮＰ／ｈａｖｅ－ＶＢＤ／ｂｅｅｎ－ＶＢＤ／　ｆｒｉｅｎｄ－ＮＮ２／ｓｉｎｃｅ　ＣＯＮＪ／　Ｉ'ｖｅ　ｂｅｅｎ　ｉｎ　Ｕ．Ｓ　ｔｏ　ｓｔｕｄｙ　ａｂｒｏａｄ．　：　Ｅｎ　：　Ｅｎ－ｔｙｐｅ１

　　（ステップＳ５）
　次に、言語種類単位言語解析実行部１０３は、ステップＳ５において、多言語テキストの言語解析結果を一言語の解析結果にマッピングする処理を実行する。

　本例において、多言語テキストは日本語と英語からなるテキスト２であり、このテキスト２の言語解析結果を一言語の解析結果、本例では日本語の解析結果にマッピングする処理を実行する。
　すなわち、英語の形態素解析結果として得られた品詞情報をそのまま日本語の形態素解析結果として利用するマッピング処理を行う。

　この処理の結果として、テキスト２については、図７（Ｓ５）の（Ｂ）具体的データに示すように、以下の結果が得られる。
　（テキスト２）友達－名詞／の－助詞／Ｂｏｂ，　Ａｎｄｅｒｓｏｎ－ＮＮ０－＞固有名詞／と－助詞／Ｍｉｃｈｅａｌ　Ｃｌｅａｒｋ－ＮＮ０－＞固有名詞／は－助詞／ｎａｔｉｖｅ－ＪＪ－＞形容詞／　ａｍｅｒｉｃａｎ－ＮＮ１－＞名詞／　です－助動詞／。－記号／：　Ｅｎ，Ｊａ　：　Ｊａ－ｔｙｐｅ２

　この結果は、多言語テキストであるテキスト２の全ての形態素について正確な品詞情報が付与された形態素解析結果である。

　このように、本開示の処理を実行することで、入力データが複数の異なる言語から構成される多言語混じりのテキストであっても、言語解析、すなわち、形態素解析の他、句解析、構文解析、述語項構造解析、意味解析等の様々な言語解析を高精度に実行することが可能となる。

　　［７．情報処理装置のハードウェア構成例について］
　次に、図８を参照して情報処理装置のハードウェア構成例について説明する。
　図８を参照して説明するハードウェアは、先に図１や図２を参照して説明した情報処理装置のハードウェア構成例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）３０２、または記憶部３０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０３には、ＣＰＵ３０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ３０１、ＲＯＭ３０２、およびＲＡＭ３０３は、バス３０４により相互に接続されている。

　ＣＰＵ３０１はバス３０４を介して入出力インタフェース３０５に接続され、入出力インタフェース３０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部３０６、ディスプレイ、スピーカーなどよりなる出力部３０７が接続されている。ＣＰＵ３０１は、入力部３０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部３０７に出力する。

　入出力インタフェース３０５に接続されている記憶部３０８は、例えばハードディスク等からなり、ＣＰＵ３０１が実行するプログラムや各種のデータを記憶する。通信部３０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース３０５に接続されているドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア３１１を駆動し、データの記録あるいは読み取りを実行する。

　　［８．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、
　前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有し、
　前記言語解析実行部は、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理装置。

　（２）　前記言語解析実行部は、
　先行して実行した先行処理言語種類の言語解析結果をそのまま利用するマッピング処理を実行する（１）に記載の情報処理装置。

　（３）　前記言語解析実行部は、
　前記入力テキストに複数の異なる言語の部分文字列が含まれる場合、
　各言語対応の部分文字列数の少ない言語から、先行して言語解析処理を実行する（１）または（２）に記載の情報処理装置。

　（４）　前記言語解析実行部は、
　言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記言語解析実行部は、
　前記入力テキストに含まれる言語種類ごとに、順次、各言語対応の辞書、または、コーパス、または言語対応解析モデルを用いた言語解析を実行する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記言語解析実行部は、
　前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の言語対応解析モデルを用いた言語解析を実行する（１）～（４）いずれかに記載の情報処理装置。

　（７）　前記言語解析実行部は、
　前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の辞書、または、コーパス、または言語対応解析モデルの少なくともいずれかを用いた言語解析を実行する（１）～（４）いずれかに記載の情報処理装置。

　（８）　前記多言語対応のコーパス、または言語対応解析モデルは、１つの言語対応のコーパスに含まれる基本データの部分的翻訳処理によって生成される構成である（７）に記載の情報処理装置。

　（９）　情報処理装置において実行する情報処理方法であり、
　言語種類解析部が、入力テキストの部分文字列単位で言語種類を判別する言語種類解析ステップと、
　言語解析実行部が、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行ステップを実行し、
　前記言語解析実行ステップにおいては、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理方法。

　（１０）　情報処理装置において情報処理を実行させるプログラムであり、
　言語種類解析部に、入力テキストの部分文字列単位で言語種類を判別させる言語種類解析ステップと、
　言語解析実行部に、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行させる言語解析実行ステップを実行させ、
　前記言語解析実行ステップにおいては、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。
　具体的には、例えば、入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、言語種類解析部の解析結果に基づいて、入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有する。言語解析実行部は、先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する。言語解析実行部は、言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する。
　本構成により、異なる種類の言語から構成される多言語テキストに対する高精度な言語解析を実行する装置、方法が実現される。

　１００，１００ｂ　情報処理装置
　１０１　解析データ入力部
　１０２　部分文字列単位言語種類解析部
　１０３　言語種類単位言語解析実行部
　１０４　言語解析エンジン
　１１１　言語種類判別辞書
　１２０　言語解析モデル格納部
　１２１～１２３　言語対応解析モデル
　１５１　第１言語対応コーパス
　１５２　翻訳実行部
　１５３　翻訳辞書
　１５４　多言語対応コーパス
　１５５　多言語対応解析モデル生成部
　１５６　多言語対応解析モデル
　３０１　ＣＰＵ
　３０２　ＲＯＭ
　３０３　ＲＡＭ
　３０４　バス
　３０５　入出力インタフェース
　３０６　入力部
　３０７　出力部
　３０８　記憶部
　３０９　通信部
　３１０　ドライブ
　３１１　リムーバブルメディア

Claims

　入力テキストの部分文字列単位で言語種類を判別する言語種類解析部と、
　前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行部を有し、
　前記言語解析実行部は、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理装置。
　前記言語解析実行部は、
　先行して実行した先行処理言語種類の言語解析結果をそのまま利用するマッピング処理を実行する請求項１に記載の情報処理装置。
　前記言語解析実行部は、
　前記入力テキストに複数の異なる言語の部分文字列が含まれる場合、
　各言語対応の部分文字列数の少ない言語から、先行して言語解析処理を実行する請求項１に記載の情報処理装置。
　前記言語解析実行部は、
　言語解析処理として、形態素解析、句解析、構文解析、述語項構造解析、意味解析の少なくともいずれかを実行する請求項１に記載の情報処理装置。
　前記言語解析実行部は、
　前記入力テキストに含まれる言語種類ごとに、順次、各言語対応の辞書、または、コーパス、または言語対応解析モデルを用いた言語解析を実行する請求項１に記載の情報処理装置。
　前記言語解析実行部は、
　前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の言語対応解析モデルを用いた言語解析を実行する請求項１に記載の情報処理装置。
　前記言語解析実行部は、
　前記入力テキストに含まれる言語種類ごとの言語解析処理において、多言語対応の辞書、または、コーパス、または言語対応解析モデルの少なくともいずれかを用いた言語解析を実行する請求項１に記載の情報処理装置。
　前記多言語対応のコーパス、または言語対応解析モデルは、１つの言語対応のコーパスに含まれる基本データの部分的翻訳処理によって生成される構成である請求項７に記載の情報処理装置。
　情報処理装置において実行する情報処理方法であり、
　言語種類解析部が、入力テキストの部分文字列単位で言語種類を判別する言語種類解析ステップと、
　言語解析実行部が、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行する言語解析実行ステップを実行し、
　前記言語解析実行ステップにおいては、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　言語種類解析部に、入力テキストの部分文字列単位で言語種類を判別させる言語種類解析ステップと、
　言語解析実行部に、前記言語種類解析部の解析結果に基づいて、前記入力テキストに含まれる言語種類ごとに、順次、言語解析を実行させる言語解析実行ステップを実行させ、
　前記言語解析実行ステップにおいては、
　先行して実行した先行処理言語種類の言語解析結果を、後続の異なる言語種類対応の言語解析処理に利用して、最終的な言語解析結果を生成させるプログラム。