WO2014083945A1

WO2014083945A1 - 意図推定装置および意図推定方法

Info

Publication number: WO2014083945A1
Application number: PCT/JP2013/077504
Authority: WO
Inventors: 洋一藤井; 石井　純
Original assignee: 三菱電機株式会社
Priority date: 2012-11-30
Filing date: 2013-10-09
Publication date: 2014-06-05
Also published as: CN104756100A; JP5921716B2; US20150255064A1; US9530405B2; DE112013005742T5; CN104756100B; JPWO2014083945A1

Abstract

　入力された言語の形態素解析を行い、形態素列に変換する形態素解析部２と、形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を抽出する意図推定単位抽出部４と、抽出した各意図推定単位を構成する部分形態素の意図を推定する意図推定部６と、意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部８とを備え、意図推定部６が推定した１または複数の意図を用いて入力された言語に相当する意図列を生成し、生成した意図列の尤もらしさを示すスコアと、生成した意図列を構成する意図について意図共起重み計算部８が計算した意図共起重みとを用いて、入力された言語に対応した意図推定結果を生成する意図列推定部３とを備えた。

Description

意図推定装置および意図推定方法

　この発明は、自然言語で入力されたテキストの内容が、あらかじめ設計した意図のどの意図にあたるかを推定する意図推定装置および意図推定方法に関するものである。

　近年、人間が喋る言葉を音声入力し、その認識結果を用いて、操作を実行する方法が注目されている。この技術は、携帯電話やカーナビなどの音声インタフェースとして利用されているが、基本的な方法としては、あらかじめシステムが想定した音声認識結果と操作を対応付け、音声認識結果が想定したものの場合には、操作を実行するというものがある。この方法は、従来の手操作と比べると、音声の発話によって直接操作ができるため、ショートカット機能として有効に働く。一方で、ユーザは操作を実行するためにシステムが待ち受けている言葉を発話する必要があり、システムが扱う機能が増えていくと、憶えるべき言葉が増加する。また、一般的に取り扱い説明書を十分に理解した上で使用するユーザは少なく、結果的に多くの操作のためにどのように発話する必要があるか分からず、実際には限られた機能以外、音声で操作できない場合があるという問題があった。

　その解決方法として、音声認識結果を直接操作に結びつけるのではなく、ユーザの発話内容からユーザの意図を理解して操作する方法が開示されている。その実現の方法の１つに、あらかじめ収集しておいた発話文例と操作（以下、学習データと記す）を対応付けておき、ユーザの言葉からユーザの希望する操作（以下、意図と記す）を統計的学習方法によってモデル化し、ユーザ入力に対して該モデルを利用して意図を推定するものである（以下、統計的意図推定と記す）。統計的意図推定の具体的処理は、まず、学習データの発話文例から学習に使うタームを抽出する。そして、そのターム集合と正解の意図を入力学習データとして、統計的学習アルゴリズムにより、各タームと正解意図との重みを学習してモデルを出力する。

　学習に使うタームは、発話文例を形態素解析したデータから、単語や単語列を抽出したものが一般的である。たとえば、「○○駅に行きたい」といった発話文例からは、「○○駅（固有名詞・施設）／に（助詞）／行き（動詞・連用）／たい（助動詞）」といった形態素解析結果が得られる。形態素解析結果が得られると、「＄施設＄、行く」（固有名詞の施設は＄施設＄という特殊シンボルに変換、動詞は原形に変換）といったタームや、「＄施設＄＿に、に＿行き、行き＿たい」といった２連接の形態素タームを抽出する。

　結果として、「＄施設＄、行く、＄施設＄＿に、に＿行き、行き＿たい」のタームに対して「目的地設定［目的地＝＄施設＄］」（主意図が目的地設定で、設定する目的地が＄施設＄）のように表現される正解意図とを生成し、大量の発話データから作成したターム列と正解意図からなる学習データを基にモデルを作成する。モデルを作成するための方式としては、機械学習アルゴリズムを利用する。機械学習アルゴリズムは、すべての学習データに対して、最も正解意図が多く生成されるよう入力タームと正解意図との重みを機械学習する。従って、学習データに類似する発話から得られたタームセットに対しては、正解意図を出力する可能性が高いモデルが得られる。この機械学習方式としては、例えば、最大エントロピー法を使うことができる。

　このような機械学習アルゴリズムに基づいて作成したモデルを使って、ユーザ入力に対する意図を推定することで、あらかじめ想定した入力ではない入力に対しても柔軟に操作意図を推定できるため、正式な言い回しを憶えていないユーザの発話であっても、適切に意図を理解して、操作を実行することが可能となる。一方で、このような自由な入力を受け付けることにより、システムの柔軟性が増し、ユーザがさらに多様な発話を行う可能性を増大させる。

　想定される多様な発話とは、大きく以下の２つに分けられる。
　（ａ）１つの操作に対して、さらに多様な単語を使った入力
　（ｂ）複数の操作からなる要求を１つの塊として入力
　上述した（ａ）の場合、学習データをさらに増加することにより多様な発話を処理することができる。一方、（ｂ）の場合、元々学習データが１つの意図と対応付けられているため、複数の意図を含む場合には適切な意図を組み合わせた処理を行うことができない。

　そこで、１つの意図として学習したモデルを使い、１つまたは複数の意図を含む入力に対して適切な意図の列を求める発話意図認識装置が特許文献１に開示されている。この発話意図認識装置は、入力形態素に対して、あらかじめ意図区切りとなる形態素列を学習データとして用意し、上述した意図理解と同様に分割可能性のある点を推定してその分割点の分割可能性と、各分割要素の意図可能性とを掛け合わせることで、最も尤もらしい意図列を推定する。

特開２０００－２００２７３号公報

　しかしながら、上述した特許文献１に開示された技術は、形態素列に対して分割点候補を学習データとして与え、その可能性を学習し、実際のユーザ入力に対して分割点推定を行うものであり、それらの分割点を学習するためのデータとして、多様な入力を集めることは困難であり、実質的には学習データ中の形態素列としての分割点を予測するのみで、言語的性質に基づき分割点の可能性を判定する場合と大差がないと考えられる。
　従って、分割点を基に複数の意図を推定することは、分割点の正しさに加えて、分割後の各部分入力に対する正解意図を個別に推定した結果最も尤もらしい意図を選択し、それを接続した意図列を返すことに他ならず、その発話全体における複数の意図の妥当性が検証されないという課題があった。

　このことは、意図の連続性に関する評価がなされず、以下に示す（ｃ）から（ｅ）が原因となり妥当な意図列を得ることができない。
　（ｃ）学習データが大量に用意できない場合は、意図推定精度が低くなるため、全体の意図列も精度が低くなる可能性がある。
　（ｄ）入力には前方の部分を受けて後方の発話が省略される場合があるため、その場合に後方の発話の意図がユーザの意図列に一致しない場合がある。
　（ｅ）入力が音声の場合には、音声認識の結果を入力とするため、誤認識を含む場合の推定間違いを意図間の整合性から排除することができない。

　この発明は、上記のような課題を解決するためになされたもので、複数の意図を含む入力が行われた場合であっても、あらかじめ意図間の関係を記述しておくことにより、意図間の関係を踏まえて、最適な意図列を生成することを目的とする。

　この発明に係る意図推定装置は、入力された言語の形態素解析を行い、形態素列に変換する形態素解析部と、形態素解析部が変換した形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を抽出する意図推定単位抽出部と、意図推定単位抽出部が抽出した各意図推定単位を構成する部分形態素の意図を推定する意図推定部と、意図推定部が推定した意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部とを備え、意図推定部が推定した１または複数の意図を用いて入力された言語に相当する意図列を生成し、生成した意図列の尤もらしさを示すスコアと、生成した意図列を構成する意図について意図共起重み計算部が計算した意図共起重みとを用いて、入力された言語に対応した意図推定結果を生成する意図列推定部とを備えるものである。

　この発明によれば、複数の意図を含む入力が行われた場合にも、当該複数の意図間の関係を踏まえて最適な意図列を生成することができる。

実施の形態１に係る意図推定装置の構成を示すブロック図である。実施の形態１に係る意図推定装置の意図階層グラフデータ蓄積部が蓄積する意図階層グラフデータの一例を示す図である。実施の形態１に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。実施の形態１に係る意図推定装置の意図推定部の処理を示す図である。実施の形態１に係る意図推定装置の意図推定部の処理を示す図である。実施の形態１に係る意図推定装置の意図列推定部の処理を示す図である。実施の形態１に係る意図推定装置の意図列推定部の処理を示す図である。実施の形態１に係る意図推定装置の動作を示すフローチャートである。実施の形態２に係る意図推定装置の構成を示すブロック図である。実施の形態２に係る意図推定装置の意図列変換テーブル蓄積部が蓄積する意図列変換テーブルの一例を示す図である。実施の形態２に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。実施の形態２に係る意図推定装置の意図推定部の処理を示す図である。実施の形態２に係る意図推定装置の意図列推定部の処理を示す図である。実施の形態２に係る意図推定装置の動作を示すフローチャートである。実施の形態３に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。実施の形態３に係る意図推定装置の意図推定部の処理を示す図である。実施の形態３に係る意図推定装置の意図推定部の処理を示す図である。実施の形態３に係る意図推定装置の意図列推定部の処理を示す図である。実施の形態３に係る意図推定装置の意図列推定部の処理を示す図である。実施の形態４に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。実施の形態４に係る意図推定装置の意図推定部の処理を示す図である。実施の形態４に係る意図推定装置の意図列推定部の処理を示す図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。さらに以下では、ユーザが発するあるいは入力する言語に対応した、ユーザの希望する操作を「意図」と記す。
　図１は、実施の形態１に係る意図推定装置の構成を示すブロック図である。
　意図推定装置１０は、音声認識部１、形態素解析部２および意図列推定部３で構成されている。また意図列推定部３は、意図推定単位抽出部４、意図推定モデル蓄積部５、意図推定部６、意図階層グラフデータ蓄積部７および意図共起重み計算部８を備えている。

　音声認識部１は、意図推定装置１０に入力された入力音声に対して音声認識処理を行い、音声認識結果を返す。形態素解析部２は、音声認識結果を入力として形態素解析を行い、形態素解析結果を返す。意図推定単位抽出部４は、形態素解析結果から、意図推定の単位として分割すべき位置を推定して部分形態素に分割し、言語の構文的制約に基づいて意図推定単位を抽出する。意図推定モデル蓄積部５は、意図推定を行う際に参照される意図推定モデルを蓄積するデータベースである。意図推定部６は、意図推定モデル蓄積部５に蓄積された意図推定モデルを参照し、意図推定単位抽出部４が分割したそれぞれの意図推定単位に対して部分意図推定結果と部分スコアを出力する。

　意図階層グラフデータ蓄積部７は、意図列の妥当性を計算する際に参照される意図階層グラフデータを蓄積するデータベースである。意図共起重み計算部８は、意図階層グラフデータ蓄積部７に蓄積された意図階層グラフデータを参照し、意図推定部６が推定した部分意図推定結果の意図列に対する妥当性を示す意図共起重みを計算する。ここで、意図共起とは入力に対して意図が複数推定される場合を示し、意図共起重みとは推定された複数の意図についてそれぞれの妥当性を示した値である。意図列推定部３は、形態素解析部２から入力される形態素解析結果に対して、意図推定単位抽出部４、意図推定部６、および意図共起重み計算部８の出力結果に基づいて、意図列推定結果と最終スコアを取得し、入力音声に最も適した最終スコア付きの意図列推定結果を出力する。

　図２は、実施の形態１に係る意図推定装置の意図階層グラフデータ蓄積部７が蓄積する意図階層グラフデータの一例を示す図である。
　意図階層グラフデータは、意図ノード２１～２７、各意図ノード２１～２７の階層関係、および子ノードの意図共起重みを数値化して示した意図共起重み２８、２９が示されている。ここで、子ノードとは、例えば意図ノード２１の場合、当該意図ノード２１の一層下位に位置する意図ノード２２を示す。

　意図階層グラフデータは、基本的に仮想的な意図ノードを頂点とし、機能を階層化して示した構造となっており、下層に行くほどより具体的な意図を表している。図２の例では仮想的な「ｒｏｏｔ」の意図ノード２１を頂点とし、下層の意図ノード２３は「目的地設定［］」、さらに一層下層の意図ノード２４は「目的地設定［施設＝？］」、さらに一層下層の意図ノード２５は「目的地設定［施設＝＄施設＄］」となっている。意図ノード２３は目的地設定を行うが設定条件が何も決まっていない状態、意図ノード２４は施設の目名称を用いて目的地設定を行うが具体的な施設名称が決まっていない状態、意図ノード２５は具体的な施設名称が「＄施設＄」に割り当てられ、具体的な施設名で目的地設定を行う状態を表している。

　一方、意図ノード２６の「施設検索［施設＝＄施設＄］」から意図ノード２５の「目的地設定［施設＝＄施設＄］」へのグラフのパス２６ａ（以下グラフパスと称する）、および意図ノード２６の「施設検索［施設＝＄施設＄］」から意図ノード２７「経由地設定［施設＝＄施設＄］」へのグラフパス２６ｂは、想定するカーナビゲーションアプリケーションの機能を基に生成されるグラフパスである。意図ノード２６「施設検索［施設＝＄施設＄］」は、具体的施設「＄施設＄」を探索することのみを要求しており、一方意図ノード２５「目的地設定［施設＝＄施設＄］」へのグラフパス２６ａ、および意図ノード２７「経由地設定［施設＝＄施設＄］」へのグラフパス２６ｂは、アプリケーションとして最終的に目的地設定、経由地設定などの意図を選択する必要があることを示している。

　また、意図共起重み２８は「１．２」を示し、これは子ノード以下の意図が複数出現した場合の意図共起重みが「１．２」であることを示している。すなわち、共に複数の意図が出現しても問題なく、さらには共に複数の意図が出現する頻度が多いことを示している。一方、意図共起重み２９は「０．０」を示し、子ノード以下の意図が複数出現した場合の意図共起重みが「０．０」であることを示している。すなわち、共に複数の意図が出現しないことを示している。

　図３は、実施の形態１に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
　入力音声３１は、入力例としてユーザが「○○ドームに立ち寄ってから、××ランドに行きたい」と発話したことを示している。音声認識結果３２は、音声認識部１が入力音声３１を音声認識した結果である。具体的には、「○○ドームに立ち寄ってから△△ラジオを聞きたい」が音声認識スコア「０．６」で求められた音声認識結果例３３、および「○○ドームに立ち寄ってから、××ランドに行きたい」が音声認識スコア「０．４」で求められた音声認識結果例３４で構成されている。

　形態素解析結果３５は、形態素解析部２が音声認識結果３２を形態素解析した結果である。意図推定単位抽出結果３６、４０は、意図推定単位抽出部４が形態素解析結果３５から言語の構文的制約に基づいて意図推定単位を抽出した結果である。意図推定単位抽出結果３６では、３つの抽出パターン３７、３８、３９が示されている。図３に示すように言語が日本語の場合、自立語に付属語列が付くという性質から、文節が最小の意図推定単位となり、さらに前方の体言が後方の用言に係るという性質から複合する文節が意図推定単位として抽出される。抽出パターン３７、３８、３９で示した意図推定結果抽出単位は、ここで説明した係り受けの構造が成立するパターンのみを抽出したものである。

　その後、意図推定単位抽出結果３６、４０の各抽出パターンを参照して、意図推定部６が意図推定モデルを用いて各抽出パターンの部分意図の推定を行い、部分スコアを算出する。当該意図推定部６の具体的な処理結果を図４および図５に示す。
　図４および図５は、実施の形態１に係る意図推定装置の意図推定部６の処理を示す図である。より詳細には、図４は図３で示した意図推定単位抽出結果３６に基づく部分意図の推定を示し、図５は図３で示した意図推定単位抽出結果４０に基づく部分意図の推定を示している。

　なお、図４および図５では自立語の原型をタームとして抽出する場合について説明する。まず、図４を参照しながら部分意図の推定処理について説明する。
　ターム列４１は、意図推定単位抽出結果３６から生成される部分意図推定に用いるターム列を示しており、「○○ドーム／に」に対しては「＄施設＄＿１」、「立ち寄っ／て／から」に対しては「立ち寄る」、「××ラジオ／を」に対しては「＄ラジオ局＄＿１」、「聞き／たい」に対しては「聞く」が生成されることを示している。

　さらに図４では、ターム列４１に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図４の例では、図３で示した抽出パターン３７、３８、３９に基づいた抽出パターンＡ、Ｂ、Ｃ、Ｄおよび非抽出パターンＥ、Ｆ、Ｇを示している。実線矢印４２、４３、４４は、意図推定単位抽出部４が抽出した意図推定単位の範囲を示している。また、当該実線矢印４２、４３、４４の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印４５、４６は、意図推定単位抽出部４が抽出しなかった範囲を示している。当該点線矢印４５、４６の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列４１の下方に記載された分割点採用重み４７は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には１から当該分割点採用重み４７を引いた値をスコアに掛け合わせる数値である。

　次に、図５を参照しながら部分意図の推定処理について説明する。
　ターム列５１は、意図推定単位抽出結果４０から生成される部分意図推定に用いるターム列を示しており、「○○ドーム／に」に対しては「＄施設＄＿１」、「立ち寄っ／て／から」に対しては「立ち寄る」、「××ランド／へ」に対しては「＄施設＄＿２」、「行き／たい」に対しては「行く」が生成されることを示している。

　さらに図５では、ターム列５１に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図５の例では、図３で示した抽出パターンに基づいた抽出パターンＡ´、Ｂ´、Ｃ´、Ｄ´および非抽出パターンＥ´、Ｆ´、Ｇ´を示している。実線矢印５２、５３、５４は、意図推定単位抽出部４が抽出した意図推定単位の範囲を示している。また、当該矢印５２、５３、５４の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印５５、５６は、意図推定単位抽出部４が抽出しなかった範囲を示している。当該点線矢印５５、５６の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列５１の下方に記載された分割点採用重み５７は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には１から当該分割点採用重み５７を引いた値をスコアに掛け合わせる数値である。

　次に、意図列推定部３は、意図推定部６が推定した部分意図推定結果を用いて音声認識結果例３３、３４に対する部分意図推定結果の組み合わせを生成し、各組み合わせの最終スコアを算出する。意図列推定部３の具体的な処理結果を図６および図７に示す。
　図６および図７は、実施の形態１に係る意図推定装置の意図列推定部３の処理を示す図である。より詳細には、図６は図４で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示し、図７は図５で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
　最終スコアは、各意図推定単位の全ての連続する部分意図列に対する部分スコアを掛け合わせ、さらに意図推定単位の妥当性、および意図共起重み計算部８が算出した意図共起重みを掛け合わせて算出される。

　図６は音声認識結果例３３に対する最終スコアの算出例を示し、当該音声認識結果例３３の音声認識スコア６１が「０．６」と示されている。また部分スコア６２は、ターム列４１を用いた各抽出パターンにおける部分意図推定結果の部分スコアを示している。全体スコア６３は、部分意図推定結果の各部分スコアの積をとったものである。分割重み６４は、分割点を採用したか、あるいは不採用であったかに従って重みを計算したものである。分割重み６４の値は、意図分割の可能性を表す数字で、当該分割重み６４の値の総和を取ると「１．０」になる。分割重みスコア（意図列の尤もらしさを示すスコア）６５は、全体スコア６３と分割重み６４との積である。

　意図共起重み６６は、図２で示した意図階層グラフと部分意図列から求まる数値である。最終スコア６７は、分割重みスコア６５と、音声認識スコア６１と、意図共起重み６６とを掛け合わせた値である。抽出パターンＡの意図列６８は、音声認識結果例３３の意図列パターンとして全ての文節で分割した場合の最終スコアを記したものである。また、抽出パターンＢ＋Ｃの意図列６９は、重文構造の各文を一塊とした場合の最終スコアを記したものである。

　図７は、音声認識結果例３４に対する最終スコアの算出例を示し、当該音声認識結果例３４の音声認識スコア７１が「０．４」と示されている。また、ターム列５１、全体スコア７２、分割重み７３、分割重みスコア７４、意図共起重み７５および最終スコア７６は、図６で説明した構成と同一である。また、抽出パターンＢ´＋Ｃ´の意図列７７は、重文構造の各文を一塊とした場合の最終スコアを記したものである。

　図８は、実施の形態１に係る意図推定装置の動作を示すフローチャートである。
　音声認識部１は、入力音声の音声認識を行う（ステップＳＴ１）。形態素解析部２は、ステップＳＴ１で得られた音声認識結果に対して形態素解析を行う（ステップＳＴ２）。意図推定単位抽出部４は、ステップＳＴ２で得られた形態素解析結果である形態素列を部分形態素に分割し、意図を推定する単位である意図推定単位を全て抽出する（ステップＳＴ３）。意図推定部６は、ステップＳＴ３で抽出された全ての意図推定単位に対して部分意図推定を行い、部分意図推定結果および部分スコアを得る（ステップＳＴ４）。

　意図列推定部３は、ステップＳＴ４で得られた部分意図推定結果に基づいて、部分意図を連結して音声認識結果の全体に一致する意図列を生成し、生成した意図列の全体スコアを算出する（ステップＳＴ５）。また意図列推定部３は、ステップＳＴ５で生成した意図列の全体スコアに対して、意図共起重み計算部８が算出した意図共起重みおよび音声認識スコアを掛け合わせ、意図列に対する最終スコアを算出する（ステップＳＴ６）。さらに意図列推定部３は、ステップＳＴ６で算出した最終スコアを参照し、最も大きい最終スコアを有する意図列を、入力音声に最も適した意図列推定結果として出力し（ステップＳＴ７）、処理を終了する。

　次に、図２から図７で示した具体例を参照しながら、図８で示したフローチャートについて説明を行う。なお、以下では音声による入力が行われるものとして説明を行う。
　まず、音声による入力として図３で示した入力音声３１「○○ドームに立ち寄ってから××ランドに行きたい」が入力され、当該入力音声３１に対してステップＳＴ１として音声認識部１が音声認識を行い、音声認識結果３２が得られたものとする。音声認識結果３２は、音声認識結果例３３の「○○ドームに立ち寄ってから△△ラジオを聞きたい」がスコア０．６、音声認識結果例３４の「○○ドームに立ち寄ってから××ランドへ行きたい」がスコア０．４で得られたとする。当該音声認識結果例３３、３４は形態素解析部２に出力される。

　形態素解析部２は、ステップＳＴ２として既知の形態素解析手法に基づいて音声認識結果例３３、３４の形態素解析を行い、図３に示す形態素解析結果３５を生成する。図３の例では、形態素解析結果３５には表層の形態素と品詞および活用形を記載しているが、それ以外の詳細な品詞分類、形態素の原形、形態素の意味ラベルなどの情報が出力されてもよく、最低限形態素の原形は含まれているものとする。
　形態素解析結果３５は、２つの形態素解析結果例３６、４０で構成され、それぞれ意図推定単位抽出部４に出力される。

　意図推定単位抽出部４は、ステップＳＴ３として言語の構文的特徴に基づいて、形態素解析結果例３６、４０の全ての意図推定単位を抽出する。例えば、日本語の場合には、自立語に複数の付属語が連接して１つの文節という意味の塊をなすことから、形態素解析結果例３６の場合、まず、「○○ドーム（固有名詞)/に(助詞)」、「立ち寄っ(動詞:連用)/て(助詞)/から(助詞)」、「△△ラジオ（固有名詞：ラジオ局)/を(助詞)」、「聞き(動詞：連用)/たい(助動詞)」といった４つの文節が意図推定単位として抽出される。

　次に、構文的な制約として、体言は用言に係るという性質に基づき、かかり受け関係が成立する文節の組をひとつの意図推定単位として抽出する。さらに用言の連体形は後続の体言に係る、用言の連用形は後続の用言に係るという性質があるためこれに基づき意図推定単位の拡張を行う。これを繰り返すことにより、構文的に意味を持つ可能性がある形態素列が生成され、意図推定単位として抽出される。
　図３の意図推定単位抽出結果例３６で示した、抽出パターン３７は文節を単位とする形態素列の意図推定単位であり、抽出パターン３８は直後の用言に体言を接続させた２つの文節からなる意図推定単位であり、抽出パターン３９は抽出パターン３８の２つの文節をさらにまとめた意図推定単位である。

　ステップＳＴ３の意図推定単位の抽出処理が終了すると、意図推定部６はステップＳＴ４として各意図推定単位に対して意図推定に用いるタームを抽出した上で意図推定を行い、そのスコアを保持する。図４で示したターム列４１は、各意図推定と意図推定に用いるタームを示している。
　タームは、（１）形態素を単独のタームとして使う方法、（２）自立語形態素を単独のタームとして使う方法、（３）形態素を単独およびｎ個の連鎖をタームとして使う方法、（４）形態素を単独およびそれに付随する付属の意味シンボル連鎖をタームとして使う方法などが考えられるが、本実施の形態１では、簡単のため自立語形態素の原形を抽出するものとして説明を進める。また、「○○ドーム」、「××ランド」、「△△ラジオ」や住所、施設ジャンル名、ブランド名などのタームは多様なタームが現れるため、そのままでは意図推定モデルの構築が困難なため、上位概念によるシンボルの共通化をして、「＄施設＄」、「＄住所＄」、「＄ラジオ局＄」、「＄ジャンル名＄」、「＄ブランド名＄」などのタームを用いる。

　例えば、図４の抽出パターンＢの実線矢印４２で示した意図推定単位は、「○○ドームに立ち寄ってから」に対して、「＄施設＄＿１」、「立ち寄る」の２つのタームが意図推定タームとして渡されることを示しており、その部分意図推定結果として「経由地設定［施設＝＄施設＄＿１］」が部分スコア「０．９５」で意図推定されたことを示している。
　図４の実線矢印４２、４３、４４はステップＳＴ３で抽出した意図推定単位に対する部分意図推定結果を示し、点線矢印４５、４６はステップＳＴ３で抽出されなかった意図推定単位に対する部分意図推定結果を示し、音声認識結果例３３全体をカバーする意図推定単位に関する部分意図推定結果である。点線矢印４５、４６で示した意図推定単位の部分意図推定結果を算出した理由は、入力音声が必ずしも文法的に正しい構文を構成するものだけではない可能性が存在するためである。特に、入力音声が音声認識される場合には、ユーザの発話が助詞や助動詞を十分に用いない形で行われることも多く、構文的に厳密な入力を想定すると、意図推定単位に漏れが生じる可能性がある。さらに、音声認識結果に認識誤りが含まれる可能性もあり、全ての可能性を評価した上で最適と考えられる意図列を選択する方が好ましい。

　各意図推定単位の部分意図推定結果が求められると、意図列推定部３はステップＳＴ５として意図推定単位を用いて音声認識結果例３３の全体に一致する意図列を生成し、全体スコアを計算する。図６は図５で示した抽出パターンＡ、Ｂ、Ｃ、Ｄおよび非抽出パターンＥ、Ｆ、Ｇを組み合わせて音声認識結果例３３の全体に一致する意図列を生成し、生成した意図列の部分スコア６２を表している。部分スコア６２において領域Ｏは、図４において実線で記した部分意図の部分スコアに該当する。また領域Ｐは構文的に正当性が低く図４において点線で記した部分意図の部分スコアに該当する。当該領域Ｐにおいて、本実施の形態１では、意図推定部分ペナルティとして「０．９」を部分意図推定結果の部分スコアに対して掛け合わせることとする。また、各抽出パターンにおいて部分意図の部分スコアを全て掛け合わせることにより全体スコア６３が算出される。

　また、図６で示した各抽出パターンにおける分割重み６４は、図４で示した分割採用重み４７に基づいて以下のように計算される。
　意図列６８の場合：
　　０．４×０．６×０．４＝０．０９６
　抽出パターンＡの場合、全ての分割点が使われているため、各点の分割採用重み４７を掛け合わせる。
　意図列６９の場合：
　　（１．０－０．４）×０．６×（１．０－０．４）＝０．２１６
　抽出パターンＢ＋Ｃの場合、２番目の分割点のみ使われているため、２番目の点以外は１．０からの分割採用重み４７を引いたものを掛け合わせる。

　上述のように算出された分割重み６４を用いて、分割重みスコア６５が「（全体スコア６３）×（分割重み６４）」として算出される。算出された分割重みスコア６５を参照すると、音声認識結果例３３の意図理解結果として、抽出パターンＢ＋Ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」が、最も高い分割重みスコア「０．１９７」として求まる。一方、音声認識結果例３４についても同様に、図７に示すように意図理解結果として、抽出パターンＢ´＋Ｃ´で示した「経由地設定［施設＝＄施設＄＿１］、目的地設定［施設＝＄施設＄＿２］」が最も高い分割重みスコア「０．１９５」として求まる。

　従来であれば、当該抽出パターンＢ＋Ｃと抽出パターンＢ´＋Ｃ´の意図理解結果である分割重みスコアにおいて、より高いスコアを取る抽出パターンＢ＋Ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」が入力音声３１に対する意図推定結果と算出される。
　さらに、評価の方法として、音声認識スコア６１、７１に対して分割重みスコア６５、７４を積算したものを最終スコアとする方法も考えられるが、音声認識スコア６１と音声認識スコア７１とを比較すると音声認識結果例３３の音声認識スコア６１の方が高い値であるため、いずれの場合も抽出パターンＢ＋Ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」が最終的な意図推定結果となる。これは、意図間の関係を考慮した条件が存在しないために、音声認識結果が最優先で評価されて起こる。

　そこで、この実施の形態１の意図推定装置１０では、ステップＳＴ６として意図列推定部３が意図の妥当性を評価するために、例えば以下に示す計算を行った結果を意図共起重み６６、７５とし、分割重みスコア６５、７４に積算する。
（１）連続する２つの意図を順番に抽出し、２つの意図の関係を計算する。
　　（ａ）２つの意図の上位・下位の関係がある場合は一定の重み（たとえば、０．７）
　　（ｂ）２つの意図が共通の上位意図を持つ場合、そのノードに付与された重み
（２）（１）で求めた重みの積を最終的な重み、すなわち最終スコア６７、７６とする。
　上述した（１）による計算では、標準的な意図連鎖関係には１．０を与え、より密接な意図連鎖関係には１．０より大きい値を与え、矛盾するような意図連鎖関係には１．０より小さい値を与えることで、加点、減点を行うことになる。

　例えば、抽出パターンＢ＋Ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」の場合、共通する上位意図は図２で示したノード２１の「ｒｏｏｔ」となるため、当該ノード２１に付与された意図共起重みは「０．５」となる。この処理を全ての意図列に対して計算すると図６および図７で示した意図共起重み６６、７５のようになる。このように算出された意図共起重みを用いて最終スコアは以下の式に基づいて計算される。
　（最終スコア）＝（分割重みスコア）×（意図共起重み）×（音声認識スコア）
　最終スコア６７、７６の算出結果を参照すると、最も高い最終スコアを有するのは抽出パターンＢ´＋Ｃ´で示した意図列７７となり、ステップＳＴ７として当該意図列７７がユーザの入力音声３１に最も適した意図列推定結果として出力される。

　以上のように、この実施の形態１によれば、意図間の関係を示す意図共起重みを計算する意図共起重み計算部８と、分割重みスコアを算出し、算出した分割重みスコアに意図共起重みおよび音声認識スコアを積算する意図列推定部３を備えるように構成したので、意図間の関係を考慮して、入力音声に最も適した意図列推定結果を出力することができる。そのため、複数の意図を含む入力が行われた場合であっても、意図間の関係に基づいて最適な意図列を生成し、意図列推定結果として出力することができる。

実施の形態２．
　実施の形態２では、ユーザが発話の省略を行った場合にも適切な意図列推定結果を得る構成を示す。
　図９は、実施の形態２に係る意図推定装置の構成を示すブロック図である。
　図１で示した実施の形態１の意図推定装置１０に意図列変換テーブル蓄積部１１および意図列変換部１２を追加して設けている。なお以下では、実施の形態１による意図推定装置１０の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

　意図列変換テーブル蓄積部１１は、意図推定結果と置換意図列との関係を記載したデータを意図列変換テーブルとして蓄積している。意図列変換テーブルは、意図推定結果で示された意図の連続に対して置き換える置換意図列を示したルールを保持するものであり、当該ルールに一致する意図列が出現したか否か判断する場合、および置き換える意図列を取得する場合に参照される。
　意図列変換部１２は、意図列変換テーブル蓄積部１１に蓄積された意図列変換テーブルを参照して、意図推定部６が推定した部分意図推定結果と一致する意図列が存在するか否か順番にチェックを行い、一致する意図列が存在する場合にはルールに従って当該意図列の変換を行う。

　図１０は、実施の形態２に係る意図推定装置の意図列変換テーブル蓄積部１１が蓄積する意図列変換テーブルの一例を示す図である。
　意図列変換テーブルは複数の意図列変換ルールで構成され、図１０の例では３つの意図列変換ルール８１、８２、８３を示している。意図列変換ルールは、左辺の意図列に一致する部分意図推定結果が出現した場合には、当該部分意図推定結果を右辺の意図列に置き換えることを示している。
　位置変換テーブルに記載される意図列変換ルールは基本的には、発話中の省略や意味的な変換が前後の関係から明らかな場合の経験則によるルールである。例えば、意図列変換ルール８１の入力文例はその典型的な発話例を表したもので、入力文例の後段の「＄施設＄＿Ｙ」に相当する発話は文脈から目的地を示唆しているため、変換前の「地点検索（施設検索）」の意図を「目的地設定」に置き換えることを示している。

　図１１は、実施の形態２に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
　図１１では入力音声として「○○ドームに立ち寄ってから××ランド」という発話が入力された場合の音声認識結果から意図推定単位を抽出するまでの例を示す。
　音声認識結果９１は、音声認識部１が入力音声３１を音声認識した結果である。具体的には、「○○ドームに立ち寄ってから××ランド」がスコア「０．７」で求められた音声認識結果例が示されており、発話の通りの認識が行われたことを示している。形態素解析結果９２は、形態素解析部２が音声認識結果９１を形態素解析した結果である。意図推定単位抽出結果９３は、意図推定単位抽出部４が形態素解析結果９２に対して意図推定単位を抽出した結果である。意図推定単位抽出結果９３では、３つの抽出パターン９３ａ、９３ｂ、９３ｃが示されている。

　図１２は、実施の形態２に係る意図推定装置の意図推定部６の処理を示す図である。より詳細には、図１１で示した意図推定単位抽出結果９３に基づく部分意図の推定を示している。
　ターム列９４は、意図推定単位抽出結果９３から生成される部分意図推定に用いるターム列を示している。また、抽出パターン９３ａ、９３ｂ、９３ｃに基づいた抽出パターンＨ、Ｉ、Ｊおよび非抽出パターンＫを示している。実線矢印９５および部分スコア９６は、各意図推定単位に対して意図推定した結果例である。点線矢印および分割点採用重みの構成は実施の形態１と同様である。

　図１３は、実施の形態２に係る意図推定装置の意図列推定部３の処理を示す図である。より詳細には、図１２で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
　音声認識結果９１に対して、部分意図推定結果の組み合わせにより最終スコアを計算した例であり、実施の形態１と同様に部分スコア１０１、音声認識スコア１０２、全体スコア１０３、分割重み１０４、分割重みスコア１０５、意図共起重み１０６および最終スコア１０７が示されている。意図列１０８は、全ての分割パターンに対して最適な意図推定結果を示す意図列を示している。

　図１４は、実施の形態２に係る意図推定装置の動作を示すフローチャートである。なお、以下では実施の形態１に係る意図推定装置１０と同一のステップには図８で使用した符号と同一の符号を付し、説明を省略または簡略化する。
　ステップＳＴ５において、音声認識結果の全体に一致する意図列を生成して全体スコアを算出すると、意図列変換部１２は生成された意図列の部分意図列の中から意図列変換テーブル蓄積部１１に蓄積された意図列変換ルールに一致する分割パターンを検索し、一致する分割パターンが存在する場合には、当該意図列を意図列変換ルールに基づいて変換する（ステップＳＴ１１）。

　その後、意図列推定部３はステップＳＴ１１で変換した意図列あるいは変換しなかった意図列の全体スコアに対して、意図共起重み計算部８が算出した意図共起重みおよび音声認識スコアを掛け合わせ、意図列に対する最終スコアを算出する（ステップＳＴ６）。さらに意図列推定部３は、ステップＳＴ１６で算出した最終スコアを参照し、最も大きい最終スコアを有する意図列を、入力音声に最も適した意図列推定結果として出力し（ステップＳＴ７）、処理を終了する。

　次に、図１１から図１３で示した具体例を参照しながら、図１４で示したフローチャートについて説明を行う。また、実施の形態１と同様に音声による入力が行われるものとして説明を行う。
　まず、音声による入力として「○○ドームに立ち寄ってから××ランド」が入力され、ステップＳＴ１として図１１に示す音声認識結果９１がスコア０．７で得られたとする。音声認識結果９１以外の認識結果が生成されることも予想されるが、実施の形態２の発明のポイントには影響を与えないため説明を省略する。音声認識結果９１が生成されると、ステップＳＴ２の形態素解析およびステップＳＴ３の意図推定単位の抽出が行われ、図１１に示す意図推定単位抽出結果９３が得られる。

　続いて、意図推定部６はステップＳＴ４として図１２に示すターム列９４を抽出した上で、部分意図推定結果および部分スコアを算出する。次に、意図列推定部３は、ステップＳＴ５として意図列推定単位を用いて音声認識結果９１の全体に一致する意図列を生成し、全体スコアを計算する。これにより、図１３で示した抽出パターン、当該抽出パターンンに応じた部分スコア、および部分スコアに基づいた全体スコアが得られる。

　次に、意図列変換部１２は、ステップＳＴ１１として部分意図列の中から、図１０で示した意図列変換ルールに一致する置換パターンを検索し、一致する置換パターンが存在した場合には該当する意図列を意図列変換ルールに従って変換する。
　具体的には、図１３で示した意図列１０８の場合、抽出パターンＩの部分意図列および抽出パターンＨの部分意図列で構成され、当該意図列１０８は図１０で示した意図列変換ルール８１に一致するため、以下のように変換される。
　変換前：経由地設定［施設＝＄施設＄＿１］、施設検索［施設＝＄施設＄＿２］
　変換後：経由地設定［施設＝＄施設＄＿１］、目的地設定［施設＝＄施設＄＿２］

　次に、ステップＳＴ６として意図列推定部３が分割重みスコア１０５を算出し、当該分割重みスコア１０５に意図共起重み計算部８が計算した意図共起重み１０６および音声認識スコアを積算し、最終スコア１０７を算出する。最後に、意図列推定部３はステップＳＴ７として最終スコア１０７が最大である意図列１０８の「経由地設定［施設＝＄施設＄＿１］、目的地設定［施設＝＄施設＄＿２］」がユーザの入力音声に最も適した意図列推定結果であるとして出力する。

　以上のように、この実施の形態２によれば、意図列の置換パターンを示した意図列変換テーブルを蓄積した意図列変換テーブル蓄積部１１と、当該意図列変換テーブル蓄積部１１に蓄積された意図変換テーブルを参照して該当する意図列が出現した場合に置換パターンに従って意図列を置き換える意図列変換部１２とを備えるように構成したので、ユーザの発話において省略が行われた場合であっても、ユーザの入力音声に最も適した意図列推定結果を得ることができる。

実施の形態３．
　上述した実施の形態１では使用言語を日本語として説明を行ったが、この実施の形態３では使用言語を英語として説明する。なお、以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。
　また、以下の説明では、実施の形態１で示した意図推定装置（図１参照）を用いて説明を行う。また、意図推定装置１０の意図階層グラフデータ蓄積部７は図２で示した意図階層グラフデータを蓄積するものとする。さらに、図８で示したフローチャートに基づいて意図推定処理を行うものとして説明を行う。

　図１５は、実施の形態３に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
　入力音声１１１は、入力例としてユーザが「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ，　ｔｈｅｎ　ｄｒｉｖｅ　ｔｏ　××　Ｌａｎｄ」と発話したことを示している。音声認識結果１１２は、音声認識部１が入力音声１１１を音声認識した結果である。具体的には、「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ，　ｔｈｅｎ　ｌｉｓｔｅｎ　ｔｏ　ｔｈｅ　△△　Ｒａｄｉｏ」が音声認識スコア「０．６」で求められた音声認識結果例１１３、および「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ，　ｔｈｅｎ　ｄｒｉｖｅ　ｔｏ　××　Ｌａｎｄ」が音声認識スコア「０．４」で求められた音声認識結果例１１４で構成されている。

　形態素解析結果１１５は、形態素解析部２が音声認識結果１１２を形態素解析した結果である。意図推定単位抽出結果１１６、１２０は、意図推定単位抽出部４が形態素解析結果１１５から言語の構文的制約に基づいて意図推定単位を抽出した結果である。意図推定単位抽出結果１１６では、３つの抽出パターン１１７、１１８、１１９が示されている。図１５に示すように言語が英語の場合、名詞、動詞、形容詞などの単語を意図推定単位として抽出する。抽出パターン１１７、１１８、１１９で示した意図推定結果抽出単位は、ここで説明した係り受けの構造が成立するパターンのみを抽出したものである。

　その後、意図推定単位抽出結果１１６、１２０の各抽出パターンを参照して、意図推定部６が意図推定モデルを用いて各抽出パターンの部分意図の推定を行い、部分スコアを算出する。当該意図推定部６の具体的な処理結果を図１６および図１７に示す。
　図１６および図１７は、実施の形態３に係る意図推定装置の意図推定部６の処理を示す図である。より詳細には、図１６は図１５で示した意図推定単位抽出結果１１６に基づく部分意図の推定を示し、図１７は図１５で示した意図推定単位抽出結果１２０に基づく部分意図の推定を示している。

　なお、図１６および図１７では単語の原形をタームとして抽出する場合について説明する。まず、図１６を参照しながら部分意図の推定処理について説明する。
　ターム列１２１は、意図推定単位抽出結果１１６から生成される部分意図推定に用いるターム列を示しており、「○○　Ｄｏｍｅ」に対しては「＄施設＄＿１」、「Ｓｔｏｐ　ａｔ」に対しては「ｓｔｏｐ」、「ｔｈｅ　△△　Ｒａｄｉｏ」に対しては「＄ラジオ局＄＿１」、「ｌｉｓｔｅｎ　ｔｏ」に対しては「ｌｉｓｔｅｎ」が生成されることを示している。

　さらに図１６では、ターム列１２１に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図１６の例では、図１５で示した抽出パターン１１７、１１８、１１９に基づいた抽出パターンａ、ｂ、ｃ、ｄおよび非抽出パターンｅ、ｆ、ｇを示している。実線矢印１２２、１２３、１２４は、意図推定単位抽出部４が抽出した意図推定単位の範囲を示している。また、当該実線矢印１２２、１２３、１２４の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印１２５、１２６は、意図推定単位抽出部４が抽出しなかった範囲を示している。当該点線矢印１２５、１２６の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列１２１の下方に記載された分割点採用重み１２７は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には１から当該分割点採用重み１２７を引いた値をスコアに掛け合わせる数値である。

　次に、図１７を参照しながら部分意図の推定処理について説明する。
　ターム列１３１は、意図推定単位抽出結果１２０から生成される部分意図推定に用いるターム列を示しており、「○○　Ｄｏｍｅ」に対しては「＄施設＄＿１」、「Ｓｔｏｐ　ａｔ」に対しては「Ｓｔｏｐ」、「××　Ｌａｎｄ」に対しては「＄施設＄＿２」、「ｄｒｉｖｅ　ｔｏ」に対しては「ｄｒｉｖｅ」が生成されることを示している。

　さらに図１７では、ターム列１３１に対して、分割採用重みおよび複数の抽出パターンを示している。抽出パターンとして図１７の例では、図１５で示した抽出パターンに基づいた抽出パターンａ´、ｂ´、ｃ´、ｄ´および非抽出パターンｅ´、ｆ´、ｇ´を示している。実線矢印１３２、１３３、１３４は、意図推定単位抽出部４が抽出した意図推定単位の範囲を示している。また、当該矢印１３２、１３３、１３４の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが示されている。また、点線矢印１３５、１３６は、意図推定単位抽出部４が抽出しなかった範囲を示している。当該点線矢印１３５、１３６の下方には意図推定部６が推定した結果の部分意図、および当該推定した部分意図の部分スコアが記載されている。さらにターム列１３１の下方に記載された分割点採用重み１３７は、各指定位置が意図推定単位の分割点として採用された場合にスコアに掛け合わせる数値であり、一方各指定位置が意図推定単位の分割点として採用されなかった場合には１から当該分割点採用重み１３７を引いた値をスコアに掛け合わせる数値である。

　次に、意図列推定部３は、意図推定部６が推定した部分意図推定結果を用いて音声認識結果例１１３、１１４に対する部分意図推定結果の組み合わせを生成し、各組み合わせの最終スコアを算出する。意図列推定部３の具体的な処理結果を図１８および図１９に示す。
　図１８および図１９は、実施の形態３に係る意図推定装置の意図列推定部３の処理を示す図である。より詳細には、図１８は図１６で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示し、図１９は図１７で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
　最終スコアは、各意図推定単位の全ての連続する部分意図列に対する部分スコアを掛け合わせ、さらに意図推定単位の妥当性、および意図共起重み計算部８が算出した意図共起重みを掛け合わせて算出される。

　図１８は音声認識結果例１１３に対する最終スコアの算出例を示し、当該音声認識結果例１１３の音声認識スコア１４１が「０．６」と示されている。また部分スコア１４２は、ターム列１２１を用いた各抽出パターンにおける部分意図推定結果の部分スコアを示している。全体スコア１４３は、部分意図推定結果の各部分スコアの積をとったものである。分割重み１４４は、分割点を採用したか、あるいは不採用であったかに従って重みを計算したものである。分割重み１４４の値は、意図分割の可能性を表す数字で、当該分割重み１４４の値の総和を取ると「１．０」になる。分割重みスコア（意図列の尤もらしさを示すスコア）１４５は、全体スコア１４３と分割重み１４４との積である。

　意図共起重み１４６は、図２で示した意図階層グラフと部分意図列から求まる数値である。最終スコア１４７は、分割重みスコア１４５と、音声認識スコア１４１と、意図共起重み１４６とを掛け合わせた値である。抽出パターンａの意図列１４８は、音声認識結果例１１３の意図列パターンとして全ての文節で分割した場合の最終スコアを記したものである。また、抽出パターンｂ＋ｃの意図列１４９は、重文構造の各文を一塊とした場合の最終スコアを記したものである。

　図１９は、音声認識結果例１１４に対する最終スコアの算出例を示し、当該音声認識結果例１１４の音声認識スコア１５１が「０．４」と示されている。また、ターム列１３１、全体スコア１５２、分割重み１５３、分割重みスコア１５４、意図共起重み１５５および最終スコア１５６は、図１８で説明した構成と同一である。また、抽出パターンｂ´＋ｃ´の意図列１５７は、重文構造の各文を一塊とした場合の最終スコアを記したものである。

　次に、実施の形態３の意図推定装置の動作について説明する。なお、実施の形態３の意図推定装置の動作を示すフローチャートは実施の形態１の図８で示したフローチャートと同一である。そこで、図２および図１５からから図１９で示した具体例を参照しながら、実施の形態１の図８で示したフローチャートについて説明を行う。なお、以下では音声による入力が行われるものとして説明を行う。
　まず、音声による入力として図１５で示した入力音声１１１「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ，　ｔｈｅｎ　ｄｒｉｖｅ　ｔｏ　××　Ｌａｎｄ」が入力され、当該入力音声１１１に対してステップＳＴ１として音声認識部１が音声認識を行い、音声認識結果１１２が得られたものとする。音声認識結果１１２は、音声認識結果例１１３の「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ，　ｔｈｅｎ　ｌｉｓｔｅｎ　ｔｏ　ｔｈｅ　△△　Ｒａｄｉｏ」がスコア０．６、音声認識結果例１１４の「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ，　ｔｈｅｎ　ｄｒｉｖｅ　ｔｏ　××　Ｌａｎｄ」がスコア０．４で得られたとする。当該音声認識結果例１１３、１１４は形態素解析部２に出力される。

　形態素解析部２は、ステップＳＴ２として既知の形態素解析手法に基づいて音声認識結果例１１３、１１４の形態素解析を行い、図１５に示す形態素解析結果１１５を生成する。図１５の例では、形態素解析結果１１５には表層の形態素と品詞および活用形を記載しているが、それ以外の詳細な品詞分類、形態素の原形、形態素の意味ラベルなどの情報が出力されてもよく、最低限形態素の原形は含まれているものとする。
　形態素解析結果１１５は、２つの形態素解析結果例１１６、１２０で構成され、それぞれ意図推定単位抽出部４に出力される。

　意図推定単位抽出部４は、ステップＳＴ３として言語の構文的特徴に基づいて、形態素解析結果例１１６、１２０の全ての意図推定単位を抽出する。例えば、英語の形態素解析結果例１１６の場合、まず、「ｓｔｏｐ（ｖ）／ａｔ（ｐｒｅｐ）」、「○○　Ｄｏｍｅ（ｎ：ＰＯＩ）」、「ｔｈｅｎ（ａｄｖ）／ｄｒｉｖｅ（ｖ）／ｔｏ（ｐｒｅｐ）」、「ｔｈｅ（ａｒｔ）／　△△　Ｒａｄｉｏ（ｎ：ｒａｄｉｏ　ｓｔａｔｉｏｎ）」といった４つの文節が意図推定単位として抽出される。

　次に、構文的な制約として、体言は用言に係るという性質に基づき、かかり受け関係が成立する文節の組をひとつの意図推定単位として抽出する。さらに用言の連体形は後続の体言に係る、用言の連用形は後続の用言に係るという性質があるためこれに基づき意図推定単位の拡張を行う。これを繰り返すことにより、構文的に意味を持つ可能性がある形態素列が生成され、意図推定単位として抽出される。
　図１５の意図推定単位抽出結果例１１６で示した、抽出パターン１１７は文節を単位とする形態素列の意図推定単位であり、抽出パターン１１８は直前の動詞に名詞を接続させた２つの文節からなる意図推定単位であり、抽出パターン１１９は抽出パターン１１８の２つの文節をさらにまとめた意図推定単位である。

　ステップＳＴ３の意図推定単位の抽出処理が終了すると、意図推定部６はステップＳＴ４として各意図推定単位に対して意図推定に用いるタームを抽出した上で意図推定を行い、そのスコアを保持する。図１６で示したターム列１２１は、各意図推定と意図推定に用いるタームを示している。
　タームは、（１）形態素を単独のタームとして使う方法、（２）名詞、動詞、形容詞などの限定された単語を単独のタームとして使う方法、（３）形態素を単独およびｎ個の連鎖をタームとして使う方法、（４）形態素を単独およびそれに付随する付属の意味シンボル連鎖をタームとして使う方法などが考えられるが、本実施の形態３では、簡単のため名詞、動詞、形容詞などの限定された単語の原形を抽出するものとして説明を進める。ただし、施設や住所などの名詞は、複数の単語列で１つの塊とみなす。また、「○○　Ｄｏｍｅ」、「××　Ｌａｎｄ」、「△△　Ｒａｄｉｏ」や住所、施設ジャンル名、ブランド名などのタームは多様なタームが現れるため、そのままでは意図推定モデルの構築が困難なため、上位概念によるシンボルの共通化をとして、「＄施設＄」、「＄住所＄」、「＄ラジオ局＄」、「＄ジャンル名＄」、「＄ブランド名＄」などのタームを用いる。

　例えば、図１６の抽出パターンｂの実線矢印１２２で示した意図推定単位は、「ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ」に対して、「ｓｔｏｐ」、「＄施設＄＿１」の２つのタームが意図推定タームとして渡されることを示しており、その部分意図推定結果として「経由地設定［施設＝＄施設＄＿１］」が部分スコア「０．９５」で意図推定されたことを示している。
　図１６の実線矢印１２２、１２３、１２４はステップＳＴ３で抽出した意図推定単位に対する部分意図推定結果を示し、点線矢印１２５、１２６はステップＳＴ３で抽出されなかった意図推定単位に対する部分意図推定結果を示し、音声認識結果例１１３全体をカバーする意図推定単位に関する部分意図推定結果である。ここで、点線矢印１２５、１２６で示した意図推定単位の部分意図推定結果を算出した理由は、入力音声が必ずしも文法的に正しい構文を構成するものだけではない可能性が存在するためである。特に、入力音声が音声認識される場合には、ユーザの発話が冠詞や前置詞を十分に用いない形で行われることも多く、構文的に厳密な入力を想定すると、意図推定単位に漏れが生じる可能性がある。さらに、音声認識結果に認識誤りが含まれる可能性もあり、全ての可能性を評価した上で最適と考えられる意図列を選択する方が好ましい。

　各意図推定単位の部分意図推定結果が求められると、意図列推定部３はステップＳＴ５として意図推定単位を用いて音声認識結果例１１３，１１４の全体に一致する意図列を生成し、全体スコアを計算する。図１８は図１６で示した抽出パターンａ、ｂ、ｃ、ｄおよび非抽出パターンｅ、ｆ、ｇを組み合わせて音声認識結果例１１３の全体に一致する意図列を生成し、生成した意図列の部分スコア１４２を表している。部分スコア１４２において領域Ｏは、図１６において実線で記した部分意図の部分スコアに該当する。また領域Ｐは構文的に正当性が低く図１６において点線で記した部分意図の部分スコアに該当する。当該領域Ｐにおいて、本実施の形態１では、意図推定部分ペナルティとして「０．９」を部分意図推定結果の部分スコアに対して掛け合わせることとする。また、各抽出パターンにおいて部分意図の部分スコアを全て掛け合わせることにより全体スコア１４３が算出される。

　また、図１８で示した各抽出パターンにおける分割重み１４４は、図１６で示した分割採用重み１２７に基づいて以下のように計算される。
　意図列１４８の場合：
　　０．４×０．６×０．４＝０．０９６
　抽出パターンａの場合、全ての分割点が使われているため、各点の分割採用重み１２７を掛け合わせる。
　意図列１４９の場合：
　　（１．０－０．４）×０．６×（１．０－０．４）＝０．２１６
　抽出パターンｂ＋ｃの場合、２番目の分割点のみ使われているため、２番目の点以外は１．０からの分割採用重み１２７を引いたものを掛け合わせる。

　上述のように算出された分割重み１４４を用いて、分割重みスコア１４５が「（全体スコア１４３）×（分割重み１４４）」として算出される。算出された分割重みスコア１４５を参照すると、音声認識結果例１１３の意図理解結果として、抽出パターンｂ＋ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」が、最も高い分割重みスコア「０．１９７」として求まる。一方、音声認識結果例１１４についても同様に、図１９に示すように意図理解結果として、抽出パターンｂ´＋ｃ´で示した「経由地設定［施設＝＄施設＄＿１］、目的地設定［施設＝＄施設＄＿２］」が最も高い分割重みスコア「０．１９５」として求まる。

　従来であれば、当該抽出パターンｂ＋ｃと抽出パターンｂ´＋ｃ´の意図理解結果である分割重みスコアにおいて、より高いスコアを取る抽出パターンｂ＋ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」が入力音声１１１に対する意図推定結果と算出される。
　さらに、評価の方法として、音声認識スコア１４１、１５１に対して分割重みスコア１４５、１５４を積算したものを最終スコアとする方法も考えられるが、音声認識スコア１４１と音声認識スコア１５１とを比較すると音声認識結果例１１３の音声認識スコア１４１の方が高い値であるため、いずれの場合も抽出パターンｂ＋ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」が最終的な意図推定結果となる。これは、意図間の関係を考慮した条件が存在しないために、音声認識結果が最優先で評価されて起こる。

　そこで、この実施の形態３の意図推定装置１０では、ステップＳＴ６として意図列推定部３が意図の妥当性を評価するために、例えば以下に示す計算を行った結果を意図共起重み１４６、１５５とし、分割重みスコア１４５、１５４に積算する。
（１）連続する２つの意図を順番に抽出し、２つの意図の関係を計算する。
　　（ａ）２つの意図の上位・下位の関係がある場合は一定の重み（たとえば、０．７）
　　（ｂ）２つの意図が共通の上位意図を持つ場合、そのノードに付与された重み
（２）（１）で求めた重みの積を最終的な重み、すなわち最終スコア１４７、１５６とする。
　上述した（１）による計算では、標準的な意図連鎖関係には１．０を与え、より密接な意図連鎖関係には１．０より大きい値を与え、矛盾するような意図連鎖関係には１．０より小さい値を与えることで、加点、減点を行うことになる。

　例えば、抽出パターンｂ＋ｃで示した「経由地設定［施設＝＄施設＄＿１］、ラジオ再生［対象＝＄ラジオ局＄＿１］」の場合、共通する上位意図は図２で示したノード２１の「ｒｏｏｔ」となるため、当該ノード２１に付与された意図共起重みは「０．５」となる。この処理を全ての意図列に対して計算すると図１８および図１９で示した意図共起重み１４６、１５５のようになる。このように算出された意図共起重みを用いて最終スコアは以下の式に基づいて計算される。
　（最終スコア）＝（分割重みスコア）×（意図共起重み）×（音声認識スコア）
　最終スコア１４７、１５６の算出結果を参照すると、最も高い最終スコアを有するのは抽出パターンｂ´＋ｃ´で示した意図列１５７となり、ステップＳＴ７として当該意図列１５７がユーザの入力音声１１１に最も適した意図列推定結果として出力される。

　以上のように、この実施の形態３によれば、意図間の関係を示す意図共起重みを計算する意図共起重み計算部８と、分割重みスコアを算出し、算出した分割重みスコアに意図共起重みおよび音声認識スコアを積算する意図列推定部３を備えるように構成したので、意図間の関係を考慮して、入力音声に最も適した意図列推定結果を出力することができる。そのため、複数の意図を含む入力が行われた場合であっても、意図間の関係に基づいて最適な意図列を生成し、意図列推定結果として出力することができる。

実施の形態４．
　上述した実施の形態２では使用言語を日本語として説明を行ったが、この実施の形態４では使用言語を英語として説明する。なお、以下ではナビゲーションシステムに適用される意図推定装置を例に説明を行う。
　また、以下の説明では、実施の形態２で示した意図推定装置（図９参照）を用いて説明を行う。また、意図推定装置１０の意図列変換テーブル蓄積部１１は図１０で示した意図列変換テーブルを蓄積するものとする。さらに、図１４で示したフローチャートに基づいて意図推定処理を行うものとして説明を行う。

　図２０は、実施の形態４に係る意図推定装置の入力音声から意図推定単位を抽出する処理の具体例を示す図である。
　図２０では入力音声として「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ　ｔｈｅｎ　××　Ｌａｎｄ」という発話が入力された場合の音声認識結果から意図推定単位を抽出するまでの例を示す。
　音声認識結果１６１は、音声認識部１が入力音声３１を音声認識した結果である。具体的には、「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ　ｔｈｅｎ　××　Ｌａｎｄ」がスコア「０．７」で求められた音声認識結果例が示されており、発話の通りの認識が行われたことを示している。形態素解析結果１６２は、形態素解析部２が音声認識結果１６１を形態素解析した結果である。意図推定単位抽出結果１６３は、意図推定単位抽出部４が形態素解析結果１６２に対して意図推定単位を抽出した結果である。意図推定単位抽出結果１６３では、３つの抽出パターン１６３ａ、１６３ｂ、１６３ｃが示されている。

　図２１は、実施の形態４に係る意図推定装置の意図推定部６の処理を示す図である。より詳細には、図２０で示した意図推定単位抽出結果１６３に基づく部分意図の推定を示している。
　ターム列１６４は、意図推定単位抽出結果１６３から生成される部分意図推定に用いるターム列を示している。また、抽出パターン１６３ａ、１６３ｂ、１６３ｃに基づいた抽出パターンｈ、ｉ、ｊおよび非抽出パターンｋを示している。実線矢印１６５および部分スコア１６６は、各意図推定単位に対して意図推定した結果例である。点線矢印および分割点採用重みの構成は実施の形態３と同様である。

　図２２は、実施の形態４に係る意図推定装置の意図列推定部３の処理を示す図である。より詳細には、図２１で示した部分意図推定結果の組み合わせに基づく最終スコアの算出例を示している。
　音声認識結果１６１に対して、部分意図推定結果の組み合わせにより最終スコアを計算した例であり、実施の形態３と同様に音声認識スコア１７１、部分スコア１７２、全体スコア１７３、分割重み１７４、分割重みスコア１７５、意図共起重み１７６および最終スコア１７７が示されている。意図列１７８は、全ての分割パターンに対して最適な意図推定結果を示す意図列を示している。

　次に、実施の形態４の意図推定装置の動作について説明する。なお、実施の形態４の意図推定装置の動作を示すフローチャートは実施の形態２の図１４で示したフローチャートと同一である。そこで、図２、図１０および図２０から図２２で示した具体例を参照しながら、実施の形態２の図１４で示したフローチャートについて説明を行う。なお、以下では音声による入力が行われるものとして説明を行う。
　まず、音声による入力として「Ｓｔｏｐ　ａｔ　○○　Ｄｏｍｅ　ｔｈｅｎ　××　Ｌａｎｄ」が入力され、ステップＳＴ１として音声認識部１が音声認識を行い、図２０に示す音声認識結果１６１がスコア０．７で得られたものとする。音声認識結果１６１以外の認識結果が生成されることも予想されるが、実施の形態４の発明のポイントには影響を与えないため説明を省略する。音声認識結果１６１が生成されると、ステップＳＴ２の形態素解析およびステップＳＴ３の意図推定単位の抽出が行われ、図２０に示す意図推定単位抽出結果１６３が得られる。

　続いて、意図推定部６はステップＳＴ４として図２１に示すターム列１６４を抽出した上で、部分意図推定結果および部分スコアを算出する。次に、意図列推定部３は、ステップＳＴ５として意図列推定単位を用いて音声認識結果１６１の全体に一致する意図列を生成し、全体スコアを計算する。これにより、図２２で示した抽出パターン、当該抽出パターンンに応じた部分スコア、および部分スコアに基づいた全体スコアが得られる。

　次に、意図列変換部１２は、ステップＳＴ１１として部分意図列の中から、図１０で示した意図列変換ルールに一致する置換パターンを検索し、一致する置換パターンが存在した場合には該当する意図列を意図列変換ルールに従って変換する。
　具体的には、図２２で示した意図列１７８の場合、抽出パターンｉの部分意図列および抽出パターンｈの部分意図列で構成され、当該意図列１７８は図１０で示した意図列変換ルール８１に一致するため、以下のように変換される。
　変換前：経由地設定［施設＝＄施設＄＿１］、施設検索［施設＝＄施設＄＿２］
　変換後：経由地設定［施設＝＄施設＄＿１］、目的地設定［施設＝＄施設＄＿２］

　次に、ステップＳＴ６として意図列推定部３が分割重みスコア１７５を算出し、当該分割重みスコア１７５に意図共起重み計算部８が計算した意図共起重み１７６および音声認識スコアを積算し、最終スコア１７７を算出する。最後に、意図列推定部３はステップＳＴ７として最終スコア１７７が最大である意図列１７８の「経由地設定［施設＝＄施設＄＿１］、目的地設定［施設＝＄施設＄＿２］」がユーザの入力音声に最も適した意図列推定結果であるとして出力する。

　以上のように、この実施の形態４によれば、意図列の置換パターンを示した意図列変換テーブルを蓄積した意図列変換テーブル蓄積部１１と、当該意図列変換テーブル蓄積部１１に蓄積された意図変換テーブルを参照して該当する意図列が出現した場合に置換パターンに従って意図列を置き換える意図列変換部１２とを備えるように構成したので、ユーザの発話において省略が行われた場合であっても、ユーザの入力音声に最も適した意図列推定結果を得ることができる。

　なお、上述した実施の形態１から実施の形態４では、日本語および英語を例に意図列推定結果を得る構成示したが、意図抽出単位に関する抽出方法をそれぞれの言語毎に変更することにより、ドイツ語および中国語など様々な言語に対して適用することが可能である。

　また、上述した実施の形態１から実施の形態４において、単語が特定のシンボル（スペースなど）で区切られる言語の場合であって、言語的な構造を解析することが難しい場合には、入力の自然言語テキストに対してパターンマッチのような方法で、＄施設＄、＄住所＄などの抽出処理を行った後に、直接意図推定処理を実行するように構成することも可能である。

　また、上述した実施の形態１から実施の形態４では、入力が音声入力である場合を例に説明を行ったが、入力手段として音声認識を用いることなく、キーボードなどの入力手段によるテキスト入力の場合であっても同様の効果が期待できる。

　また、上述した実施の形態１から実施の形態４では、高い分割重みスコアを有する上位２つの候補を評価処理対象とする例を示したが、評価処理対象数を限定するものではない。また、音声認識結果がテキストのみでなく、形態素単位で出力される場合には、形態素解析を行う手段を省略してそのまま意図推定タームを抽出して処理を行うように構成してもよい。

　また、上述した実施の形態１から実施の形態４では、意図推定の方法として最大エントロピー法による学習モデルを想定した例で説明したが、意図推定の方法を限定するものではない。

　また、上述した実施の形態１から実施の形態４では、各部分意図推定対象の組み合わせとして、第１位の意図のみの組み合わせを使って説明したが、ある一定のスコア以上の候補すべてに対して候補を生成して意図列推定結果を計算することも可能である。

　また、上述した実施の形態１から実施の形態４では、ナビゲーションシステムに適用される場合を例に説明を行ったが、意図推定を行うシステムであれば種々適用可能である。

　なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　以上のように、この発明に係る意図推定装置および意図推定方法は、音声認識機能を備えたナビゲーション装置などに適用可能であり、複数の意図を含む入力が行われた場合にも、複数の意図間の関係を踏まえて最適な意図列を生成することができる。

　１　音声認識部、２　形態素解析部、３　意図列推定部、４　意図推定単位抽出部、５　意図推定モデル蓄積部、６　意図推定部、７　意図階層グラフデータ蓄積部、８　意図共起重み計算部、１０　意図推定装置、１１　意図列変換テーブル蓄積部、１２　意図列変換部。

Claims

　ユーザの言語入力から前記ユーザの意図を推定する意図推定装置であって、
　前記入力された言語の形態素解析を行い、形態素列に変換する形態素解析部と、
　前記形態素解析部が変換した形態素列を部分形態素に分割し、前記意図を推定する単位である意図推定単位を抽出する意図推定単位抽出部と、前記意図推定単位抽出部が抽出した各意図推定単位を構成する部分形態素の意図を推定する意図推定部と、前記意図推定部が推定した意図間の関係に基づいた意図共起重みを計算する意図共起重み計算部とを備え、前記意図推定部が推定した１または複数の意図を用いて前記入力された言語に相当する意図列を生成し、生成した前記意図列の尤もらしさを示すスコアと、生成した前記意図列を構成する前記意図について前記意図共起重み計算部が計算した意図共起重みとを用いて、前記入力された言語に対応した意図推定結果を生成する意図列推定部とを備えたことを特徴とする意図推定装置。
　前記意図共起重み計算部は、前記意図間の関係性に従って当該意図を階層化して定義した意図階層グラフデータを参照し、各階層を構成する前記各意図に定義された重みを用いて前記意図共起重みを計算することを特徴とする請求項１記載の意図推定装置。
　前記意図階層グラフデータは、下位の意図がより上位の意図を具体化した関係性を有し、
　前記意図共起重み計算部は、前記意図階層グラフデータを参照し、前記意図列推定部が生成した前記意図列を構成する連続する２つの意図に共通する上位の意図が存在する場合に、当該上位の意図に定義された重みを用いて前記意図共起重みを計算することを特徴とする請求項２記載の意図推定装置。
　前記意図階層グラフデータは、下位の意図がより上位の意図を具体化した関係性を有し、
　前記意図共起重み計算部は、前記意図階層グラフデータを参照し、前記意図列推定部が生成した前記意図列を構成する連続する２つの意図に上位と下位の関係が存在する場合に、あらかじめ設定された値を前記意図共起重みとすることを特徴とする請求項２記載の意図推定装置。
　前記意図列を構成する連続する前記意図間の関係性に従って前記意図を変換する意図列変換ルールを保持した意図列変換テーブルと、
　前記意図列推定部が生成した前記意図列を構成する連続する前記意図のうち、前記意図列変換テーブルに記載された意図列変換ルールに合致する関係性を有する前記意図を、前記意図列変換ルールに従って変換する意図列変換部とを備えたことを特徴とする請求項１記載の意図推定装置。
　ユーザの言語入力から前記ユーザの意図を推定する意図推定方法であって、
　形態素解析部が、前記入力された言語の形態素解析を行い、形態素列に変換するステップと、
　意図推定単位抽出部が、前記変換された形態素列を部分形態素に分割し、前記意図を推定する単位である意図推定単位を抽出するステップと、
　意図推定部が、前記抽出された各意図推定単位を構成する部分形態素の意図を推定するステップと、
　意図共起重み計算部が、前記推定された意図間の関係に基づいた意図共起重みを計算するステップと、
　意図列推定部が、前記推定された１または複数の意図を用いて前記入力された言語に相当する意図列を生成し、生成した前記意図列の尤もらしさを示すスコアと、生成した前記意図列を構成する前記意図について前記意図共起重み計算部が計算した意図共起重みとを用いて、前記入力された言語に対応した意図推定結果を生成するステップとを備えたことを特徴とする意図推定方法。