WO2022091422A1

WO2022091422A1 - 推定装置、推定方法、および、推定プログラム

Info

Publication number: WO2022091422A1
Application number: PCT/JP2020/041122
Authority: WO
Inventors: のぞみ小林; 勇祐井島
Original assignee: 日本電信電話株式会社
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2022-05-05
Also published as: JPWO2022091422A1

Abstract

推定装置（１０）は、複合語リスト（１３１）を参照して、学習用データの文から、ひとかたまりで読むべき複合語の位置の特徴量である第１の特徴量を抽出し、また、アクセント句の位置の特徴量である第２の特徴量を抽出する。そして、推定装置（１０）は、学習用データの文から抽出された第１の特徴量および第２の特徴量と、当該文におけるポーズ位置の正解データとを用いて、ポーズ位置推定モデル（１３２）を学習する。その後、推定装置（１０）は、複合語リスト（１３１）を参照して、ポーズ位置の推定対象の文から第１の特徴量を抽出し、また第２の特徴量を抽出する。推定装置（１０）は、抽出した第１の特徴量および第２の特徴量に基づき、ポーズ位置推定モデル（１３２）を用いて、当該ポーズ位置の推定対象の文におけるポーズ位置を推定し、その推定の結果を出力する。

Description

推定装置、推定方法、および、推定プログラム

　本発明は、自然性の高いポーズ（pause。「間」とも呼ばれる無音時間）の位置の推定装置、推定方法、および、推定プログラムに関する。

　従来、音声合成において自然性の高いポーズ位置およびポーズ長を推定する技術が提案されている。例えば、ポーズ位置およびポーズ長の推定に、人手で設計した規則を用いる手法、ポーズ位置およびポーズ長が付与された学習用データを用いた機械学習を用いる手法等がある（非特許文献１参照）。

太田健吾他，ポーズを考慮した話し言葉言語モデルの構築，情報処理学会論文誌Vol.53　No.2，pp.889-900，2012 武藤博子他，合成音声への自然なポーズ挿入のための音声の自然性に影響を与えるポーズ位置に関する要因の分析と評価,　情報処理学会論文誌,　Vol.　56,　No　.3,　pp.　993-1002,　2015 浅原正幸他，日本語固有表現抽出におけるわかち書き問題の解決，情報処理学会論文誌　Vol.45　No.5,　pp.1442-1450,　2004 Frantzi,　Katerina　T.　and　Ananiadou,　Sophia,　Extracting　Nested　Collocations,　The　16th　International　Conference　on　Computational　Linguistics,　1996

　しかし、従来技術では、例えば「夏の甲子園」のように、ひとかたまりとして読まれることが多い複合語の情報は考慮されていない。そのため、従来技術により文のポーズ位置を推定すると、「夏の/甲子園」のように、ひとかたまりとして読まれる複合語の中にポーズ（「/」）が挿入される可能性がある。なお、以下、「/（スラッシュ）」はポーズが入る位置を示す。

　また、従来技術において、文の係り受け構造を用いてポーズ位置を推定することも提案されているが（例えば、非特許文献２参照）、ある文節が直後にかかる場合でもポーズが入る場合もあり、文の係り受け構造だけでは、ポーズの位置をとらえきれない。これは、ポーズには強調のためのポーズも存在しており、例えば、「中国の/国家旅遊局」のように「AのB」で直後にかかる場合でもポーズが存在するからである。

　また、大量の学習用データを用いて、ポーズ位置を正しく推定するためのモデルを作成することも考えられるが、上記のような複合語を網羅的に含んだ学習用データを準備することは現実的ではない。

　そこで、本発明は、前記した問題を解決し、文におけるポーズ位置を精度よく推定することを課題とする。

　前記した課題を解決するため、本発明は、ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第１の特徴量およびアクセント句の位置の特徴量である第２の特徴量を抽出する第１の抽出部と、入力された文における、前記第１の特徴量および前記第２の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを記憶する記憶部と、前記第１の抽出部により抽出された前記第１の特徴量および前記第２の特徴量に基づき、前記ポーズ位置推定モデルを用いて、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定部と、前記ポーズ位置の推定の結果を出力する出力部とを備えることを特徴とする。

　本発明によれば、文におけるポーズ位置を精度よく推定することができる。

図１は、推定装置の構成例を示す図である。図２は、ポーズ位置の推定対象のデータの例を示す図である。図３Ａは、図１の推定装置における学習用データの例を示す図である。図３Ｂは、図１の推定装置におけるポーズ位置の推定の結果の例を示す図である。図４は、図１の複合語リストの例を示す図である。図５は、図１の第１の特徴量抽出部の構成例を示す図である。図６は、複合語特徴量が付加された入力データの例を示す図である。図７は、アクセント句特徴量が付加された入力データの例を示す図である。図８は、複合語特徴量およびアクセント句特徴量が付加された入力データの例を示す図である。図９は、ポーズ位置推定モデルの学習時における推定装置の処理手順の例を示すフローチャートである。図１０は、ポーズ位置の推定時における推定装置の処理手順の例を示すフローチャートである。図１１は、複合語リストの作成手順の例を示すフローチャートである。図１２は、推定プログラムを実行するコンピュータの構成例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、以下に示す実施形態に限定されない。

［概要］
　図１を参照しながら、推定装置１０の概要を説明する。推定装置１０は、文におけるポーズ位置を推定するためのモデル（ポーズ位置推定モデル１３２）を用いて、文におけるポーズ位置を推定する。ここで、推定装置１０は、ポーズ位置推定モデル１３２を学習する際、文におけるポーズ位置（正解となるポーズ位置）と、当該文におけるひとかたまりで読むべき複合語の位置の特徴量およびアクセント句の位置の特徴量を用いる。

　そして、上記のポーズ位置推定モデル１３２の学習後、推定装置１０が、ポーズ位置の推定対象となる文の入力を受け付けると、当該文における上記の各特徴量を抽出し、抽出した各特徴量と、ポーズ位置推定モデル１３２とを用いて、当該文のポーズ位置を推定する。なお、文に含まれる語のうち、どの語が、ひとかたまりでよむべき複合語かは、事前に用意された複合語リスト１３１（図３参照）を参照して特定する。

　推定装置１０は、上記のように、文においてひとかたまりで読むべき複合語の位置の特徴量とアクセント句の位置の特徴量とを用いて、当該文におけるポーズ位置の推定を行うので、当該文におけるポーズの位置を精度よく推定することができる。

［構成例］
　図１を用いて、推定装置１０の構成例を説明する。推定装置１０は、入力部１１と、出力部１２と、記憶部１３と、制御部１４とを備える。

　入力部１１は、制御部１４が用いる各種データの入力を受け付ける。例えば、入力部１１は、ポーズ位置推定モデル１３２の学習に用いる学習用データや、ポーズ位置の推定対象の文のデータの入力を受け付ける。

　図２を用いて、入力部１１への入力データの例を説明する。ここでは、入力データが、ポーズ位置の推定対象の文のデータである場合について説明する。

　入力データは、例えば、テキスト文に対する形態素解析の結果（例えば、表記および品詞）と、当該テキスト文におけるアクセント句境界の情報とが付与されたデータである。なお、図２においてアクセント句境界となる語には「Ａ」が付与されている。

　なお、入力データが、学習用データである場合、入力データは、例えば、図３Ａに示すように、アクセント句境界の情報に加え、正解となるポーズ位置の情報（ポーズラベル「Ｐ」）が付与されたデータである。

　図１の説明に戻る。出力部１２は、制御部１４による処理結果を出力する。例えば、出力部１２は、制御部１４により推定された、文のポーズ位置（ポーズ位置の推定の結果）を出力する。

　図３Ｂを用いて、出力データの例を説明する。出力データは、例えば、入力データ（図２参照）に対し、ポーズ位置の推定の結果を示す情報（ポーズラベル「Ｐ」）が付与されたデータである。なお、上記のポーズ位置の推定の結果を示す情報は、当該ポーズが短いポーズであるか、長いポーズであるかに示す情報を含んでいてもよい。例えば、ポーズラベルとして、当該ポーズが長いポーズか短いポーズであるかを示すラベルが付与されてもよい。

　図１の説明に戻る。記憶部１３は、制御部１４が参照する各種情報を記憶する。例えば、記憶部１３は、複合語リスト１３１を記憶する。また、制御部１４によりポーズ位置推定モデル１３２が生成されると、記憶部１３の所定領域には、ポーズ位置推定モデル１３２が格納される。

　複合語リスト１３１は、上記のとおり、ひとかたまりで読むべき複合語（形態素のかたまり）を示したリストである。この複合語リスト１３１の例を、図４を用いて説明する。

　複合語リスト１３１は、例えば、図４に示すように、ひとかたまりで読むべき複合語の先頭表記とその先頭表記に続く後続表記リストと対応付けて示した情報である。なお、後続表記リストにおける「\t（タブ）」は、後続表記における形態素の境界を示し、「,」は区切りを示す。例えば、図４に示す複合語リストの１行目の情報は、「夏の甲子園」を示し、２行目の情報は「東京大学」および「東京国税局」を示す。

　図１の説明に戻る。ポーズ位置推定モデル１３２は、入力された文において、ひとかたまりで読むべき複合語の位置の特徴量（複合語特徴量）およびアクセント句の位置の特徴量（アクセント句特徴量）と、当該文におけるポーズ位置との関連性を示したモデルである。このポーズ位置推定モデル１３２は、モデル学習部１４４が学習用データを用いた学習を行うことにより生成される。

　制御部１４は、学習部１４１と推定部１４２とを備える。学習部１４１は、学習用データを用いてポーズ位置推定モデル１３２の学習を行う。推定部１４２は、ポーズ位置推定モデル１３２を用いて、入力された文のポーズ位置を推定する。

［学習部］
　まず、学習部１４１を説明する。学習部１４１は、特徴量抽出部（第２の抽出部）１４３と、モデル学習部１４４とを備える。

　特徴量抽出部１４３は、文から複合語特徴量およびアクセント句特徴量を抽出する。例えば、特徴量抽出部１４３は、文の形態素情報およびアクセント句境界の情報が付与されたデータから、複合語リスト１３１を利用して、ポーズ位置の推定に必要となる複合語特徴量を抽出する。また、特徴量抽出部１４３は、当該データからアクセント句特徴量を抽出する。

　図５を用いて、特徴量抽出部１４３の構成例を説明する。特徴量抽出部１４３は、例えば、図５に示すように、複合語特徴量抽出部１４３１と、アクセント句特徴量抽出部１４３２と、特徴量集約部１４３３とを備える。

［複合語特徴量抽出部］
　複合語特徴量抽出部１４３１は、複合語リスト１３１を用いて、文から当該文の複合語特徴量を抽出する。

　例えば、複合語特徴量抽出部１４３１は、文の形態素情報およびアクセント境界情報を含む解析済テキスト（図２参照）の入力を受け付けると、複合語リスト１３１（図４参照）を参照し、当該文を構成する形態素のうち、どこからどこまでの形態素が、ひとかたまりで読むべき複合語であるかを判断し、その判断結果を複合語特徴量として抽出する。この複合語特徴量抽出部１４３１による複合語特徴量の抽出処理の例を、図２、図４、図６を参照しながら説明する。

　例えば、複合語特徴量抽出部１４３１は、図２に示す入力データを受け付けると、当該入力データの形態素情報の「表記」をキーとして、図４に示す複合語リスト１３１の「先頭表記」を検索し、当該先頭表記に対応付けられた「後続表記リスト」を取得する。

　ここで、複合語リスト１３１に、マッチするエントリがなければ、複合語特徴量抽出部１４３１は、当該表記に関する複合語特徴量の値として「О」を付与し、次の形態素に対して同様の処理を実施する。

　例えば、図２に示す入力データにおける、表記「４」、「回」、「目」および「の」は、図４に示す複合語リスト１３１の「先頭表記」にマッチするエントリがない。よって、複合語特徴量抽出部１４３１は、図６に示すように、表記「４」、「回」、「目」および「の」に対する複合語特徴量として「О」を付与する。

　一方、複合語特徴量抽出部１４３１は、図２に示す入力データの形態素情報の「表記」と、図４に示す複合語リスト１３１の「先頭表記」とがマッチし、かつ、当該「表記」に続く表記が、当該先頭表記の後続表記リストにマッチした場合、先頭表記に「Ｂ」を付与し、それ以外のマッチした箇所に「Ｉ」を付与する。

　例えば、図２に示す入力データにおける、表記「夏」は、図４に示す複合語リスト１３１の１行目のエントリの先頭表記にマッチし、その後に続く「の」および「甲子園」は、当該先頭表記の後続表記リストにマッチする。よって、複合語特徴量抽出部１４３１は、図９に示すように、表記「夏」に「Ｂ」を付与し、「の」および「甲子園」それぞれに「Ｉ」を付与する。

　なお、この「Ｂ」、「Ｉ」、「Ｏ」のタグ付与は、自然言語処理の固有表現抽出等で一般的に使われる方法であり、例えば、非特許文献３等に記載されている。

［アクセント句特徴量抽出部］
　図５の説明に戻り、アクセント句特徴量抽出部１４３２を説明する。アクセント句特徴量抽出部１４３２は、文のアクセント句特徴量を抽出する。例えば、アクセント句特徴量抽出部１４３２は、文の形態素情報およびアクセント境界情報を含む解析済テキストの入力を受け付けると、当該解析済テキストから、アクセント句の特徴量、当該アクセント句の一つ前のアクセント句の特徴量、当該アクセント句の一つ後のアクセント句の特徴量を抽出する。

　換言すると、アクセント句特徴量抽出部１４３２は、文に含まれるアクセント句について、当該アクセント句はどのような品詞か、当該アクセント句の前のアクセント句はどのような品詞か、当該アクセント句の後のアクセント句はどのような品詞かを示した情報を、アクセント句特徴量として抽出する（図７参照）。

　例えば、アクセント句特徴量抽出部１４３２は、入力データに含まれる各形態素に対し、当該形態素がアクセント句境界である場合に、以下の手順で特徴量を抽出する。なお、当該形態素がアクセント句境界ではない場合、アクセント句特徴量抽出部１４３２は、ハイフン等の対象外を表すラベルを付与する。

　図７を参照しながら、アクセント句特徴量抽出部１４３２による当該アクセント句、当該アクセント句の一つ前のアクセント句、および、当該アクセント句の一つ後のアクセント句の特徴量を抽出する処理の例を説明する。

［アクセント句特徴量（当該）の抽出］
　まず、当該アクセント句の特徴量（アクセント句特徴量（当該））の抽出について説明する。

　例えば、アクセント句境界の品詞が、格助詞もしくは読点の場合、アクセント句特徴量抽出部１４３２は、「格助詞」とその表記を連結し（例えば、図７に示す「格助詞:の」）、アクセント句境界より前に出現する内容語の主品詞と連結したものを、当該アクセント句特徴量として抽出する（例えば、図７に示す「名詞-格助詞:の」）。なお、主品詞とは、主となる品詞であり、例えば、図７に示す各品詞における「:」を含まない先頭の品詞である。

　また、アクセント句境界の品詞が、句点の場合、アクセント句特徴量抽出部１４３２は、「句点」を当該アクセント句特徴量として抽出する。また、アクセント句境界の品詞が上記以外の場合、アクセント句特徴量抽出部１４３２は、アクセント句境界より前に出現する内容語の主品詞を当該アクセント句特徴量として抽出する。

［アクセント句特徴量（一つ前）の抽出］
　次に、当該アクセント句の一つ前のアクセント句の特徴量（アクセント句特徴量（一つ前））の抽出について説明する。

　例えば、アクセント句特徴量抽出部１４３２は、一つ前のアクセント句境界の「アクセント句特徴量（当該）」を、当該アクセント句の「アクセント句特徴量（一つ前）」として抽出する。なお、当該アクセント句境界より前にアクセント句境界が存在しない場合、アクセント句特徴量抽出部１４３２は、「アクセント句特徴量（一つ前）」として、図７に示すようにBOS（先頭を表すラベル）を付与する。

［アクセント句特徴量（一つ後）の抽出］
　次に、当該アクセント句の一つ後のアクセント句の特徴量（アクセント句特徴量（一つ後））の抽出について説明する。

　例えば、アクセント句特徴量抽出部１４３２は、一つ後のアクセント句境界の「アクセント句特徴量（当該）」を、当該アクセント句の「アクセント句特徴量（一つ後）」として抽出する。なお、当該アクセント句境界が最後のアクセント句境界の場合、アクセント句特徴量抽出部１４３２は、当該アクセント句境界の「アクセント句特徴量（一つ後）」として、図７に示すように「EOS（文末を表すラベル）」を付与する。

　図５の説明に戻る。特徴量集約部１４３３は、複合語特徴量抽出部１４３１により抽出された複合語特徴量と、アクセント句特徴量抽出部１４３２により抽出されたアクセント句特徴量とを集約する。例えば、特徴量集約部１４３３は、図６に示す複合語特徴量と、図７に示すアクセント句特徴量とを集約し、図８に示す特徴量を生成する。

　図１の説明に戻る。モデル学習部１４４は、特徴量抽出部１４３により、入力データから抽出された複合語特徴量およびアクセント句特徴量（図８参照）と、当該入力データにおけるポーズ位置の正解データ（図３Ａ参照）とを用いて、ポーズ位置推定モデル１３２を学習する。

　例えば、モデル学習部１４４は、抽出した各特徴量と正解データとを学習用データとし、既存の機械学習手法（例えば、CRF（Conditional　Random　Fields））を用いて、各特徴量とポーズ位置の関係をモデル化し、ポーズ位置推定モデル１３２を生成する。生成したポーズ位置推定モデル１３２は、記憶部１３に格納される。

［推定部］
　次に、推定部１４２を説明する。推定部１４２は、特徴量抽出部（第１の抽出部）１４５と、ポーズ位置推定部１４６とを備える。

　特徴量抽出部１４５は、特徴量抽出部１４３と同様に、入力された文から複合語特徴量およびアクセント句特徴量を抽出する。つまり、特徴量抽出部１４５は、複合語特徴量抽出部１４３１、アクセント句特徴量抽出部１４３２および特徴量集約部１４３３（図５参照）を備え、これらの構成により、ポーズ位置の推定対象の文から、複合語特徴量およびアクセント句特徴量を抽出する。

　特徴量抽出部１４５による、複合語特徴量およびアクセント句特徴量の抽出は、前記した特徴量抽出部１４３と同様なので説明を省略する。なお、ポーズ位置の推定対象の文は、上記のとおり、例えば、テキスト文に対する形態素解析の結果と、当該テキスト文におけるアクセント句境界の情報とが付与されたデータ（例えば、図２参照）である。

　ポーズ位置推定部１４６は、特徴量抽出部１４５により抽出された複合語特徴量およびアクセント句特徴量と、ポーズ位置推定モデル１３２とを用いて、ポーズ位置の推定対象の文におけるポーズ位置を推定する。そして、ポーズ位置推定部１４６は、推定対象の文におけるポーズ位置の推定の結果（例えば、図３Ｂ）を出力部１２経由で出力する。

［処理手順］
　次に、図９および図１０を用いて、推定装置１０の処理手順の例を説明する。まず、図９を用いて推定装置１０が、ポーズ位置推定モデル１３２を学習する際の処理手順の例を説明する。

　推定装置１０の入力部１１が、ポーズ位置の正解データを含む学習用データの入力を受け付けると（Ｓ１）、特徴量抽出部１４３は、当該学習用データの複合語特徴量およびアクセント句特徴量を抽出する（Ｓ２）。つまり、複合語特徴量抽出部１４３１は、複合語リスト１３１を参照して、Ｓ１で入力された学習用データの複合語特徴量を抽出する。また、アクセント句特徴量抽出部１４３２は、Ｓ１で入力された学習用データのアクセント句特徴量を抽出する。

　Ｓ２の後、モデル学習部１４４は、Ｓ１で受け付けた学習用データに含まれるポーズ位置の正解データと、Ｓ２で抽出された各特徴量（複合語特徴量およびアクセント句特徴量）とを用いて、ポーズ位置推定モデル１３２を学習する（Ｓ３）。このようにすることで推定装置１０は、ポーズ位置推定モデル１３２を生成する。

　次に、図１０を用いて、推定装置１０が、文におけるポーズ位置の推定を行う際の処理手順の例を説明する。

　推定装置１０の入力部１１が、ポーズ位置の推定対象の文の入力を受け付けると（Ｓ１１）、特徴量抽出部１４５は、Ｓ１１で入力された文における、複合語特徴量およびアクセント句特徴量を抽出する（Ｓ１２）。つまり、複合語特徴量抽出部１４３１は、複合語リスト１３１を参照して、Ｓ１１で入力された文から、複合語特徴量を抽出する。また、アクセント句特徴量抽出部１４３２は、Ｓ１１で入力された文から、アクセント句特徴量を抽出する。

　Ｓ１２の後、ポーズ位置推定部１４６は、Ｓ１２で抽出された各特徴量（複合語特徴量およびアクセント句特徴量）に基づき、ポーズ位置推定モデル１３２を用いて、Ｓ１１で入力された文（推定対象の文）のポーズ位置を推定する（Ｓ１３）。そして、ポーズ位置推定部１４６は、Ｓ１１で入力された文におけるポーズ位置の推定の結果（例えば、図３Ｂ）を出力部１２経由で出力する（Ｓ１４）。

　このようにすることで、推定装置１０は、文におけるポーズの位置を推定することができる。

［複合語リストの作成方法］
　なお、複合語リスト１３１は、以下に示す方法で作成することも可能である。例えば、複合語リスト１３１を作成する装置は、新聞記事やblog等の大量のテキストデータの入力を受け付けると、当該テキストデータの形態素解析を行う（図１１のＳ２１）。

　次に、当該装置は、Ｓ２１で形態素解析が行われたテキストから、複合語候補の抽出を行う（Ｓ２２）。例えば、当該装置は、Ｓ２１で形態素解析が行われたテキストから、「品詞が名詞もしくは未知語の連続」、「名詞連続の後に格助詞の「の」があり、名詞連続が後続する」等の複合語抽出ルールによって、形態素境界情報を含めた形で複合語候補を抽出する。例えば、当該装置は、テキストから、「東京\t大学」等を抽出する。

　Ｓ２２の後、当該装置は、Ｓ２２で抽出した複合語候補それぞれのスコアリングを行う（Ｓ２３）。例えば、当該装置は、非特許文献４等に記載の技術により、C-Value等を用いた連語（コロケーション）のスコアリングを行う。

　Ｓ２３の後、当該装置は、Ｓ２３におけるスコアリングの結果を用いて、スコアが所定の閾値以上の複合語候補を抽出し、抽出した複合語候補における先頭の形態素を「先頭表記」、残りを後続表記として複合語リスト１３１に登録する。なお、同じ先頭表記のエントリが存在する場合、当該装置は、後続表記を「,」で区切って複合語リスト１３１に登録する。

　このようにすることで、複合語リスト１３１を作成することができる。上記の複合語リスト１３１の作成は、推定装置１０で行ってもよいし、推定装置１０以外の装置で行ってもよい。

［その他の実施形態］
　なお、前記した実施形態において推定装置１０が学習部１４１を備える場合について説明したが、これに限定されない。例えば、推定装置１０は、学習部１４１を備えず、他の装置により学習されたポーズ位置推定モデル１３２を用いて、ポーズ位置の推定を行ってもよい。また、推定装置１０は、推定部１４２を備えず、学習部１４１により学習されたポーズ位置推定モデル１３２を用いたポーズ位置の推定は、他の装置で行ってもよい。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した推定装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を前記した実施形態の推定装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal　Handyphone　System）等の移動体通信端末、さらには、PDA（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　また、推定装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１２は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ROM（Read　Only　Memory）１０１１及びRAM（Random　Access　Memory）１０１２を含む。ROM１０１１は、例えば、BIOS（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、OS１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の推定装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、推定装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

　また、上述した実施形態の処理で用いられるモデルやデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワされたーク（LAN（Local　Area　Network）、WAN（Wide　Area　Network）等）を介して接続他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

１０　推定装置
１１　入力部
１２　出力部
１３　記憶部
１４　制御部
１３１　複合語リスト
１３２　ポーズ位置推定モデル
１４１　学習部
１４２　推定部
１４３，１４５　特徴量抽出部
１４４　モデル学習部
１４６　ポーズ位置推定部

Claims

　ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第１の特徴量およびアクセント句の位置の特徴量である第２の特徴量を抽出する第１の抽出部と、
　入力された文における、前記第１の特徴量および前記第２の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを記憶する記憶部と、
　前記第１の抽出部により抽出された前記第１の特徴量および前記第２の特徴量に基づき、前記ポーズ位置推定モデルを用いて、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定部と、
　前記ポーズ位置の推定の結果を出力する出力部と
　を備えることを特徴とする推定装置。
　前記第１の抽出部は、
　前記ひとかたまりで読むべき複合語を示した複合語リストを参照して、前記第１の特徴量を抽出する
　ことを特徴とする請求項１に記載の推定装置。
　前記アクセント句の位置の特徴量は、
　前記文における当該アクセント句の前および後に存在するアクセント句の情報をさらに含む
　ことを特徴とする請求項１に記載の推定装置。
　前記アクセント句の位置の特徴量は、
　前記アクセント句の品詞を示す情報を含むこと
　を特徴とする請求項３に記載の推定装置。
　学習用データである文から、前記第１の特徴量および前記第２の特徴量を抽出する第２の抽出部と、
　前記学習用データである文から抽出された前記第１の特徴量および前記第２の特徴量と、当該文におけるポーズ位置の正解データとを用いて、前記ポーズ位置推定モデルを学習するモデル学習部と
　をさらに備えることを特徴とする請求項１に記載の推定装置。
　推定装置により実行される推定方法であって、
　ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第１の特徴量およびアクセント句の位置の特徴量である第２の特徴量を抽出する第１の抽出工程と、
　入力された文における、前記第１の特徴量および前記第２の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを用いて、前記第１の抽出工程により抽出された前記第１の特徴量および前記第２の特徴量に基づき、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定工程と、
　前記ポーズ位置の推定の結果を出力する出力工程と
　を含むことを特徴とする推定方法。
　ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第１の特徴量およびアクセント句の位置の特徴量である第２の特徴量を抽出する第１の抽出工程と、
　入力された文における、前記第１の特徴量および前記第２の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを用いて、前記第１の抽出工程により抽出された前記第１の特徴量および前記第２の特徴量に基づき、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定工程と、
　前記ポーズ位置の推定の結果を出力する出力工程と
　をコンピュータに実行させるための推定プログラム。