WO2009101837A1

WO2009101837A1 - 記号挿入装置および記号挿入方法

Info

Publication number: WO2009101837A1
Application number: PCT/JP2009/050641
Authority: WO
Inventors: Tasuku Kitade; Takafumi Koshinaka
Original assignee: Nec Corporation
Priority date: 2008-02-13
Filing date: 2009-01-19
Publication date: 2009-08-20
Also published as: US20100292989A1; JPWO2009101837A1; US8577679B2; JP5141695B2

Abstract

　話者毎の話し方の特徴の違いを考慮した記号挿入判定を可能にする。記号挿入尤度計算手段１１３は、音声情報を文字化した単語列に対して、話し方の特徴別に設けられた複数の記号挿入モデル毎に記号挿入尤度を求める。話し方特徴類似度計算手段１１２は、単語列の話し方の特徴と複数の話し方特徴モデルとの類似度を求める。記号挿入判定手段１１４は、単語列について複数の記号挿入モデル毎に求められた記号挿入尤度に対して、単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および記号挿入モデルと話し方特徴モデルとの関連度により重み付けを行って、単語列への記号挿入判定を行う。

Description

記号挿入装置および記号挿入方法

　本発明は、記号挿入装置および記号挿入方法に関し、特に書き起こしや音声認識したテキストに対して、句読点などの特定の記号を挿入する記号挿入装置および記号挿入方法に関する。

　講演や会議などで話者が発した音声を文字化して保存する際、日本語にあっては適切な箇所に句点を挿入することで、文の境界を明確にする必要がある。また、文中の適切な箇所に読点を挿入することで、節などの境界を明確にする必要もある。ところが、句点や読点などの記号自体は話者から明示的に発声されることはない。そのため、文字化された単語列中のどの箇所に記号を挿入すべきかを検出する技術が必要になる。本発明はそのような記号挿入技術に関する。

　本発明に関連する記号挿入技術の一例が非特許文献１の３．２節に記載されている。非特許文献１に記載される記号挿入技術では、話者がとるポーズの長さと、そのポーズの前後に現れる単語情報とを用いて文境界の検出を行う。具体的には、句点を含まないがポーズ情報を含む文字列Ｘと、句点を含む文字列Ｙとを別の言語と考え、統計的機械翻訳により、次式に示すようにＰ（Ｙ｜Ｘ）を最大にする文字列Ｙを求める問題として定式化する。

　より具体的には、ポーズが句点に変換されうる（Ｐ（Ｘ｜Ｙ）＝１となる）全ての箇所に対して、句点を挿入する場合としない場合の言語モデル尤度Ｐ（Ｙ）を比較し、句点挿入の判定を行う。ここで、変換モデルＰ（Ｘ｜Ｙ）には、ポーズ前後の表現とポーズ長に依存するモデルを用いる。また言語モデル尤度Ｐ（Ｙ）の計算には、文境界が人手により付与されたＣＳＪ（日本語話し言葉コーパス）の書き起こしから学習された単語３－ｇｒａｍモデルを用いる。

下岡ら,"日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化,"自然言語処理,２００５年第１２巻３号。

　本発明に関連する上記の記号挿入技術によれば、或る話者が発した音声を文字化した単語列、たとえば「～保温効果が得られるとこれにより体感温度が約２度上昇します」という単語列において、「得られると」の直後のポーズ長が充分に長い場合に、その箇所が文境界と判断され、「～保温効果が得られると。これにより体感温度が約２度上昇します」というように句点が挿入される。反対に、「得られると」の直後のポーズ長が充分に短い場合は、その箇所は文境界と判断されず、「～保温効果が得られるとこれにより体感温度が約２度上昇します」全体が１文として扱われる。このように極端に長いポーズ長が現れる箇所では、話者の相違にかかわらず、記号挿入箇所を或る程度の精度で検出することができる。

　しかしながら、話し方は話者毎に相違するのが一般的であり、句読点挿入箇所でのポーズの取り方や句末・文末表現は話者によって異なる。例えば、「得られると」の直後のポーズ長が同じになる複数の話者でも、話速の早い人の場合、「得られると」直後のポーズ長が他の箇所のポーズ長よりも相対的に長くなるため、句点を挿入する箇所の可能性が高くなり、話速の遅い人の場合、その逆になる。また、「～得られると。」の如き「と文末」の言い回しを滅多にしない話者もいれば、そうでない話者もいる。

　本発明に関連する上記の記号挿入技術では、ＣＳＪ（日本語話し言葉コーパス）の書き起こしから学習された１種類のモデル（単語３－ｇｒａｍモデル）を使用して記号挿入尤度を算出しているため、話者毎の話し方の特徴の違いを考慮した記号挿入判定は行えない。

　本発明の目的は、言い回しやポーズの取り方といった話者の言語的、音響的な話し方の特徴に応じた記号挿入モデルを使用して記号の挿入判定を行うことにより、話者毎の話し方の特徴の違いを考慮した記号挿入判定を可能にすることにある。

　本発明の記号挿入装置は、音声情報を文字化した単語列に記号を挿入する記号挿入装置であって、記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う。

　本発明によれば、話者毎の話し方の特徴の違いを考慮した記号挿入判定が可能となる。その理由は、言い回しやポーズの取り方といった話者の言語的、音響的な話し方の特徴に応じた複数の記号挿入モデルのうち、入力単語列の話者の話し方の特徴にあった記号挿入モデルに重きをおいて記号の挿入判定を行うためである。

本発明の第１の実施の形態のブロック図である。記号挿入対象となる単語列情報の構成例を示す図である。本発明の第１の実施の形態における処理の流れを示すフローチャートである。話し方特徴モデルと記号挿入モデルとを同じ学習データを用いて作成する方法の説明図である。本発明の第１の実施の形態の実施例における処理の流れを示すフローチャートである。本発明の第２の実施の形態のブロック図である。記号挿入モデルと話し方特徴モデルとの関連度の一例を示す図である。本発明の第３の実施の形態のブロック図である。

符号の説明

１００、２００…記号挿入装置
１０１…処理装置
１０２…入力装置
１０３－１～１０３－ｎ…記号挿入モデル記憶装置
１０４－１～１０４－ｎ…話し方特徴モデル記憶装置
１０５…出力装置
１１１…単語列情報記憶手段
１１２…話し方特徴類似度計算手段
１１３…記号挿入尤度計算手段
１１４、２０２…記号挿入判定手段
１１５…記号挿入済単語列情報記憶手段
２０１…モデル関連度記憶装置
３００…音声認識装置
３０１…マイクロフォン
３１１…音声認識手段
３１２…単語列情報生成手段

　次に、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。以下では、日本語による話し言葉の単語列に句読点を挿入する場合を例にするが、例えば英語による話し言葉の単語列にカンマやピリオドを挿入するなど、本発明は任意の言語および任意の記号について適用可能である。なお、スペースや改行なども本発明の記号の概念に含まれるものである。

『第１の実施の形態』
　図１を参照すると、本発明の第１の実施の形態に係る記号挿入装置１００は、処理装置１０１と、この処理装置１０１に接続された入力装置１０２、ｎ個の記号挿入モデル記憶装置１０３－１～１０３－ｎ、同じくｎ個の話し方特徴モデル記憶装置１０４－１～１０４－ｎおよび出力装置１０５とから構成されている。

　また、処理装置１０１は、単語列情報記憶手段１１１、話し方特徴類似度計算手段１１２、記号挿入尤度計算手段１１３、記号挿入判定手段１１４および記号挿入済単語列情報記憶手段１１５を備えている。

　話し方特徴類似度計算手段１１２、記号挿入尤度計算手段１１３および記号挿入判定手段１１４は、例えば処理装置１０１を構成するコンピュータとその上で実行されるプログラムとで実現することができる。プログラムは、磁気ディスク等のコンピュータ可読記録媒体に記録されており、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータ上に話し方特徴類似度計算手段１１２、記号挿入尤度計算手段１１３および記号挿入判定手段１１４を実現する。また各記憶装置１０３－１～１０３－ｎ、１０４－１～１０４－ｎ、処理装置１０１中の単語列情報記憶手段１１１および記号挿入済単語列情報記憶手段１１５は、コンピュータに備わる主記憶や補助記憶装置で実現することができる。

　入力装置１０２は、記号挿入対象となる話し言葉の単語列の情報を処理装置１０１に入力する装置であり、キーボードやファイル装置、あるいはデータ受信装置などで構成される。話し言葉の単語列の情報は、書き起こしテキストや音声認識テキストに対して、話し方特徴類似度計算手段１１２および記号挿入尤度計算手段１１３で必要とする文法情報（たとえば品詞情報）および音響情報（たとえばポーズ情報）を付加したものである。

　単語列情報記憶手段１１１は、入力装置１０２から入力された単語列の情報を記憶する。図２を参照すると、単語列情報記憶手段１１１に記憶される単語列情報１０２１は、各単語毎の単語情報１０２２が単語の発声の順番通りに並べられている。また、各単語情報１０２２は、当該単語の表層情報１０２３、当該単語の品詞や活用形を示す品詞情報１０２４、当該単語と直後の単語との間のポーズ長１０２５、その他の情報を含んでいる。その他の情報としては、話速などがある。

　記号挿入モデル記憶装置１０３－１～１０３－ｎは、話し方の特徴がそれぞれ異なる話者の学習データを用いて学習した記号挿入モデルを記憶する。記号挿入モデルは、言語情報（単語の表層情報、品詞情報など）および音響情報（ポーズ情報など）を用いて、句点および読点の挿入する確率をモデル化したものである。記号挿入モデルは、記号付き単語ｎ－ｇｒａｍモデルやサポートベクターマシン（ＳＶＭ）、条件付確率場（ＣＲＦ）などの識別モデル（非特許文献１）、ルールベースのモデルなどの公知の技術を用いて作成可能である。個々の記号挿入モデル自体は、非特許文献１などで用いられる記号挿入のモデルと同じであり、それぞれ異なる話し方の特徴別に記号挿入モデルが設けられている点が従来との相違点である。

　記号挿入尤度計算手段１１３は、単語列情報記憶手段１１１から単語情報１０２２の単位で単語列情報１０２１を読み出し、各単語情報１０２２毎に、その単語情報を持つ単語の直後に句点および読点が挿入される確度の高さを示す記号挿入尤度および句読点が挿入されない確度の高さを示す記号挿入尤度を、記号挿入モデル記憶装置１０３－１～１０３－ｎに記憶された記号挿入モデル毎に計算する手段である。

　話し方特徴モデル記憶装置１０４－１～１０４－ｎは、話し方の特徴がそれぞれ異なる話者の学習データを用いて学習した話し方特徴モデルを記憶する。話し方特徴モデルは、話者の音声情報を利用して、話し方の特徴をモデル化したものである。音声情報には、言語情報（文末語尾表現の頻度情報など）や音響情報（ポーズ情報や話速の情報、発話継続時間長など）などが挙げられる。本実施の形態の場合、話し方特徴モデル記憶装置１０４－１～１０４－ｎは、記号挿入モデル記憶装置１０３－１～１０３－ｎに１対１に対応する。すなわち、話し方特徴モデル記憶装置１０４－ｉに記憶される話し方特徴モデルは、対応する記号挿入モデル記憶装置１０３－ｉに記憶される記号挿入モデルの学習に使用した学習データの話者の話し方の特徴をモデル化したものである。

　音響情報を用いる話し方特徴モデルの単純な例としては、例えば、単語別の話速値やポーズ長、文節単位もしくは発話単位での平均話速値や平均ポーズ長などがある。言語情報を用いる話し方特徴モデルの単純な例としては、文末語尾表現の頻度情報がある。話し方特徴モデルの他の例については後の実施例で詳細に説明する。

　話し方特徴類似度計算手段１１２は、単語列情報記憶手段１１１から単語情報１０２２の単位で単語列情報１０２１を読み出して、話し方の特徴を抽出し、この抽出した話し方の特徴と、話し方特徴モデル記憶装置１０４－１～１０４－ｎに記憶されている話し方特徴モデルでモデル化されている話し方の特徴との類似度を計算する手段である。ここで、単語列情報１０２１から話し方の特徴を抽出する単位は、予め定められた単語数毎としても良いし、１話者の全発話としても良く、また単語列情報記憶手段１１１に記憶されている単語列情報１０２１全体としても良い。

　記号挿入判定手段１１４は、単語列情報記憶手段１１１に記憶された単語列について記号挿入尤度計算手段１１３によって記号挿入モデル毎に求められた記号挿入尤度に対して、話し方特徴類似度計算手段１１２によって求められた当該単語列の話し方の特徴と複数の話し方特徴モデルとの類似度、および記号挿入モデルと話し方特徴モデルとの関連度により重み付けを行って、単語列への記号挿入判定を行い、その判定結果に従って記号を挿入した単語列の情報を記号挿入済単語列情報記憶手段１１５に保存する手段である。

　本実施の形態の場合、話し方特徴モデル記憶装置１０４－１～１０４－ｎと記号挿入モデル記憶装置１０３－１～１０３－ｎとは１対１に対応するため、記号挿入判定手段１１４は、記号挿入尤度計算手段１１３で求められた各記号挿入モデル別の記号挿入尤度に、対応する話し方特徴モデルとの類似度を乗じることで、重み付けを行う。

　また記号挿入判定手段１１４は、各記号挿入モデル別の重み付け後の記号挿入尤度を使って、例えば以下の何れかの方法で句読点の挿入可否および挿入する記号の種類を決定する。

（１）記号挿入判定方法１
　各記号挿入モデルの重み付け後の句点挿入尤度のうちの上位ｎ'個（ｎ'は１以上、ｎ以下の定数。以下同じ）の総和を句点の統合挿入尤度、各記号挿入モデルの重み付け後の読点挿入尤度のうちの上位ｎ'個の総和を読点の統合挿入尤度、各記号挿入モデルの重み付け後のＮＵＬＬ挿入尤度（句点も読点も挿入されない尤度）のうちの上位ｎ'個の総和をＮＵＬＬの統合挿入尤度として算出する。次に、統合挿入尤度の最も大きいものを記号挿入判定結果とする。例えば、３つの統合挿入尤度のうち、句点の統合挿入尤度が最も大きければ、句点を挿入する旨の判定結果を生成する。

（２）記号挿入判定方法２
　各記号挿入モデルの重み付け後の句点挿入尤度のうちの上位ｎ'個の総和を句点の統合挿入尤度、各記号挿入モデルの重み付け後の読点挿入尤度のうちの上位ｎ'個の総和を読点の統合挿入尤度として算出する。次に、複数の記号間に予め定められた優先順位が、例えば優先度の高い順に句点、読点であった場合、まず、句点の統合挿入尤度を予め定められた閾値と比較し、閾値以上であれば句点を挿入する旨の判定結果を生成する。句点の統合挿入尤度が閾値以上でなければ、次に、読点の統合挿入尤度を予め定められた閾値と比較し、閾値以上であれば読点を挿入する旨の判定結果を生成する。読点の統合挿入尤度が閾値以上でなければ、句読点は挿入しない旨の判定結果を生成する。

（３）記号挿入判定方法３
　各記号挿入モデル毎に、重み付け後の句点挿入尤度、重み付け後の読点挿入尤度、重み付け後のＮＵＬＬ挿入尤度のうち、最大の挿入尤度の記号（句点、読点、ＮＵＬＬ）を求め、全ての記号挿入モデルで最も多く求められた記号（句点、読点、ＮＵＬＬ）を多数決により求めて判定結果とする。

　出力装置１０５は、記号の挿入された単語列の情報を記号挿入済単語列情報記憶手段１１５から読み出して出力するディスプレイ、プリンタ、ファイル装置、データ送信装置などである。

　次に、本実施の形態の全体の動作について図３のフローチャートを参照して詳細に説明する。

　処理装置１０１は、入力装置１０２から記号挿入対象となる単語列の情報が入力されると、それらを図２に示したように単語列情報記憶手段１１１に記憶する（Ｓ１０１）。

　次に処理装置１０１は、話し方特徴類似度計算手段１１２により、単語列情報記憶手段１１１に記憶された単語列の情報１０２１を読み出し、言い回しの特徴やポーズの取り方などの言語的あるいは音響的な話し方の特徴を抽出する（Ｓ１０２）。話し方の特徴を抽出する単位は、単語列情報記憶手段１１１に記憶されている単語列情報１０２１全体としても良いし、予め定められた単語数毎としても良い。次に処理装置１０１は、話し方特徴類似度計算手段１１２により、話し方特徴モデル記憶装置１０４－１～１０４－ｎから話し方特徴モデルを読み出し、ステップＳ１０２で抽出した入力単語列の話し方の特徴との類似度を、それぞれの話し方特徴モデル毎かつ抽出単位毎に算出する（Ｓ１０３）。ここで算出された話し方特徴モデル毎かつ抽出単位毎の類似度は、記号挿入判定が済むまで話し方特徴類似度計算手段１１２内の図示しないメモリに保存される。

　次に処理装置１０１は、単語列情報記憶手段１１１に記憶された単語列の情報１０２１中の先頭の１つの単語情報１０２２に含まれる単語に注目する（Ｓ１０４）。次に、記号挿入モデル記憶装置１０３－１～１０３－ｎから記号挿入モデルを読み出し、注目中の単語の直後に句点を挿入する句点挿入尤度、読点を挿入する読点挿入尤度および何も挿入しないＮＵＬＬ挿入尤度をそれぞれの記号挿入モデル毎に算出する（Ｓ１０５）。

　次に処理装置１０１は、記号挿入尤度計算手段１１３により、各記号挿入モデル毎に求めた記号挿入尤度に、対応する話し方特徴モデルと入力単語列の話し方の特徴との類似度を乗じることで、重み付けを行う（Ｓ１０６）。ここで使用する類似度は、抽出単位毎に算出されて保存されている類似度のうち、注目中の単語が属する抽出単位のものである。

　次に処理装置１０１は、記号挿入尤度計算手段１１３により、前述した（１）～（３）の何れかの記号挿入判定方法に従って、注目中の単語の直後への句読点の挿入可否および挿入する場合には句点、読点の何れの記号であるかを決定する（Ｓ１０７）。そして、記号挿入尤度計算手段１１３により、記号挿入判定結果に従って注目中の単語を含む出力単語情報を生成し、記号挿入済単語列情報記憶手段１１５へ記憶する（Ｓ１０８）。つまり、句点を挿入すべきと判定した場合には、注目中の単語の情報の次に句点の情報を付加した出力単語情報を生成し、読点を挿入すべきと判定した場合には、注目中の単語の情報の次に読点の情報を付加した出力単語情報を生成し、ＮＵＬＬを挿入すべきと判定した場合には、注目中の単語の情報だけを含む出力単語情報を生成し、それぞれ記号挿入済単語列情報記憶手段１１５に記憶する。

　処理装置１０１は、単語列情報記憶手段１１１に記憶された単語列の情報１０２１中の先頭の単語に注目した処理を終えると、単語列の情報１０２１中の２番目の単語に注目を移し（Ｓ１０９）、ステップＳ１０５～Ｓ１０８の処理を繰り返す。処理装置１０１は、単語列情報記憶手段１１１に記憶された単語列の情報１０２１中の最後尾の単語に注目した処理まで完了すると（ステップＳ１１０でＹＥＳ）、記号挿入済単語列情報記憶手段１１５に記憶された記号挿入済みの単語列の情報を出力装置１０５から出力する（Ｓ１１１）。

　次に本実施の形態の効果を説明する。

　本実施の形態によれば、話者毎の話し方の特徴の違いを考慮した記号挿入判定を行うことができる。その理由は、言い回しやポーズの取り方といった話者の言語的、音響的な話し方の特徴に応じた複数の記号挿入モデルのうち、入力単語列の話者の話し方の特徴にあった記号挿入モデルに重きをおいて句読点の挿入判定を行うためである。

『第１の実施の形態の実施例』
　次に、話し方特徴モデル、記号挿入モデル、話し方特徴類似度計算、記号挿入尤度計算、記号挿入判定を中心に、本実施の形態の一実施例について説明する。

（１）話し方特徴モデルの作成例

　図４に示されるように、まず、話者Ａ～Ｚ毎の学習データＤ_Ａ～Ｄ_Ｚを準備する。話者Ａの学習データＤ_Ａとしては、例えば、話者Ａの日常会話や講演などでの会話を録音した音声データ、あるいは、その音声データを人手によって文字化し、句点および読点を挿入し且つポーズ長などの音響的特徴量を付加したテキストデータが考えられる。話者Ａ以外の話者Ｂ～Ｚの学習データＤ_Ｂ～Ｄ_Ｚについても同様である。

　次に、学習データＤ_Ａ～Ｄ_Ｚを用いて各話者Ａ～Ｚ毎の話し方特徴モデルＳＭ_Ａ～ＳＭ_Ｚを作成する。本実施例では、話者毎の言語的、音響的特徴量を用いて話者毎の音声特徴モデルを作成する。使用する音響的特徴量としては、ポーズ長、話速などが考えられる。

　話者Ｙの学習データＤ_Ｙについて、記号Ｃ_ｋ（句点および読点）が挿入されるべき箇所を見つけ出し、記号Ｃ_ｋが挿入されるべき箇所の直前の単語ｗ_Ｙ，ｔと、ポーズ長dur(ｗ_Ｙ，ｔ,Ｃ_ｋ)とを抽出する。話者Ｙの学習データＤ_Ｙ全てに対して前記情報を抽出した後、話し方特徴モデルの分布関数として、直後のポーズ長がdur(ｗ_Ｙ，ｔ,Ｃ_ｋ)の単語ｗ_Ｙ，ｔの後ろに記号Ｃ_ｋが挿入される音声特徴モデルの分布関数ｆ_dur(x,Y,Ｃ_ｋ)を求める。ここで、xは音声特徴量であり、今の場合はポーズ長である。話者Ｙが発声した単語のうち、単語ｗ_Ｙ，ｔの発声した時のポーズ長がdur(ｗ_Ｙ，ｔ,Ｃ_ｋ)で且つ記号Ｃ_ｋが挿入される頻度をＮ(ｗ_Ｙ，ｔ,dur(ｗ_Ｙ，ｔ,Ｃ_ｋ))とすると、分布関数ｆ_dur(x,Y,Ｃ_ｋ)は次式で定義される。

　式（２）において、右辺の分母は、ポーズ長に関係なく学習データＤY中の単語ｗ_Ｙ，ｔの直後に記号Ｃ_ｋが挿入された回数の合計を表し、分子は、ポーズの長さdur(ｗ_Ｙ，ｔ,Ｃ_ｋ)がｘ以下のときに記号Ｃ_ｋが挿入される回数の合計を表す。つまり、ポーズ長がｘ以下で記号Ｃ_ｋが挿入されている割合を表しており、ポーズ長が変数である記号Ｃ_ｋが挿入される尤度（確率）の累積関数となる。

　ここで、挿入する記号を句点、読点とし、Ｃ_１が句点、Ｃ_２が読点とすると、分布関数ｆ_dur(x,Y,C_１)は、話者Ｙの話し方の特徴のうち、単語ｗ_Ｙ，ｔ直後での句点の使い方の特徴を表し、分布関数ｆ_dur(x,Y,C_２)は、話者Ｙの話し方の特徴のうち、単語ｗ_Ｙ，ｔ直後での読点の使い方の特徴を表しているとも言える。

　ただし、記号が挿入されない時、すなわちＣ_ｋ=NULLの時の分布関数ｆ_dur(x,Y,NULL)は次式で与えられるものとする。

　式（３）において、右辺の分母は式（２）と同様であり、分子は、ポーズの長さdur(ｗ_Ｙ，ｔ,NULL)が閾値ｘより大きいときに記号Ｃ_ｋが挿入される回数の合計を表す。つまり、ポーズ長がｘより大きい時の記号"NULL"が挿入される割合を表す。

　以上の例では、音響的特徴量としてポーズ長を用いたが、話速などの他の音響的特徴量を用いることもできるし、ポーズ長と話速といったように複数種類の音響的特徴量を用いることもできる。複数種類の音響的特徴量を用いる場合、それぞれの音響的特徴量毎の分布関数が生成され、それらに対して重みが付与される。

　図４の話し方特徴モデルＳＭ_Ｙは、上述のようにして作成された話者Ｙの話し方特徴モデルの分布関数に相当する。また、図４の話し方特徴モデルＳＭ_Ａ,ＳＭ_Ｂ,…,ＳＭ_Ｘ,ＳＭ_Ｚは、話者Ｙ以外の話者Ａ～Ｘ、Ｚについて話者Ｙと同様の方法で作成した話し方特徴モデルの分布関数に相当する。

　次に、話者Ａ～Ｚ毎の話し方特徴モデルＳＭ_Ａ～ＳＭ_Ｚにおいて、分布関数が類似している２つのモデルどうしをボトムアップ手法で１つのモデルにまとめる。図４の例では、話し方特徴モデルＳＭ_ＡとＳＭ_Ｂを１つの話し方特徴モデルＳＭ_ＡＢに、…、話し方特徴モデルＳＭ_ＹとＳＭ_Ｚを１つの話し方特徴モデルＳＭ_ＹＺに、それぞれまとめている。まとめ上げる方法としては、公知のクラスタリングの手法を用いる。総数ｎ個にまとめ上げられた話し方特徴モデルが、最終的に図１のｎ個の話し方特徴モデル記憶装置１０４－１～１０４－ｎに記憶される。

（２）話し方特徴類似度計算の例
　話し方特徴類似度計算手段１１２は、単語列情報記憶手段１１１に記憶された単語の表層情報および音声特徴量（ポーズ情報など）と、話し方特徴モデル記憶手段１０４－１～１０４－ｎに記憶された話し方特徴モデルを構成する上述した分布関数とから、単語単位で、話し方の特徴の近さの尤度（話し方の特徴類似度）を計算する。具体的には、ある単語ｗ_tのｊ番目の音声特徴量の値をｘ_t,j、ｉ番目の話し方特徴モデル記憶手段１０４－ｉに記憶された話し方特徴モデルのｊ個目の音声特徴量の分布関数をｆj(ｘ_t,j,i,C_ｋ)、その重みをａ_i,jとすると、ｉ番目の話し方特徴モデル記憶手段１０４－ｉに記憶された話し方特徴モデルとの話し方特徴類似度Ｔ_i,k(w_ｔ)は以下の式で計算される。

　ここで、句読点挿入の場合、Ｃ_ｋはＣ_１、Ｃ_２、NULLの３通りである。従って、Ｔ_i,１(ｗ_t)は単語ｗ_t直後での句点の使い方の特徴に関する類似度、Ｔ_i,２(ｗ_t)は単語ｗ_t直後での読点の使い方の特徴に関する類似度、Ｔ_i,NULL(ｗ_t)は単語ｗ_t直後で句読点を使わないことの特徴に関する類似度を、それぞれ示していると言える。また、ポーズ長と話速との２つの音声特徴量を使用する場合、ｊの取りうる値は１および２になる。重みａ_i,jは、定数を用いてもよいし、予備実験を行って経験的に調整してもよい。また、最急降下法等の公知の技術により教師データを与えてあらかじめ推定してもよい。特徴量を抽出する単位は、前述したように単語列情報記憶手段１１１に記憶されている所定個数毎の単位としても良いし、記憶されている全単語をまとめて１単位としても良い。

（３）記号挿入モデルの作成例
　記号挿入モデルは、話し方特徴モデルと対応したデータ、すなわち話者別に分類した後、類似した特徴を持つモデルでボトムアップ式にクラスタリングした話し方特徴モデルを作成する上で使用した学習データ全てを用いて作成する。例えば図４における話し方特徴モデルＳＭ_ＡＢ～ＳＭ_ＹＺが最終的なｎ個の話し方特徴モデルであった場合、話し方特徴モデルＳＭ_ＡＢに１対１対応の記号挿入モデルＫＭ_ＡＢは、話者Ａの学習データＤ_Ａと話者Ｂの学習データＤ_Ｂから生成する。記号挿入モデルは、前述したように記号付き単語ｎ－ｇｒａｍモデルなどの公知の技術を用いて作成することができる。作成された記号挿入モデルＫＭ_ＡＢ～ＫＭ_ＹＺは、図１のｎ個の記号挿入モデル記憶装置１０３－１～１０３－ｎに記憶される。

（４）記号挿入尤度の計算例
　記号挿入尤度計算手段１１３は、単語列情報記憶手段１１１に記憶された各単語の表層情報や品詞情報等の情報と、記号挿入モデル記憶手段１０３－１～１０３－ｎに記憶された記号挿入モデルとを用いて、記号挿入モデル毎に、或る単語ｗ_tの直後に記号Ｃ_ｋが挿入される（または記号が何も挿入されない（Ｃ_ｋ=NULL））確度の高さを示す記号挿入尤度を求める。単語情報Ｗ_tを持つ単語ｗ_tの直後に記号Ｃ_ｋが挿入される記号挿入尤度Ｓ_i,k(ｗ_t)は、前記公知の技術によって学習された、ｉ番目の記号挿入モデルに対する単語情報Ｗを持つ単語ｗの直後に記号Ｃが挿入される尤度関数ｇ_i(W,C)を用いて、以下の式で表される。

　式（５）において、右辺の分子のｇ_i(Ｗ_t,Ｃ_ｋ）は、ｎ単語（ｎ＞１）の単語情報を入力としたときの単語ｗ_tの直後に記号Ｃ_ｋが挿入される尤度であり、その尤度を単語ｗ_tの直後に挿入されうる記号について正規化したのがＳ_i,k(ｗ_t)となる。

（５）記号挿入判定
（５－１）例１
　記号挿入判定手段１１４は、まず、記号挿入尤度計算手段１１３で計算された記号挿入尤度と話し方特徴類似度計算手段１１２で計算される話し方類似度とを用いてモデル別記号挿入スコアを計算する。具体的には、ｉ番目の記号挿入モデルのモデル別記号挿入スコアF_i(ｗ_t,Ｃ_ｋ)は、単語ｗ_tについての話し方特徴モデル記憶装置１０４－ｉの話し方特徴モデルに対する音声特徴類似度Ｔ_i,k(ｗ_t)と、記号挿入モデル記憶装置１０３－ｉに記憶された記号挿入モデルに対する記号挿入尤度S_i,k(ｗ_t)とを用いて、以下の式で計算する。

　すなわち、ｉ番目の記号挿入モデルにおける単語ｗ_tの直後に句点が挿入されるモデル別記号挿入スコアF_i(ｗ_t,C_１)は、ｉ番目の記号挿入モデルから計算された単語ｗ_tの直後に句点が挿入される尤度Ｓ_i,１(ｗ_t)に、ｉ番目の話し方特徴モデルから計算された単語ｗ_t直後での句点の使い方の特徴に関する類似度Ｔ_i,１(ｗ_t)を重みとして乗じて計算される。また、ｉ番目の記号挿入モデルにおける単語ｗ_tの直後に読点が挿入されるモデル別記号挿入スコアF_i(ｗ_t,C_２)は、ｉ番目の記号挿入モデルから計算された単語ｗ_tの直後に読点が挿入される尤度Ｓ_i,２(ｗ_t)に、ｉ番目の話し方特徴モデルから計算された単語ｗ_t直後での読点の使い方の特徴に関する類似度Ｔ_i,２(ｗ_t)を重みとして乗じて計算される。さらに、ｉ番目の記号挿入モデルにおける単語ｗ_tの直後に句読点が挿入されないモデル別記号挿入スコアF_i(ｗ_t,C_NULL)は、ｉ番目の記号挿入モデルから計算された単語ｗ_tの直後に句読点が挿入されない尤度Ｓ_i,NULL(ｗ_t)に、ｉ番目の話し方特徴モデルから計算された単語ｗ_t直後に句読点を置かないことの特徴に関する類似度Ｔ_i,NULL(ｗ_t)を重みとして乗じて計算される。

　次に記号挿入判定手段１１４は、記号挿入判定に用いる統合記号挿入スコアF(ｗ_t,Ｃ_ｋ)を、モデル別記号挿入スコアF_i(ｗ_t,Ｃ_ｋ)を用いて以下の式で計算する。

　記号挿入スコアF(ｗ_t,Ｃ_ｋ)を求める記号挿入尤度の個数ｎ'は、記号挿入モデル（もしくは音声特徴モデル）の個数と一致していても良いし(n'＝n)、尤度の高いものから１つ以上選択するのでも良い(n'≠n)。

　次に記号挿入判定手段１１４は、以下の式に示すように、統合記号挿入スコアF(ｗ_t,Ｃ_ｋ)が最も大きくなった記号Ｃ^を出力する。ただし、Ｃ^=(NULL)(「記号挿入なし」）のときは、何も記号を挿入しない。

（５－２）例２
　記号挿入判定手段１１４は、例１と同様にして、記号挿入判定に用いる統合記号挿入スコアF(ｗ_t,Ｃ_ｋ)を計算する。

　次に記号挿入判定手段１１４は、次式に示すように、統合記号挿入スコアF(ｗ_t,Ｃ_ｋ)が閾値θ_ｋより大きい場合に、単語ｗ_tの直後に記号を挿入する。ここで、閾値θ_ｋは、記号Ｃ_ｋの種類によって異なっていても良く、調整可能である。挿入する記号の候補が句点、読点のように複数ある場合は、記号挿入の優先度をあらかじめ定めておき、優先度順に閾値の判定を行う。

（５－３）例３
　記号挿入判定手段１１４は、例１と同様にして、モデル別記号挿入スコアF_i(ｗ_t,Ｃ_ｋ)を計算する。次に、記号挿入モデル毎に記号挿入判定を行い、最も多く判定された記号を最終出力とする。具体的には、まず、次式に示すように、モデル別記号挿入スコアF_i(ｗ_t,Ｃ_ｋ)が最大となった記号Ｃ^ⁱを全ての記号挿入モデルについて求める。

　次に、次式に示すように、Ｃ^ⁱ＝Ｃ_ｋとなったモデル数を比較して、その数が最大となった記号Ｃ^を出力する。

　ただし、δ_ijは、ｉ＝ｊのときに１、それ以外のときに０をとる。

　次に、本実施例の全体の動作について図５のフローチャートを参照して詳細に説明する。

　処理装置１０１は、入力装置１０２から記号挿入対象となる単語列の情報が入力されると、それらを図２に示したように単語列情報記憶手段１１１に記憶する（図５のＳ２０１）。

　次に処理装置１０１は、単語列情報記憶手段１１１に記憶された単語列の情報１０２１中の先頭の１つの単語情報１０２２に含まれる単語に注目する（Ｓ２０２）。

　次に処理装置１０１は、話し方特徴類似度計算手段１１２により、注目中の単語の単語情報を単語列情報記憶手段１１１から読み出すと共に、話し方特徴モデル記憶装置１０４－１～１０４－ｎから話し方特徴モデルを読み出し、式（４）を用いて、注目中の単語とｎ個の話し方特徴モデルとの話し方の類似度を、句点、読点、ＮＵＬＬの各挿入記号別に算出する（Ｓ２０３）。

　次に処理装置１０１は、記号挿入尤度計算手段１１３により、注目中の単語の単語情報を単語列情報記憶手段１１１から読み出すと共に、記号挿入モデル記憶装置１０３－１～１０３－ｎから記号挿入モデルを読み出し、式（５）を用いて、注目中の単語の直後に句点、読点、ＮＵＬＬが挿入される記号挿入尤度をｎ個の記号挿入モデル別に算出する（Ｓ２０４）。

　次に処理装置１０１は、記号挿入尤度計算手段１１３により、式（６）を用いて、各記号挿入モデル毎に求めた記号挿入尤度に、対応する話し方特徴モデルと注目単語との話し方の類似度を乗じることで、重み付けを行う（Ｓ２０５）。

　次に処理装置１０１は、記号挿入尤度計算手段１１３により、前述した例１～例３の何れかの記号挿入判定方法に従って、注目中の単語の直後への句読点の挿入可否および挿入する場合には句点、読点の何れの記号であるかを決定する（Ｓ２０６）。そして、記号挿入尤度計算手段１１３により、記号挿入判定結果に従って注目中の単語を含む出力単語情報を生成し、記号挿入済単語列情報記憶手段１１５へ記憶する（Ｓ２０７）。

　処理装置１０１は、単語列情報記憶手段１１１に記憶された単語列の情報１０２１中の先頭の単語に注目した処理を終えると、単語列の情報１０２１中の２番目の単語に注目を移し（Ｓ２０８）、ステップＳ２０３～Ｓ２０７の処理を繰り返す。処理装置１０１は、単語列情報記憶手段１１１に記憶された単語列の情報１０２１中の最後尾の単語に注目した処理まで完了すると（ステップＳ２０９でＹＥＳ）、記号挿入済単語列情報記憶手段１１５に記憶された記号挿入済みの単語列の情報を出力装置１０５から出力する（Ｓ２１０）。

　なお、図５のフローチャートでは、１つの単語に注目した処理の中でその単語の話し方の特徴類似度と記号挿入尤度とを算出するようにしたが、最初に全ての単語の話し方の特徴類似度を算出しておき、次に１つの単語ずつ注目して記号挿入尤度を算出するようにしても良い。ただし、その場合には、算出した特徴類似度を重み付け時点まで記憶しておく必要がある。

『第２の実施の形態』
　図６を参照すると、本発明の第２の実施の形態に係る記号挿入装置２００は、図１に示した第１の実施の形態に係る記号挿入装置１００と比較して、ｎ個の記号挿入モデル記憶装置１０３－１～１０３－ｎに記憶されるｎ個の記号挿入モデルとｍ個の話し方特徴モデル記憶装置１０４－１～１０４－ｍに記憶されるｍ個の話し方特徴モデルとは、１対１に対応していない点で相違する。

　図４を参照して説明したように、第１の実施の形態では、記号挿入モデルの作成に使用した学習データと、話し方特徴モデルの作成に使用した学習データとが同じあるため、記号挿入モデルと話し方特徴モデルとは１対１に対応していた。しかし、記号挿入モデルの作成に使用する学習データと話し方特徴モデルの作成に使用する学習データとは、モデルの作成の仕方によっては必ずしも同一になるとは限らず、或る記号挿入モデルの作成に使用する学習データの中に、複数の話し方特徴モデルの作成に使用した学習データが混在する場合もあり得る。

　例えば、図４において、各話者Ａ～Ｚの学習データＤ_Ａ～Ｄ_Ｚにｍ種類のジャンル（例えば、各話者がアナウンサーであるとした場合のニュース番組やバラエティ番組といったジャンル）のデータが含まれており、記号挿入モデルを各ジャンル別に作成し、話し方特徴モデルＳＭ_ＡＢ～ＳＭ_ＹＺについては第１の実施の形態と同じように作成したとすると、ｎ個の記号挿入モデルとｍ個の話し方特徴モデルとは１対１に対応しなくなる。本実施の形態は、このような状況の下でも、話者毎の話し方の特徴の違いを考慮した記号挿入判定を可能にすることを目的とする。

　そのために本実施の形態は、ｎ個の記号挿入モデルとｍ個の話し方特徴モデルとの関連度を記憶するモデル関連度記憶装置２０１を新たに備え、また処理装置１０１は、記号挿入判定手段１１４の代わりに記号挿入判定手段２０２を備えている。

　モデル関連度記憶装置２０１は、話し方特徴モデル記憶装置１０４－ｉ（１≦ｉ≦ｍ）に記憶された話し方特徴モデルと、記号挿入モデル記憶装置１０３－ｊ（１≦ｊ≦ｎ）に記憶された記号挿入モデルとの関連度Ｏ_i,jを記憶している。図７にモデル関連度記憶装置２０１に記憶された関連度Ｏ_i,jの一例を示す。この例によれば、例えば話し方特徴モデル記憶装置１０４－４に記憶された話し方特徴モデルと、記号挿入モデル記憶装置１０３－２に記憶された記号挿入モデルとのモデル関連度Ｏ_2,4は、0.03となる。各モデル関連度Ｏ_i,jは、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数である。モデル関連度Ｏ_i,jは、相互情報量などを用いて求めることができる。

　処理装置１０１の記号挿入判定手段２０２は、第１の実施の形態における記号挿入判定手段１１４と比較して、ｉ番目の記号挿入モデルのモデル別記号挿入スコアF_i(ｗ_t,Ｃ_ｋ)を、次式を使用して計算する点で相違する。

　第１の実施の形態では話し方特徴モデルと記号挿入モデルが１対１に対応していたため、話し方特徴類似度を重みとして用いて式（６）のようにモデル別記号挿入スコアを求めたが、本実施の形態では話し方特徴モデルと記号挿入モデルとが１対１に対応していないため、話し方特徴モデルと記号挿入モデルのデータの関連度（対応関係）を表すＯ_i,jをさらに重みとして用いて、記号Ｃ_ｋが挿入されるモデル別記号挿入スコアを求めている。

　上記算出したモデル別記号挿入スコアより記号挿入判定する方法を含め、その他の構成および動作は、第１の実施の形態と同じである。

　次に、本実施の形態の効果について説明する。

　本実施の形態によれば、第１の実施の形態と同様の効果が得られると同時に、話し方特徴モデルと記号挿入モデルとを必ずしも１対１に対応させる必要がないため、モデル作成の自由度を高めることができる。

『第３の実施の形態』
　図８を参照すると、本発明の第３の実施の形態に係る音声認識装置３００は、第１または第２の実施の形態に係る記号挿入装置１００または２００を構成する処理装置１０１に、音声認識手段３１１と単語列情報生成手段３１２とを新たに設け、かつ、処理装置１０１にマイクロフォン３０１を接続した構成を有する。音声認識手段３１１および単語列情報生成手段３１２は、処理装置１０１を構成するコンピュータとプログラムとによって実現することができる。

　マイクロフォン３０１から入力された音声信号は処理装置１０１の音声認識手段３１１に伝達され、そこで公知の音声認識処理が行われて、音声認識結果が単語列情報生成手段３１２に出力される。音声認識結果には、どの単語が話されたかという情報以外に、その単語が発せられた時刻やその単語の品詞情報（品詞や活用形などの情報）が付与され、所定のフォーマットで出力される。

　単語列情報生成手段３１２は、所定のフォーマットで出力された音声認識結果に対してパターンマッチングにより単語の表層情報、品詞情報を取得する。また、前後の単語の始端時刻、終端時刻の差を取ることによってポーズ長を計算する。そして、単語列情報生成手段３１２は、図２に示したような単語列情報１０２１を生成し、単語列情報記憶手段１１１に記憶する。

　以降、第１または第２の実施の形態と同様の構成および動作によって、単語列情報記憶手段１１１に記憶された単語列中への句読点などの記号の挿入が行われる。

　次に、本実施の形態の効果を説明する。

　本実施の形態によれば、話者が発する音声を音声認識し、この音声認識した単語列にして引き続き、句読点などの記号の挿入を自動的に行う音声認識装置が得られる。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年２月１３日に出願された日本出願特願２００８－０３１２８７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、音声信号をテキスト化する音声認識装置や音声認識装置をコンピュータ上に実現するためのプログラムといった用途に適応できる。また、音声や映像コンテンツを適切な単位に区切って、分割された単位でコンテンツを表示・再生したり検索したりするコンテンツ再生装置やコンテンツ検索装置、録音された音声データの書き起こし支援装置といった用途にも適応可能である。

Claims

　音声情報を文字化した単語列に記号を挿入する記号挿入装置であって、
　記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行うことを特徴とする記号挿入装置。
　前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算手段と、
　前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算手段と、
　前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定手段とを備えることを特徴とする請求項１に記載の記号挿入装置。
　前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項１または２に記載の記号挿入装置。
　前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項２または３に記載の記号挿入装置。
　前記関連度を保持するモデル関連度記憶手段を備えることを特徴とする請求項２乃至４の何れか１項に記載の記号挿入装置。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項２乃至５の何れか１項に記載の記号挿入装置。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項２乃至５の何れか１項に記載の記号挿入装置。
　前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項６または７に記載の記号挿入装置。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項２乃至５の何れか１項に記載の記号挿入装置。
　入力音声に対して音声認識を行って音声認識結果を出力する音声認識手段と、該音声認識手段から出力された音声認識結果から請求項１乃至９の何れか１項に記載される記号挿入装置に入力する記号挿入対象となる単語列を生成する単語列情報生成手段とを備えることを特徴とする音声認識装置。
　音声情報を文字化した単語列に記号を挿入する記号挿入方法であって、
　記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行うことを特徴とする記号挿入方法。
　記号挿入尤度計算手段が、前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算ステップと、
　話し方特徴類似度計算手段が、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算ステップと、
　記号挿入判定手段が、前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定ステップとを含むことを特徴とする請求項１１に記載の記号挿入方法。
　前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項１１または１２に記載の記号挿入方法。
　前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項１２または１３に記載の記号挿入方法。
　前記記号挿入判定手段は、前記関連度を保持するモデル関連度記憶手段から前記関連度を入力することを特徴とする請求項１２乃至１４の何れか１項に記載の記号挿入方法。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項１２乃至１５の何れか１項に記載の記号挿入方法。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項１２乃至１５の何れか１項に記載の記号挿入方法。
　前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項１６または１７に記載の記号挿入方法。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項１２乃至１５の何れか１項に記載の記号挿入方法。
　音声情報を文字化した単語列に記号を挿入する記号挿入装置を構成するコンピュータを、記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う手段として機能させるためのプログラム。
　前記コンピュータを、
　前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算手段と、
　前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算手段と、
　前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定手段として機能させるための請求項２０に記載のプログラム。
　前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項２０または２１に記載のプログラム。
　前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項２１または２２に記載のプログラム。
　前記コンピュータは、前記関連度を保持するモデル関連度記憶手段を備えることを特徴とする請求項２１乃至２３の何れか１項に記載のプログラム。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項２１乃至２４の何れか１項に記載のプログラム。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項２１乃至２４の何れか１項に記載のプログラム。
　前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項２５または２６に記載のプログラム。
　前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項２１乃至２４の何れか１項に記載のプログラム。
　前記コンピュータを、さらに、入力音声に対して音声認識を行って音声認識結果を出力する音声認識手段と、該音声認識手段から出力された音声認識結果から前記記号挿入対象となる単語列を生成する単語列情報生成手段として機能させるための請求項２０乃至２８の何れか１項に記載のプログラム。