JPWO2009101837A1 - 記号挿入装置および記号挿入方法 - Google Patents

記号挿入装置および記号挿入方法 Download PDF

Info

Publication number
JPWO2009101837A1
JPWO2009101837A1 JP2009553380A JP2009553380A JPWO2009101837A1 JP WO2009101837 A1 JPWO2009101837 A1 JP WO2009101837A1 JP 2009553380 A JP2009553380 A JP 2009553380A JP 2009553380 A JP2009553380 A JP 2009553380A JP WO2009101837 A1 JPWO2009101837 A1 JP WO2009101837A1
Authority
JP
Japan
Prior art keywords
symbol insertion
model
symbol
speech
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009553380A
Other languages
English (en)
Other versions
JP5141695B2 (ja
Inventor
祐 北出
祐 北出
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009553380A priority Critical patent/JP5141695B2/ja
Publication of JPWO2009101837A1 publication Critical patent/JPWO2009101837A1/ja
Application granted granted Critical
Publication of JP5141695B2 publication Critical patent/JP5141695B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

話者毎の話し方の特徴の違いを考慮した記号挿入判定を可能にする。記号挿入尤度計算手段113は、音声情報を文字化した単語列に対して、話し方の特徴別に設けられた複数の記号挿入モデル毎に記号挿入尤度を求める。話し方特徴類似度計算手段112は、単語列の話し方の特徴と複数の話し方特徴モデルとの類似度を求める。記号挿入判定手段114は、単語列について複数の記号挿入モデル毎に求められた記号挿入尤度に対して、単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および記号挿入モデルと話し方特徴モデルとの関連度により重み付けを行って、単語列への記号挿入判定を行う。

Description

本発明は、記号挿入装置および記号挿入方法に関し、特に書き起こしや音声認識したテキストに対して、句読点などの特定の記号を挿入する記号挿入装置および記号挿入方法に関する。
講演や会議などで話者が発した音声を文字化して保存する際、日本語にあっては適切な箇所に句点を挿入することで、文の境界を明確にする必要がある。また、文中の適切な箇所に読点を挿入することで、節などの境界を明確にする必要もある。ところが、句点や読点などの記号自体は話者から明示的に発声されることはない。そのため、文字化された単語列中のどの箇所に記号を挿入すべきかを検出する技術が必要になる。本発明はそのような記号挿入技術に関する。
本発明に関連する記号挿入技術の一例が非特許文献1の3.2節に記載されている。非特許文献1に記載される記号挿入技術では、話者がとるポーズの長さと、そのポーズの前後に現れる単語情報とを用いて文境界の検出を行う。具体的には、句点を含まないがポーズ情報を含む文字列Xと、句点を含む文字列Yとを別の言語と考え、統計的機械翻訳により、次式に示すようにP(Y|X)を最大にする文字列Yを求める問題として定式化する。
Figure 2009101837
より具体的には、ポーズが句点に変換されうる(P(X|Y)=1となる)全ての箇所に対して、句点を挿入する場合としない場合の言語モデル尤度P(Y)を比較し、句点挿入の判定を行う。ここで、変換モデルP(X|Y)には、ポーズ前後の表現とポーズ長に依存するモデルを用いる。また言語モデル尤度P(Y)の計算には、文境界が人手により付与されたCSJ(日本語話し言葉コーパス)の書き起こしから学習された単語3−gramモデルを用いる。
下岡ら,"日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化,"自然言語処理,2005年第12巻3号。
本発明に関連する上記の記号挿入技術によれば、或る話者が発した音声を文字化した単語列、たとえば「〜保温効果が得られるとこれにより体感温度が約2度上昇します」という単語列において、「得られると」の直後のポーズ長が充分に長い場合に、その箇所が文境界と判断され、「〜保温効果が得られると。これにより体感温度が約2度上昇します」というように句点が挿入される。反対に、「得られると」の直後のポーズ長が充分に短い場合は、その箇所は文境界と判断されず、「〜保温効果が得られるとこれにより体感温度が約2度上昇します」全体が1文として扱われる。このように極端に長いポーズ長が現れる箇所では、話者の相違にかかわらず、記号挿入箇所を或る程度の精度で検出することができる。
しかしながら、話し方は話者毎に相違するのが一般的であり、句読点挿入箇所でのポーズの取り方や句末・文末表現は話者によって異なる。例えば、「得られると」の直後のポーズ長が同じになる複数の話者でも、話速の早い人の場合、「得られると」直後のポーズ長が他の箇所のポーズ長よりも相対的に長くなるため、句点を挿入する箇所の可能性が高くなり、話速の遅い人の場合、その逆になる。また、「〜得られると。」の如き「と文末」の言い回しを滅多にしない話者もいれば、そうでない話者もいる。
本発明に関連する上記の記号挿入技術では、CSJ(日本語話し言葉コーパス)の書き起こしから学習された1種類のモデル(単語3−gramモデル)を使用して記号挿入尤度を算出しているため、話者毎の話し方の特徴の違いを考慮した記号挿入判定は行えない。
本発明の目的は、言い回しやポーズの取り方といった話者の言語的、音響的な話し方の特徴に応じた記号挿入モデルを使用して記号の挿入判定を行うことにより、話者毎の話し方の特徴の違いを考慮した記号挿入判定を可能にすることにある。
本発明の記号挿入装置は、音声情報を文字化した単語列に記号を挿入する記号挿入装置であって、記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う。
本発明によれば、話者毎の話し方の特徴の違いを考慮した記号挿入判定が可能となる。その理由は、言い回しやポーズの取り方といった話者の言語的、音響的な話し方の特徴に応じた複数の記号挿入モデルのうち、入力単語列の話者の話し方の特徴にあった記号挿入モデルに重きをおいて記号の挿入判定を行うためである。
本発明の第1の実施の形態のブロック図である。 記号挿入対象となる単語列情報の構成例を示す図である。 本発明の第1の実施の形態における処理の流れを示すフローチャートである。 話し方特徴モデルと記号挿入モデルとを同じ学習データを用いて作成する方法の説明図である。 本発明の第1の実施の形態の実施例における処理の流れを示すフローチャートである。 本発明の第2の実施の形態のブロック図である。 記号挿入モデルと話し方特徴モデルとの関連度の一例を示す図である。 本発明の第3の実施の形態のブロック図である。
符号の説明
100、200…記号挿入装置
101…処理装置
102…入力装置
103−1〜103−n…記号挿入モデル記憶装置
104−1〜104−n…話し方特徴モデル記憶装置
105…出力装置
111…単語列情報記憶手段
112…話し方特徴類似度計算手段
113…記号挿入尤度計算手段
114、202…記号挿入判定手段
115…記号挿入済単語列情報記憶手段
201…モデル関連度記憶装置
300…音声認識装置
301…マイクロフォン
311…音声認識手段
312…単語列情報生成手段
次に、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。以下では、日本語による話し言葉の単語列に句読点を挿入する場合を例にするが、例えば英語による話し言葉の単語列にカンマやピリオドを挿入するなど、本発明は任意の言語および任意の記号について適用可能である。なお、スペースや改行なども本発明の記号の概念に含まれるものである。
『第1の実施の形態』
図1を参照すると、本発明の第1の実施の形態に係る記号挿入装置100は、処理装置101と、この処理装置101に接続された入力装置102、n個の記号挿入モデル記憶装置103−1〜103−n、同じくn個の話し方特徴モデル記憶装置104−1〜104−nおよび出力装置105とから構成されている。
また、処理装置101は、単語列情報記憶手段111、話し方特徴類似度計算手段112、記号挿入尤度計算手段113、記号挿入判定手段114および記号挿入済単語列情報記憶手段115を備えている。
話し方特徴類似度計算手段112、記号挿入尤度計算手段113および記号挿入判定手段114は、例えば処理装置101を構成するコンピュータとその上で実行されるプログラムとで実現することができる。プログラムは、磁気ディスク等のコンピュータ可読記録媒体に記録されており、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータ上に話し方特徴類似度計算手段112、記号挿入尤度計算手段113および記号挿入判定手段114を実現する。また各記憶装置103−1〜103−n、104−1〜104−n、処理装置101中の単語列情報記憶手段111および記号挿入済単語列情報記憶手段115は、コンピュータに備わる主記憶や補助記憶装置で実現することができる。
入力装置102は、記号挿入対象となる話し言葉の単語列の情報を処理装置101に入力する装置であり、キーボードやファイル装置、あるいはデータ受信装置などで構成される。話し言葉の単語列の情報は、書き起こしテキストや音声認識テキストに対して、話し方特徴類似度計算手段112および記号挿入尤度計算手段113で必要とする文法情報(たとえば品詞情報)および音響情報(たとえばポーズ情報)を付加したものである。
単語列情報記憶手段111は、入力装置102から入力された単語列の情報を記憶する。図2を参照すると、単語列情報記憶手段111に記憶される単語列情報1021は、各単語毎の単語情報1022が単語の発声の順番通りに並べられている。また、各単語情報1022は、当該単語の表層情報1023、当該単語の品詞や活用形を示す品詞情報1024、当該単語と直後の単語との間のポーズ長1025、その他の情報を含んでいる。その他の情報としては、話速などがある。
記号挿入モデル記憶装置103−1〜103−nは、話し方の特徴がそれぞれ異なる話者の学習データを用いて学習した記号挿入モデルを記憶する。記号挿入モデルは、言語情報(単語の表層情報、品詞情報など)および音響情報(ポーズ情報など)を用いて、句点および読点の挿入する確率をモデル化したものである。記号挿入モデルは、記号付き単語n−gramモデルやサポートベクターマシン(SVM)、条件付確率場(CRF)などの識別モデル(非特許文献1)、ルールベースのモデルなどの公知の技術を用いて作成可能である。個々の記号挿入モデル自体は、非特許文献1などで用いられる記号挿入のモデルと同じであり、それぞれ異なる話し方の特徴別に記号挿入モデルが設けられている点が従来との相違点である。
記号挿入尤度計算手段113は、単語列情報記憶手段111から単語情報1022の単位で単語列情報1021を読み出し、各単語情報1022毎に、その単語情報を持つ単語の直後に句点および読点が挿入される確度の高さを示す記号挿入尤度および句読点が挿入されない確度の高さを示す記号挿入尤度を、記号挿入モデル記憶装置103−1〜103−nに記憶された記号挿入モデル毎に計算する手段である。
話し方特徴モデル記憶装置104−1〜104−nは、話し方の特徴がそれぞれ異なる話者の学習データを用いて学習した話し方特徴モデルを記憶する。話し方特徴モデルは、話者の音声情報を利用して、話し方の特徴をモデル化したものである。音声情報には、言語情報(文末語尾表現の頻度情報など)や音響情報(ポーズ情報や話速の情報、発話継続時間長など)などが挙げられる。本実施の形態の場合、話し方特徴モデル記憶装置104−1〜104−nは、記号挿入モデル記憶装置103−1〜103−nに1対1に対応する。すなわち、話し方特徴モデル記憶装置104−iに記憶される話し方特徴モデルは、対応する記号挿入モデル記憶装置103−iに記憶される記号挿入モデルの学習に使用した学習データの話者の話し方の特徴をモデル化したものである。
音響情報を用いる話し方特徴モデルの単純な例としては、例えば、単語別の話速値やポーズ長、文節単位もしくは発話単位での平均話速値や平均ポーズ長などがある。言語情報を用いる話し方特徴モデルの単純な例としては、文末語尾表現の頻度情報がある。話し方特徴モデルの他の例については後の実施例で詳細に説明する。
話し方特徴類似度計算手段112は、単語列情報記憶手段111から単語情報1022の単位で単語列情報1021を読み出して、話し方の特徴を抽出し、この抽出した話し方の特徴と、話し方特徴モデル記憶装置104−1〜104−nに記憶されている話し方特徴モデルでモデル化されている話し方の特徴との類似度を計算する手段である。ここで、単語列情報1021から話し方の特徴を抽出する単位は、予め定められた単語数毎としても良いし、1話者の全発話としても良く、また単語列情報記憶手段111に記憶されている単語列情報1021全体としても良い。
記号挿入判定手段114は、単語列情報記憶手段111に記憶された単語列について記号挿入尤度計算手段113によって記号挿入モデル毎に求められた記号挿入尤度に対して、話し方特徴類似度計算手段112によって求められた当該単語列の話し方の特徴と複数の話し方特徴モデルとの類似度、および記号挿入モデルと話し方特徴モデルとの関連度により重み付けを行って、単語列への記号挿入判定を行い、その判定結果に従って記号を挿入した単語列の情報を記号挿入済単語列情報記憶手段115に保存する手段である。
本実施の形態の場合、話し方特徴モデル記憶装置104−1〜104−nと記号挿入モデル記憶装置103−1〜103−nとは1対1に対応するため、記号挿入判定手段114は、記号挿入尤度計算手段113で求められた各記号挿入モデル別の記号挿入尤度に、対応する話し方特徴モデルとの類似度を乗じることで、重み付けを行う。
また記号挿入判定手段114は、各記号挿入モデル別の重み付け後の記号挿入尤度を使って、例えば以下の何れかの方法で句読点の挿入可否および挿入する記号の種類を決定する。
(1)記号挿入判定方法1
各記号挿入モデルの重み付け後の句点挿入尤度のうちの上位n'個(n'は1以上、n以下の定数。以下同じ)の総和を句点の統合挿入尤度、各記号挿入モデルの重み付け後の読点挿入尤度のうちの上位n'個の総和を読点の統合挿入尤度、各記号挿入モデルの重み付け後のNULL挿入尤度(句点も読点も挿入されない尤度)のうちの上位n'個の総和をNULLの統合挿入尤度として算出する。次に、統合挿入尤度の最も大きいものを記号挿入判定結果とする。例えば、3つの統合挿入尤度のうち、句点の統合挿入尤度が最も大きければ、句点を挿入する旨の判定結果を生成する。
(2)記号挿入判定方法2
各記号挿入モデルの重み付け後の句点挿入尤度のうちの上位n'個の総和を句点の統合挿入尤度、各記号挿入モデルの重み付け後の読点挿入尤度のうちの上位n'個の総和を読点の統合挿入尤度として算出する。次に、複数の記号間に予め定められた優先順位が、例えば優先度の高い順に句点、読点であった場合、まず、句点の統合挿入尤度を予め定められた閾値と比較し、閾値以上であれば句点を挿入する旨の判定結果を生成する。句点の統合挿入尤度が閾値以上でなければ、次に、読点の統合挿入尤度を予め定められた閾値と比較し、閾値以上であれば読点を挿入する旨の判定結果を生成する。読点の統合挿入尤度が閾値以上でなければ、句読点は挿入しない旨の判定結果を生成する。
(3)記号挿入判定方法3
各記号挿入モデル毎に、重み付け後の句点挿入尤度、重み付け後の読点挿入尤度、重み付け後のNULL挿入尤度のうち、最大の挿入尤度の記号(句点、読点、NULL)を求め、全ての記号挿入モデルで最も多く求められた記号(句点、読点、NULL)を多数決により求めて判定結果とする。
出力装置105は、記号の挿入された単語列の情報を記号挿入済単語列情報記憶手段115から読み出して出力するディスプレイ、プリンタ、ファイル装置、データ送信装置などである。
次に、本実施の形態の全体の動作について図3のフローチャートを参照して詳細に説明する。
処理装置101は、入力装置102から記号挿入対象となる単語列の情報が入力されると、それらを図2に示したように単語列情報記憶手段111に記憶する(S101)。
次に処理装置101は、話し方特徴類似度計算手段112により、単語列情報記憶手段111に記憶された単語列の情報1021を読み出し、言い回しの特徴やポーズの取り方などの言語的あるいは音響的な話し方の特徴を抽出する(S102)。話し方の特徴を抽出する単位は、単語列情報記憶手段111に記憶されている単語列情報1021全体としても良いし、予め定められた単語数毎としても良い。次に処理装置101は、話し方特徴類似度計算手段112により、話し方特徴モデル記憶装置104−1〜104−nから話し方特徴モデルを読み出し、ステップS102で抽出した入力単語列の話し方の特徴との類似度を、それぞれの話し方特徴モデル毎かつ抽出単位毎に算出する(S103)。ここで算出された話し方特徴モデル毎かつ抽出単位毎の類似度は、記号挿入判定が済むまで話し方特徴類似度計算手段112内の図示しないメモリに保存される。
次に処理装置101は、単語列情報記憶手段111に記憶された単語列の情報1021中の先頭の1つの単語情報1022に含まれる単語に注目する(S104)。次に、記号挿入モデル記憶装置103−1〜103−nから記号挿入モデルを読み出し、注目中の単語の直後に句点を挿入する句点挿入尤度、読点を挿入する読点挿入尤度および何も挿入しないNULL挿入尤度をそれぞれの記号挿入モデル毎に算出する(S105)。
次に処理装置101は、記号挿入尤度計算手段113により、各記号挿入モデル毎に求めた記号挿入尤度に、対応する話し方特徴モデルと入力単語列の話し方の特徴との類似度を乗じることで、重み付けを行う(S106)。ここで使用する類似度は、抽出単位毎に算出されて保存されている類似度のうち、注目中の単語が属する抽出単位のものである。
次に処理装置101は、記号挿入尤度計算手段113により、前述した(1)〜(3)の何れかの記号挿入判定方法に従って、注目中の単語の直後への句読点の挿入可否および挿入する場合には句点、読点の何れの記号であるかを決定する(S107)。そして、記号挿入尤度計算手段113により、記号挿入判定結果に従って注目中の単語を含む出力単語情報を生成し、記号挿入済単語列情報記憶手段115へ記憶する(S108)。つまり、句点を挿入すべきと判定した場合には、注目中の単語の情報の次に句点の情報を付加した出力単語情報を生成し、読点を挿入すべきと判定した場合には、注目中の単語の情報の次に読点の情報を付加した出力単語情報を生成し、NULLを挿入すべきと判定した場合には、注目中の単語の情報だけを含む出力単語情報を生成し、それぞれ記号挿入済単語列情報記憶手段115に記憶する。
処理装置101は、単語列情報記憶手段111に記憶された単語列の情報1021中の先頭の単語に注目した処理を終えると、単語列の情報1021中の2番目の単語に注目を移し(S109)、ステップS105〜S108の処理を繰り返す。処理装置101は、単語列情報記憶手段111に記憶された単語列の情報1021中の最後尾の単語に注目した処理まで完了すると(ステップS110でYES)、記号挿入済単語列情報記憶手段115に記憶された記号挿入済みの単語列の情報を出力装置105から出力する(S111)。
次に本実施の形態の効果を説明する。
本実施の形態によれば、話者毎の話し方の特徴の違いを考慮した記号挿入判定を行うことができる。その理由は、言い回しやポーズの取り方といった話者の言語的、音響的な話し方の特徴に応じた複数の記号挿入モデルのうち、入力単語列の話者の話し方の特徴にあった記号挿入モデルに重きをおいて句読点の挿入判定を行うためである。
『第1の実施の形態の実施例』
次に、話し方特徴モデル、記号挿入モデル、話し方特徴類似度計算、記号挿入尤度計算、記号挿入判定を中心に、本実施の形態の一実施例について説明する。
(1)話し方特徴モデルの作成例
図4に示されるように、まず、話者A〜Z毎の学習データD〜Dを準備する。話者Aの学習データDとしては、例えば、話者Aの日常会話や講演などでの会話を録音した音声データ、あるいは、その音声データを人手によって文字化し、句点および読点を挿入し且つポーズ長などの音響的特徴量を付加したテキストデータが考えられる。話者A以外の話者B〜Zの学習データD〜Dについても同様である。
次に、学習データD〜Dを用いて各話者A〜Z毎の話し方特徴モデルSM〜SMを作成する。本実施例では、話者毎の言語的、音響的特徴量を用いて話者毎の音声特徴モデルを作成する。使用する音響的特徴量としては、ポーズ長、話速などが考えられる。
話者Yの学習データDについて、記号C(句点および読点)が挿入されるべき箇所を見つけ出し、記号Cが挿入されるべき箇所の直前の単語wY,tと、ポーズ長dur(wY,t,C)とを抽出する。話者Yの学習データD全てに対して前記情報を抽出した後、話し方特徴モデルの分布関数として、直後のポーズ長がdur(wY,t,C)の単語wY,tの後ろに記号Cが挿入される音声特徴モデルの分布関数fdur(x,Y,C)を求める。ここで、xは音声特徴量であり、今の場合はポーズ長である。話者Yが発声した単語のうち、単語wY,tの発声した時のポーズ長がdur(wY,t,C)で且つ記号Cが挿入される頻度をN(wY,t,dur(wY,t,C))とすると、分布関数fdur(x,Y,C)は次式で定義される。
Figure 2009101837
式(2)において、右辺の分母は、ポーズ長に関係なく学習データDY中の単語wY,tの直後に記号Cが挿入された回数の合計を表し、分子は、ポーズの長さdur(wY,t,C)がx以下のときに記号Cが挿入される回数の合計を表す。つまり、ポーズ長がx以下で記号Cが挿入されている割合を表しており、ポーズ長が変数である記号Cが挿入される尤度(確率)の累積関数となる。
ここで、挿入する記号を句点、読点とし、Cが句点、Cが読点とすると、分布関数fdur(x,Y,C)は、話者Yの話し方の特徴のうち、単語wY,t直後での句点の使い方の特徴を表し、分布関数fdur(x,Y,C)は、話者Yの話し方の特徴のうち、単語wY,t直後での読点の使い方の特徴を表しているとも言える。
ただし、記号が挿入されない時、すなわちC=NULLの時の分布関数fdur(x,Y,NULL)は次式で与えられるものとする。
Figure 2009101837
式(3)において、右辺の分母は式(2)と同様であり、分子は、ポーズの長さdur(wY,t,NULL)が閾値xより大きいときに記号Cが挿入される回数の合計を表す。つまり、ポーズ長がxより大きい時の記号"NULL"が挿入される割合を表す。
以上の例では、音響的特徴量としてポーズ長を用いたが、話速などの他の音響的特徴量を用いることもできるし、ポーズ長と話速といったように複数種類の音響的特徴量を用いることもできる。複数種類の音響的特徴量を用いる場合、それぞれの音響的特徴量毎の分布関数が生成され、それらに対して重みが付与される。
図4の話し方特徴モデルSMは、上述のようにして作成された話者Yの話し方特徴モデルの分布関数に相当する。また、図4の話し方特徴モデルSM,SM,…,SM,SMは、話者Y以外の話者A〜X、Zについて話者Yと同様の方法で作成した話し方特徴モデルの分布関数に相当する。
次に、話者A〜Z毎の話し方特徴モデルSM〜SMにおいて、分布関数が類似している2つのモデルどうしをボトムアップ手法で1つのモデルにまとめる。図4の例では、話し方特徴モデルSMとSMを1つの話し方特徴モデルSMABに、…、話し方特徴モデルSMとSMを1つの話し方特徴モデルSMYZに、それぞれまとめている。まとめ上げる方法としては、公知のクラスタリングの手法を用いる。総数n個にまとめ上げられた話し方特徴モデルが、最終的に図1のn個の話し方特徴モデル記憶装置104−1〜104−nに記憶される。
(2)話し方特徴類似度計算の例
話し方特徴類似度計算手段112は、単語列情報記憶手段111に記憶された単語の表層情報および音声特徴量(ポーズ情報など)と、話し方特徴モデル記憶手段104−1〜104−nに記憶された話し方特徴モデルを構成する上述した分布関数とから、単語単位で、話し方の特徴の近さの尤度(話し方の特徴類似度)を計算する。具体的には、ある単語wtのj番目の音声特徴量の値をxt,j、i番目の話し方特徴モデル記憶手段104−iに記憶された話し方特徴モデルのj個目の音声特徴量の分布関数をfj(xt,j,i,C)、その重みをai,jとすると、i番目の話し方特徴モデル記憶手段104−iに記憶された話し方特徴モデルとの話し方特徴類似度Ti,k(w)は以下の式で計算される。
Figure 2009101837
ここで、句読点挿入の場合、CはC、C、NULLの3通りである。従って、Ti,1(wt)は単語wt直後での句点の使い方の特徴に関する類似度、Ti,2(wt)は単語wt直後での読点の使い方の特徴に関する類似度、Ti,NULL(wt)は単語wt直後で句読点を使わないことの特徴に関する類似度を、それぞれ示していると言える。また、ポーズ長と話速との2つの音声特徴量を使用する場合、jの取りうる値は1および2になる。重みai,jは、定数を用いてもよいし、予備実験を行って経験的に調整してもよい。また、最急降下法等の公知の技術により教師データを与えてあらかじめ推定してもよい。特徴量を抽出する単位は、前述したように単語列情報記憶手段111に記憶されている所定個数毎の単位としても良いし、記憶されている全単語をまとめて1単位としても良い。
(3)記号挿入モデルの作成例
記号挿入モデルは、話し方特徴モデルと対応したデータ、すなわち話者別に分類した後、類似した特徴を持つモデルでボトムアップ式にクラスタリングした話し方特徴モデルを作成する上で使用した学習データ全てを用いて作成する。例えば図4における話し方特徴モデルSMAB〜SMYZが最終的なn個の話し方特徴モデルであった場合、話し方特徴モデルSMABに1対1対応の記号挿入モデルKMABは、話者Aの学習データDと話者Bの学習データDから生成する。記号挿入モデルは、前述したように記号付き単語n−gramモデルなどの公知の技術を用いて作成することができる。作成された記号挿入モデルKMAB〜KMYZは、図1のn個の記号挿入モデル記憶装置103−1〜103−nに記憶される。
(4)記号挿入尤度の計算例
記号挿入尤度計算手段113は、単語列情報記憶手段111に記憶された各単語の表層情報や品詞情報等の情報と、記号挿入モデル記憶手段103−1〜103−nに記憶された記号挿入モデルとを用いて、記号挿入モデル毎に、或る単語wtの直後に記号Cが挿入される(または記号が何も挿入されない(C=NULL))確度の高さを示す記号挿入尤度を求める。単語情報Wtを持つ単語wtの直後に記号Cが挿入される記号挿入尤度Si,k(wt)は、前記公知の技術によって学習された、i番目の記号挿入モデルに対する単語情報Wを持つ単語wの直後に記号Cが挿入される尤度関数gi(W,C)を用いて、以下の式で表される。
Figure 2009101837
式(5)において、右辺の分子のgi(Wt,C)は、n単語(n>1)の単語情報を入力としたときの単語wtの直後に記号Cが挿入される尤度であり、その尤度を単語wtの直後に挿入されうる記号について正規化したのがSi,k(wt)となる。
(5)記号挿入判定
(5−1)例1
記号挿入判定手段114は、まず、記号挿入尤度計算手段113で計算された記号挿入尤度と話し方特徴類似度計算手段112で計算される話し方類似度とを用いてモデル別記号挿入スコアを計算する。具体的には、i番目の記号挿入モデルのモデル別記号挿入スコアFi(wt,C)は、単語wtについての話し方特徴モデル記憶装置104−iの話し方特徴モデルに対する音声特徴類似度Ti,k(wt)と、記号挿入モデル記憶装置103−iに記憶された記号挿入モデルに対する記号挿入尤度Si,k(wt)とを用いて、以下の式で計算する。
Figure 2009101837
すなわち、i番目の記号挿入モデルにおける単語wtの直後に句点が挿入されるモデル別記号挿入スコアFi(wt,C)は、i番目の記号挿入モデルから計算された単語wtの直後に句点が挿入される尤度Si,1(wt)に、i番目の話し方特徴モデルから計算された単語wt直後での句点の使い方の特徴に関する類似度Ti,1(wt)を重みとして乗じて計算される。また、i番目の記号挿入モデルにおける単語wtの直後に読点が挿入されるモデル別記号挿入スコアFi(wt,C)は、i番目の記号挿入モデルから計算された単語wtの直後に読点が挿入される尤度Si,2(wt)に、i番目の話し方特徴モデルから計算された単語wt直後での読点の使い方の特徴に関する類似度Ti,2(wt)を重みとして乗じて計算される。さらに、i番目の記号挿入モデルにおける単語wtの直後に句読点が挿入されないモデル別記号挿入スコアFi(wt,CNULL)は、i番目の記号挿入モデルから計算された単語wtの直後に句読点が挿入されない尤度Si,NULL(wt)に、i番目の話し方特徴モデルから計算された単語wt直後に句読点を置かないことの特徴に関する類似度Ti,NULL(wt)を重みとして乗じて計算される。
次に記号挿入判定手段114は、記号挿入判定に用いる統合記号挿入スコアF(wt,C)を、モデル別記号挿入スコアFi(wt,C)を用いて以下の式で計算する。
Figure 2009101837
記号挿入スコアF(wt,C)を求める記号挿入尤度の個数n'は、記号挿入モデル(もしくは音声特徴モデル)の個数と一致していても良いし(n'=n)、尤度の高いものから1つ以上選択するのでも良い(n'≠n)。
次に記号挿入判定手段114は、以下の式に示すように、統合記号挿入スコアF(wt,C)が最も大きくなった記号C^を出力する。ただし、C^=(NULL)(「記号挿入なし」)のときは、何も記号を挿入しない。
Figure 2009101837
(5−2)例2
記号挿入判定手段114は、例1と同様にして、記号挿入判定に用いる統合記号挿入スコアF(wt,C)を計算する。
次に記号挿入判定手段114は、次式に示すように、統合記号挿入スコアF(wt,C)が閾値θより大きい場合に、単語wtの直後に記号を挿入する。ここで、閾値θは、記号Cの種類によって異なっていても良く、調整可能である。挿入する記号の候補が句点、読点のように複数ある場合は、記号挿入の優先度をあらかじめ定めておき、優先度順に閾値の判定を行う。
Figure 2009101837
(5−3)例3
記号挿入判定手段114は、例1と同様にして、モデル別記号挿入スコアFi(wt,C)を計算する。次に、記号挿入モデル毎に記号挿入判定を行い、最も多く判定された記号を最終出力とする。具体的には、まず、次式に示すように、モデル別記号挿入スコアFi(wt,C)が最大となった記号C^iを全ての記号挿入モデルについて求める。
Figure 2009101837
次に、次式に示すように、C^ i=Cとなったモデル数を比較して、その数が最大となった記号C^を出力する。
Figure 2009101837
ただし、δijは、i=jのときに1、それ以外のときに0をとる。
次に、本実施例の全体の動作について図5のフローチャートを参照して詳細に説明する。
処理装置101は、入力装置102から記号挿入対象となる単語列の情報が入力されると、それらを図2に示したように単語列情報記憶手段111に記憶する(図5のS201)。
次に処理装置101は、単語列情報記憶手段111に記憶された単語列の情報1021中の先頭の1つの単語情報1022に含まれる単語に注目する(S202)。
次に処理装置101は、話し方特徴類似度計算手段112により、注目中の単語の単語情報を単語列情報記憶手段111から読み出すと共に、話し方特徴モデル記憶装置104−1〜104−nから話し方特徴モデルを読み出し、式(4)を用いて、注目中の単語とn個の話し方特徴モデルとの話し方の類似度を、句点、読点、NULLの各挿入記号別に算出する(S203)。
次に処理装置101は、記号挿入尤度計算手段113により、注目中の単語の単語情報を単語列情報記憶手段111から読み出すと共に、記号挿入モデル記憶装置103−1〜103−nから記号挿入モデルを読み出し、式(5)を用いて、注目中の単語の直後に句点、読点、NULLが挿入される記号挿入尤度をn個の記号挿入モデル別に算出する(S204)。
次に処理装置101は、記号挿入尤度計算手段113により、式(6)を用いて、各記号挿入モデル毎に求めた記号挿入尤度に、対応する話し方特徴モデルと注目単語との話し方の類似度を乗じることで、重み付けを行う(S205)。
次に処理装置101は、記号挿入尤度計算手段113により、前述した例1〜例3の何れかの記号挿入判定方法に従って、注目中の単語の直後への句読点の挿入可否および挿入する場合には句点、読点の何れの記号であるかを決定する(S206)。そして、記号挿入尤度計算手段113により、記号挿入判定結果に従って注目中の単語を含む出力単語情報を生成し、記号挿入済単語列情報記憶手段115へ記憶する(S207)。
処理装置101は、単語列情報記憶手段111に記憶された単語列の情報1021中の先頭の単語に注目した処理を終えると、単語列の情報1021中の2番目の単語に注目を移し(S208)、ステップS203〜S207の処理を繰り返す。処理装置101は、単語列情報記憶手段111に記憶された単語列の情報1021中の最後尾の単語に注目した処理まで完了すると(ステップS209でYES)、記号挿入済単語列情報記憶手段115に記憶された記号挿入済みの単語列の情報を出力装置105から出力する(S210)。
なお、図5のフローチャートでは、1つの単語に注目した処理の中でその単語の話し方の特徴類似度と記号挿入尤度とを算出するようにしたが、最初に全ての単語の話し方の特徴類似度を算出しておき、次に1つの単語ずつ注目して記号挿入尤度を算出するようにしても良い。ただし、その場合には、算出した特徴類似度を重み付け時点まで記憶しておく必要がある。
『第2の実施の形態』
図6を参照すると、本発明の第2の実施の形態に係る記号挿入装置200は、図1に示した第1の実施の形態に係る記号挿入装置100と比較して、n個の記号挿入モデル記憶装置103−1〜103−nに記憶されるn個の記号挿入モデルとm個の話し方特徴モデル記憶装置104−1〜104−mに記憶されるm個の話し方特徴モデルとは、1対1に対応していない点で相違する。
図4を参照して説明したように、第1の実施の形態では、記号挿入モデルの作成に使用した学習データと、話し方特徴モデルの作成に使用した学習データとが同じあるため、記号挿入モデルと話し方特徴モデルとは1対1に対応していた。しかし、記号挿入モデルの作成に使用する学習データと話し方特徴モデルの作成に使用する学習データとは、モデルの作成の仕方によっては必ずしも同一になるとは限らず、或る記号挿入モデルの作成に使用する学習データの中に、複数の話し方特徴モデルの作成に使用した学習データが混在する場合もあり得る。
例えば、図4において、各話者A〜Zの学習データD〜Dにm種類のジャンル(例えば、各話者がアナウンサーであるとした場合のニュース番組やバラエティ番組といったジャンル)のデータが含まれており、記号挿入モデルを各ジャンル別に作成し、話し方特徴モデルSMAB〜SMYZについては第1の実施の形態と同じように作成したとすると、n個の記号挿入モデルとm個の話し方特徴モデルとは1対1に対応しなくなる。本実施の形態は、このような状況の下でも、話者毎の話し方の特徴の違いを考慮した記号挿入判定を可能にすることを目的とする。
そのために本実施の形態は、n個の記号挿入モデルとm個の話し方特徴モデルとの関連度を記憶するモデル関連度記憶装置201を新たに備え、また処理装置101は、記号挿入判定手段114の代わりに記号挿入判定手段202を備えている。
モデル関連度記憶装置201は、話し方特徴モデル記憶装置104−i(1≦i≦m)に記憶された話し方特徴モデルと、記号挿入モデル記憶装置103−j(1≦j≦n)に記憶された記号挿入モデルとの関連度Oi,jを記憶している。図7にモデル関連度記憶装置201に記憶された関連度Oi,jの一例を示す。この例によれば、例えば話し方特徴モデル記憶装置104−4に記憶された話し方特徴モデルと、記号挿入モデル記憶装置103−2に記憶された記号挿入モデルとのモデル関連度O2,4は、0.03となる。各モデル関連度Oi,jは、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数である。モデル関連度Oi,jは、相互情報量などを用いて求めることができる。
処理装置101の記号挿入判定手段202は、第1の実施の形態における記号挿入判定手段114と比較して、i番目の記号挿入モデルのモデル別記号挿入スコアFi(wt,C)を、次式を使用して計算する点で相違する。
Figure 2009101837
第1の実施の形態では話し方特徴モデルと記号挿入モデルが1対1に対応していたため、話し方特徴類似度を重みとして用いて式(6)のようにモデル別記号挿入スコアを求めたが、本実施の形態では話し方特徴モデルと記号挿入モデルとが1対1に対応していないため、話し方特徴モデルと記号挿入モデルのデータの関連度(対応関係)を表すOi,jをさらに重みとして用いて、記号Cが挿入されるモデル別記号挿入スコアを求めている。
上記算出したモデル別記号挿入スコアより記号挿入判定する方法を含め、その他の構成および動作は、第1の実施の形態と同じである。
次に、本実施の形態の効果について説明する。
本実施の形態によれば、第1の実施の形態と同様の効果が得られると同時に、話し方特徴モデルと記号挿入モデルとを必ずしも1対1に対応させる必要がないため、モデル作成の自由度を高めることができる。
『第3の実施の形態』
図8を参照すると、本発明の第3の実施の形態に係る音声認識装置300は、第1または第2の実施の形態に係る記号挿入装置100または200を構成する処理装置101に、音声認識手段311と単語列情報生成手段312とを新たに設け、かつ、処理装置101にマイクロフォン301を接続した構成を有する。音声認識手段311および単語列情報生成手段312は、処理装置101を構成するコンピュータとプログラムとによって実現することができる。
マイクロフォン301から入力された音声信号は処理装置101の音声認識手段311に伝達され、そこで公知の音声認識処理が行われて、音声認識結果が単語列情報生成手段312に出力される。音声認識結果には、どの単語が話されたかという情報以外に、その単語が発せられた時刻やその単語の品詞情報(品詞や活用形などの情報)が付与され、所定のフォーマットで出力される。
単語列情報生成手段312は、所定のフォーマットで出力された音声認識結果に対してパターンマッチングにより単語の表層情報、品詞情報を取得する。また、前後の単語の始端時刻、終端時刻の差を取ることによってポーズ長を計算する。そして、単語列情報生成手段312は、図2に示したような単語列情報1021を生成し、単語列情報記憶手段111に記憶する。
以降、第1または第2の実施の形態と同様の構成および動作によって、単語列情報記憶手段111に記憶された単語列中への句読点などの記号の挿入が行われる。
次に、本実施の形態の効果を説明する。
本実施の形態によれば、話者が発する音声を音声認識し、この音声認識した単語列にして引き続き、句読点などの記号の挿入を自動的に行う音声認識装置が得られる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年2月13日に出願された日本出願特願2008−031287を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、音声信号をテキスト化する音声認識装置や音声認識装置をコンピュータ上に実現するためのプログラムといった用途に適応できる。また、音声や映像コンテンツを適切な単位に区切って、分割された単位でコンテンツを表示・再生したり検索したりするコンテンツ再生装置やコンテンツ検索装置、録音された音声データの書き起こし支援装置といった用途にも適応可能である。

Claims (29)

  1. 音声情報を文字化した単語列に記号を挿入する記号挿入装置であって、
    記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行うことを特徴とする記号挿入装置。
  2. 前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算手段と、
    前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算手段と、
    前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定手段とを備えることを特徴とする請求項1に記載の記号挿入装置。
  3. 前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項1または2に記載の記号挿入装置。
  4. 前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項2または3に記載の記号挿入装置。
  5. 前記関連度を保持するモデル関連度記憶手段を備えることを特徴とする請求項2乃至4の何れか1項に記載の記号挿入装置。
  6. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項2乃至5の何れか1項に記載の記号挿入装置。
  7. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項2乃至5の何れか1項に記載の記号挿入装置。
  8. 前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項6または7に記載の記号挿入装置。
  9. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項2乃至5の何れか1項に記載の記号挿入装置。
  10. 入力音声に対して音声認識を行って音声認識結果を出力する音声認識手段と、該音声認識手段から出力された音声認識結果から請求項1乃至9の何れか1項に記載される記号挿入装置に入力する記号挿入対象となる単語列を生成する単語列情報生成手段とを備えることを特徴とする音声認識装置。
  11. 音声情報を文字化した単語列に記号を挿入する記号挿入方法であって、
    記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行うことを特徴とする記号挿入方法。
  12. 記号挿入尤度計算手段が、前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算ステップと、
    話し方特徴類似度計算手段が、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算ステップと、
    記号挿入判定手段が、前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定ステップとを含むことを特徴とする請求項11に記載の記号挿入方法。
  13. 前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項11または12に記載の記号挿入方法。
  14. 前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項12または13に記載の記号挿入方法。
  15. 前記記号挿入判定手段は、前記関連度を保持するモデル関連度記憶手段から前記関連度を入力することを特徴とする請求項12乃至14の何れか1項に記載の記号挿入方法。
  16. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項12乃至15の何れか1項に記載の記号挿入方法。
  17. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項12乃至15の何れか1項に記載の記号挿入方法。
  18. 前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項16または17に記載の記号挿入方法。
  19. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項12乃至15の何れか1項に記載の記号挿入方法。
  20. 音声情報を文字化した単語列に記号を挿入する記号挿入装置を構成するコンピュータを、記号挿入対象となる単語列について話し方の特徴別に設けられた複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う手段として機能させるためのプログラム。
  21. 前記コンピュータを、
    前記単語列について前記複数の記号挿入モデル毎に記号挿入尤度を求める記号挿入尤度計算手段と、
    前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度を求める話し方特徴類似度計算手段と、
    前記単語列について前記複数の記号挿入モデル毎に求められた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および前記記号挿入モデルと前記話し方特徴モデルとの関連度により重み付けを行って、前記単語列への記号挿入判定を行う記号挿入判定手段として機能させるための請求項20に記載のプログラム。
  22. 前記話し方の特徴とは、少なくとも音響的特徴量であることを特徴とする請求項20または21に記載のプログラム。
  23. 前記関連度は、記号挿入モデルの学習に使用した学習データと話し方特徴モデルの学習に使用した学習データとの重複度により定まる定数であることを特徴とする請求項21または22に記載のプログラム。
  24. 前記コンピュータは、前記関連度を保持するモデル関連度記憶手段を備えることを特徴とする請求項21乃至23の何れか1項に記載のプログラム。
  25. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和が最大となった記号を挿入記号と判定することを特徴とする請求項21乃至24の何れか1項に記載のプログラム。
  26. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、挿入される記号毎に、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内から選択した所定個数のモデル別記号挿入尤度の総和を計算し、総和を閾値と比較することによって記号挿入判定を行うことを特徴とする請求項21乃至24の何れか1項に記載のプログラム。
  27. 前記記号挿入判定手段は、複数の記号挿入モデルについて求めた複数のモデル別記号挿入尤度の内、尤度の高いものから順に所定個数を選択することを特徴とする請求項25または26に記載のプログラム。
  28. 前記記号挿入判定手段は、前記単語列について或る記号挿入モデルで求めた記号挿入尤度に対して、前記単語列の話し方の特徴と前記複数の話し方特徴モデルとの類似度および当該記号挿入モデルと前記複数の話し方特徴モデルとの関連度により重み付けを行った記号挿入尤度をモデル別記号挿入尤度と定義するとき、記号挿入モデル毎に、モデル別記号挿入尤度が最大となる挿入記号を求め、各記号挿入モデル毎に求められた挿入記号の多数決により記号挿入判定を行うことを特徴とする請求項21乃至24の何れか1項に記載のプログラム。
  29. 前記コンピュータを、さらに、入力音声に対して音声認識を行って音声認識結果を出力する音声認識手段と、該音声認識手段から出力された音声認識結果から前記記号挿入対象となる単語列を生成する単語列情報生成手段として機能させるための請求項20乃至28の何れか1項に記載のプログラム。
JP2009553380A 2008-02-13 2009-01-19 記号挿入装置および記号挿入方法 Active JP5141695B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009553380A JP5141695B2 (ja) 2008-02-13 2009-01-19 記号挿入装置および記号挿入方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008031287 2008-02-13
JP2008031287 2008-02-13
JP2009553380A JP5141695B2 (ja) 2008-02-13 2009-01-19 記号挿入装置および記号挿入方法
PCT/JP2009/050641 WO2009101837A1 (ja) 2008-02-13 2009-01-19 記号挿入装置および記号挿入方法

Publications (2)

Publication Number Publication Date
JPWO2009101837A1 true JPWO2009101837A1 (ja) 2011-06-09
JP5141695B2 JP5141695B2 (ja) 2013-02-13

Family

ID=40956867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009553380A Active JP5141695B2 (ja) 2008-02-13 2009-01-19 記号挿入装置および記号挿入方法

Country Status (3)

Country Link
US (1) US8577679B2 (ja)
JP (1) JP5141695B2 (ja)
WO (1) WO2009101837A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719004B2 (en) * 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
CN104142915B (zh) 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
JP6440967B2 (ja) * 2014-05-21 2018-12-19 日本電信電話株式会社 文末記号推定装置、この方法及びプログラム
US20170110118A1 (en) * 2015-10-19 2017-04-20 Google Inc. Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN110520925B (zh) 2017-06-06 2020-12-15 谷歌有限责任公司 询问结束检测
JP6728116B2 (ja) * 2017-09-21 2020-07-22 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP6605105B1 (ja) * 2018-10-15 2019-11-13 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP7253951B2 (ja) * 2019-03-26 2023-04-07 日本放送協会 自然言語データ処理装置およびプログラム
JP7229144B2 (ja) * 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法
JPWO2023100433A1 (ja) * 2021-11-30 2023-06-08
WO2024029152A1 (ja) * 2022-08-05 2024-02-08 株式会社Nttドコモ 区切り記号挿入装置及び音声認識システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0693221B2 (ja) * 1985-06-12 1994-11-16 株式会社日立製作所 音声入力装置
JPS6234200A (ja) * 1985-08-08 1987-02-14 工業技術院長 韻律情報を利用した会話音声理解方法
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
CN1159662C (zh) * 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
JP3232289B2 (ja) * 1999-08-30 2001-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 記号挿入装置およびその方法
JP2001134289A (ja) * 1999-11-08 2001-05-18 Just Syst Corp 音声認識システム、方法及び記録媒体
JP4229627B2 (ja) * 2002-03-28 2009-02-25 株式会社東芝 ディクテーション装置、方法及びプログラム
JP2003295888A (ja) * 2002-04-04 2003-10-15 Mitsubishi Electric Corp 音声認識装置及びプログラム
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition

Also Published As

Publication number Publication date
JP5141695B2 (ja) 2013-02-13
US8577679B2 (en) 2013-11-05
US20100292989A1 (en) 2010-11-18
WO2009101837A1 (ja) 2009-08-20

Similar Documents

Publication Publication Date Title
JP5141695B2 (ja) 記号挿入装置および記号挿入方法
US10037758B2 (en) Device and method for understanding user intent
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
US10917758B1 (en) Voice-based messaging
US11189277B2 (en) Dynamic gazetteers for personalized entity recognition
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
CN102176310B (zh) 具有巨大词汇量的语音识别系统
US10854191B1 (en) Machine learning models for data driven dialog management
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
TW201203222A (en) Voice stream augmented note taking
WO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
WO2011036769A1 (ja) 翻訳装置、及びプログラム
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
JP2017125921A (ja) 発話選択装置、方法、及びプログラム
KR20080014680A (ko) 제곱근 디스카운트를 이용한 통계적 언어에 의한 음성 인식방법 및 시스템
CN117043859A (zh) 查找表循环语言模型
CN111508481B (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN108899016B (zh) 一种语音文本规整方法、装置、设备及可读存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4986301B2 (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141695

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150