JPWO2011007627A1

JPWO2011007627A1 - 音声処理装置および方法ならびに記憶媒体

Info

Publication number: JPWO2011007627A1
Application number: JP2011522761A
Authority: JP
Inventors: 健花沢; 長田　誠也; 誠也長田; 隆行荒川; 岡部　浩司; 浩司岡部; 田中　大介; 大介田中
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-07-17
Filing date: 2010-06-04
Publication date: 2012-12-27
Anticipated expiration: 2030-06-04
Also published as: JP5418596B2; US20120116765A1; WO2011007627A1; US9583095B2

Abstract

音声認識部（１０２）は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定部（１０３）を備える。本音声処理装置では、句判定部（１０３）が判定した句境界による句の単位で、音声認識部（１０２）が認識結果を出力する。

Description

本発明は、入力された音声を認識する音声処理装置および方法ならびに記憶媒体に関するものである。

音声で入力された発話を音声認識し、認識結果を翻訳することによる自動通訳（音声翻訳）の技術が知られている。この音声翻訳では、より即時的に翻訳結果を出力することが重要な技術となる。例えば、システム側の指定あるいはユーザの指示などで、入力音声すなわち発話の始端および終端を指定（設定）することが可能な場合には、指定した単位で翻訳処理を行えばよいので、この単位を短くすることで、より即時的な翻訳結果を得ることができる。これに対し、例えば電話における通話など、次々と連続的に入力される音声に対して音声翻訳を行う場合には、ユーザの指示などで発話の始端および終端を指定することができない。このような場合、単純には、通話が一旦途切れるまで待って音声翻訳を行うことになるが、これでは、待ち時間が長くなりすぎる。また、このような場合に逐次的に音声翻訳を行う技術や方法は、あまり開発・提案されていない状況である。

このような課題を解決するため、音声認識においては、マルチパス探索方式により、一定時間間隔で第１の認識パスを処理し、第２の認識パスで当該一定時間間隔中の安定区間を確定して出力し、逐次的に音声認識の結果出力を行う方法が提案されている（特許文献１参照）。また、第２の認識パスを駆動するタイミングをフレーム信頼度によって推定することにより、第２の認識パスを一定時間間隔で必ず行うことによる音声処理の無駄を省く方法も開発されている（特許文献２参照）。

しかしながら、上述した技術は、音声認識の技術であり、発話内容に対して離散的な処理である翻訳処理を、音声を認識してからどの様に組み合わせるかについては、何ら述べられていない。また、上述した技術で得られる認識の結果が、翻訳に適した単位となっているとは限らない。

一方、音声認識を行った後で構文解析を行い、文の始終端を構文の制約に基づいて与えることで、連続的な入力に対応する方法がある（特許文献３参照）。しかしながら、この方法では、音声認識の後段に構文解析を追加することで処理量の増加を招くとともに、認識結果出力のリアルタイム性を損なうという課題がある。

また、音声認識において、言語モデルと経験的規則とポーズ長とを利用して句点を学習し、学習した句点を認識結果に挿入することで、認識結果の文境界を推定し、翻訳処理に適した単位として認識結果を出力する方法もある（特許文献４参照）。しかしながら、この方法では、連続的な入力に対して逐次的に認識結果を出力し、あるいは翻訳処理を行うためのリアルタイム性は考慮されていない。

特許第３８３４１６９号公報特開２００４−１２６１５公報特許第３７６６１１１号公報特許第３００９６４２号公報特開２００８−２６９１２２号公報

上述したように、関連する技術では、連続的に入力される音声に対し、待ち時間を短くしてより即時的に高い精度で、音声翻訳結果を逐次的に出力することができない状況である。例えば、特許文献１および特許文献２の技術では、音声認識結果は逐次的に出力されるが、この後の翻訳処理については考慮されておらず、逐次的に出力される認識結果が翻訳に適した単位とは限らないという課題がある。また、特許文献３および特許文献４の技術では、音声認識結果から翻訳に適した文境界を指定することは可能となるが、連続的な入力に対するリアルタイム性が考慮されておらず、必ずしも出力が逐次的でなくなるためにユーザの待ち時間が増加する可能性がある。

本発明は、以上のような問題点を解消するためになされたものであり、連続的に入力される音声に対し、リアルタイム性を高くして待ち時間を短くし、精度よく逐次的に音声翻訳結果が出力できるようにすることを目的とする。

本発明に係る音声処理装置は、入力された音声を音声検出・分析して特徴量を出力する分析手段と、特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段とを備え、音声認識手段は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で認識結果を出力する。

本発明に係る音声処理方法は、入力された音声を音声検出・分析して特徴量を出力する分析ステップと、特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップとを備え、音声認識ステップは、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で認識結果を出力する。

本発明に係る記憶媒体は、コンピュータに、入力された音声を音声検出・分析して特徴量を出力する分析機能と、特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能とを備え、音声認識機能は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、音声認識機能は、句判定機能で判定した句境界による句の単位で認識結果を出力する機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。

以上説明したように、本発明によれば、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定するようにしたので、連続的に入力される音声に対し、リアルタイム性を高くして待ち時間を短くし、精度よく逐次的に音声翻訳結果が出力できるようになる。

図１は、本発明の実施の形態１における音声処理装置の構成を示す構成図である。図２は、本発明の実施の形態２における音声処理装置の構成を示す構成図である。図３は、本発明の実施の形態２における音声処理装置の動作例について説明するフローチャートである。図４は、実施の形態２の音声処理装置を用いた本発明の実施の形態３における通話翻訳システムの構成を示す構成図である。図５は、本発明の実施の形態３におけるシステムの動作例について説明するフローチャートである。図６は、本発明の実施の形態４における音声処理装置の構成を示す構成図である。図７は、本発明の実施の形態４における音声処理装置の動作例について説明するフローチャートである。図８は、実施の形態の４音声処理装置を用いた本発明の実施の形態５における字幕生成システムの構成を示す構成図である。図９は、本発明の実施の形態５におけるシステムの動作例について説明するフローチャートである。

以下、本発明の実施の形態について図を参照して説明する。

［実施の形態１］
はじめに、本発明の実施の形態１について説明する。図１は、実施の形態１における音声処理装置の構成を示す構成図である。この音声処理装置は、まず、入力された音声を音声検出・分析して特徴量を出力する分析部１０１と、特徴量に基づいて音声認識を行って認識結果を出力する音声認識部１０２とを備える。加えて、音声認識部１０２は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定部１０３を備える。本音声処理装置では、句判定部１０３が判定した句境界による句の単位で、音声認識部１０２が認識結果を出力する。

本実施の形態における音声処理装置の動作について説明すると、まず、分析部１０１が、入力された音声を音声検出・分析して特徴量を出力する。次に、音声認識部１０２において、句判定部１０３が、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する。次に、音声認識部１０２が、判定された句境界による句の単位で、認識結果を出力する。

このようにした本実施の形態によれば、翻訳のための句境界を判定しながら音声翻訳を行うようにした。言い換えると、翻訳に好適な単位で認識結果単語列を取り出して翻訳処理を行うようにした。これにより、本実施の形態によれば、逐次的に音声翻訳の結果を得ることができるようになる。句境界の判定は、音声認識により生成した仮説の単語群に対して行うため、音声認識処理のうち単語探索の過程で行うことになる。従って、本実施の形態では、句境界の判定を、認識処理終了後に行うわけではないため、認識結果出力の逐次性・リアルタイム性を損なう恐れが少ない。また、単語探索の過程で仮説の尤度や占有率を考慮すれば、認識結果出力を逐次的に行うことによる音声認識精度の劣化を抑えることも可能となる。

［実施の形態２］
次に、本発明における実施の形態２について説明する。図２は、実施の形態２における音声処理装置２００の構成を示す構成図である。音声処理装置２００は、分析部２０２，音声認識部２０３，音響モデル記憶部２０４，認識辞書記憶部２０５，翻訳辞書記憶部２０６，および翻訳部２０７を備える。

分析部２０２は、入力部２０１より入力された音声データから音声区間を検出し、検出された区間を音響分析し、特徴量系列である、例えばケプストラムの時系列を出力する。音声検出および音響分析を行う技術は、公知技術として良く知られているものであり、ここでは詳細な説明を省略する。

音声認識部２０３は、距離計算部２３１，単語探索部２３２，および出力部２３４を内部に備える。さらに、単語探索部２３２は、句判定部２３３を備える。音声認識部２０３は、音響的確からしさを与える音響モデルと、認識対象の単語からなる認識辞書とを用い、分析部２０２の出力である特徴量系列を入力とし、認識結果単語列を出力部２３４により出力する。音響モデルは音響モデル記憶部２０４に記憶され、認識辞書は認識辞書記憶部２０５に記憶されている。

より詳細には、まず、距離計算部２３１が、分析部２０２より得られた特徴量系列の音響計算を、音響モデルを用いて行う。また、単語探索部２３２が、距離計算部２３１による距離計算結果に対する単語探索を、認識辞書を用いて行い、認識結果となる単語列を出力する。

翻訳部２０７は、音声認識部２０３が出力する単語列を入力とし、翻訳辞書記憶部２０６に記憶されている翻訳辞書を用いて翻訳を行い、翻訳結果を出力する。ここで、翻訳辞書には翻訳のための文法知識が含まれているようにしてもよい。

上述した音声処理装置２００は、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、および不揮発性記憶装置を備える。なお、音声処理装置２００は、例えばＣＰＵなどから構成されコンピュータであり、ＲＡＭ、ＲＯＭ、または不揮発性記憶装置などの記憶媒体２０９にに格納されたＯＳ（Operation System）および音声処理プログラムを読み込み、これらを実行することで音声処理を実施する。これにより、連続的な入力音声に対して、音声翻訳結果を逐次的に出力することができる。なお、音声処理装置２００は、１台のコンピュータで構成してもよく、また、複数台のコンピュータで構成してもよい。これらのことは、他の実施の形態においても同様である。

また、音響モデル記憶部２０４、認識辞書記憶部２０５、および翻訳辞書記憶部２０６は、固定ディスク、光磁気ディスク、フラッシュメモリなどの不揮発性の記憶装置や、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置で構成されていればよい。また、音響モデル記憶部２０４、認識辞書記憶部２０５、および翻訳辞書記憶部２０６は、音声処理装置２００を構成するコンピュータの外部に接続される記憶装置であってもよい。

次に、音声処理装置２００の動作例について図３に示すフローチャートを用いて説明する。まず、ステップＳ３０１で、入力部２０１により音声を入力する。例えば、入力部２０１はマイクであり、マイクから入力される例えば英語の音声波形が得られる。次に、ステップＳ３０２で、音声入力の終了を判定する。例えば、入力されている音声が存在していれば、以降の処理を続行するが、終了していれば処理を終了する。

次に、ステップＳ３０３で、分析部２０２が、入力音声から音声区間を検出し、検出した区間を音響分析し、特徴量系列を出力する。次に、ステップＳ３０４で、音声認識部２０３の距離計算部２３１が、分析部２０２より得られた特徴量系列と音響モデル記憶部２０４に記憶されている音響モデルとの距離を計算する。ここでは、入力音声と音響モデルとの近さが計算されることになる。例えば、距離計算部２３１は、分析部２０２により得られた特徴量系列と音響モデルとの音響距離計算を行い、距離計算結果を出力する。なお、音響モデルとの距離を計算する技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。

次に、ステップＳ３０５で、音声認識部２０３の単語探索部２３２が、距離計算部２３１により得られた距離計算結果に対し、認識辞書記憶部２０５に記憶されている認識辞書を用いて最も確からしい単語列を探索し、仮説の単語（単語仮説）を生成する。例えば、入力音声が英語である場合には英語音声認識を行い、確からしい英語の単語あるいは単語列からなる単語仮説を生成する。音声認識における単語探索の技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。

次に、ステップＳ３０６で、単語探索部２３２の句判定部２３３が、得られた単語仮説と、設定されている句境界を表す単語との比較に基づいて句境界を判定する。例えば英語であれば翻訳単位として好適な前置詞句の先頭の単語は前置詞であるという性質を利用し、品詞が前置詞である単語を、句境界を表す単語としてあらかじめ定めておく。

このようにして設定してある句境界を表す単語が、単語仮説の中に存在する数をＨｐとしたときに、単語仮説の全ての単語数Ｈａｌｌに対するＨｐの割合（仮説占有率）が、あらかじめ定められた閾値Ｈｔｈｒｅを越える場合、言い換えると「Ｈｐ／Ｈａｌｌ＞Ｈｔｈｒｅ」が成り立つ場合、句境界を判定する。

句境界の判定では、仮説占有率が閾値を超えた場合、例えば当該句境界を表す単語の仮説のうち最も尤度の高いものの始端時刻を句境界として判定し、判定した始端時刻の直前を、前の句の終端時刻とする最尤の仮説を、当該終端時刻までの認識結果として出力する。あるいは、句境界を表す単語の仮説のうち最も尤度の高いものの終端時刻を句境界として判定し、判定した終端時刻を単語終端とする最尤の仮説を、判定した終端時刻までの認識結果として出力することもできる。結果は、出力部２３４より出力される。

一方、仮説占有率が閾値以下であれば（ステップＳ３０６の「Ｎ」）、次の音声入力を受け付けるためにステップＳ３０１に戻る。

なお、上述した句境界を表す単語は、あらかじめ品詞が前置詞であるものと定めておくとしたが、これに限らず、接続詞など他の品詞、あるいは句読点や無音を含めても良い。日本語では例えば「えーと」「あのー」などのフィラー（つなぎ言葉）を含めても効果が高いと言える。また、翻訳に好適な処理単位を提供できるのであれば、単一の単語に限らず、例えば複数の単語の組み合わせでも良く、また、句境界を表すモデルとして学習しても良い。句境界を表すモデルを学習する方法は、特許文献５に記載されている。

ところで、句判定における仮説数ＨｐあるいはＨａｌｌの計算では、音声入力が行われている同一時刻内での仮説数を計算対象としても良く、また、ある時刻の直前あるいは直後の時刻も含めた時間幅の中での仮説数を計算対象としても良い。

以上のようにして句判定がなされると、ステップＳ３０７で、翻訳部２０７が、判定された句境界までの認識結果単語列に対し、翻訳辞書記憶部２０６に記憶されている翻訳辞書を用いて翻訳を行い、翻訳結果を出力する。例えば、入力言語が英語で、出力言語が日本語である場合には、認識結果単語列として得られる英語の単語列を英日翻訳し、日本語の単語列を翻訳結果として出力する。単語列を翻訳する技術は、公知技術として良く知られているものであり、ここでは詳細な説明を省略する。

次に、ステップＳ３０８で、上述した翻訳結果が出力部２０８で利用者に視認可能な状態で出力される。翻訳結果が出力されると、ステップＳ３０１に戻り、音声入力が終了するまで、上述したステップＳ３０１〜ステップＳ３０８を継続する。

なお、上述では、句判定部２３３における判定の基準に仮説占有率を用いたが、これに限るものではなく、例えば、句境界を表す単語仮説が全体の仮説の中で最尤（１位仮説）であり、かつ次に尤度の高い単語仮説（２位仮説）との尤度差が閾値を超える場合に、当該句境界を表す単語の始端時刻あるいは終端時刻を句境界として判定しても良い。

以上に説明したように、本実施の形態における音声処理装置２００は、連続的に入力される音声に対し、句境界を判定しながら音声翻訳を行う、すなわち翻訳に好適な単位で認識結果単語列を出力および翻訳処理を行うので、結果として逐次的な音声翻訳結果の出力が可能となる。

句境界の判定は、認識処理終了後に行うのではなく、音声認識処理のうち単語探索の過程で行うので、認識結果出力の逐次性・リアルタイム性を損なう恐れが少ない。また、単語探索の過程で仮説の尤度や占有率を考慮することで、認識結果出力を逐次的に行うことによる音声認識精度の劣化を抑えることが可能となる。

［実施の形態３］
次に、本発明の実施の形態３について説明する。図４は、音声処理装置２００を用いた実施の形態３における通話翻訳システムの構成を示す構成図である。本システムは、上述した実施の形態２における音声処理装置２００に加え、受信部４０１，音声合成部４０８，出力部４０９，および通信ネットワーク４２０を備える。通信ネットワーク４２０は、例えば、公衆電話網である。なお、通信ネットワーク４２０は、インターネット通信網であってもよい。

受信部４０１は、通信ネットワーク４２０から入力となる音声を受信し、音声処理装置２００に出力する。受信部４０１は、例えば、音声通話を実現する電話における受信部である。

音声処理装置２００では、分析部２０２が、受信部４０１によって受信された音声を入力として、音声検出・分析を行う。翻訳部２０７は、翻訳結果を逐次的に音声合成部４０８に出力する。例えば、入力言語が英語で出力言語が日本語である場合には、英日翻訳を行って日本語の単語列を翻訳結果として出力する。

音声合成部４０８は、逐次的に得られる翻訳結果を音声合成し、合成音声を出力する。具体的には、例えば日本語の単語列を翻訳結果として得た場合には、日本語音声合成を行う。テキストデータを音声データに音声合成する技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。出力部４０９は、例えばスピーカであり、音声合成部４０８で得られた音声データを入力として音声出力を行う。

次に、本実施の形態３におけるシステムの動作について、図５のフローチャートを用いて説明する。まず、ステップＳ５０１で、受信部４０１が通信ネットワーク４２０から連続的に入力される音声波形を受信する。次に、ステップＳ５０２で、音声処理装置２００における分析部２０２，音声認識部２０３，翻訳部２０７の処理により、実施の形態２で説明した音声処理が行われ、翻訳結果が逐次的に出力される。

次に、ステップＳ５０３で、音声合成部４０８が、音声処理装置２００より得られた翻訳結果を音声合成する（Ｓ２０２）。例えば、翻訳結果として出力された日本語単語列を音声合成する。次に、ステップＳ５０４で、出力部４０９が、合成された音声を、例えばスピーカより出力する。

このように、本実施の形態３によれば、通信ネットワーク４２０より連続的に受信・入力される音声データを逐次的に音声処理し、結果として逐次的な音声翻訳結果の出力（合成音声出力）を可能としている。なお、上述では、音声翻訳結果を合成音声出力したが、これに限らず、テキスト情報として出力してもよい。

なお、上述したシステムは、例えば、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ、ＲＡＭ、ＲＯＭ、および不揮発性記憶装置を備え、ＣＰＵがＲＡＭ、ＲＯＭ、または不揮発性記憶装置に格納されたＯＳおよび通話翻訳プログラムを読み込み、これらを実行することで通話翻訳処理を行う。これにより、通話中の音声を翻訳して逐次的に出力することができる。なお、上述したシステムは１台のコンピュータである必要はなく、複数台のコンピュータで構成してもよい。

［実施の形態４］
次に、本発明の実施の形態４について説明する。図６は、実施の形態４における音声処理装置６００の構成を示す構成図である。音声処理装置６００は、分析部６０２，音声認識部６０３，音響モデル記憶部６０４，認識辞書記憶部６０５，翻訳辞書記憶部６０６，および翻訳部６０７を備える。

分析部６０２は、入力部６０１より入力された音声データから音声区間を検出し、検出された区間を音響分析し、特徴量系列である、例えばケプストラムの時系列を出力する。音声検出および音響分析を行う技術は、公知技術として良く知られているものであり、ここでは詳細な説明を省略する。

音声認識部６０３は、距離計算部６３１および単語探索部６３２を内部に備える。また、単語探索部６３２は、句判定部６３３を備える。これらの構成は、前述した実施の形態２と同様である。加えて、本実施の形態では、句判定部６３３が、区間指定部６３４を備える。区間指定部６３４は、入力開始時からの区間情報、例えば時刻情報により、設定されている区間毎、例えば入力音声の５００ｍｓ（ミリ秒）という区間単位毎に、句判定部６３３が句判定に用いる閾値を、設定した区間内で一時変更する。例えば入力音声の５００ｍｓ毎に、この区間内で句判定部６３３が用いる閾値を小さくし、句境界の判定がされやすい状態とする。

なお、本実施の形態においても、音声処理装置６００は、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ、ＲＡＭ、ＲＯＭ（Read Only Memory）、および不揮発性記憶装置を備える。音声処理装置６００は、ＣＰＵがＲＡＭ、ＲＯＭ、または不揮発性記憶装置に格納されたＯＳおよび音声処理プログラムを読み込み、これらを実行することで音声処理を実施する。これにより、連続的な入力音声に対して、音声翻訳結果を逐次的に出力することができる。なお、音声処理装置６００は、１台のコンピュータで構成してもよく、また、複数台のコンピュータで構成してもよい。

また、音響モデル記憶部６０４、認識辞書記憶部６０５、および翻訳辞書記憶部６０６は、固定ディスク、光磁気ディスク、フラッシュメモリなどの不揮発性の記憶装置や、ＤＲＡＭなどの揮発性の記憶装置で構成されていればよい。また、音響モデル記憶部６０４、認識辞書記憶部６０５、および翻訳辞書記憶部６０６は、音声処理装置６００を構成するコンピュータの外部に接続される記憶装置であってもよい。

次に、音声処理装置６００の動作例について図７に示すフローチャートを用いて説明する。まず、ステップＳ７０１で、入力部６０１により音声を入力する。例えば、入力部６０１はマイクであり、マイクから入力される例えば英語の音声波形が得られる。次に、ステップＳ７０２で、音声入力の終了を判定する。例えば、入力されている音声が存在していれば、以降の処理を続行するが、終了していれば処理を終了する。

次に、ステップＳ７０３で、分析部６０２が、入力音声から音声区間を検出し、検出した区間を音響分析し、特徴量系列を出力する。次に、ステップＳ７０４で、音声認識部６０３の距離計算部６３１が、分析部６０２より得られた特徴量系列と音響モデル記憶部６０４に記憶されている音響モデルとの距離を計算する。ここでは、入力音声と音響モデルとの近さが計算されることになる。例えば、距離計算部６３１は、分析部６０２により得られた特徴量系列と音響モデルとの音響距離計算を行い、距離計算結果を出力する。なお、音響モデルとの距離を計算する技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。

次に、ステップＳ７０５で、音声認識部６０３の単語探索部６３２が、距離計算部６３１により得られた距離計算結果に対し、認識辞書記憶部６０５に記憶されている認識辞書を用いて最も確からしい単語列を探索し、仮説の単語（単語仮説）を生成する。例えば、入力音声が英語である場合には英語音声認識を行い、確からしい英語の単語あるいは単語列からなる単語仮説を生成する。音声認識における単語探索の技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。

次に、ステップＳ７０６で、単語探索部６３２において、区間指定部６３４が、設定されている時間間隔（例えば５００ｍ秒）が経過していることを判定する。ステップＳ７０６が、音声の入力（音声処理）を開始した時点より初めてなされる場合は、音声処理を開始してから５００ｍｍ秒が経過していることを判定する。ステップＳ７０６の判定で、設定されている時間間が経過していないと判定すると、ステップＳ７０８に移行する。一方、ステップＳ７０６の判定で、設定されている時間が経過していると判断すると、区間指定部６３４は、句判定部６３３が用いる閾値を、設定されている値だけ小さい値とする。

次に、ステップＳ７０８で、句判定部６３３が、得られた単語仮説と、設定されている句境界を表す単語との比較に基づいて句境界を判定する。句判定部６３３は、前述した実施の形態２の句判定部２３３と同様に、句境界を判定する。この判定で、仮説占有率が閾値以下の場合（ステップＳ７０８の「Ｎ」）、次の音声入力を受け付けるため、ステップＳ７０１に戻る。

一方、上記判定で、仮説占有率が閾値を超えた場合、実施の形態２と同様にして句の境界を設定し、ステップＳ７０９に移行する。ステップＳ７０９では、句判定部６３３が用いる閾を初期化する。従って、仮説占有率が閾値以下の状態が継続すると、ステップＳ７０６で設定されている時間間隔が経過したと判断される毎に、上記閾値が小さくされることになる。このため、句境界が判定されやすくなる。

この後、ステップＳ７１０で、翻訳部６０７が、判定された句境界までの認識結果単語列に対し、翻訳辞書記憶部６０６に記憶されている翻訳辞書を用いて翻訳を行い、翻訳結果を出力する。例えば、入力言語が英語で、出力言語が日本語である場合には、認識結果単語列として得られる英語の単語列を英日翻訳し、日本語の単語列を翻訳結果として出力する。次に、ステップＳ７１１で、上述した翻訳結果が出力部６０８で利用者に視認可能な状態で出力される。翻訳結果が出力されると、ステップＳ７０１に戻り、音声入力が終了するまで、上述したステップＳ７０１〜ステップＳ７１１を継続する。

以上に説明したように、本実施の形態における音声処理装置６００は、連続的に入力される音声に対し、句境界を判定しながら音声翻訳を行う、すなわち翻訳に好適な単位で認識結果単語列を出力および翻訳処理を行うので、結果として逐次的な音声翻訳結果の出力が可能となる。また、一定の時間が経過しても、句境界の判定がなされない場合は、句判定のための閾値を変更変更するようにしたため、例えば、句境界が判定しにくい場合であっても、句境界の判定がしやすくなり、より逐次的に翻訳処理ができるようになる。

また、本実施の形態においても、句境界の判定は、認識処理終了後に行うのではなく、音声認識処理のうち単語探索の過程で行うので、認識結果出力の逐次性・リアルタイム性を損なう恐れが少ない。また、単語探索の過程で仮説の尤度や占有率を考慮することで、認識結果出力を逐次的に行うことによる音声認識精度の劣化を抑えることが可能となる。

なお、上述では、句境界の判定がなされるまで、設定されている一定の時間間毎に、句判定のための閾値を変更するようにしたが、これに限るものではない。例えば、設定されている一定の時間内で、句判定の閾値を２段階に（２回）変更してもよい。

［実施の形態５］
次に、本発明の実施の形態５について説明する。図８は、音声処理装置６００を用いた実施の形態５における字幕生成システムの構成を示す構成図である。本システムは、上述した実施の形態４における音声処理装置６００に加え、受信部８０１，整形部８０８，出力部８０９，および通信ネットワーク８２０を備える。

受信部８０１は、通信ネットワーク８２０から入力となる音声を受信し、音声処理装置６００に出力する。音声処理装置６００では、分析部６０２が、受信部８０１によって受信された音声を入力として、音声検出・分析を行う。翻訳部６０７は、翻訳結果を逐次的に整形部８０８に出力する。例えば、入力言語が英語で出力言語が日本語である場合には、英日翻訳を行って日本語の単語列を翻訳結果として出力する。

整形部８０８は、逐次的に得られる翻訳結果（テキストデータ）を整形し、整形したテキストデータを出力する。具体的には、例えば日本語の単語列を翻訳結果として得た場合には、要約や改行の挿入を行う。テキストデータに対して要約や改行の挿入などを行う技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。出力部８０９は、例えばディスプレイであり、整形部８０８で得られた音声データを入力として音声出力を行う。

次に、本実施の形態５におけるシステムの動作について、図９のフローチャートを用いて説明する。まず、ステップＳ９０１で、受信部８０１が通信ネットワーク８２０から連続的に入力される音声波形を受信する。次に、ステップＳ９０２で、音声処理装置６００における分析部６０２，音声認識部２０３，翻訳部６０７の処理により、実施の形態４で説明した音声処理が行われ、翻訳結果が逐次的に出力される。

次に、ステップＳ９０３で、整形部８０８が、音声処理装置２００より得られた翻訳結果を整形する（Ｓ２０２）。例えば、翻訳結果として出力された日本語単語列（テキストデータ）に対し、要約しまた改行を挿入するなどを行い、テキストを表示する際に見やすい形に整形し、整形結果のテキストデータを出力する。次に、ステップＳ９０４で、出力部８０９が、整形されたテキストを、例えばディスプレイに表示出力する。

このように、本実施の形態５によれば、通信ネットワーク８２０より連続的に受信・入力される音声データを逐次的に音声処理し、結果として逐次的な翻訳結果の出力（整形テキストデータ出力）を可能としている。例えば、テレビ放送の字幕生成などのように、入力がユーザの意図に関わらず連続的に行われ、処理の保留や遅延が大きな問題となる場合には、一定区間間隔で出力が行われることの効果が高いものと言える。

なお、上述では、音声処理を逐次的に行うことを前提としているが、音声認識と組み合わせる後段の処理は翻訳に限らない。例えば、音声検索や音声要約など言語処理が必要となる処理であれば同様に適用が可能である。近年、音声認識・翻訳の技術を用いた製品の市場が拡大しているが、本発明は、このような状況に適用可能である。

上記実施形態の一部または全部は、以下の付記のようにも記載されるが、以下には限られない。

（付記１）
入力された音声を音声検出・分析して特徴量を出力する分析手段と、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段とを備え、前記音声認識手段は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で前記認識結果を出力することを特徴とする音声処理装置。

（付記２）
付記１記載の音声処理装置において、前記句判定手段は、前記句境界を表す単語の前記仮説の単語群における尤度に基づいて前記句境界を定めることを特徴とする音声処理装置。

（付記３）
付記２記載の音声処理装置において、前記句判定手段は、前記仮説の単語群の中における前記句境界を表す単語の占有率が設定されている閾値を超える場合に、前記句境界を判定することを特徴とする音声処理装置。

（付記４）
付記２記載の音声処理装置において、前記句判定手段は、前記句境界を表す単語仮説が全体の単語仮説の中で最尤であり、かつ、次に尤度の高い単語仮説との尤度差が、設定されている閾値を超える場合に、前記句境界を判定することを特徴とする音声処理装置。

（付記５）
付記１〜４のいずれか１項に記載の音声処理装置において、前記句判定手段は、入力された音声の区間情報を指定する区間指定手段をさらに備え、前記句判定手段は、前記区間指定手段に設定されている区間毎に、設定した区間内で前記閾値を一時変更することを特徴とする音声処理装置。

（付記６）
付記１〜５のいずれか１項に記載の音声処理装置において、前記句境界を表す単語は、句の先頭あるいは末尾に現れる句境界を表す単語であることを特徴とする音声処理装置。

（付記７）
付記６記載の音声処理装置において、前記句境界を表す単語は、前置詞または接続詞であり、単語の直前を句境界とすることを特徴とする音声処理装置。

（付記８）
入力された音声を音声検出・分析して特徴量を出力する分析ステップと、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップとを備え、前記音声認識ステップは、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で前記認識結果を出力することを特徴とする音声処理方法。

（付記９）
コンピュータに、入力された音声を音声検出・分析して特徴量を出力する分析機能と、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能とを備え、前記音声認識機能は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、前記音声認識機能は、前記句判定機能で判定した句境界による句の単位で前記認識結果を出力する機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。

以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、２００９年７月１７日に出願された日本出願特願２００９−１６８７６４号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

本発明によれば、音声認識・機械翻訳技術を用いた音声入力・翻訳サービスといった用途に適用できる。

１０１…分析部、１０２…音声認識部、１０３…句判定部。

Claims

入力された音声を音声検出・分析して特徴量を出力する分析手段と、
前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段と
を備え、
前記音声認識手段は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で前記認識結果を出力する
ことを特徴とする音声処理装置。
請求項１記載の音声処理装置において、
前記句判定手段は、前記句境界を表す単語の前記仮説の単語群における尤度に基づいて前記句境界を定める
ことを特徴とする音声処理装置。
請求項２記載の音声処理装置において、
前記句判定手段は、前記仮説の単語群の中における前記句境界を表す単語の占有率が設定されている閾値を超える場合に、前記句境界を判定する
ことを特徴とする音声処理装置。
請求項２記載の音声処理装置において、
前記句判定手段は、前記句境界を表す単語仮説が全体の単語仮説の中で最尤であり、かつ、次に尤度の高い単語仮説との尤度差が、設定されている閾値を超える場合に、前記句境界を判定する
ことを特徴とする音声処理装置。
請求項１記載の音声処理装置において、
前記句判定手段は、入力された音声の区間情報を指定する区間指定手段をさらに備え、
前記句判定手段は、前記区間指定手段に設定されている区間毎に、設定した区間内で前記閾値を一時変更する
ことを特徴とする音声処理装置。
請求項１記載の音声処理装置において、
前記句境界を表す単語は、句の先頭あるいは末尾に現れる句境界を表す単語であることを特徴とする音声処理装置。
請求項６記載の音声処理装置において、
前記句境界を表す単語は、前置詞または接続詞であり、単語の直前を句境界とすることを特徴とする音声処理装置。
入力された音声を音声検出・分析して特徴量を出力する分析ステップと、
前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップと
を備え、
前記音声認識ステップは、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で前記認識結果を出力する
ことを特徴とする音声処理方法。
コンピュータに、
入力された音声を音声検出・分析して特徴量を出力する分析機能と、
前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能と
を備え、
前記音声認識機能は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、
前記音声認識機能は、前記句判定機能で判定した句境界による句の単位で前記認識結果を出力する
機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。