JPWO2011007627A1 - 音声処理装置および方法ならびに記憶媒体 - Google Patents

音声処理装置および方法ならびに記憶媒体 Download PDF

Info

Publication number
JPWO2011007627A1
JPWO2011007627A1 JP2011522761A JP2011522761A JPWO2011007627A1 JP WO2011007627 A1 JPWO2011007627 A1 JP WO2011007627A1 JP 2011522761 A JP2011522761 A JP 2011522761A JP 2011522761 A JP2011522761 A JP 2011522761A JP WO2011007627 A1 JPWO2011007627 A1 JP WO2011007627A1
Authority
JP
Japan
Prior art keywords
phrase
speech
word
recognition
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011522761A
Other languages
English (en)
Other versions
JP5418596B2 (ja
Inventor
健 花沢
健 花沢
長田 誠也
誠也 長田
隆行 荒川
隆行 荒川
岡部 浩司
浩司 岡部
田中 大介
大介 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011522761A priority Critical patent/JP5418596B2/ja
Publication of JPWO2011007627A1 publication Critical patent/JPWO2011007627A1/ja
Application granted granted Critical
Publication of JP5418596B2 publication Critical patent/JP5418596B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

音声認識部(102)は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定部(103)を備える。本音声処理装置では、句判定部(103)が判定した句境界による句の単位で、音声認識部(102)が認識結果を出力する。

Description

本発明は、入力された音声を認識する音声処理装置および方法ならびに記憶媒体に関するものである。
音声で入力された発話を音声認識し、認識結果を翻訳することによる自動通訳(音声翻訳)の技術が知られている。この音声翻訳では、より即時的に翻訳結果を出力することが重要な技術となる。例えば、システム側の指定あるいはユーザの指示などで、入力音声すなわち発話の始端および終端を指定(設定)することが可能な場合には、指定した単位で翻訳処理を行えばよいので、この単位を短くすることで、より即時的な翻訳結果を得ることができる。これに対し、例えば電話における通話など、次々と連続的に入力される音声に対して音声翻訳を行う場合には、ユーザの指示などで発話の始端および終端を指定することができない。このような場合、単純には、通話が一旦途切れるまで待って音声翻訳を行うことになるが、これでは、待ち時間が長くなりすぎる。また、このような場合に逐次的に音声翻訳を行う技術や方法は、あまり開発・提案されていない状況である。
このような課題を解決するため、音声認識においては、マルチパス探索方式により、一定時間間隔で第1の認識パスを処理し、第2の認識パスで当該一定時間間隔中の安定区間を確定して出力し、逐次的に音声認識の結果出力を行う方法が提案されている(特許文献1参照)。また、第2の認識パスを駆動するタイミングをフレーム信頼度によって推定することにより、第2の認識パスを一定時間間隔で必ず行うことによる音声処理の無駄を省く方法も開発されている(特許文献2参照)。
しかしながら、上述した技術は、音声認識の技術であり、発話内容に対して離散的な処理である翻訳処理を、音声を認識してからどの様に組み合わせるかについては、何ら述べられていない。また、上述した技術で得られる認識の結果が、翻訳に適した単位となっているとは限らない。
一方、音声認識を行った後で構文解析を行い、文の始終端を構文の制約に基づいて与えることで、連続的な入力に対応する方法がある(特許文献3参照)。しかしながら、この方法では、音声認識の後段に構文解析を追加することで処理量の増加を招くとともに、認識結果出力のリアルタイム性を損なうという課題がある。
また、音声認識において、言語モデルと経験的規則とポーズ長とを利用して句点を学習し、学習した句点を認識結果に挿入することで、認識結果の文境界を推定し、翻訳処理に適した単位として認識結果を出力する方法もある(特許文献4参照)。しかしながら、この方法では、連続的な入力に対して逐次的に認識結果を出力し、あるいは翻訳処理を行うためのリアルタイム性は考慮されていない。
特許第3834169号公報 特開2004−12615公報 特許第3766111号公報 特許第3009642号公報 特開2008−269122号公報
上述したように、関連する技術では、連続的に入力される音声に対し、待ち時間を短くしてより即時的に高い精度で、音声翻訳結果を逐次的に出力することができない状況である。例えば、特許文献1および特許文献2の技術では、音声認識結果は逐次的に出力されるが、この後の翻訳処理については考慮されておらず、逐次的に出力される認識結果が翻訳に適した単位とは限らないという課題がある。また、特許文献3および特許文献4の技術では、音声認識結果から翻訳に適した文境界を指定することは可能となるが、連続的な入力に対するリアルタイム性が考慮されておらず、必ずしも出力が逐次的でなくなるためにユーザの待ち時間が増加する可能性がある。
本発明は、以上のような問題点を解消するためになされたものであり、連続的に入力される音声に対し、リアルタイム性を高くして待ち時間を短くし、精度よく逐次的に音声翻訳結果が出力できるようにすることを目的とする。
本発明に係る音声処理装置は、入力された音声を音声検出・分析して特徴量を出力する分析手段と、特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段とを備え、音声認識手段は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で認識結果を出力する。
本発明に係る音声処理方法は、入力された音声を音声検出・分析して特徴量を出力する分析ステップと、特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップとを備え、音声認識ステップは、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で認識結果を出力する。
本発明に係る記憶媒体は、コンピュータに、入力された音声を音声検出・分析して特徴量を出力する分析機能と、特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能とを備え、音声認識機能は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、音声認識機能は、句判定機能で判定した句境界による句の単位で認識結果を出力する機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。
以上説明したように、本発明によれば、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定するようにしたので、連続的に入力される音声に対し、リアルタイム性を高くして待ち時間を短くし、精度よく逐次的に音声翻訳結果が出力できるようになる。
図1は、本発明の実施の形態1における音声処理装置の構成を示す構成図である。 図2は、本発明の実施の形態2における音声処理装置の構成を示す構成図である。 図3は、本発明の実施の形態2における音声処理装置の動作例について説明するフローチャートである。 図4は、実施の形態2の音声処理装置を用いた本発明の実施の形態3における通話翻訳システムの構成を示す構成図である。 図5は、本発明の実施の形態3におけるシステムの動作例について説明するフローチャートである。 図6は、本発明の実施の形態4における音声処理装置の構成を示す構成図である。 図7は、本発明の実施の形態4における音声処理装置の動作例について説明するフローチャートである。 図8は、実施の形態の4音声処理装置を用いた本発明の実施の形態5における字幕生成システムの構成を示す構成図である。 図9は、本発明の実施の形態5におけるシステムの動作例について説明するフローチャートである。
以下、本発明の実施の形態について図を参照して説明する。
[実施の形態1]
はじめに、本発明の実施の形態1について説明する。図1は、実施の形態1における音声処理装置の構成を示す構成図である。この音声処理装置は、まず、入力された音声を音声検出・分析して特徴量を出力する分析部101と、特徴量に基づいて音声認識を行って認識結果を出力する音声認識部102とを備える。加えて、音声認識部102は、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定部103を備える。本音声処理装置では、句判定部103が判定した句境界による句の単位で、音声認識部102が認識結果を出力する。
本実施の形態における音声処理装置の動作について説明すると、まず、分析部101が、入力された音声を音声検出・分析して特徴量を出力する。次に、音声認識部102において、句判定部103が、音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する。次に、音声認識部102が、判定された句境界による句の単位で、認識結果を出力する。
このようにした本実施の形態によれば、翻訳のための句境界を判定しながら音声翻訳を行うようにした。言い換えると、翻訳に好適な単位で認識結果単語列を取り出して翻訳処理を行うようにした。これにより、本実施の形態によれば、逐次的に音声翻訳の結果を得ることができるようになる。句境界の判定は、音声認識により生成した仮説の単語群に対して行うため、音声認識処理のうち単語探索の過程で行うことになる。従って、本実施の形態では、句境界の判定を、認識処理終了後に行うわけではないため、認識結果出力の逐次性・リアルタイム性を損なう恐れが少ない。また、単語探索の過程で仮説の尤度や占有率を考慮すれば、認識結果出力を逐次的に行うことによる音声認識精度の劣化を抑えることも可能となる。
[実施の形態2]
次に、本発明における実施の形態2について説明する。図2は、実施の形態2における音声処理装置200の構成を示す構成図である。音声処理装置200は、分析部202,音声認識部203,音響モデル記憶部204,認識辞書記憶部205,翻訳辞書記憶部206,および翻訳部207を備える。
分析部202は、入力部201より入力された音声データから音声区間を検出し、検出された区間を音響分析し、特徴量系列である、例えばケプストラムの時系列を出力する。音声検出および音響分析を行う技術は、公知技術として良く知られているものであり、ここでは詳細な説明を省略する。
音声認識部203は、距離計算部231,単語探索部232,および出力部234を内部に備える。さらに、単語探索部232は、句判定部233を備える。音声認識部203は、音響的確からしさを与える音響モデルと、認識対象の単語からなる認識辞書とを用い、分析部202の出力である特徴量系列を入力とし、認識結果単語列を出力部234により出力する。音響モデルは音響モデル記憶部204に記憶され、認識辞書は認識辞書記憶部205に記憶されている。
より詳細には、まず、距離計算部231が、分析部202より得られた特徴量系列の音響計算を、音響モデルを用いて行う。また、単語探索部232が、距離計算部231による距離計算結果に対する単語探索を、認識辞書を用いて行い、認識結果となる単語列を出力する。
翻訳部207は、音声認識部203が出力する単語列を入力とし、翻訳辞書記憶部206に記憶されている翻訳辞書を用いて翻訳を行い、翻訳結果を出力する。ここで、翻訳辞書には翻訳のための文法知識が含まれているようにしてもよい。
上述した音声処理装置200は、汎用的なコンピュータシステムであり、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、および不揮発性記憶装置を備える。なお、音声処理装置200は、例えばCPUなどから構成されコンピュータであり、RAM、ROM、または不揮発性記憶装置などの記憶媒体209にに格納されたOS(Operation System)および音声処理プログラムを読み込み、これらを実行することで音声処理を実施する。これにより、連続的な入力音声に対して、音声翻訳結果を逐次的に出力することができる。なお、音声処理装置200は、1台のコンピュータで構成してもよく、また、複数台のコンピュータで構成してもよい。これらのことは、他の実施の形態においても同様である。
また、音響モデル記憶部204、認識辞書記憶部205、および翻訳辞書記憶部206は、固定ディスク、光磁気ディスク、フラッシュメモリなどの不揮発性の記憶装置や、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置で構成されていればよい。また、音響モデル記憶部204、認識辞書記憶部205、および翻訳辞書記憶部206は、音声処理装置200を構成するコンピュータの外部に接続される記憶装置であってもよい。
次に、音声処理装置200の動作例について図3に示すフローチャートを用いて説明する。まず、ステップS301で、入力部201により音声を入力する。例えば、入力部201はマイクであり、マイクから入力される例えば英語の音声波形が得られる。次に、ステップS302で、音声入力の終了を判定する。例えば、入力されている音声が存在していれば、以降の処理を続行するが、終了していれば処理を終了する。
次に、ステップS303で、分析部202が、入力音声から音声区間を検出し、検出した区間を音響分析し、特徴量系列を出力する。次に、ステップS304で、音声認識部203の距離計算部231が、分析部202より得られた特徴量系列と音響モデル記憶部204に記憶されている音響モデルとの距離を計算する。ここでは、入力音声と音響モデルとの近さが計算されることになる。例えば、距離計算部231は、分析部202により得られた特徴量系列と音響モデルとの音響距離計算を行い、距離計算結果を出力する。なお、音響モデルとの距離を計算する技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。
次に、ステップS305で、音声認識部203の単語探索部232が、距離計算部231により得られた距離計算結果に対し、認識辞書記憶部205に記憶されている認識辞書を用いて最も確からしい単語列を探索し、仮説の単語(単語仮説)を生成する。例えば、入力音声が英語である場合には英語音声認識を行い、確からしい英語の単語あるいは単語列からなる単語仮説を生成する。音声認識における単語探索の技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。
次に、ステップS306で、単語探索部232の句判定部233が、得られた単語仮説と、設定されている句境界を表す単語との比較に基づいて句境界を判定する。例えば英語であれば翻訳単位として好適な前置詞句の先頭の単語は前置詞であるという性質を利用し、品詞が前置詞である単語を、句境界を表す単語としてあらかじめ定めておく。
このようにして設定してある句境界を表す単語が、単語仮説の中に存在する数をHpとしたときに、単語仮説の全ての単語数Hallに対するHpの割合(仮説占有率)が、あらかじめ定められた閾値Hthreを越える場合、言い換えると「Hp/Hall>Hthre」が成り立つ場合、句境界を判定する。
句境界の判定では、仮説占有率が閾値を超えた場合、例えば当該句境界を表す単語の仮説のうち最も尤度の高いものの始端時刻を句境界として判定し、判定した始端時刻の直前を、前の句の終端時刻とする最尤の仮説を、当該終端時刻までの認識結果として出力する。あるいは、句境界を表す単語の仮説のうち最も尤度の高いものの終端時刻を句境界として判定し、判定した終端時刻を単語終端とする最尤の仮説を、判定した終端時刻までの認識結果として出力することもできる。結果は、出力部234より出力される。
一方、仮説占有率が閾値以下であれば(ステップS306の「N」)、次の音声入力を受け付けるためにステップS301に戻る。
なお、上述した句境界を表す単語は、あらかじめ品詞が前置詞であるものと定めておくとしたが、これに限らず、接続詞など他の品詞、あるいは句読点や無音を含めても良い。日本語では例えば「えーと」「あのー」などのフィラー(つなぎ言葉)を含めても効果が高いと言える。また、翻訳に好適な処理単位を提供できるのであれば、単一の単語に限らず、例えば複数の単語の組み合わせでも良く、また、句境界を表すモデルとして学習しても良い。句境界を表すモデルを学習する方法は、特許文献5に記載されている。
ところで、句判定における仮説数HpあるいはHallの計算では、音声入力が行われている同一時刻内での仮説数を計算対象としても良く、また、ある時刻の直前あるいは直後の時刻も含めた時間幅の中での仮説数を計算対象としても良い。
以上のようにして句判定がなされると、ステップS307で、翻訳部207が、判定された句境界までの認識結果単語列に対し、翻訳辞書記憶部206に記憶されている翻訳辞書を用いて翻訳を行い、翻訳結果を出力する。例えば、入力言語が英語で、出力言語が日本語である場合には、認識結果単語列として得られる英語の単語列を英日翻訳し、日本語の単語列を翻訳結果として出力する。単語列を翻訳する技術は、公知技術として良く知られているものであり、ここでは詳細な説明を省略する。
次に、ステップS308で、上述した翻訳結果が出力部208で利用者に視認可能な状態で出力される。翻訳結果が出力されると、ステップS301に戻り、音声入力が終了するまで、上述したステップS301〜ステップS308を継続する。
なお、上述では、句判定部233における判定の基準に仮説占有率を用いたが、これに限るものではなく、例えば、句境界を表す単語仮説が全体の仮説の中で最尤(1位仮説)であり、かつ次に尤度の高い単語仮説(2位仮説)との尤度差が閾値を超える場合に、当該句境界を表す単語の始端時刻あるいは終端時刻を句境界として判定しても良い。
以上に説明したように、本実施の形態における音声処理装置200は、連続的に入力される音声に対し、句境界を判定しながら音声翻訳を行う、すなわち翻訳に好適な単位で認識結果単語列を出力および翻訳処理を行うので、結果として逐次的な音声翻訳結果の出力が可能となる。
句境界の判定は、認識処理終了後に行うのではなく、音声認識処理のうち単語探索の過程で行うので、認識結果出力の逐次性・リアルタイム性を損なう恐れが少ない。また、単語探索の過程で仮説の尤度や占有率を考慮することで、認識結果出力を逐次的に行うことによる音声認識精度の劣化を抑えることが可能となる。
[実施の形態3]
次に、本発明の実施の形態3について説明する。図4は、音声処理装置200を用いた実施の形態3における通話翻訳システムの構成を示す構成図である。本システムは、上述した実施の形態2における音声処理装置200に加え、受信部401,音声合成部408,出力部409,および通信ネットワーク420を備える。通信ネットワーク420は、例えば、公衆電話網である。なお、通信ネットワーク420は、インターネット通信網であってもよい。
受信部401は、通信ネットワーク420から入力となる音声を受信し、音声処理装置200に出力する。受信部401は、例えば、音声通話を実現する電話における受信部である。
音声処理装置200では、分析部202が、受信部401によって受信された音声を入力として、音声検出・分析を行う。翻訳部207は、翻訳結果を逐次的に音声合成部408に出力する。例えば、入力言語が英語で出力言語が日本語である場合には、英日翻訳を行って日本語の単語列を翻訳結果として出力する。
音声合成部408は、逐次的に得られる翻訳結果を音声合成し、合成音声を出力する。具体的には、例えば日本語の単語列を翻訳結果として得た場合には、日本語音声合成を行う。テキストデータを音声データに音声合成する技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。出力部409は、例えばスピーカであり、音声合成部408で得られた音声データを入力として音声出力を行う。
次に、本実施の形態3におけるシステムの動作について、図5のフローチャートを用いて説明する。まず、ステップS501で、受信部401が通信ネットワーク420から連続的に入力される音声波形を受信する。次に、ステップS502で、音声処理装置200における分析部202,音声認識部203,翻訳部207の処理により、実施の形態2で説明した音声処理が行われ、翻訳結果が逐次的に出力される。
次に、ステップS503で、音声合成部408が、音声処理装置200より得られた翻訳結果を音声合成する(S202)。例えば、翻訳結果として出力された日本語単語列を音声合成する。次に、ステップS504で、出力部409が、合成された音声を、例えばスピーカより出力する。
このように、本実施の形態3によれば、通信ネットワーク420より連続的に受信・入力される音声データを逐次的に音声処理し、結果として逐次的な音声翻訳結果の出力(合成音声出力)を可能としている。なお、上述では、音声翻訳結果を合成音声出力したが、これに限らず、テキスト情報として出力してもよい。
なお、上述したシステムは、例えば、汎用的なコンピュータシステムであり、図示しない構成として、CPU、RAM、ROM、および不揮発性記憶装置を備え、CPUがRAM、ROM、または不揮発性記憶装置に格納されたOSおよび通話翻訳プログラムを読み込み、これらを実行することで通話翻訳処理を行う。これにより、通話中の音声を翻訳して逐次的に出力することができる。なお、上述したシステムは1台のコンピュータである必要はなく、複数台のコンピュータで構成してもよい。
[実施の形態4]
次に、本発明の実施の形態4について説明する。図6は、実施の形態4における音声処理装置600の構成を示す構成図である。音声処理装置600は、分析部602,音声認識部603,音響モデル記憶部604,認識辞書記憶部605,翻訳辞書記憶部606,および翻訳部607を備える。
分析部602は、入力部601より入力された音声データから音声区間を検出し、検出された区間を音響分析し、特徴量系列である、例えばケプストラムの時系列を出力する。音声検出および音響分析を行う技術は、公知技術として良く知られているものであり、ここでは詳細な説明を省略する。
音声認識部603は、距離計算部631および単語探索部632を内部に備える。また、単語探索部632は、句判定部633を備える。これらの構成は、前述した実施の形態2と同様である。加えて、本実施の形態では、句判定部633が、区間指定部634を備える。区間指定部634は、入力開始時からの区間情報、例えば時刻情報により、設定されている区間毎、例えば入力音声の500ms(ミリ秒)という区間単位毎に、句判定部633が句判定に用いる閾値を、設定した区間内で一時変更する。例えば入力音声の500ms毎に、この区間内で句判定部633が用いる閾値を小さくし、句境界の判定がされやすい状態とする。
なお、本実施の形態においても、音声処理装置600は、汎用的なコンピュータシステムであり、図示しない構成として、CPU、RAM、ROM(Read Only Memory)、および不揮発性記憶装置を備える。音声処理装置600は、CPUがRAM、ROM、または不揮発性記憶装置に格納されたOSおよび音声処理プログラムを読み込み、これらを実行することで音声処理を実施する。これにより、連続的な入力音声に対して、音声翻訳結果を逐次的に出力することができる。なお、音声処理装置600は、1台のコンピュータで構成してもよく、また、複数台のコンピュータで構成してもよい。
また、音響モデル記憶部604、認識辞書記憶部605、および翻訳辞書記憶部606は、固定ディスク、光磁気ディスク、フラッシュメモリなどの不揮発性の記憶装置や、DRAMなどの揮発性の記憶装置で構成されていればよい。また、音響モデル記憶部604、認識辞書記憶部605、および翻訳辞書記憶部606は、音声処理装置600を構成するコンピュータの外部に接続される記憶装置であってもよい。
次に、音声処理装置600の動作例について図7に示すフローチャートを用いて説明する。まず、ステップS701で、入力部601により音声を入力する。例えば、入力部601はマイクであり、マイクから入力される例えば英語の音声波形が得られる。次に、ステップS702で、音声入力の終了を判定する。例えば、入力されている音声が存在していれば、以降の処理を続行するが、終了していれば処理を終了する。
次に、ステップS703で、分析部602が、入力音声から音声区間を検出し、検出した区間を音響分析し、特徴量系列を出力する。次に、ステップS704で、音声認識部603の距離計算部631が、分析部602より得られた特徴量系列と音響モデル記憶部604に記憶されている音響モデルとの距離を計算する。ここでは、入力音声と音響モデルとの近さが計算されることになる。例えば、距離計算部631は、分析部602により得られた特徴量系列と音響モデルとの音響距離計算を行い、距離計算結果を出力する。なお、音響モデルとの距離を計算する技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。
次に、ステップS705で、音声認識部603の単語探索部632が、距離計算部631により得られた距離計算結果に対し、認識辞書記憶部605に記憶されている認識辞書を用いて最も確からしい単語列を探索し、仮説の単語(単語仮説)を生成する。例えば、入力音声が英語である場合には英語音声認識を行い、確からしい英語の単語あるいは単語列からなる単語仮説を生成する。音声認識における単語探索の技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。
次に、ステップS706で、単語探索部632において、区間指定部634が、設定されている時間間隔(例えば500m秒)が経過していることを判定する。ステップS706が、音声の入力(音声処理)を開始した時点より初めてなされる場合は、音声処理を開始してから500mm秒が経過していることを判定する。ステップS706の判定で、設定されている時間間が経過していないと判定すると、ステップS708に移行する。一方、ステップS706の判定で、設定されている時間が経過していると判断すると、区間指定部634は、句判定部633が用いる閾値を、設定されている値だけ小さい値とする。
次に、ステップS708で、句判定部633が、得られた単語仮説と、設定されている句境界を表す単語との比較に基づいて句境界を判定する。句判定部633は、前述した実施の形態2の句判定部233と同様に、句境界を判定する。この判定で、仮説占有率が閾値以下の場合(ステップS708の「N」)、次の音声入力を受け付けるため、ステップS701に戻る。
一方、上記判定で、仮説占有率が閾値を超えた場合、実施の形態2と同様にして句の境界を設定し、ステップS709に移行する。ステップS709では、句判定部633が用いる閾を初期化する。従って、仮説占有率が閾値以下の状態が継続すると、ステップS706で設定されている時間間隔が経過したと判断される毎に、上記閾値が小さくされることになる。このため、句境界が判定されやすくなる。
この後、ステップS710で、翻訳部607が、判定された句境界までの認識結果単語列に対し、翻訳辞書記憶部606に記憶されている翻訳辞書を用いて翻訳を行い、翻訳結果を出力する。例えば、入力言語が英語で、出力言語が日本語である場合には、認識結果単語列として得られる英語の単語列を英日翻訳し、日本語の単語列を翻訳結果として出力する。次に、ステップS711で、上述した翻訳結果が出力部608で利用者に視認可能な状態で出力される。翻訳結果が出力されると、ステップS701に戻り、音声入力が終了するまで、上述したステップS701〜ステップS711を継続する。
以上に説明したように、本実施の形態における音声処理装置600は、連続的に入力される音声に対し、句境界を判定しながら音声翻訳を行う、すなわち翻訳に好適な単位で認識結果単語列を出力および翻訳処理を行うので、結果として逐次的な音声翻訳結果の出力が可能となる。また、一定の時間が経過しても、句境界の判定がなされない場合は、句判定のための閾値を変更変更するようにしたため、例えば、句境界が判定しにくい場合であっても、句境界の判定がしやすくなり、より逐次的に翻訳処理ができるようになる。
また、本実施の形態においても、句境界の判定は、認識処理終了後に行うのではなく、音声認識処理のうち単語探索の過程で行うので、認識結果出力の逐次性・リアルタイム性を損なう恐れが少ない。また、単語探索の過程で仮説の尤度や占有率を考慮することで、認識結果出力を逐次的に行うことによる音声認識精度の劣化を抑えることが可能となる。
なお、上述では、句境界の判定がなされるまで、設定されている一定の時間間毎に、句判定のための閾値を変更するようにしたが、これに限るものではない。例えば、設定されている一定の時間内で、句判定の閾値を2段階に(2回)変更してもよい。
[実施の形態5]
次に、本発明の実施の形態5について説明する。図8は、音声処理装置600を用いた実施の形態5における字幕生成システムの構成を示す構成図である。本システムは、上述した実施の形態4における音声処理装置600に加え、受信部801,整形部808,出力部809,および通信ネットワーク820を備える。
受信部801は、通信ネットワーク820から入力となる音声を受信し、音声処理装置600に出力する。音声処理装置600では、分析部602が、受信部801によって受信された音声を入力として、音声検出・分析を行う。翻訳部607は、翻訳結果を逐次的に整形部808に出力する。例えば、入力言語が英語で出力言語が日本語である場合には、英日翻訳を行って日本語の単語列を翻訳結果として出力する。
整形部808は、逐次的に得られる翻訳結果(テキストデータ)を整形し、整形したテキストデータを出力する。具体的には、例えば日本語の単語列を翻訳結果として得た場合には、要約や改行の挿入を行う。テキストデータに対して要約や改行の挿入などを行う技術は、公知技術として良く知られており、ここでは詳細な説明を省略する。出力部809は、例えばディスプレイであり、整形部808で得られた音声データを入力として音声出力を行う。
次に、本実施の形態5におけるシステムの動作について、図9のフローチャートを用いて説明する。まず、ステップS901で、受信部801が通信ネットワーク820から連続的に入力される音声波形を受信する。次に、ステップS902で、音声処理装置600における分析部602,音声認識部203,翻訳部607の処理により、実施の形態4で説明した音声処理が行われ、翻訳結果が逐次的に出力される。
次に、ステップS903で、整形部808が、音声処理装置200より得られた翻訳結果を整形する(S202)。例えば、翻訳結果として出力された日本語単語列(テキストデータ)に対し、要約しまた改行を挿入するなどを行い、テキストを表示する際に見やすい形に整形し、整形結果のテキストデータを出力する。次に、ステップS904で、出力部809が、整形されたテキストを、例えばディスプレイに表示出力する。
このように、本実施の形態5によれば、通信ネットワーク820より連続的に受信・入力される音声データを逐次的に音声処理し、結果として逐次的な翻訳結果の出力(整形テキストデータ出力)を可能としている。例えば、テレビ放送の字幕生成などのように、入力がユーザの意図に関わらず連続的に行われ、処理の保留や遅延が大きな問題となる場合には、一定区間間隔で出力が行われることの効果が高いものと言える。
なお、上述したシステムは、例えば、汎用的なコンピュータシステムであり、図示しない構成として、CPU、RAM、ROM、および不揮発性記憶装置を備え、CPUがRAM、ROM、または不揮発性記憶装置に格納されたOSおよび通話翻訳プログラムを読み込み、これらを実行することで通話翻訳処理を行う。これにより、通話中の音声を翻訳して逐次的に出力することができる。なお、上述したシステムは1台のコンピュータである必要はなく、複数台のコンピュータで構成してもよい。
なお、上述では、音声処理を逐次的に行うことを前提としているが、音声認識と組み合わせる後段の処理は翻訳に限らない。例えば、音声検索や音声要約など言語処理が必要となる処理であれば同様に適用が可能である。近年、音声認識・翻訳の技術を用いた製品の市場が拡大しているが、本発明は、このような状況に適用可能である。
上記実施形態の一部または全部は、以下の付記のようにも記載されるが、以下には限られない。
(付記1)
入力された音声を音声検出・分析して特徴量を出力する分析手段と、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段とを備え、前記音声認識手段は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で前記認識結果を出力することを特徴とする音声処理装置。
(付記2)
付記1記載の音声処理装置において、前記句判定手段は、前記句境界を表す単語の前記仮説の単語群における尤度に基づいて前記句境界を定めることを特徴とする音声処理装置。
(付記3)
付記2記載の音声処理装置において、前記句判定手段は、前記仮説の単語群の中における前記句境界を表す単語の占有率が設定されている閾値を超える場合に、前記句境界を判定することを特徴とする音声処理装置。
(付記4)
付記2記載の音声処理装置において、前記句判定手段は、前記句境界を表す単語仮説が全体の単語仮説の中で最尤であり、かつ、次に尤度の高い単語仮説との尤度差が、設定されている閾値を超える場合に、前記句境界を判定することを特徴とする音声処理装置。
(付記5)
付記1〜4のいずれか1項に記載の音声処理装置において、前記句判定手段は、入力された音声の区間情報を指定する区間指定手段をさらに備え、前記句判定手段は、前記区間指定手段に設定されている区間毎に、設定した区間内で前記閾値を一時変更することを特徴とする音声処理装置。
(付記6)
付記1〜5のいずれか1項に記載の音声処理装置において、前記句境界を表す単語は、句の先頭あるいは末尾に現れる句境界を表す単語であることを特徴とする音声処理装置。
(付記7)
付記6記載の音声処理装置において、前記句境界を表す単語は、前置詞または接続詞であり、単語の直前を句境界とすることを特徴とする音声処理装置。
(付記8)
入力された音声を音声検出・分析して特徴量を出力する分析ステップと、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップとを備え、前記音声認識ステップは、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で前記認識結果を出力することを特徴とする音声処理方法。
(付記9)
コンピュータに、入力された音声を音声検出・分析して特徴量を出力する分析機能と、前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能とを備え、前記音声認識機能は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、前記音声認識機能は、前記句判定機能で判定した句境界による句の単位で前記認識結果を出力する機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年7月17日に出願された日本出願特願2009−168764号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
本発明によれば、音声認識・機械翻訳技術を用いた音声入力・翻訳サービスといった用途に適用できる。
101…分析部、102…音声認識部、103…句判定部。

Claims (9)

  1. 入力された音声を音声検出・分析して特徴量を出力する分析手段と、
    前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識手段と
    を備え、
    前記音声認識手段は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定手段を備え、この句判定手段が判定した句境界による句の単位で前記認識結果を出力する
    ことを特徴とする音声処理装置。
  2. 請求項1記載の音声処理装置において、
    前記句判定手段は、前記句境界を表す単語の前記仮説の単語群における尤度に基づいて前記句境界を定める
    ことを特徴とする音声処理装置。
  3. 請求項2記載の音声処理装置において、
    前記句判定手段は、前記仮説の単語群の中における前記句境界を表す単語の占有率が設定されている閾値を超える場合に、前記句境界を判定する
    ことを特徴とする音声処理装置。
  4. 請求項2記載の音声処理装置において、
    前記句判定手段は、前記句境界を表す単語仮説が全体の単語仮説の中で最尤であり、かつ、次に尤度の高い単語仮説との尤度差が、設定されている閾値を超える場合に、前記句境界を判定する
    ことを特徴とする音声処理装置。
  5. 請求項1記載の音声処理装置において、
    前記句判定手段は、入力された音声の区間情報を指定する区間指定手段をさらに備え、
    前記句判定手段は、前記区間指定手段に設定されている区間毎に、設定した区間内で前記閾値を一時変更する
    ことを特徴とする音声処理装置。
  6. 請求項1記載の音声処理装置において、
    前記句境界を表す単語は、句の先頭あるいは末尾に現れる句境界を表す単語であることを特徴とする音声処理装置。
  7. 請求項6記載の音声処理装置において、
    前記句境界を表す単語は、前置詞または接続詞であり、単語の直前を句境界とすることを特徴とする音声処理装置。
  8. 入力された音声を音声検出・分析して特徴量を出力する分析ステップと、
    前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識ステップと
    を備え、
    前記音声認識ステップは、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定ステップを備え、この句判定ステップで判定した句境界による句の単位で前記認識結果を出力する
    ことを特徴とする音声処理方法。
  9. コンピュータに、
    入力された音声を音声検出・分析して特徴量を出力する分析機能と、
    前記特徴量に基づいて音声認識を行い、認識結果を出力する音声認識機能と
    を備え、
    前記音声認識機能は、前記音声認識により生成した仮説の単語群と、設定されている句境界を表す単語との比較に基づいて句境界を判定する句判定機能を備え、
    前記音声認識機能は、前記句判定機能で判定した句境界による句の単位で前記認識結果を出力する
    機能を実現するためのプログラムを記憶したコンピュータに読み取り可能な記憶媒体。
JP2011522761A 2009-07-17 2010-06-04 音声処理装置および方法ならびに記憶媒体 Expired - Fee Related JP5418596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011522761A JP5418596B2 (ja) 2009-07-17 2010-06-04 音声処理装置および方法ならびに記憶媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009168764 2009-07-17
JP2009168764 2009-07-17
PCT/JP2010/059515 WO2011007627A1 (ja) 2009-07-17 2010-06-04 音声処理装置および方法ならびに記憶媒体
JP2011522761A JP5418596B2 (ja) 2009-07-17 2010-06-04 音声処理装置および方法ならびに記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2011007627A1 true JPWO2011007627A1 (ja) 2012-12-27
JP5418596B2 JP5418596B2 (ja) 2014-02-19

Family

ID=43449236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011522761A Expired - Fee Related JP5418596B2 (ja) 2009-07-17 2010-06-04 音声処理装置および方法ならびに記憶媒体

Country Status (3)

Country Link
US (1) US9583095B2 (ja)
JP (1) JP5418596B2 (ja)
WO (1) WO2011007627A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5418596B2 (ja) * 2009-07-17 2014-02-19 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
JP6235280B2 (ja) 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
JP3766111B2 (ja) 1991-08-13 2006-04-12 株式会社東芝 音声認識装置
JPH0695684A (ja) 1992-09-17 1994-04-08 Meidensha Corp 音声認識システム
JP3476237B2 (ja) * 1993-12-28 2003-12-10 富士通株式会社 構文解析装置
JP2905686B2 (ja) * 1994-03-22 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3403838B2 (ja) * 1994-10-28 2003-05-06 三菱電機株式会社 句境界確率計算装置および句境界確率利用連続音声認識装置
JPH1011439A (ja) * 1996-06-21 1998-01-16 Oki Electric Ind Co Ltd 英日機械翻訳システム
JP3009642B2 (ja) 1997-10-22 2000-02-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音声言語処理単位変換装置
JPH11259474A (ja) * 1998-03-10 1999-09-24 Matsushita Electric Ind Co Ltd 機械翻訳装置及び機械翻訳方法
JP3614648B2 (ja) * 1998-03-13 2005-01-26 富士通株式会社 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
CN1102271C (zh) * 1998-10-07 2003-02-26 国际商业机器公司 具有习惯用语处理功能的电子词典
US6453292B2 (en) * 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
JP3834169B2 (ja) 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP2004012615A (ja) * 2002-06-04 2004-01-15 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US8818793B1 (en) * 2002-12-24 2014-08-26 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
US20070192309A1 (en) * 2005-10-12 2007-08-16 Gordon Fischer Method and system for identifying sentence boundaries
US7908552B2 (en) * 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
JP2008269122A (ja) 2007-04-18 2008-11-06 National Institute Of Information & Communication Technology 処理単位分割装置、処理単位分割方法、及びプログラム
US8364485B2 (en) * 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
EP2048656B1 (en) * 2007-10-10 2010-02-10 Harman/Becker Automotive Systems GmbH Speaker recognition
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
JP5418596B2 (ja) * 2009-07-17 2014-02-19 日本電気株式会社 音声処理装置および方法ならびに記憶媒体

Also Published As

Publication number Publication date
JP5418596B2 (ja) 2014-02-19
US20120116765A1 (en) 2012-05-10
WO2011007627A1 (ja) 2011-01-20
US9583095B2 (en) 2017-02-28

Similar Documents

Publication Publication Date Title
US10643609B1 (en) Selecting speech inputs
US9972318B1 (en) Interpreting voice commands
US11061644B2 (en) Maintaining context for voice processes
US8635070B2 (en) Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
US8571849B2 (en) System and method for enriching spoken language translation with prosodic information
US10460034B2 (en) Intention inference system and intention inference method
CN105632499B (zh) 用于优化语音识别结果的方法和装置
US9170994B2 (en) Machine translation apparatus, method and computer readable medium
US20080077387A1 (en) Machine translation apparatus, method, and computer program product
JP2019070799A (ja) 自然言語の双方向確率的な書換えおよび選択
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
CN112420026A (zh) 优化关键词检索系统
US10152298B1 (en) Confidence estimation based on frequency
JP5418596B2 (ja) 音声処理装置および方法ならびに記憶媒体
JP2010230695A (ja) 音声の境界推定装置及び方法
EP3739583A1 (en) Dialog device, dialog method, and dialog computer program
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
KR20180127020A (ko) 자연어 대화체 음성 인식 방법 및 장치
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
US6772116B2 (en) Method of decoding telegraphic speech
EP3718107B1 (en) Speech signal processing and evaluation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131104

R150 Certificate of patent or registration of utility model

Ref document number: 5418596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees