WO2023181107A1 - 音声検出装置、音声検出方法及び記録媒体 - Google Patents

音声検出装置、音声検出方法及び記録媒体 Download PDF

Info

Publication number
WO2023181107A1
WO2023181107A1 PCT/JP2022/013089 JP2022013089W WO2023181107A1 WO 2023181107 A1 WO2023181107 A1 WO 2023181107A1 JP 2022013089 W JP2022013089 W JP 2022013089W WO 2023181107 A1 WO2023181107 A1 WO 2023181107A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
section
speech
detection device
provisional
Prior art date
Application number
PCT/JP2022/013089
Other languages
English (en)
French (fr)
Inventor
浩司 岡部
仁 山本
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/013089 priority Critical patent/WO2023181107A1/ja
Publication of WO2023181107A1 publication Critical patent/WO2023181107A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

音声検出装置1は、音声信号に現れる音声を含む音声区間の始端を決定する始端決定手段112と、始端が決定された後に現れる非音声区間の長さLbが閾値TH以上か否かを判定することで、音声区間の終端を決定する終端決定手段112と、始端から始まる暫定音声区間の特性に基づいて、閾値THを設定する設定手段113とを備える。

Description

音声検出装置、音声検出方法及び記録媒体
 この開示は、例えば、音声信号に現れる音声区間を検出可能な音声検出装置、音声検出方法及び記録媒体の技術分野に関する。
 音声信号に現れる音声区間を検出可能な音声検出装置の一例が、特許文献1に記載されている。その他、この開示に関連する先行技術文献として、特許文献2から特許文献4及び非特許文献1があげられる。
国際公開第2021/014612号パンフレット 国際公開第2016/143125号パンフレット 特開2017-097330号公報 国際公開第2015/059947号パンフレット
 この開示は、先行技術文献に記載された技術の改良を目的とする音声検出装置、音声検出方法及び記録媒体を提供することを課題とする。
 この開示の音声検出装置の一の態様は、音声信号に現れる音声を含む音声区間の始端を決定する始端決定手段と、前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定する終端決定手段と、前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定する設定手段とを備える。
 この開示の音声検出方法の一の態様は、音声信号に現れる音声を含む音声区間の始端を決定することと、前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定することと、前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定することとを含む。
 この開示の記録媒体の一の態様は、コンピュータに音声検出方法を実行させるコンピュータプログラムが記録された記録媒体であって、前記音声検出方法は、音声信号に現れる音声を含む音声区間の始端を決定することと、前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定することと、前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定することとを含む。
図1は、第1実施形態における音声検出装置の構成を示すブロック図である。 図2は、音声信号と音声区間と非音声区間との関係を示す。 図3は、第2実施形態における音声検出装置の構成を示すブロック図である。 図4は、シンボル生成部の構成を示すブロック図である。 図5(a)は、音声区間の始端を決定する方法を、シンボルデータと共に示しており、図5(b)は、音声区間の終端を決定する方法を、シンボルデータと共に示している。 図6は、第2実施形態における音声検出装置が行う音声検出動作の流れを示すフローチャートである。 図7は、音声区間の始端が決定されたシンボルデータを示す。 図8は、暫定音声区間の長さと閾値との関係の一例を示すグラフである。 図9(a)は、比較例の音声検出装置が検出する音声区間を示し、図9(b)は、第2実施形態における音声検出装置が検出する音声区間を示す。 図10(a)は、比較例の音声検出装置が検出する音声区間を示し、図10(b)は、第2実施形態における音声検出装置が検出する音声区間を示す。 図11(a)から図11(c)の夫々は、暫定音声区間の長さと閾値との関係の一例を示すグラフである。 図12は、第3実施形態における音声検出装置の構成を示すブロック図である。 図13は、第4実施形態における音声検出装置の構成を示すブロック図である。 図14は、第5実施形態における音声検出装置の構成を示すブロック図である。
 以下、図面を参照しながら、音声検出装置、音声検出方法及び記録媒体の実施形態について説明する。
 (1)第1実施形態
 初めに、音声検出装置、音声検出方法及び記録媒体の第1実施形態について説明する。以下では、図1を参照しながら、音声検出装置、音声検出方法及び記録媒体の第1実施形態が適用された音声検出装置1000を用いて、音声検出装置、音声検出方法及び記録媒体の第1実施形態について説明する。図1は、第1実施形態における音声検出装置1000の構成を示すブロック図である。
 図1に示すように、音声検出装置1000は、始端決定部1001と、終端決定部1002と、設定部1003とを備えている。始端決定部1001は、図2に示すように、音声信号に現れる音声区間の始端を決定する。終端決定部1002は、図2に示すように、始端が決定された後に現れる非音声区間の長さLbが閾値TH以上か否かを判定することで、音声区間の終端を決定する。例えば、終端決定部1002は、非音声区間の長さLbが閾値TH以上となる時刻に基づいて定まる時刻を、音声区間の終端に相当する時刻として決定してもよい。設定部1003は、始端から始まる暫定音声区間(つまり、終端が未だ決定していない、暫定的な音声区間)の特性に基づいて、閾値THを設定する。例えば、図2に示すように、設定部1003は、暫定音声区間の特性(図2に示す例では、長さ)が変わった場合に、閾値THが第1候補値TH1から第2候補値TH2へと変更されるように、閾値THを設定してもよい。
 以上説明したように、第1実施形態の音声検出装置1000は、暫定音声区間の長さLtに基づいて、閾値THを設定する(つまり、変更する)ことができる。このため、音声検出装置1000は、音声区間が検出された後に行われる後処理動作(例えば、音声認識動作、声認証動作又は感情認識動作)にとって適切な長さを有する音声区間を検出することができる。
 (2)第2実施形態
 続いて音声検出装置、音声検出方法及び記録媒体の第2実施形態について説明する。以下では、音声検出装置、音声検出方法及び記録媒体の第2実施形態が適用された音声検出装置1を用いて、音声検出装置、音声検出方法及び記録媒体の第2実施形態について説明する。
 音声検出装置1は、音声区間検出動作(VAD:Voice Activity Detection)を行う装置である。音声区間検出動作は、発話者が発話した音声を示す音声信号から、音声区間を検出する動作である。言い換えれば、音声区間検出動作は、音声信号に現れる音声区間を、音声信号に現れる非音声区間と区別する動作である。音声区間は、発話者が発話した音声を含む区間である。つまり、音声区間は、発話者が音声を発話している区間である。一方で、非音声区間は、音声区間とは異なる区間である。典型的には、非音声区間は、発話者が音声を発話していない区間である。
 以下、このような音声区間検出動作を行う音声検出装置1について説明する。
 (2-1)音声検出装置1の構成
 初めに、図1を参照しながら、第2実施形態における音声検出装置1の構成について説明する。図1は、第2実施形態における音声検出装置1の構成を示すブロック図である。
 図3に示すように、音声検出装置1は、演算装置11と、記憶装置12と、通信装置13とを備えている。更に、音声検出装置1は、入力装置14と、出力装置15とを備えていてもよい。但し、音声検出装置1は、入力装置14及び出力装置15のうちの少なくとも一つを備えていなくてもよい。演算装置11と、記憶装置12と、通信装置13と、入力装置14と、出力装置15とは、データバス16を介して接続されていてもよい。
 演算装置11は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも一つを含む。演算装置11は、コンピュータプログラムを読み込む。例えば、演算装置11は、記憶装置12が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置11は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、音声検出装置1が備える図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置11は、通信装置13(或いは、その他の通信装置)を介して、音声検出装置1の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置11は、読み込んだコンピュータプログラムを実行する。その結果、演算装置11内には、音声検出装置1が行うべき動作(例えば、上述した音声区間検出動作)を実行するための論理的な機能ブロックが実現される。つまり、演算装置11は、音声検出装置1が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
 図3には、音声区間検出動作を実行するために演算装置11内に実現される論理的な機能ブロックの一例が示されている。図3に示すように、演算装置11内には、後述する付記に記載された「生成手段」の一具体例であるシンボル生成部111と、後述する付記に記載された「始端決定手段」及び「終端決定手段」の夫々の一具体例である音声区間検出部112と、後述する付記に記載された「設定手段」の一具体例である閾値設定部113とが実現される。
 シンボル生成部111は、音声信号からシンボルデータを生成する。具体的には、シンボル生成部111は、音声信号を細分化することで得られる音声フレームSF(例えば、数十ミリ秒の音声フレームSF)毎に、シンボルを出力する。シンボルは、音声フレームSFで発話者が発話した音声を文字として表す文字シンボルを含んでいてもよい。一つの文字シンボルは、一つの文字(例えば、一つのアルファベット、一つのひらがな、一つのハングル文字又は一つの漢字)を表していてもよい。一例として、一つの文字シンボルは、「a」という単一のアルファベットを表していてもよい。一つの文字シンボルは、複数の文字(例えば、複数のアルファベット、複数のひらがな、複数のハングル文字又は複数の漢字)を表していてもよい。一例として、一つの文字シンボルは、「pat」という複数のアルファベットを表していてもよい。シンボルは、音声フレームSFで発話者が音声を発話していないことを表すブランクシンボルを含んでいてもよい。その結果、シンボル生成部111は、出力された複数のシンボルが時系列に沿って並んだシンボルデータを生成する。尚、文字シンボルは、文字(例えば、ひらがな又はアルファベット)そのものを表すシンボルであってもよいし、文字の最小構成単位である音素を表すシンボルであってもよい。
 第2実施形態では、シンボル生成部111は、CTC(Connectionist Temporal Classification)モデルを用いて、音声信号からシンボルデータを生成する。CTCモデルを用いて音声信号からシンボルデータを生成する方法は、非特許文献1に記載されている。このため、CTCモデルを用いて音声信号からシンボルデータを生成する方法の詳細な説明は省略するが、以下、図4を参照しながら、その概要について簡単に説明する。CTCモデルを用いて音声信号からシンボルデータを生成するシンボル生成部111は、図2に示すように、再帰型ニューラルネットワークによって実現されてもよい。具体的には、シンボル生成部111は、音声信号を複数の音声フレームSFに分割すると共に、複数の音声フレームSFを複数のLTSM(Long Short Term Memory)に夫々入力する。複数のLTSMを含むニューラルネットワークは、複数種類の文字の夫々が、各音声フレームSFで発話者が発話した音声に対応する文字である事後確率を出力する。その後、シンボル生成部111は、事後確率が最も高くなる文字列を構成する複数のシンボルの系列データを、シンボルデータとして生成する。図4は、「G-O--」という文字列の事後確率が最も高くなる場合にシンボル生成部111が生成するシンボルデータの例を示している。
 尚、図4では、「-」という記号は、ブランクシンボルを意味する。ブランクシンボルは、ある音声フレームSFで音声が発話された可能性が低い場合に出力される。つまり、ブランクシンボルは、ある音声フレームに対応する文字が存在しない場合に出力される。
 再び図3において、音声区間検出部112は、シンボル生成部111が生成したシンボルデータを用いて、音声区間を検出する。音声区間検出部112が音声区間を検出する動作の概要について、図5(a)及び図5(b)を参照しながら説明する。
 まず、図5(a)に示すように、音声区間検出部112は、音声区間の始端を決定する。具体的には、音声区間検出部112は、音声区間の始端が未だ決定されていない(つまり、未検出である)状況下でシンボルデータを時系列に沿ってサーチすることで、文字シンボルを検出する。その後、音声区間検出部112は、文字シンボルが検出された音声フレームSFから所定のフレーム数MSだけ前の音声フレームSFを、音声区間の始端として決定する。図5(a)に示す例では、所定のフレーム数MSが2である。但し、所定のフレーム数MSは、0であってもよいし、1であってもよいし、3以上であってもよい。
 その後、音声区間検出部112は、音声区間の終端を決定する。具体的には、図5(b)に示すように、音声区間検出部112は、音声区間の始端が決定された状況下でシンボルデータを時系列に沿ってサーチすることで、音声区間の始端が決定された後に現れる非音声区間の長さLbが所定の閾値TH以上か否かを判定する。非音声区間は、ブランクシンボルが出力される区間である。この場合、非音声区間の長さLbとして、時系列的に連続して出力されるブランクシンボルの数(つまり、ブランクシンボルが出力される音声フレームSFの数)が用いられてもよい。以下の説明では、非音声区間の長さLbとして、時系列的に連続して出力されるブランクシンボルの数(以降、“ブランクシンボル数BSN”と称する)が用いられる例を用いて、説明を進める。ブランクシンボル数BSNが所定の閾値TH以上(つまり、非音声区間の長さLbが所定の閾値TH以上)であると判定された場合には、最後に文字シンボルが検出された音声フレームから所定のフレーム数MEだけ後ろの音声フレームを、音声区間の終端として決定する。図5(b)に示す例では、所定のフレーム数MEが2である。但し、所定のフレーム数MEは、0であってもよいし、1であってもよいし、3以上であってもよい。
 再び図3において、閾値設定部113は、音声区間検出部112が音声区間の終端を決定するために用いる閾値THを設定する。尚、閾値設定部113が閾値THを設定する方法については、図6等を参照しながら、後に詳述する。
 記憶装置12は、所望のデータを記憶可能である。例えば、記憶装置12は、演算装置11が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置12は、演算装置11がコンピュータプログラムを実行している場合に演算装置11が一時的に使用するデータを一時的に記憶してもよい。記憶装置12は、音声検出装置1が長期的に保存するデータを記憶してもよい。尚、記憶装置12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置12は、一時的でない記録媒体を含んでいてもよい。
 通信装置13は、音声検出装置1の外部の装置と通信可能である。
 入力装置14は、音声検出装置1の外部からの音声検出装置1に対する情報の入力を受け付ける装置である。例えば、入力装置14は、音声検出装置1のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ)を含んでいてもよい。例えば、入力装置14は、音声検出装置1に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
 出力装置15は、音声検出装置1の外部に対して情報を出力する装置である。例えば、出力装置15は、情報を画像として出力してもよい。つまり、出力装置15は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置15は、情報を音声として出力してもよい。つまり、出力装置15は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置15は、紙面に情報を出力してもよい。つまり、出力装置15は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
 (2-2)音声検出装置1が行う音声検出動作
 続いて、図6を参照しながら、音声検出装置1が行う音声検出動作について説明する。図6は、第2実施形態における音声検出装置1が行う音声検出動作の流れを示すフローチャートである。
 図6に示すように、シンボル生成部111は、音声信号からシンボルデータを生成する(ステップS100)。例えば、シンボル生成部111は、マイク等の音声センサが生成した音声信号を取得し、取得した音声信号からシンボルデータを生成してもよい。この場合、シンボル生成部111は、音声信号が生成され続ける限りは、音声信号を取得し続け且つシンボルデータを生成し続けてもよい。或いは、例えば、シンボル生成部111は、記録媒体に記録されている音声信号を読み込み、読み込んだ音声データからシンボルデータを生成してもよい。
 その後、音声区間検出部112は、ステップS100において生成されたシンボルデータに基づいて、音声区間の始端を決定する(ステップS101)。その後、音声区間検出部112は、ステップS100において生成されたシンボルデータに基づいて、音声区間の終端を決定する(ステップS103からステップS104)。つまり、音声区間検出部112は、ブランクシンボル数BSNが閾値TH以上か否かを判定する(ステップS103)。音声区間検出部112は、ステップS103における判定結果に基づいて、音声区間の終端を決定する(ステップS104)。
 第2実施形態では特に、音声区間の始端が決定されてから音声区間の終端が決定されるまでの間、閾値設定部113は、ステップS103において用いられる閾値THを設定する(ステップS102)。具体的には、閾値設定部113は、ステップS101において決定された始端から始まる暫定音声区間の特性に基づいて、閾値THを設定する(つまり、変更する)。
 暫定音声区間は、終端が決定されていない暫定的な音声区間を意味する。具体的には、音声区間の始端が決定されたシンボルデータを示す図7に示すように、第2実施形態では、音声区間の終端が決定されるまでは、ステップS101において決定された始端から始まる音声区間を、その終端が確定的に決定されていない暫定音声区間と称する。暫定音声区間の暫定的な終端として、音声区間検出動作を行うために現時点で注目されている音声フレームSF(以下、“注目フレーム”と称する)が用いられてもよい。注目フレームは、音声区間検出動作を行うためにシンボルデータを時系列に沿ってサーチする際に、現時点でサーチ済みの最後のシンボルに対応する音声フレームSFを意味していてもよい。
 第2実施形態では、暫定音声区間の特性として、暫定音声区間の長さLtが用いられる例について説明する。以下では、暫定音声区間の長さLtとして、暫定音声区間Ltに含まれる音声フレームSFの数(つまり、暫定音声区間Ltに含まれるシンボルの数)が用いられる例について説明する。この場合、閾値設定部113は、暫定音声区間の長さLtに基づいて、閾値THを設定する。具体的には、閾値設定部113は、暫定音声区間の長さLtに基づいて、閾値THを変更する。例えば、閾値設定部113は、暫定音声区間の長さLtが第1の長さとなる場合に設定される閾値THが、暫定音声区間の長さLtが第1の長さとは異なる第2の長さとなる場合に設定される閾値THと異なる値となるように、閾値THを設定してもよい。
 第2実施形態では特に、閾値設定部113は、暫定音声区間の長さLtが第1の長さとなる場合に設定される閾値THが、暫定音声区間の長さLtが第1の長さよりも長い第2の長さとなる場合に設定される閾値THよりも大きくなるように、閾値THを設定してもよい。例えば、図8に示すように、閾値設定部113は、暫定音声区間の長さLtが長さLt11よりも短い場合に、閾値THを第1候補値TH11に設定してもよい。更に、閾値設定部113は、暫定音声区間の長さLtが長さLt11よりも長く且つ長さLt12(但し、長さLt12は、長さLt11よりも長い)よりも短い場合に、閾値THを第1候補値TH11よりも小さい第2候補値TH12に設定してもよい。更に、閾値設定部113は、暫定音声区間の長さLtが長さLt12よりも長い場合に、閾値THを第2候補値TH12よりも小さい第3候補値TH13に設定してもよい。つまり、図8に示す例では、閾値設定部113は、閾値THを、三種類の異なる候補値から暫定音声区間の長さLtに基づいて選択される一の候補値に設定している。
 再び図6において、音声検出装置1は、音声区間を検出する動作を、ステップS100において生成されたシンボルデータの全ての区間において完了するまで、同様の動作を繰り返す(ステップS105)。
 (2-3)音声検出装置1の技術的効果
 以上説明したように、第2実施形態の音声検出装置1は、暫定音声区間の長さLtに基づいて、閾値THを設定する(つまり、変更する)ことができる。このため、音声検出装置1は、音声区間が検出された後に行われる後処理動作(例えば、音声認識動作、声認証動作又は感情認識動作)にとって適切な長さを有する音声区間を検出することができる。以下、後処理動作にとって適切な長さを有する音声区間を検出することができる具体的な理由について、図9(a)から図9(b)及び図10(a)から図10(b)を参照しながら説明する。
 まず、暫定音声区間の長さLtとは無関係に閾値THが固定されている比較例の音声検出装置は、必要以上に短い音声区間を検出してしまう可能性がある。例えば、発話者が短時間だけ発話した後に短いポーズをとった場合に、比較例の音声検出装置は、短時間の発話で発せられた音声を含む短い音声区間を検出する可能性が高くなる。例えば、図9(a)は、閾値THが5(つまり、5フレーム)に固定されている比較例の音声検出装置が検出する音声区間を示している。図9(a)に示す例では、比較例の音声検出装置は、N番目の音声フレームSFが注目フレームとなるタイミングで文字シンボル「a」を検出するため、N番目の音声フレームSFから所定のフレーム数MS(この場合、2フレーム)だけ前のN-2番目の音声フレームSFを、音声区間の始端として決定する。その後、比較例の音声検出装置は、N+5番目の音声フレームSFが注目フレームとなるタイミングで、非音声区間の長さLb(つまり、ブランクシンボル数BSN)が閾値TH以上であると判定する。このため、比較例の音声検出装置は、最後に文字シンボルが検出されたN番目の音声フレームSFから所定のフレーム数ME(この場合、2フレーム)だけ後のN+2番目の音声フレームSFを、音声区間の終端として決定する。その結果、比較例の音声検出装置は、5フレーム分の長さを有する相対的に短い音声区間を検出することになる。この場合、図9(a)に示すように、検出された音声区間に含まれる文字シンボルの数は、必ずしも多いとは言えない。なぜならば、音声区間が短くなるほど当該音声区間に含まれる文字シンボルの数が少なくなるからである。つまり、比較例の音声検出装置は、含まれている情報が十分とは言い難い音声区間を検出する可能性がある。その結果、音声区間が検出された後に行われる後処理動作の精度が低下する可能性がある。例えば、発話者が発話した音声を表す文章の文脈が、音声認識動作によって適切に把握されない可能性がある。
 しかるに、第2実施形態では、音声検出装置1は、暫定音声区間の長さLtに基づいて閾値THを決定する。このため、音声検出装置1は、比較例の音声検出装置と比較して、必要以上に短い音声区間を検出してしまう可能性は低くなる。例えば、図9(b)は、暫定音声区間の長さLtが10フレーム以下である場合に閾値THを7(7フレーム)に設定し、暫定音声区間の長さLtが11フレーム以上且つ15フレーム以下である場合に閾値THを5(5フレーム)に設定し、暫定音声区間の長さLtが16フレーム以上である場合に閾値THを3(3フレーム)に設定する音声検出装置1が検出する音声区間を示している。図9(b)に示す例では、音声検出装置1は、図9(a)に示す比較例の音声検出装置と同様に、N-2番目の音声フレームSFを、音声区間の始端として決定する。この段階では、暫定音声区間の長さLtが3フレームであるため、閾値THが7に設定される。更に、N+5番目の音声フレームSFが注目フレームとなる場合においても、暫定音声区間の長さLtが8フレームであるため、閾値THが7に設定される。その結果、音声検出装置1は、比較例の音声検出装置とは異なり、N+5番目の音声フレームSFが注目フレームとなるタイミングで、非音声区間の長さLbが閾値TH以上であると判定することはない。その後、N+13番目の音声フレームSFが注目フレームとなる場合において、暫定音声区間の長さLtが16フレーム以上になるため、閾値THが3に設定される。その結果、音声検出装置1は、N+13番目の音声フレームSFが注目フレームとなるタイミングで、非音声区間の長さLbが閾値TH以上になると判定する。このため、音声検出装置1は、最後に文字シンボルが検出されたN+10番目の音声フレームSFから所定のフレーム数ME(この場合、2フレーム)だけ後のN+12番目の音声フレームSFを、音声区間の終端として決定する。その結果、音声検出装置1は、比較例の音声検出装置が検出した音声区間よりも長い音声区間を検出することになる。つまり、音声検出装置1は、必要以上に短い音声区間が検出されてしまうという技術的課題を解決することができる。このため、音声検出装置1は、比較例の音声検出装置と比較して、含まれている情報が十分である音声区間を検出する可能性が高くなる。その結果、音声検出装置1によって音声区間が検出された後に行われる後処理動作の精度は、比較例の音声検出装置によって音声区間が検出された後に行われる後処理動作の精度よりも高くなる。
 一方で、暫定音声区間の長さLtとは無関係に閾値THが固定されている比較例の音声検出装置は、必要以上に短い音声区間に加えて又は代えて、必要以上に長い音声区間を検出してしまう可能性もある。例えば、発話者が早口で連続して発話している場合に、比較例の音声検出装置は、必要以上に長い音声区間を検出してしまう可能性が高くなる。例えば、図10(a)は、閾値THが5(5フレーム)に固定されている比較例の音声検出装置が検出する音声区間を示している。図10(a)に示す例では、比較例の音声検出装置は、M番目の音声フレームSFが注目フレームとなるタイミングで文字シンボル「a」を検出するため、M番目の音声フレームSFから所定のフレーム数MS(この場合、2フレーム)だけ前のM-2番目の音声フレームSFを、音声区間の始端として決定する。その後、比較例の音声検出装置は、M+23番目の音声フレームSFが注目フレームとなるタイミングで、非音声区間の長さLb(つまり、ブランクシンボル数BSN)が閾値TH以上であると判定する。このため、比較例の音声検出装置は、最後に文字シンボルが検出されたM+18番目の音声フレームSFから所定のフレーム数ME(この場合、2フレーム)だけ後のM+20番目の音声フレームSFを、音声区間の終端として決定する。その結果、比較例の音声検出装置は、24フレーム分の長さを有する相対的に長い音声区間を検出することになる。この場合、音声区間が検出された後に行われる後処理動作に必要な計算量が過度に多くなる可能性がある。なぜならば、音声区間が長くなるほど、音声区間が検出された後に行われる後処理動作に必要な計算量が多くなるからである。このため、音声信号が比較例の音声検出装置に入力されてから後処理動作の結果が出力されるまでの遅延時間が長くなってしまう可能性がある。
 しかるに、第2実施形態では、音声検出装置1は、暫定音声区間の長さLtに基づいて閾値THを決定する。このため、音声検出装置1は、比較例の音声検出装置と比較して、必要以上長い音声区間を検出してしまう可能性は低くなる。例えば、図10(b)は、暫定音声区間の長さLtが10フレーム以下である場合に閾値THを7(7フレーム)に設定し、暫定音声区間の長さLtが11フレーム以上且つ15フレーム以下である場合に閾値THを5(5フレーム)に設定し、暫定音声区間の長さLtが16フレーム以上である場合に閾値THを3(3フレーム)に設定する音声検出装置1が検出する音声区間を示している。図10(b)に示す例では、音声検出装置1は、図10(a)に示す比較例の音声検出装置と同様に、M-2番目の音声フレームSFを、音声区間の始端として決定する。その後、M+13番目の音声フレームSFが注目フレームとなる場合において、暫定音声区間の長さLtが16フレーム以上になるため、閾値THが3に設定される。その結果、音声検出装置1は、M+13番目の音声フレームSFが注目フレームとなるタイミングで、非音声区間の長さLbが閾値TH以上であると判定する。このため、音声検出装置1は、最後に文字シンボルが検出されたM+10番目の音声フレームSFから所定のフレーム数ME(この場合、2フレーム)だけ後のM+12番目の音声フレームSFを、音声区間の終端として決定する。その結果、音声検出装置1は、比較例の音声検出装置が検出した音声区間よりも短い音声区間を検出することになる。つまり、音声検出装置1は、必要以上に長い音声区間が検出されてしまうという技術的課題を解決することができる。このため、音声検出装置1は、比較例の音声検出装置と比較して、後処理動作に必要な計算量が過度に多くなる音声区間を検出する可能性は低い。その結果、音声検出装置1によって音声区間が検出された後に行われる後処理動作に必要な計算量は、比較例の音声検出装置によって音声区間が検出された後に行われる後処理動作に必要な計算量よりも少なくなる。
 このように、音声検出装置1は、比較例の音声検出装置と比較して、音声区間が検出された後に行われる後処理動作にとって必要以上に短すぎる又は長すぎる音声区間を検出する可能性は低くなる。つまり、音声検出装置1は、音声区間が検出された後に行われる後処理動作にとって適切な長さを有する音声区間を検出することができる。
 尚、以上説明した技術的効果を考慮すると、音声検出装置1は、発話者が発話した音声が示す文章の文脈を把握できる程度の長さを有する音声区間を検出するという効果と、後処理動作に必要な計算量が適切になるという効果との双方を両立可能となるように、暫定音声区間の長さLtに基づいて閾値THを設定することが好ましい。
 加えて、音声検出装置1は、CTCモデルを用いて生成されるシンボルデータを用いて、音声区間を検出する。このため、音声検出装置1は、音声区間を適切に検出することができる。
 (2-4)変形例
 上述した図8に示す例では、閾値設定部113は、閾値THを、三種類の異なる候補値から暫定音声区間の長さLtに基づいて選択される一の候補値に設定している。しかしながら、上述した図8に示す閾値THの設定方法は一例であり、閾値THの設定方法が、図8に示す設定方法に限定されることはない。例えば、図11(a)に示すように、閾値設定部113は、閾値THを、二種類の異なる候補値から暫定音声区間の長さLtに基づいて選択される一の候補値に設定してもよい。例えば、図11(b)に示すように、閾値設定部113は、閾値THを、四種類以上の異なる候補値から暫定音声区間の長さLtに基づいて選択される一の候補値に設定してもよい。例えば、図11(c)に示すように、閾値設定部113は、図8及び図11(a)から図11(b)に示すように暫定音声区間の長さLtに基づいて閾値THを段階的に変更することに加えて又は代えて、暫定音声区間の長さLtに基づいて閾値THを連続的に変更してもよい。
 上述した説明では、音声区間検出部112は、事後確率が最も高くなる文字列を構成する複数のシンボルを含むシンボルデータに基づいて、音声区間の終端を決定している。しかしながら、音声区間検出部112は、事後確率が最も高くないものの相応に高い文字列を構成する複数のシンボルを含むシンボルデータに基づいて、音声区間の終端を決定してもよい。例えば、音声区間検出部112は、事後確率がN(尚、Nは1以上の整数)番目に高い文字列を構成する複数のシンボルを含むシンボルデータに基づいて、音声区間の終端を決定してもよい。つまり、音声区間検出部112は、事後確率がN番目に高い文字列を構成する複数のシンボルを含むシンボルデータを用いて、非音声区間の長さLbが所定の閾値TH以上か否かを判定してもよい。この場合であっても、音声区間検出部112は、音声区間の終端を適切に設定することができる。
 (3)第3実施形態
 続いて音声検出装置、音声検出方法及び記録媒体の第3実施形態について説明する。以下では、図12を参照しながら、音声検出装置、音声検出方法及び記録媒体の第3実施形態が適用された音声検出装置1bを用いて、音声検出装置、音声検出方法及び記録媒体の第3実施形態について説明する。図12は、第3実施形態における音声検出装置1bの構成を示すブロック図である。
 図12に示すように、第3実施形態における音声検出装置1bは、第2実施形態における音声検出装置1と比較して、閾値設定部113に代えて閾値設定部113bを備えているという点で異なる。音声検出装置1bのその他の特徴は、音声検出装置1のその他の特徴と同一であってもよい。
 閾値設定部113bは、上述した閾値設定部113と比較して、閾値THを設定するために用いる暫定音声区間の特性として、長さLtとは異なる特性を用いるという点で異なる。閾値設定部113bのその他の特徴は、閾値設定部113のその他の特徴と同一であってもよい。
 例えば、閾値設定部113bは、暫定音声区間の特性として、暫定音声区間に含まれる文字の数(例えば、文字シンボルが表す文字の数)を用いてもよい。ここで、暫定音声区間の長さLtが長くなるほど、暫定音声区間に含まれる文字の数が多くなる可能性が高い。このため、暫定音声区間に含まれる文字の数は、暫定音声区間の長さLtと相関を有する。このため、暫定音声区間に含まれる文字の数に基づいて閾値THを設定する動作は、暫定音声区間の長さLtに基づいて閾値THを設定する動作と実質的に等価であるとみなしてもよい。この場合、閾値設定部113bは、暫定音声区間の長さLtに基づいて閾値THを設定する場合と同様の方法で、暫定音声区間に含まれる文字の数に基づいて閾値THを設定してもよい。例えば、閾値設定部113bは、暫定音声区間に含まれる文字の数が第1の数となる場合に設定される閾値THが、暫定音声区間に含まれる文字の数が第1の数よりも多い第2の数となる場合に設定される閾値THよりも大きくなるように、閾値THを設定してもよい。
 例えば、閾値設定部113bは、暫定音声区間の特性として、暫定音声区間に含まれる単語の数を用いてもよい。尚、単語は、文字の組み合わせであるがゆえに、音声検出装置1は、シンボルデータに含まれる文字シンボルに基づいて単語を検出することができる。具体的には、閾値設定部113bは、シンボルデータに含まれる文字シンボルに対して形態素解析を行うことで、単語を検出することができる。従って、閾値設定部113bは、暫定音声区間に含まれる単語の数を算出することができる。ここで、暫定音声区間の長さLtが長くなるほど、暫定音声区間に含まれる単語の数が多くなる可能性が高い。このため、暫定音声区間に含まれる単語の数は、暫定音声区間の長さLtと相関を有する。このため、暫定音声区間に含まれる単語の数に基づいて閾値THを設定する動作は、暫定音声区間の長さLtに基づいて閾値THを設定する動作と実質的に等価であるとみなしてもよい。この場合、閾値設定部113bは、暫定音声区間の長さLtに基づいて閾値THを設定する場合と同様の方法で、暫定音声区間に含まれる単語の数に基づいて閾値THを設定してもよい。例えば、閾値設定部113bは、暫定音声区間に含まれる単語の数が第1の数となる場合に設定される閾値THが、暫定音声区間に含まれる単語の数が第1の数よりも多い第2の数となる場合に設定される閾値THよりも大きくなるように、閾値THを設定してもよい。
 例えば、閾値設定部113bは、暫定音声区間の特性として、暫定音声区間に現れる音声の発話速度を用いてもよい。発話速度が速くなればなるほど、ある音声区間に含まれる文字シンボルの数が多くなる可能性が高い。その結果、音声区間に含まれる文字シンボルの数が多くなるほど、後処理動作に必要な計算量が多くなる。このため、後処理動作に必要な計算量を考慮すると、発話速度が速くなるほど、音声区間の長さが短くなる(その結果、音声区間に含まれる文字シンボルの数が少なくなる)ことが好ましい。そこで、閾値設定部113bは、発話速度が速くなるほど閾値THが短くなるように、閾値THを設定してもよい。例えば、閾値設定部113bは、暫定音声区間における発話速度が第1の速度となる場合に設定される閾値THが、暫定音声区間における発話速度が第1の速度よりも遅い第2の速度となる場合に設定される閾値THよりも小さくなるように、閾値THを設定してもよい。
 尚、発話速度が速くなるほど、単位時間当たりの文字の数(つまり、文字シンボルの数)が多くなる。また、発話速度が速くなるほど、単位時間当たりの単語の数が多くなる。また、発話速度が速くなるほど、単位時間当たりのブランクシンボルの数が減る。このため、閾値設定部113bは、単位時間当たりの文字の数(つまり、文字シンボルの数)、単位時間当たりの単語の数、及び、単位時間当たりのブランクシンボル数の少なくとも一つを、発話速度を表す指標値として算出してもよい。
 例えば、閾値設定部113bは、暫定音声区間の特性として、暫定音声区間に含まれる文字シンボルの数を用いてもよい。ここで、暫定音声区間の長さLtが長くなるほど、暫定音声区間に含まれる文字シンボルの数が多くなる可能性が高い。このため、暫定音声区間に含まれる文字シンボルの数は、暫定音声区間の長さLtと相関を有する。このため、暫定音声区間に含まれる文字シンボルの数に基づいて閾値THを設定する動作は、暫定音声区間の長さLtに基づいて閾値THを設定する動作と実質的に等価であるとみなしてもよい。この場合、閾値設定部113bは、暫定音声区間の長さLtに基づいて閾値THを設定する場合と同様の方法で、暫定音声区間に含まれる文字シンボルの数に基づいて閾値THを設定してもよい。例えば、閾値設定部113bは、暫定音声区間に含まれる文字シンボルの数が第1の数となる場合に設定される閾値THが、暫定音声区間に含まれる文字シンボルの数が第1の数よりも多い第2の数となる場合に設定される閾値THよりも大きくなるように、閾値THを設定してもよい。
 以上説明した第3実施形態における音声検出装置1bは、上述した第2実施形態における音声検出装置1が享受可能な効果と同様の効果を享受することができる。
 (4)第4実施形態
 続いて音声検出装置、音声検出方法及び記録媒体の第4実施形態について説明する。以下では、図13を参照しながら、音声検出装置、音声検出方法及び記録媒体の第4実施形態が適用された音声検出装置1cを用いて、音声検出装置、音声検出方法及び記録媒体の第4実施形態について説明する。図13は、第4実施形態における音声検出装置1cの構成を示すブロック図である。
 図13に示すように、第4実施形態における音声検出装置1cは、第2実施形態における音声検出装置1から第3実施形態における音声検出装置1bの少なくとも一つと比較して、閾値設定部113に代えて閾値設定部113cを備えているという点で異なる。更に、第4実施形態における音声検出装置1cは、第2実施形態における音声検出装置1から第3実施形態における音声検出装置1bの少なくとも一つと比較して、記憶装置12が発話者情報121cを記憶しているという点で異なる。音声検出装置1cのその他の特徴は、音声検出装置1及び1bの少なくとも一つのその他の特徴と同一であってもよい。
 閾値設定部113cは、上述した閾値設定部113及び113bの少なくとも一つと比較して、暫定音声区間の特性に加えて又は代えて、発話者情報121cに基づいて閾値THを設定するという点で異なる。閾値設定部113cのその他の特徴は、閾値設定部113及び113bの少なくとも一つのその他の特徴と同一であってもよい。
 発話者情報121cは、発話者による音声の発話の特徴に関する情報を含む。例えば、記憶装置12は、第1の発話者による音声の発話の特徴に関する情報を含む第1の発話者情報と、第2の発話者による音声の発話の特徴に関する情報を含む第2の発話者情報とを含んでいてもよい。
 発話者情報121cは、ある発話者が発話した音声を示す音声信号に基づいて行われた音声検出動作の結果に関する情報を、発話者による音声の発話の特徴に関する情報として含んでいてもよい。例えば、発話者情報121cは、検出された音声区間の長さの平均(或いは、その他の演算値、以下同じ)に関する情報、検出された非音声区間の長さの平均に関する情報、単位時間当たりに発話された文字の数の平均に関する情報、単位時間あたりに発話された単語の数の平均に関する情報、及び、発話速度に関する情報の少なくとも一つを含んでいてもよい。
 閾値設定部113cは、音声検出装置1cに入力された音声信号の取得元である発話者を特定し、特定した発話者に対応する発話者情報121cを記憶装置12から取得し、取得した発話者情報121cに基づいて、閾値THを設定してもよい。例えば、発話者情報121cが示す音声区間の長さの平均が長くなるほど、閾値設定部113cは、相対的に長い音声区間が検出されるように、閾値THをより大きい値に設定してもよい。例えば、閾値設定部113cは、閾値THを、発話者情報121cが示す非音声区間の長さの平均又は当該平均に近い値に設定してもよい。例えば、発話者情報121cが示す文字の数の平均が多くなるほど、相対的に短い音声区間(結果、含まれる文字の数が過度に多くならない音声区間)が検出されるように、閾値THをより小さい値に設定してもよい。例えば、発話者情報121cが示す単語の数の平均が多くなるほど、相対的に短い音声区間(結果、含まれる単語の数が過度に多くならない音声区間)が検出されるように、閾値THをより小さい値に設定してもよい。例えば、発話者情報121cが示す発話速度が速くなるほど、相対的に短い音声区間(結果、含まれる文字の数が過度に多くならない音声区間)が検出されるように、閾値THをより小さい値に設定してもよい。
 以上説明した第4実施形態における音声検出装置1cは、上述した第2実施形態における音声検出装置1から第3実施形態における音声検出装置1bの少なくとも一つが享受可能な効果と同様の効果を享受することができる。更に、音声検出装置1cは、発話者による音声の発話の特徴に合致した閾値THを設定することができる。このため、音声検出装置1cは、発話者による音声の発話の特徴の違いを考慮した上で、音声区間をより適切に検出することができる。
 (5)第5実施形態
 続いて音声検出装置、音声検出方法及び記録媒体の第5実施形態について説明する。以下では、図14を参照しながら、音声検出装置、音声検出方法及び記録媒体の第5実施形態が適用された音声検出装置1dを用いて、音声検出装置、音声検出方法及び記録媒体の第5実施形態について説明する。図14は、第5実施形態における音声検出装置1dの構成を示すブロック図である。
 図14に示すように、第5実施形態における音声検出装置1dは、第2実施形態における音声検出装置1から第4実施形態における音声検出装置1cの少なくとも一つと比較して、シンボル生成部111に代えてテキスト生成部111dを備えているという点で異なる。音声検出装置1dのその他の特徴は、音声検出装置1、1b及び1cの少なくとも一つのその他の特徴と同一であってもよい。
 テキスト生成部111dは、CTCモデルを用いることなく、音声信号から発話者が発話した音声を文字として表すテキストデータを生成するという点で、CTCモデルを用いてシンボルデータを生成するシンボル生成部111とは異なる。例えば、テキスト生成部111dは、音響モデル、発音辞書及び言語モデルを用いて文字列の事後確率を算出し、事後確率が最も高くなる文字列を構成する複数のテキストの系列データを、テキストデータとして生成する。この場合であっても、音声区間検出部112は、生成されたテキストデータから音声区間の始端を決定し、その後、非音声区間の長さLbと閾値THとを比較することで音声区間の終端を決定してもよい。更に、閾値設定部113は、暫定音声区間の長さLtに基づいて、閾値THを設定してもよい。その結果、CTCモデルが用いられない場合であっても、上述した効果が享受可能となる。
 テキスト生成部111dが発音辞書(つまり、辞書データ)を用いてテキストデータを生成する場合には、閾値設定部113は、発音辞書の特性に基づいて、閾値THを設定してもよい。例えば、発音辞書が、漢字を多く含むテキストデータを生成するという特性を有している場合には、閾値設定部113は、相対的に短い音声区間(結果、含まれる文字の数が過度に多くならない音声区間)が検出されるように、閾値THを、標準値よりも小さい値に設定してもよい。
 以上説明した第5実施形態における音声検出装置1dは、上述した第2実施形態における音声検出装置1から第4実施形態における音声検出装置1cの少なくとも一つが享受可能な効果と同様の効果を享受することができる。更に、音声検出装置1dは、発音辞書に基づいて閾値THを設定することができる。このため、音声検出装置1dは、音声信号をテキストデータに変換する動作のくせの違いを考慮した上で、音声区間をより適切に検出することができる。
 (6)付記
 以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
 音声信号に現れる音声を含む音声区間の始端を決定する始端決定手段と、
 前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定する終端決定手段と、
 前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定する設定手段と
 を備える音声検出装置。
[付記2]
 前記暫定音声区間の前記特性は、前記暫定音声区間の長さを含む
 付記1に記載の音声検出装置。
[付記3]
 前記設定手段は、前記暫定音声区間の長さが第1の長さとなる場合に設定される前記閾値が、前記暫定音声区間の長さが前記第1の長さよりも長い第2の長さとなる場合に設定される前記閾値よりも大きくなるように、前記閾値を設定する
 付記2に記載の音声検出装置。
[付記4]
 前記暫定音声区間の前記特性は、前記暫定音声区間に含まれる前記音声の文字数、前記暫定音声区間に含まれる前記音声の単語数、及び、前記暫定音声区間に含まれる前記音声の発話速度のうちの少なくとも一つを含む
 付記1から3のいずれか一項に記載の音声検出装置。
[付記5]
 前記音声検出装置は、CTC(Connectionist Temporal Classification)モデルを用いて、前記音声信号から、文字シンボルとブランクシンボルとを含むシンボルデータを生成する生成手段を更に備え、
 前記始端決定手段は、前記シンボルデータに基づいて、前記始端を決定し、
 前記終端決定手段は、前記シンボルデータに基づいて、前記終端を決定し、
 前記非音声区間は、前記ブランクシンボルが連続して現れる区間を含む
 付記1から4のいずれか一項に記載の音声検出装置。
[付記6]
 前記暫定音声区間の前記特性は、前記暫定音声区間に含まれる前記文字シンボルの数を含む
 付記5に記載の音声検出装置。
[付記7]
 前記音声検出装置は、発話者による音声の発話の特徴に関する発話者情報を、発話者ごとに記憶する記憶手段を更に備え、
 前記設定手段は、前記音声信号の取得元の発話者を特定し、特定した発話者に対応する前記発話者情報に基づいて、前記閾値を設定する
 付記1から6のいずれか一項に記載の音声検出装置。
[付記8]
 前記音声検出装置は、辞書データを用いて前記音声信号を解析することで、前記音声信号をテキストデータに変換する変換手段を更に備え、
 前記設定手段は、前記辞書データの特性に基づいて、前記閾値を設定する
 付記1から7のいずれか一項に記載の音声検出装置。
[付記9]
 音声信号に現れる音声を含む音声区間の始端を決定することと、
 前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定することと、
 前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定することと
 を含む音声検出方法。
[付記10]
 コンピュータに音声検出方法を実行させるコンピュータプログラムが記録された記録媒体であって、
 前記音声検出方法は、
 音声信号に現れる音声を含む音声区間の始端を決定することと、
 前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定することと、
 前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定することと
 を含む記録媒体。
 上述の各実施形態の構成要素の少なくとも一部は、上述の各実施形態の構成要素の少なくとも他の一部と適宜組み合わせることができる。上述の各実施形態の構成要素のうちの一部が用いられなくてもよい。また、法令で許容される限りにおいて、上述のこの開示で引用した全ての文献(例えば、公開公報)の開示を援用してこの開示の記載の一部とする。
 この開示は、請求の範囲及び明細書全体から読み取るこのできる技術的思想に反しない範囲で適宜変更可能である。そのような変更を伴う音声検出装置、音声検出方法及び記録媒体もまた、この開示の技術的思想に含まれる。
 1 音声検出装置
 11 演算装置
 111 シンボル生成部
 112 音声区間検出部
 113 閾値設定部
 1000 音声検出装置
 1001 始端決定部
 1002 終端決定部
 1003 設定部

Claims (10)

  1.  音声信号に現れる音声を含む音声区間の始端を決定する始端決定手段と、
     前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定する終端決定手段と、
     前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定する設定手段と
     を備える音声検出装置。
  2.  前記暫定音声区間の前記特性は、前記暫定音声区間の長さを含む
     請求項1に記載の音声検出装置。
  3.  前記設定手段は、前記暫定音声区間の長さが第1の長さとなる場合に設定される前記閾値が、前記暫定音声区間の長さが前記第1の長さよりも長い第2の長さとなる場合に設定される前記閾値よりも大きくなるように、前記閾値を設定する
     請求項2に記載の音声検出装置。
  4.  前記暫定音声区間の前記特性は、前記暫定音声区間に含まれる前記音声の文字数、前記暫定音声区間に含まれる前記音声の単語数、及び、前記暫定音声区間に含まれる前記音声の発話速度のうちの少なくとも一つを含む
     請求項1から3のいずれか一項に記載の音声検出装置。
  5.  前記音声検出装置は、CTC(Connectionist Temporal Classification)モデルを用いて、前記音声信号から、文字シンボルとブランクシンボルとを含むシンボルデータを生成する生成手段を更に備え、
     前記始端決定手段は、前記シンボルデータに基づいて、前記始端を決定し、
     前記終端決定手段は、前記シンボルデータに基づいて、前記終端を決定し、
     前記非音声区間は、前記ブランクシンボルが連続して現れる区間を含む
     請求項1から4のいずれか一項に記載の音声検出装置。
  6.  前記暫定音声区間の前記特性は、前記暫定音声区間に含まれる前記文字シンボルの数を含む
     請求項5に記載の音声検出装置。
  7.  前記音声検出装置は、発話者による音声の発話の特徴に関する発話者情報を、発話者ごとに記憶する記憶手段を更に備え、
     前記設定手段は、前記音声信号の取得元の発話者を特定し、特定した発話者に対応する前記発話情報に基づいて、前記閾値を設定する
     請求項1から6のいずれか一項に記載の音声検出装置。
  8.  前記音声検出装置は、辞書データを用いて前記音声信号を解析することで、前記音声信号をテキストデータに変換する変換手段を更に備え、
     前記設定手段は、前記辞書データの特性に基づいて、前記閾値を設定する
     請求項1から7のいずれか一項に記載の音声検出装置。
  9.  音声信号に現れる音声を含む音声区間の始端を決定することと、
     前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定することと、
     前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定することと
     を含む音声検出方法。
  10.  コンピュータに音声検出方法を実行させるコンピュータプログラムが記録された記録媒体であって、
     前記音声検出方法は、
     音声信号に現れる音声を含む音声区間の始端を決定することと、
     前記始端が決定された後に現れる非音声区間の長さが閾値以上か否かを判定することで、前記音声区間の終端を決定することと、
     前記始端から始まる暫定音声区間の特性に基づいて、前記閾値を設定することと
     を含む記録媒体。
PCT/JP2022/013089 2022-03-22 2022-03-22 音声検出装置、音声検出方法及び記録媒体 WO2023181107A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/013089 WO2023181107A1 (ja) 2022-03-22 2022-03-22 音声検出装置、音声検出方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/013089 WO2023181107A1 (ja) 2022-03-22 2022-03-22 音声検出装置、音声検出方法及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023181107A1 true WO2023181107A1 (ja) 2023-09-28

Family

ID=88100205

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013089 WO2023181107A1 (ja) 2022-03-22 2022-03-22 音声検出装置、音声検出方法及び記録媒体

Country Status (1)

Country Link
WO (1) WO2023181107A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP2018081277A (ja) * 2016-11-18 2018-05-24 富士通株式会社 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
WO2021014612A1 (ja) * 2019-07-24 2021-01-28 日本電信電話株式会社 発話区間検出装置、発話区間検出方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP2018081277A (ja) * 2016-11-18 2018-05-24 富士通株式会社 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
WO2021014612A1 (ja) * 2019-07-24 2021-01-28 日本電信電話株式会社 発話区間検出装置、発話区間検出方法、プログラム

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
JPS6147440B2 (ja)
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
EP2645364A1 (en) Spoken dialog system using prominence
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
US20180047385A1 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
KR102298901B1 (ko) 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
JP2001188558A (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JPWO2008069308A1 (ja) 音声認識装置および音声認識方法
KR20180025559A (ko) 발음 사전 학습 방법 및 장치
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP2010197644A (ja) 音声認識システム
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
WO2023181107A1 (ja) 音声検出装置、音声検出方法及び記録媒体
JPS6138479B2 (ja)
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
KR20010077042A (ko) 트리 구조의 단어사전을 갖는 연속음성 인식 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933255

Country of ref document: EP

Kind code of ref document: A1