WO2019049543A1

WO2019049543A1 - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: WO2019049543A1
Application number: PCT/JP2018/027914
Authority: WO
Inventors: 達哉小泉; 泰治吉田
Original assignee: ソニー株式会社
Priority date: 2017-09-08
Filing date: 2018-07-25
Publication date: 2019-03-14
Also published as: US11227615B2; US20200227057A1

Abstract

所定の音声データに対して第１の量子化ビット数及び第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力する変換部と、変換部からのそれぞれの出力に対して周波数解析を行う周波数解析部と、周波数解析部による解析結果に基づいて所定の判定処理を行う判定部とを有する音声処理装置である。図１

Description

音声処理装置、音声処理方法及びプログラム

　本開示は、音声処理装置、音声処理方法及びプログラムに関する。

　技術の進展に伴い、より高い量子化ビット(bit)数でサンプリングする（量子化する）ことにより得られる音声データが記録されるようになってきている（例えば、特許文献１を参照のこと）。

特開２００６－３０３６３３号公報

　このような分野では、周囲の環境等に応じて適切な量子化ビット数でサンプリングが行われることが望ましい。

　したがって、本開示は、周囲の環境等に応じて適切な量子化ビット数でサンプリングを行うことができる音声処理装置、音声処理方法及びプログラムを提供することを目的の一つとする。

　本開示は、例えば、
　所定の音声データに対して第１の量子化ビット数及び第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力する変換部と、
　変換部からのそれぞれの出力に対して周波数解析を行う周波数解析部と、
　周波数解析部による解析結果に基づいて所定の判定処理を行う判定部と
　を有する音声処理装置である。

　また、本開示は、例えば、
　変換部が、所定の音声データに対して第１の量子化ビット数及び第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力し、
　周波数解析部が、変換部からのそれぞれの出力に対して周波数解析を行い、
　判定部が、周波数解析部による解析結果に基づいて所定の判定処理を行う
　音声処理方法である。

　また、本開示は、例えば、
　変換部が、所定の音声データに対して第１の量子化ビット数及び第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力し、
　周波数解析部が、変換部からのそれぞれの出力に対して周波数解析を行い、
　判定部が、周波数解析部による解析結果に基づいて所定の判定処理を行う
　音声処理方法をコンピュータに実行させるプログラムである。

　本開示の少なくとも実施形態によれば、周囲の環境等に応じて適切な量子化ビット数でサンプリングを行うことができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であってもよい。また、例示された効果により本開示の内容が限定して解釈されるものではない。

図１は、第１の実施形態に係る音声処理装置の構成例を示すブロック図である。図２Ａ及び図２Ｂは、判定部における判定処理を説明するために参照する図である。図３Ａ及び図３Ｂは、量子化ビット数に関する表示の例を示す図である。図４は、第１の実施形態に係る音声処理装置における処理の流れを示すフローチャートである。図５は、第２の実施形態に係る音声処理装置の構成例を示すブロック図である。図６は、第３の実施形態に係る音声処理装置の構成例を示すブロック図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．第１の実施形態＞
＜２．第２の実施形態＞
＜３．第３の実施形態＞
＜４．変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜１．第１の実施形態＞
［音声処理装置の構成例］
　図１は、第１の実施形態に係る音声処理装置（音声処理装置１）の構成例を示すブロック図である。音声処理装置１は、例えば、音声を記録可能な機器、具体的には、撮像装置、スマートフォン、可搬型の録音機器、ウェアラブル機器等に適用され得る。

　音声処理装置１は、例えば、集音部の一例であるマイクロフォン１１、変換部の一例であるＡ／Ｄ（Analog to Digital）コンバータ１２、周波数解析部の一例であるＦＦＴ（Fast Fourier Transform）回路１３、ＤＳＰ(Digital Signal Processor)１４、表示部１５、記録部１６及び記録媒体１７を有している。

　マイクロフォン１１は、周囲の音声を集音するものであり、音声処理装置１に内蔵されるマイクロフォンのでも良いし、音声処理装置１に着脱自在とされるマイクロフォン（外部マイクロフォン）でも良い。音声は、音楽、人の声、自然音等、音であれば何でも良い。第１の実施形態に係るマイクロフォン１１は、後述する量子化ビット数２４ビットに対して十分な性能を有するマイクロフォンである。マイクロフォン１１は、集音した音声に対応する所定のアナログ音声データをＡ／Ｄコンバータ１２に出力する。

　Ａ／Ｄコンバータ１２は、マイクロフォン１１から供給されるアナログ音声データをデジタル音声データに変換する。Ａ／Ｄコンバータ１２は、２つの量子化ビット数（第１の量子化ビット数及び第１の量子化ビット数より大きい第２の量子化ビット数）でアナログ音声データをサンプリングする。なお、サンプリング周波数は、任意の値（例えば、９６ｋＨｚ（キロヘルツ））に設定される。第１の量子化ビット数は例えば１６ビットより小さいビット数であり、第２の量子化ビット数は例えば２４ビットより大きいビット数（例えば、２４ビットや３２ビット）である。実施形態では、第１の量子化ビット数を１６ビット、第２の量子化ビット数を２４ビットとして説明する。なお、サンプリング周波数９６ｋＨｚ、量子化ビット数２４ビットの音声データは、ハイレゾ（ハイレゾルーションの略）と称されることもある。

　Ａ／Ｄコンバータ１２は、量子化ビット数１６ビットでＡＤ変換することにより得られる第１のデジタル音声データをデジタル音声データＤ１として出力する。また、Ａ／Ｄコンバータ１２は、量子化ビット数２４ビットでＡＤ変換することにより得られる第２のデジタル音声データをデジタル音声データＤ２として出力する。デジタル音声データＤ１、Ｄ２は、ＦＦＴ回路１３に供給される。また、デジタル音声データＤ１、Ｄ２は分岐され、記録部１６にも供給される。

　ＦＦＴ回路１３は、デジタル音声データＤ１に対してＦＦＴを行い、その結果（周波数領域の結果）である解析結果ＤＦ１をＤＳＰ１４に出力する。解析結果ＤＦ１は、例えば、解析結果、デジタル音声データＤ１を示す識別子、量子化ビット数が対応付けられたデータである。また、ＦＦＴ回路１３は、デジタル音声データＤ２に対してＦＦＴを行い、その結果（周波数領域の結果）である解析結果ＤＦ２をＤＳＰ１４に出力する。解析結果ＤＦ２は、例えば、解析結果、デジタル音声データＤ２を示す識別子、量子化ビット数が対応付けられたデータである。

　ＤＳＰ１４は、音声処理装置１の各部を制御する。ＤＳＰ１４は、機能として判定部１４ａを有している。第１の実施形態に係る判定部１４ａは、解析結果ＤＦ１及びＤＦ２に基づいて、暗騒音等、周囲の環境ノイズを判定する。より具体的には、判定部１４ａは、環境ノイズを判定し、その判定結果に基づいて、量子化ビット数が１６ビット及び２４ビットのどちらのデジタル音声データを記録するのに適した環境であるかを判定する。なお、環境ノイズとは、集音場所の周囲におけるノイズの状況（ノイズの有無やそのレベル等）を意味する。ＤＳＰ１４は、判定部１４ａの判定結果に応じて、記録制御信号ＳＧを記録部１６に出力する。

　表示部１５は、ドライバ及びディスプレイを含む。ディスプレイとしては、ＬＣＤ(Liquid Crystal Display)や有機ＥＬ（Electro Luminescence）を例示することができる。表示部１５には、１６ビット及び２４ビットに関する表示、具体例としては、１６ビットでサンプリングされた音声データ（デジタル音声データＤ１）及び２４ビットでサンプリングされた音声データ（デジタル音声データＤ２）の何れが記録されているのかに関する情報が表示される。

　記録部１６は、記録媒体１７にデジタル音声データを記録するものである。記録部１６は、例えば図示しないスイッチャを備え、スイッチャを切り替えることにより入力を切り替え、デジタル音声データＤ１、Ｄ２の何れかを選択的に記録媒体１７に記録する。スイッチャは、ＤＳＰ１４が出力する記録制御信号ＳＧによって切り替えられる。

　記録媒体１７は、音声処理装置１に内蔵されるハードディスク等でも良いし、ＵＳＢ(Universal Serial Bus)メモリ、光ディスク、ＳＤカード等の可搬型メモリでも良く、少なくともマイクロフォン１１により集音された音に対応する音声データを記録できるものであれば何でも良い。

［音声データを記録する際に考慮すべき問題］
　ここで、音声データを記録する際に考慮すべき問題について説明する。上述したように、本実施形態に係る音声処理装置では、一般的に用いられている量子化ビット数が１６ビットのデジタル音声データの記録に加え、量子化ビット数が高い（例えば、２４ビット）デジタル音声データの記録が可能とされている。このような高い量子化ビット数によるＡＤ変換を効果的に用いるためには、低ノイズの環境下で記録を行う必要がある。充分に低ノイズでない環境下で高い量子化ビット数の音声データの記録を行うと、ファイルサイズが必要以上に大きくなり、且つ、記録媒体の記録時間が短くなる。その一方で、収録された音源は、１６ビットの音声データと大きく変わらない音質となる。従って、適切な量子化ビット数を用いてＡＤ変換を行う必要がある。以上の点を踏まえ、本開示の実施形態について更に説明する。

［判定部の処理］
　図２Ａ及び図２Ｂは、判定部１４ａにおける判定処理を説明するために参照する図である。一般的に、量子化ビット数が高い（大きい）ほど音の大きさ方向の分解能が高いので、ノイズに埋もれるような音声信号に対する記録能力に優れている。しかしながら、上述したように、環境ノイズが大きい場合には量子化ビット数を高くしても有効な効果を得ることができない。

　図２Ａ、図２Ｂのグラフにおいて、横軸は周波数を示し、縦軸はレベルを示している。例えば、マイクロフォン１１により集音された環境ノイズを周波数領域で表したもの（純粋なノイズ成分）が点線Ｌ０により模式的に示されている。点線Ｌ０で示される環境ノイズを量子化ビット数１６ビットでサンプリングし、それをＦＦＴ回路１３でＦＦＴ解析した結果が実線Ｌ１により模式的に示されている。点線Ｌ０で示される環境ノイズを量子化ビット数２４ビットでサンプリングし、それをＦＦＴ回路１３でＦＦＴ解析した結果が実線Ｌ２により模式的に示されている。実線Ｌ１は、量子化ビット数が１６ビットの場合の性能限界を意味しており、実線Ｌ１よりレベル的に低いノイズ（グラフ的に下側に位置するレベルのノイズ）の場合、当該ノイズを１６ビットでＡＤ変換しても実線Ｌ１と略一致する解析結果となる。一方で、実線Ｌ２は、量子化ビット数が２４ビットの場合の性能限界を意味しており、実線Ｌ２よりレベル的に低いノイズ（グラフ的に下側に位置するレベルのノイズ）の場合、当該ノイズを２４ビットでＡＤ変換しても実線Ｌ２と略一致する解析結果となる。

　ここで、点線Ｌ０のような周波数特性を有する比較的小さい環境ノイズを、量子化ビット数１６ビットでサンプリングし、それをＦＦＴ回路１３でＦＦＴ解析した場合には、その結果は実線Ｌ１と略一致する。一方で、点線Ｌ０のような周波数特性を有する比較的小さい環境ノイズを、量子化ビット数２４ビットでサンプリングし、それをＦＦＴ回路１３でＦＦＴ解析した場合には、その結果は点線Ｌ０と略一致する。

　このように、環境ノイズが小さい場合には、量子化ビット数１６ビットでＡＤ変換したデジタル音声データに対して周波数解析を行った結果と、量子化ビット数２４ビットでＡＤ変換したデジタル音声データに対して周波数解析を行った結果との間に、差分が生じる。即ち、２つの周波数解析の結果の間でノイズ成分の減少が見られることから、この場合には、量子化ビット数を２４ビットに設定した方が適切な環境であると判定部１４ａは判定する。

　一方、図２Ｂに示すように、環境ノイズが大きい場合（点線Ｌ０のレベルが実線Ｌ１、Ｌ２を上回る場合）を考える。この場合には、図２Ｂに示す点線Ｌ０のような周波数特性を有する比較的大きい環境ノイズを、量子化ビット数１６ビットでサンプリングし、それをＦＦＴ回路１３でＦＦＴ解析した場合には、その結果は点線Ｌ０と略一致する。一方で、点線Ｌ０のような周波数特性を有する比較的大きい環境ノイズを、量子化ビット数２４ビットでサンプリングし、それをＦＦＴ回路１３でＦＦＴ解析した場合には、その結果は点線Ｌ０と略一致する。

　このように、環境ノイズが大きい場合には、量子化ビット数１６ビットでＡＤ変換したデジタル音声データにして周波数解析を行った結果と、量子化ビット数２４ビットでＡＤ変換したデジタル音声データにして周波数解析を行った結果との間に、差分が生じない。即ち、２つの周波数解析の結果の間にノイズ成分の減少が見られないことから、この場合には、細かい音声がノイズに埋もれてしまい、量子化ビット数を２４ビットにしても記録するデータ量が大きくなるだけである。従って、量子化ビット数を１６ビットに設定した方が適切な環境であると判定部１４ａは判定する。

　以上のように、判定部１４ａは、２つのデジタル音声データに対して異なる量子化ビット数でサンプリングを行い、それぞれに対して周波数解析を行った結果の間に差分が存在するか否かに応じて、音声収録における環境を判定する。例えば、リアルタイムにデジタル音声データＤ１、Ｄ２のそれぞれに対して周波数解析を行い、その結果である解析結果ＤＦ１、ＤＦ２の差分を求め積分する。

　そして、判定部１４ａは、例えば、解析結果ＤＦ１、ＤＦ２の差分（例えば、差分の積分値）が所定の閾値未満であれば、解析結果ＤＦ１、ＤＦ２の間に差分がないと判定し、解析結果ＤＦ１、ＤＦ２の差分が所定の閾値以上であれば、解析結果ＤＦ１、ＤＦ２の間に差分があると判定する。差分がない場合には、ＤＳＰ１４は、量子化ビット数が１６ビットに対応するデジタル音声データＤ１を記録するための記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧにより入力がデジタル音声データＤ１となるようにスイッチャが制御される。記録部１６は、デジタル音声データＤ１を記録媒体１７に記録する。また、差分がある場合には、ＤＳＰ１４は、量子化ビット数が２４ビットに対応するデジタル音声データＤ２を記録するための記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧにより入力がデジタル音声データＤ２となるようにスイッチャが制御される。記録部１６は、デジタル音声データＤ２を記録媒体１７に記録する。

［表示例］
　本実施形態では、判定部１４ａによる判定結果に応じた、量子化ビット数に関する報知が表示によりなされる。この表示例について説明する。図３Ａ及び図３Ｂに示す表示例は、記録されるデジタル音声データの量子化ビット数が１６ビット及び２４ビットの何れであるかを示す表示例である。例えば、表示部１５の右隅に「Ｈｉ－ｂｉｔ」との文字２１が表示される（なお、図３Ａ及び図３Ｂでは、表示部１５を示す図の下に表示部１５に表示される文字２１等を拡大して示している。）。記録されるデジタル音声データの量子化ビット数が１６ビットである場合には、図３Ａに示すように文字２１を例えば白抜きして表示する。また、記録されるデジタル音声データの量子化ビット数が２４ビットである場合には、図３Ｂに示すように文字２１を着色して表示する。文字２１の色は、青色、その他、任意の色とすることができる。また、文字２１を点滅させても良いし、記録されるデジタル音声データの量子化ビット数が２４ビットである場合のみに文字２１を表示するようにしても良い。

　なお、図３Ａ及び図３Ｂに示すように、「Ｈｉ－ｂｉｔ」との文字の表示の下側に、複数の矩形及び２個の三角が表示されても良い。複数の矩形は、例えば、上下２列に並べて表示される。上段及び下段の矩形の列において、例えば、一番右側に位置する上下２個の矩形の枠は赤色で表示され、右側から数えて２番目及び３番目に位置する上下４個の矩形の枠は黄色で表示され、その他の矩形の枠は緑色で表示される。また、左側（例えば、左側４列分（８個））の矩形の大きさは、他の矩形よりやや小さくされている。２個の三角は青色で所定の矩形同士の間を指し示すように表示される。もちろん、これらの矩形の色は一例であって、例示した色に限定されるものではない。

　矩形の枠は、音声信号のレベルを表している。音声信号のレベルに応じて、各矩形の内側が枠と同じ色で着色される。音声信号のレベルが大きいほど、右側の矩形まで着色される。赤枠の矩形はレベルの上限を表し、黄色の矩形はレベルが大きいことを表し、緑色の矩形は安全なレベルを表している。左側の矩形の大きさが小さいのは、音声信号のレベルが小さい領域であることを表している。三角は、図２Ａ及び図２Ｂに示した実線Ｌ１に対応するものであり、１６ビットのときのＦＦＴを信号レベルに変換した場合に、三角の印より小さい信号の場合に「Ｈｉ－ｂｉｔ」との文字が着色して表示される目安を示している。このように、音声信号のレベルと、記録される音声信号の量子化ビット数が１６ビットとなる指標（目安）を対応付けて表示しても良い。これにより、入力される音声信号のレベルに応じて、適用される量子化ビット数をユーザが直感的に認識することができる。

　量子化ビット数に関する表示は、収録環境における環境ノイズに対して適切な量子化ビット数の提示（お勧めの量子化ビット数）であっても良い。例えば、量子化ビット数の設定が音声処理装置１に設けられたボタン、タッチスクリーン等の操作入力部により可能とされる。ユーザは、表示されたお勧めの量子化ビット数を参照して操作入力部を操作することにより、音声処理装置１における量子化ビット数（例えば、お勧めとして表示された量子化ビット数）を設定できるようにしても良い。

　なお、表示の態様は「Ｈｉ－ｂｉｔ」との文字以外でも良いし、文字ではなくバー等の図形であっても良いし、文字及び図形を組み合わせたものであっても良い。また、表示による報知に限定されることはなく、ＬＥＤ(Light Emitting Diode)の点灯等の光による報知、音声による報知、振動による報知、これらを組み合わせた報知等であっても良い。

［処理の流れ］
　図４のフローチャートを参照して、音声処理装置１において実行される処理の流れの一例について説明する。

　ステップＳＴ１１では、マイクロフォン１１による集音が開始される。マイクロフォン１１が集音を開始するタイミングは適宜な、タイミングとすることができる。例えば、収録前のタイミング（例えば音声処理装置１が起動されたタイミング）でマイクロフォン１１が集音を開始しても良い。また、音声処理装置１が録音装置や撮像装置に適用される場合には、録音や録画が開始されたタイミングでマイクロフォン１１が集音を開始しても良い。マイクロフォン１１は、集音した音声に対応するアナログ音声データをＡ／Ｄコンバータ１２に出力する。そして、処理がステップＳＴ１２に進む。

　ステップＳＴ１２では、Ａ／Ｄコンバータ１２がアナログ音声データをＡＤ変換する。Ａ／Ｄコンバータ１２は、アナログ音声データを量子化ビット数１６ビットでサンプリングして、デジタル音声データＤ１を得る。また、Ａ／Ｄコンバータ１２は、アナログ音声データを量子化ビット数２４ビットでサンプリングして、デジタル音声データＤ２を得る。２つのＡＤ変換処理は、例えばパラレルに行われる。なお、マイクロフォン１１からステレオ形式（２チャンネル）の音声データが出力される場合には、ＬＲ(Left/Right)の音声データのそれぞれに異なる量子化ビット数によるＡＤ変換が行われる。Ａ／Ｄコンバータ１２は、デジタル音声データＤ１、Ｄ２をＦＦＴ回路１３及び記録部１６のそれぞれに出力する。そして、処理がステップＳＴ１３に進む。

　ステップＳＴ１３では、ＦＦＴ解析が行われる。ＦＦＴ回路１３は、デジタル音声データＤ１、Ｄ２のそれぞれにＦＦＴを行い、その結果である解析結果ＤＦ１、ＤＦ２を得る。ＦＦＴ回路１３は、解析結果ＤＦ１、ＤＦ２をＤＳＰ１４に出力する。そして、処理がステップＳＴ１４に進む。

　ステップＳＴ１４では、ＤＳＰ１４の判定部１４ａが解析結果ＤＦ１、ＤＦ２を比較し、両者の間に差分が存在するか否かを判定することでノイズ成分に関する判定を行う。両者に差分がない場合、換言すれば、量子化ビット数が１６ビットの場合でも量子化ビット数２４ビットの場合でもノイズ成分の減少が見られない場合には、処理がステップＳＴ１５に進む。ステップＳＴ１５では、ＤＳＰ１４が、記録対象を量子化ビット数が１６ビットのデジタル音声データ（デジタル音声データＤ１）に設定する。そして、処理がステップＳＴ１７に進む。

　一方、解析結果ＤＦ１、ＤＦ２の間に閾値以上の差分がある場合、換言すれば、量子化ビット数の相違によるノイズ成分の減少が見られる場合には、処理がステップＳＴ１６に進む。ステップＳＴ１６では、ＤＳＰ１４が、記録対象を量子化ビット数が２４ビットのデジタル音声データ（デジタル音声データＤ２）に設定する。そして、処理がステップＳＴ１７に進む。

　ステップＳＴ１７では、ＤＳＰ１４が、判定部１４ａの判定結果に応じた記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧにより入力が切り替えられ、デジタル音声データＤ１、Ｄ２の何れかが記録部１６により記録媒体１７に記録される。そして、処理がステップＳＴ１８に進む。

　ステップＳＴ１８では、量子化ビット数に関する報知がなされる。例えば、図３を参照して説明したように、記録されているデジタル音声データの量子化ビット数に関する情報が表示される。以上、説明した処理が、所定期間（例えば、録音や録画が行われている期間）、繰り返される。

［効果］
　以上、説明した第１の実施形態によれば、例えば、以下の効果を得ることができる。
　量子化ビット数を高くすることが可能な機器で、有効な効果が得られるときのみに量子化ビット数を高くするモードを自動で又はユーザが選択することができる。これにより、有効な効果を得られない場合でも量子化ビット数が高く設定されることによるメモリ容量の無駄な消費を避けることができる。また、量子化ビット数を低くした場合に、記録レートが下がることによって書き込み速度が低い記録媒体への書き込みが可能になり得る。

＜２．第２の実施形態＞
　次に、第２の実施形態について説明する。なお、第１の実施形態で説明した事項は、特に断らない限り第２の実施形態にも適用することができ、同様、同質の構成については同一の符号を付し重複した説明を省略する。第２の実施形態は、ＤＳＰ１４の判定部１４ａがマイクロフォンの性能を判定する実施形態である。マイクロフォンの性能としては、自己雑音レベルと称される雑音性能を挙げることができる。

　図５は、第２の実施形態に係る音声処理装置（音声処理装置２）の構成例を示す図である。音声処理装置２が音声処理装置１と異なる点は、マイクロフォン１１が、音声処理装置２に着脱される外部マイクロフォン１１ａである点である。外部マイクロフォン１１ａとしてはその性能が不明、若しくは、一定のノイズ性能を提示するものの実際に当該性能を有するか不明であるものが想定される。

　音声処理装置２の基本的な動作は、音声処理装置１と同様である。概略的に説明すれば、外部マイクロフォン１１ａにより集音されたアナログ音声データがＡ／Ｄコンバータ１２に供給される。Ａ／Ｄコンバータ１２は、アナログ音声データに対して、１６ビット、２４ビットの量子化ビット数でＡＤ変換を行い、デジタル音声データＤ１、Ｄ２を得る。デジタル音声データＤ１、Ｄ２に対してＦＦＴ回路１３によるＦＦＴが行われ、その結果である解析結果ＤＦ１、ＤＦ２が判定部１４ａに供給される。

　ここで、図２に示した点線Ｌ０は、第２の実施形態では、外部マイクロフォン１１ａの雑音性能に基づくノイズ成分に置き換えることができる。例えば、外部マイクロフォン１１ａが雑音性能に優れている場合にはノイズ成分のレベルは小さくなる（例えば図２Ａの点線Ｌ０）。この場合には、第１の実施形態で説明したように、解析結果ＤＦ１、ＤＦ２の間に差分が生じる。一方で、外部マイクロフォン１１ａが雑音性能に優れていない場合には、集音される音声に重畳されるノイズが大きくなり、ノイズ成分が大きくなる（例えば図２Ｂの点線Ｌ０）。解析結果ＤＦ１、ＤＦ２の間に差分が生じない（差分が閾値未満を含む）となる。

　即ち、判定部１４ａは、解析結果ＤＦ１、ＤＦ２の間に差分がある場合には、外部マイクロフォン１１ａが雑音性能に優れたものであると判定し、量子化ビット数が２４ビットのデジタル音声データＤ１を記録するための記録制御信号ＳＧを記録部１６に出力する。一方、判定部１４ａは、解析結果ＤＦ１、ＤＦ２の間に差分がない場合には、外部マイクロフォン１１ａが雑音性能に優れていないものであると判定し、量子化ビット数が１６ビットのデジタル音声データＤ２を記録するための記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧにより入力が切り替えられる。記録部１６は、デジタル音声データＤ１、Ｄ２の何れかを記録媒体１７に記録する。

　なお、第２の実施形態に応じた報知が行われても良い。例えば外部マイクロフォン１１ａの性能が一定以上である旨又は外部マイクロフォン１１ａの性能が一定レベルより劣る旨の報知が表示等によってなされても良い。

　以上説明した第２の実施形態によれば、音声処理装置に接続されたマイクロフォンの性能を判定し、判定結果に応じて適切な量子化ビット数に基づくデジタル音声データを記録することが可能となる。また、第１の実施形態と同様の効果が得られる。

＜３．第３の実施形態＞
　次に、第３の実施形態について説明する。なお、第１、第２の実施形態で説明した事項は、特に断らない限り第３の実施形態にも適用することができ、同様、同質の構成については同一の符号を付し重複した説明を省略する。第３の実施形態は、概略的には、第１の実施形態と第２の実施形態とを組み合わせた実施形態である。

　図６は、第３の実施形態に係る音声処理装置（音声処理装置３）の構成例を示すブロック図である。音声処理装置３は、マイクロフォン１１及び外部マイクロフォン１１ａを有している。その他の構成は、音声処理装置１、２と同じである。

　マイクロフォン１１は、音声処理装置３が有するマイクロフォンであり、上述したように、量子化ビット数２４ビットに対して十分な性能を有するマイクロフォンである。外部マイクロフォン１１ａとしてはその性能が不明、若しくは、一定のノイズ性能を提示するものの実際に当該性能を有するか不明であるものが想定される。なお、マイクロフォン１１からの入力及び外部マイクロフォン１１ａからの入力は、例えばユーザの操作によって切り替えることができるように構成されている。

　音声処理装置３の動作例について説明する。マイクロフォン１１により集音されたアナログ音声データがＡ／Ｄコンバータ１２に供給される。Ａ／Ｄコンバータ１２は、当該アナログ音声データに対して、１６ビット、２４ビットのそれぞれの量子化ビット数でサンプリングするＡＤ変換を行い、デジタル音声データＤ１、Ｄ２を得る。また、外部マイクロフォン１１ａにより集音されたアナログ音声データがＡ／Ｄコンバータ１２に供給される。Ａ／Ｄコンバータ１２は、当該アナログ音声データに対して、１６ビット、２４ビットのそれぞれの量子化ビット数でサンプリングするＡＤ変換を行い、デジタル音声データＤ３、Ｄ４を得る。

　第３の実施形態における記録部１６には、デジタル音声データＤ１～Ｄ４が入力される。図示しないスイッチャにより４つの入力のうち１つの入力が選択され、当該選択された入力のデジタル音声データが記録部１６により記録媒体１７に記録される。

　デジタル音声データＤ１～Ｄ４がＦＦＴ回路１３に供給される。ＦＦＴ回路１３は、デジタル音声データＤ１～Ｄ４のそれぞれに対してＦＦＴを行い、その結果である解析結果ＤＦ１～ＤＦ４を得る。解析結果ＤＦ１～ＤＦ４がＤＳＰ１４に供給される。

　ＤＳＰ１４の判定部１４ａは、第１の実施形態と同様にして、解析結果ＤＦ１、ＤＦ２に基づいて環境ノイズの大きさを判定する。また、判定部１４ａは、第２の実施形態と同様にして、解析結果ＤＦ３、ＤＦ４に基づいて外部マイクロフォン１１ａの性能を判定する。なお、環境ノイズ及びマイクロフォンの性能を判定する処理は、時系列に行われも良いし、パラレルに行われても良い。

　判定部１４ａによる判定結果は、例えば、以下の４つのパターンに分類することができる。
パターンＡ：環境ノイズが小さく、且つ、外部マイクロフォン１１ａの性能が一定以上の場合。
パターンＢ：環境ノイズは小さいものの、外部マイクロフォン１１ａの性能が一定未満である場合。
パターンＣ：環境ノイズが大きく、且つ、外部マイクロフォン１１ａの性能が一定以上である場合。
パターンＤ：環境ノイズが大きく、且つ、外部マイクロフォン１１ａの性能が一定未満である場合。

　判定部１４ａの判定結果がパターンＡの場合は、量子化ビット数を高くすることによる有利な効果が得られる環境及びマイクロフォンの性能である。そこで、ＤＳＰ１４は、記録対象を量子化ビット数が２４ビットであるデジタル音声データＤ２又はデジタル音声データＤ４に設定する。デジタル音声データＤ２、Ｄ４の何れかを記録対象にするかは、例えばユーザによる入力の設定に応じて決定される。ＤＳＰ１４は、記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧによりスイッチャが切り替えられ、デジタル音声データＤ２及びＤ４の何れかが記録媒体１７に記録される。

　判定部１４ａの判定結果がパターンＢの場合は、ＤＳＰ１４は、使用するマイクロフォンに関する設定に応じて、記録媒体１７に記録されるデジタル音声データを設定する。例えば、マイクロフォン１１が使用するマイクロフォンとして設定されている場合は、デジタル音声データＤ１、Ｄ２の何れかが記録対象となる。パターンＢの場合は環境ノイズが小さいことから、ＤＳＰ１４は、デジタル音声データＤ２を記録対象として設定し、当該設定に対応する記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧに応じてスイッチャが切り替えられ、デジタル音声データＤ２が記録部１６により記録媒体１７に記録される。一方、外部マイクロフォン１１ａが使用するマイクロフォンとして設定されている場合は、デジタル音声データＤ３、Ｄ４の何れかが記録対象となる。パターンＢの場合は、外部マイクロフォン１１ａの性能が一定未満であることから、ＤＳＰ１４は、デジタル音声データＤ３を記録対象として設定し、当該設定に対応する記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧに応じてスイッチャが切り替えられ、デジタル音声データＤ３が記録部１６により記録媒体１７に記録される。

　判定部１４ａの判定結果がパターンＣの場合は、環境ノイズが多いことから量子化ビット数が２４ビットであるデジタル音声データを記録するメリットが少ない。このため、デジタル音声データＤ１、Ｄ３の何れかが記録対象となる。ＤＳＰ１４は、マイクロフォン１１が使用するマイクロフォンとして設定されている場合は、デジタル音声データＤ１を記録対象として設定し、当該設定に対応する記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧに応じてスイッチャが切り替えられ、デジタル音声データＤ１が記録部１６により記録媒体１７に記録される。一方、ＤＳＰ１４は、外部マイクロフォン１１ａが使用するマイクロフォンとして設定されている場合は、デジタル音声データＤ３を記録対象として設定し、当該設定に対応する記録制御信号ＳＧを記録部１６に出力する。記録制御信号ＳＧに応じてスイッチャが切り替えられ、デジタル音声データＤ３が記録部１６により記録媒体１７に記録される。

　判定部１４ａの判定結果がパターンＤの場合も、環境ノイズが多いことから処理はパターンＣの場合と同様になる。概略的に説明すれば、マイクロフォン１１が使用するマイクロフォンとして設定されている場合は、デジタル音声データＤ１が記録媒体１７に記録される。外部マイクロフォン１１ａが使用するマイクロフォンとして設定されている場合は、デジタル音声データＤ３が記録媒体１７に記録される。なお、第３の実施形態において、量子化ビット数に関する報知及びマイクロフォンの性能に関する報知が行われても良い。

　以上、説明した第３の実施形態によれば、環境ノイズ及び外部マイクロフォンの性能に応じて、適切な量子化ビット数のデジタル音声データを記録媒体に記録することができる。まだ、第１、第２の実施形態で説明した効果と同様の効果を得ることができる。

＜４．変形例＞
　以上、本開示の実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。

　上述した各実施形態に係る音声処理装置の構成は、適宜、変更することができる。例えば、音声処理装置が表示部を有しない構成であっても良い。表示部は、音声処理装置に無線又は有線にて接続可能なものであっても良い。また、音声処理装置が記録部及び記録媒体を有しない構成であっても良い。例えば、判定部の判定結果に対応するデジタル音声データが、通信部を介してネットワーク上に存在する他の装置（例えば、クラウドサーバやパーソナルコンピュータ）に送信されても良い。そして、当該他の装置が有する記録部により記録処理が行われても良い。また、上述した実施形態において、マイクロフォンとＡ／Ｄコンバータとの間が有線により接続されていても良いし、無線により接続されていても良い。

　上述した実施形態に係る音声処理装置が、量子化ビット数のパターン（例えば、１６ビット及び２４ビットの２パターン）に対応した数のＡ／Ｄコンバータを有する構成であっても良い。そして、ＤＳＰが、判定部の判定結果に対応するＡ／Ｄコンバータのみを動作させる制御を行うようにしても良い。これにより、音声処理装置において伝送されるデータ量を削減することができる。

　上述した実施形態に係る記録部は、入力される複数のデジタル音声データの全てを記録媒体に記録しても良い。そして、例えば、ユーザがデジタル音声データを復調した音声を実際に聴取した後に、音声データを適宜、削除、保存するようにしても良い。

　上述した各実施形態で説明した機能は、方法、プログラム、当該プログラムを記録した記録媒体等、任意の形態で実現することができる。また、当該プログラムをダウンロード可能としても良い。そして、他の装置（例えば、撮像装置、スマートフォン）が当該プログラムをダウンロードしてインストールすることにより、各実施形態で説明した機能を実現するようにしても良い。

　上述の実施形態において挙げた構成、方法、工程、形状、材料及び数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料及び数値などを用いてもよい。上述した実施形態および変形例は、適宜組み合わせることができる。

　本開示は、以下の構成も採ることができる。
（１）
　所定の音声データに対して第１の量子化ビット数及び前記第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力する変換部と、
　前記変換部からのそれぞれの出力に対して周波数解析を行う周波数解析部と、
　前記周波数解析部による解析結果に基づいて所定の判定処理を行う判定部と
　を有する音声処理装置。
（２）
　前記判定部による判定結果に基づいて、前記第１及び第２のデジタル音声データを選択的に記録媒体に記録する記録部を有する
　（１）に記載の音声処理装置。
（３）
　前記記録部は、
　前記第１のデジタル音声データに対して周波数解析を行った結果と前記第２のデジタル音声データに対して周波数解析を行った結果との間に、閾値以上の差分がない場合には前記第１のデジタル音声データを前記記録媒体に記録し、
　前記第１のデジタル音声データに対して周波数解析を行った結果と前記第２のデジタル音声データに対して周波数解析を行った結果との間に、前記閾値以上の差分がある場合には前記第２のデジタル音声データを前記記録媒体に記録する
　（２）に記載の音声処理装置。
（４）
　前記判定部による判定結果に応じた前記第１及び第２の量子化ビット数に関する報知を行う報知部を有する
　（１）から（３）までの何れかに記載の音声処理装置。
（５）
　表示により前記報知を行う表示部を有する
　（４）に記載の音声処理装置。
（６）
　前記表示部に、記録されるデジタル音声データの量子化ビット数が前記第１の量子化ビット数及び前記第２の量子化ビット数の何れであるかが表示される
　（５）に記載の音声処理装置。
（７）
　前記表示部に、音声データのレベル分布と前記第１の量子化ビット数が適用される指標とが対応付けて表示される
　（６）に記載の音声処理装置。
（８）
　前記判定部は、前記周波数解析部による解析結果に基づいて環境ノイズを判定する
　（１）から（７）までの何れかに記載の音声処理装置。
（９）
　前記判定部は、前記周波数解析部による解析結果に基づいて集音部の性能を判定する
　（１）から（８）までの何れかに記載の音声処理装置。
（１０）
　前記所定の音声データに対応する音声を集音する集音部を有する
　（１）から（９）までの何れかに記載の音声処理装置。
（１１）
　前記集音部は、内蔵及び外部接続されるマイクロフォンの少なくとも一方である
　（１０）に記載の音声処理装置。
（１２）
　前記第１の量子化ビット数が１６ビットより小さいビット数であり、前記第２の量子化ビット数が２４ビットより大きいビット数である
　（１）から（１１）までの何れかに記載の音声処理装置。
（１３）
　前記第１の量子化ビット数が１６ビットであり、前記第２の量子化ビット数が２４ビット又は３２ビットである
　（１２）に記載の音声処理装置。
（１４）
　変換部が、所定の音声データに対して第１の量子化ビット数及び前記第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力し、
　周波数解析部が、前記変換部からのそれぞれの出力に対して周波数解析を行い、
　判定部が、前記周波数解析部による解析結果に基づいて所定の判定処理を行う
　音声処理方法。
（１５）
　変換部が、所定の音声データに対して第１の量子化ビット数及び前記第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力し、
　周波数解析部が、前記変換部からのそれぞれの出力に対して周波数解析を行い、
　判定部が、前記周波数解析部による解析結果に基づいて所定の判定処理を行う
　音声処理方法をコンピュータに実行させるプログラム。

１,２,３・・・音声処理装置、１１・・・マイクロフォン、１１ａ・・・外部マイクロフォン、１２・・・Ａ／Ｄコンバータ、１３・・・ＦＦＴ回路、１４・・・ＤＳＰ、１４ａ・・・判定部、１５・・・表示部、１６・・・記録部、１７・・・記録媒体

Claims

　所定の音声データに対して第１の量子化ビット数及び前記第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力する変換部と、
　前記変換部からのそれぞれの出力に対して周波数解析を行う周波数解析部と、
　前記周波数解析部による解析結果に基づいて所定の判定処理を行う判定部と
　を有する音声処理装置。
　前記判定部による判定結果に基づいて、前記第１及び第２のデジタル音声データを選択的に記録媒体に記録する記録部を有する
　請求項１に記載の音声処理装置。
　前記記録部は、
　前記第１のデジタル音声データに対して周波数解析を行った結果と前記第２のデジタル音声データに対して周波数解析を行った結果との間に、閾値以上の差分がない場合には前記第１のデジタル音声データを前記記録媒体に記録し、
　前記第１のデジタル音声データに対して周波数解析を行った結果と前記第２のデジタル音声データに対して周波数解析を行った結果との間に、前記閾値以上の差分がある場合には前記第２のデジタル音声データを前記記録媒体に記録する
　請求項２に記載の音声処理装置。
　前記判定部による判定結果に応じた前記第１及び第２の量子化ビット数に関する報知を行う報知部を有する
　請求項１に記載の音声処理装置。
　表示により前記報知を行う表示部を有する
　請求項４に記載の音声処理装置。
　前記表示部に、記録されるデジタル音声データの量子化ビット数が前記第１の量子化ビット数及び前記第２の量子化ビット数の何れであるかが表示される
　請求項５に記載の音声処理装置。
　前記表示部に、音声データのレベル分布と前記第１の量子化ビット数が適用される指標とが対応付けて表示される
　請求項６に記載の音声処理装置。
　前記判定部は、前記周波数解析部による解析結果に基づいて環境ノイズを判定する
　請求項１に記載の音声処理装置。
　前記判定部は、前記周波数解析部による解析結果に基づいて集音部の性能を判定する
　請求項１に記載の音声処理装置。
　前記所定の音声データに対応する音声を集音する集音部を有する
　請求項１に記載の音声処理装置。
　前記集音部は、内蔵及び外部接続されるマイクロフォンの少なくとも一方である
　請求項１０に記載の音声処理装置。
　前記第１の量子化ビット数が１６ビットより小さいビット数であり、前記第２の量子化ビット数が２４ビットより大きいビット数である
　請求項１に記載の音声処理装置。
　前記第１の量子化ビット数が１６ビットであり、前記第２の量子化ビット数が２４ビット又は３２ビットである
　請求項１２に記載の音声処理装置。
　変換部が、所定の音声データに対して第１の量子化ビット数及び前記第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力し、
　周波数解析部が、前記変換部からのそれぞれの出力に対して周波数解析を行い、
　判定部が、前記周波数解析部による解析結果に基づいて所定の判定処理を行う
　音声処理方法。
　変換部が、所定の音声データに対して第１の量子化ビット数及び前記第１の量子化ビット数より大きい第２の量子化ビット数でサンプリングを行い、それぞれの結果を第１及び第２のデジタル音声データとして出力し、
　周波数解析部が、前記変換部からのそれぞれの出力に対して周波数解析を行い、
　判定部が、前記周波数解析部による解析結果に基づいて所定の判定処理を行う
　音声処理方法をコンピュータに実行させるプログラム。