WO2013084774A1

WO2013084774A1 - 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム

Info

Publication number: WO2013084774A1
Application number: PCT/JP2012/080789
Authority: WO
Inventors: 衣未留角尾; 井上　晃
Original assignee: ソニー株式会社
Priority date: 2011-12-05
Filing date: 2012-11-28
Publication date: 2013-06-13
Also published as: BR112014013061A2; US20140318348A1; JP2013117688A; CA2853904A1; EP2790184A1; CN103988256A

Abstract

　入力音響信号に対応した楽曲の特定を良好に行い得るようにする。　連続入力される音響信号を所定の特徴量系列に変換する。この特徴量系列が所定量蓄積し次第、この特徴量系列と楽曲情報との照合処理を逐次行って、最終的に照合度が閾値よりも大きい楽曲を特定する。この場合、連続入力される音響信号を所定の特徴量系列に変換することと、この特徴量系列と楽曲情報との照合処理を行うこととを並行して行うため、リアルタイム性に優れた楽曲特定を行うことが可能となる。

Description

音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム

　本技術は、音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システムに関し、特に、入力音響信号に対応した楽曲の特定を良好に行い得る音響処理装置等に関する。

　ユーザが大量の楽曲から特定の楽曲を再生する際、それを簡単に探し出す手段として鼻歌検索が提案されている(例えば、特許文献１参照)。

特開２０００－３５６９９６号公報

　特許文献１に記載され検索システムにおいては、ユーザの歌唱（鼻歌）の後に検索処理が開始されるものである。そのため、リアルタイム性に欠けるものである。

　本技術の目的は、入力音響信号に対応した楽曲の特定を良好に行い得るようにすることにある。

　本技術の概念は、
　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が第１の閾値よりも大きい楽曲を特定する楽曲特定部とを備える
　音響処理装置にある。

　本技術において、変換部により、連続入力される音響信号が所定の特徴量系列に変換される。連続入力される音響信号は、例えば、マイクロホンからユーザの歌唱（鼻歌も含む）、環境音などを入力することで得られる。特徴量系列は、例えば、ピッチ系列とされるが、音韻系列などのその他の系列であってもよい。

　楽曲特定部により、所定の特徴量系列が所定量蓄積し次第、この特徴量系列と楽曲情報との照合処理が逐次行われる。そして、楽曲特定部により、照合度が第１の閾値よりも大きい楽曲が特定される。例えば、照合処理は、予めスケジューリングされた時刻毎に行われか、あるいは、前回の照合処理が終了する毎に行われる。

　このように本技術においては、連続入力される音響信号を所定の特徴量系列に変換することと、この特徴量系列と楽曲情報との照合処理を行うこととが並行して行われるものである。そのため、リアルタイム性に優れた楽曲特定を行うことができる。

　なお、本技術において、例えば、楽曲特定部は、前回の照合処理で照合度が第１の閾値よりも下側に設定された第２の閾値よりも小さい楽曲を照合処理の対象から除く、ようにされてもよい。この場合、時間経過とともに照合処理の対象を順次絞っていくことができ、楽曲の特定を効率よく行うことができる。

　また、本技術において、例えば、楽曲特定部は、第１の閾値および／または第２の閾値を、時間経過に伴って大きくなるように変化させる、ようにしてもよい。この場合、連続入力される音響信号に対応した楽曲を照合処理の対象から外すことなく、この楽曲を精度よく特定することが可能となる。

　また、本技術において、例えば、特定された楽曲を、楽曲および歌唱位置の情報に基づいて、連続入力される音響信号に同期して再生する楽曲再生部をさらに備える、ようにされてもよい。この場合、例えば、ユーザは、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となり、効果的なアプリケーションを提供できる。この場合、例えば、楽曲再生部は、連続入力される音響信号の音高およびテンポに対応させて、再生する楽曲の音高およびテンポを変化させる、ようにされてもよい。

　また、本技術において、例えば、照合処理の情報および楽曲特定の情報に基づいて、楽曲特定の進捗状況の表示を制御する表示制御部をさらに備える、ようにされてもよい。この場合、ユーザは、楽曲特定の進捗状況を容易に知ることができる。例えば、表示制御部は、照合処理の対象となっている楽曲を、処理結果に基づいて、照合度が大きい方から順に表示するように制御する、ようにされてもよい。ユーザは、どの楽曲に特定されようとしているかを容易に把握できる。

　この場合、表示されている楽曲から選択された楽曲を、楽曲および歌唱位置の情報に基づいて、連続入力される音響信号に同期して再生する楽曲再生部をさらに備える、ようにされてよい。この場合、ユーザは、自身の歌唱に合致した楽曲を選択して、直ちにその楽曲の同期再生が可能となる。

　また、本技術において、例えば、所定のソートがされている複数の楽曲から一部の楽曲を選択する楽曲絞り込み部をさらに備え、楽曲特定部は、楽曲絞り込み部で選択された一部の楽曲を照合処理の対象とする、ようにされてもよい。例えば、所定のソートは、ジャンルあるいはアーティストによるソート、さらには、聴く頻度によるソート、お気に入りか否かのソートなどが考えられる。この場合、照合処理の対象を絞ることができ、楽曲特定の精度を高めることが可能となる。また、無駄な照合処理を行わないで済むことから、楽曲特定までの時間短縮を図ることができる。

　また、本技術の他の概念は、
　音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムであって、
　上記音響再生装置は、
　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列を上記サーバ装置に送信する送信部と、
　上記サーバ装置から楽曲特定情報を受信する受信部と、
　上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備え、
　上記サーバ装置は、
　上記音響再生装置から上記所定の特徴量系列を受信する受信部と、
　所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記楽曲特定情報を上記音響再生装置に送信する送信部とを備える
　音響処理システムにある。

　本技術は、音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムである。音響再生装置では、変換部により連続入力される音響信号が所定の特徴量系列に変換され、この所定の特徴量系列は、送信部により、サーバ装置に送信される。

　サーバ装置では、受信部により音響再生装置から所定の特徴量系列が受信され、楽曲特定部によりこの所定の特徴量系列が所定量蓄積し次第、この特徴量系列と楽曲情報との照合処理が逐次行われ、照合度が閾値よりも大きい楽曲が特定され、送信部により楽曲特定情報が音響再生装置に送信される。

　そして、音響再生装置では、受信部によりサーバ装置から楽曲特定情報が受信され、楽曲再生部によりこの楽曲特定情報に基づき、特定された楽曲が、連続入力される音響信号に同期して再生される。

　このように本技術においては、連続入力される音響信号を所定の特徴量系列に変換することと、この特徴量系列と楽曲情報との照合処理を行うこととが並行して行われるものであるため、リアルタイム性に優れた楽曲特定を行うことができる。また、本技術においては、音響再生装置のユーザは、歌唱（鼻歌を含む）を行うことで、その歌唱に合致した楽曲の同期再生を行わせることができ、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となる。また、本技術においては、照合処理を伴う楽曲特定の処理をサーバ装置側で行うものであり、音響再生装置の処理負荷を軽減できる。

　本技術によれば、入力音響信号に対応した楽曲の特定を良好に行うことができる。

第１の実施の形態としての音響処理装置の構成例を示すブロック図である。照合処理を前回の照合処理が終了する毎に行う場合における、ピッチ検出処理、照合処理のタイミングを示すタイムチャートである。照合処理を予めスケジューリングされた時刻毎に行う場合における、ピッチ検出処理、照合処理のタイミングを示すタイムチャートである。閾値Ｔhh、閾値Ｔhlが時間経過に伴って大きくなるように変化する構成を説明するための図である。表示部における表示推移の一例を示す図である。照合処理を前回の照合処理が終了する毎に行う場合における音響処理装置の動作を説明するためのフローチャートである。照合処理を予めスケジューリングされた時刻毎に行う場合における音響処理装置の動作を説明するためのフローチャートである。ユーザの楽曲選択機能を備える音響処理装置の動作を説明するためのフローチャートである。第２の実施の形態としての音響処理システムの構成例を示すブロック図である。音響処理システムにおけるピッチ検出と、送受信、照合の各処理のタイミングを示すタイムチャートである。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．第１の実施の形態
　２．第２の実施の形態
　３．変形例

　＜１．第１の実施の形態＞
　［音響処理装置の構成例］
　図１は、第１の実施の形態としての音響処理装置１００の構成例を示している。この音響処理装置１００は、具体的には、マイクロホンを備えたポータブル音楽プレーヤや携帯電話などである。この音響処理装置１００は、入力部１０１と、ピッチ検出部１０２と、マッチング処理部１０３と、記憶部１０４と、表示部１０５と、再生コントロール部１０６と、記憶部１０７と、出力部１０８を有している。

　入力部１０１は、ユーザの歌声（鼻歌を含む）を入力し、その歌声に対応した入力音響信号（音声信号）を出力する。この入力部１０１は、例えば、マイクロホンなどにより構成される。ピッチ検出部１０２は、入力音響信号を周波数解析して、解析時刻毎に、基本周波数を推定してピッチを検出する。

　記憶部１０７は、所定数の楽曲のデータを記憶し、楽曲データベースを構成する。記憶部１０４は、記憶部１０７に記憶されている楽曲に対応したメロディデータを記憶し、メロディデータベースを構成する。ここで、メロディデータは、必ずしも楽曲データと一対一に対応していなくてもよく、楽曲中の複数の個所のメロディデータを別々のデータとしていてもよい。例えば、ある楽曲のメロディデータが、Ａメロディ、Ｂメロディ、サビの３つメロディデータに分割して記憶されている等である。

　マッチング処理部１０３は、ピッチ検出部１０２で検出されたピッチ系列と、記憶部１０４に記憶されている各楽曲のメロディデータとの照合処理（マッチング処理）を行って、ピッチ系列と各楽曲のメロディデータとの照合度を計算する。マッチング処理部１０３は、例えば、ピッチ系列を音高の列に正規化し、前の系列の音との音高差を抽出して、メロディデータの系列と動的計画法を用いて照合処理（マッチング処理）を行う。ただし、このマッチング処理部１０３における照合処理は、この方法に限定されるものではない。

　マッチング処理部１０３は、この照合処理を、ピッチ系列が所定量蓄積し次第、逐次行って、最終的に、照合度が最大で、その照合度が予め設定された閾値（第１の閾値）Ｔhhよりも大きくなる１つの楽曲を特定する。この場合、マッチング処理部１０３は、前回の照合処理で照合度が閾値（第２の閾値）Ｔhlよりも小さい楽曲を照合処理の対象から除くことを行う。ここで、閾値Ｔhlは、閾値Ｔhhの下側に設定されるものであり、十分に小さい照合度に対応した値に予め設定される。この場合、時間経過とともに照合処理の対象が順次絞られていくことから、楽曲特定の効率化が図られる。

　マッチング処理部１０３は、上述したように、照合処理を繰り返し行う。例えば、マッチング処理部１０３は、照合処理を、前回の照合処理が終了する毎に行う。この場合、照合処理が連続して行われることとなるので、楽曲特定に要する時間の短縮化が期待される。

　図２は、その場合におけるタイムチャートを示している。ピッチ検出部１０２では、開始時刻から入力音響信号のピッチ検出が連続して行われている。時刻Ｔ１に、マッチング処理部１０３において１回目の照合処理が開始される。この１回目の照合処理では、開始時刻から時刻Ｔ１までに蓄積されたピッチ系列に基づいて照合処理が行われる。

　この１回目の照合処理が終了した時刻Ｔ２に、マッチング処理部１０３において直ちに２回目の照合処理が開始される。この２回目の照合処理では、時刻Ｔ１から時刻Ｔ２までに蓄積されたピッチ系列に基づいて照合処理が行われる。さらに、この２回目の照合処理が終了した時刻Ｔ３に、マッチング処理部１０３において直ちに３回目の照合処理が開始される。この３回目の照合処理では、時刻Ｔ２から時刻Ｔ３までに蓄積されたピッチ系列に基づいて照合処理が行われる。

　以下、同様にして、照合処理が繰り返されていく。なお、上述したように、前回の照合処理で照合度が閾値（第２の閾値）Ｔhlよりも小さい楽曲が照合処理の対象から除かれていくことで、図示のように、照合処理の回を重ねていく毎に、照合処理に要する時間は短くなっていく。

　また、例えば、マッチング処理部１０３は、照合処理を、予めスケジューリングされた時刻毎に行う。この場合、照合処理が、前回の照合処理に要した時間によらず、十分な長さのピッチ系列をもって行われることから、各回において効果的な照合処理が行われることが期待される。

　図３は、その場合におけるタイムチャートを示している。ピッチ検出部１０２では、開始時刻から入力音響信号のピッチ検出が連続して行われている。時刻Ｔ11に、マッチング処理部１０３において１回目の照合処理が開始される。この１回目の照合処理では、開始時刻から時刻Ｔ11までに蓄積されたピッチ系列に基づいて照合処理が行われる。

　この１回目の照合処理が終了した後の時刻Ｔ12に、マッチング処理部１０３において２回目の照合処理が開始される。この２回目の照合処理では、時刻Ｔ11から時刻Ｔ12までに蓄積されたピッチ系列に基づいて照合処理が行われる。さらに、この２回目の照合処理が終了した後の時刻Ｔ13に、マッチング処理部１０３において３回目の照合処理が開始される。この３回目の照合処理では、時刻Ｔ12から時刻Ｔ13までに蓄積されたピッチ系列に基づいて照合処理が行われる。

　上述の閾値Ｔhhおよび閾値Ｔhlは、固定値であってもよいが、図４に示すように、いずれか一方、あるいは両方が、時間経過に伴って大きくなるように変化する構成であってもよい。このように閾値を変化させることで、入力音響信号に対応した楽曲を照合処理の対象から外すことなく、この楽曲を精度よく特定することが可能となる。また、例えば、閾値Ｔhhに関しては、２番目に大きな照合度に所定値を加えた値にするなど、他の楽曲に対する照合度に基づいて設定されてもよい。

　また、マッチング処理部１０３は、最初から、記憶部１０７に記憶されている楽曲の全てを照合処理の対象としてもよいが、所定のソート（分類）がされている複数の楽曲から、例えばユーザ操作などで予め選択された一部の楽曲のみを照合処理の対象としてもよい。この場合、照合処理の対象を絞ることができることから、楽曲特定の精度を高めることが可能となる。また、無駄な照合処理を行わないで済むことから、楽曲特定までの時間短縮を図ることができる。

　ここで、ユーザの趣向に合わせたソートが考えられる。例えば、ジャンルやアーティストによるソートである。さらには、よく聴く楽曲によるソート、お気に入りの楽曲か否かによるソートなども考えられる。なお、一部の楽曲の選択は、上述したユーザ操作による場合だけでなく、例えば、よく聴く楽曲によるソートの場合には、自動的に上位所定数の楽曲を照合処理の対象として選択するようにしてもよい。また、楽曲の全部を照合処理の対象とするか、選択された一部の楽曲のみを照合処理の対象とするかを、ユーザが予め設定可能としてもよい。

　表示部１０５は、マッチング処理部１０３における照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況を表示する。この表示部１０５には、照合処理の対象となっている楽曲が、例えば、照合度が大きい方から順に表示される。上述したように照合処理が繰り返されていくことで、照合処理の対象が減っていくことから、この表示部１０５の表示もそれに合わせて変更されていく。そして、マッチング処理部１０３で、１つの楽曲が特定されたとき、この表示部１０５には、その１つの楽曲の情報が表示される。

　図５は、表示部１０５における表示推移の一例を示している。図５（ａ）は、開始時の表示例を示している。この時点では、照合処理対象の楽曲は絞られていないため、多くの楽曲が表示された状態となる。図５（ｂ）は、歌唱中の表示例を示している。この時点では、照合処理対象の楽曲が絞られていることから、表示される楽曲の数は少なくなっている。この場合、照合度が大きい順に表示される。図示の例では、「３．ＣＣＣ」の楽曲の照合度が最も大きいことになる。なお、この時点では、まだ、閾値Ｔhhを越える照合度の楽曲は存在しないことになる。図５（ｃ）は、最終的に１つの楽曲が特定された終了時の表示例である。この場合、「１６．ＰＰＰ」の楽曲に特定されたことを示している。

　再生コントロール部１０６は、マッチング処理部１０３で１つの楽曲が特定されたとき、その楽曲および歌唱位置の情報に基づいて、特定された楽曲を、記憶部１０７に記憶されている楽曲データを用い、入力音響信号に同期して再生する。つまり、再生コントロール部１０６は、特定された楽曲を、ユーザの歌唱位置に合わせて再生する。このような同期再生により、ユーザは、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となる。

　なお、再生コントロール部１０６は、特定された楽曲をただ再生するのではなく、入力音響信号の音高およびテンポ、つまりユーザの歌唱の音高やテンポに対応させて、その再生される楽曲の音高およびテンポを変化させるようにしてもよい。

　出力部１０８は、再生コントロール部１０６で得られる楽曲の再生音声信号の出力に関係する部分である。この出力部１０８は、スピーカのようにそれ自体が音を出してもよく、あるいはヘッドホンと接続するための端子、さらには外部のスピーカと通信する通信部であってもよい。

　次に、図１に示す音響処理装置１００の動作を説明する。最初に、図６のフローチャートに沿って、照合処理を前回の照合処理が終了する毎に行う場合について、説明する。音響処理装置１００は、ステップＳＴ１において、処理を開始し、その後に、ステップＳＴ２の処理に移る。このステップＳＴ２において、音響処理装置１００は、ピッチ検出部１０２で、入力部１０１からの入力音響信号を周波数解析して、解析時刻毎に、基本周波数を推定してピッチを検出することを開始する。

　次に、音響処理装置１００は、ステップＳＴ３において、マッチング処理部１０３で、照合処理を行う。この場合、音響処理装置１００は、ピッチ検出部１０２で検出されたピッチ系列と、記憶部１０４に記憶されている各楽曲のメロディデータとの照合処理（マッチング処理）を行って、ピッチ系列と各楽曲のメロディデータとの照合度を計算する。

　次に、音響処理装置１００は、ステップＳＴ４において、マッチング処理部１０３の照合処理の情報に基づいて、表示部１０５に、照合処理対象となっている楽曲を、照合度の大きい順に表示する。次に、音響処理装置１００は、ステップＳＴ５において、最大の照合度が、閾値Ｔhhより大きいか否かを判断する。大きくないとき、音響処理装置１００は、ステップＳＴ６の処理に移る。

　このステップＳＴ６において、音響処理装置１００は、終了条件を満たしているか否かを判断する。この終了条件は、例えば、ユーザが歌唱（鼻歌を含む）を開始してから所定の時間が経過したか、などである。終了条件を満たさないとき、音響処理装置１００は、ステップＳＴ７の処理に移る。

　このステップＳＴ７において、音響処理装置１００は、閾値Ｔhlより小さい照合度の楽曲を、次回の照合処理の対象から除く。そして、音響処理装置１００は、このステップＳＴ７の処理の後、直ちにステップＳＴ３の処理に戻り、上述したと同様の処理を繰り返す。

　また、音響処理装置１００は、ステップＳＴ５で各楽曲の照合度のうち最大のものが閾値Ｔhhより大きいとき、その最大の照合度の楽曲を特定すべき楽曲とする。そして、音響処理装置１００は、ステップＳＴ８において、再生コントロール部１０６で、その楽曲および歌唱位置の情報に基づいて、特定された楽曲を、入力音響信号に同期して再生することを開始する。音響処理装置１００は、このステップＳＴ８の処理の後、ステップＳＴ９において、処理を終了する。

　また、音響処理装置１００は、ステップＳＴ６で終了条件を満たしているとき、ステップＳＴ１０において、表示部１０５に再生が失敗した旨を表示してユーザに通知し、その後に、ステップＳＴ９において、処理を終了する。

　次に、図７のフローチャートに沿って、照合処理を予めスケジューリングされた時刻毎に行う場合について、説明する。音響処理装置１００は、ステップＳＴ３の処理に先だって、ステップＳＴ１１の処理を行う。すなわち、音響処理装置１００は、ステップＳＴ２の処理の後、およびステップＳＴ７の処理の後に、ステップＳＴ１１の処理に移る。

　このステップＳＴ１１において、音響処理装置１００は、開始時間から指定された時間が経過したか否かを判断する。この指定された時間は、１回目の照合処理を行う前は、その１回目の照合処理を開始するまでの時間であり、２回目以降においても同様である。指定された時間が経過したとき、音響処理装置１００は、ステップＳＴ３の処理に移る。詳細説明は省略するが、この図７のフローチャートにおいて、その他のステップは、図６のフローチャートと同様である。

　上述したように、図１に示す音響処理装置１００においては、連続入力される音響信号をピッチ系列に変換することと、このピッチ系列と楽曲に対応したメロディデータとの照合処理を行うこととが並行して行われる。そのため、リアルタイム性に優れた楽曲特定を行うことができる。つまり、ユーザが歌唱（鼻歌を含む）を続けている最中に、その歌唱に対応した楽曲を素早く特定することができる。この場合、ユーザは、必要最小限の時間歌唱するだけ済むことになる。

　また、図１に示す音響処理装置１００においては、照合度の最大が閾値Ｔhhを越えるまでピッチ系列と楽曲に対応したメロディデータとの照合処理が繰り返し行われるが、前回の照合処理で照合度が閾値Ｔhlよりも小さい楽曲が照合処理の対象から除かられる。そのため、時間経過とともに照合処理の対象を順次絞っていくことができ、楽曲の特定を効率よく行うことができる。

　また、図１に示す音響処理装置１００においては、特定された楽曲が、楽曲および歌唱位置の情報に基づいて、連続入力される音響信号に同期して再生される。そのため、ユーザは、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となり、効果的なアプリケーションを提供できる。

　また、図１に示す音響処理装置１００においては、表示部１０５に、マッチング処理部１０３における照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況が表示される。例えば、照合処理の対象となっている楽曲が、処理結果に基づいて、照合度が大きい方から順に表示される。そのため、ユーザは、楽曲特定の進捗状況を容易に知ることができ、また、どの楽曲に特定されようとしているかを容易に把握できる。

　なお、上述の説明では、照合処理後に、照合度の最大が閾値Ｔhhより大きいとき、その照合度の楽曲を特定すべき楽曲として、その楽曲の再生処理に移るものである。つまり、１つの楽曲が特定されてから楽曲の再生処理に移るものであった。しかし、表示部１０５に照合度が大きい順に表示される楽曲に、ユーザが、自分が歌唱している楽曲を見いだすことも考えられる。したがって、ユーザが表示部１０５の表示から任意に楽曲を選択することを可能とし、直ちに選択された楽曲の再生処理に移ることも考えられる。

　図８のフローチャートは、その場合における音響処理装置１００の動作の一例を示している。この図８のフローチャートにおいて、上述の図６のフローチャートに対応するステップには同一符号を付して示し、適宜、その詳細説明は省略する。この図８のフローチャートにおいては、ステップＳＴ５で照合度の最大が閾値Ｔhhより大きくないとき、音響処理装置１００は、ステップＳＴ１２の処理に移る。

　このステップＳＴ１２において、音響処理装置１００は、ユーザによって、表示部１０５に表示されている楽曲のうちのいずれかが選択されたか否かを判断する。選択があったとき、音響処理装置１００は、ステップＳＴ８の処理に移り、再生コントロール部１０６で、その楽曲および歌唱位置の情報に基づいて、選択された楽曲を、入力音響信号に同期して再生することを開始する。一方、音響処理装置１００は、ステップＳＴ１２で選択がなかったとき、ステップＳＴ６の処理に移る。詳細説明は省略するが、この図８のフローチャートにおいて、その他のステップは、図６のフローチャートと同様である。

　＜２．第２の実施の形態＞
　［音響処理システムの構成例］
　図９は、第２の実施の形態としての音響処理システム２００の構成例を示している。この音響処理システム２００は、音響再生装置２１０とサーバ装置２２０とがネットワーク２３０を介して接続されてなるものである。音響再生装置２１０は、具体的には、ネットワーク接続機能を持ち、マイクロホンを備えたポータブル音楽プレーヤや携帯電話などである。この図９において、図１と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。

　音響再生装置２１０は、入力部１０１と、ピッチ検出部２０２と、圧縮処理部２１１と、送信部２１２と、受信部２１３と、表示部１０５と、再生コントロール部１０６と、記憶部１０７と、出力部１０８を有している。

　圧縮処理部２１１は、ピッチ検出部１０２で検出されたピッチ系列をサーバ装置２２０に送信するために、データ圧縮などの処理を行う。送信部２１２は、データ圧縮などの処理が行われたピッチ系列を、ネットワーク２３０を介して、サーバ装置２２０に送信する。受信部２１３は、サーバ装置２２０からネットワーク２３０を介して送られてくる照合処理情報および楽曲特定情報を受信する。この楽曲特定情報には、楽曲および歌唱位置の情報が含まれる。

　表示部１０５は、受信された照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況を表示する。この表示部１０５には、照合処理の対象となっている楽曲が、例えば、照合度が大きい方から順に表示される。再生コントロール部１０６は、受信された楽曲特定情報に含まれる楽曲および歌唱位置の情報に基づいて、特定された楽曲を、記憶部１０７に記憶されている楽曲データを用い、入力音響信号に同期して再生する。つまり、再生コントロール部１０６は、特定された楽曲を、ユーザの歌唱位置に合わせて再生する。

　サーバ装置２２０は、受信部と２２１と、マッチング処理部１０３と、記憶部１０４と、送信部２２２を有している。受信部２２１は、音響再生装置２１０から送られてくる圧縮処理等されたピッチ系列を、ネットワーク２３０を介して受信し、伸長処理等を施して、音響再生装置２１０のピッチ検出部１０２で得られたと同様のピッチ系列を得る。

　マッチング処理部１０３は、受信されたピッチ系列と、記憶部１０４に記憶されている各楽曲のメロディデータとの照合処理（マッチング処理）を行って、ピッチ系列と各楽曲のメロディデータとの照合度を計算する。また、マッチング処理部１０３は、この照合処理を、音響再生装置２１０から間欠的に受信されて蓄積される所定量のピッチ系列毎に、逐次行って、最終的に、照合度が最大で、その照合度が予め設定された閾値Ｔhhよりも大きくなる１つの楽曲を特定する。

　送信部２２２は、マッチング処理部１０３における照合処理情報および楽曲特定情報を、ネットワーク２３０を介して音響再生装置２１０に送信する。なお、楽曲特定情報には、楽曲および歌唱位置の情報が含まれている。

　図９に示す音響処理システム２００の動作を説明する。入力部１０１にユーザの歌声（鼻歌を含む）が入力され、この入力部１０１からは、その歌声に対応した入力音響信号（音声信号）が得られる。この入力音声信号は、ピッチ検出部１０２に供給される。このピッチ検出部１０２では、入力音響信号が周波数解析されて、解析時刻毎に、基本周波数が推定されてピッチが検出される。

　ピッチ検出部１０２で得られたピッチ系列は、圧縮処理部２１１に供給される。この圧縮処理部２１１では、所定量のピッチ系列が蓄積され次第、逐次、データ圧縮された後、送信部２１２により、ネットワーク２３０を介してサーバ装置２２０に送信される。

　サーバ装置２２０では、受信部２２１により、音響再生装置２１０から送られてくるピッチ系列が受信される。このピッチ系列は、マッチング処理部１０３に供給される。

　マッチング処理部１０３では、受信されたピッチ系列と、記憶部１０４に記憶されている各楽曲のメロディデータとの照合処理（マッチング処理）が行われて、ピッチ系列と各楽曲のメロディデータとの照合度が計算される。このマッチング処理部１０３では、この照合処理が、音響再生装置２１０から間欠的に受信されて蓄積される所定量のピッチ系列毎に、逐次行われる。そして、このマッチング処理部１０３では、最終的に、照合度が最大で、その照合度が予め設定された閾値Ｔhhよりも大きくなる１つの楽曲が特定される。

　マッチング処理部１０３で得られる照合処理情報および楽曲特定情報は、送信部２２２により、ネットワーク２３０を介して、音響再生装置２１０に送信される。音響再生装置２１０では、受信部２１３により、サーバ装置２２０から遅れられてくる照合処理情報および楽曲特定情報が受信される。

　表示部１０５では、受信された照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況が表示される（図５参照）。また、再生コントロール部１０６では、受信された楽曲特定情報に含まれる楽曲および歌唱位置の情報に基づいて、特定された楽曲が、記憶部１０７に記憶されている楽曲データが用いられて、入力音響信号に同期して再生される。つまり、再生コントロール部１０６では、特定された楽曲が、ユーザの歌唱位置に合わせて再生される。再生コントロール部１０６で得られる楽曲の再生音声信号は、出力部１０８に供給される。

　図１０のタイムチャートは、図９の音響処理システム２００におけるピッチ検出と、送受信、照合の各処理のタイミングを示している。音響再生装置２１０のピッチ検出部１０２では、開始時刻から入力音響信号のピッチ検出が連続して行われている。開始時刻から所定時間後の時刻Ｔ21に、開始時刻から時刻Ｔ21までのピッチ系列が、データ圧縮されて、送信部２１２から、サーバ装置２２０に送信される。

　サーバ装置２２０では、音響再生装置２１０からピッチ系列が受信された後の時刻Ｔ22に、マッチング処理部１０３において１回目の照合処理が開始される。この１回目の照合処理は、開始時刻から時刻Ｔ21までに蓄積されたピッチ系列に基づいて行われる。この照合処理が終了した後、その照合処理情報は、時刻Ｔ23に、送信部２２２から、音響再生装置２１０に送信される。

　また、音響再生装置２１０では、サーバ装置２２０から照合処理情報が受信された後の時刻Ｔ24に、時刻Ｔ21から時刻Ｔ24までのピッチ系列が、データ圧縮されて、送信部２１２から、サーバ装置２２０に送信される。

　サーバ装置２２０では、音響再生装置２１０からピッチ系列が受信された後の時刻Ｔ25に、マッチング処理部１０３において２回目の照合処理が開始される。この２回目の照合処理は、時刻Ｔ21から時刻Ｔ24までに蓄積されたピッチ系列に基づいて行われる。この照合処理が終了した後、その照合処理情報は、時刻Ｔ26に、送信部２２２から、音響再生装置２１０に送信される。

　また、音響再生装置２１０では、サーバ装置２２０から照合処理情報が受信された後の時刻Ｔ27に、時刻Ｔ24から時刻Ｔ27までのピッチ系列が、データ圧縮されて、送信部２１２から、サーバ装置２２０に送信される。サーバ装置２２０では、音響再生装置２１０からピッチ系列が受信された後の時刻Ｔ28に、マッチング処理部１０３において３回目の照合処理が開始される。以下、同様にして、各処理が繰り返されていく。

　上述したように、図９に示す音響処理システム２００においては、マッチング処理部１０３がサーバ装置２２０に配置されるものの、全体としては図１に示す音響処理装置１００と同様の構成を持つものである。したがって、図１に示す音響処理装置１００と同様の効果を得ることができる。

　また、図９に示す音響処理システム２００においては、マッチング処理部１０３がサーバ装置２２０に配置され、照合処理（マッチング処理）が、処理能力を高くできるサーバ装置２２０側で行われるものである。音響再生装置２１０側の処理負荷を軽減でき、また、照合処理時間の短縮化を図ることができる。

　なお、図９に示す音響処理システム２００においては、ピッチ検出部１０２を音響再生装置２１０側に配置したものであるが、このピッチ検出部１０２もサーバ装置２２０側に配置することも考えられる。その場合には、音響再生装置２１０から入力音響信号をサーバ装置２２０に送信することになる。

　また、図９の音響処理システム２００においては、再生コントロール部１０６を音響再生装置２１０側に配置したものであるが、この再生コントロール部１０６および記憶部１０７をサーバ装置２２０側に配置することも考えられる。その場合には、特定された楽曲の再生音声信号を、サーバ装置２２０から音響信号再生装置２１０に送信することになる。

　＜３．変形例＞
　なお、上述実施の形態においては、入力部１０１にユーザの歌声（鼻歌を含む）が入力されるように説明した。しかし、この入力部１０１に、環境音を入力することも考えられる。ここで言う環境音とは、例えば、街頭で流れている楽曲などのことである。この場合にも、この環境音に対応した楽曲を特定でき、その環境音に同期して、特定された環境音の再生を行うことができる。

　また、上述実施の形態においては、所定の特徴量系列がピッチ系列である例を示したが、本技術はこれに限定されるものではない。この所定の特徴量系列は、音韻系列などその他の特徴量系列であってもよい。

　また、本技術は、以下のような構成をとることもできる。
　（１）連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が第１の閾値よりも大きい楽曲を特定する楽曲特定部とを備える
　音響処理装置。
　（２）上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
　前記（１）に記載の音響処理装置。
　（３）上記楽曲特定部は、
　前回の照合処理で照合度が上記第１の閾値よりも下側に設定された第２の閾値よりも小さい楽曲を照合処理の対象から除く
　前記（１）または（２）に記載の音響処理装置。
　（４）上記楽曲特定部は、
　上記第１の閾値および／または上記第２の閾値を、時間経過に伴って大きくなるように変化させる
　前記（３）に記載の音響処理装置。
　（５）上記楽曲再生部は、
　上記連続入力される音響信号の音高およびテンポに対応させて、上記再生する楽曲の音高およびテンポを変化させる
　前記（２）に記載の音響処理装置。
　（６）上記照合処理の情報および上記楽曲特定の情報に基づいて、楽曲特定の進捗状況の表示を制御する表示制御部をさらに備える
　前記（１）から（５）のいずれかに記載の音響処理装置。
　（７）上記表示制御部は、
　上記照合処理の対象となっている楽曲を、処理結果に基づいて、照合度が大きい方から順に表示するように制御する
　前記（６）に記載の音響処理装置。
　（８）上記表示されている楽曲から選択された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
　前記（７）に記載の音響処理装置。
　（９）上記楽曲特定部は、
　上記照合処理を、予めスケジューリングされた時刻毎に行う
　前記（１）から（８）のいずれかに記載の音響処理装置。
　（１０）上記楽曲特定部は、
　上記照合処理を、前回の照合処理が終了する毎に行う
　前記（１）から（８）に記載の音響処理装置。
　（１１）所定のソートがされている複数の楽曲から一部の楽曲を選択する楽曲絞り込み部をさらに備え、
　上記楽曲特定部は、
　上記楽曲絞り込み部で選択された上記一部の楽曲を照合処理の対象とする
　前記（１）から（１０）のいずれかに記載の音響処理装置。
　（１２）上記所定のソートは、ユーザの趣向に応じたソートである
　前記（１１）に記載の音響処理装置。
　（１３）連続入力される音響信号を所定の特徴量系列に変換し、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
　音響処理方法。
　（１４）連続入力される音響信号を所定の特徴量系列に変換し、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
　音響処理方法をコンピュータに実行させるためのプログラム。
　（１５）連続入力される音響信号を所定の特徴量系列に変換し、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
　音響処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
　（１６）　外部機器から、連続入力される音響信号が変換されて得られた所定の特徴量系列を受信する受信部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記楽曲特定情報を、上記外部機器に送信する送信部とを備える
　サーバ装置。
　（１７）連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列を外部機器に送信する送信部と、
　上記外部機器から、上記所定の特徴量系列が所定量蓄積され次第、該特徴量系列と楽曲情報との照合処理が逐次行われ、照合度が閾値よりも大きい楽曲が特定されることで得られた楽曲特定情報を受信する受信部と、
　上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
　音響再生装置。
　（１８）音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムであって、
　上記音響再生装置は、
　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列を上記サーバ装置に送信する送信部と、
　上記サーバ装置から楽曲特定情報を受信する受信部と、
　上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備え、
　上記サーバ装置は、
　上記音響再生装置から、上記所定の特徴量系列を受信する受信部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記楽曲特定情報を上記音響再生装置に送信する送信部とを備える
　音響処理システム。
　（１９）連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
　音響処理装置。

　１００・・・音響処理装置
　１０１・・・入力部
　１０２・・・ピッチ検出部
　１０３・・・マッチング処理部
　１０４，１０７・・・記憶部
　１０５・・・表示部
　１０６・・・再生コントロール部
　１０８・・・出力部
　２００・・・音響処理システム
　２１０・・・音響再生装置
　２１１・・・圧縮処理部
　２１２・・・送信部
　２１３・・・受信部
　２２０・・・サーバ装置
　２２１・・・受信部
　２２２・・・送信部
　２３０・・・ネットワーク

Claims

　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が第１の閾値よりも大きい楽曲を特定する楽曲特定部とを備える
　音響処理装置。
　上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
　請求項１に記載の音響処理装置。
　上記楽曲特定部は、
　前回の照合処理で照合度が上記第１の閾値よりも下側に設定された第２の閾値よりも小さい楽曲を照合処理の対象から除く
　請求項１に記載の音響処理装置。
　上記楽曲特定部は、
　上記第１の閾値および／または上記第２の閾値を、時間経過に伴って大きくなるように変化させる
　請求項３に記載の音響処理装置。
　上記楽曲再生部は、
　上記連続入力される音響信号の音高およびテンポに対応させて、上記再生する楽曲の音高およびテンポを変化させる
　請求項２に記載の音響処理装置。
　上記照合処理の情報および上記楽曲特定の情報に基づいて、楽曲特定の進捗状況の表示を制御する表示制御部をさらに備える
　請求項１に記載の音響処理装置。
　上記表示制御部は、
　上記照合処理の対象となっている楽曲を、処理結果に基づいて、照合度が大きい方から順に表示するように制御する
　請求項６に記載の音響処理装置。
　上記表示されている楽曲から選択された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
　請求項７に記載の音響処理装置。
　上記楽曲特定部は、
　上記照合処理を、予めスケジューリングされた時刻毎に行う
　請求項１に記載の音響処理装置。
　上記楽曲特定部は、
　上記照合処理を、前回の照合処理が終了する毎に行う
　請求項１に記載の音響処理装置。
　所定のソートがされている複数の楽曲から一部の楽曲を選択する楽曲絞り込み部をさらに備え、
　上記楽曲特定部は、
　上記楽曲絞り込み部で選択された上記一部の楽曲を照合処理の対象とする
　請求項１に記載の音響処理装置。
　上記所定のソートは、ユーザの趣向に応じたソートである
　請求項１１に記載の音響処理装置。
　連続入力される音響信号を所定の特徴量系列に変換し、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
　音響処理方法。
　連続入力される音響信号を所定の特徴量系列に変換し、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
　音響処理方法をコンピュータに実行させるためのプログラム。
　連続入力される音響信号を所定の特徴量系列に変換し、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
　音響処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
　外部機器から、連続入力される音響信号が変換されて得られた所定の特徴量系列を受信する受信部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記楽曲特定情報を、上記外部機器に送信する送信部とを備える
　サーバ装置。
　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列を外部機器に送信する送信部と、
　上記外部機器から、上記所定の特徴量系列が所定量蓄積され次第、該特徴量系列と楽曲情報との照合処理が逐次行われ、照合度が閾値よりも大きい楽曲が特定されることで得られた楽曲特定情報を受信する受信部と、
　上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
　音響再生装置。
　音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムであって、
　上記音響再生装置は、
　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列を上記サーバ装置に送信する送信部と、
　上記サーバ装置から楽曲特定情報を受信する受信部と、
　上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備え、
　上記サーバ装置は、
　上記音響再生装置から、上記所定の特徴量系列を受信する受信部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記楽曲特定情報を上記音響再生装置に送信する送信部とを備える
　音響処理システム。
　連続入力される音響信号を所定の特徴量系列に変換する変換部と、
　上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
　上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
　音響処理装置。