JPWO2005111997A1

JPWO2005111997A1 - オーディオ再生装置

Info

Publication number: JPWO2005111997A1
Application number: JP2006513500A
Authority: JP
Inventors: 博文岩路; 野中　慶也; 慶也野中; 伸夫垂井; 杉野　竜二; 竜二杉野; 紀孝新居; 武藤　健; 健武藤; 将士青山
Original assignee: Pioneer Corp; TechExperts Inc; Pioneer System Technologies Corp
Current assignee: Pioneer Corp; TechExperts Inc; Pioneer System Technologies Corp
Priority date: 2004-05-14
Filing date: 2005-03-22
Publication date: 2008-03-27
Also published as: WO2005111997A1

Abstract

本発明は、お手本となるボーカル歌唱データを用意しないオーディオ再生装置でも任意のタイミングでカラオケを楽しむことができるようにすることを目的とする。マイクロホンＭＩＣ等で収音したユーザの歌声等の収音データＤauに対して曲調検出を行う曲調検出部４と、音源部３から出力される音楽データＤsonに対して曲調検出を行う曲調検出部５と、曲調検出部４の曲調検出結果（特徴量）ＣＨｘと曲調検出部６の曲調検出結果（特徴量）ＣＨｙとを比較してユーザの歌声と音楽のボーカル音との類似性を判断する比較部６と、ボーカル音量調部７と混合部８とを設ける。比較部６が類似性有りと判断するとボーカル音量調部７が音楽データＤsonのボーカル音を除去又は減衰させた音楽データＤcを生成し、混合部８が音声データＤcと収音データＤauを混合することにより、カラオケ再生用の音楽再生用データＤoutを生成して出力する。

Description

本発明は、カラオケ機能を有するオーディオ再生装置に関する。

従来のカラオケ装置として、特開平１１−１７５０７７号公報（以下「特許文献１」）と、特開２０００−４７６７７号公報（以下「特許文献２」）に開示されたものが知られている。

特許文献１に開示されているカラオケ装置は、伴奏音とお手本ボーカル歌唱データとを用意し、それら伴奏音とお手本ボーカル歌唱データとをミキシング（混合）することによってスピーカ等で再生を行う他、マイク入力されるユーザの歌声も混合して音楽再生を行うように構成されている。

そして、お手本ボーカル歌唱データの音程（interval）とユーザの歌声の音程とを比較し、その音程差が所定範囲内であれば、音程が合っていると判定して、お手本ボーカル歌唱データの音量を小さくすることによってユーザの歌声と伴奏音とを聴きやすくし、音程差が所定範囲外であれば、音程が外れていると判定して、ボーカル歌唱データの音量を大きくすることによってお手本ボーカル歌唱データと伴奏音とを聴きやすくすることにより、お手本ボーカル歌唱データの音程に合わせて歌唱練習を行えるようにしている。

つまり、特許文献１では、お手本ボーカル歌唱データを用意し、そのお手本ボーカル歌唱データとの音程差が大きい場合にはお手本ボーカル歌唱データの音量を大きくして練習させ、音程差が小さい場合には、お手本ボーカル歌唱データの音量を小さくして練習させる。すなわち、必要に応じてお手本ボーカル歌唱データを聴かせながら歌唱練習をサポートしている。

特許文献２に開示されているカラオケ装置も同様に、伴奏音とお手本となるボーカル音データとを用意し、それら伴奏音とボーカル音データとマイク入力されるユーザの歌声とを混合してスピーカ等で再生を行うように構成されている。

そして、このカラオケ装置では、ボーカル音データのレベルと、マイク入力されるユーザの歌声のレベルとを比較し、ユーザの歌声がボーカル音データに比して小さいレベルのときには、ユーザの分からない部分であると判断してお手本となるボーカル音データの音量を大きくして学習させ、ユーザの歌声がボーカル音データに比して大きいレベルのときには、ユーザが歌える部分であると判断してユーザの歌声の音量を大きくすることにより、ユーザの歌声と伴奏音とを聴きやすくして歌唱練習を行えるようにしている。

つまり、特許文献２では、お手本となるボーカル音データを用意し、そのボーカル音データのレベルより小さい場合には、ボーカル音データによる音量を大きくして学習させ、レベルが小さい場合にはユーザの歌声の音量を大きくしてユーザの歌唱を妨げないようにしている。すなわち、必要に応じてお手本となるボーカル音データを聴かせながら歌唱練習をサポートしている。

特開平１１−１７５０７７号公報特開２０００−４７６７７号公報

ところで、上記特許文献１に開示されている従来のカラオケ装置では、お手本ボーカル歌唱データとユーザの歌声との音程差に応じて、ユーザの歌声に対するボーカル歌唱データの音量を自動的に調整することとしているが、こうした音程に基づいて音量調整を行うと、周囲の環境音や会話等にも反応し、ユーザが歌唱していないにもかかわらず、自動的に音量調整を行ってしまう（例えば、お手本ボーカル歌唱データの音量を大きくする）という問題があった。

また、上記特許文献２に開示されている従来のカラオケ装置では、お手本となるボーカル音データとユーザの歌声とのレベルの大小に応じて、ユーザの歌声に対するボーカル音データの音量を自動的に調整することとしているが、こうしたレベルの大小に基づいてボーカル音の音量を自動調整する場合にも、周囲の環境音や会話等にも反応し、ユーザが歌唱していないにもかかわらず、自動的に音量調整を行ってしまう（例えば、お手本となるボーカル音データのレベルを大きくしてしまう）という問題があった。

また、上記特許文献１と特許文献２に開示された従来のカラオケ装置は、お手本となるボーカル歌唱データを用意して、そのボーカル歌唱データを必要に応じて聴かせることによりユーザに対しカラオケを楽しませるものであり、例えば、お手本のボーカル歌唱データが記録されていないＣＤ（Compact Disc）等のストレージ媒体等から音楽データを再生するオーディオ再生装置ではその音楽データのボーカル音が邪魔してカラオケを充分に楽しむことができないという不都合があった。

本発明はこのような従来の問題点に鑑みてなされたものであり、ユーザの歌声を精度良く判定して、お手本となるボーカル歌唱データを用意しないオーディオ再生装置でもカラオケを楽しむことができることを目的とする。

請求項１に記載の発明は、音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置であって、前記収音手段から出力される収音信号の曲調を検出する第１の曲調検出手段と、音源手段から出力される音楽信号のボーカル音の曲調を検出する第２の曲調検出手段と、前記第１，第２の曲調検出手段が検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較手段と、前記比較手段が類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整手段と、を具備することを特徴とする。

請求項３に記載の発明は、音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置におけるオーディオ再生方法であって、前記収音手段から出力される収音信号の曲調を検出する第１の曲調検出工程と、音源手段から出力される音楽信号のボーカル音の曲調を検出する第２の曲調検出工程と、前記第１，第２の曲調検出工程で検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較工程と、前記比較工程で類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整工程と、を具備することを特徴とする。

本発明の実施形態に係るオーディオ再生装置の構成を表したブロック図である。実施例に係るオーディオ再生装置の構成を表したブロック図である。図２に示したオーディオ再生装置の動作を説明するためのフローチャートである。

本発明の実施形態に係るオーディオ再生装置について、図１を参照して説明する。図１は、本実施形態のオーディオ再生装置の構成を表したブロック図である。

同図において、このオーディオ再生装置１は、マイクロホンＭＩＣ及び入力アンプ部２と、音源部３と、曲調検出部４，５、比較部６、ボーカル音量調整部７と、混合部８を有して構成されている。

マイクロホンＭＩＣ及び入力アンプ部２は、ユーザの歌声等を収音する収音手段として設けられており、マイクロホンＭＩＣが収音した収音信号を入力アンプ部２が増幅し、更にデジタルデータ列から成る収音データＤauにＡ／Ｄ変換して出力する。

音源部３は、デジタルデータ列から成る音楽データＤsonを出力する音源手段であり、例えば、ＭＤ（Min Disc）やＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）等の各種ストレージ媒体に記録されている音楽を再生して出力するいわゆる情報再生装置や、ラジオ放送やテレビ放送を受信して出力する無線受信機、インターネット等の通信網を介して配信されてくる音楽等を受信して出力する受信手段等によって形成されている。

曲調検出部４は、入力アンプ部２から出力される収音データＤauに対して、所定周期毎に曲調検出を行うことにより、曲調を有するユーザの歌声の特徴を抽出する。

ここで、曲調検出部４は、「調性（キー：key）」と、「拍（ビート：beat）の変化量（ＢＰＭ）」と、「和音（コード：chord）の変化量（ＣＰＭ）」と、「拍の最大レベル」と、「楽音の平均強度」と、「楽音の最大強度」との６種類のパラメータを曲調を表すパラメータとして特徴抽出し、抽出した６種類のパラメータから成る特徴量ＣＨｘを比較部６に供給する。

曲調検出部５は、音源部３から出力される音楽データＤsonに対して、所定周期毎に且つ曲調検出部４と同期を取りながら曲調検出を行うことにより、曲調を有する歌手のボーカル音の特徴を抽出する。

ここで、曲調検出部５も曲調検出部４と同様に、「調性（キー：key）」と、「拍（ビート：beat）の変化量（ＢＰＭ）」と、「和音（コード：chord）の変化量（ＣＰＭ）」と、「拍の最大レベル」と、「楽音の平均強度」と、「楽音の最大強度」との６種類のパラメータを曲調を表すパラメータとして特徴抽出し、抽出した６種類のパラメータから成る特徴量ＣＨｙを比較部６に供給する。

比較部６は、曲調検出部４，５から所定周期に同期して供給される特徴量ＣＨｘ，ＣＨｙを上述の各パラメータ毎に比較して、各パラメータ毎の差分値を演算する。そして、各パラメータの差分値が夫々予め決められた基準値の範囲内であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していると判断して制御信号ＣＮＴを出力し、各パラメータの差分値が夫々予め決められた基準値の範囲外であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していなと判断して、制御信号ＣＮＴを出力しない。

すなわち、比較部６は、曲調検出部４と５からユーザの歌声に関する特徴量ＣＨｘと歌手のボーカル音に関する特徴量ＣＨｙが供給された場合に、特徴量ＣＨｘと特徴量ＣＨｙが類似していれば、制御信号ＣＮＴを出力し、それ以外の場合には制御信号ＣＮＴを出力しない。

したがって、比較部６は、ユーザの歌声に関する特徴量ＣＨｘと歌手のボーカル音に関する特徴量ＣＨｙが供給された場合であっても特徴量ＣＨｘと特徴量ＣＨｙが類似していなければ制御信号ＣＮＴを出力しない。

また、ユーザが歌唱していないときの収音データＤauに基づいて、曲調検出部４が曲調検出を行った場合、曲調の性質を有さない特徴量ＣＨｘを検出することとなる。このため、ユーザが歌唱していないときの特徴量ＣＨｘと歌手のボーカル音に関する特徴量ＣＨｙが比較部６に供給された場合にも、比較部６は、制御信号ＣＮＴを出力しない。

ボーカル音量調整部７は、制御信号ＣＮＴが供給される期間において、音楽データＤsonに含まれている歌手のボーカル音のデータを除去又はそのデータの値を減衰させて出力する。

すなわち、上述したように、曲調検出部４と５からユーザの歌声に関する特徴量ＣＨｘと歌手のボーカル音に関する特徴量ＣＨｙが出力され、比較部６が特徴量ＣＨｘと特徴量ＣＨｙが類似していると判断して、制御信号ＣＮＴを出力した場合に、ボーカル音量調整部７は、その制御信号ＣＮＴの出力期間だけ、歌手のボーカル音のデータを除去又は減衰させることにより、伴奏音の音楽データＤｃを生成して出力し、制御信号ＣＮＴが出力されない期間では、音楽データＤsonをそのまま音楽データＤｃとして通過させて出力する。

混合部８は、入力アンプ部２からの収音データＤauと、ボーカル音量調整部７からの音楽データＤｃとを混合することにより、スピーカ等に供給して音楽再生を行わせるための音楽再生用データＤoutを生成して出力する。なお、混合部８は、ボーカル音量調整部７により歌手のボーカル音のデータが除去又は減衰されていない場合、すなわち、制御信号ＣＮＴが出力されない期間では、入力アンプ部２からの収音データＤauを混合することなく、音楽データＤｃ（すなわち、収音データＤau）をそのまま音楽再生用データＤoutとして出力する。

このように、本実施形態のオーディオ再生装置１によれば、マイクロホンＭＩＣで収音した音の曲調を表す特徴量ＣＨｘの各パラメータ（以下単に「特徴量ＣＨｘ」として説明する）と、音源部３から出力される音楽データＤsonによるボーカル音の曲調を表す特徴量ＣＨｙの各パラメータ（以下単に「特徴量ＣＨｙ」として説明する）との類似性を比較し、特徴量ＣＨｘ，ＣＨｙが類似している場合に、ボーカル音を除去又は減衰させて、収音した音を再生し、また、特徴量ＣＨｘ，ＣＨｙが類似していない場合には、収音した音を再生せず、歌手のボーカル音を再生するので、会話や周囲の環境音の影響を受けることなく、ユーザが発声した歌声を精度良く検出することが可能となっている。

つまり、マイクロホンＭＩＣで収音した音が環境音や会話等の曲調を有さない音である場合には、特徴量ＣＨｘと特徴量ＣＨｙとが類似しなくなるため、比較部６は、収音した音をユーザの歌声ではないと判断し、制御信号ＣＮＴを出力しなくなる。このため、結果的に、ユーザが発声した歌声を精度良く検出することが可能となっている。

更に、特徴量ＣＨｘと特徴量ＣＨｙとが類似している場合に限り、ボーカル音を除去又は減衰させて、収音した音を再生するので、歌手のボーカル音が邪魔することなくカラオケを楽しむことができる。つまり、お手本となるボーカル歌唱データを用意したカラオケ装置でなく通常のオーディオ装置でもカラオケを楽しむことが可能となる。

次に、オーディオ再生装置のより詳細な実施例について、図２及び図３を参照して説明する。

図２は、本実施例に係るオーディオ再生装置の構成を表したブロック図であり、図１と同一又は相当する部分を同一符号で示している。図３は、本実施例のオーディオ再生装置の動作を説明するためのフローチャートである。

図２において、このオーディオ再生装置１は、マイクロホントＭＩＣ及び入力アンプ部２と、音源部３と、入力アンプ部２側に設けられたバンドパスフィルタ９と、音源部３側に設けられたバンドパスフィルタ１０と、曲調検出部４，５、比較部６、ボーカル音量調整部７と、混合部８とを有して構成されており、曲調検出部４，５は、コンピュータプログラムに従って動作するデジタルシグナルプロセッサ（ＤＳＰ）によって形成されている。

バンドパスフィルタ９は、入力アンプ部２から出力されるデジタルデータ列から成る収音データＤauをデジタル演算処理することによって、人間の発話音声の周波数帯域成分に相当する音声データＤvceを抽出し、曲調検出部４に供給する。

バンドパスフィルタ１０は、音源部３から出力される音楽データＤsonをデジタル演算処理することにより、人間の発話音声の周波数帯域成分に相当するボーカル音データＤvocを抽出し、曲調検出部５に供給する。

曲調検出部４は、キー検出部４ａ、ビート変化量検出部４ｂ、コード変化量検出部４ｃ、ビート最大値検出部４ｄ、平均強度検出部４ｅ、最大強度検出部４ｆを有して構成されている。

ここで、キー検出部４ａと、ビート変化量検出部４ｂ、コード変化量検出部４ｃ、ビート最大値検出部４ｄ、平均強度検出部４ｅ、最大強度検出部４ｆは、所定周期の範囲毎に音声データＤvceに対して夫々曲調検出を行うことにより、「調性（キー：key）」を表す特徴データＤx1と、「拍（ビート：beat）の変化量（ＢＰＭ）」を表す特徴データＤx2と、「和音（コード：chord）の変化量（ＣＰＭ）」を表す特徴データＤx3と、「拍の最大レベル」を表す特徴データＤx4と、「楽音の平均強度」を表す特徴データＤx5と、「楽音の最大強度」を表す特徴データＤx6とを生成し、これら６種類の特徴データＤx1〜Ｄx6を特徴量ＣＨｘとして、比較部６に供給する。

曲調検出部５は、曲調検出部４と同様に、キー検出部５ａ、ビート変化量検出部５ｂ、コード変化量検出部５ｃ、ビート最大値検出部５ｄ、平均強度検出部５ｅ、最大強度検出部５ｆを有して構成されている。

そして、キー検出部５ａと、ビート変化量検出部５ｂ、コード変化量検出部５ｃ、ビート最大値検出部５ｄ、平均強度検出部５ｅ、最大強度検出部５ｆは、曲調検出部４側に設けられている各検出部４ａ〜４ｆと同期して動作し、所定周期の範囲毎にボーカル音データＤvocに対して夫々曲調検出を行うことにより、「調性（キー：key）」を表す特徴データＤy1と、「拍（ビート：beat）の変化量（ＢＰＭ）」を表す特徴データＤy2と、「和音（コード：chord）の変化量（ＣＰＭ）」を表す特徴データＤy3と、「拍の最大レベル」を表す特徴データＤy4と、「楽音の平均強度」を表す特徴データＤy5と、「楽音の最大強度」を表す特徴データＤy6とを生成し、これら６種類の特徴データＤy1〜Ｄy6を特徴量ＣＨｙとして、比較部６に供給する。

比較部６は、曲調検出部４，５から所定周期に同期して供給される特徴量ＣＨｘ，ＣＨｙを上述の各パラメータ毎に比較して、各パラメータ毎の差分値を演算する。

すなわち、比較部６は、特徴データＤx1とＤy1の差分と、特徴データＤx2とＤy2の差分と、特徴データＤx3とＤy3の差分と、特徴データＤx4とＤy4の差分と、特徴データＤx5とＤy5の差分と、特徴データＤx6とＤy6の差分を演算する。

そして、各パラメータの差分値が夫々予め決められた基準値の範囲内であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していると判断して制御信号ＣＮＴを出力し、各パラメータの差分値が夫々予め決められた基準値の範囲外であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していないと判断して、制御信号ＣＮＴを出力しない。

つまり、比較部６は、ユーザの発声した歌声に関する特徴量ＣＨｘと歌手のボーカル音に関する特徴量ＣＨｙとの類似性を比較し、特徴量ＣＨｘと特徴量ＣＨｙが類似していれば、制御信号ＣＮＴを出力し、それ以外の場合には制御信号ＣＮＴを出力しないようになっている。

次に、ボーカル音量調整部７は、バンドパスフィルタ７ａと、音声分析合成部７ｂと、ローパスフィルタ７ｃ及び減算器７ｄを有して構成されている。

ここで、バンドパスフィルタ７ａは、上述のバンドパスフィルタ１０と同様に、音源部３から出力される音楽データＤsonをデジタル演算処理することにより、人間の発話音声の周波数帯域成分に相当するボーカル音データＤvocを抽出し、音声分析合成部７ｂへ供給する。

音声分析合成部７ｂは、人間の声道の伝達関数の逆特性に近似した音声分析用適応デジタルフィルタと、人間の声道の伝達関数に近似した音声合成用デジタルフィルタとを有している。

そして、制御信号ＣＮＴが供給されると、音声分析用適応デジタルフィルタがボーカル音データＤvocに基づいて音声認識処理を行い、更に音声認識結果に基づいて音声合成用デジタルフィルタの各タップ係数を適応的に調整して、音声合成用デジタルフィルタから、擬似的なボーカル音に相当するインパルス応答列データｈvocを出力させる。そして、ローパスフィルタ７ｃが、インパルス応答列データｈvocの高域ノイズ成分を除去して減算器７ｄへ供給する。

減算器７ｄは、制御信号ＣＮＴが出力されている期間において、ローパスフィルタ７ｃを介して供給される擬似的なボーカル音に相当するインパルス応答列データｈvocと、音楽データＤsonとを減算処理することにより、音楽データＤsonに含まれているボーカル音に関するデータを除去又は減衰させ、減算処理後の音楽データＤｃを混合部８へ供給する。

混合部８は、入力アンプ部２からの収音データＤauと、減算器７ｄからの音楽データＤｃとを混合することにより、スピーカ等に供給して再生を行わせるための再生用データＤoutを生成して出力する。また、混合部８は、ボーカル音量調整部７により歌手のボーカル音のデータが除去又は減衰されていない場合、すなわち、比較部６から制御信号ＣＮＴが出力されない期間では、入力アンプ部２からの収音データＤauを混合することなく、音楽データＤｃ（すなわち、収音データＤau）をそのまま音楽再生用データＤoutとして出力する。

次に、かかる構成を有する本実施例のオーディオ再生装置１の動作について図３を参照して説明する。

図３において、ユーザが音源部３である情報再生装置にＭＤやＣＤ、ＤＶＤ等の各種ストレージ媒体を装填して、例えばカラオケ機能をオン操作して再生を開始したり、又は、無線受信機をオン操作するとともに例えばカラオケ機能をオン操作してラジオ放送等の受信を開始させたり、インターネット等の通信網を介して配信されてくる音楽等を受信して再生開始の操作を行うとともに例えばカラオケ機能をオン操作すると、本実施例のオーディオ再生装置１が起動してカラオケ動作を開始し、ステップＳＴ１において音源部３が再生を開始する。

次に、ステップＳＴ２，ＳＴ３において、曲調検出部４，５が互いに同期を取りながら並列処理を行い、収音データＤauから特徴量ＣＨｘ、音楽データＤsonから特徴量ＣＨｙを検出する。

ステップＳＴ４では、比較部６が、特徴量ＣＨｘとＣＨｙを比較することによって相互の類似性を判断し、類似性があると判断するとステップＳＴ５の処理を行ってからステップＳＴ６へ移行し、類似性がない（収音データがないことを含む）と判断すると、ステップＳＴ５の処理を行わず直接ステップＳＴ６へ移行する。

ステップＳＴ５では、ボーカル音量調整部７が、音楽データＤsonに含まれているボーカル音データＤvocに基づいて擬似的なボーカル音に相当するインパルス応答列データｈvocを生成すると共に、音楽データＤsonからインパルス応答列データｈvocを減算することによって、ボーカル音に関するデータを除去又は減衰させ、伴奏音の音楽データＤｃを生成する。更に、混合部８が伴奏音の音楽データＤｃと収音データＤauとを混合することによって音楽再生用データＤoutを生成して出力する。

したがって、ステップＳＴ４において、比較部６が類似性なしと判断した場合には、ボーカル音量調整部７が音楽データＤsonからインパルス応答列データｈvocを減算する等の処理を行わないため、混合部８からは、実質的に音源部３から出力される音楽データＤsonと入力アンプ部２から出力される収音データＤauとを混合せずに音楽データＤsonを音楽再生用データＤoutとして出力する。

ステップＳＴ６では、音源部３のカラオケ機能がオフ操作されているか否かに応じて、カラオケ動作を継続又は停止する。すなわち、音源部３のカラオケ機能がオフ操作されていないと、ステップＳＴ２，ＳＴ３に戻って処理を繰り返し、音源部３のカラオケ機能がオフ操作されるとカラオケ動作を終了する。

以上説明したように、本実施例のオーディオ再生装置１によれば、マイクロホンＭＩＣで収音した音の曲調を表す特徴量ＣＨｘと、音源部３からの音楽データのボーカル音の特徴量ＣＨｙとを比較して、それらが類似している場合に限り、音楽データのボーカル音を除去又は減衰させて、収音した音を再生するので、会話や周囲の環境音の影響を受けることなく、ユーザが発声した歌声を精度良く検出することができ、また、お手本となるボーカル歌唱データを用意したカラオケ装置でなく通常のオーディオ装置でもカラオケを楽しむことが可能となる。

特開平１１−１７５０７７号公報

特開２０００−４７６７７号公報

請求項１に記載の発明は、音を集音する集音手段から出力される集音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置であって、前記集音手段から出力される集音信号の曲調を表すパラメータを検出する第１の曲調検出手段と、前記音源手段から出力される音楽信号のボーカル音の曲調を表すパラメータを検出する第２の曲調検出手段と、前記第１の曲調検出手段が検出した前記集音信号の曲調を表すパラメータから成る特徴量と、前記第２の曲調検出手段が検出した前記音楽信号のボーカル音の曲調を表すパラメータから成る特徴量と、を比較し、前記集音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較手段と、前記比較手段が類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整手段と、を具備し、前記第１，第２の曲調検出手段は、前記曲調の特徴として、調性と、拍の変化量と、和音の変化量と、拍の最大レベルと、楽音の平均強度と、楽音の最大強度を検出すること、を特徴とする。

請求項２に記載の発明は、音を集音する集音手段から出力される集音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置におけるオーディオ再生方法であって、前記集音手段から出力される集音信号の曲調を表すパラメータを検出する第１の曲調検出工程と、前記音源手段から出力される音楽信号のボーカル音の曲調を表すパラメータを検出する第２の曲調検出工程と、前記第１の曲調検出工程で検出された前記集音信号の曲調を表すパラメータから成る特徴量と、前記第２の曲調検出工程で検出された前記音楽信号のボーカル音の曲調を表すパラメータから成る特徴量と、を比較し、前記集音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較工程と、前記比較工程で類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整工程と、を具備し、前記第１，第２の曲調検出工程では、前記曲調の特徴量として、調性と、拍の変化量と、和音の変化量と、拍の最大レベルと、楽音の平均強度と、楽音の最大強度を検出すること、を特徴とする。

マイクロホンＭＩＣ及び入力アンプ部２は、ユーザの歌声等を集音する集音手段として設けられており、マイクロホンＭＩＣが集音した集音信号を入力アンプ部２が増幅し、更にデジタルデータ列から成る集音データＤauにＡ／Ｄ変換して出力する。

曲調検出部４は、入力アンプ部２から出力される集音データＤauに対して、所定周期毎に曲調検出を行うことにより、曲調を有するユーザの歌声の特徴を抽出する。

また、ユーザが歌唱していないときの集音データＤauに基づいて、曲調検出部４が曲調検出を行った場合、曲調の性質を有さない特徴量ＣＨｘを検出することとなる。このため、ユーザが歌唱していないときの特徴量ＣＨｘと歌手のボーカル音に関する特徴量ＣＨｙが比較部６に供給された場合にも、比較部６は、制御信号ＣＮＴを出力しない。

混合部８は、入力アンプ部２からの集音データＤauと、ボーカル音量調整部７からの音楽データＤｃとを混合することにより、スピーカ等に供給して音楽再生を行わせるための音楽再生用データＤoutを生成して出力する。なお、混合部８は、ボーカル音量調整部７により歌手のボーカル音のデータが除去又は減衰されていない場合、すなわち、制御信号ＣＮＴが出力されない期間では、入力アンプ部２からの集音データＤauを混合することなく、音楽データＤｃ（すなわち、集音データＤau）をそのまま音楽再生用データＤoutとして出力する。

このように、本実施形態のオーディオ再生装置１によれば、マイクロホンＭＩＣで集音した音の曲調を表す特徴量ＣＨｘの各パラメータ（以下単に「特徴量ＣＨｘ」として説明する）と、音源部３から出力される音楽データＤsonによるボーカル音の曲調を表す特徴量ＣＨｙの各パラメータ（以下単に「特徴量ＣＨｙ」として説明する）との類似性を比較し、特徴量ＣＨｘ，ＣＨｙが類似している場合に、ボーカル音を除去又は減衰させて、集音した音を再生し、また、特徴量ＣＨｘ，ＣＨｙが類似していない場合には、集音した音を再生せず、歌手のボーカル音を再生するので、会話や周囲の環境音の影響を受けることなく、ユーザが発声した歌声を精度良く検出することが可能となっている。

つまり、マイクロホンＭＩＣで集音した音が環境音や会話等の曲調を有さない音である場合には、特徴量ＣＨｘと特徴量ＣＨｙとが類似しなくなるため、比較部６は、集音した音をユーザの歌声ではないと判断し、制御信号ＣＮＴを出力しなくなる。このため、結果的に、ユーザが発声した歌声を精度良く検出することが可能となっている。

更に、特徴量ＣＨｘと特徴量ＣＨｙとが類似している場合に限り、ボーカル音を除去又は減衰させて、集音した音を再生するので、歌手のボーカル音が邪魔することなくカラオケを楽しむことができる。つまり、お手本となるボーカル歌唱データを用意したカラオケ装置でなく通常のオーディオ装置でもカラオケを楽しむことが可能となる。

図２において、このオーディオ再生装置１は、マイクロホンＭＩＣ及び入力アンプ部２と、音源部３と、入力アンプ部２側に設けられたバンドパスフィルタ９と、音源部３側に設けられたバンドパスフィルタ１０と、曲調検出部４，５、比較部６、ボーカル音量調整部７と、混合部８とを有して構成されており、曲調検出部４，５は、コンピュータプログラムに従って動作するデジタルシグナルプロセッサ（ＤＳＰ）によって形成されている。

バンドパスフィルタ９は、入力アンプ部２から出力されるデジタルデータ列から成る集音データＤauをデジタル演算処理することによって、人間の発話音声の周波数帯域成分に相当する音声データＤvceを抽出し、曲調検出部４に供給する。

混合部８は、入力アンプ部２からの集音データＤauと、減算器７ｄからの音楽データＤｃとを混合することにより、スピーカ等に供給して再生を行わせるための再生用データＤoutを生成して出力する。また、混合部８は、ボーカル音量調整部７により歌手のボーカル音のデータが除去又は減衰されていない場合、すなわち、比較部６から制御信号ＣＮＴが出力されない期間では、入力アンプ部２からの集音データＤauを混合することなく、音楽データＤｃ（すなわち、集音データＤau）をそのまま音楽再生用データＤoutとして出力する。

次に、ステップＳＴ２，ＳＴ３において、曲調検出部４，５が互いに同期を取りながら並列処理を行い、集音データＤauから特徴量ＣＨｘ、音楽データＤsonから特徴量ＣＨｙを検出する。

ステップＳＴ４では、比較部６が、特徴量ＣＨｘとＣＨｙを比較することによって相互の類似性を判断し、類似性があると判断するとステップＳＴ５の処理を行ってからステップＳＴ６へ移行し、類似性がない（集音データがないことを含む）と判断すると、ステップＳＴ５の処理を行わず直接ステップＳＴ６へ移行する。

ステップＳＴ５では、ボーカル音量調整部７が、音楽データＤsonに含まれているボーカル音データＤvocに基づいて擬似的なボーカル音に相当するインパルス応答列データｈvocを生成すると共に、音楽データＤsonからインパルス応答列データｈvocを減算することによって、ボーカル音に関するデータを除去又は減衰させ、伴奏音の音楽データＤｃを生成する。更に、混合部８が伴奏音の音楽データＤｃと集音データＤauとを混合することによって音楽再生用データＤoutを生成して出力する。

したがって、ステップＳＴ４において、比較部６が類似性なしと判断した場合には、ボーカル音量調整部７が音楽データＤsonからインパルス応答列データｈvocを減算する等の処理を行わないため、混合部８からは、実質的に音源部３から出力される音楽データＤsonと入力アンプ部２から出力される集音データＤauとを混合せずに音楽データＤsonを音楽再生用データＤoutとして出力する。

以上説明したように、本実施例のオーディオ再生装置１によれば、マイクロホンＭＩＣで集音した音の曲調を表す特徴量ＣＨｘと、音源部３からの音楽データのボーカル音の特徴量ＣＨｙとを比較して、それらが類似している場合に限り、音楽データのボーカル音を除去又は減衰させて、集音した音を再生するので、会話や周囲の環境音の影響を受けることなく、ユーザが発声した歌声を精度良く検出することができ、また、お手本となるボーカル歌唱データを用意したカラオケ装置でなく通常のオーディオ装置でもカラオケを楽しむことが可能となる。

符号の説明

１…オーディオ再生装置
３…音源部
４，５…曲調検出部
６…比較部
７…ボーカル音量調整部
８…混合部

Claims

音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置であって、
前記収音手段から出力される収音信号の曲調を検出する第１の曲調検出手段と、
音源手段から出力される音楽信号のボーカル音の曲調を検出する第２の曲調検出手段と、
前記第１，第２の曲調検出手段が検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較手段と、
前記比較手段が類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整手段と、を具備することを特徴とするオーディオ再生装置。
前記第１，第２の曲調検出手段は、前記曲調の特徴として、調性と、拍の変化量と、和音の変化量と、拍の最大レベルと、楽音の平均強度と、楽音の最大強度を検出することを特徴とする請求項１に記載のオーディオ再生装置。
音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置におけるオーディオ再生方法であって、
前記収音手段から出力される収音信号の曲調を検出する第１の曲調検出工程と、
音源手段から出力される音楽信号のボーカル音の曲調を検出する第２の曲調検出工程と、
前記第１，第２の曲調検出工程で検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較工程と、
前記比較工程で類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整工程と、を具備することを特徴とするオーディオ再生方法。