WO2005111997A1

WO2005111997A1 - オーディオ再生装置

Info

Publication number: WO2005111997A1
Application number: PCT/JP2005/005149
Authority: WO
Inventors: Hirobumi Iwaji; Yoshiya Nonaka; Nobuo Tarui; Ryoji Sugino; Noritaka Nii; Takeshi Mutoh; Masashi Aoyama
Original assignee: Pioneer Corporation; Tech Experts Incorporation; Pioneer System Technologies Corporation
Priority date: 2004-05-14
Filing date: 2005-03-22
Publication date: 2005-11-24
Also published as: JPWO2005111997A1

Abstract

　本発明は、お手本となるボーカル歌唱データを用意しないオーディオ再生装置でも任意のタイミングでカラオケを楽しむことができるようにすることを目的とする。　マイクロホンＭＩＣ等で収音したユーザの歌声等の収音データＤauに対して曲調検出を行う曲調検出部４と、音源部３から出力される音楽データＤsonに対して曲調検出を行う曲調検出部５と、曲調検出部４の曲調検出結果（特徴量）ＣＨｘと曲調検出部６の曲調検出結果（特徴量）ＣＨｙとを比較してユーザの歌声と音楽のボーカル音との類似性を判断する比較部６と、ボーカル音量調部７と混合部８とを設ける。比較部６が類似性有りと判断するとボーカル音量調部７が音楽データＤsonのボーカル音を除去又は減衰させた音楽データＤcを生成し、混合部８が音声データＤcと収音データＤauを混合することにより、カラオケ再生用の音楽再生用データＤoutを生成して出力する。

Description

明細書

オーディオ再生装置

技術分野

[0001] 本発明は、カラオケ機能を有するオーディオ再生装置に関する。

背景技術

[0002] 従来のカラオケ装置として、特開平 11 - 175077号公報 (以下「特許文献 1」）と、特開 2000— 47677号公報（以下「特許文献 2」 )に開示されたものが知られてレヽる。

[0003] 特許文献 1に開示されてレ、るカラオケ装置は、伴奏音とお手本ボーカル歌唱データとを用意し、それら伴奏音とお手本ボーカル歌唱データとをミキシング (混合)することによってスピーカ等で再生を行う他、マイク入力されるユーザの歌声も混合して音楽再生を行うように構成されてレ、る。

[0004] そして、お手本ボーカル歌唱データの音程 (interval)とユーザの歌声の音程とを比較し、その音程差が所定範囲内であれば、音程が合っていると判定して、お手本ボ一カル歌唱データの音量を小さくすることによってユーザの歌声と伴奏音とを聴きやすくし、音程差が所定範囲外であれば、音程が外れていると判定して、ボーカル歌唱データの音量を大きくすることによってお手本ボーカル歌唱データと伴奏音とを聴きやすくすることにより、お手本ボーカル歌唱データの音程に合わせて歌唱練習を行えるようにしている。

[0005] つまり、特許文献 1では、お手本ボーカル歌唱データを用意し、そのお手本ボー力ル歌唱データとの音程差が大きい場合にはお手本ボーカル歌唱データの音量を大きくして練習させ、音程差が小さい場合には、お手本ボーカル歌唱データの音量を小さくして練習させる。すなわち、必要に応じてお手本ボーカル歌唱データを聴かせながら歌唱練習をサポートしてレ、る。

[0006] 特許文献 2に開示されているカラオケ装置も同様に、伴奏音とお手本となるボー力ル音データとを用意し、それら伴奏音とボーカル音データとマイク入力されるユーザの歌声とを混合してスピーカ等で再生を行うように構成されている。

[0007] そして、このカラオケ装置では、ボーカル音データのレベルと、マイク入力されるュ一ザの歌声のレベルとを比較し、ユーザの歌声がボーカル音データに比して小さレヽレベルのときには、ユーザの分からない部分であると判断してお手本となるボーカル音データの音量を大きくして学習させ、ユーザの歌声がボーカル音データに比して大きいレベルのときには、ユーザが歌える部分であると判断してユーザの歌声の音量を大きくすることにより、ユーザの歌声と伴奏音とを聴きやすくして歌唱練習を行えるようにしている。

[0008] つまり、特許文献 2では、お手本となるボーカル音データを用意し、そのボーカル音データのレベルより小さい場合には、ボーカル音データによる音量を大きくして学習させ、レベルが小さい場合にはユーザの歌声の音量を大きくしてユーザの歌唱を妨げないようにしている。すなわち、必要に応じてお手本となるボーカル音データを聴かせながら歌唱練習をサポートしている。

[0009] 特許文献 1 :特開平 11一 175077号公報

特許文献 2：特開 2000 - 47677号公報

発明の開示

発明が解決しょうとする課題

[0010] ところで、上記特許文献 1に開示されてレ、る従来のカラオケ装置では、お手本ボーカル歌唱データとユーザの歌声との音程差に応じて、ユーザの歌声に対するボー力ル歌唱データの音量を自動的に調整することとしているが、こうした音程に基づいて音量調整を行うと、周囲の環境音や会話等にも反応し、ユーザが歌唱していないにもかかわらず、自動的に音量調整を行ってしまう（例えば、お手本ボーカル歌唱データの音量を大きくする）という問題があった。

[0011] また、上記特許文献 2に開示されている従来のカラオケ装置では、お手本となるボ一カル音データとユーザの歌声とのレベルの大小に応じて、ユーザの歌声に対するボーカル音データの音量を自動的に調整することとしている力こうしたレベルの大小に基づいてボーカル音の音量を自動調整する場合にも、周囲の環境音や会話等にも反応し、ユーザが歌唱していないにもかかわらず、自動的に音量調整を行ってしまう（例えば、お手本となるボーカル音データのレベルを大きくしてしまう）という問題があった。 [0012] また、上記特許文献 1と特許文献 2に開示された従来のカラオケ装置は、お手本となるボーカル歌唱データを用意して、そのボーカル歌唱データを必要に応じて聴かせることによりユーザに対しカラオケを楽しませるものであり、例えば、お手本のボーカル歌唱データが記録されてレ、なレ、CD (Compact Disc)等のストレージ媒体等から音楽データを再生するオーディオ再生装置ではその音楽データのボーカル音が邪魔してカラオケを充分に楽しむことができないという不都合があった。

[0013] 本発明はこのような従来の問題点に鑑みてなされたものであり、ユーザの歌声を精度良く判定して、お手本となるボーカル歌唱データを用意しないオーディオ再生装置でもカラ才ケを楽しむことができることを目的とする。

課題を解決するための手段

[0014] 請求項 1に記載の発明は、音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置であって、前記収音手段から出力される収音信号の曲調を検出する第 1の曲調検出手段と、音源手段力出力される音楽信号のボーカル音の曲調を検出する第 2の曲調検出手段と、前記第 1 ,第 2の曲調検出手段が検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較手段と、前記比較手段が類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整手段と、を具備することを特徴とする。

[0015] 請求項 3に記載の発明は、音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置におけるオーディオ再生方法であって、前記収音手段から出力される収音信号の曲調を検出する第 1の曲調検出工程と、音源手段から出力される音楽信号のボ一カル音の曲調を検出する第 2の曲調検出工程と、前記第 1，第 2の曲調検出工程で検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較工程と、前記比較工程で類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボー力ル音量調整工程と、を具備することを特徴とする。図面の簡単な説明

[0016] [図 1]本発明の実施形態に係るオーディオ再生装置の構成を表したブロック図である

[図 2]実施例に係るオーディオ再生装置の構成を表したブロック図である。

[図 3]図 2に示したオーディオ再生装置の動作を説明するためのフローチャートである発明を実施するための最良の形態

[0017] 本発明の実施形態に係るオーディオ再生装置について、図 1を参照して説明する

。図 1は、本実施形態のオーディオ再生装置の構成を表したブロック図である。

[0018] 同図において、このオーディオ再生装置 1は、マイクロホン MIC及び入力アンプ部

2と、音源部 3と、曲調検出部 4， 5、比較部 6、ボーカル音量調整部 7と、混合部 8を有して構成されている。

[0019] マイクロホン MIC及び入力アンプ部 2は、ユーザの歌声等を収音する収音手段として設けられており、マイクロホン MICが収音した収音信号を入力アンプ部 2が増幅し、更にデジタルデータ列から成る収音データ Dauに AZD変換して出力する。

[0020] 音源部 3は、デジタルデータ列から成る音楽データ Dsonを出力する音源手段であり、例えば、 MD (Min Disc)や CD (Compact Disc)や DVD (Digital Versatile Disc)等の各種ストレージ媒体に記録されている音楽を再生して出力するいわゆる情報再生装置や、ラジオ放送やテレビ放送を受信して出力する無線受信機、インターネット等の通信網を介して配信されてくる音楽等を受信して出力する受信手段等によって形成されている。

[0021] 曲調検出部 4は、入力アンプ部 2から出力される収音データ Dauに対して、所定周期毎に曲調検出を行うことにより、曲調を有するユーザの歌声の特徴を抽出する。

[0022] ここで、曲調検出部 4は、「調性 (キー： key)」と、「拍（ビート: beat)の変化量 (BPM) 」と、「和音（コード： chord)の変化量（CPM)」と、「拍の最大レベル」と、「楽音の平均強度」と、「楽音の最大強度」との 6種類のパラメータを曲調を表すパラメータとして特徴抽出し、抽出した 6種類のパラメータから成る特徴量 CHxを比較部 6に供給する。

[0023] 曲調検出部 5は、音源部 3から出力される音楽データ Dsonに対して、所定周期毎に且つ曲調検出部 4と同期を取りながら曲調検出を行うことにより、曲調を有する歌手のボーカル音の特徴を抽出する。

[0024] ここで、曲調検出部 5も曲調検出部 4と同様に、「調性 (キー: key)」と、「拍（ビート： beat)の変化量（BPM)」と、「和音（コード： chord)の変化量（CPM)」と、「拍の最大レベル」と、「楽音の平均強度」と、「楽音の最大強度」との 6種類のパラメータを曲調を表すパラメータとして特徴抽出し、抽出した 6種類のパラメータから成る特徴量 CHy を比較部 6に供給する。

[0025] 比較部 6は、曲調検出部 4, 5から所定周期に同期して供給される特徴量 CHx, C Hyを上述の各パラメータ毎に比較して、各パラメータ毎の差分値を演算する。そして、各パラメータの差分値が夫々予め決められた基準値の範囲内であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していると判断して制御信号 C NTを出力し、各パラメータの差分値が夫々予め決められた基準値の範囲外であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していなと判断して、制御信号 CNTを出力しない。

[0026] すなわち、比較部 6は、曲調検出部 4と 5からユーザの歌声に関する特徴量 CHxと歌手のボーカル音に関する特徴量 _CHyが供給された場合に、特徴量と特徴量

CHyが類似していれば、制御信号 CNTを出力し、それ以外の場合には制御信号 C NTを出力しない。

[0027] したがって、比較部 6は、ユーザの歌声に関する特徴量 CHxと歌手のボーカル音に関する特徴量 CHyが供給された場合であっても特徴量 CHxと特徴量 CHyが類似してレ、なければ制御信号 CNTを出力しなレ、。

[0028] また、ユーザが歌唱していないときの収音データ Dauに基づいて、曲調検出部 4が曲調検出を行った場合、曲調の性質を有さない特徴量 CHxを検出することとなる。このため、ユーザが歌唱していないときの特徴量 CHxと歌手のボーカル音に関する特徴量 CHyが比較部 6に供給された場合にも、比較部 6は、制御信号 CNTを出力しなレ、。

[0029] ボーカル音量調整部 7は、制御信号 CNTが供給される期間にぉレ、て、音楽データ Dsonに含まれている歌手のボーカル音のデータを除去又はそのデータの値を減衰させて出力する。

[0030] すなわち、上述したように、曲調検出部 4と 5からユーザの歌声に関する特徴量 CH Xと歌手のボーカル音に関する特徴量 CHyが出力され、比較部 6が特徴量 CHxと特徴量 CHyが類似していると判断して、制御信号 CNTを出力した場合に、ボーカル音量調整部 7は、その制御信号 CNTの出力期間だけ、歌手のボーカル音のデータを除去又は減衰させることにより、伴奏音の音楽データ Dcを生成して出力し、制御信号 CNTが出力されない期間では、音楽データ Dsonをそのまま音楽データ Dcとして通過させて出力する。

[0031] 混合部 8は、入力アンプ部 2からの収音データ Dauと、ボーカル音量調整部 7からの音楽データ Dcとを混合することにより、スピーカ等に供給して音楽再生を行わせるための音楽再生用データ Doutを生成して出力する。なお、混合部 8は、ボーカル音量調整部 7により歌手のボーカル音のデータが除去又は減衰されていない場合、すなわち、制御信号 CNTが出力されない期間では、入力アンプ部 2からの収音データ D auを混合することなぐ音楽データ Dc (すなわち、収音データ Dau)をそのまま音楽再生用データ Doutとして出力する。

[0032] このように、本実施形態のオーディオ再生装置 1によれば、マイクロホン MICで収音した音の曲調を表す特徴量 CHxの各パラメータ（以下単に「特徴量 CHx」として説明する）と、音源部 3から出力される音楽データ Dsonによるボーカル音の曲調を表す特徴量 CHyの各パラメータ（以下単に「特徴量 CHy」として説明する）との類似性を比較し、特徴量 CHx, CHyが類似している場合に、ボーカル音を除去又は減衰させて、収音した音を再生し、また、特徴量 CHx, CHyが類似していない場合には、収音した音を再生せず、歌手のボーカル音を再生するので、会話や周囲の環境音の影響を受けることなぐユーザが発声した歌声を精度良く検出することが可能となっている

[0033] つまり、マイクロホン MICで収音した音が環境音や会話等の曲調を有さない音である場合には、特徴量 CHxと特徴量 CHyとが類似しなくなるため、比較部 6は、収音した音をユーザの歌声ではないと判断し、制御信号 CNTを出力しなくなる。このため、結果的に、ユーザが発声した歌声を精度良く検出することが可能となっている。 [0034] 更に、特徴量 CHxと特徴量 CHyとが類似している場合に限り、ボーカル音を除去又は減衰させて、収音した音を再生するので、歌手のボーカル音が邪魔することなくカラオケを楽しむことができる。つまり、お手本となるボーカル歌唱データを用意したカラオケ装置でなく通常のオーディオ装置でもカラオケを楽しむことが可能となる。実施例

[0035] 次に、オーディオ再生装置のより詳細な実施例について、図 2及び図 3を参照して説明する。

[0036] 図 2は、本実施例に係るオーディオ再生装置の構成を表したブロック図であり、図 1 と同一又は相当する部分を同一符号で示している。図 3は、本実施例のオーディオ再生装置の動作を説明するためのフローチャートである。

[0037] 図 2において、このオーディオ再生装置 1は、マイクロホント MIC及び入力アンプ部 2と、音源部 3と、入力アンプ部 2側に設けられたバンドパスフィルタ 9と、音源部 3側に設けられたバンドパスフィルタ 10と、曲調検出部 4, 5、比較部 6、ボーカル音量調整部 7と、混合部 8とを有して構成されており、曲調検出部 4, 5は、コンピュータプログラムに従って動作するデジタルシグナルプロセッサ（DSP)によって形成されている

[0038] バンドパスフィルタ 9は、入力アンプ部 2から出力されるデジタルデータ列力、ら成る収音データ Dauをデジタル演算処理することによって、人間の発話音声の周波数帯域成分に相当する音声データ Dvceを抽出し、曲調検出部 4に供給する。

[0039] バンドパスフィルタ 10は、音源部 3から出力される音楽データ Dsonをデジタル演算処理することにより、人間の発話音声の周波数帯域成分に相当するボーカル音データ Dvocを抽出し、曲調検出部 5に供給する。

[0040] 曲調検出部 4は、キー検出部 4a、ビート変化量検出部 4b、コード変化量検出部 4c 、ビート最大値検出部 4d、平均強度検出部 4e、最大強度検出部 4fを有して構成されている。

[0041] ここで、キー検出部 4aと、ビート変化量検出部 4b、コード変化量検出部 4c、ビート最大値検出部 4d、平均強度検出部 4e、最大強度検出部 4fは、所定周期の範囲毎に音声データ Dvceに対して夫々曲調検出を行うことにより、「調性 (キー: key)」を表す特徴データ Dxlと、「拍（ビート： beat)の変化量 (BPM)」を表す特徴データ Dx2と、「和音（コード： chord)の変化量（CPM)」を表す特徴データ Dx3と、「拍の最大レベル」を表す特徴データ Dx4と、「楽音の平均強度」を表す特徴データ Dx5と、「楽音の最大強度」を表す特徴データ Dx6とを生成し、これら 6種類の特徴データ Dxl Dx6を特徴量 CHxとして、比較部 6に供給する。

[0042] 曲調検出部 5は、曲調検出部 4と同様に、キー検出部 5a、ビート変化量検出部 5b、コード変化量検出部 5c、ビート最大値検出部 5d、平均強度検出部 5e、最大強度検出部 5fを有して構成されてレ、る。

[0043] そして、キー検出部 5aと、ビート変化量検出部 5b、コード変化量検出部 5c、ビート最大値検出部 5d、平均強度検出部 5e、最大強度検出部 5fは、曲調検出部 4側に設けられている各検出部 4a— 4fと同期して動作し、所定周期の範囲毎にボーカル音データ Dvocに対して夫々曲調検出を行うことにより、「調性 (キー： key)」を表す特徴データ Dylと、「拍（ビート: beat)の変化量 (BPM)」を表す特徴データ Dy2と、「和音（コード： chord)の変化量（CPM)」を表す特徴データ Dy3と、「拍の最大レベル」を表す特徴データ Dy4と、「楽音の平均強度」を表す特徴データ Dy5と、「楽音の最大強度」を表す特徴データ Dy6とを生成し、これら 6種類の特徴データ Dyl— Dy6を特徴量 CHyとして、比較部 6に供給する。

[0044] 比較部 6は、曲調検出部 4, 5から所定周期に同期して供給される特徴量 CHx, C Hyを上述の各パラメータ毎に比較して、各パラメータ毎の差分値を演算する。

[0045] すなわち、比較部 6は、特徴データ Dxlと Dylの差分と、特徴データ Dx2と Dy2の差分と、特徴データ Dx3と Dy3の差分と、特徴データ Dx4と Dy4の差分と、特徴データ D x5と Dy5の差分と、特徴データ Dx6と Dy6の差分を演算する。

[0046] そして、各パラメータの差分値が夫々予め決められた基準値の範囲内であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していると判断して制御信号 CNTを出力し、各パラメータの差分値が夫々予め決められた基準値の範囲外であれば、マイク入力されたユーザの歌声と歌手のボーカル音とが類似していないと判断して、制御信号 CNTを出力しない。

[0047] つまり、比較部 6は、ユーザの発声した歌声に関する特徴量 CHxと歌手のボーカル音に関する特徴量 CHyとの類似性を比較し、特徴量 CHxと特徴量 CHyが類似していれば、制御信号 CNTを出力し、それ以外の場合には制御信号 CNTを出力しないようになつている。

[0048] 次に、ボーカル音量調整部 7は、バンドパスフィルタ 7aと、音声分析合成部 7bと、口一パスフィルタ 7c及び減算器 7dを有して構成されている。

[0049] ここで、バンドパスフィルタ 7aは、上述のバンドパスフィルタ 10と同様に、音源部 3から出力される音楽データ Dsonをデジタル演算処理することにより、人間の発話音声の周波数帯域成分に相当するボーカル音データ Dvocを抽出し、音声分析合成部 7 bへ供給する。

[0050] 音声分析合成部 7bは、人間の声道の伝達関数の逆特性に近似した音声分析用適応デジタルフィルタと、人間の声道の伝達関数に近似した音声合成用デジタルフィルタとを有している。

[0051] そして、制御信号 CNTが供給されると、音声分析用適応デジタルフィルタがボー力ル音データ Dvocに基づいて音声認識処理を行い、更に音声認識結果に基づいて音声合成用デジタルフィルタの各タップ係数を適応的に調整して、音声合成用デジタルフィルタから、擬似的なボーカル音に相当するインパルス応答列データ hvocを出力させる。そして、ローパスフィルタ 7cが、インパルス応答列データ hvocの高域ノイズ成分を除去して減算器 7dへ供給する。

[0052] 減算器 7dは、制御信号 CNTが出力されている期間において、ローパスフィルタ 7c を介して供給される擬似的なボーカル音に相当するインパルス応答列データ hvocと、音楽データ Dsonとを減算処理することにより、音楽データ Dsonに含まれているボーカル音に関するデータを除去又は減衰させ、減算処理後の音楽データ Dcを混合部 8へ供給する。

[0053] 混合部 8は、入力アンプ部 2からの収音データ Dauと、減算器 7dからの音楽データ Dcとを混合することにより、スピーカ等に供給して再生を行わせるための再生用データ Doutを生成して出力する。また、混合部 8は、ボーカル音量調整部 7により歌手のボーカル音のデータが除去又は減衰されていない場合、すなわち、比較部 6から制御信号 CNTが出力されない期間では、入力アンプ部 2からの収音データ Dauを混合することなぐ音楽データ Dc (すなわち、収音データ Dau)をそのまま音楽再生用データ Doutとして出力する。

[0054] 次に、力かる構成を有する本実施例のオーディオ再生装置 1の動作について図 3を参照して説明する。

[0055] 図 3において、ユーザが音源部 3である情報再生装置に MDや CD、 DVD等の各種ストレージ媒体を装填して、例えばカラオケ機能をオン操作して再生を開始したり、又は、無線受信機をオン操作するとともに例えば力ラオケ機能をオン操作してラジオ放送等の受信を開始させたり、インターネット等の通信網を介して配信されてくる音楽等を受信して再生開始の操作を行うとともに例えばカラオケ機能をオン操作すると、本実施例のオーディオ再生装置 1が起動してカラオケ動作を開始し、ステップ ST1 におレ、て音源部 3が再生を開始する。

[0056] 次に、ステップ ST2, ST3において、曲調検出部 4, 5が互いに同期を取りながら並列処理を行い、収音データ Dauから特徴量 CHx、音楽データ Dsonから特徴量 CHy を検出する。

[0057] ステップ ST4では、比較部 6が、特徴量 CHxと CHyを比較することによって相互の類似性を判断し、類似性があると判断するとステップ ST5の処理を行ってからステツプ ST6へ移行し、類似性がなレ、（収音データがないことを含む）と判断すると、ステツプ ST5の処理を行わず直接ステップ ST6へ移行する。

[0058] ステップ ST5では、ボーカル音量調整部 7が、音楽データ Dsonに含まれているボ一カル音データ Dvocに基づいて擬似的なボーカル音に相当するインパルス応答列データ hvocを生成すると共に、音楽データ Dsonからインパルス応答列データ hvocを減算することによって、ボーカル音に関するデータを除去又は減衰させ、伴奏音の音楽データ Dcを生成する。更に、混合部 8が伴奏音の音楽データ Dcと収音データ Dau とを混合することによって音楽再生用データ Doutを生成して出力する。

[0059] したがって、ステップ ST4において、比較部 6が類似性なしと判断した場合には、ボ一カル音量調整部 7が音楽データ Dsonからインノ^レス応答列データ hvocを減算する等の処理を行わないため、混合部 8からは、実質的に音源部 3から出力される音楽データ Dsonと入力アンプ部 2から出力される収音データ Dauとを混合せずに音楽データ Dsonを音楽再生用データ Doutとして出力する。

[0060] ステップ ST6では、音源部 3のカラオケ機能がオフ操作されているか否かに応じて、カラオケ動作を継続又は停止する。すなわち、音源部 3のカラオケ機能がオフ操作されていないと、ステップ ST2, ST3に戻って処理を繰り返し、音源部 3のカラオケ機能がオフ操作されるとカラオケ動作を終了する。

[0061] 以上説明したように、本実施例のオーディオ再生装置 1によれば、マイクロホン Ml Cで収音した音の曲調を表す特徴量 CHxと、音源部 3からの音楽データのボーカル音の特徴量 CHyとを比較して、それらが類似している場合に限り、音楽データのボ一カル音を除去又は減衰させて、収音した音を再生するので、会話や周囲の環境音の影響を受けることなぐユーザが発声した歌声を精度良く検出することができ、また、お手本となるボーカル歌唱データを用意したカラオケ装置でなく通常のオーディオ装置でもカラオケを楽しむことが可能となる。

Claims

請求の範囲

[1] 音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置であって、

前記収音手段から出力される収音信号の曲調を検出する第 1の曲調検出手段と、音源手段から出力される音楽信号のボーカル音の曲調を検出する第 2の曲調検出手段と、

前記第 1 ,第 2の曲調検出手段が検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較手段と、

前記比較手段が類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整手段と、を具備することを特徴とするオーディオ再生装置。

[2] 前記第 1 ,第 2の曲調検出手段は、前記曲調の特徴として、調性と、柏の変化量と、和音の変化量と、柏の最大レベルと、楽音の平均強度と、楽音の最大強度を検出することを特徴とする請求項 1に記載のオーディオ再生装置。

[3] 音を収音する収音手段から出力される収音信号と音源手段から出力される音楽信号とを混合して出力する混合手段を備えたオーディオ再生装置におけるオーディオ再生方法であって、

前記収音手段から出力される収音信号の曲調を検出する第 1の曲調検出工程と、音源手段から出力される音楽信号のボーカル音の曲調を検出する第 2の曲調検出工程と、

前記第 1 ,第 2の曲調検出工程で検出した前記収音信号の曲調の特徴と前記ボーカル音の曲調の特徴との類似性を判断する比較工程と、

前記比較工程で類似性有りと判断すると、前記音源手段から混合手段へ供給される前記音楽信号のボーカル音を除去又は減衰させるボーカル音量調整工程と、を具備することを特徴とするオーディオ再生方法。