WO2011115210A1

WO2011115210A1 - ミキシングデータ配信サーバ

Info

Publication number: WO2011115210A1
Application number: PCT/JP2011/056395
Authority: WO
Inventors: 松本　秀一
Original assignee: ヤマハ株式会社
Priority date: 2010-03-19
Filing date: 2011-03-17
Publication date: 2011-09-22
Also published as: KR20120128142A; JP5544961B2; CN102822887A; KR101453177B1; CN102822887B; JP2011197344A

Abstract

　本発明は、通信時間を増大させずに音声と楽音を別々に蓄積することができるサーバを提供する。歌唱者の歌唱音のみ、カラオケ演奏の同期情報とともに音声データ（歌唱ファイル）としてセンタにアップロードする。同期情報には、少なくとも音声データの録音時に演奏していたカラオケ楽曲におけるテンポおよびボリューム情報が記載されている。センタは、歌唱ファイルを再生して歌唱音声信号を生成するとともに、同期情報に記載されているテンポ、ボリュームでカラオケ演奏を行い、楽音信号を生成する。生成した歌唱音声信号および楽音信号をミキシングすることで、新たな音声データ（ミキシングデータ）を生成する。

Description

ミキシングデータ配信サーバ

　この発明は、音声と楽音をミキシングした音声データを配信するサーバに関する。

　従来、カラオケ装置で録音した歌唱音および楽音からなる音声データをサーバにアップロードし、サーバが音声データを各ユーザに配信するシステムが提案されている（特許文献１を参照）。特許文献１には、各ユーザが配信された音声データの歌唱音および楽音を聴取し、採点を行うことで、カラオケコンクールを実施することが記載されている。

日本国特開２００７－１２１５５０号公報

　特許文献１のシステムでは、歌唱音および楽音が既にミキシングされた１つの音声データとしてサーバに蓄積される。したがって、後で歌唱音と楽音のミキシングバランスを調整することができない。後で歌唱音と楽音のミキシングバランスを調整するためには、歌唱音と楽音を別々の音声データとしてアップロードすることも考えられるが、歌唱音と楽音を別々にアップロードすると、従来の２倍以上の通信時間がかかるという問題が発生する。

　そこで、この発明は、通信時間を増大させずに音声と楽音を別々に蓄積することができるサーバを提供することを目的とする。

　この発明のミキシングデータ配信サーバは、受信手段、記憶手段、音声データ生成手段、および配信手段を備えている。受信手段は、歌唱者の音声データ、および前記歌唱者の音声データのカラオケ演奏との同期情報を受信する。記憶手段は、受信した歌唱者の音声データおよび同期情報を記憶する。また、記憶手段は、カラオケ演奏を行うための楽曲データも記憶している。
　音声データ生成手段は、記憶手段から読み出した音声データを再生するとともに、同期情報に基づいて楽曲データを読み出し、自動演奏を行う。そして、音声データ生成手段は、再生した音声データに基づく音声、および自動演奏による楽音をミキシングしてミキシングデータを生成する。生成されたミキシングデータが、各端末に配信され、ユーザに聴取可能な状態となる。

　このように、歌唱者の歌唱音をカラオケ演奏音の同期情報とともに音声データとしてサーバにアップロードし、楽音については、サーバ側で同期情報に基づいて楽曲データを自動演奏することにより生成し、音声データの再生音とミキシングしてミキシングデータ（歌唱音と楽音からなる完全データ）を生成する。したがって、歌唱音の音声データをアップロードするだけで、音声と楽音を別々にサーバ側に蓄積することになり、アップロードに要する時間は従来と変わらない。

　なお、同期情報には、音声データの録音時に演奏していたカラオケ楽曲におけるテンポおよびボリューム情報が記載されている態様であってもよい。これにより、後に歌唱音の音声データを再生したとき、この歌唱音に同期したカラオケ演奏がなされる。

　また、音声データは、複数の音声データからなり、同期情報は、前記複数の音声データのそれぞれの再生タイミングを示す情報が含まれる態様であってもよい。例えば、デュエット曲であれば、歌唱者は、デュエットパートの歌唱を行い、１曲のなかで歌唱を行う時間帯が決められているため、歌唱ファイルを複数に分割することも可能である。この場合、同期情報に演奏開始からの時間経過を示す情報あるいはデルタタイムを記載しておき、再生時にこの情報を参照して各歌唱ファイルを再生することでも歌唱音に同期したカラオケ演奏を行うことができる。

　また、生成したミキシングデータは、記憶手段に保持しておいてもよい。この場合、同時多数に配信リクエストがあった場合でも、即座に配信可能となる。この場合においても、歌唱音の音声データは記憶手段に保持されているため、後でミキシングバランスを変更することができる。

　また、同期情報には、エフェクトパラメータが含まれており、音声データ生成手段が、自動演奏による楽音のミキシングを行う際に、そのエフェクトパラメータの設定を反映させる態様としてもよい。これにより、歌唱音の録音時に設定していたエフェクトをカラオケ演奏に反映させることができ、ミキシングデータの配信を受けるユーザはより臨場感のある演奏を楽しむことが可能である。

　この発明によれば、通信時間を増大させずに音声と楽音を別々にサーバに蓄積することができる。

カラオケシステムの構成を示すブロック図である。カラオケ装置の構成を示すブロック図である。各種データの構造を示す図である。センタの構成を示すブロック図である。ＷＥＢ上に表示される歌唱ファイルの一覧の例を示した図である。ユーザＰＣの構成を示すブロック図である。歌唱ファイル登録時の動作を説明するフローチャートである。デュエット配信時の動作を説明するフローチャートである。

　図１は、ミキシングデータ配信システムの構成を示す図である。ミキシングデータ配信システムは、インターネット等からなるネットワーク２を介して接続されるセンタ（サーバ、ミキシングデータ配信サーバ）１と、複数のカラオケ店舗３と、複数のユーザＰＣ４と、からなる。各カラオケ店舗３には、ネットワーク２に接続されるルータ等の中継器５と、中継器５を介してネットワーク２に接続される複数のカラオケ装置７が設けられている。中継器５は、カラオケ店舗の管理室内等に設置されている。複数台のカラオケ装置７は、それぞれ個室（カラオケボックス）に１台ずつ設置されている。ユーザＰＣ４は、一般的な家庭用パーソナルコンピュータである。

　本実施形態のミキシングデータ配信システムとは、予め、ある歌唱者がカラオケ装置７で歌唱した音声を録音して歌唱ファイル（圧縮音声データ）としてセンタ１にアップロードしておくものである。そして、センタ１が各ユーザＰＣ４のリクエストに応じて歌唱ファイルを再生し、再生する歌唱ファイルに同期してカラオケ演奏を行い、歌唱音と楽音とをミキシングしたミキシングデータ（圧縮音声データ）を生成してユーザＰＣ４に配信するものである。以下、このミキシングデータ配信システムを実現するための各構成、および動作について説明する。

　図２は、カラオケ装置の構成を示すブロック図である。カラオケ装置７は、装置全体の動作を制御するＣＰＵ１１、およびＣＰＵ１１に接続される各種構成部からなる。ＣＰＵ１１には、ＲＡＭ１２、ＨＤＤ１３、ネットワークインタフェース（Ｉ／Ｆ）１４、操作部１５、Ａ／Ｄコンバータ１７、音源１８、ミキサ（エフェクタ）１９、ＭＰＥＧ等のデコーダ２２、および表示処理部２３が接続されている。

　ＨＤＤ１３は、カラオケ曲を演奏するための楽曲データやモニタ２４に背景映像を表示するための映像データ等を記憶している。映像データは動画、静止画の両方を記憶している。

　ワークメモリであるＲＡＭ１２には、ＣＰＵ１１の動作用プログラムを実行するために読み出すエリアやカラオケ曲を演奏するために楽曲データを読み出すエリア等が設定される。

　ＣＰＵ１１は、機能的にシーケンサを内蔵している。シーケンサは、ＨＤＤ１３に記憶されている楽曲データを読み出し、カラオケ演奏を実行するプログラムである。図３（Ａ）に示すように、楽曲データは、曲番号等が書き込まれているヘッダ、演奏用ＭＩＤＩデータが書き込まれている楽音トラック、ガイドメロディ用ＭＩＤＩデータが書き込まれているガイドメロディトラック、歌詞用ＭＩＤＩデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、等からなっている。シーケンサは、楽音トラックやガイドメロディトラックのデータに基づいて音源１８を制御し、カラオケ曲の楽音を発生する。また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ（楽曲データに付随しているＭＰ３等の圧縮音声データ）を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部２３に入力する。

　音源１８は、シーケンサの処理によってＣＰＵ１１から入力されたデータ（ノートイベントデータ）に応じて楽音信号（デジタル音声信号）を形成する。形成した楽音信号はミキサ１９に入力される。

　ミキサ１９は、音源１８が形成した楽音信号、コーラス音、およびマイク１６からＡ／Ｄコンバータ１７を介して入力された歌唱者の歌唱音声信号に対してエコーなどの効果を付与するとともに、これらの信号をミキシングする。

　ミキシングされた各デジタル音声信号はサウンドシステム（ＳＳ）２０に入力される。サウンドシステム２０は、Ｄ／Ａコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ２１から放音する。ミキサ１９が各音声信号に付与する効果およびミキシングのバランスは、ＣＰＵ１１によって制御される。

　ＣＰＵ１１は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、ＨＤＤ１３に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、ＭＰＥＧ形式にエンコードされている。ＣＰＵ１１は、読み出した映像データをＭＰＥＧデコーダ２２に入力する。ＭＰＥＧデコーダ２２は、入力されたＭＰＥＧデータを映像信号に変換して表示処理部２３に入力する。表示処理部２３には、背景映像の映像信号以外に上記歌詞テロップの文字パターン等が入力される。表示処理部２３は、背景映像の映像信号の上に歌詞テロップなどをＯＳＤ（On Screen Display）で合成してモニタ２４に出力する。モニタ２４は、表示処理部２３から入力された映像信号を表示する。

　操作部１５は、カラオケ装置７の操作パネル面に設けられた各種のキースイッチや赤外線通信等を介して接続されるリモコン等からなり、ユーザの各種操作を受け付け、操作態様に応じた操作情報をＣＰＵ１１に入力する。操作部１５は、曲のリクエストや、歌唱音の録音（登録操作）等を受け付ける。

　ＣＰＵ１１は、歌唱音を公開したい歌唱者が操作部１５で歌唱音の登録操作、および曲の指定を行ったとき、指定された曲のカラオケ演奏を行うとともに、マイク１６からＡ／Ｄコンバータ１７を介して入力された歌唱者の歌唱音声信号に基づいて歌唱ファイルを生成し、ネットワークＩ／Ｆ１４を介してセンタ１にアップロードを行う。歌唱ファイルは、ＭＰ３等の圧縮音声データとして生成される。このとき、ＣＰＵ１１は、演奏を行ったカラオケ曲と歌唱ファイルの対応付けを示す同期情報を生成し、歌唱ファイルとともにアップロードする。

　図３（Ｂ）は、同期情報の一例を示す図である。図３（Ｃ）は、歌唱ファイルの一例を示す図である。図３（Ｂ）に示すように、同期情報は、ヘッダ、テンポ情報、ボリューム情報（Ｖｏｌ．）、タイミング情報（テンポ変化量）からなる。ヘッダは、曲番号や曲名、対応付けられる歌唱ファイルのファイル名等が記載されている。曲番号は、各カラオケ曲の楽曲データに付与されている曲番号と共通形式のデータ（英数字を示す情報）であり、歌唱者が登録操作時に指定した曲番号が転記される。テンポ情報は、歌唱者が登録操作時に指定した曲の演奏テンポを示す情報であり、シーケンサの歩進速度を指定するものである。登録操作時に歌唱者がテンポの指定、変更を行わなければ楽曲データの標準テンポがそのまま転記される。ボリューム情報は、歌唱者が登録操作時に指定した曲の音量（楽音トラックの音量）を示す情報である。タイミング情報は、歌唱者が歌唱中にテンポを変化させた場合、そのテンポ変化のタイミング（演奏開始からの時間経過）を示す情報である。このテンポ変化を示すタイミング情報が参照されることにより、後の再生時にも曲の途中で演奏テンポが変化される。

　歌唱ファイルは、図３（Ｃ）に示すように、ヘッダと歌唱音声データとからなる。ヘッダには少なくともファイル名が記載されており、同期情報のヘッダと対応付けられている。エンコード形式がＭＰ３であれば、ヘッダはＩＤ３タグとして記録される態様であってもよい。

　以上の様な同期情報および歌唱ファイルがセンタ１にアップロードされ、センタ１に蓄積される。なお、歌唱者は、操作部１５を用いて自身のプロフィールやメッセージ等を入力し、歌唱者情報としてアップロードすることも可能である。

　センタ１では、蓄積した各歌唱ファイルを再生するとき、各歌唱ファイルの同期情報を参照して、指定された曲番号の楽曲データを読み出し、同期情報に記載されたテンポ、ボリュームでカラオケ演奏を行う。テンポ変化を示すタイミング情報が記載されている場合には、このタイミング情報にしたがって曲の途中で演奏テンポを変化させる。これにより、録音時のカラオケ演奏を再現することができ、再生された歌唱音声信号および演奏により生成された楽音信号をミキシングしたミキシングデータ（歌唱音と楽音からなる完全データ）を生成する。したがって、歌唱音の音声データをアップロードするだけでも、歌唱音と楽音をサーバ側に蓄積することになり、アップロードに要する時間を増大させずに、歌唱音と楽音とを個別に蓄積しておくことができる。

　なお、図３（Ｃ）に示す歌唱ファイルは、カラオケ曲の演奏開始時から演奏終了時までの全ての音声（マイク１６で収音した音声）を記録したものである。この場合、カラオケ演奏の開始とともに、歌唱ファイルに基づく音声信号を出力すれば同期再生を行うことができるが、例えば、図３（Ｅ）に示すように、１曲のうちの歌唱ファイルを複数の歌唱ファイルに分割することも可能である。この場合、図３（Ｄ）に示すように、同期情報に各歌唱ファイルの再生タイミングを示す情報として、演奏開始からの時間経過を示す情報、あるいは歌唱ファイル間のデルタタイム（先頭の歌唱ファイルは演奏開始からの時間）を記載しておき、再生時には同期情報のタイミング情報を参照して各歌唱ファイルを再生するようにしてもよい。この際、同期情報は、楽曲データとのインプリメンテーションの統一をとるために、ＭＩＤＩデータ（楽曲データの拡張トラック）として構成しておき、シーケンサに読み取り可能な形式としてもよい。この場合、歌唱を行っていない時間帯は歌唱音が録音されないため、歌唱ファイルのデータ容量を削減することができ、さらにアップロード時間を短縮することができる。１曲のなかで歌唱を行う時間帯が限られている場合（例えばデュエット曲で、歌唱者が１つのデュエットパートのみ歌唱する場合）に特に有用である。

　次に、図４は、センタ１の構成を示すブロック図である。センタ１は、センタ全体の動作を制御するＣＰＵ３１、およびＣＰＵ３１に接続される各種構成からなる。ＣＰＵ３１には、ＲＡＭ３２、ＨＤＤ３３、ネットワークインタフェース（Ｉ／Ｆ）３４、音源３８、およびミキサ（エフェクタ）３９が接続されている。

　ＨＤＤ３３は、各カラオケ装置７からアップロードされた歌唱ファイル、同期情報、および歌唱者情報に加え、カラオケ装置７と同じ数の楽曲データを記憶している。また、過去に生成したミキシングデータも記憶している。また、ＨＤＤ３３には、ＣＰＵ３１の動作用プログラムが記録されており、ＣＰＵ３１は、この動作用プログラムをＲＡＭ３２に展開して種々の処理を行う。

　例えば、ＣＰＵ３１は、ネットワークＩ／Ｆ３４を介して各カラオケ装置７から受信した歌唱ファイル、同期情報、および歌唱者情報をＨＤＤ３３に記録する受信データ処理を行う。また、ＣＰＵ３１は、機能的にシーケンサを内蔵しており、カラオケ装置７と同様に、ＨＤＤ３３から楽曲データを読み出してカラオケ演奏を行い、音源３８を制御することで、楽音信号を生成することができる。また、ＣＰＵ３１は、各歌唱者情報を編集して一覧表示を行うＨＴＭＬファイル（不図示）を生成し、ユーザＰＣ４にＷＥＢページとして表示させるＷＥＢ表示処理を行う。

　図５は、ＷＥＢページとして表示される歌唱ファイルの一覧の例を示した図である。図５に示すように、ＷＥＢページには、各歌唱ファイルがファイル名（または曲番号）、曲名、歌唱者が登録操作時に入力したプロフィール、メッセージ等の項目で一覧表示される。また、各歌唱ファイルの人気度（ダウンロード回数）等も表示される。各歌唱ファイルのダウンロード回数は、ＨＤＤ３３に記録されており、各カラオケ装置７に歌唱ファイルをダウンロードさせたときにカウントアップされる。ユーザＰＣ４は、ＷＥＢページにアクセスすることにより、この一覧を参照することができ、聴取したい歌唱者の歌唱ファイルを選択することができる。なお、ユーザＰＣ４を操作して各項目を選択すると、一覧表の昇順、降順のソートを行うこともできる。

　図６は、ユーザＰＣ４の構成を示すブロック図である。ユーザＰＣ４は、一般的な家庭用パーソナルコンピュータであり、全体の動作を制御するＣＰＵ４１と、ＣＰＵ４１に接続される各種構成からなる。ＣＰＵ４１には、ＲＡＭ４２、ＨＤＤ４３、ネットワークＩ／Ｆ４４、操作部４５、サウンドシステム（ＳＳ）４６、および表示処理部４８が接続されている。ＣＰＵ４１は、ＨＤＤ４３に記録された動作用プログラムをＲＡＭ４２に展開し、種々の処理を行う。ユーザが操作部４５を用いて、歌唱ファイルの表示リクエストを行うと、ＣＰＵ４１は、表示リクエストをセンタ１に送信する。表示リクエストを受信したセンタ１のＣＰＵ３１は、ＨＴＭＬファイルをユーザＰＣ４に転送する（ＵＲＬを通知し、ユーザＰＣ４がアクセスする）。ユーザＰＣ４では、センタ１から転送されたＨＴＭＬファイルに基づくＷＥＢページが表示処理部４８を経てモニタ４９に表示される。このようにして、図５に示した歌唱ファイルの一覧が表示される。

　ユーザが操作部４５を用いてＷＥＢページ上に表示されている歌唱ファイルを選択すると、ＣＰＵ４１は、ミキシングデータ配信のリクエストを行う。リクエストは、例えば歌唱ファイル名を示す情報がセンタ１に送信されることにより実行される。センタ１のＣＰＵ３１は、受信した歌唱ファイル名をＨＤＤ３３から検索し、該当する歌唱ファイルおよび同期情報を読み出す。

　ＣＰＵ４１は、読み出した歌唱ファイルを再生して歌唱音声信号を生成するとともに、同期情報に記載されている曲番号の楽曲データを読み出し、同期情報に記載されているテンポ、およびボリューム情報にしたがって、シーケンサでカラオケ曲の演奏を実行する。これにより楽音信号を生成する。

　生成した楽音信号と歌唱音声信号は、ミキサ３９に出力されてミキシングされる。このミキシングされた音声信号が再びＣＰＵ４１に入力され、１つの圧縮音声データ（ミキシングデータ）として生成される。ＣＰＵ４１は、生成したミキシングデータをリクエストがなされたユーザＰＣ４に配信する。そして、配信されたミキシングデータは、ユーザＰＣ４のＣＰＵ４１で再生され、ＳＳ４６でアナログ音声信号に変換されてスピーカ４７から放音される。

　なお、センタ１は、所定の課金システムと連動し、課金処理を行ってもよい。配信リクエストを行ったユーザに所定の金額を課金した後、ユーザＰＣ４にミキシングデータをダウンロードさせる。この場合、歌唱者は、歌唱ファイルがダウンロードされる毎に報酬を受け取ることができるため、課金システムとの連動により、歌唱者へインセンティブを与えることができる。

　このようにして、ユーザは、各歌唱者の歌唱音および楽音を聴取することができる。本実施形態の配信システムによれば、例えば、各ユーザが聴取した歌唱音の採点を行うことで、カラオケコンクールを実現することが可能である。

　また、本実施形態に示した配信システムによれば、センタ１には歌唱ファイルをアップロードするだけでよいため、アップロード時間を増大させることなく、歌唱音と楽音とを別々にサーバに蓄積することができる。歌唱音のデータ（歌唱ファイル）は、楽音のデータ（楽曲データ）とは別にセンタ１のＨＤＤ３３に記憶されているため、後でミキシングバランスを変更したり、個別にエフェクトを変更したりすることも容易に実現可能である。

　また、本実施形態の配信システムによれば、複数の歌唱者の歌唱音（あるいは同じ歌唱者の歌唱音）を後で合成する多重録音を行うことも可能である。従来のシステムでは、歌唱音および楽音が既にミキシングされた１つの音声データとしてサーバに蓄積される態様であったため、後で別の歌唱音を追加する場合、いったん音声データをデコードして音声信号に変換し、別の歌唱音の音声信号をミキシングした後にエンコードを行うため、音質劣化が発生していた。しかしながら、本実施形態では、歌唱音と楽音とを別のデータとして保持しておくため、再生時に多重化したい歌唱ファイルをデコードして合成すればよい。そのため、多重録音による音質劣化は発生しない。

　次に、本実施形態の配信システムの動作をフローチャートを用いて説明する。図７は、登録操作時の動作を示すフローチャートである。図８は、ミキシングデータ配信時の動作を示すフローチャートである。

　まず、図７に示すように、歌唱音を公開したい歌唱者がカラオケ装置７の操作部１５で歌唱音の登録操作および曲の指定を行うと、ＣＰＵ１１が登録操作を受け付ける（ｓ１１）。このとき、ＣＰＵ１１は、操作部１５から歌唱者のプロフィールやメッセージ等の入力も受け付ける。

　ＣＰＵ１１は、登録操作を受け付けると、指定された楽曲データを読み出してカラオケ演奏を行うとともに（ｓ１２）、マイク１６からＡ／Ｄコンバータ１７を介して入力された歌唱者の歌唱音声信号に基づいて歌唱ファイルを生成する（ｓ１３）。また、演奏した曲の曲番号、テンポ、ボリューム等に基づいて、同期情報を生成する（ｓ１４）。ＣＰＵ１１は、曲の演奏が終了すると、生成した歌唱ファイルおよび同期情報をセンタ１にアップロードする（ｓ１５）。センタ１は、アップロードされた歌唱ファイルおよび同期情報をＨＤＤ３３に記録する（ｓ１６）。このようにして歌唱者の歌唱ファイルがセンタ１に登録される。センタ１のＣＰＵ３１は、アップロードされた歌唱ファイルの各歌唱者情報を用いてＨＴＭＬファイルを更新し、ユーザＰＣ４がアクセするＷＥＢページを更新する（ｓ１７）。

　次に、図８に示すように、ミキシングデータ配信をリクエストするユーザ（ユーザＰＣ４のユーザ）は、歌唱者の一覧を参照するために、歌唱ファイルの表示リクエストを行う（ｓ２１）。この表示リクエストは、センタ１に送信され、センタ１は、ＷＥＢ表示リクエストの受付を行う（ｓ２２）。センタ１のＣＰＵ３１は、ＨＴＭＬファイルをユーザＰＣ４に転送するＷＥＢ表示処理を行う（ｓ２３）。ユーザＰＣ４のモニタ４９には、センタ１から転送されたＨＴＭＬファイルに基づくＷＥＢページが表示される（ｓ２４）。このようにして、図５に示した歌唱ファイルの一覧がモニタ４９に表示される。

　ユーザは、モニタ４９に表示されている歌唱ファイルの一覧を参照することにより、聴取したい歌唱者を選択し、ミキシングデータの配信リクエストを行う（ｓ２５）。ＣＰＵ４１は、ユーザが選択した歌唱ファイルのファイル名をＨＴＭＬファイルから抽出し、センタ１に通知する。これにより、配信リクエストが受け付けられる（ｓ２６）。

　そして、センタ１（または課金サーバ等）、およびユーザＰＣ４において課金処理がなされ（ｓ２７，ｓ２８）、課金処理が終了するとセンタ１のＣＰＵ１１は、ＨＤＤ３３から対応する歌唱ファイルおよび同期情報を読み出し、歌唱ファイルのデコードを行い、歌唱ファイルに基づく歌唱音音声信号を生成する。なお、課金処理は必須ではなく、ｓ２７およびｓ２８の処理は省略してもよい。そして、同期情報に記載されている曲番号の楽曲データをＨＤＤ３３から読み出し、同期情報に記載されているテンポおよびボリュームにしたがって楽曲データをシーケンスし、音源３８を制御する。これにより、歌唱音の録音時と同じテンポ、ボリュームでカラオケ演奏を再現し、同時に歌唱者の歌唱音を出力することで同期再生を行う（ｓ２９）。ただし、既に過去に同じ歌唱ファイルを再生し、ミキシングデータとしてＨＤＤ３３に保持している場合、ＨＤＤ３３からミキシングデータを読み出せば、あらためて同期再生を行う必要はない。また、センタ１の処理の空き時間を利用し、予め各ミキシングデータを生成しておいてもよい。この場合、同時多数に配信リクエストがあった場合でも、即座にミキシングデータの配信が可能となる。無論、この場合においても、歌唱ファイルはＨＤＤ３３に保持されているため、後でミキシングバランスを変更することができる。

　その後、同期再生した歌唱音声信号およびカラオケ曲の楽音信号をミキシングしてミキシングデータを生成し（ｓ３０）、ユーザＰＣ４にダウンロードさせる（ｓ３１）。このとき、センタ１のＣＰＵ３１は、ダウンロードさせた歌唱ファイルのダウンロード回数をカウントアップする（ｓ３２）。

　ユーザＰＣ４のＣＰＵ４１は、センタ１からミキシングデータをダウンロードし（ｓ３３）、ＨＤＤ４３（またはＲＡＭ４２）に保持する。そして、ＣＰＵ４１は、ミキシングデータのデコードを行い、歌唱音および楽音の再生を行う（ｓ３４）。

　ミキシングデータの生成、および配信は、１曲分まとめて行ってもよいし、順次ストリーミングデータとしてダウンロードさせてもよい。また、低ビットレートで配信する場合は無料で、高ビットレート（録音時のビットレート）で配信する場合は有料、としてもよい。

　なお、図３（Ｃ）および図３（Ｄ）に示したように、同期情報に各歌唱ファイルの再生タイミングを示す情報として演奏開始からの時間経過を示す情報、あるいは歌唱ファイル間のデルタタイム（先頭の歌唱ファイルは演奏開始からの時間）が記載されている場合、センタ１のＣＰＵ３１では、楽曲データのシーケンスにともなって、各歌唱ファイルに基づく音声信号を出力する。同期情報がＭＩＤＩデータ（楽曲データの拡張トラック）として構成されている場合は、シーケンサがこの同期情報のＭＩＤＩデータを読み取ることで各歌唱ファイルに基づく音声信号を出力することができる。

　ここで、ユーザが操作部４５を操作して、ミキシングバランスの変更指示を行った場合（ｓ３５）、ＣＰＵ４１は、センタ１に変更リクエストを行う（ｓ３６）。変更リクエストには、歌唱音と楽音のミキシングバランスを指示する情報が含まれている。センタ１のＣＰＵ３１は、変更リクエストを受け付けると（ｓ３７）、当該変更リクエストに含まれているミキシングバランスを示す情報に従って、ミキサ３９のミキシングバランスを変更し、ミキシングデータを生成し直す（ｓ３８）。そして、ＣＰＵ３１は、再生成後のミキシングデータを変更リクエストの行われたユーザＰＣ４に配信する（ｓ３９）。ユーザＰＣ４では、再配信されたミキシングデータを再生し（ｓ４０）、以上の処理を再生が終了するまで繰り返す（ｓ４１）。

　なお、再配信するミキシングデータは、変更リクエストがなされた曲の途中から再配信するようにしてもよいし、曲の最初から変更後のミキシングバランスで再配信するようにしてもよい。

　このように、本実施形態では、歌唱音と楽音が別々のソースから成り立つため、独立して音量を制御することが可能であり、容易にミキシングバランスを変更することが可能である。

　なお、ユーザは、上記ミキシングバランスの変更指示において、エフェクトの変更指示や、テンポ変更の指示を行うことも可能である。テンポ変更の指示を行った場合、センタ１のＣＰＵ３１は、変更されたテンポで楽曲データのシーケンスを行うとともに、歌唱ファイルの再生速度の変更も行う。この場合、ＣＰＵ３１（または不図示のＤＳＰ）は、歌唱音の音程を保ちつつ時間軸に音声信号を伸縮する処理を行う。歌唱音の音程を保ちつつ時間軸に音声信号を伸縮する処理は、例えば以下の様にして行う。

　すなわち、ＣＰＵ３１は、歌唱ファイルに基づく歌唱音の音声信号をサンプリング周期毎の時間軸波形に切り分け、複数の時間軸波形を合成した新たな時間軸波形（中間波形）を生成する。中間波形は、前後の時間軸波形をクロスフェードして合成することにより生成する。そして、元の時間軸波形の間に中間波形を挿入すると、歌唱音の音程を保ちつつ時間軸に伸張することが可能である。音声データを圧縮する場合には、中間波形を元の時間軸波形に置き換える処理を行う。例えば、１サンプリングおきに挿入処理を行えば２倍に伸張（再生速度１／２）することが可能であるし、置き換える処理を行えば圧縮（再生速度を２倍）することができる。２サンプリングおきに挿入処理を行えば１．５倍に伸張することが可能であるし、３サンプリングおきに挿入処理を行えば１．３３倍に伸張することが可能である。

　また、ＣＰＵ３１は、ユーザがキー変更を指示した場合、楽曲データのキー変更（ノートナンバのシフト）を行うとともに、歌唱音声信号のピッチ変更を行う。ピッチ変更は、音声信号のリサンプリングを行うことにより実現可能である。また、音声信号の周波数特性の変更を行ってもよい。

　なお、本実施形態では、カラオケ装置７を用いて歌唱者が歌唱ファイルを登録する操作を行う例を示したが、センタ１にマイクや録音の機能を付加し、センタ１を用いて歌唱ファイルを登録するように構成することも可能である。より簡易的には、カラオケ装置７の機能を実現したユーザＰＣ４を用いて実現することも可能である。この場合、ユーザＰＣ４のソフトウェアがシーケンサや音源等の構成を実現し、カラオケ演奏端末を構成する。

　また、歌唱ファイルの聴取は、一般的な家庭用パーソナルコンピュータを用いる例を示したが、無論カラオケ装置７を用いて聴取することも可能である。

　本実施形態では、図３（Ｂ）に示すように、同期情報は、ヘッダ、テンポ情報、ボリューム情報（Ｖｏｌ．）、タイミング情報（テンポ変化量）からなる例を説明している。しかしながら、同期情報は、これらの情報以外に、マイクエコーやリバーブ、コンプレッサー、ボイスチェンジ等のエフェクトパラメータを含んでいても良い。この場合、歌唱音の登録操作時において、エフェクトパラメータを含む同期情報を登録しておく。具体的には、例えば、図７のｓ１４の同期情報生成の処理のタイミングで、そのときにカラオケ装置７で設定されていたエフェクトパラメータを同期情報に反映させる。カラオケ演奏時には、このエフェクトパラメータを用いて、マイクエコー等を音声信号に反映させる。これにより、歌唱音の録音時に設定していたエフェクトをカラオケ演奏に反映させることができ、ミキシングデータの配信を受けるユーザはより臨場感のある演奏を楽しむことが可能である。

　本実施形態では、ミキシングデータの配信時に課金処理を行っていたが、歌唱者が歌唱ファイルをアップロードする際に課金処理を行ってもよい。すなわち、図７のｓ１１における登録操作時やｓ１５における歌唱ファイル及び同期情報のアップロード時に、歌唱者へ課金させるようにする。これにより、例えば、歌唱者がお金を払って参加できるカラオケコンテストを実施する際に、自身の歌唱ファイルをアップロードする際に各歌唱者から参加費としてお金を徴収するようなシステムが実現できる。

１…センタ
２…ネットワーク
３…カラオケ店舗
４…ユーザＰＣ
５…中継器
７…カラオケ装置

Claims

　歌唱者の音声データ、および前記歌唱者の音声データのカラオケ演奏との同期情報を受信する受信手段と、
　前記歌唱者の音声データ、同期情報、およびカラオケ演奏を行うための楽曲データを記憶する記憶手段と、
　前記音声データを再生するとともに、前記同期情報に基づいて前記楽曲データを読み出し、自動演奏を行い、
　前記再生した音声データに基づく音声、および前記自動演奏による楽音をミキシングしてミキシングデータを生成する音声データ生成手段と、
　前記音声データ生成手段が生成したミキシングデータを配信する配信手段と、
　を備えたミキシングデータ配信サーバ。
　請求項１に記載のミキシングデータ配信サーバであって、
　前記同期情報には、前記音声データの録音時に演奏していたカラオケ楽曲におけるテンポおよびボリューム情報が記載されているミキシングデータ配信サーバ。
　請求項１または請求項２に記載のミキシングデータ配信サーバであって、
　前記音声データは、複数の音声データからなり、
　前記同期情報には、前記複数の音声データのそれぞれの再生タイミングを示す情報が含まれるミキシングデータ配信サーバ。
　請求項１乃至請求項３のいずれかに記載のミキシングデータ配信サーバであって、
　前記記憶手段は、前記音声データ生成手段が生成したミキシングデータをさらに記憶し、
　前記配信手段は、前記記憶手段から前記ミキシングデータを読み出して配信するミキシングデータ配信サーバ。
　請求項１乃至請求項４のいずれかに記載のミキシングデータ配信サーバであって、
　前記同期情報には、エフェクトパラメータが含まれており、
　前記音声データ生成手段が、前記自動演奏による楽音のミキシングを行う際に、前記エフェクトパラメータの設定を反映させるミキシングデータ配信サーバ。