WO2023195353A1

WO2023195353A1 - 音処理装置及びカラオケシステム

Info

Publication number: WO2023195353A1
Application number: PCT/JP2023/011642
Authority: WO
Inventors: 茂神▲崎▼
Original assignee: 株式会社共同テレビジョン
Priority date: 2022-04-07
Filing date: 2023-03-23
Publication date: 2023-10-12
Also published as: JP2023154515A; JP7359896B1

Abstract

音処理装置１は、外部マイクロホンＭから入力された音をマイク音データに変換するＡＤ変換器１６と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサ１３と、プロセッサ１３を経由していないマイク音データと、プロセッサ１３が出力したコンテンツ音データと、を合成することにより合成音データを生成する音合成回路１７と、合成音データを外部に出力するスピーカ１９と、を有する。

Description

音処理装置及びカラオケシステム

　本発明は、音処理装置及びカラオケシステムに関する。

　従来、マイクロホンから入力された音声と楽曲音とを合成した音をスピーカから出力するカラオケシステムが知られている（例えば、特許文献１を参照）。

特開２０１１－１９１３５７号公報

　従来のカラオケシステムにおいては、マイクロホンから入力された音声がＣＰＵ（Central Processing Unit）に取り込まれてから楽曲音と合成されていた。ＣＰＵで音声を処理する場合には、マイクロホンから音声が入力されてから音声がスピーカから出力されるまでの遅延時間が大きい。遅延時間が５０ｍｓ以上になると、スピーカから聞こえる楽曲音と音声のタイミングがずれることにより違和感が生じる場合があるという問題が生じていた。

　そこで、本発明はこれらの点に鑑みてなされたものであり、スピーカから出力される楽曲音と音声のずれを抑制することを目的とする。

　本発明の第１の態様の音処理装置は、外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、前記合成音データを外部に出力するスピーカと、を有する。

　前記プロセッサは、前記合成音データを記憶媒体に録音データとして記憶させた後に、前記合成音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力してもよい。

　前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力してもよい。

　前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から、前記コンテンツ音データに同期した外部音データを受信する通信回路をさらに有し、前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成してもよい。

　前記プロセッサは、前記外部音データに前記コンテンツ音データが含まれていることを検出していない場合に、前記外部音データに前記遅延コンテンツ音データを合成し、前記外部音データに前記コンテンツ音データが含まれていることを検出した場合に、前記外部音データに前記遅延コンテンツ音データを合成しないでもよい。

　前記音処理装置は、ネットワークを介して、外部装置との間でデータを送受信する通信回路をさらに有し、前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成してもよい。

　前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、前記プロセッサは、複数の前記外部マイクロホンから入力された音に基づく複数の前記マイク音データと前記コンテンツ音データとを合成する第１モード、及び前記外部マイクロホンから入力された音に基づく前記マイク音データと、前記外部音データとを合成する第２モードからいずれかのモードを選択する操作を受け付けてもよい。

　前記音合成回路は、前記外部マイクロホンから入力された音にエコー処理を施した後の前記マイク音データと、エコー処理を施していない前記コンテンツ音データとを合成することにより前記合成音データを生成してもよい。

　本発明の第２の態様のカラオケシステムは、音処理装置と画像表示装置とを備え、前記音処理装置は、外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、前記合成音データを外部に出力するスピーカと、前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、を有し、前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する。

　本発明によれば、スピーカから出力される楽曲音と音声のずれを抑制することができるという効果を奏する。

第１の実施形態のカラオケシステムＳ１の構成を示す図である。合成音に含まれるコンテンツ音とマイク音との関係を示す図である。音処理装置１の構成を示す図である。第２の実施形態のカラオケシステムＳ２の構成を示す図である。第１の方法について説明するための図である。第１の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第２の方法について説明するための図である。第２の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第３の方法について説明するための図である。第３の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。

＜第１の実施形態＞
［カラオケシステムＳ１の概要］
　図１は、第１の実施形態のカラオケシステムＳ１の構成を示す図である。カラオケシステムＳ１は、自宅又は店舗等においてカラオケを楽しむためのシステムである。カラオケシステムＳ１は、音処理装置１と、テレビ２と、サーバ３と、を備える。音処理装置１、テレビ２及びサーバ３は、ネットワークＮに接続されている。ネットワークＮは例えばインターネットである。

　音処理装置１は、例えばテレビ２が設置された台上に、テレビ２と接続された状態でテレビ２の前方に設置される棒状のデバイスである。音処理装置１は、その両端付近にスピーカを内蔵している。音処理装置１は、カラオケシステムＳ１のユーザＵ（図１におけるユーザＵ１、Ｕ２）が外部マイクロホンの一例であるマイクロホンＭ（図１におけるマイクロホンＭ１、Ｍ２）から入力された音声を楽曲の音（以下、「コンテンツ音」という場合がある）と合成することにより生成した合成音をスピーカから出力する。図１においては、マイクロホンＭがワイヤレスマイクロホンである場合を例示しているが、マイクロホンＭと音処理装置１とはケーブルにより接続されていてもよい。

　音処理装置１は、コンテンツ音に対応するコンテンツ音データと、コンテンツ音データに同期した映像に対応する映像データとを含むカラオケコンテンツをサーバ３から取得する。音処理装置１は、合成音をスピーカから出力している間に、テレビ２に対して、コンテンツ音データに同期した映像データを送信する。これにより、ユーザＵは、テレビ２で映像を見て、コンテンツ音を聞きながら歌唱することができる。

　テレビ２は、テレビジョン放送を受信して、受信した放送コンテンツを表示することができる画像処理装置である。テレビ２は、例えばＨＤＭＩ（登録商標）ケーブルにより音処理装置１と接続可能であり、音処理装置１から入力された映像データに基づく映像を表示することもできる。テレビ２は、音処理装置１のスピーカが合成音を出力している間、カラオケコンテンツに対応する映像データを表示する。テレビ２は、カラオケ用のアプリケーションソフトウェアを内蔵しており、リモコンにより、カラオケを開始するための操作が行われた場合に音処理装置１を起動させてもよい。

　テレビ２は、ネットワークＮを介して、各種のコンテンツを取得することができる。例えば、音処理装置１からカラオケ用の映像データが送られてきていない間は、広告コンテンツ、美容・健康に関するコンテンツ等をサーバ３から取得して、取得したコンテンツを表示する。

　テレビ２は、音処理装置１の各種の設定操作をするための入力デバイスとしても機能する。テレビ２は、例えば、マイクロホンＭの音量及びエコーのレベル等を設定するための操作や、音処理装置１の動作モードを選択するための操作を受け付けて、操作の内容を音処理装置１に通知する。

　また、テレビ２は、ユーザＵが歌唱する楽曲を選択するための画面を表示する。テレビ２は、ユーザＵにより選択された楽曲を識別するための情報を音処理装置１に通知する。これにより、音処理装置１は、サーバ３から、選択された楽曲に対応するカラオケコンテンツを取得することができる。

　サーバ３は、カラオケコンテンツを音処理装置１に提供する。サーバ３は、カラオケコンテンツを識別するためのコンテンツＩＤに関連付けてカラオケコンテンツを記憶しており、音処理装置１から受信したコンテンツＩＤに対応するカラオケコンテンツを音処理装置１に送信する。サーバ３は、ユーザＵが歌唱している間の音声が録音されることにより作成された録音データを音処理装置１から受信し、ユーザＵを識別するためのユーザＩＤ及び楽曲を識別するための録音データＩＤに関連付けて録音データを記憶してもよい。サーバ３は、音処理装置１からユーザＩＤ及び録音データＩＤを受信したことに応じて、当該ユーザＩＤ及び録音データＩＤに対応する録音データを音処理装置１に送信する。

　図２は、音処理装置１がスピーカから出力する合成音に含まれるコンテンツ音とマイク音との関係を示す図である。コンテンツ音は、音処理装置１がサーバ３から取得したコンテンツデータに含まれる楽曲の音データに基づく音である。マイク音データは、マイクロホンＭに入力されたユーザＵの音声である。図２における複数の長方形は、音が存在する期間を示しており、一つの長方形の横方向の長さは２００ｍｓに相当する。

　図２（ａ）は、コンテンツ音とマイク音とをＣＰＵで合成して生成した場合の合成音におけるコンテンツ音とマイク音との関係を示している。図２（ａ）に示す例においては、コンテンツ音に対してマイク音が１５０ｍｓ遅延している。このようにコンテンツ音に対するマイク音の遅延量が大きいと、ユーザＵには、楽曲と自分が発した声とがずれて聞こえるので違和感が生じる。

　図２（ｂ）は、コンテンツ音とマイク音とをＣＰＵを用いないで合成して生成した場合の合成音におけるコンテンツ音とマイク音との関係を示している。本実施形態の音処理装置１は、このようにコンテンツ音とマイク音とをＣＰＵを用いることなく合成するので、コンテンツ音に対するマイク音の遅延時間が３０ｍｓ以下となり、ユーザＵにとっては、楽曲と自分が発した声とがずれて聞こえにくい。

［音処理装置１の構成］
　図３は、音処理装置１の構成を示す図である。音処理装置１は、通信回路１１と、ＨＤＭＩ回路１２と、プロセッサ１３と、記憶部１４と、無線回路１５と、ＡＤ変換器１６と、音合成回路１７と、アンプ１８と、スピーカ１９と、を有する。

　通信回路１１は、ネットワークＮを介してサーバ３との間でデータを送受信するための通信インターフェイスを有する。通信回路１１は、例えばＬＡＮ（Local Area Network）コントローラを有する。
　ＨＤＭＩ回路１２は、テレビ２に映像データを送信するためのＨＤＭＩインターフェイスを有しており、コンテンツ音データに同期した画像データをテレビ２に出力する画像データ出力部として機能する。

　プロセッサ１３は、記憶部１４に記憶されたプログラムを実行することにより各種の処理をするＣＰＵである。プロセッサ１３は、通信回路１１を介してサーバ３からカラオケコンテンツを取得して記憶部１４に記憶させたり、ＨＤＭＩ回路を介して、カラオケコンテンツに基づく映像データをテレビ２に送信したりする。プロセッサ１３は、カラオケの動作を実行するための操作をユーザＵから受けた場合に、プログラムを実行することによりコンテンツ音データを記憶部１４から読み出して、音合成回路１７に対して出力する。また、プロセッサ１３は、音合成回路１７から入力されたマイク音データを解析することにより、ユーザＵの歌唱力を採点する処理を実行する。

　記憶部１４は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を有している。記憶部１４は、プロセッサ１３が実行するプログラムを記憶している。また、記憶部１４は、プロセッサ１３がサーバ３から取得したカラオケコンテンツを一時的に記憶する。

　無線回路１５は、マイクロホンＭ１及びマイクロホンＭ２から、マイクロホンＭ１及びマイクロホンＭ２に入力された音に対応する第１音信号及び第２音信号を受信するためのアンテナ及び復調回路等を有する。無線回路１５は、受信した第１音信号及び第２音信号を復調した後の信号をＡＤ変換器１６に入力する。

　ＡＤ変換器１６は、マイクロホンＭ１又はマイクロホンＭ２の少なくともいずれかから入力された音をマイク音データに変換する信号変換回路である。具体的には、ＡＤ変換器１６は、無線回路１５から入力されたマイク音のアナログ信号をデジタルデータに変換する。ＡＤ変換器１６は、変換後のマイク音データを音合成回路１７に入力する。ＡＤ変換器１６は、例えばマイク音データをＩ^２Ｓ（Inter-IC Sound）規格に基づくフォーマットで音合成回路１７に送信する。

　音合成回路１７は、プロセッサを経由していないマイク音データと、プロセッサが出力したコンテンツ音データと、を合成することにより合成音データを生成する。音合成回路１７は、マイクロホンＭ１において入力されたユーザＵ１の声に基づくマイク音データと、マイクロホンＭ２において入力されたユーザＵ２の声に基づくマイク音データとを合成することにより合成音データを生成してもよい。これにより、ユーザＵ１とユーザＵ２がデュエットを楽しむことができる。音合成回路１７は、生成した合成音データをアンプ１８に入力する。音合成回路１７は、例えばＩ^２Ｓ規格に基づいて合成音データをアンプ１８に送信する。

　音合成回路１７は、例えばＤＳＰ（Digital Signal Processor）により構成されており、所定のサンプリング時間ごとにデジタル信号処理を実行することで、合成音データを生成する。音合成回路１７がＤＳＰにより構成されていることで、積和演算を高速に処理することができるので、ユーザＵがマイクロホンＭに音声を入力してから合成音データが生成されるまでの遅延時間を３０ｍｓ以下に抑えることができる。なお、音合成回路１７は、合成する前のマイク音データをＩ^２Ｓ規格に基づいてプロセッサ１３に送信してもよい。

　音合成回路１７は、マイクロホンＭから入力された音にエコー処理を施した後のマイク音データと、エコー処理を施していないコンテンツ音データとを合成することにより合成音データを生成してもよい。音合成回路１７がエコー処理を施すことで、遅延時間を抑えつつ、ユーザＵが歌った声にエコーをかけることが可能になる。

　アンプ１８は、音合成回路１７から入力された合成音データを増幅し、増幅した後のアナログ合成音をスピーカ１９に入力する。スピーカ１９は、入力されたアナログ合成音を出力する。

　ところで、デュエット曲を歌う場合に、デュエットをする相手がいないという場合がある。そこで、プロセッサ１３は、ユーザＵの音声に対応するマイク音データとコンテンツ音データとを合成した合成音データを記憶媒体に録音データとして記憶させた後に、合成音データを再生するための操作を受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路１７に入力してもよい。記憶媒体は例えばサーバ３が有するハードディスクであるが、プロセッサ１３は記憶部１４に合成音データを記憶させてもよい。ユーザＵは、このコンテンツ音データを聞きながら歌唱することで、過去の自分自身、又は音処理装置１を過去に使用した他のユーザＵとデュエットをすることが可能になる。

＜第２の実施形態＞
［カラオケシステムＳ２の概要］
　図４は、第２の実施形態のカラオケシステムＳ２の構成を示す図である。図４に示すカラオケシステムＳ２は、第１の拠点に音処理装置１ａ及びテレビ２ａが設置されており、第２の拠点に音処理装置１ｂ及びテレビ２ｂが設置されているという点で図１に示したカラオケシステムＳ１と異なる。音処理装置１ａ及び音処理装置１ｂのそれぞれは、第１の実施形態において説明した音処理装置１の機能を有する。テレビ２ａ及びテレビ２ｂは、第１の実施形態において説明したテレビ２の機能を有する。

　カラオケシステムＳ２においては、音処理装置１ａを使用するユーザＵ１と外部装置（図４の例では音処理装置１ｂ）を使用するユーザＵ２とがデュエットをできるという点でカラオケシステムＳ１と異なる。音処理装置１ａ及び音処理装置１ｂは、各種の方法によりユーザＵ１とユーザＵ２とのデュエットを実現することができる。以下、それぞれの方法を詳細に説明する。

［第１の方法］
　第１の方法は、ユーザＵ２がコンテンツ音データに合わせて歌ったときの音声を予め録音しておき、ユーザＵ１が、コンテンツ音データと録音されたユーザＵ２の音声とを聞きながらマイクロホンＭ１に音声を入力するという方法である。図５は、第１の方法について説明するための図である。図５には、音処理装置１ａのプロセッサ１３と、音合成回路１７と、ＡＤ変換器１６と、音処理装置１ｂと、が示されている。図６は、第１の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。

　第１の方法において、音処理装置１ａのプロセッサ１３は、音処理装置１ｂから受信した合成音データを記憶媒体に録音データとして記憶させた後に、合成音データを再生するための操作をユーザＵ１から受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路１７に入力する。第１の実施形態と同様に、記憶媒体は例えばサーバ３が有するハードディスクであるが、プロセッサ１３は記憶部１４に合成音データを記憶させてもよい。

　このようにするために、通信回路１１は、ネットワークＮを介して、コンテンツ音データを音処理装置１ｂに送信し、かつ音処理装置１ｂから、ユーザＵ２がマイクロホンＭに入力した音声に対応する外部音データ（すなわち第２マイク音データ）を受信する。マイクロホンＭ２には、スピーカ１９から出力されるコンテンツ音も入るが、ここでは、マイクロホンＭ２の指向性が十分に強く、マイク音にはコンテンツ音が含まれていないものとする。なお、マイク音にコンテンツ音が含まれる場合、音合成回路１７が、マイク音からコンテンツ音を除去する処理をすることにより、音処理装置１ａに送信される第２マイク音データにコンテンツ音データが含まれないようにしてもよい。

　そして、プロセッサ１３は、通信回路１１が音処理装置１ｂに送信したコンテンツ音データに対して所定の遅延時間だけ遅延したコンテンツ音データと第２マイク音データとを合成することにより録音データを生成し、生成した録音データを記憶媒体に記憶させる。そして、プロセッサ１３は、録音データを記憶媒体に記憶させた後に、録音データを再生するための操作を受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路１７に入力する。

　図５に示す例においては、まず、音処理装置１ａのプロセッサ１３が音処理装置１ｂに対してコンテンツ音データを送信し、音処理装置１ｂは、音処理装置１ａから受信したコンテンツ音データに基づくコンテンツ音をスピーカ１９から出力させる。音処理装置１ｂは、マイクロホンＭ２に入力されたユーザＵ２の音声に基づく第２マイク音データを音処理装置１ａに送信する。

　音処理装置１ａのプロセッサ１３は、音処理装置１ｂから受信した第２マイク音データと、第２マイク音データに同期させたコンテンツ音データ（遅延コンテンツ音データ）とを合成した録音データをサーバ３に記憶させることで録音する。この際、プロセッサ１３は、ユーザＵ２のユーザＩＤ及びコンテンツＩＤ（例えば楽曲名）に関連付けた録音データをサーバ３に記憶させる。

　その後、ユーザＵ１が、ユーザＵ２が録音した第２マイク音データを用いてユーザＵ２とデュエットをするための操作をすると、プロセッサ１３は、ユーザＵ１により選択されたユーザＩＤ及びコンテンツＩＤに対応する録音データを読み出す。プロセッサ１３は、読み出した録音データを出力コンテンツ音データとして音合成回路１７に入力し、読み出した録音データを第２マイク録音データとして音合成回路１７に入力する。

　音合成回路１７は、録音データと、ＡＤ変換器１６を介してマイクロホンＭ１から入力された第１マイク音データとを合成することにより、合成音データを生成する。図６に示すように、第１マイク音データは、録音データに対して３０ｍｓ以下の遅延時間となる。生成された合成音データに基づく合成音がスピーカ１９から出力されることにより、ユーザＵ１は、ユーザＵ２とデュエットしている気分で歌唱することができる。

　なお、以上の説明においては、マイクロホンＭ２の指向性が高く、音処理装置１ｂから送信された第２マイク音データにはコンテンツ音データが含まれていない場合を例示したが、第２マイク音データにコンテンツ音データが含まれていてもよい。この場合、プロセッサ１３は、第２マイク音データに含まれているユーザＵ２の音声に同期したコンテンツ音データを合成させず、第２マイク音データを録音データとして記憶媒体に記憶させてもよい。このような構成により、プロセッサ１３の処理の負荷を軽くすることができる。

　プロセッサ１３は、第２マイク音データにコンテンツ音データが含まれていることを検出していない場合と第２マイク音データにコンテンツ音データが含まれていることを検出した場合とで処理を変えてもよい。プロセッサ１３は、第２マイク音データにコンテンツ音データが含まれていることを検出していない場合に、第２マイク音データに、第２マイク音データに含まれているユーザＵ２の音声に同期した遅延コンテンツ音データを合成して録音データとする。プロセッサ１３は、第２マイク音データにコンテンツ音データが含まれていることを検出した場合に、第２マイク音データに遅延コンテンツ音データを合成することなく、第２マイク音データを録音データとしてもよい。このような構成により、マイクロホンＭ２で録音されたコンテンツ音データと、記憶媒体から読み出された遅延コンテンツ音データとが合成されないので、同じコンテンツ音データがわずかにずれた状態で合成されることにより生じる違和感が生じることを防げる。

［第２の方法］
　図７は、第２の方法について説明するための図である。図５と同様に、図７には、音処理装置１ａのプロセッサ１３と、音合成回路１７と、ＡＤ変換器１６と、音処理装置１ｂと、が示されている。図８は、第２の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第２の方法においては、ユーザＵ２の音声の録音データを使わず、リアルタイムでユーザＵ１がユーザＵ２とデュエットをできるという点で第１の方法と異なる。

　音処理装置１ａのプロセッサ１３は、第１の方法と同様に、ネットワークＮを介して、コンテンツ音データを外部装置である音処理装置１ｂに送信し、かつ音処理装置１ｂから第２マイク音データを受信する。音処理装置１ｂは、音処理装置１ａから受信したコンテンツ音データに基づくコンテンツ音をスピーカ１９から出力させる。音処理装置１ｂは、マイクロホンＭ２に入力されたユーザＵ２の音声に基づく第２マイク音データを音処理装置１ａに送信する。

　音処理装置１ａのプロセッサ１３は、通信回路１１が音処理装置１ｂに送信したコンテンツ音データに対して所定の遅延時間だけ遅延したコンテンツ音データ（すなわち遅延コンテンツ音データ）を音合成回路１７に入力する。所定の遅延時間は、音処理装置１ａから送信したコンテンツ音データが音処理装置１ｂに到達するまでの伝送時間と、音処理装置１ｂから送信した第２マイク音データが音処理装置１ａに到達するまでの伝送時間とを加算した時間に相当する。通信回路１１が音処理装置１ｂに送信したコンテンツ音データに対して、音処理装置１ａと音処理装置１ｂとの間の往復の伝送時間に相当する時間だけ遅延したコンテンツ音データは、第２マイク音データに同期した音データになる。

　音合成回路１７は、マイクロホンＭ１に入力されたユーザＵ１の音声に対応する第１マイク音データと、マイクロホンＭ２に入力されたユーザＵ２の音声に対応する第２マイク音データと、遅延コンテンツ音データとを合成することにより合成音データを生成する。音処理装置１ａがこのように動作することで、図８に示すように、音処理装置１ａが送信したコンテンツ音データに対して、第２マイク音データが音処理装置１ａに到達した時間が遅れていたとしても、第２マイク音データと遅延コンテンツ音データとが同期する。そして、音合成回路１７がこれらの音データと第１マイク音データとを合成するので、第２マイク音データに対する第１マイク音データの遅延時間は３０ｍｓ以下であり、ユーザＵ１は、コンテンツ音に同期したユーザＵ２の声に合わせて歌唱することができる。

　なお、第１の方法と同様に、プロセッサ１３は、第２マイク音データにコンテンツ音データが含まれていることを検出していない場合と第２マイク音データにコンテンツ音データが含まれていることを検出した場合とで処理を変えてもよい。プロセッサ１３は、第２マイク音データにコンテンツ音データが含まれていることを検出していない場合に、第２マイク音データに、第２マイク音データに含まれているユーザＵ２の音声に同期した遅延コンテンツ音データを合成して録音データとする。プロセッサ１３は、第２マイク音データにコンテンツ音データが含まれていることを検出した場合に、第２マイク音データに遅延コンテンツ音データを合成することなく、第２マイク音データを録音データとしてもよい。このような構成により、マイクロホンＭ２で録音されたコンテンツ音データと、記憶媒体から読み出された遅延コンテンツ音データとが合成されないので、同じコンテンツ音データがわずかにずれた状態で合成されることにより生じる違和感が生じることを防げる。

［第３の方法］
　図９は、第３の方法について説明するための図である。図５と同様に、図９には、音処理装置１ａのプロセッサ１３と、音合成回路１７と、ＡＤ変換器１６と、音処理装置１ｂと、が示されている。図１０は、第３の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第３の方法においては、ユーザＵ１とユーザＵ２の両方がリアルタイムでデュエットをできるという点で第１の方法及び第２の方法と異なる。

　図９に示すように、まず、音処理装置１ａのプロセッサ１３は、第１の実施形態で説明した方法によりユーザＵ１がマイクロホンＭ１に入力した録音用マイク音データを取得し、録音用マイク音データを第１マイク録音データとして記憶部１４に記憶させることにより録音する。ここでは、マイクロホンＭ１の指向性が十分に高く、第１マイク録音データにはコンテンツ音データが含まれていないものとする。

　続いて、プロセッサ１３は、第１マイク録音データを記憶部１４に記憶させた後に、第１マイク録音データを外部装置である音処理装置１ｂに送信するための操作を受けた場合に、通信回路１１を介して第１マイク録音データとコンテンツ音データとを音処理装置１ｂに送信する。第１マイク録音データを音処理装置１ｂに送信するための操作は、例えば、音処理装置１ｂを利用するユーザＵ２とデュエットをするための操作である。音処理装置１ｂは、第１マイク録音データとコンテンツ音データに基づく音を聞きながらユーザＵ２が歌唱した際の音声に対応する第２マイク音データを生成する。音処理装置１ｂのプロセッサ１３は、生成した第２マイク音データを音処理装置１ａに送信する。

　音処理装置１ａのプロセッサ１３は、音処理装置１ｂから第２マイク音データを受信すると、第２マイク音データと、通信回路１１が音処理装置１ｂに送信したコンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データとを音合成回路１７に入力する。所定の遅延時間は、第２の方法における遅延時間と同様に、音処理装置１ａと音処理装置１ｂとの間の伝送時間に対応する時間である。

　音合成回路１７は、第１マイク音データと、第２マイク音データと、遅延コンテンツ音データとを合成することにより合成音データを生成する。音処理装置１ａ及び音処理装置１ｂがこのように動作することで、図１０に示すように、音処理装置１ａが送信したコンテンツ音データに対して、第２マイク音データが音処理装置１ａに到達した時間が遅れていたとしても、第２マイク音データと遅延コンテンツ音データとが同期する。

　第３の方法によれば、音処理装置１ｂを利用するユーザＵ２は、予めユーザＵ１が録音をした音声を聞きながらデュエット曲を歌唱し、ユーザＵ１は、ユーザＵ２が歌唱をしている音声を聞きながら同じデュエット曲を歌唱することができる。したがって、二人が離れた場所にいる場合であっても、同時にデュエットを楽しむことが可能になる。

［デュエットモードの切り替え］
　音処理装置１ａを利用するユーザＵが、音処理装置１ａ以外の外部装置を利用する他のユーザＵとデュエットをできるように音処理装置１ａが構成されている場合、プロセッサ１３は、音処理装置１ａを利用する複数のユーザＵがデュエットをする第１モードと、音処理装置１ａを利用するユーザＵが外部装置を利用する他のユーザＵとデュエットをする第２モードとを切り替えられるようにしてもよい。

　具体的には、プロセッサ１３は、音処理装置１ａと接続されたマイクロホンＭ１及びマイクロホンＭ２から入力された音に基づく複数のマイク音データとコンテンツ音データとを合成する第１モード、及び音処理装置１ａに接続されたマイクロホンＭから入力された音に基づくマイク音データと、音処理装置１ｂから受信した外部音データとを合成する第２モードからいずれかのモードを選択する操作を受け付けてもよい。プロセッサ１３は、第２モードが選択された場合に、さらに、上記の第１の方法から第３の方法までのいずれかの方法を選択する操作を受け付けてもよい。プロセッサ１３がこのように動作することで、ユーザＵがデュエットをしようとする相手の状況に適した方法でデュエットをすることが可能になる。

　以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

１　音処理装置
２　テレビ
３　サーバ
１１　通信回路
１２　ＨＤＭＩ回路
１３　プロセッサ
１４　記憶部
１５　無線回路
１６　ＡＤ変換器
１７　音合成回路
１８　アンプ
１９　スピーカ
Ｍ　マイクロホン
Ｎ　ネットワーク
Ｓ１　カラオケシステム
Ｓ２　カラオケシステム

Claims

　外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
　プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
　前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
　前記合成音データを外部に出力するスピーカと、
　を有する音処理装置。
　前記プロセッサは、前記合成音データを記憶媒体に録音データとして記憶させた後に、前記合成音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力する、
　請求項１に記載の音処理装置。
　ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、
　前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力する、
　請求項１に記載の音処理装置。
　ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から、前記コンテンツ音データに同期した外部音データを受信する通信回路をさらに有し、
　前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、
　前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成する、
　請求項１に記載の音処理装置。
　前記プロセッサは、前記外部音データに前記コンテンツ音データが含まれていることを検出していない場合に、前記外部音データに前記遅延コンテンツ音データを合成し、前記外部音データに前記コンテンツ音データが含まれていることを検出した場合に、前記外部音データに前記遅延コンテンツ音データを合成しない、
　請求項４に記載の音処理装置。
　ネットワークを介して、外部装置との間でデータを送受信する通信回路をさらに有し、
　前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、
　前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成する、
　請求項１に記載の音処理装置。
　ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、
　前記プロセッサは、複数の前記外部マイクロホンから入力された音に基づく複数の前記マイク音データと前記コンテンツ音データとを合成する第１モード、及び前記外部マイクロホンから入力された音に基づく前記マイク音データと、前記外部音データとを合成する第２モードからいずれかのモードを選択する操作を受け付ける、
　請求項１に記載の音処理装置。
　前記音合成回路は、前記外部マイクロホンから入力された音にエコー処理を施した後の前記マイク音データと、エコー処理を施していない前記コンテンツ音データとを合成することにより前記合成音データを生成する、
　請求項１から７のいずれか一項に記載の音処理装置。
　音処理装置と画像表示装置とを備え、
　前記音処理装置は、
　　外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
　　プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
　　前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
　　前記合成音データを外部に出力するスピーカと、
　　前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、
　を有し、
　前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する、カラオケシステム。