WO2016088306A1

WO2016088306A1 - 音声再生システム

Info

Publication number: WO2016088306A1
Application number: PCT/JP2015/005684
Authority: WO
Inventors: 一任阿部; 宮阪　修二
Original assignee: 株式会社ソシオネクスト
Priority date: 2014-12-03
Filing date: 2015-11-13
Publication date: 2016-06-09
Also published as: JPWO2016088306A1; US20170272889A1; CN107211230A

Abstract

　複数の音声出力部（４１０、４１１）を備える据え置き型の第１の出力装置（４００）に接続される音声処理装置（２００）と、複数の音声出力部（３３０、３３１）を備えるポータブル型の第２の出力装置（３００）とを備え、前記音声処理装置（２００）は、前記第１の出力装置（４００）に出力する第１の音声出力信号と、前記第１の音声出力信号とは異なる前記第２の出力装置（３００）に出力する第２の音声出力信号とを生成し、前記第１および第２の音声出力信号のうち少なくとも前記第２の音声出力信号は、３Ｄ音響処理された信号を含む。

Description

音声再生システム

　本開示は、３Ｄ音響再生を行う音声再生システムに関する。

　映画や音楽のみでなく、ゲームにおいても、５．１ｃｈや７．１ｃｈなどのマルチチャネルのオーディオ信号が普及しており、受聴者を取り囲む所定の位置に配置されたマルチチャネルスピーカを用いて再生すると、臨場感あるオーディオ再生が実現される。５．１ｃｈや７．１ｃｈのスピーカを設置することが困難な場合のために、従来のステレオスピーカで疑似的にマルチチャネルオーディオ再生と同様な効果を実現する３Ｄ音響技術が開発されている。

　この３Ｄ音響技術では、スピーカから受聴者の両耳元までの音響特性である頭部音響伝達関数ＨＲＴＦ（Ｈｅａｄ－Ｒｅｌａｔｅｄ　Ｔｒａｎｓｆｅｒ　Ｆｕｎｃｔｉｏｎ）を用いて設計した音像制御フィルタが一般的に用いられる。３Ｄ音響技術については、非特許文献１において開示されている。しかし、このような３Ｄ音響技術は、受聴位置や、受聴者自体が変わった場合には、所望の信号が得られない。スピーカと受聴者の相対的な位置関係の影響の軽減については、いくつか検討されている。

　その一例である特許文献１では、左スピーカ、受聴者、右スピーカがなす角を８度から２０度にするステレオダイポールと呼ばれる再生方式を用いることで、スピーカと受聴者の相対的な位置ずれに対して頑健な制御を可能としている。

　また、特許文献２では、特許文献１で開示されたステレオダイポール方式の小型スピーカユニットをゲームコントローラに着脱可能としている。

　一方で、特許文献３は、ジョイスティックやボタンなどに加えてスピーカを備えたコントローラを有する家庭用ゲーム機システムを開示している。この家庭用ゲーム機システムでは、テレビよりもコントローラのほうがユーザとの距離が近いため、ユーザに聞き漏らしてほしくない重要な音情報をコントローラのスピーカから再生する方式について開示している。

特許第４５０８２９５号公報特開２００４－１２８６６９号公報特開２０１４－８１７２７号公報

「音響システムとディジタル処理」電子情報通信学会編発行、大賀寿郎、山崎芳男、金田豊、共著

　上述のように、所望の３Ｄ音響効果を得るためには、音像制御フィルタを設計した際に想定した位置、つまりスピーカと受聴者の想定位置において受聴する必要がある。スピーカ再生の場合、一般的には、テレビに設置されているスピーカ、もしくは、テレビ付近に設置されたスピーカを用いる場合が多く、このスピーカを用いて３Ｄ音響効果を得るためには、ユーザは想定された位置から動かずにゲームを楽しまなければならない。

　近年のゲーム機においては、コントローラは無線化され、無線信号が届く範囲であれば、ユーザは好きな場所に移動してゲームを楽しむことができる。このような状況にもかかわらず、ゲーム機で３Ｄ音響効果を得るために受聴位置が限定されるということは、ユーザが好みの位置でゲームを楽しむことができなくなり、ゲームの楽しみの一部を奪うことにもなる。

　また、ゲームソフトによっては、複数のユーザが同時に楽しむことができるものもある。複数人がスピーカと相対的に同じ位置でゲームを楽しむことは不可能であるため、複数のユーザが同時に楽しむようなゲームにおいては、ユーザ全員が３Ｄ音響効果を得ることはできないという課題がある。

　特許文献１において、受聴者の移動に対して頑健な音像制御方式について開示されているが、この方式では再生スピーカを固定した状態で、ユーザが動き回れるほどの自由度はなく、前述の課題を解決することはできない。

　本開示は、ユーザが受聴位置を限定されることなく、通常音および３Ｄ音響処理音とも快適に楽しむことができる音声再生システムを提供する。

　前述の課題を解決するため、本開示の一形態である音声再生システムは、複数の音声出力部を備える据え置き型の第１の出力装置に接続される音声処理装置と、複数の音声出力部を備えるポータブル型の第２の出力装置とを備え、前記音声処理装置は、前記第１の出力装置に出力する第１の音声出力信号と、前記第１の音声出力信号とは異なる前記第２の出力装置に出力する第２の音声出力信号とを生成し、前記第１および第２の音声出力信号のうち少なくとも前記第２の音声出力信号は、３Ｄ音響処理された信号を含む。

　この構成によれば、第１の出力装置から再生される第１の音声出力信号を楽しむのと同時に、ユーザが把持可能なポータブル型の第２の出力装置から３Ｄ音響処理された信号が再生されるため、ユーザの位置によらず快適な３Ｄ音響効果を享受することができる。

　また、前記音声再生システムにおいて、前記第１の出力装置は、前記第２の出力装置と比べて低い周波数帯域を再生可能であり、前記音声処理装置は、３Ｄ処理部と帯域分割フィルタと加算処理部とを備え、前記３Ｄ処理部は前記３Ｄ音響処理を行い、前記帯域分割フィルタは、前記第２の音声出力信号を、または、前記第２の音声出力信号が前記３Ｄ音響処理される前の音源信号を所定の遮断周波数で低周波数帯域信号と高周波数帯域信号とに分割し、前記加算処理部は、前記低周波数帯域信号を前記第１の音声出力信号に加算してもよい。

　この構成によれば、ポータブル型の第２の出力装置で再生しにくい低周波数帯域の信号を、据え置き型の第１の出力装置から再生するため、音質変化が少なく、かつ、より優れた３Ｄ音響効果を享受することが可能となる。

　また、前記音声処理装置は、さらに、前記第１の音声出力部の出力遅延と前記第２の音声出力部の出力遅延との遅延時間差を受聴位置において知覚しにくくするため、前記第１の音声信号および前記第２の音声信号の一方を補正する遅延補正部を備えてもよい。

　この構成によれば、第１の出力装置によって遅延する第２の音声出力信号の低域成分と、第２の出力装置から再生される第２の音声出力信号の高域成分との間で知覚される時間差を知覚しにくくすることができ、遅延時間差によって生じる違和感を低減することが可能となる。

　ここで、前記遅延補正部は、前記第２の音声信号を遅延させてもよい。

　この構成によれば、上記の遅延時間差そのものを小さくすることによって上記の違和感を低減することが可能となる。

　ここで、前記遅延補正部は、前記第２の音声信号のアタック成分を弱めてもよい。

　この構成によれば、第２の音声信号のアタック成分を弱めることによって上記の違和感を低減することが可能となる。

　また、前記３Ｄ音響処理は、受聴者の耳元に音像を知覚させる音響処理でもよい。

　この構成によれば、耳元に音像を生成することにより、より臨場感ある３Ｄ音響効果を実現することが可能となる。

　また、前記３Ｄ処理部は、前記第２の出力装置に対する前記受聴者の操作に応じて前記仮想音源の位置を変更してもよい。

　この構成によれば、状況に応じた臨場感あふれる音声再生をすることが可能となる。

　本開示によれば、ゲームのユーザが受聴位置を限定されることなく、通常音および３Ｄ音響処理音とも、快適に楽しむことが可能となる。

図１は、実施の形態１における音声再生システムの構成の一例を示す図である。図２は、実施の形態２における音声再生システムの構成の一例を示す図である。図３は、実施の形態２における音声再生システムの第１の変形例を示す図である。図４は、実施の形態２における音声再生システムの第２の変形例を示す図である。図５は、実施の形態２における音声再生システムの第３の変形例を示す図である。図６は、実施の形態３における音声再生システムの構成の一例を示す図である。図７は、実施の形態３における音声再生システムの第１の変形例を示す図である。図８は、実施の形態３における遅延補正部で使用する窓関数の一例を示す図である。図９は、実施の形態２における音声再生システムの第２の変形例を示す図である。図１０は、３Ｄ音声再生システムの構成の一例を示す図である。図１１は、ゲーム機システムの構成の一例を示す図である。

　（本発明の基礎となった知見）
　本発明者は、「背景技術」の欄において記載した音声再生システム（家庭用ゲーム機システム）に関し、以下の問題があることを見出した。

　まず、非特許文献１に開示された３Ｄ音響技術について説明する。

　図１０は、３Ｄ音声再生システムの構成の一例を示すブロック図である。以下、信号やフィルタは周波数領域で表すこととする。ＨＲＴＦは一般的には、有限長のインパルス応答、または、これを周波数領域に変換したもので表されるが、ここでは周波数領域で表したもので説明する。図１０の３Ｄ音声再生システムは、左スピーカ２０、右スピーカ２１、および音像制御部３０を備える。音像制御部３０は、音像制御フィルタ３１、および音像制御フィルタ３２を備える。音像制御フィルタ３１の伝達関数をＸｌ、音像制御フィルタ３２の伝達関数をＸｒとする。

　この例では、受聴者１０の前方に設置されたステレオスピーカ（左スピーカ２０、右スピーカ２１）を用いて、後方に配置された仮想スピーカ２２から入力信号Ｓを再生したのと同じ音を受聴者１０の両耳位置で再現する。左スピーカ２０、右スピーカ２１から受聴者１０の両耳までのＨＲＴＦをそれぞれ、Ｈｌｌ、Ｈｌｒ、Ｈｒｌ、Ｈｒｒ、また、仮想スピーカ２２から受聴者１０の両耳までのＨＲＴＦをＤｌ、Ｄｒとする。入力信号Ｓは、ここでは２チャンネルの音声信号である。左スピーカ２０、右スピーカ２１に入力される信号は、それぞれ音像制御フィルタ３１、３２でフィルタ処理された入力信号Ｓが入力される。この音像制御フィルタ３１、３２は、受聴者１０の両耳位置において、仮想スピーカ２２から入力信号Ｓを再生したのと同じ信号が得られるように設計される。

　具体的には、以下の式１をＸｌ、Ｘｒについて解く。＊は畳み込みを示す演算記号である。

　上記を満たすＸｌ、Ｘｒは、例えば式２によって求めることができる。

　必要な周波数におけるＸｌ、Ｘｒを上記の式２でそれぞれ求め、入力信号Ｓに畳み込んで再生することで、受聴者１０の両耳位置では仮想スピーカ２２から入力信号Ｓを出力したのと同じ信号が得られる。つまり、前方に設置された左スピーカ２０、右スピーカ２１から音を再生しても、受聴者１０は、仮想スピーカ２２から音が再生されていると知覚する。

　ここで、ＨＲＴＦにはスピーカと受聴者１０の両耳位置の間のすべての音響特性が含まれる。つまり、スピーカと受聴者１０の相対的な位置関係が変化した場合や、受聴者１０が他の人に変わった場合にはＨＲＴＦは変化する。そのため、上記で求めた音像制御フィルタ３１、３２の特性（伝達関数）は、厳密にはＨＲＴＦを計測した位置で、ＨＲＴＦを計測した受聴者１０が音像制御フィルタ３１、３２で制御された音を聞いた場合、所望の特性、つまり、両耳位置においてＤｌ＊Ｓ、Ｄｒ＊Ｓが再現される。しかし、受聴位置や、受聴者１０自体が変わった場合には、所望の信号が得られるとは限らない。

　受聴者１０が変わることへの対策として、ＨＲＴＦ計測にダミーヘッドを用いるのが一般的である。ダミーヘッドとは、人間の頭部、あるいは上半身を模したマネキンで、頭部や耳介を含めた形状、寸法が、標準的な人間のものに合わせて作られたものである。これを用いると、標準的な人間のＨＲＴＦが計測できるため、ＨＲＴＦの個人差による影響を少なくすることができる。

　一方で、音声再生システムの一例としての家庭用ゲーム機システムにおいては、ジョイスティックやボタンなどを備えたコントローラが用いられる、このコントローラにスピーカを備えたものがある。このような家庭用ゲーム機が接続されたＴＶのスピーカと、コントローラに搭載されたスピーカとを用いることで、新しい遊びが提案されている。

　図１１は、音声再生システムの一例として、特許文献３で開示されている、ＴＶのスピーカとコントローラに搭載されたスピーカとを用いたゲーム機システムの構成の一例を示す図である。ゲーム機システムはテレビ１１０と、テレビ１１０に接続されたゲーム機本体１２０および、コントローラ１３０から構成される。テレビ１１０は、テレビ画面１１１、および２つのテレビスピーカ１１２を備える。コントローラ１３０は、コントローラ画面１３１、十字キー１３２、制御ボタン１３３、ジョイスティック１３４、スピーカ１３５、コントローラ音量調整つまみ１３６、ヘッドホン端子１３７、カメラ１３８およびマイクロホン１３９を備える。

　テレビ１１０とゲーム機本体１２０は一般的にはＨＤＭＩ（登録商標）ケーブル等で接続され、ゲーム機本体１２０から出力されたゲームのビデオ信号がテレビ１１０のテレビ画面１１１に、また、オーディオ信号がテレビスピーカ１１２から出力される。ゲーム機本体１２０は、コントローラ１３０とも有線、もしくは無線で接続される。コントローラ１３０は、ユーザ１４０によってゲームの操作などに用いられる。コントローラ１３０はスピーカ１３５を備えており、ゲームの進行やユーザ操作に応じて、テレビスピーカ１１２とは異なった、もしくは同じオーディオ信号を出力する。特許文献３では、ユーザに聞き漏らしてほしくない重要な音情報をコントローラのスピーカから再生する。しかし、コントローラ１３０のスピーカ１３５から、３Ｄ音声再生をしていないという問題がある。さらに、スピーカ１３５が小型であることから、低周波数帯域の再生能力が乏しく、効果的な３Ｄ音声再生が困難である。

　また、特許文献２において、コントローラに搭載したスピーカで３Ｄ音響効果を提供する方式について開示されているが、コントローラに搭載可能なスピーカでは、一般的には数１００Ｈｚ以下の低い周波数帯域の音声は再生できない。近年のゲームソフトはマルチチャネルオーディオに対応しており、５．１ｃｈなどのホームシアタースピーカによるマルチチャネル再生環境を準備すれば、迫力あるオーディオ再生でゲームを楽しむことができる。コントローラに搭載したスピーカだけでは、このような音声の迫力を十分に発揮することは難しい。迫力だけでなく、再生する信号によっては、信号中の低域成分が再生されないことにより、音質が変わってしまい、違和感が生じることがある。また、３Ｄ音響処理した音声については、低域が再生されないことで、３Ｄ効果も弱くなり、臨場感ある再生を楽しむことができないという課題がある。

　本発明者は、上記のような音声再生システム（ゲーム機システム）において、コントローラ１３０のスピーカ１３５を用いて、効果的な３Ｄ音声再生が可能なことを見出した。

　そこで、本開示は、ユーザが受聴位置を限定されることなく、通常音および３Ｄ音響処理音とも快適に楽しむことができる音声再生システムを提供する。

　（実施の形態１）
　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

　以下、図面を用いて、実施の形態を説明する。

　図１は、実施の形態１における音声再生システム１００の構成の一例を示す図である。ここでは、音声再生システム１００を、図１１のゲーム機システムに適用した例として説明する。以下では、ゲーム機システムの映像処理および音声処理のうち、主として音声処理を中心に説明する。

　音声再生システム１００は、第１の出力装置４００に接続され、音声処理装置２００と、第２の出力装置３００とから構成される。なお、図１の第１の出力装置４００、第２の出力装置３００、音声処理装置２００は、図１１のテレビ１１０、ゲーム機本体１２０、コントローラ１３０にそれぞれ適用される。

　音声処理装置２００は、ここではゲーム機本体であり、読み取り可能な光ディスクに記録されたゲームプログラムなどに基づいてゲーム処理などを実行する。このゲーム処理には映像処理と音声処理とが含まれる。

　第１の出力装置４００は、ここではテレビであり、スピーカとして複数の音声出力部４１０、４１１（以下、テレビスピーカ４１０、４１１と記す）を備える。第１の出力装置４００はゲーム機本体である音声処理装置２００と一般的にはＨＤＭＩ（登録商標）ケーブルなどで接続され、ゲームの進行に応じて、ゲーム機本体としての音声処理装置２００から出力されたゲームのビデオ信号が第１の出力装置４００のテレビ画面１１１から、また、テレビ用オーディオ信号（第１の音声信号）がテレビスピーカ４１０、４１１から再生および出力される。

　音声処理装置２００は、ゲーム機本体として、第２の出力装置３００（コントローラ）とも無線、もしくは有線で接続されている。この音声処理装置２００は、第１の出力装置４００に出力する第１の音声出力信号と、第１の音声出力信号とは異なる第２の出力装置３００に出力する第２の音声出力信号とを生成する。第１および第２の音声出力信号のうち少なくとも第２の音声出力信号は、音声処理装置２００によって３Ｄ音響処理された信号を含む。

　第２の出力装置３００は、ここではゲームのコントローラであり、スピーカである音声出力部３３０、３３１（以下、スピーカ３３０、３３１と記す）を備える。第２の出力装置３００は、図１１のコントローラ１３０と同じ構成でよく、ジョイスティックなどを備える。ゲームを楽しむユーザが第２の出力装置３００を手で持つなどして操作する。音声処理装置２００は、ゲーム機本体として、そのユーザの操作に応じてゲームの進行を制御する。第２の出力装置３００は、ゲームの進行に応じて、音声処理装置２００から送信されたコントローラ用オーディオ信号（第２の音声信号）を再生する。ここでは、スピーカ３３０、３３１は２チャンネルスピーカである前提で説明するが、３チャンネル以上であってもよい。また、第２の出力装置３００は、音量調整部３２０を備え、例えば第２の出力装置３００に備えられた音量調整つまみなどによるユーザ操作に応じて、スピーカ３３０、３３１から再生される第２の音声信号の音量を調整することが可能である。

　ゲームプログラム内に記録されているオーディオ信号は、ゲーム機本体としての音声処理装置２００中のメモリなどに、音素材Ｂ２１１および音素材Ａ２１２として記憶される。

　音素材Ｂ２１１は、３Ｄ処理部２２０にて３Ｄ音響処理を施されて第２の音声信号としてスピーカ３３０、３３１から再生される。これにより、音素材Ｂ２１１が、例えば、ユーザの耳元から音が聞こえてくるような効果を出すことができる。ここで、３Ｄ音響処理としては、耳元への定位に限らず、他の定位位置を実現するものであってもよい。３Ｄ処理部２２０の一例は、図１０の音像制御部３０と同じ構成であり、音像制御フィルタ３１、音像制御フィルタ３２を備える。一般的には、音像制御フィルタ３１、３２は、ＦＩＲ（Ｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ）フィルタで実現されることが多いが、ＩＩＲ（Ｉｎｆｉｎｉｔｅ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ）フィルタで実現してもよく、複数のＦＩＲフィルタとＩＩＲフィルタを組み合わせたものなど、ＦＩＲフィルタ以外の構成であってもよい。音像制御フィルタ３１、３２の特性は、例えば上記の式１、式２を用いて説明した方法などにより設定される。また、図１０では１つの入力信号に対して１つの仮想スピーカ２２位置に音像を定位させるが、図１において異なる入力信号を異なる仮想スピーカ位置に定位させる場合には、仮想スピーカ位置の分、音像制御部３０を設け、それぞれの音源に対して音像制御処理を行ってもよい。

　３Ｄ処理部２２０で３Ｄ音響処理された音素材Ｂ２１１は、第２の音声信号として、無線通信部２３０にて無線通信信号に変換され、第２の出力装置３００に送信される。第２の出力装置３００で受信された無線通信信号は、第２の出力装置３００に備えられた無線通信部３１０にて第２の音声信号が取り出され、音量調整部３２０にて音量調整後、スピーカ３３０、３３１から再生される。

　音素材Ａ２１２は、第１の音声信号としてテレビスピーカ４１０、４１１から再生される。この音素材Ａ２１２は、テレビスピーカ４１０、４１１、つまり２スピーカの場合は一般的にはユーザの前方から再生されているように知覚することを想定して作成されてもよい。

　以上により、ユーザは、音素材Ｂ２１１に３Ｄ音響処理が施された第２の音声信号はユーザの耳元から、また、音素材Ａ２１２は第１の音声信号としてテレビスピーカ４１０からと、異なる位置にそれぞれの音像を知覚する。テレビスピーカの位置、コントローラのスピーカの位置に音像を知覚する特許文献３などの従来の音声再生システム（ゲーム機システム）と比べると、より臨場感あるオーディオ再生を実現することが可能となる。例えば、ホラー系のゲームなどにおいて、音素材Ｂ２１１として、後ろから襲いかかるゾンビの音声を、また、音素材Ａ２１２として、ＢＧＭを用いることで、より映像に忠実な音像を実現することができ、従来のゲーム機システムより臨場感あるオーディオの再生が可能となる。

　また、第２の出力装置３００（コントローラ）を複数準備することで、複数のユーザに対して同様のオーディオ再生を実現することができる。第２の出力装置３００はユーザが手で持って使用するため、スピーカ３３０、３３１で再生される３Ｄ効果については、複数のユーザに対して個別に効果を提供することができる。音素材Ａ２１１や３Ｄ処理部２２０を複数持ち、異なるコントローラに別の信号として送信することで、ユーザごとに異なるオーディオ再生を実現できることは言うまでもない。

　なお、通常テレビスピーカ４１０、４１１はステレオスピーカであることが多いが、３ｃｈ以上のスピーカを備えていてもよい。テレビスピーカ４１０、４１１の代わりに、サウンドバーなどと呼ばれるバータイプのアンプ付きスピーカや、ＡＶアンプなどを経由して別途５．１ｃｈなど、ホームシアタータイプのスピーカシステムを接続する形態であってもよい。５．１ｃｈスピーカである場合、音素材Ａ２１２をユーザの前方方向だけでなく、後方方向にも知覚させることが可能となり、より多彩なオーディオ再生が可能となる。

　（実施の形態２）
　本実施の形態では、ポータブル型の第２の出力装置３００では再生されにくいあるいは情報欠落しがちな第２の音声信号のうちの低周波数帯域の音声信号を、据え置き型の第１の出力装置４００で再生する音声再生システムについて説明する。

　図２は、実施の形態２における音声再生システム１００の構成の一例を示す図である。実施の形態１と同様に、本開示をゲーム機システムに適用した例として説明する。図２の音声処理装置２０１は、図１の音声処理装置２００に、音素材Ｃ２１０、帯域分割フィルタ２５０および、加算処理部２４０、２４１を追加した点で異なり、それ以外は図１と同様である。以下異なる点を中心に説明する。

　帯域分割フィルタ２５０は、第２の音声出力信号を、または、第２の音声出力信号が前記３Ｄ音響処理される前の音源信号（つまり音素材Ａ２１２）を所定の遮断周波数で低周波数帯域信号（つまり低域成分）と高周波数帯域信号（つまり高域成分）とに分割する。図２では、帯域分割フィルタ２５１は、音源信号ではなく３Ｄ音響処理された後の第２の音声出力信号を帯域分割している。

　加算処理部２４１は、上記の低周波数帯域信号を第１の音声出力信号に加算し、第１の出力装置４００に出力する。

　加算処理部２４０は、上記の高周波帯域信号を音素材Ｃ２１０の音声信号に加算し、第２の出力装置３００に出力する。音素材Ｃ２１０は、スピーカ３３０、３３１から３Ｄ音響処理なしで再生する音素材である。

　前述のように、第２の出力装置３００は一般的にはユーザが手に持って操作するものであるため、搭載されているスピーカ３３０、３３１も、その径が数センチメートルのモバイル機器向けの小型のものが用いられることが多い。テレビスピーカ４１０、４１１と比較すると、スピーカ３３０、３３１のほうが径は小さい場合が多く、スピーカ３３０、３３１はテレビスピーカ４１０、４１１より、再生可能な下限周波数帯域が高い。つまり、スピーカ３３０、３３１は、テレビスピーカ４１０、４１１と比較すると低域成分が再生しにくい。再生可能な下限周波数帯域より低いオーディオ信号をスピーカに入力しても、スピーカからは入力したレベルより非常に小さな音でしか再生されず、例えば、男性の音声などは音質が変わったような音として知覚される場合がある。また、音量が小さい分、入力レベルを大きくしすぎると、スピーカユニット自体を破損してしまう可能性もある。

　この課題を改善するため、図２では、帯域分割フィルタ２５０を導入する。帯域分割フィルタ２５０は、所定の遮断周波数、例えば、スピーカ３３０、３３１の再生下限周波数付近（スピーカの径や性能によるが、モバイル機器向けのスピーカユニットでは、一般的には数１００Ｈｚ付近である）において、第２の音声信号を高域成分と低域成分に分割する。帯域分割フィルタ２５０は３Ｄ処理部２２０からの第２の音声信号のうち、高域成分を加算処理部２４０に、また、低域成分を加算処理部２４１に出力する。音素材Ｂ２１１を３Ｄ音響処理した第２の音声信号のうち高域成分が音素材Ｃ２１０の音声信号と加算されてスピーカ３３０、３３１から、また低域成分が第１の音声信号と加算されてテレビスピーカ４１０、４１１から再生される。

　これにより、音素材Ｂ２１１のスピーカ３３０から再生することができない低い周波数の低域信号が、スピーカ３３０、３３１の代わりにテレビスピーカ４１０、４１１から再生される。これにより、低域成分の情報欠落を低減することができる。例えば、図１の方式では、低い周波数だけ含まれる背景音などをスピーカ３３０、３３１だけから再生しようとしても再生できず、情報欠落してしまうことになる場合であっても、図２の音声処理装置２０１では、低域成分がテレビスピーカ４１０、４１１から再生されるため、情報欠落を低減することができる。また、スピーカ３３０、３３１から再生する男性音声のような低域成分の音質変化も軽減することができる、ゲーム開発者が本来想定したものにより近いオーディオ再生を実現することが可能となる。

　なお、図３のように、音声再生システム１００は、音声処理装置２０１の代わりに音声処理装置２０２を備えてもよい。図３は、実施の形態２における音声再生システムの第１の変形例を示す図である。図３において、音声処理装置２０２は、音声処理装置２０１と比べて、加算処理部２４０が帯域分割フィルタ２５１の後段ではなく前段に設けられている。加算処理部２４０の出力は、第２の音声信号だけでなく音素材Ｃ２１０の音声信号も含まれている。これにより、帯域分割フィルタ２５０は、第２の音声信号だけでなく音素材Ｃ２１０の音声信号も帯域分割し、高域成分を２３０に、低域成分を加算処理部２４１に出力する。これにより、音素材Ｃ２１０の低域成分も漏れなくテレビスピーカ４１０、４１１を利用して再生することができる、という利点がある。

　また、図４のように、音声再生システム１００は、音声処理装置２０１の代わりに音声処理装置２０３を備えてもよい。図４は、実施の形態２における音声再生システムの第２の変形例を示す図である。音声処理装置２０３は、音声処理装置２０１と比べて、帯域分割フィルタ２５１が追加され、帯域分割フィルタ２５０の配置が異なっている。

　また、図５のように、音声再生システム１００は、音声処理装置２０３の代わりに音声処理装置２０４を備えてもよい。図５は、実施の形態２における音声再生システムの第３の変形例を示す図である。音声処理装置２０４は、音声処理装置２０３と比べて、３Ｄ処理部２２１が追加されている。このように、帯域分割フィルタ２５１の出力（低域成分）を、３Ｄ処理部２２１にてテレビスピーカ４１０、４１１での再生用に別途３Ｄ音響処理してもよい。ここで、３Ｄ処理部２２０と３Ｄ処理部２２１は同じ３Ｄ効果を奏するものであるのが望ましい。具体的には、例えばユーザの耳元に定位させるなどである。これにより、より強い３Ｄ効果を得ることが可能となる。

　（実施の形態３）
　図６は、本開示の実施の形態３における音声再生システムの構成の一例を示す図である。実施の形態１、２と同様に、本開示における音声再生システムをゲーム機システムに適用した例として説明する。

　図６は、図２と比べて、遅延補正部２６０を追加した点で異なっている。以下異なる点を中心に説明する。

　図２の音声処理装置２００から第１の出力装置４００（テレビ）にビデオおよび第２の音声信号が入力されてから、実際にテレビ画面およびテレビスピーカ４１０、４１１から出力されるまでには遅延時間がある。一方、音声処理装置２００から第２の出力装置３００に第１の音声信号が入力されてから、実際にスピーカ３３０、３３１から出力されるまでにも遅延時間がある。これらの遅延時間は同じとは限らず異なることが多い。つまり、本来、３Ｄ処理部２２０の出力は、低域成分、高域成分とも同期して（つまり遅延時間差が０で）再生されるべきであるが、この遅延時間差分、遅れてテレビスピーカ４１０、４１１から再生されてしまうことなり、ユーザの音の知覚に影響を与える。この課題を解決するため、図６の音声処理装置２０５では遅延補正部２６０を導入している。遅延補正部２６０は、前述の、テレビスピーカ４１０、４１１からの再生時に生じる上記の遅延時間差を打ち消すように遅延時間を生じさせる。これにより、スピーカ３３０、３３１とテレビスピーカ４１０、４１１から再生される音は時間差なく再生されるようになる。

　一般的に、第１の出力装置４００の出力遅延時間は、第１の出力装置４００の機種や動作モードによって変化する。そこで、ユーザが遅延補正部２６０で補正する遅延時間を調整可能としてもよい。ｍＳ単位で調整可能でもよく、あるいは、いくつかの代表的な遅延時間のパターンをもち、ユーザはその中から違和感のない、最適なものを選択可能としてもよい。

　また、遅延補正部２６０は、図７の音声処理装置２０６のように、帯域分割フィルタ２５０と無線通信部２３０の間に設置されてもよい。図７は、実施の形態３における音声再生システムの第１の変形例を示す図である。同図では、スピーカ３３０、３３１から出力される信号全てと、テレビスピーカ４１０から再生される信号との遅延差が補正されるため、音声再生システム１００としてのすべてのオーディオ再生を同期させることが可能となる。

　また、図３、図４の音声処理装置２０２、２０３に、図６、図７のように遅延補正部２６０を追加してもよい。

　また、我々の実験の結果、立ち上がりが鋭い音響信号に対して、この遅延時間の影響が大きく知覚されやすいことがわかっている。このことから、図６の遅延補正部２６０は遅延時間を生じさせるものでなく、第２の音声信号のアタック成分を弱めてもよい。例えば、遅延補正部２６０は、第２の音声信号の立ち上がり成分に対して図８に示すような窓関数を乗算してもよい。図８は、実施の形態３における遅延補正部２６０で使用する窓関数の一例を示す図である。図８のグラフの横軸はサンプル数を、縦軸は乗算するゲインを示す。同図のグラフは、ハニング窓の前半部分を取り出したものである。このような窓関数をオーディオ信号に乗算することで、急峻な音の立ち上がりを滑らかにすることができるため、スピーカ３３０、３３１とテレビスピーカ４１０、４１１との間の到達時間差を知覚的に軽減させることができる。なお、図８に示した窓関数は一例であり、窓の形や窓長（ゲインが０から１になるまでのサンプル数）を変えてもよい。窓の形としては例えばハニング窓、ハミング窓など、ゲインが０から１に滑らかに変化するものを使うことができる。さらに、立ち上がりが鋭い音響信号を検出し、その信号に対しては低域成分を出力しない（スピーカ３３０、３３１のみから出力する）でもよい。本処理をリアルタイムで実現する場合には、立ち上がりの鋭さを検出する検出部を設け、検出部で検出した鋭さがある閾値を超えた場合には低域成分を出力しないようにすればよい。例えば、図８記載の窓関数のゲイン値をすべて０にする、もしくは別途低域成分の出力を制御するスイッチを設け、出力しないようにスイッチを切り替えてもよい。

　実施の形態１から３における３Ｄ処理部２２０にて実施する３Ｄ音響処理は、外部からの制御によって、仮想音源位置を変化させたり、３Ｄ音響処理に用いる音像制御フィルタ３１、３２の特性自体を変化させたりしてもよい。仮想音源位置を変化させる例としては、例えば、ユーザによるジョイスティックの制御を反映させる方法がある。ゲームにおけるオーディオ再生は、あたかもユーザ自身がキャラクタになったかのような再生を実現することで、より没入感を演出することが可能となる。ユーザがゲームソフトに登場するキャラクタをジョイスティックで操作するのに応じて、再生するオーディオも変化させるとよい。具体的には、ジョイスティックでキャラクタの顔向きや立ち位置が変化した場合、それに応じてゲーム内で発生する音源（例えば、発砲音や別のキャラクタの音声など）の位置を変化させる。それにより、実際にユーザがキャラクタ自身になり、ゲーム内に入り込んだような感覚を提供することができる。ゲーム機本体として音声処理装置２０５では、キャラクタと、すべて、もしくはある特定の音源位置との間の距離と方向を算出し、それに応じて仮想音源位置を変化させた３Ｄ音響処理を行う。その際、３Ｄ音響処理のみでなくテレビスピーカ４１０、４１１や第２の出力装置３００から通常再生される音素材についても、パニング処理などによって変化させてもよい。また、３Ｄ音響処理における仮想音源位置が、テレビスピーカ４１０、４１１やスピーカ３３０、３３１の位置と同じ、もしくは近い位置である場合には、テレビスピーカ４１０、４１１もしくはスピーカ３３０、３３１から３Ｄ音響処理なしで再生してもよい。例えば、車がゲーム内のキャラクタの右前方からキャラクタのすぐ右を通って右後ろに走り抜ける場合、車の音を、テレビスピーカ４１０、４１１の右スピーカから徐々に音量を上げて再生し、徐々に音量を下げ、それに応じてスピーカ３３０、３３１の通常出力が徐々に音量を上げていく。その後、スピーカ３３０、３３１の通常出力の音量が下がり、スピーカ３３０、３３１の３Ｄ出力の音量が徐々に上がり、また徐々に音量を下げる。その際、３Ｄ音響処理としては、ユーザの右耳元に仮想音源があるような処理を行う。このような処理を行うことで、ユーザは右側前方から徐々に車が近づいてきて通り過ぎたような効果を得ることができる。

　また、第２の出力装置などに搭載されたカメラの画像を用いて顔認識の結果を受け、音像制御フィルタを切り替えてもよい。前述のように、音像制御フィルタ３１、３２は受聴者が変わるとその効果も変わる。例えば、顔認識によって、ユーザの性別や顔の大きさなどを検出し、それに応じて事前に準備しているうちの最適な音像制御フィルタを用いてもよい。これにより、ダミーヘッドのＨＲＴＦによる音像制御フィルタ３１、３２により、より正確な音像制御が可能となる。

　また、３Ｄ音響処理された音響信号が再生される際、それ以外の音響信号の音量を下げてもよい。これにより、３Ｄ音響処理した音を強調することができ、より臨場感を増すことが可能となる。

　上記において、音素材Ｃ２１０、音素材Ｂ２１１、音素材Ａ２１２はすべて同時に再生されてもよいし、いずれか一つもしくは複数を選択して再生されてもよい。

　また、図９は、実施の形態２における音声再生システムの第２の変形例を示す図である。図９のように音素材Ｃ２１０が無くても、本開示の有効性は損なわれない。

　実施の形態１から３において、音素材Ｃ２１０、音素材Ｂ２１１および音素材Ａ２１２に対して、リアルタイムに処理する方式を説明したが、音素材Ｃ２１０、音素材Ｂ２１１および音素材Ａ２１２のすべて、あるいは一部に対して、リアルタイム処理でなく、それぞれの音素材に対してあらかじめ所定の処理を施し、その結果をゲームソフトに保持して再生してもよい。その際には、３Ｄ処理部２２０や帯域分割フィルタ２５０、遅延補正部２６０などのリアルタイムでの処理が不要となるため、音声処理装置２００の処理負荷を抑えることが可能となる。

　また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　本開示にかかる音声再生システムは、ユーザが移動した場合でも快適なオーディオ再生と３Ｄ音響効果を享受できるので、幅広く音声再生システムに応用できる。

１０　受聴者
２０　左スピーカ
２１　右スピーカ
２２　仮想スピーカ
３０　音像制御部
３１、３２　音像制御フィルタ
１００　音声再生システム
１１０、４００　第１の出力装置（テレビ）
１１１　テレビ画面
１１２、４１０、４１１　テレビスピーカ（音声出力部）
１２０　ゲーム機本体
１３０、３００　第２の出力装置（コントローラ）
１３１　コントローラ画面
１３２　十字キー
１３３　制御ボタン
１３４　ジョイスティック
１３５、３３０、３３１　スピーカ（音声出力部）
１３６　コントローラ音量調整つまみ
１３７　ヘッドホン端子
１３８　カメラ
１３９　マイクロホン
１４０　ユーザ
２００～２０７　音声処理装置（ゲーム機本体）
２１０　音素材Ｃ
２１１　音素材Ｂ
２１２　音素材Ａ
２２０、２２１　３Ｄ処理部
２３０、３１０　無線通信部
２４０、２４１　加算処理部
２５０、２５１　帯域分割フィルタ
２６０　遅延補正部
３２０　音量調整部

Claims

　複数の音声出力部を備える据え置き型の第１の出力装置に接続される音声処理装置と、
　複数の音声出力部を備えるポータブル型の第２の出力装置と
を備え、
　前記音声処理装置は、前記第１の出力装置に出力する第１の音声出力信号と、前記第１の音声出力信号とは異なる前記第２の出力装置に出力する第２の音声出力信号とを生成し、
　前記第１および第２の音声出力信号のうち少なくとも前記第２の音声出力信号は、３Ｄ音響処理された信号を含む
音声再生システム。
　前記第１の出力装置は、前記第２の出力装置と比べて低い周波数帯域を再生可能であり、
　前記音声処理装置は、３Ｄ処理部と帯域分割フィルタと加算処理部とを備え、
　前記３Ｄ処理部は、前記３Ｄ音響処理を行い、
　前記帯域分割フィルタは、前記第２の音声出力信号を、または、前記第２の音声出力信号が前記３Ｄ音響処理される前の音源信号を所定の遮断周波数で低周波数帯域信号と高周波数帯域信号とに分割し、
　前記加算処理部は、前記低周波数帯域信号を前記第１の音声出力信号に加算する
請求項１記載の音声再生システム。
　前記音声処理装置は、さらに、前記第１の音声出力部の出力遅延と前記第２の音声出力部の出力遅延との遅延時間差を受聴位置において知覚しにくくするため、前記第１の音声信号および前記第２の音声信号の一方を補正する遅延補正部を備える
請求項２記載の音声再生システム。
　前記遅延補正部は、前記第２の音声信号を遅延させる
請求項３記載の音声再生システム。
　前記遅延補正部は、前記第２の音声出力信号のアタック成分を弱める
請求項３記載の音声再生システム。
　前記３Ｄ音響処理は、受聴者の耳元に仮想音源を知覚させる音響処理である
請求項１から５の何れか１項に記載の音声再生システム。
　前記３Ｄ処理部は、前記第２の出力装置に対する前記受聴者の操作に応じて前記仮想音源の位置を変更する
請求項６記載の音声再生システム。