JPWO2017082050A1

JPWO2017082050A1 - デコード装置、デコード方法、およびプログラム

Info

Publication number: JPWO2017082050A1
Application number: JP2017550052A
Authority: JP
Inventors: 光行畠中; 徹知念; 辻　実; 実辻; 本間　弘幸; 弘幸本間
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-11-09
Filing date: 2016-10-26
Publication date: 2018-08-30
Anticipated expiration: 2036-10-26
Also published as: EP3376500A1; JP6807033B2; EP3376500B1; US20180286419A1; WO2017082050A1; BR112018008874A8; CN108352165B; US10553230B2; RU2718418C2; KR20180081504A; RU2018115550A; BR112018008874A2; CN108352165A; RU2018115550A3; EP3376500A4

Abstract

本開示は、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力することができるようにするデコード装置、デコード方法、およびプログラムに関する。
本開示の一側面であるデコード装置は、複数のオーディオ符号化ビットストリームを取得する取得部と、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、前記選択部を介して入力される前記一つに対して、IMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。本開示は、例えば、受信装置、再生装置などに適用できる。

Description

本開示は、デコード装置、デコード方法、およびプログラムに関し、特に、再生タイミングが同期されているオーディオ符号化ビットストリーム間で出力を切り替える場合に用いて好適なデコード装置、デコード方法、およびプログラムに関する。

例えば映画やニュース、スポーツ中継などのコンテンツでは、映像に対して複数の言語（例えば、日本語と英語）の音声が用意されているものがあり、この場合、複数の音声は再生タイミングが同期されたものとなる。

以下、再生タイミングが同期されている音声は、それぞれオーディオ符号化ビットストリームとして用意されており、該オーディオ符号化ビットストリームは、少なくともMDCT(Modified Discrete Cosine Transform)処理を含むAAC（Advanced Audio Coding）などのエンコード処理によって可変長符号化されていることを前提とする。なお、MDCT処理を含むMPEG-2 AAC音声符号化方式は地上デジタルテレビジョン放送に採用されている（例えば、非特許文献１参照）。

図１は、音声のソースデータに対してエンコード処理を行うエンコード装置と、エンコード装置から出力されるオーディオ符号化ビットストリームに対してデコード処理を行うデコード装置の従来の構成の一例を簡素化して示している。

エンコード装置１０は、MDCT部１１、量子化部１２、および可変長符号化部１３を有する。

MDCT部１１は、前段から入力される音声のソースデータを所定の時間幅を有するフレーム単位に区分し、前後するフレームが重複するようにMDCT処理を行うことにより、時間領域の値であったソースデータを周波数領域の値に変換して量子化部１２に出力する。量子化部１２は、MDCT部１１からの入力を量子化して可変長符号化部１３に出力する。可変長符号化部１３は、量子化された値を可変長符号化することによりオーディオ符号化ビットストリームを生成、出力する。

デコード装置２０は、例えば、放送または配信されるコンテンツを受信する受信装置や、記録メディアに記録されているコンテンツを再生する再生装置などに搭載されるものであり、復号部２１、逆量子化部２２、およびIMDCT(Inverse MDCT)部２３を有する。

可変長符号化部１３に対応する復号部２１は、オーディオ符号化ビットストリームに対してフレーム単位で復号処理を行い、復号結果を逆量子化部２２に出力する。量子化部１２に対応する逆量子化部２２は、復号結果に対して逆量子化を行い、処理結果をIMDCT部２３に出力する。MDCT部１１に対応するIMDCT部２３は、逆量子化結果に対してIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成する。IMDCT部２３によるIMDCT処理について詳述する。

図２は、IMDCT部２３によるIMDCT処理を示している。

同図に示されるように、IMDCT部２３では、前後する２フレーム分（Frame#1とFrame#2）のオーディオ符号化ビットストリーム（の逆量子化結果）BS1-1とBS1-2を対象としてIMDCT処理を行うことによって逆変換結果としてIMDCT-OUT#1-1を得る。また、上記と重複する２フレーム分（Frame#2とFrame#3）のオーディオ符号化ビットストリーム（の逆量子化結果）BS1-2とBS1-3を対象としてIMDCT処理を行うことによって逆変換結果としてIMDCT-OUT#1-2を得る。さらに、IMDCT-OUT#1-1とIMDCT-OUT#1-2をオーバラップ加算することにより、Frame#2に対応するPCMデータであるPCM1-2が完全に再構成される。

同様の方法により、Frame#3以降に対応するPCMデータ1-3，・・・についても完全に再構成される。

ただし、ここで用いる「完全」の用語は、オーバラップ加算までの処理を含めてPCMデータを再構成できたことを意味するものであり、ソースデータが１００％再現されていることを意味するものではない。

ＡＲＩＢＳＴＤ−Ｂ３２２．２版平成２７年７月２９日

ここで、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力することを考える。

図３は、従来手法により、再生タイミングが同期されている第１のオーディオ符号化ビットストリームから第２のオーディオ符号化ビットストリームに切り替える場合の様子を示している。

同図に示されるように、Frame#2とFrame#3の間を切り替え境界位置として、第１のオーディオ符号化ビットストリームから第２のオーディオ符号化ビットストリームに切り替える場合、第１のオーディオ符号化ビットストリームについてはFrame#2に対応するPCM1-2までがデコード、出力される。そして、切り替え後の第２のオーディオ符号化ビットストリームについてはFrame#3に対応するPCM2-3以降がデコード、出力される。

ところで、図２を参照して説明したように、PCM1-2を得るためには、逆変換結果IMDCT-OUT#1-1とIMDCT-OUT#1-2が必要である。同様に、PCM2-3を得るためには、逆変換結果IMDCT-OUT#2-2とIMDCT-OUT#2-3が必要である。したがって、同図に示される切り替えを実行するためには、Frame#2からFrame#3の期間は、第１および第２のオーディオ符号化ビットストリームに対してIMDCT処理を含むデコード処理を平行して同時に実行しなければならない。

しかしながら、IMDCT処理を含むデコード処理を平行して同時に実行するには、IMDCT処理を含むデコード処理をハードウェアで実現する場合、同様に構成されたハードウェアが複数必要になり、回路規模の拡大やコスト高となる。

また、IMDCT処理を含むデコード処理をソフトウェアによって実現する場合、CPUの処理能力によっては音切れ、異音発生などの問題が生じ得るので、これを防ぐには高性能なCPUが必要となり、やはりコスト高となってしまう。

本開示はこのような状況に鑑みてなされたものであり、回路規模の拡大やコスト高を招くことなく、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力できるようにするものである。

本開示の一側面であるデコード装置は、再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。

本開示の一側面であるデコード装置は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前後のフレームのデコード処理結果に対してフェード処理を行うフェード処理部をさらに備えることができる。

前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行うことができる。

前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してミュート処理を行うことができる。

前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してミュート処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行うことができる。

前記選択部は、前記複数のオーディオ符号化ビットストリームの供給側において設定された、各フレームに付加されている切り替え最適位置フラグに基づいて前記境界位置を決定することができる。

前記切り替え最適位置フラグは、前記オーディオ符号化ビットストリームの供給側において、前記ソースデータのエネルギまたは文脈に基づいて設定されているようにすることができる。

前記選択部は、前記複数のオーディオ符号化ビットストリームのゲインに関する情報に基づいて前記境界位置を決定することができる。

本開示の一側面であるデコード方法は、デコード装置のデコード方法において、前記デコード装置による、再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得ステップと、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定する決定ステップと、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理ステップに供給する選択ステップと、選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理ステップとを含み、前記デコード処理ステップは、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。

本開示の一側面であるプログラムは、コンピュータを、再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部として機能させ、前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する。

本開示の一側面においては、複数のオーディオ符号化ビットストリームが取得され、前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置が決定され、前記境界位置に応じて選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、MDCT処理に対応するIMDCT処理を含むデコード処理が行われる。このデコード処理では、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算が省略される。

本開示の一側面によれば、再生タイミングが同期されている複数のオーディオ符号化ビットストリームをできる限り速やかに切り替えてデコード、出力することができる。

エンコード装置とデコード装置の構成の一例を示すブロック図である。 IMDCT処理を説明する図である。オーディオ符号化ビットストリームの切り替えの様子を示す図である。本開示を適用したデコード装置の構成例を示すブロック図である。図４のデコード装置による、オーディオ符号化ビットストリームの第１の切り替え方法を示す図である。音声切り替え処理を説明するフローチャートである。切り替え最適位置フラグ設定処理を説明するフローチャートである。切り替え最適位置フラグ設定処理の様子を示す図である。切り替え境界位置決定処理を説明するフローチャートである。切り替え境界位置決定処理の様子を示す図である。図４のデコード装置による、オーディオ符号化ビットストリームの第２の切り替え方法を示す図である。図４のデコード装置による、オーディオ符号化ビットストリームの第３の切り替え方法を示す図である。汎用のコンピュータの構成例を示すブロック図である。

以下、本開示を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。

＜本開示の実施の形態であるデコード装置の構成例＞
図４は、本開示の実施の形態であるデコード装置の構成例を示している。

このデコード装置３０は、例えば、放送または配信されるコンテンツを受信する受信装置や、記録メディアに記録されているコンテンツを再生する再生装置などに搭載されるものである。また、デコード装置３０は、再生タイミングが同期されている第１および第２のオーディオ符号化ビットストリームを速やかに切り替えてデコードして出力できるものである。

第１および第２のオーディオ符号化ビットストリームは、音声のソースデータが少なくともMDCT処理を含むエンコード処理によって可変長符号化されているものとする。また、以下、第１および第２のオーディオ符号化ビットストリームを、単に、第１および第２の符号化ビットストリームとも記載する。

デコード装置３０は、多重分離部３１、復号部３２−１および３２−２、選択部３３、デコード処理部３４、並びにフェード処理部３７を有する。

多重分離部１１は、前段から入力される多重化ストリームから、再生タイミングが同期されている第１の符号化ビットストリームと第２の符号化ストリームを分離する。さらに、多重化部１１は、第１の符号化ビットストリームを復号部３２−１に出力し、第２の符号化ストリームを復号部３２−２に出力する。

復号部３２−１は、第１の符号化ビットストリームを対象としてその可変長符号を復号する復号処理を行い、処理結果（以下、量子化データと称する）を選択部３３に出力する。復号部３２−２は、第２の符号化ビットストリームを対象としてその可変長符号を復号する復号処理を行い、処理結果の量子化データを選択部３３に出力する。

選択部３３は、ユーザからの音声切り替え指示に基づいて切り替え境界位置を決定し、決定した切り替え境界位置に従い、復号部３２−１または復号部３２−２からの量子化データをデコード処理部３４に出力する。

また、選択部３３は、第１および第２の符号化ビットストリームにフレーム毎に付加されている切り替え最適位置フラグに基づいて切り替え境界位置を決定することもできる。これについては、図７乃至図１０を参照して後述する。

デコード処理部３４は、逆量子化部３５およびIMDCT部３６を有する。逆量子化部３５は、選択部３３を介して入力される量子化データに対して逆量子化を行い、その逆量子化結果（以下、MDCTデータと称する）をIMDCT部３６に出力する。IMDCT部３６は、MDCTデータに対してIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成する。

ただし、IMDCT部３６は、全てのフレームにそれぞれ対応するPCMデータを完全に再構成するわけではなく、切り替え境界位置付近のフレームについては不完全な状態で再構成されたPCMデータも出力する。

フェード処理部３７は、デコード処理部３４から入力される切り替え境界位置付近のPCMデータに対してフェードアウト処理、フェードイン処理、またはミュート処理を行って後段に出力する。

なお、図４に示された構成例では、デコード装置３０に対しては第１および第２の符号化ビットストリームが多重化されている多重化ストリームが入力される場合を示しているが、多重化ストリームにはより多くの符号化ビットストリームが多重化されていてもよい。その場合、多重化されている符号化ビットストリームの数に合わせて復号部３２の数を増やしてもよい。

また、デコード装置３０に対して多重化ストリームが入力されるのではなく、複数の符号化ビットストリームがそれぞれ個別に入力されるようにしてもよい。その場合、多重分離部３１は省略できる。

＜デコード装置３０による符号化ビットストリームの第１の切り替え方法＞
次に、図５は、デコード装置３０による符号化ビットストリームの第１の切り替え方法を示している。

同図に示されるように、Frame#2とFrame#3の間を切り替え境界位置として、第１の符号化ビットストリームから第２の符号化ビットストリームに切り替える場合、第１の符号化ビットストリームについては、切り替え境界位置直前のFrame#2までをIMDCT処理の対象とする。この場合、Frame#1に対応するPCM1-1までは完全に再構成できるが、Frame#2に対応するPCM1-2の再構成は不完全なものとなる。

一方、第２の符号化ビットストリームについては、切り替え境界位置直後のFrame#3からをIMDCT処理の対象とする。この場合、Frame#3に対応するPCM2-3の再構成は不完全となり、Frame#4に対応するPCM2-4以降から完全に再構成するようにする。

ここで、「不完全な再構成」とは、オーバラップ加算を行うことなく、IMDCT-OUTの前半または後半をそのままPCMデータをして用いることを指す。

いまの場合、第１の符号化ビットストリームのFrame#2に対応するPCM1-2には、MDCT-OUT#1-1の後半をそのまま用いればよい。同様に、第２の符号化ビットストリームのFrame#3に対応するPCM2-3には、MDCT-OUT#2-3の前半をそのまま用いればよい。なお、当然ながら、不完全に再構成されたPCM1-2やPCM2-3は、完全に再構成された場合に比較して音質が劣化したものとなる。

そして、PCMデータの出力に際しては、Frame#1に対応する完全に再構成されたPCM1-1までは通常の音量で出力する。切り替え境界位置直前のFrame#2に対応する不完全なPCM1-2についてはフェードアウト処理によって徐々に音量を下げ、切り替え境界位置直後のFrame#3に対応する不完全なPCM2-3についてはフェードイン処理によって徐々に音量を上げるようにする。そして、Frame#4以降は完全に再構成されたPCM2-4，・・・を通常の音量で出力するようにする。

このように、替え境界位置直後では不完全に再構成されたPCMデータを出力することにより、２つのデコード処理を平行に実行する必要性を無くすることができる。また、不完全なPCMデータをフェードアウト処理とフェードイン処理で繋ぐことにより、音声の切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。

なお、デコード装置３０による符号化ビットストリームの切り替え方法は、上述した第１の切り替え方法に限るものではなく、後述する第２または第３の切り替え方法を採用することもできる。

＜デコード装置３０による音声切り替え処理＞
次に、図６は、図５に示された第１の切り替え方法に対応する、音声切り替え処理を説明するフローチャートである。

該音声切り替え処理の前提として、デコード装置３０においては、多重化分離部１１により、多重化ストリームから第１および第２の符号化ビットストリームが分離され、それぞれが復号部３２−１または３１−２によって復号されているものとする。また、選択部３３により、復号部３２−１および３１−２からの量子化データの一方が選択されてデコード処理部３４に入力されているものとする。

以下、選択部３３により、復号部３２−１からの量子化データが選択されてデコード処理部３４に入力されている場合について説明する。これにより、現在、デコード装置３０からは第１の符号化ビットストリームに基づくPCMデータが通常の音量で出力されている状態となっている。

ステップＳ１において、選択部３３は、ユーザから音声切り替え指示があったか否かを判断し、音声切り替え指示があるまで待機する。この待機の間、選択部３３による選択的な出力は維持される。すなわち、デコード装置３０からは第１の符号化ビットストリームに基づくPCMデータが通常の音量で継続して出力される。

ユーザから音声切り替え指示があった場合、処理はステップＳ２に進められる。ステップＳ２において、選択部３３は、音声の切り替え境界位置を決定する。例えば、音声切り替え指示があってから所定数のフレームが経過した後を音声の切り替え境界位置に決定する。ただし、符号化ビットストリームに含まれる切り替え最適位置フラグに基づいて決定してもよい（詳細後述）。

いまの場合、図５に示されたように、Frame#2とFrame#3の間が切り替え境界位置に決定されたものとする。

この後、ステップＳ３において、選択部３３は、決定した切り替え境界位置の直前のフレームに対応する量子化データをデコード処理部３４に出力するまで現在の選択を維持する。すなわち、復号部３２−１からの量子化データを後段に出力する。

ステップＳ４において、デコード処理部３４の逆量子化部３５は、第１の符号化ビットストリームに基づく量子化データの逆量子化を行い、その結果得られたMDCTデータをIMDCT部３６に出力する。IMDCT部３６は、切り替え境界位置の直前のフレームに対応するMDCTデータまでを対象としてIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成してフェード処理部３７に出力する。

いまの場合、Frame#1に対応するPCM1-1までは完全に再構成できるが、Frame#2に対応するPCM1-2の再構成は不完全なものとなる。

ステップＳ５において、フェード処理部３７は、デコード処理部３４から入力される切り替え境界位置の直前のフレームに対応する不完全なPCMデータ（いまの場合、Frame#2に対応するPCM1-2）に対してフェードアウト処理を行って後段に出力する。

次に、ステップＳ６において、選択部３３は、デコード処理部３４に対する出力を切り替える。すなわち、復号部３２−２からの量子化データを後段に出力する。

ステップＳ７において、デコード処理部３４の逆量子化部３５は、第２の符号化ビットストリームに基づく量子化データの逆量子化を行い、その結果得られたMDCTデータをIMDCT部３６に出力する。IMDCT部３６は、切り替え境界位置の直後のフレームに対応するMDCTデータからを対象としてIMDCT処理を行うことにより、エンコード前のソースデータに対応するPCMデータを再構成してフェード処理部３７に出力する。

いまの場合、Frame#3に対応するPCM2-3の再構成は不完全なものとなり、Frame#4に対応するPCM2-4以降は完全に再構成される。

ステップＳ８において、フェード処理部３７は、デコード処理部３４から入力される切り替え境界位置の直後のフレームに対応する不完全なPCMデータ（いまの場合、Frame#3に対応するPCM2-3）に対してフェードイン処理を行って後段に出力する。この後、処理はステップＳ１に戻されて、それ以降が繰り返される。

以上で、デコード装置３０による音声切り替え処理の説明を終了する。上述した音声切り替え処理によれば、２つのデコード処理を平行に実行することなく、音声の符号化ビットストリームを切り替えることができる。また、音声に切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。

＜切り替え最適位置フラグ設定処理＞
上述した音声切り替え処理では、ユーザから音声切り替え指示に応じて、それから所定数のフレームが経過した後を音声の切り替え境界位置に決定していた。しかしながら、切り替え境界位置付近にフェードアウト処理およびフェードイン処理を実行することを考慮すると、切り替え境界位置としては、音声ができるだけ無音に近い状態の位置であるか、または、文脈に応じて一時的に音量を下げても一連の言葉や会話の意味が成立する位置であることが望ましい。

そこで、次に、コンテンツの供給側にて音声ができるだけ無音に近い状態（すなわち、ソースデータのゲインまたはエネルギが小さい状態）を検出して、そこに切り替え最適位置フラグを立てる処理（以下、切り替え最適位置フラグ設定処理）について説明する。

図７は、コンテンツの供給側にて実行される切り替え最適位置フラグ設定処理を説明するフローチャートである。図８は、切り替え最適位置フラグ設定処理の様子を示している。

ステップＳ２１では、前段から入力される第１および第２のソースデータ（再生タイミングが同期されている第１および第２の符号化ビットストリームぞれぞれの元）がフレーム単位に区切られ、ステップＳ２２では、区切られた各フレームにおけるエネルギが測定される。

ステップＳ２３では、フレーム毎に第１および第２のソースデータのエネルギが所定の閾値以下であるか否かが判定される。第１および第２のソースデータのエネルギがともに所定の閾値以下である場合、処理はステップＳ２４に進められて、該フレームに対する切り替え最適位置フラグは、切り替え最適位置であることを意味する「１」に設定される。

反対に、第１または第２のソースデータの少なくとも一方のエネルギが所定の閾値よりも大きい場合、処理はステップＳ２５に進められて、該フレームに対する切り替え最適位置フラグは、切り替え最適位置ではないことを意味する「０」に設定される。

ステップＳ２６では、第１および第２のソースデータの入力が終了したか否か判定され、第１および第２のソースデータの入力が継続している場合、処理はステップＳ２１に戻されてそれ以降が繰り返される。第１および第２のソースデータの入力が終了した場合、切り替え最適位置フラグ設定処理は終了される。

次に、図９は、上述した切り替え最適位置フラグ設定処理によって第１および第２の符号化ビットストリームのフレーム毎に切り替え最適位置フラグが設定されている場合に対応する、デコード装置３０における、音声の切り替え境界位置決定処理を説明するフローチャートである。図１０は、切り替え境界位置決定処理の様子を示す図である。

この切り替え境界位置決定処理は、図６を参照して説明した音声切り替え処理のステップＳ１およびステップＳ２に代えて実行できる。

ステップＳ３１において、デコード装置３０の選択部３３は、ユーザから音声切り替え指示があったか否かを判断し、音声切り替え指示があるまで待機する。この待機の間、選択部３３による選択的な出力は維持される。すなわち、デコード装置３０からは第１の符号化ビットストリームに基づくPCMデータが通常の音量で継続して出力される。

ユーザから音声切り替え指示があった場合、処理はステップＳ３２に進められる。ステップＳ３２において、選択部３３は、前段から順次入力される第１および第２の符号化ビットストリーム（の復号結果である量子化データ）の各フレームに付加されている切り替え最適位置フラグが１になるまで待機する。この待機の間も、選択部３３による選択的な出力は維持される。そして、切り替え最適位置フラグが１になった場合、処理をステップＳ３３に進めて、切り替え最適位置フラグが１であるフレームとその次のフレームの間を、音声の切り替え境界位置に決定する。以上で、切り替え境界位置決定処理は終了される。

以上に説明した切り替え最適位置フラグ設定処理、および切り替え境界位置決定処理によれば、音声ができるだけ無音に近い状態の位置を切り替え境界位置に決定することができる。よって、フェードアウト処理およびフェードイン処理を実行することによる影響を抑止できる。

また、切り替え最適位置フラグが付加されていない場合であっても、デコード装置３０内の選択部３３などにおいて、符号化ビットストリームのゲインに関係する情報を参照し、指定された閾値以下の音量の位置を検出して切り替え境界位置を決定するようにしてもよい。ゲインに関係する情報としては、例えば、AAC、MP3などの符号化方式ではスケールファクタなどの情報を利用することができる。

＜デコード装置３０による符号化ビットストリームの第２の切り替え方法＞
次に、図１１は、デコード装置３０による符号化ビットストリームの第２の切り替え方法を示している。

そして、PCMデータの出力に際しては、Frame#1に対応する完全に再構成されたPCM1-1までは通常の音量で出力する。切り替え境界位置直前のFrame#2に対応する不完全なPCM1-2についてはフェードアウト処理によって徐々に音量を下げ、切り替え境界位置直後のFrame#3に対応する不完全なPCM2-3についてはミュート処理によって無音区間とする。また、完全に再構成されたPCM2-4についてはフェードイン処理によって徐々に音量を上げるようにし、Frame#5に対応するPCM2-5以降は通常の音量で出力するようにする。

このように、替え境界位置直後では不完全に再構成されたPCMデータを出力することにより、２つのデコード処理を平行に実行する必要性を無くすることができる。また、不完全なPCMデータをフェードアウト処理、ミュート処理、およびフェードイン処理で繋ぐことにより、音声の切り替えで生じる、フレームの不連続に起因する耳障りなグリッジノイズの音量を抑えることができる。

＜デコード装置３０による符号化ビットストリームの第３の切り替え方法＞
次に、図１２は、デコード装置３０による符号化ビットストリームの第３の切り替え方法を示している。

そして、PCMデータの出力に際しては、Frame#1に対応するPCM1-1の前までは通常の音量で出力し、PCM1-1についてはフェードアウト処理によって徐々に音量を下げ、切り替え境界位置直前のFrame#2に対応する不完全なPCM1-2についてはミュート処理によって無音区間とする。また、切り替え境界位置直後のFrame#3に対応する不完全なPCM2-3についてはフェードイン処理によって徐々に音量を上げるようにし、Frame#4に対応するPCM2-4以降は通常の音量で出力するようにする。

＜本開示の適用例＞
本開示は、再生タイミングが同期されている第１および第２の符号化ビットストリームの切り替え用途以外にも、例えば、3D Audio符号化におけるオブジェクト間の切り替え用途にも適用することができる。より具体的には、オブジェクトデータがグループ化されたものをまとめて別グループ（Switch Group）に切り替えるといった場合、再生シーンや自由視点での視点位置の切り替えなどの理由で一斉に複数オブジェクトを切り替える用途に適用できる。

また、2chステレオ音声から5.1chなどのサラウンド音声にチャンネル環境を切り替える場合や、自由視点映像での各席でのサラウンドを持ったストリームで席の移動に合わせて切り替えるといった運用にも、本開示は適用することができる。

ところで、上述したデコード装置３０による一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

該コンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、入力部１０６、出力部１０７、記憶部１０８、通信部１０９、およびドライブ１１０が接続されている。

入力部１０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１０７は、ディスプレイ、スピーカなどよりなる。記憶部１０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１０９は、ネットワークインタフェースなどよりなる。ドライブ１１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１１１を駆動する。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータ１００が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

本開示は以下のような構成も取ることができる。
（１）
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、
前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
デコード装置。
（２）
前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前後のフレームのデコード処理結果に対してフェード処理を行うフェード処理部を
さらに備える前記（１）に記載のデコード装置。
（３）
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
前記（２）に記載のデコード装置。
（４）
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してミュート処理を行う
前記（２）に記載のデコード装置。
（５）
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してミュート処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
前記（２）に記載のデコード装置。
（６）
前記選択部は、前記複数のオーディオ符号化ビットストリームの供給側において設定された、各フレームに付加されている切り替え最適位置フラグに基づいて前記境界位置を決定する
前記（１）から（５）のいずれかに記載のデコード装置。
（７）
前記切り替え最適位置フラグは、前記オーディオ符号化ビットストリームの供給側において、前記ソースデータのエネルギまたは文脈に基づいて設定されている
前記（６）に記載のデコード装置。
（８）
前記選択部は、前記複数のオーディオ符号化ビットストリームのゲインに関する情報に基づいて前記境界位置を決定する
前記（１）から（５）のいずれかに記載のデコード装置。
（９）
デコード装置のデコード方法において、
前記デコード装置による、
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得ステップと、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定する決定ステップと、
取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理ステップに供給する選択ステップと、
選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理ステップとを含み、
前記デコード処理ステップは、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
デコード方法。
（１０）
コンピュータを、
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部として機能させ、
前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
プログラム。

３０デコード装置，３１多重分離部，３２−１，３２−２復号部，３３選択部，３４デコード処理部，３５逆量子化部，３６ IMDCT部，３７フェード処理部，１００コンピュータ，１０１ CPU

Claims

再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部とを備え、
前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
デコード装置。
前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前後のフレームのデコード処理結果に対してフェード処理を行うフェード処理部を
さらに備える請求項１に記載のデコード装置。
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
請求項２に記載のデコード装置。
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してフェードアウト処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してミュート処理を行う
請求項２に記載のデコード装置。
前記フェード処理部は、前記デコード処理部による前記オーバラップ加算が省略された前記境界位置の前のフレームのデコード処理結果に対してミュート処理を行うとともに、前記境界位置の後のフレームのデコード処理結果に対してフェードイン処理を行う
請求項２に記載のデコード装置。
前記選択部は、前記複数のオーディオ符号化ビットストリームの供給側において設定された、各フレームに付加されている切り替え最適位置フラグに基づいて前記境界位置を決定する
請求項２に記載のデコード装置。
前記切り替え最適位置フラグは、前記オーディオ符号化ビットストリームの供給側において、前記ソースデータのエネルギまたは文脈に基づいて設定されている
請求項６に記載のデコード装置。
前記選択部は、前記複数のオーディオ符号化ビットストリームのゲインに関する情報に基づいて前記境界位置を決定する
請求項２に記載のデコード装置。
デコード装置のデコード方法において、
前記デコード装置による、
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得ステップと、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定する決定ステップと、
取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理ステップに供給する選択ステップと、
選択的に供給された前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理ステップとを含み、
前記デコード処理ステップは、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
デコード方法。
コンピュータを、
再生タイミングが同期されている複数のソースデータがそれぞれフレーム単位でMDCT処理の後に符号化されている複数のオーディオ符号化ビットストリームを取得する取得部と、
前記複数のオーディオ符号化ビットストリームの出力を切り替える境界位置を決定し、取得された前記複数のオーディオ符号化ビットストリームのうちの一つを前記境界位置に応じて選択的にデコード処理部に供給する選択部と、
前記選択部を介して入力される前記複数のオーディオ符号化ビットストリームのうちの一つに対して、前記MDCT処理に対応するIMDCT処理を含むデコード処理を行う前記デコード処理部として機能させ、
前記デコード処理部は、前記境界位置の前後のフレームにそれぞれ対応する前記IMDCT処理におけるオーバラップ加算を省略する
プログラム。