JPWO2016038876A1

JPWO2016038876A1 - 符号化装置、復号化装置及び音声信号処理装置

Info

Publication number: JPWO2016038876A1
Application number: JP2016547697A
Authority: JP
Inventors: 岳大杉本; 靖茂中山; 小森　智康; 智康小森
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-09-08
Filing date: 2015-09-07
Publication date: 2017-06-15
Anticipated expiration: 2035-09-07
Also published as: WO2016038876A1; JP2020101837A; JP2020101836A; JP6924862B2; JP6924863B2; JP6683618B2

Abstract

チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機等を用いて視聴者がダイアログを制御することができる仕組みを実現する。符号化装置（１）は、入力された音声信号を符号化する符号化装置であって、音声信号を圧縮符号化して圧縮音声信号として出力する圧縮符号化部（１１）と、入力されたダイアログ制御用メタデータを圧縮音声信号と多重化して出力する多重化部（１２）とを備える。

Description

関連出願へのクロスリファレンス

本出願は、日本国特許出願２０１４−１８２６９５号（２０１４年９月８日出願）の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。

本発明は、符号化装置、復号化装置及び音声信号処理装置に関する。

放送音声に対する視聴者意見は、ダイアログ（ナレーション、スピーチ、セリフ等）の聞きやすさに関するものが多い。従来の日本の放送音声は、放送局側で音声技術者がダイアログと背景の音量バランスを一意に調節してから送出するチャンネルベース方式を採用している（例えば、非特許文献１）。チャンネルベース方式とは例えばＭＰＥＧ―４ＡＡＣ（例えば、非特許文献２）である。ダイアログの聞きやすさに対して、多くの視聴者が関心を寄せている。

ダイアログを聞き取りやすくするために、欧米の次世代放送の音声システムは、オブジェクトベース方式（例えば、特許文献１）を採用する方向で検討が進められている。オブジェクトベース方式とは、ＭＰＥＧ―Ｈ３ＤＡｕｄｉｏ（例えば、非特許文献３）又はＤｏｌｂｙのＡＣ―４等の符号化方式によって伝送を行う方式であり、ダイアログ等の重要な音声オブジェクトが受信機で制御可能になる方式である。

ＩＴＵ―Ｒ、"Ａｄｖａｎｃｅｄｓｏｕｎｄｓｙｓｔｅｍｆｏｒｐｒｏｇｒａｍｍｅｐｒｏｄｕｃｔｉｏｎ"、［Ｏｎｌｉｎｅ］、平成２６年２月、［平成２６年９月７日検索］、インターネット＜http://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2051-0-201402-I!!PDF-E.pdf＞一般社団法人電波産業会、ＡＲＩＢＳＴＤ―Ｂ３．０版 "デジタル放送における映像符号化、音声符号化及び多重化方式"、［Ｏｎｌｉｎｅ］、平成２６年７月３１日、［平成２６年９月７日検索］、インターネット＜http://www.arib.or.jp/english/html/overview/doc/2-STD-B32v3_0.pdf＞ＩＳＯ／ＩＥＣＤＩＳ２３００８−３、"Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ―Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ―Ｐａｒｔ３：３Ｄａｕｄｉｏ"

上述した、日本が採用しているチャンネルベース方式においては、受信機を操作する視聴者はダイアログの音量を調節することができない。しかしながら、視聴者の好み並びに年齢及び再生環境の多様性を考えた場合、放送局で調節した音量バランスではその多様性をカバーしきれない状況も存在すると考えられる。これは、ダイアログが聞き取りにくくなる要因の一つと考えられている。

日本の８ＫＳＨＶ２２．２ｃｈ放送の音声符号化方式は、上述したＭＰＥＧ―４ＡＡＣであり、音声信号とスピーカとが一対一に対応するチャンネルベース方式である。また日本の地上デジタル放送の音声符号化方式はＭＰＥＧ−２ＡＡＣであり、チャンネルベース方式である。このため、現状ではダイアログ等の音声オブジェクトの制御は不可能である。

かかる事情に鑑みてなされた本発明の目的は、チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機等を用いて視聴者がダイアログを制御することができる仕組みを実現する符号化装置、復号化装置及び音声信号処理装置を提供することにある。

上記目的を達成する第１の観点に係る発明は、
入力された音声信号を符号化する符号化装置であって、
前記音声信号を圧縮符号化して圧縮音声信号として出力する圧縮符号化部と、
入力されたダイアログ制御用メタデータを前記圧縮音声信号と多重化して出力する多重化部と、
を備えるものである。

また、前記ダイアログ制御用メタデータは、ダイアログ制御機能に対応した番組か否かのフラグ並びに受信機又は当該受信機に接続された再生装置での利得制御の上限値及び下限値を含んでもよい。

また、前記多重化部は、前記上限値及び前記下限値の情報を符号化してもよい。

上記目的を達成する第２の観点に係る発明は、
ダイアログ制御用メタデータ及び圧縮音声信号が多重化された入力信号を前記ダイアログ制御用メタデータと、前記圧縮音声信号とに分離する分離部と、
前記圧縮音声信号を復号化する復号化部と、
を備えるものである。

上記目的を達成する第３の観点に係る発明は、
復号化装置において分離されたダイアログ制御用メタデータ及び前記復号化装置において復号化された音声信号又は復号化されなかった圧縮音声信号を用いて音声信号処理を行う音声信号処理装置であって、
ダイアログ制御機能に対応した番組か否かのフラグに基づいてダイアログ制御の可否を判定するダイアログ制御可否判定部と、
ダイアログ専用チャンネル信号を特定するダイアログ専用チャンネル信号特定部と、
ダイアログ専用チャンネル信号の利得制御量の上限値及び下限値を、ダイアログの制御情報として取得し、前記ダイアログ専用チャンネル信号とそれ以外の任意の数のチャンネル信号とに対してそれぞれ異なる信号処理を行って音声信号として出力する制御部と、
を備えるものである。

また、前記音声信号処理装置は、前記ダイアログの制御情報を外部の制御情報入力装置から取得する制御情報取得部を更に備え、
前記制御部は、前記制御情報に基づいて前記音声信号を調節して出力してもよい。

また、前記制御情報取得部は、前記ダイアログの制御情報としてダイアログ音量の調節情報を取得し、
前記制御部は、前記調節情報に基づいて音声信号を調節して出力してもよい。

また、前記ダイアログ専用チャンネル信号特定部は、ダイアログ専用チャンネルの信号を、前記復号化装置から取得した音声方式メタデータに基づいて特定してもよい。

また、前記ダイアログ専用チャンネル信号特定部は、ダイアログ専用チャンネルの信号を、前記復号化装置以外の外部装置から取得した情報を用いて特定してもよい。

また、前記制御部は更に、ダイアログに話速変換処理を行ってもよい。

また、前記制御部は、前記利得制御量の上限値よりも高い又は下限値よりも低いダイアログ音量の調節情報を取得したとき、前記利得制御量の上限値又は下限値により調節を制限してもよい。

また、前記制御部は、
ダイアログ音量を増加させる調節情報を取得したとき、前記ダイアログ専用チャンネル信号以外のチャンネル信号の利得を低減させ、
ダイアログ音量を低減させる調節情報を取得したとき、前記ダイアログ専用チャンネル信号の利得のみを低減させてもよい。

また、前記制御部は、ダイアログの制御を行った後にダウンミックスを含む変換手段によりチャンネル数を変換してもよい。

また、前記制御部は、前記ダイアログ専用チャンネル信号とそれ以外の任意の数のチャンネル信号との双方又はどちらか一方に、それぞれ周波数補正処理を含む信号処理を行ってもよい。

また、前記制御部は、前記復号化装置においてビットストリームから分離された前記圧縮音声信号を復号化せずにそのまま前記音声信号処理を行ってから、復号化して音声信号として出力するか、復号化せずに圧縮音声信号として出力してもよい。

また、前記制御部は、前記音声信号処理後に前記ダイアログ制御用メタデータと音声方式メタデータの双方またはどちらか一方と、前記圧縮音声信号を多重化してビットストリームとして出力してもよい。

本発明による符号化装置、復号化装置及び音声信号処理装置によれば、チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機又は当該受信機に接続された再生装置を用いて視聴者がダイアログを制御することができる仕組みを実現することができる。

本発明の一実施形態に係る３次元（立体）音響方式を示す図である。本発明の一実施形態に係る符号化装置の機能ブロック図である。本発明の一実施形態に係る復号化装置の機能ブロック図である。本発明の一実施形態に係る音声信号処理装置及び制御情報入力装置の機能ブロック図である。本発明の一実施形態に係る音声信号処理システムの動作フローを示す図である。

以下、受信機又は当該受信機に接続された再生装置（スピーカ、録音装置等の外部再生装置）（以下、受信機等とする）においてダイアログを制御可能にする仕組みを説明する。本実施形態では、一例として複数の音声チャンネル及びダイアログ専用チャンネルを有する音響システムとして、８ＫＳＨＶ用の２２．２ｃｈ音響システムを説明する。

本実施形態の音声信号処理システムは、符号化装置１、復号化装置２、音声信号処理装置３及び制御情報入力装置４を備え、これらはネットワークを介して有線又は無線により通信する。以下の説明では、本発明に係る音声処理システムの各機能を説明するが、それらが備える他の機能を排除することを意図したものではないことに留意されたい。

図１は２２．２ｃｈ音響システムにおける、ダイアログ制御機能に対応した制作手法による制作時の３次元（立体）音響方式を示す図である。図１に示すように、超高精細・高臨場感映像音響システムの番組制作は、大画面映像ディスプレイ１ａ（例えば、７６８０×４３２０画素）とスピーカとを配置した標準制作条件下で行う。この標準制作条件下では、聴取位置を中心として大画面映像ディスプレイ１ａを前方にして、低域効果音用スピーカＬＦＥ１及びＬＦＥ２を除いて、９チャンネルからなる上層、１０チャンネルからなる中層及び３チャンネルからなる下層の計２２チャンネルのスピーカで音響信号を制作する。当該２２チャンネルのスピーカが配置される位置は、規格ＳＭＰＴＥＳＴ２０３６−２−２００８に規定されている。

チャンネルベース方式でダイアログ制御機能を実現するためには、背景音を重ねないダイアログ専用のチャンネルが必要である。本実施形態では、一例として図１のＦＣをダイアログ専用チャンネルとして説明する。なお、ダイアログ専用チャンネルは複数存在しても構わない。ダイアログ専用チャンネルが複数存在する場合は、それらのダイアログ専用チャンネルは同一の音声信号を再生しても構わないし、それぞれ異なる音声信号を再生しても構わない。

図２は、符号化装置１の機能ブロック図である。符号化装置１は、圧縮符号化部１１及び多重化部１２を備える。圧縮符号化部１１及び多重化部１２が行う各種動作は、図示しないプロセッサ又はマイコン等の任意の処理装置によって処理される。

圧縮符号化部１１は、入力された音声信号を取得し、デジタル方式で圧縮符号化する。圧縮符号化部１１は、圧縮符号化した音声信号を、２２．２ｃｈの圧縮音声信号に変換して多重化部１２に出力する。

多重化部１２は、圧縮符号化部１１から取得した圧縮音声信号と、入力されたダイアログ制御用メタデータ及び音声方式を示すメタデータ（例えば、ＭＰＥＧＡｕｄｉｏでは、ｃｈａｎｎｅｌｃｏｎｆｉｇｕｒａｔｉｏｎ）とを取得する。

次いで多重化部１２は、ダイアログ制御用メタデータ、音声方式を示すメタデータを符号化し、取得した圧縮音声信号と共に多重化する。ダイアログ制御用メタデータとは、例えば、ダイアログ制御機能に対応した番組か否かのフラグ、受信機等における利得制御の上限値及び下限値等のデータである。多重化部１２は、ＭＰＥＧ―４ＡＡＣで伝送する場合は、例えばユーザ拡張領域のＤＳＥ（ＤａｔａＳｔｒｅａｍＥｌｅｍｅｎｔ）にメタデータを格納する。多重化部１２は、多重化したデータをビットストリームとして出力する。

図３は、復号化装置２の機能ブロック図である。復号化装置２は、分離部２１、メタデータ分離部２２及び復号化部２３を備える。分離部２１、メタデータ分離部２２及び復号化部２３が行う各種動作は、図示しないプロセッサ又はマイコン等の任意の処理装置によって処理される。

分離部２１は、符号化装置１から取得したビットストリームを分離する。具体的には、分離部２１は、当該ビットストリーム（入力信号）をメタデータ及び圧縮音声信号に分離し、それぞれメタデータ分離部２２及び復号化部２３に出力する。

メタデータ分離部２２は、取得したメタデータを、ダイアログ制御用メタデータ及び音声方式メタデータに分離する。

復号化部２３は、取得した圧縮音声信号を音声信号に復号化する。なお復号化部２３は、取得した圧縮音声信号を復号化しなくてもよい。この場合、音声信号処理装置３の制御部３４は、当該圧縮音声信号を復号化せずにそのまま後述の音声信号処理を行ってから復号化して音声信号として出力する。制御部３４は、当該圧縮音声信号を復号化せずにそのまま後述の音声信号処理を行ってから復号化せずに圧縮音声信号として出力してもよい。

図４は音声信号処理装置３及び制御情報入力装置４の機能ブロック図である。音声信号処理装置３は、例えば復号化装置２の後段に配置され、復号化装置２からダイアログ制御用メタデータ、音声方式メタデータ及び音声信号を取得する。音声信号処理装置３は、ダイアログ制御可否判定部３１、ダイアログ専用チャンネル信号特定部３２、音声信号分離部３３、制御部３４、制御情報取得部３５及び記憶部３６を備える。ダイアログ専用チャンネル信号特定部３２、音声信号分離部３３、制御部３４及び制御情報取得部３５が行う各種動作（音声信号処理）は、図示しないプロセッサ又はマイコン等の任意の処理装置によって処理される。

ダイアログ制御可否判定部３１は、復号化装置２から取得したダイアログ制御用メタデータ（ダイアログ制御機能に対応した番組か否かのフラグ）に基づいて、復号化装置２から取得した音声信号が、ダイアログ制御機能対応の番組か否か（ダイアログ制御の可否）を判定する。ダイアログ制御可否判定部３１が、当該音声信号が、ダイアログ制御機能対応の番組でないと判定すると、音声信号処理装置３は当該音声信号に音声信号処理を行わずに受信機等に出力する。

ダイアログ専用チャンネル信号特定部３２は、復号化装置２から取得した音声方式メタデータに基づいて、ダイアログ専用チャンネルの信号を特定する。なおダイアログ専用チャンネル信号特定部３２は、復号化装置２以外の外部装置から取得した情報を用いてダイアログ専用チャンネルの信号を特定してもよい。

音声信号分離部３３は、ダイアログ専用チャンネル信号特定部３２による特定に基づいて、当該音声信号をダイアログ専用チャンネル信号とそれ以外の背景音チャンネル信号とに分離する。

制御部３４は、音声信号分離部３３からダイアログ専用チャンネル信号及び背景音チャンネル信号を取得する。

次いで制御部３４は、復号化装置２から取得したダイアログ制御用メタデータに基づいて、受信機等での利得制御の上限値及び下限値（例えば、上限値は＋１８ｄＢ、下限値は−∞）を取得する。

また、制御部３４は、音声方式が２２．２ｃｈであることから、記憶部３６を参照してダイアログ専用チャンネル（本実施形態では図１のＦＣ）を特定する。なお制御部３４は、ダイアログ専用チャンネルを、その他の情報（例えば、番組情報）から特定してもよい。

更に、制御部３４は、音声信号処理装置３の外部の制御情報入力装置４から、視聴者によるリモコン操作等によって受信視聴環境に応じて制御情報入力装置４に入力された制御情報（例えば、音量調節情報）を、制御情報取得部３５を介して取得する。制御部３４は、ダイアログ制御用メタデータと視聴者から与えられた制御情報とを用いて、ダイアログ専用チャンネル信号と背景音チャンネル信号とを制御する。

当該制御において、制御部３４は、ダイアログに話速変換処理を行ってもよい。また、当該制御において、制御部３４は、利得制御量の上限値よりも高い又は下限値よりも低いダイアログ音量の調節情報を取得したとき、利得制御量の上限値又は下限値により調節を制限してもよい。

当該制御において制御部３４は、ダイアログ専用チャンネル信号と背景音チャンネル信号とに対してそれぞれ異なる信号処理を行ってもよい。例えば、制御部３４は、ダイアログ音量を増加させる調節情報を取得したとき、ダイアログ専用チャンネル信号以外のチャンネル信号の利得を低減させ、ダイアログ音量を低減させる調節情報を取得したとき、前記ダイアログ専用チャンネル信号の利得のみを低減させてもよい。また、制御部３４は、前記のダイアログ音量の調節後に、ダイアログ専用チャンネル信号と背景音チャンネル信号の音量を、同時に増減してもよい。さらに、制御部３４は、ダイアログ専用チャンネル信号とそれ以外の任意の数のチャンネル信号との双方又はどちらか一方に、それぞれ周波数補正処理を含む信号処理を行ってもよい。

また、制御部３４は、必要に応じてダウンミックスを含む変換手段によりチャンネル数を変換した後、ダイアログ専用チャンネル信号と背景音チャンネル信号とを組み合わせた２２．２ｃｈの音声信号を受信機に出力する。受信機は当該音声信号を、受信機に接続された再生装置から出力し、この結果、視聴者は制御情報に示す通りの所望の音声を視聴することができる。なお圧縮音声信号のまま上述の音声信号処理を行ったとき、制御部３４は、ダイアログ制御用メタデータと音声方式メタデータの双方またはどちらか一方と、圧縮音声信号を多重化してビットストリームとして受信機等に出力してもよいし、メタデータを多重化せずに圧縮音声信号を出力してもよい。

図５は、本発明の一実施形態に係る動作フローを示す図である。

符号化装置１は、入力された音声信号を取得し（ステップＳ１）、圧縮符号化する（ステップＳ２）。次いで符号化装置１は、圧縮符号化した圧縮音声信号と、ダイアログ制御用メタデータ及び音声方式を示すメタデータとを多重化する（ステップＳ３）。符号化装置１は、多重化したデータをビットストリームとして復号化装置２に出力する（ステップＳ４）。

復号化装置２は、符号化装置１から取得したビットストリームをメタデータ及び圧縮音声信号に分離する（ステップＳ５）。復号化装置２はまた、メタデータを、ダイアログ制御用メタデータ及び音声方式メタデータに分離する（ステップＳ６）。次いで復号化装置２は、取得した圧縮音声信号を音声信号に復号化し（ステップＳ７）、ダイアログ制御用メタデータ、音声方式メタデータ及び音声信号を音声信号処理装置３に出力する（ステップＳ８）

音声信号処理装置３は、復号化装置２から取得した音声信号が、ダイアログ制御機能対応の番組か否かを判定する（ステップＳ９）。音声信号処理装置３は、当該音声信号がダイアログ制御機能対応の番組でないと判定すると（ステップＳ９のＮｏ）、ステップＳ１０〜ステップＳ１４を行わない。

他方、音声信号処理装置３は、当該音声信号がダイアログ制御機能対応の番組であると判定すると（ステップＳ９のＹｅｓ）、ダイアログ制御用メタデータから、受信機等での利得制御の上限値及び下限値の情報を取得する（ステップＳ１０）。次いで音声信号処理装置３は、ダイアログ専用チャンネルの信号を特定する（ステップＳ１１）。音声信号処理装置３は、当該特定に基づいて、当該音声信号をダイアログ専用チャンネル信号とそれ以外の背景音チャンネル信号とに分離する（ステップＳ１２）。

音声信号処理装置３は、音声信号処理装置３の外部の制御情報入力装置４から、制御情報（例えば、音量調節情報）を、制御情報取得部３５を介して取得する（ステップＳ１３）。音声信号処理装置３は、当該制御情報に基づいて音声信号を調節する（ステップＳ１４）。

次いで音声信号処理装置３は、音声信号を受信機等に出力する（ステップＳ１５）。

従って、本実施形態に係る符号化装置１、復号化装置２、音声信号処理装置３及び制御情報入力装置４によれば、チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機等を用いて視聴者がダイアログを制御することができる仕組みを実現することができる。

本発明を諸図面及び実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易である。従って、これらの変形及び修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の機能部やステップ等を１つ組み合わせること、或いは分割することが可能である。また、上述した本発明の実施形態は、それぞれ説明した実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。

また、本発明が、２２．２ｃｈ以外の音声方式に適用可能であることは言うまでもない。また本発明は、ＭＰＥＧ―４ＡＡＣに限らず、ダイアログ制御情報を格納可能なメタデータ領域を有する音声符号化方式なら、適用可能である。更に本発明は、必ずしもダイアログのみに適用されるものではなく、何らかの音声信号のための専用チャンネルを設けて、個別に制御する目的の制御に対して応用可能であることは言うまでもない。

１符号化装置
１１圧縮符号化部
１２多重化部
２復号化装置
２１分離部
２２メタデータ分離部
２３復号化部
３音声信号処理装置
３１ダイアログ制御可否判定部
３２ダイアログ専用チャンネル信号特定部
３３音声信号分離部
３４制御部
３５制御情報取得部
３６記憶部
４制御情報入力装置

Claims

入力された音声信号を符号化する符号化装置であって、
前記音声信号を圧縮符号化して圧縮音声信号として出力する圧縮符号化部と、
入力されたダイアログ制御用メタデータを前記圧縮音声信号と多重化して出力する多重化部と、
を備える符号化装置。
前記ダイアログ制御用メタデータは、ダイアログ制御機能に対応した番組か否かのフラグ並びに受信機又は当該受信機に接続された再生装置での利得制御の上限値及び下限値を含む、請求項１に記載の符号化装置。
前記多重化部は、前記上限値及び前記下限値の情報を符号化する、請求項２に記載の符号化装置。
ダイアログ制御用メタデータ及び圧縮音声信号が多重化された入力信号を前記ダイアログ制御用メタデータと、前記圧縮音声信号とに分離する分離部と、
前記圧縮音声信号を復号化する復号化部と、
を備える復号化装置。
復号化装置において分離されたダイアログ制御用メタデータ及び前記復号化装置において復号化された音声信号又は復号化されなかった圧縮音声信号を用いて音声信号処理を行う音声信号処理装置であって、
ダイアログ制御機能に対応した番組か否かのフラグに基づいてダイアログ制御の可否を判定するダイアログ制御可否判定部と、
ダイアログ専用チャンネル信号を特定するダイアログ専用チャンネル信号特定部と、
ダイアログ専用チャンネル信号の利得制御量の上限値及び下限値を、ダイアログの制御情報として取得し、前記ダイアログ専用チャンネル信号とそれ以外の任意の数のチャンネル信号とに対してそれぞれ異なる信号処理を行って音声信号として出力する制御部と、
を備える音声信号処理装置。
前記ダイアログの制御情報を外部の制御情報入力装置から取得する制御情報取得部を更に備え、
前記制御部は、前記制御情報に基づいて前記音声信号を調節して出力する、請求項５に記載の音声信号処理装置。
前記制御情報取得部は、前記ダイアログの制御情報としてダイアログ音量の調節情報を取得し、
前記制御部は、前記調節情報に基づいて音声信号を調節して出力する、請求項６に記載の音声信号処理装置。
前記ダイアログ専用チャンネル信号特定部は、ダイアログ専用チャンネルの信号を、前記復号化装置から取得した音声方式メタデータに基づいて特定する、請求項５〜７のいずれか１項に記載の音声信号処理装置。
前記ダイアログ専用チャンネル信号特定部は、ダイアログ専用チャンネルの信号を、前記復号化装置以外の外部装置から取得した情報を用いて特定する、請求項５〜７のいずれか１項に記載の音声信号処理装置。
前記制御部は更に、ダイアログに話速変換処理を行う、請求項５〜９のいずれか１項に記載の音声信号処理装置。
前記制御部は、前記利得制御量の上限値よりも高い又は下限値よりも低いダイアログ音量の調節情報を取得したとき、前記利得制御量の上限値又は下限値により調節を制限する、請求項５〜１０のいずれか１項に記載の音声信号処理装置。
前記制御部は、
ダイアログ音量を増加させる調節情報を取得したとき、前記ダイアログ専用チャンネル信号以外のチャンネル信号の利得を低減させ、
ダイアログ音量を低減させる調節情報を取得したとき、前記ダイアログ専用チャンネル信号の利得のみを低減させる、請求項５〜１１のいずれか１項に記載の音声信号処理装置。
前記制御部は、ダイアログの制御を行った後にダウンミックスを含む変換手段によりチャンネル数を変換する、請求項５〜１２のいずれか１項に記載の音声信号処理装置。
前記制御部は、前記ダイアログ専用チャンネル信号とそれ以外の任意の数のチャンネル信号との双方又はどちらか一方に、それぞれ周波数補正処理を含む信号処理を行う、請求項５〜１３のいずれか１項に記載の音声信号処理装置。
前記制御部は、前記復号化装置においてビットストリームから分離された前記圧縮音声信号を復号化せずにそのまま前記音声信号処理を行ってから、復号化して音声信号として出力するか、復号化せずに圧縮音声信号として出力する、請求項５〜１４のいずれか１項に記載の音声信号処理装置。
前記制御部は、前記音声信号処理後に前記ダイアログ制御用メタデータと音声方式メタデータの双方またはどちらか一方と、前記圧縮音声信号を多重化してビットストリームとして出力する、請求項５〜１５のいずれか１項に記載の音声信号処理装置。