WO2021075167A1

WO2021075167A1 - 量子化スケール係数決定装置、及び、量子化スケール係数決定方法

Info

Publication number: WO2021075167A1
Application number: PCT/JP2020/033579
Authority: WO
Inventors: 旭原田; 江原　宏幸
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2019-10-16
Filing date: 2020-09-04
Publication date: 2021-04-22
Also published as: US20230025447A1; JPWO2021075167A1

Abstract

量子化スケール係数決定装置は、音声信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、初期値に基づいて、量子化スケール係数の探索を行う探索回路と、を具備する。

Description

量子化スケール係数決定装置、及び、量子化スケール係数決定方法

　本開示は、量子化スケール係数決定装置、及び、量子化スケール係数決定方法に関する。

　符号化技術の一つに、音声信号又は音響信号（例えば、「音声音響信号」とも呼ぶ）を低ビットレートによって符号化する修正離散コサイン変換（MDCT：Modified Discrete Cosine Transform）スペクトル算術符号化技術がある。この符号化技術は、例えば、MDCTスペクトルをスケーリング（又は、量子化スケーリングと呼ぶ）して量子化し、算術符号化する（例えば、特許文献１を参照）。

特表２０１９－５１４０６５号公報

　しかしながら、音声信号又は音響信号の符号化において演算量を低減する方法について検討の余地がある。

　本開示の非限定的な実施例は、音声信号又は音響信号の符号化において演算量を低減できる量子化スケール係数決定装置、及び、量子化スケール係数決定方法の提供に資する。

　本開示の一実施例に係る量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、を具備する。

　なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一実施例によれば、音声信号又は音響信号の符号化における演算量を低減できる。

　本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および／または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、１つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。

音声信号又は音響信号の伝送システムの構成例を示すブロック図 TCX符号化部の構成例を示すブロック図レートループ処理部及び量子化・符号化部の構成例を示すブロック図スパース解析部の構成例を示すブロック図スパース性を有するスペクトルの一例を示す図スパース性に基づく量子化スケール係数の補正処理の一例を示す図スパース性の判定条件の一例を示す図量子化スケール係数の探索処理の一例を示す図

　以下、本開示の実施の形態について図面を参照して詳細に説明する。

　特許文献１では、例えば、線形予測分析（例えば、linear prediction coding（LPC）分析）に基づいて得られるMDCTスペクトルのエンベロープ（換言すると、包絡線）と、MDCTスペクトルの絶対値とを乗算した値の二乗平均平方根（RMS：Root Mean Square）の逆数が、MDCTスペクトルの量子化スケーリングにおける「量子化スケール係数」の初期値に設定される。

　符号化装置は、例えば、量子化スケール係数の初期値に基づいて、量子化スケール係数の探索処理を行う。例えば、符号化装置は、量子化スケール係数に基づいて、MDCTスペクトルの算術符号化によって消費されるビット量（例えば、「消費ビット量」と呼ぶ）を近似式から推定する。そして、符号化装置は、推定された消費ビット量と目標ビット量との比較を行い、例えば、「目標ビット量を超えない」かつ「目標ビット量に最も近い」条件を満たす量子化スケール係数を、二分探索法に従って探索する。

　しかしながら、例えば、量子化スケール係数の初期値が、探索後の量子化スケール係数（換言すると、二分探索において収束した値）から離れているほど、探索において値が収束するまでの探索回数が増加し、符号化装置における演算量が増加する可能性がある。また、二分探索法は収束が遅い方法であることが知られている。

　そこで、本開示の一実施例では、量子化スケール係数の探索における演算量を低減する方法について説明する。

　［伝送システムの概要］
　図１は、本実施の形態に係る音声信号又は音響信号の伝送システムの構成例を示す。

　図１に示す伝送システムは、例えば、符号化装置１と、復号装置２とを備える。

　符号化装置１は、例えば、音声信号又は音響信号といった入力信号を符号化し、符号化データを、通信網又は記憶媒体（図示せず）を介して、復号装置２に送信する。例えば、符号化装置１は、Moving Picture Experts Group（MPEG）、3rd Generation Partnership Project（3GPP）又はInternational Telecommunication Union Telecommunication Standardization Sector（ITU-T）といった規格に規定されている種々の音声音響コーデック（例えば、エンコーダ）を備えてよい。

　復号装置２は、例えば、伝送路又は記憶媒体を介して、符号化装置１から受信した符号化データを復号して出力信号（例えば、電気信号）を出力する。復号装置２は、例えば、電気信号を、スピーカ又はヘッドホンを介して音波として出力してよい。また、復号装置２は、例えば、前述した音声音響コーデックに対応するデコーダを用いてもよい。

　また、符号化装置１におけるコーデックには、例えば、周波数領域符号化の一つであるtransformed code excitation（TCX）符号化が含まれてよい。例えば、図１に示す符号化装置１は、TCX符号化処理を行うTCX符号化部１０を備える。

　TCX符号化は、例えば、13.2kbps又は16.4kbpsといった低ビットレートの伝送における符号化に適用されてよい。なお、TCX符号化が適用される伝送のビットレートは、13.2kbps及び16.4kbpsに限らず、他のビットレートでもよい。励振信号の符号化にMDCTを用いるTCX符号化は、例えば、「MDCT based TCX」と呼ばれることもある。

　［TCX符号化部１０の構成例］
　図２は、図１に示す符号化装置１に含まれるTCX符号化部１０の構成例を示す。図２に示すTCX符号化部１０は、例えば、エンベロープ生成部１１、ハーモニクス解析部１２、エンベロープスケーリング部１３、レートループ処理部１４、及び、量子化・符号化部１５を備える。

　エンベロープ生成部１１には、例えば、入力信号に対するMDCTによって得られる周波数領域信号（以下、「MDCTスペクトル」と呼ぶ）、及び、入力信号に対するLPC分析によって得られるLPC係数が入力される。エンベロープ生成部１１は、例えば、LPC係数に基づいて、MDCTスペクトルのエンベロープ（換言すると、包絡線）を生成する。エンベロープ生成部１１は、生成したエンベロープを示すエンベロープ情報、及び、MDCTスペクトルを示すスペクトル情報をハーモニクス解析部１２へ出力する。

　ハーモニクス解析部１２は、例えば、エンベロープ生成部１１から入力される情報に基づいて、MDCTスペクトルにおけるハーモニクス構造（換言すると、高調波成分）を解析する。ハーモニクス解析部１２は、例えば、ハーモニクス構造の解析結果を示すハーモニクス情報、エンベロープ情報、及び、スペクトル情報をエンベロープスケーリング部１３へ出力する。

　例えば、ハーモニクス情報には、MDCTスペクトルがハーモニクス構造を有するか否かを示す情報（例えば、「ハーモニクスフラグ」又は「高調波モデルフラグ」と呼ぶ）が含まれてよい。また、ハーモニクス情報には、例えば、ハーモニクスのゲイン（換言すると、高調波の利得）を示すインデックス（例えば、「ハーモニクスゲインインデックス」と呼ぶ）が含まれてよい。ハーモニクスゲインインデックスは、例えば、ハーモニクスのゲインを或るレベル毎にインデックス化（換言すると、量子化）した値でもよい。例えば、ハーモニクスゲインインデックスの値が高いほど、ハーモニクスのゲインレベルが高くてよい。

　エンベロープスケーリング部１３は、例えば、ハーモニクス解析部１２から入力される情報に基づいて、MDCTスペクトルのエンベロープに対してスケーリング処理を行う。エンベロープスケーリング部１３は、スケーリングされたエンベロープを示すエンベロープ情報、ハーモニクス情報、及び、スペクトル情報をレートループ処理部１４へ出力する。

　レートループ処理部１４は、エンベロープスケーリング部１３から入力される情報に基づいて、レートループ処理（又は、量子化レートループ処理とも呼ぶ）を行い、MDCTスペクトルの量子化における量子化スケール係数を算出する。レートループ処理部１４は、例えば、消費ビット量と目標ビット量との比較に基づいて、量子化スケール係数を探索する。探索方法は、例えば、二分探索法でもよく、他の探索法でもよい。

　また、レートループ処理部１４は、例えば、MDCTスペクトルにおけるスパース性に基づいて、探索における量子化スケール係数の初期値を設定してよい。なお、レートループ処理部１４における量子化スケール係数の初期値の設定方法の一例は後述する。

　レートループ処理部１４は、探索した量子化スケール係数を示す情報、及び、スペクトル情報を量子化・符号化部１５へ出力する。

　量子化・符号化部１５は、レートループ処理部１４から入力される情報に基づいて、MDCTスペクトルを量子化及び符号化し、得られる符号化データを出力する。

　［レートループ処理部１４及び量子化・符号化部１５の構成例］
　図３は、図２に示すTCX符号化部１０に含まれるレートループ処理部１４（例えば、量子化スケール係数決定装置に相当）及び量子化・符号化部１５の構成例を示す。

　図３に示すレートループ処理部１４は、例えば、量子化スケール係数計算部１４１（例えば、算出回路に相当）、スパース解析部１４２、及び、量子化スケール係数探索部１４３（例えば、探索回路に相当）を備える。また、図３に示す量子化・符号化部１５は、例えば、量子化部１５１及び符号化部１５２を備える。

　図３に示すレートループ処理部１４において、量子化スケール係数計算部１４１は、例えば、エンベロープスケーリング部１３から入力されるエンベロープ情報、及び、スペクトル情報に基づいて、MDCTスペクトルの量子化処理における量子化スケール係数の初期値を算出する。例えば、量子化スケール係数計算部１４１は、エンベロープ（例えば、LPC分析に基づいて得られるエンベロープ）と、MDCTスペクトルの絶対値との乗算値（言い換えると、スペクトル包絡で正規化した振幅スペクトル）の標準偏差の逆数を、量子化スケール係数の初期値（又は、「補正前の量子化スケール係数」と呼ぶこともある）に設定してよい。標準偏差の逆数を用いることにより、スペクトル振幅値にばらつきが大きいほど小さな量子化スケール係数となり、ばらつきが小さいほど大きな量子化スケール係数となる。量子化スケール係数計算部１４１は、補正前の量子化スケール係数を示す情報をスパース解析部１４２へ出力する。

　なお、量子化スケール係数計算部１４１における量子化スケール係数の算出方法は、上述した方法に限定されない。例えば、量子化スケール係数計算部１４１は、エンベロープと、MDCTスペクトルの絶対値との乗算値の分散の逆数を、量子化スケール係数の初期値に設定してよい。また、例えば、量子化スケール係数計算部１４１は、エンベロープと、MDCTスペクトルとの乗算値に対する二乗平均平方根の逆数（又は、この逆数に所定の係数を乗算してもよい）を、量子化スケール係数の初期値に設定してよい。

　スパース解析部１４２は、例えば、ハーモニクス情報、スペクトル情報、及び、エンベロープ情報の少なくとも一つに基づいて、MDCTスペクトルのスパース性を解析（換言すると、判定）する。

　「スパース性（sparsity）」は、例えば、MDCTスペクトルの分布において、少数のスペクトル（成分）が非ゼロとなり、多数のスペクトル（成分）がゼロ（又は、振幅が閾値未満の成分）となる性質である。又は、スパース性は、例えば、スペクトル振幅の総和のうち、少数のスペクトルによってより多くのスペクトル振幅の割合（例えば、50%以上の振幅和）が占められている状態である。

　スパース解析部１４２は、例えば、スパース性の解析結果に基づいて、量子化スケール係数計算部１４１から入力される量子化スケール係数を補正するか否かを決定してよい。スパース解析部１４２は、量子化スケール係数の補正を決定した場合、量子化スケール係数を補正し、補正後の量子化スケール係数を示す情報を量子化スケール係数探索部１４３へ出力する。一方、スパース解析部１４２は、量子化スケール係数を補正しない場合、量子化スケール係数計算部１４１から入力される量子化スケール係数を示す情報を、量子化スケール係数探索部１４３へ出力する。

　量子化スケール係数探索部１４３は、スパース解析部１４２から入力される量子化スケール係数の初期値に基づいて、量子化スケール係数の探索を行う。そして、量子化スケール係数探索部１４３は、例えば、算術符号化について推定される消費ビット量と、目標ビット量との比較結果に基づいて二分探索を行い、探索後の量子化スケール係数を示す情報を量子化・符号化部１５（量子化部１５１）へ出力する。

　図３に示す量子化・符号化部１５において、量子化部１５１は、量子化スケール係数探索部１４３から入力される量子化スケール係数に基づいて、MDCTスペクトルを量子化する。量子化部１５１は、量子化後のMDCTスペクトルを示す情報を符号化部１５２へ出力する。

　符号化部１５２は、量子化部１５１から入力される量子化後のMDCTスペクトルを符号化し、符号化データを出力する。符号化部１５２における符号化方式は、例えば、算術符号化でもよく、他の符号化でもよい。

　［スパース解析部１４２の構成例］
　図４は、スパース解析部１４２の構成例を示す。

　図４に示すスパース解析部１４２は、例えば、前処理部１４２１（例えば、前処理回路に相当）、スパース性判定部１４２２（例えば、判定回路に相当）、及び、量子化スケール係数補正部１４２３（例えば、補正回路に相当）を備える。

　前処理部１４２１は、例えば、量子化スケール係数計算部１４１から入力される量子化スケール係数（例えば、補正前の量子化スケール係数（初期値））に対して前処理を行う。前処理部１４２１は、例えば、量子化スケール係数の上限値を調整してよい。また、前処理部１４２１は、例えば、量子化スケール係数に特定の値（例えば、１．００未満の値）を乗算してもよい。前処理部１４２１は、前処理後の量子化スケール係数を示す情報をスパース性判定部１４２２へ出力する。

　スパース性判定部１４２２は、MDCTスペクトルがスパース性を有するか否かを判定する。例えば、スパース性判定部１４２２は、エンベロープ情報、ハーモニクス情報、及び、MDCTスペクトルに関する情報（例えば、MDCTスペクトルの絶対値）に基づいて、MDCTスペクトルのスパース性を判定してよい。

　図５（ａ）～図５（ｄ）は、スパース性を有する場合のMDCTスペクトルの一例を示す。図５（ａ）～図５（ｄ）において、横軸は周波数（例えば、周波数bin）を表し、縦軸はMDCTスペクトルの振幅（例えば、振幅の絶対値）を表す。

　例えば、ハーモニクス構造を有するMDCTスペクトルでは、例えば、図５（ａ）又は図５（ｂ）に示すように、或る間隔でMDCTスペクトルのピークが集中的に現れる。換言すると、ハーモニクス構造を有する場合、或る間隔のMDCTスペクトル（換言すると、ピーク成分）は、他の周波数のMDCTスペクトル（換言すると、ピークと異なる成分）と比較して、振幅（又はパワー）が大きくなり得る。よって、図５（ａ）又は図５（ｂ）に示すように、ハーモニクス構造を有するMDCTスペクトルは、スパース性を有し得る。

　また、例えば、図５（ｃ）又は図５（ｄ）に示すように、一部のMDCTスペクトルにエネルギが集中する場合があり得る。換言すると、エネルギが集中する一部のMDCTスペクトルは、他のMDCTスペクトルと比較して、振幅（又は、パワー）が大きくなり得る。よって、図５（ｃ）又は図５（ｄ）に示すように、エネルギが一部のスペクトルに集中するMDCTスペクトルは、スパース性を有し得る。

　そこで、スパース性判定部１４２２は、例えば、ハーモニクス情報に基づいてスパース性を判定してよい。また、スパース性判定部１４２２は、例えば、MDCTスペクトル（換言すると、音声信号又は音響信号）において閾値（例えば、50%）以上の割合を占めるスペクトル数に基づいてスパース性を判定してよい。また、スパース性判定部１４２２は、例えば、LPC分析に基づくエンベロープ、及び、MDCTスペクトル（例えば、絶対値）に基づいてスパース性を判定してよい。なお、スパース性の判定は、ハーモニクス情報、エンベロープ情報、及び、MDCTスペクトル（例えば、絶対値）の少なくとも一つのパラメータ（又は、特徴量）に限らず、他のパラメータに基づいて判定されてもよい。

　なお、スパース性判定部１４２２におけるMDCTスペクトルがスパース性を有するか否かを判定する条件の一例については後述する。

　量子化スケール係数補正部１４２３は、例えば、MDCTスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する。例えば、量子化スケール係数補正部１４２３は、MDCTスペクトルにおいてスパース性が有る場合、量子化スケール係数（初期値）を補正する。一方、スパース解析部１４２は、例えば、MDCTスペクトルにおいてスパース性が無い場合、量子化スケール係数の補正を行わない。量子化スケール係数補正部１４２３は、得られた量子化スケール係数を、量子化・符号化部１５（例えば、図３）へ出力する。

　ここで、図３において、量子化スケール係数計算部１４１では、例えば、LPC分析に基づいて得られるエンベロープ（換言すると、スケーリングされたエンベロープ）と、MDCTスペクトルの絶対値との乗算値に対する標準偏差の逆数が、量子化スケール係数に決定される。

　また、例えば、図５（ａ）～（ｄ）に示すように、MDCTスペクトルがスパース性を有する場合には、MDCTスペクトルがスパース性を有さない場合（図示せず）と比較して、同じようなMDCTスペクトルのピーク値を有する場合において、MDCTスペクトルの平均値はより低くなり得る。

　このため、MDCTスペクトルにおいて、スパース性を有する場合には、スパース性を有さない場合と比較して、MDCTスペクトル全体のエネルギあるいは平均振幅（例えば、上記標準偏差に相当）は低く推定され得る。よって、例えば、MDCTスペクトルにおいて、スパース性を有する場合には、量子化スケール係数計算部１４１において決定される量子化スケール係数（例えば、上記標準偏差の逆数）は、スパース性を有さない場合の量子化スケール係数、又は、探索後の量子化スケール係数と比較して、より大きな値になり得る。

　図６は、スパース性に基づく量子化スケール係数の補正処理の一例を示す。例えば、図６は、MDCTスペクトルがスパース性を有する場合の量子化スケール係数（換言すると、補正前の量子化スケール係数）と、探索後の量子化スケール係数（換言すると、補正後の量子化スケール係数）との対応関係の一例を示す。

　図６において、横軸は、探索（例えば、二分探索）後の量子化スケール係数を表し、縦軸は、スパース性判定部１４２２に入力される量子化スケール係数を表す。スパース性判定部１４２２に入力される量子化スケール係数は、例えば、量子化スケール係数計算部１４１において算出される量子化スケール係数でもよく、前処理部１４２１において調整された量子化スケール係数でもよい。

　図６に示すように、例えば、スパース性判定部１４２２においてMDCTスペクトルがスパース性を有すると判定された場合、量子化スケール係数補正部１４２３は、補正前の量子化スケール係数（例えば、scl_b）を、量子化スケール係数（例えば、scl_a）に補正（低減）する。

　量子化スケール係数の補正方法は、例えば、図６に示すように、スパース性が有る場合の量子化スケール係数と、探索後の量子化スケール係数との統計的な関係（例えば、シミュレーション結果）に基づいて設定されてよい。例えば、図６の例では、補正前の量子化スケール係数scl_b=0.0400、及び、補正後の量子化スケール係数scl_a=0.0216となり、scl_bと、scl_aとの間に「１．８５」の比率がある。よって、例えば、量子化スケール係数補正部１４２３は、MDCTスペクトルがスパース性を有する場合には、量子化スケール係数scl_bを、１．８５で除した値scl_aに補正してよい（例えば、scl_a = scl_b / 1.85）。

　なお、パラメータ「１．８５」は一例であり、この値に限定されない。また、量子化スケール係数の補正方法は、上記方法に限らず、他の方法でもよい。

　以上、スパース解析部１４２の動作について説明した。例えば、MDCTスペクトルにおいてスパース性を有する場合には、量子化スケール係数探索部１４３は、補正後の量子化スケール係数の初期値に基づいて探索を開始できる。例えば、図６では、量子化スケール係数探索部１４３は、補正後の量子化スケール係数scl_aを初期値に設定して、二分探索を行う。この探索により、量子化スケール係数探索部１４３は、例えば、図６に示す補正前の量子化スケール係数scl_bを初期値に設定して二分探索を行う場合と比較して、二分探索による収束値を得るまでの探索回数、すなわち、演算量を低減できる。

　［スパース性の判定例］
　次に、スパース性判定部１４２２におけるMDCTスペクトルがスパース性を有するか否かを判定する条件（判定方法）の一例について説明する。

　＜判定条件１＞
　判定条件１では、スパース性判定部１４２２は、MDCTスペクトルが図５（ａ）又は図５（ｂ）のように、「ハーモニクス構造」を有するか否かに基づいて、スパース性を判定する。

　例えば、スパース性判定部１４２２は、ハーモニクスフラグと、ハーモニクスゲインインデックスと、MDCTスペクトルの絶対値の平均値（以下、「スペクトル平均値」と呼ぶ）と、に基づいて、スパース性を判定してよい。

　また、例えば、スパース性判定部１４２２は、ハーモニクスフラグがONの場合（換言すると、ハーモニクス構造を有する場合）、かつ、ハーモニクスゲインインデックスが閾値以上の場合（換言すると、ハーモニクスのゲインが閾値以上の場合）、かつ、スペクトル平均値を超えるスペクトル（換言すると、周波数bin又はラインとも呼ぶ）の数が閾値未満の場合、MDCTスペクトルがスパース性を有すると判定してよい。

　例えば、MDCTスペクトルがハーモニクス構造を有する場合でも、スペクトル平均値を超えるスペクトル数が閾値以上の場合には、ハーモニクス構造におけるスペクトルのピーク成分と、ピーク成分と異なる他の成分との差がより小さくなり、スパース性を有さない可能性がある。よって、スペクトル平均値を超えるスペクトル数が閾値以上の場合には、スパース性判定部１４２２は、MDCTスペクトルがスパース性を有さないと判定してよい。

　なお、判定条件１において、ハーモニクスゲインインデックスに対する閾値は複数設定されてよい。また、判定条件１において、スペクトル平均値を超えるスペクトル数に対する閾値は複数設定されてよい。

　例えば、図５（ａ）に示す例は、ハーモニクスフラグがONであり、ハーモニクスゲインインデックスが閾値「X1」（例えば、X1=3）以上であり、かつ、スペクトル平均値を超えるスペクトル数が閾値「Y1」（例えば、Y1=95）未満の場合を示す。

　また、例えば、図５（ｂ）に示す例は、ハーモニクスフラグがONであり、ハーモニクスゲインインデックスが閾値「X2」（例えば、X2=2）であり、かつ、スペクトル平均値を超えるスペクトル数が閾値「Y2」（例えば、Y2=85）未満の場合を示す。

　なお、閾値X1、X2、Y1及びY2の値は一例であり、これらの値に限定されない。また、ここでは、X1及びY1の組み合わせ、及び、X2及びY2の組み合わせの２パターンの条件の何れかに基づいて、スパース性が判定される場合について説明したが、これに限定されない。例えば、ハーモニクスゲインインデックスに関する閾値X、及び、スペクトル平均値を超えるスペクトル数に関する閾値Yの組み合わせのパターンは、１パターンでもよく、３パターン以上でもよい。

　＜判定条件２＞
　判定条件２では、スパース性判定部１４２２は、MDCTスペクトルが図５（ｃ）のように、MDCTスペクトルにおいて閾値以上の割合（例えば、「構成比」とも呼ぶ）を占めるスペクトル数に基づいて、スパース性を判定する。

　例えば、スパース性判定部１４２２は、MDCTスペクトルにおいて閾値（例えば、50%）以上の構成比を占めるスペクトル数が閾値L1以下の場合に、MDCTスペクトルがスパース性を有すると判定してよい。

　または、例えば、スパース性判定部１４２２は、MDCTスペクトルにおいて閾値（例えば、50%）以上の構成比を占めるスペクトル数が閾値L1以下の場合、かつ、MDCTスペクトルの絶対値の二乗平均平方根（換言すると、パワー平均値または平均振幅）を超えるスペクトル数が閾値L2未満の場合に、MDCTスペクトルがスパース性を有すると判定してよい。

　例えば、MDCTスペクトルの絶対値の二乗平均平方根を超えるスペクトル数が閾値L2以上の場合、MDCTスペクトルの分布において、エネルギが一部のスペクトルに集中していない（換言すると、分散している）可能性が高いので、スパース性判定部１４２２は、スパース性を有さないと判定してよい。

　例えば、図５（ｃ）に示す例は、振幅上位のスペクトルk個（例えば、k=4）にエネルギが集中し、上位ｋ個のMDCTスペクトルの振幅がスペクトル全体の振幅総和に対して50%以上を占め、かつ、MDCTスペクトルの絶対値の二乗平均平方根を超えるスペクトル数が閾値L1（例えば、L1=13）未満の場合を示す。

　なお、判定条件２は、例えば、MDCTスペクトルがハーモニクス構造を有さない場合に適用されてもよい（一例は後述する）。

　＜判定条件３＞
　判定条件３では、スパース性判定部１４２２は、判定条件２と同様、MDCTスペクトルが図５（ｄ）のように、MDCTスペクトルにおいて閾値以上の割合（又は、構成比）を占めるスペクトル数に基づいて、スパース性を判定する。

　また、判定条件３では、スパース性判定部１４２２は、スペクトルの占める構成比に基づく条件に加え、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比に基づいて、スパース性を判定してよい。

　例えば、スパース性判定部１４２２は、MDCTスペクトルにおいて閾値（例えば、50%）以上の構成比を占めるスペクトル数が閾値L1以下の場合、かつ、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2以上の場合、MDCTスペクトルがスパース性を有すると判定してよい。

　例えば、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2未満の場合、MDCTスペクトルにおいて、最大ピークのパワー（または振幅）に対するパワー（または振幅）の平均値の比率が大きくなり得る。このため、最大ピークのパワー（または振幅）が一部のスペクトルに集中していない（換言すると、分散している）可能性が高いので、スパース性判定部１４２２は、スパース性を有さないと判定してよい。

　例えば、図５（ｄ）に示す例は、スペクトル振幅上位のk個（例えば、k=4）がスペクトル全体のエネルギ（スペクトル振幅の総和）の50%以上を占め、かつ、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2（例えば、L2=12.4）以上の場合を示す。

　なお、パラメータk、閾値L1及びL2の値は一例であり、これらの値に限定されない。

　また、判定条件２及び判定条件３において、スペクトルが占める構成比に関する閾値が50%の場合について説明したが、50%に限らず、他の割合でもよい。

　また、判定条件２及び判定条件３において、例えば、k個のスペクトルが占める構成比が50%を超えることは、フレーム内のスペクトル数（例えば、L_frame個）のうち、構成比50%を占めるスペクトル数kの割合（例えば、k/L_frame）が閾値以下であることに置き換えてもよい。例えば、L_frame=640であり、閾値=0.0559の場合、k/L_frame≦0.0559を満たすkは4個である。

　以上、判定条件１～判定条件３について説明した。なお、判定条件１～判定条件３を組み合わせてもよい。また、スパース性の判定条件は、判定条件１～判定条件２に限らず、他の判定条件でもよい。

　スパース性判定部１４２２は、例えば、MDCTスペクトルに基づいて算出される補正前の量子化スケール係数（換言すると、補正前の初期値）に基づいて、MDCTスペクトルのスパース性を判定する判定条件を切り替えてもよい。

　図７は、スパース性判定部１４２２における判定条件の切り替え例を示す。

　例えば、図７の例では、スパース性判定部１４２２は、補正前の量子化スケール係数が閾値n1（例えば、n1=0.01）未満の場合には判定条件１及び判定条件２を適用し、補正前の量子化スケール係数が閾値n1以上、かつ、閾値n2（例えば、n2=0.0559）以下の場合には判定条件３を適用してもよい。

　閾値n1は、例えば、ハーモニクス構造を有する可能性のあるMDCTスペクトルに対応する量子化スケール係数であるか否かに基づいて決定されてよい。例えば、MDCTスペクトルのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さいほど、当該MDCTスペクトルがハーモニクス構造を有する可能性が高い。そこで、例えば、スパース性判定部１４２２は、補正前の量子化スケール係数が閾値n1未満の場合（換言すると、MDCTスペクトルのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さい場合）、スパース性判定の際にハーモニクス構造を有するか否かを判定してよい。一方、例えば、スパース性判定部１４２２は、補正前の量子化スケール係数が閾値n1以上の場合（換言すると、MDCTスペクトルの数本のみのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さい場合）、スパース性判定の際にハーモニクス構造を有するか否かを判定しなくてよい。

　また、閾値n2は、例えば、量子化スケール係数によってスケーリングされるMDCTスペクトルの振幅レベルの下限値に基づいて決定されてよい。

　例えば、MDCTスペクトルの振幅レベルが小さいほど、量子化スケール係数は大きく設定され得る。ただし、MDCTスペクトルの振幅レベルが０付近では、量子化スケール係数をより大きく設定することなく、MDCTスペクトルが０で量子化されるような量子化スケール係数に設定してもよい。換言すると、MDCTスペクトル振幅レベルが０付近のものを無理に0より大きな値で量子化するような場合には、量子化スケール係数の設定によっては、MDCTスペクトルを過剰にスケーリングし得る。

　例えば、図７に示す例では、閾値n2の設定により、量子化スケール係数の上限値、換言すると、MDCTスペクトルが量子化される振幅レベルの下限値が設定される。閾値n2の設定により、例えば、MDCTスペクトルの振幅レベルが０付近の場合に、より大きな量子化スケール係数が設定されることを防止できるので、MDCTスペクトルの過剰なスケーリングを抑制できる。

　また、例えば、図７において、補正前の量子化スケール係数が閾値n2より大きい場合、スパース性判定部１４２２は、スパース性の判定を行わなくてもよい。補正前の量子化スケール係数が閾値n2より大きい場合、例えば、量子化スケール係数補正部１４２３は、スパース性の有無に依らず、量子化スケール係数を、閾値n2（図７では例えば、n2=0.0559）の値に設定してよい。なお、補正前の量子化スケール係数が閾値n2より大きい場合の量子化スケール係数の補正値は、閾値n2に限らず、他の値（例えば、0.05）でもよい。

　このように、スパース性判定部１４２２は、補正前の量子化スケール係数（換言すると、MDCTスペクトル振幅レベル）に基づいて、スパース性の判定条件を切り替える。判定条件の切り替えにより、スパース性判定部１４２２は、MDCTスペクトルの特徴（例えば、振幅レベル、又は、ハーモニクス構造の有無等）に応じて、スパース性を判定できるので、スパース性の判定精度を向上できる。

　なお、閾値n1及びn2の値は一例であり、他の値でもよい。また、閾値は、１個でもよく、３個以上でもよい。

　以上のように、本実施の形態では、符号化装置１において、音声信号又は音響信号のMDCTスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、初期値に基づいて、量子化スケール係数の探索を行う。換言すると、符号化装置１において、量子化スケール係数の初期値は、例えば、二分探索において得られる量子化スケース係数により近い値へ補正される。この補正により、例えば、二分探索における探索回数を低減し、量子化スケール係数の探索処理における演算量を低減できる。よって、本実施の形態によれば、音声信号又は音響信号の符号化における演算量を低減できる。

　（バリエーション１）
　バリエーション１では、量子化スケール係数探索部１４３（例えば、図３）は、図８に示す探索処理を行ってもよい。

　図８では、量子化スケール係数探索部１４３は、例えば、式（１）に基づいて、次回の探索における量子化スケール係数（例えば、「nx_scl」と表す）を算出してよい。

　式（１）において、t_bitは目標ビット量を表し、bf_bitは前回の探索においてMDCTスペクトルの算術符号化について推定される消費ビット量を表し、cr_bitは今回の探索においてMDCTスペクトルの算術符号化について推定される消費ビット量を表す。また、bf_sclは前回の探索における量子化スケール係数を表し、cr_sclは今回の探索における量子化スケール係数を表す。

　このように、バリエーション１では、量子化スケール係数探索部１４３は、今回の探索におけるMDCTスペクトルの算術符号化について推定される消費ビット量cr_bitと目標ビット量t_bitとの差分n、及び、前回の探索におけるMDCTスペクトルの算術符号化について推定される消費ビット量bf_bitと目標ビット量t_bitとの差分mに基づいて、次回のにおける量子化スケール係数nx_sclを決定する。なお、nx_sclは、”bf_scl≦nx_scl≦cr_scl”または”cr_scl≦nx_scl≦bf_sclを満たす。

　換言すると、量子化スケール係数探索部１４３は、各探索において推定される消費ビット量と目標ビット量との差分（例えば、m及びn）に基づいて、各探索に使用された量子化スケール係数に対して重み付けを行う。

　例えば、図８に示す例では、前回探索時の消費ビット量bf_bitと目標ビット量t_bitとの差分mよりも、今回探索時の消費ビット量cr_bitと目標ビット量t_bitとの差分nの方が小さい。よって、量子化スケール係数探索部１４３は、前回探索時の量子化スケール係数bf_sclよりも今回探索時の量子化スケール係数cr_sclに対する重み付けを大きく設定し（例えば、｜m｜<｜n｜）、次回探索時の量子化スケール係数nx_sclを決定する。

　また、重み付けで得られた次回探索時の量子化スケール係数をwg_sclとし、二分探索で得られた次回探索時の量子化スケール係数をbi_scl（二分探索法の場合、重み係数bi_sclは0.5となる）とし、量子化スケール係数探索部１４３は、両者の重みづけ和によって次回探索時の量子化スケール係数nx_sclを決定してもよい。この重みづけの重み係数は探索ごとに変えてもよい。例えば，nx_scl＝１×wg_scl＋０×bi_sclから始めて、nx_scl＝0.75×wg_scl＋0.25×bi_scl，nx_scl＝0.5×wg_scl＋0.5×bi_scl，nx_scl＝0.25×wg_scl＋0.75×bi_scl，と１回ごとに0.25ずつ重みを増減させ、最終的に二分探索法と同じとなる、nx_scl＝0×wg_scl＋１×bi_sclにしても良い。一般化すると、nx_sclは式（２）で表される。

　バリエーション１によれば、例えば、前回探索時及び今回探索時の量子化スケール係数の中間値を次回探索時の量子化スケール係数に設定する場合と比較して、目標ビット量を満たす量子化スケール係数をより早く（少ない探索回数で）探索できる。よって、量子化スケール係数探索部１４３における量子化スケール係数の探索回数を低減でき、演算量を低減できる。

　なお、今回の探索における消費ビット量と比較する探索は、前回の探索（換言すると、１つ前の探索）に限らず、前回の探索より前の探索でもよい。また、複数の探索に基づいて量子化スケール係数が決定される探索は、次回の探索（換言すると、１つ後の探索）に限らず、次回の探索より後の探索でもよい。また、今回の探索における消費ビット量と比較する探索は、過去の１回の探索に限らず、過去の複数の探索における消費ビット量が使用されてもよい。

　（バリエーション２）
　図４に示すスパース解析部１４２において、前処理部１４２１は、上述した動作（例えば、量子化スケール係数の調整）に加え、例えば、量子化スケール係数（初期値）の上限値を調整（換言すると、リミット）してもよい。この場合、スパース性判定部１４２２は、前処理部１４２１の出力（上限値が調整された量子化スケール係数）に基づいて、スパース性を判定してよい。

　例えば、量子化スケール係数の上限値を調整する場合、前処理部１４２１は、図７に示す閾値n2を上限値に設定してよい。この設定により、上述したように、量子化スケール係数によってスケーリングされるMDCTスペクトル振幅レベルの下限値が設定され、MDCTスペクトルの過剰なスケーリングを抑制できる。また、前処理部１４２１において量子化スケール係数の上限値がn2に調整される場合、スパース性判定部１４２２には、閾値n2より大きい量子化スケール係数は入力されないので、スパース性判定（例えば、図７）において閾値n2は設定されなくてもよい。

　なお、前処理部１４２１における量子化スケール係数の上限値は、閾値n2と異なる値でもよい。

　（バリエーション３）
　符号化装置１は、例えば、MDCTスペクトルがスパース性を有すると判定し、かつ、閾値（例えば、50%）の構成比を占めるスペクトル数が閾値以下の場合、量子化されたMDCTスペクトルに対して、算術符号化ではなく、パルス符号化を行ってもよい。この処理により、符号化効率を向上できる。

　なお、図３に示す符号化部１５２は、例えば、符号化方法を切り替える切替部と、算術符号化部と、パルス符号化部と、を有してよい。また、符号化装置１は、例えば、MDCTスペクトルの符号化に適用した符号化方法を示す情報を生成し、復号装置２へ送信してもよい。なお、復号装置２が、例えば、算術符号化及びパルス符号化を含む複数の符号化方法に対応し、復号装置２において符号化装置１での符号化方法を特定可能な場合、符号化方法を示す情報は、復号装置２へ通知されなくてよい。

　以上、本開示の実施の形態について説明した。

　本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるＬＳＩとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのＬＳＩ又はＬＳＩの組み合わせによって制御されてもよい。ＬＳＩは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。ＬＳＩはデータの入力と出力を備えてもよい。ＬＳＩは、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　集積回路化の手法はＬＳＩに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。

　さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。

　本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム（通信装置と総称）において実施可能である。通信装置は無線送受信機（トランシーバー）と処理／制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機（送信部、受信部）は、ＲＦ（Ｒａｄｉｏ　Ｆｒｅｑｕｅｎｃｙ）モジュールと１または複数のアンテナを含んでもよい。ＲＦモジュールは、増幅器、ＲＦ変調器／復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機（携帯電話、スマートフォン等）、タブレット、パーソナル・コンピューター（ＰＣ）（ラップトップ、デスクトップ、ノートブック等）、カメラ（デジタル・スチル／ビデオ・カメラ等）、デジタル・プレーヤー（デジタル・オーディオ／ビデオ・プレーヤー等）、着用可能なデバイス（ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等）、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン（遠隔ヘルスケア・メディシン処方）デバイス、通信機能付きの乗り物又は移動輸送機関（自動車、飛行機、船等）、及び上述の各種装置の組み合わせがあげられる。

　通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス（家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等）、自動販売機、その他ＩｏＴ（Ｉｎｔｅｒｎｅｔ　ｏｆ　Ｔｈｉｎｇｓ）ネットワーク上に存在し得るあらゆる「モノ（Things）」をも含む。

　通信には、セルラーシステム、無線ＬＡＮシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。

　また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。

　また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。

　本開示の一実施例において、前記スパース性を有するか否かを判定する判定回路、を更に具備する。

　本開示の一実施例において、前記判定回路は、前記スペクトルのハーモニクス構造に基づいて、前記スパース性を判定する。

　本開示の一実施例において、前記判定回路は、前記音声音響信号において閾値以上の割合を占めるスペクトル数に基づいて、前記スパース性を判定する。

　本開示の一実施例において、前記判定回路は、前記スペクトルの絶対値、及び、前記スペクトルのエンベロープに基づいて、前記スパース性を判定する。

　本開示の一実施例において、前記判定回路は、前記スペクトルに基づいて算出される補正前の前記初期値に基づいて、前記スパース性を判定する条件を切り替える。

　本開示の一実施例において、前記初期値の上限値を調整する前処理回路、を更に具備し、前記判定回路は、前記前処理回路の出力に基づいて、前記スパース性を判定する。

　本開示の一実施例において、前記探索回路は、第１の探索における前記スペクトルの符号化について推定される消費ビット量と目標ビット量との差分、及び、前記第１の探索の前の第２の探索における前記スペクトルの符号化について推定される消費ビット量と前記目標ビット量との差分に基づいて、前記第１の探索の後の第３の探索における前記量子化スケール係数を決定する。

　本開示の一実施例において、前記音声音響信号のスペクトル振幅の分散及び標準偏差の何れか一方に基づいて前記初期値を算出する算出回路、を更に具備する。

　本開示の一実施例に係る量子化スケール係数決定方法において、量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、前記初期値に基づいて、前記量子化スケール係数の探索を行う。

　２０１９年１０月１６日出願の特願２０１９－１８９１７７の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

　本開示の一実施例は、音声信号又は音響信号の伝送システム等に有用である。

　１　符号化装置
　２　復号装置
　１０　TCX符号化部
　１１　エンベロープ生成部
　１２　ハーモニクス解析部
　１３　エンベロープスケーリング部
　１４　レートループ処理部
　１５　量子化・符号化部
　１４１　量子化スケール係数計算部
　１４２　スパース解析部
　１４３　量子化スケール係数探索部
　１５１　量子化部
　１５２　符号化部
　１４２１　前処理部
　１４２２　スパース性判定部
　１４２３　量子化スケール係数補正部

Claims

　音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、
　前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、
　を具備する量子化スケール係数決定装置。
　前記スパース性を有するか否かを判定する判定回路、を更に具備する、
　請求項１に記載の量子化スケール係数決定装置。
　前記判定回路は、前記スペクトルのハーモニクス構造に基づいて、前記スパース性を判定する、
　請求項２に記載の量子化スケール係数決定装置。
　前記判定回路は、前記音声音響信号において閾値以上の割合を占めるスペクトル数に基づいて、前記スパース性を判定する、
　請求項２に記載の量子化スケール係数決定装置。
　前記判定回路は、前記スペクトルの絶対値、及び、前記スペクトルのエンベロープに基づいて、前記スパース性を判定する、
　請求項２に記載の量子化スケール係数決定装置。
　前記判定回路は、前記スペクトルに基づいて算出される補正前の前記初期値に基づいて、前記スパース性を判定する条件を切り替える、
　請求項２に記載の量子化スケール係数決定装置。
　前記初期値の上限値を調整する前処理回路、を更に具備し、
　前記判定回路は、前記前処理回路の出力に基づいて、前記スパース性を判定する、
　請求項２に記載の量子化スケール係数決定装置。
　前記探索回路は、第１の探索における前記スペクトルの符号化について推定される消費ビット量と目標ビット量との差分、及び、前記第１の探索の前の第２の探索における前記スペクトルの符号化について推定される消費ビット量と前記目標ビット量との差分に基づいて、前記第１の探索の後の第３の探索における前記量子化スケール係数を決定する、
　請求項１に記載の量子化スケール係数決定装置。
　前記音声音響信号のスペクトル振幅の分散及び標準偏差の何れか一方に基づいて前記初期値を算出する算出回路、を更に具備する、
　請求項１に記載の量子化スケール係数決定装置。
　量子化スケール係数決定装置は、
　音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、
　前記初期値に基づいて、前記量子化スケール係数の探索を行う、
　量子化スケール係数決定方法。