TWI329302B - Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method - Google Patents

Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method Download PDF

Info

Publication number
TWI329302B
TWI329302B TW096101667A TW96101667A TWI329302B TW I329302 B TWI329302 B TW I329302B TW 096101667 A TW096101667 A TW 096101667A TW 96101667 A TW96101667 A TW 96101667A TW I329302 B TWI329302 B TW I329302B
Authority
TW
Taiwan
Prior art keywords
frequency
unit
encoding
code amount
sound
Prior art date
Application number
TW096101667A
Other languages
English (en)
Other versions
TW200805253A (en
Inventor
Hiroyasu Ide
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Publication of TW200805253A publication Critical patent/TW200805253A/zh
Application granted granted Critical
Publication of TWI329302B publication Critical patent/TWI329302B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

1329302 九、發明說明: 【發明所屬之技術領域】 本發明係有關於聲音編碼裝置、聲音解碼裝置、聲音 編碼方法、及聲音解碼方法。 【先前技術】 自以往’已知一種聲音編碼方法,其係對聲音信號施加 頻率變換和熵編碼,並將產生碼量控制成目標値。作爲這 種聲音編碼方法,在日本特許出願:特開2〇〇5_128404號 公報揭示一種頻率變換係數之熵編碼方法,其係至產生碼 量達到目標値爲止,一面減少編碼的頻率變換係數,一面 重複編碼。 可是,上述之以往的聲音編碼方法,至產生碼量達到 目標値爲止,需要一再地重複相同之熵編碼。因而,有計 算量(處理量)增大的問題。 【實施方式】 以下,參照圖面詳細說明本發明之實施形態。 在第1圖表示本實施形態之聲音編碼裝置1〇〇的構造。 聲音編碼裝置100由資訊框化部11、位準調整部12、頻率 變換部13、頻帶分割部14、最大値檢索部15、挪移數算出 部16、挪移處理部17、量化部18、重要度算出部19、以及 熵編碼部20構成。對聲音編碼裝置100之輸入信號例如設 爲以16KHz取樣所量化成16位元的數位聲音等。 資訊框化部11將所輸入之聲音信號分割成固定長度的 1329302 資訊框。一個資訊框係編碼(壓縮)的處理單位。向位準調整 部12輸出各資訊框。在一個資訊框,含有111個(11121)資料 段。一個資料段係進行一次之MDCT(Modified Discrete Cosine Transform:變形離散正弦變換)的單位。一個資料段 之長度相當於MDCT的次數。MDCT之tap理想長度係512 tap 0 位準調整部12對各資訊框進行所輸入之聲音信號的位 準調整(振幅調整)。向頻率變換部13輸出已調整位準之信 ® 號。位準調整係控制一個資訊框中所含信號之振幅的最大 値,使其位於所指定之位元數(以下稱爲壓縮目標位元)以 內。在聲音信號’壓縮成約10位元。設一個資訊框中之輸 入信號的最大振幅爲nbit、壓縮目標位元數爲N時,資料 段中的全部信號朝向LSB (Least Significant Bit:最下階位元) 側僅挪移第一挪移位元數,即在式(1)之以shift_bit的絕對 値所表示之位元數。 [式1]
shift _bit
(«<Λ〇 {η>Ν) (1) 此外,在解碼時,需要使已壓縮之信號復原。因而, 將表示shift_bit之信號作爲編碼信號的一部分輸出。 頻率變換部13對所輸入之聲音信號施加頻率變換,並 向頻帶分割部14輸出頻率變換係數。作爲聲音信號之頻率 變換,使用 MDCT(Modified Discrete Cosine Transform :變 形離散正弦變換)。將所輸入之聲音信號設爲{Xn I n = 0,…, 1329302 M_ 1}。設MDCT資料段之長度爲M。MDCT係數(頻率變換 係數){Xk I k = 0.....M/2 — 1丨被定義成如式(2)所示。 [式2] ^ = + ^ + 4 (2)
“ 2 A 4 2JJ 在此’ hn係窗函數,被定義成如式(3)所示。 [式3]
K=s^[n+l)} (3) 頻帶分割部14將由頻率變換部13所輸入之頻率變換係 數的頻域分割成配合人類聽覺特性之頻帶。頻帶分割部14 如第3圖所示,以愈低頻頻帶頻帶愈窄,愈高頻頻帶頻帶 愈寬之方式分割。例如,在聲音信號之取樣頻率係1 6kHz 的情況,將分割之境界設爲187.5Hz、437.5Hz' 687.5Hz、 937.5Hz、1312.5Hz、1 687.5Hz、2312.5Hz、3250Hz、4625Hz、 6 5 00Hz,而將頻域分割成1 1個頻帶。 最大値檢索部1 5對頻帶分割部1 4所分割之頻帶,由頻 率變換係數的絕對値之中檢索最大値。 挪移數算出部16算出挪移處理部17應挪移的位元數 (以下稱爲第二挪移位元數)。該計算係以在最大値檢索部15 所得之各分割頻帶的最大値變成小於在各頻帶所預設之量 化位元數的方式進行。例如’在某頻帶的頻率變換係數之 絕對値的最大値係1101010(二進位數)時’該最大値含有符 號位元時以8位元表示。在該頻帶所預設之量化位元數係6 1329302 位元的情況,第二挪移位元數變成2位元。在該頻帶所預 設之量化位元數係根據人類聽覺特性,愈低頻域愈多,愈 高頻域愈少較佳。例如,將由高頻帶往低頻帶階段式地指 定爲由5位元至8位元。 挪移處理部17對各分割頻帶,將全部之頻率變換係數 的資料,向LSB側僅挪移所算出之第二挪移位元數。向量 化部18輸出所挪移之頻率變換係數的資料。此外,在解碼 時,需要使頻率變換係數回到原來的位元數。因而,將表 示各頻帶之第二挪移位元數的信號作爲編碼信號之一部分 輸出。 量化部18對由挪移處理部17所輸入之挪移處理後的頻 率變換係數信號,施加既定之量化(例如純量量化)。向重要 度算出部19輸出已量化之頻率變換係數信號。 重要度算出部19算出各頻率成分之頻率變換係數信號 的重要度。在熵編碼部20執行範圍編碼器(Range Coder)編 碼時使用所算出之重要度。藉由使用重要度之編碼,產生 配合所預設之目標碼量的碼。重要度以各頻率成分之頻率 變換係數信號的總能量表示。在一個資訊框含有m個資料 段的情況,對各頻率成分,利用MDCT算出m個頻率變換 係數。以fu表示由第j個MDCT資料段所算出之第i個頻率 變換係數。將由各資料段所算出之第i個(i = 0 ,…,M/2 -1)頻率變換係數集中,以{ ful j = 0,…,m — 1}表示。以下 將i稱爲頻率號碼。對應於根據頻率號碼i所特定之頻率成 分的能量gi被表示成如式(4)所示。 1329302 [式4]
m~I ^' = ΣΛ2 ⑷ • 能量gi之値爲頻率成分愈大MDCT係數之重要度愈高 . 者。第6圖對每個頻率號碼表示頻率變換係數{ fu| j = 0,…,m— 1}及能量gi之關係。對各頻率成分,根據m 個頻率變換係數算出能量gi。此外,亦可作成對能量gi的 値乘以和頻率相依的加權係數》例如,對未滿500Hz之頻 φ 率的能量gi乘以1.3,對500Hz以上且未滿3500Hz之頻率 的能量gi乘以1.1,對超過3500Hz以上之頻率的能量gi乘 以 1.0。 熵編碼部20按照在重要度算出部19所算出之重要度高 的順序,將頻率號碼i及對應之m個頻率變換係數資料{ fu 丨j = 0,…,m— 1 }進行熵編碼。至產生碼量變成所預設之目 標碼量爲止,將按照重要度之順序所產生的碼作爲編碼資 料(壓縮信號)輸出。 # 熵編碼係利用以下之方法變換成比信號整體的碼長更 短之編碼方式。即,利用資料的統計性質,對出現頻次多 之碼指派短的碼,對出現頻次少之碼指派長的碼,而進行 編碼。在熵編碼,有利用霍夫曼(Huffman)編碼、算術編碼、 利用範圍編碼器之編碼等。在本實施形態,熵編碼使用利 用範圍編碼器(R a n g e C 〇 d e r)之編碼。 第2圖表示本實施形態之聲音解碼裝置200的構造。聲 音解碼裝置200係將聲音編碼裝置1〇〇所編碼之信號解碼的 1329302 裝置。聲音解碼裝置200如第2圖所示,由熵解碼部21、 逆量化部22、頻帶分割部23、挪移處理部24、頻率逆變換 部25、位準重現部26、以及資訊框合成部27構成。 ' 熵解碼部21係將已熵編碼之輸入信號解碼。解碼後之 • 輸入信號作爲頻率變換係數信號向逆量化部22輸出。 逆量化部22對在熵解碼部21己解碼之頻率變換係數 施加逆量化(例如,純量逆量化)。逆量化部22在處理對象 之資訊框所含的頻率變換係數比頻率變換時之頻率變換係 ®數少的情況,將既定値(例如0)代入對應於不足分量之頻率 成分的頻率變換係數。以不足頻率成分之能量變成比有輸 入的頻率成分之能量小的方式代入。逆量化部22向頻帶分 割部23輸出全頻域之頻率變換係數。 頻帶分割部23配合人的聽覺將利用逆量化所得之資料 的頻域進行頻帶分割。頻帶分割和編碼時在聲音編碼裝置 100之頻帶分割部14的分割一樣,以愈低頻域愈窄,愈高 頻域愈寬之方式進行。 ^ 挪移處理部24對各分割頻帶將逆量化部22之利用逆量 化所得的頻率變換係數之資料進行挪移處理。和在聲音編 碼裝置100利用挪移處理部17之挪移處理反向地進行挪 移。挪移之位元數和在編碼時利用挪移處理部17所挪移之 位元數,即第二挪移位元數一致。向頻率逆變換部25輸出 已挪移處理之頻率變換係數資料。 頻率逆變換部25對在挪移處理部24已被施加挪移處理 之頻率變換係數資料,施加頻率逆變換(例如逆MDCT)。藉 -10· 1329302 此,聲音信號由頻域被變換成時域》向位準重現部26輸出 已頻率逆變換之聲音信號。 位準重現部26進行由頻率逆變換部25所輸入之聲音信 號的位準調整(振幅調整)。利用位準調整,在聲音編碼裝置 100由位準調整部1 2所控制之信號的位準回到原來之位 準。向資訊框合成部27輸出已位準調整之聲音信號。 資訊框合成部27將係編碼及解碼之處理單位的資訊框 合成。將合成後之信號作爲重現信號輸出。 其次,說明在本實施形態之動作。 首先,參照第4圖之流程圖,說明在聲音編碼裝置1〇〇 所執行之聲音編碼處理。 資訊框化部11將所輸入之聲音分割成固定長度的資訊 框(部S1 1)。位準調整部12對各資訊框調整所輸入之聲音信 號的位準(振幅)(部S 12)。對位準·調整後之聲音信號,頻率 變換部13施加MDCT,並算出MDCT係數(頻率變換係數)(部 S13)。 接著,利用頻帶分割部14將由頻率變換部13所輸入之 MDCT係數(頻率變換係數)的頻域分割成配合人類聽覺特性 之頻帶(部S1 4)。最大値檢索部15對各分割頻帶,檢索頻率 變換係數之絕對値的最大値(部S 15)。挪移數算出部16以在 各分割頻帶的最大値變成在各分割頻帶所預設之量化位元 數以下的方式,算出第二挪移位元數(部S1 6)。 然後,利用挪移處理部17,對各分割頻帶,將全部的 MDCT係數進行因應於在部S16所算出之第二挪移位元數的 -11- 1329302 挪移處理(部S 1 7)。利用向量化部1 8對挪移處理後之信號, 施加既定之量化(例如純量量化)(部S 18)。 接著’重要度算出部19由在部S13所算出之MDCT係 ' 數算出各頻率成分的重要度(部S19)。利用熵編碼部20按照 • 重要度順序進行熵編碼(部S20),本聲音編碼處理結束。 其次’參照第5圖之流程圖,詳細說明在熵編碼部20 所執行之熵編碼(第4圖之部S20)» 首先,在部S19,選擇和藉由重要度算出部19所算出 •的重要度之中重要度最高的頻率成分對應之頻率號碼i (部 S30)。對所選擇的頻率號碼i及根據頻率號碼i所特定之m 個MDCT係數{ fu丨j = 0,…,m — 1 }施加範圍編碼(部S31)。 接著,判定利用部S 3 1的編碼所產生之碼量是否達到 目標碼量(部S32)。在部S32,判定爲變成目標碼量的情況(部 S32 ; YES),本熵編碼結束。 在部S32,判定爲所產生之碼量未達到目標碼量的情況 (部S32 ; NO),判定是否有未施加編碼之MDCT係數資料(殘 ®餘資料)(部S33)。 在部S33,判定爲有殘餘資料的情況(部S3 3 ; YES),在 部S34,選擇和在未編碼的頻率成分之中重要度高最高的頻 率成分對應之頻率號碼i,並重複部S31及S32的處理。在 部S33,判定爲無殘餘資料的情況(部S33; NO),本熵編碼 結束。 其次,參照第7圖之流程圖,說明在聲音解碼裝置2〇〇 所執行之聲音解碼處理。 -12- 1329302 首先’熵解碼部21對已被施加熵編碼之編碼信號進行 熵解碼處理(部T 1 〇)。利用該解碼處理,得到位準調整所需 的第一挪移位元數、在各分割頻帶之最大値調整所需的第 ' 二挪移位元數、對應於各頻率之頻率號碼以及關於頻率變 ' 換係數的資料。逆量化部22對頻率變換係數資料施加逆量 化(部T11)。在此,係處理對象之資訊框的MDCT係數之個 數’比利用聲音編碼裝置1〇〇的頻率變換部13在編碼時所 算出之MDCT係數的個數少之情況,對不足分量之MDCT •係數插入既定値(例如〇)。 然後,頻帶分割部23和將已逆量化之MDCT係數的頻 域編碼時一樣,配合人類聽覺特性進行頻帶分割(部T12)。 對MDCT係數,在各頻帶,朝向和編碼時反方向利用挪移 處理部24進行挪移處理,並僅挪移在編碼時已挪移之第二 挪移位元數分量(部T13)。頻率逆變換部25對已被施加挪移 處理之資料,施加逆MDCT(部T14)。接著,位準重現部26 以使逆MDCT後之聲音信號回到原來的位準之方式進行位 β準調整(部T15)。利用資訊框合成部27將係編碼及解碼之處 理單位的資訊框合成,本聲音解碼處理結束。 如以上所示,本實施形態的聲音編碼裝置1 〇〇在進行熵 編碼之前,預先對各頻率成分算出重要度,並按照所算出 的重要度之高的順序,至所產生的碼量變成目標碼量爲止 進行各頻率成分之聲音信號的編碼。因而,不必如以往般 一再地重複一樣之編碼’可減少計算量。 其次,說明本實施形態之變形例。 -13- 1329302 % <第1變形例> 在上述的實施形態,按照頻率成分之重要度順序進行 熵編碼。需要使編碼資料含有表示編碼順序之頻率號碼資 料並向解碼裝置傳送。在第1變形例,和上述之實施形態 —樣,按照重要度高的順序進行熵編碼。對已進行熵編碼 之頻率變換係數再按照頻率的順序施加熵編碼。藉此,不 必傳送表示編碼順序的資料。參照第8圖的流程圖,詳細 說明在第1變形例之熵編碼部20所執行的編碼處理。 首先,作爲第一次編碼,進行第5圖所示的熵編碼(部 S40)。接著,在部S40特定成爲編碼對象之頻率成分(選擇 頻率)(部S41)。即,對各頻率成分賦與表示在部S40是否成 爲熵編碼之對象的旗標。第9圖對各頻率成分表示頻率變 換係數、能量gi(參照式(4))以及旗標之關係的例子。將1 代入和在部S41被特定爲選擇頻率成分之頻率成分對應的 旗標値。將0代入和未被特定爲選擇頻率成分之頻率成分 對應的旗標値。 然後,按照頻率號碼順序(例如頻率號碼小的順序)將和 在部S41中被特定的頻率成分(旗標値爲1的頻率成分)對應 的各頻率變換係數進行熵編碼(範圍編碼器編碼)。表示已 編碼之頻率成分的資料(例如,使第9圖之旗標連續的資料) 亦被編碼且附加於頻率變換係數的編碼資料(部S42),第1 變形例之編碼處理結束。 <第2變形例> 在第1變形例,因應於聲音信號的輸入,使用將用以 -14- I$29302 儲存表示聲音信號之各記號的發生機率表逐次更新之範圍 編碼器編碼。又,在第1變形例,根據目標碼量進行第一 次之編碼,以後改變編碼順序並進行編碼。可是,有因發 生機率表之差異而產生碼量超過目標碼量的情況。因此, 在第2變形例,在利用第1變形例之編碼處理所產生的碼 量超過目標碼量之情況,藉由刪除所預先指定的頻率成 分,而將產生碼量抑制於目標碼量內。參照第10圖的流程 圖,詳細說明在第2變形例之熵編碼部20所執行的編碼處 •理。 首先,和第1變形例一樣,作爲第一次編碼,進行第5 圖所示的熵編碼(部S 50)。根據目標碼量,特定所編碼之頻 率成分(選擇頻率)(部S51)。接著,按照頻率號碼順序將和 在部S51所特定之頻率成分對應的各頻率變換係數進行熵 編碼(部S52)。 然後,判定產生碼量是否超過目標碼量(部S 5 3),在部 S53,判定爲產生碼量未超過目標碼量的情況(部S53; NO), ®第2變形例之編碼處理結束。 在部S53 ’判定爲產生碼量超過目標碼量的情況(部 S53; YES)’由成爲編碼對象的資料之中,刪除所預先指定 的頻率成分之資料(例如,最高頻域側之資料)(部S54)。接 著’對在部S54之刪除處理後剩下的資料,施加熵編碼(部 S55)’第2變形例之編碼處理結束。 【圖式簡單說明】 第1圖係表示本發明之實施形態的聲音編碼裝置之構 -15- 1329302 造的方塊圖。 第2圖係表示本發明之實施形態的聲音解碼裝置之構 造的方塊圖。 第3圖係用以說明頻率變換係數之頻帶分割的圖。 第4圖係表示在本實施形態之聲音編碼裝置所執行的 聲音編碼處理之流程圖。 第5圖係表示在本實施形態之熵編碼的細節之流程圖。 第6圖係表示各頻率成分之頻率變換係數和能量的關 •係圖。 第7圖係表示在本實施形態之聲音解碼裝置所執行的 聲音解碼處理之流程圖。 第8圖係表示在本實施形態之第1變形例的編碼處理 之流程圖。 第9圖係表示各頻率成分之頻率變換係數、能量、以 及旗標的關係圖。 第10圖係表示在本實施形態之第2變形例的編碼處理 籲之流程圖。 【主要元件符號說明】 11 資訊框化部 12 位準調整部 13 頻率變換部 14 頻帶分割部 15 最大値檢索部 16 挪移數算出部 -16- 1329302 17 挪移處理部 18 量化部 19 重要度算出部 2 0 Μ編碼部 21 熵解碼部 22 逆量化部 23 頻帶分割部 24 挪移處理部 • 25 頻率逆變換部 26 位準重現部 27 資訊框合成部 100 聲音編碼裝置 200 聲音解碼裝置

Claims (1)

1329302 砂年’x月,日修正替換頁 11 * 1 1 " 1 I I » 第096101667號「聲音編碼裝置、聲音解碼裝置 '聲 曰編碼方法及聲音解碼方法」專利案 (2009年12月8日修正) 十、申請專利範圍: 1·—種聲音編碼裝置,其具備有: 頻率變換部,對聲音信號施加頻率變換,並算 出頻率變換係數;
重要度算出部’對各頻率成分,算出該頻率變 換係數之重要度; 編碼部,按照利用該重要度算出部所算出之重 要度高的順序,進行在該頻率變換部所得之頻率變 換係數的熵編碼;以及 比較部,比較利用該熵編碼所產生之碼量和所 預設的目標碼量, 該編碼部至該產生碼量變成目標碼量爲止,按 照該重要度高之順序進行頻率變換係數的熵編碼。
#例沴日!g 補无 2. 如申請專利範圍第1項之聲音編碼裝置,其中該編 碼部對利用該熵編碼所編碼之頻率變換係數,按照 頻率順序再進行熵編碼。 3. 如申請專利範圍第2項之聲音編碼裝置,其中: 具有再產生碼量比較部,其係進一步比較按照 頻率順序而再次進行之熵編碼的產生碼量和該目標 碼量; 該編碼部在此再產生碼量比較部判斷爲再度之 1329302 日修正替換頁 修正本 熵編碼的產生碼量超過該目標碼量之情況,由產生 碼之中刪除預先所指定的頻率號碼i之頻率變換係 數’並對所殘餘之頻率變換係數再次進行熵編碼。 4. 如申請專利範圍第1項之聲音編碼裝置,其中該編 碼部係利用範圍編碼器編碼來作爲該熵編碼》 5. 如申請專利範圍第1項之聲音編碼裝置,其中: 又具備有: 資訊框化部,將所輸入之聲音信號分割成固定 長度的資訊框; 振幅調整部,對該各資訊框,根據資訊框所含 的聲音信號之振幅的最大値,調整該聲音信號之振 幅,並向該頻率變換部輸出已調整的聲音信號; 頻帶分割部,將利用該頻率變換部所得之頻率 變換係數的頻域分割成根據人類聽覺特性之頻帶; 檢索部,對利用該頻帶分割部所分割的各頻 帶,檢索頻率變換係數之絕對値的最大値; 挪移數算出部,以利用該檢索部所檢測的最大 値變成在各頻帶所預設之量化位元數以下的方式, 算出挪移所需之位元數;以及 挪移處理部,在各頻帶,對頻帶中的頻率變換 係數,施加利用該挪移數算出部所算出之挪移位元 數分量的挪移處理, 該編碼部對已被施加該挪移處理的資料,施加 熵編碼。 1329302 修正本 魯p月(Γ曰修正替換頁 6·如申請專利範圍第1項之聲音編碼裝置,其中該頻 率變換部係使用變形離散正弦變換來作爲該頻率變 換。 7·-種聲音編碼方法,其具備有· 頻率變換步驟,對聲音信號施加頻率變換,並 算出頻率變換係數; 重要度算出步驟’對各頻率成分,算出該頻率 變換係數之重要度; 編碼步驟’按照利用該重要度算出步驟所算出 之重要度高的順序,進行在該頻率變換步驟所得之 頻率變換係數的熵編碼;以及 比較步驟,比較利用該熵編碼所產生之碼量和 所預設的目標碼量, 該編碼步驟至該產生碼量變成目標碼量爲止, 按照該重要度高之順序進行頻率變換係數的熵編 碼。 8. 如申請專利範圍第7項之聲音編碼方法,其中該編 碼步驟對利用該熵編碼所編碼之頻率變換係數,按 照頻率順序再進行熵編碼。 9. 如申請專利範圍第8項之聲音編碼方法,其中·· 具有再產生碼量比較步驟,其係進一步比較按 照頻率順序而再次進行之熵編碼的產生碼量和該目 標碼量: 該編碼步驟利用此再產生碼量比較步驟判斷爲 1329302 __ ' 钟印·月(T日修正替換頁 ___{ 修正本 再度之烟編碼的產生碼量超過該目標碼量之情況, 由產生碼之中刪除預先所指定的頻率成分之頻率變 換係數,並對所殘餘之頻率變換係數再次進行熵編 碼。 10. 如申請專利範圍第7項之聲音編碼方法,其中該編 碼步驟係利用範圍編碼器編碼來作爲該摘編碼。 11. 如申請專利範圍第7項之聲音編碼方法,其中: 又具備有: ^ 資訊框化步驟,將所輸入之聲音信號分割成固 定長度的資訊框; 振幅調整步驟,對該各資訊框,根據資訊框所 含的聲音信號之振幅的最大値,調整該聲音信號之 振幅,並向該頻率變換步驟輸出已調整的聲音信 號; 頻帶分割步驟,將利用該頻率變換步驟所得之 頻率變換係數的頻域分割成根據人類聽覺特性之頻 籲 帶; 檢索步驟,對利用該頻帶分割步驟所分割的各 頻帶,檢索頻率變換係數之絕對値的最大値; 挪移數算出步驟,以利用該檢索步驟所檢測的 最大値變成在各頻帶所預設之量化位元數以下的方 式,算出挪移所需之位元數;以及 挪移處理步驟,在各頻帶,對頻帶中的頻率變 換係數,施加利用該挪移數算出步驟所算出之挪移 1329302 哪年/^5月孑日修正替換頁 修正本 位元數分量的挪移處理, 該編碼步驟對已被施加該挪移處理的資料,施 加熵編碼。 12. 如申請專利範圍第7項之聲音編碼方法,其中該頻 率變換步驟係使用變形離散正弦變換來作爲該頻率 變換。 13. —種聲音解碼裝置,具備有: 解碼部,對聲音信號施加頻率變換,並對利用 該頻率變換所得之頻率變換係數,按照重要度高的 順序’至所產生之碼量達到既定的目標碼量爲止施 加熵編碼,並將已編碼之頻率變換係數進行解碼; 及 頻率逆變換部,對利用該解碼部所解碼之頻率 變換係數,施加頻率逆變換。 14. 如申請專利範圍第13項之聲音解碼裝置,其中該 解碼部在已解碼之頻率變換係數比頻率變換時的頻 率變換係數更少的情況,將値0插入不足分量之頻 率變換係數。 15. —種聲音解碼方法,具備有: 解碼步驟,對聲音信號施加頻率變換,並對利 用該頻率變換所得之頻率變換係數,按照重要度高 的順序,至所產生之碼量達到既定的目標碼量爲止 施加熵編碼,並將已編碼之頻率變換係數進行解 碼;及 132-9302 W咐日修正替換頁 修正本 頻率逆變換步驟,對利用該解碼部所解碼之頻 率變換係數,施加頻率逆變換。 16.如申請專利範圍第15項之聲音解碼方法,其中該 解碼步驟具有插入步驟,其係在已解碼之頻率變換 係數比頻率變換時的頻率變換係數更少的情況,將 値〇插入不足分量之頻率變換係數。
1329302
游/W日修正替換頁
TW096101667A 2006-01-18 2007-01-17 Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method TWI329302B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006010319A JP4548348B2 (ja) 2006-01-18 2006-01-18 音声符号化装置及び音声符号化方法

Publications (2)

Publication Number Publication Date
TW200805253A TW200805253A (en) 2008-01-16
TWI329302B true TWI329302B (en) 2010-08-21

Family

ID=38264338

Family Applications (1)

Application Number Title Priority Date Filing Date
TW096101667A TWI329302B (en) 2006-01-18 2007-01-17 Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method

Country Status (5)

Country Link
US (1) US20070168186A1 (zh)
JP (1) JP4548348B2 (zh)
KR (1) KR100904605B1 (zh)
CN (1) CN101004914B (zh)
TW (1) TWI329302B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009068083A1 (en) * 2007-11-27 2009-06-04 Nokia Corporation An encoder
JP5483813B2 (ja) * 2007-12-21 2014-05-07 株式会社Nttドコモ マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
JP5018557B2 (ja) * 2008-02-29 2012-09-05 カシオ計算機株式会社 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム
JP4978539B2 (ja) * 2008-04-07 2012-07-18 カシオ計算機株式会社 符号化装置、符号化方法及びプログラム。
JP2011064961A (ja) * 2009-09-17 2011-03-31 Toshiba Corp 音声再生装置および方法
WO2011086924A1 (ja) * 2010-01-14 2011-07-21 パナソニック株式会社 音声符号化装置および音声符号化方法
WO2011155786A2 (ko) * 2010-06-09 2011-12-15 엘지전자 주식회사 엔트로피 복호화 방법 및 복호화 장치
EP3441967A1 (en) 2011-04-05 2019-02-13 Nippon Telegraph and Telephone Corporation Decoding method, decoder, program, and recording medium
KR102200643B1 (ko) 2012-12-13 2021-01-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6398607B2 (ja) 2014-10-24 2018-10-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1197619A (en) * 1982-12-24 1985-12-03 Kazunori Ozawa Voice encoding systems
US5752225A (en) * 1989-01-27 1998-05-12 Dolby Laboratories Licensing Corporation Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands
JP2878796B2 (ja) * 1990-07-03 1999-04-05 国際電気株式会社 音声符号化器
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
JP3274284B2 (ja) * 1994-08-08 2002-04-15 キヤノン株式会社 符号化装置およびその方法
JP3353868B2 (ja) * 1995-10-09 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法および復号化方法
JP3998281B2 (ja) * 1996-07-30 2007-10-24 株式会社エイビット デジタル音声信号の帯域分割符号化方法と復号化方法
TW384434B (en) * 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
KR100354531B1 (ko) * 1998-05-06 2005-12-21 삼성전자 주식회사 실시간 복호화를 위한 무손실 부호화 및 복호화 시스템
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
AU754877B2 (en) * 1998-12-28 2002-11-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and devices for coding or decoding an audio signal or bit stream
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
JP2002135122A (ja) * 2000-10-19 2002-05-10 Nec Corp オーディオ信号符号化装置
JP3469567B2 (ja) * 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
EP3099066B1 (en) * 2001-11-22 2019-08-14 Godo Kaisha IP Bridge 1 Variable length coding method and variable length decoding method
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US7433824B2 (en) * 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
EP1604528A2 (en) * 2002-09-17 2005-12-14 Ceperkovic, Vladimir Fast codec with high compression ratio and minimum required resources
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
KR101015497B1 (ko) * 2003-03-22 2011-02-16 삼성전자주식회사 디지털 데이터의 부호화/복호화 방법 및 장치
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
JP4009781B2 (ja) * 2003-10-27 2007-11-21 カシオ計算機株式会社 音声処理装置及び音声符号化方法
JP4259401B2 (ja) * 2004-06-02 2009-04-30 カシオ計算機株式会社 音声処理装置及び音声符号化方法
JP4301091B2 (ja) * 2004-06-23 2009-07-22 日本ビクター株式会社 音響信号符号化装置

Also Published As

Publication number Publication date
US20070168186A1 (en) 2007-07-19
KR20070076519A (ko) 2007-07-24
JP4548348B2 (ja) 2010-09-22
CN101004914B (zh) 2011-03-16
CN101004914A (zh) 2007-07-25
TW200805253A (en) 2008-01-16
JP2007193043A (ja) 2007-08-02
KR100904605B1 (ko) 2009-06-25

Similar Documents

Publication Publication Date Title
TWI329302B (en) Audio coding apparatus, audio decoding apparatus, audio coding method and audio decoding method
JP4800645B2 (ja) 音声符号化装置、及び音声符号化方法
JP5255638B2 (ja) ノイズ補充の方法及び装置
JP4981174B2 (ja) 確率テーブルの動的な計算によるシンボルプレーン符号化/復号化
JP4390208B2 (ja) 音声を可変レートで符号化および復号する方法
JP2012226375A (ja) 無損失オーディオ復号化方法及び無損失オーディオ復号化装置
WO1998000837A1 (fr) Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio
JP2009116371A (ja) 符号化装置および復号化装置
WO1998042083A1 (en) Audio coding method and apparatus
JP5222452B2 (ja) 音響信号の符号化の知覚的改善
JP4736812B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
WO2005106850A1 (ja) 階層符号化装置および階層符号化方法
JP2007293118A (ja) 符号化方法および符号化装置
WO2006001159A1 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4603485B2 (ja) 音声・楽音符号化装置及び音声・楽音符号化方法
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
CN112970063A (zh) 用于利用生成模型的码率质量可分级编码的方法及设备
JP2009253706A (ja) 符号化装置、復号装置、符号化方法、復号方法及びプログラム
JP2001044847A (ja) 可逆符号化方法、可逆復号化方法、これらの装置及びその各プログラム記録媒体
JP2003316394A (ja) 音声復号システム、及び、音声復号方法、並びに、音声復号プログラム
WO2004097798A1 (ja) 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP4191503B2 (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
JP3191257B2 (ja) 音響信号符号化方法、音響信号復号化方法、音響信号符号化装置、音響信号復号化装置
JP5018557B2 (ja) 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム