TW201635274A

TW201635274A - 聲音編碼裝置

Info

Publication number: TW201635274A
Application number: TW105117610A
Authority: TW
Inventors: Kimitaka Tsutsumi; Kei Kikuiri; Atsushi Yamaguchi
Original assignee: Ntt Docomo Inc
Priority date: 2012-11-15
Filing date: 2013-11-15
Publication date: 2016-10-01
Also published as: KR20200051858A; HK1209229A1; JP2019070866A; AU2020294317B2; JP7209032B2; RU2760485C1; KR20160111550A; US11176955B2; KR20200124339A; BR112015008505B1; AU2019202186B2; KR20170107590A; CA2886140A1; CA3044983C; JP2020034951A; JP2018112749A; US11195538B2; EP2922053A1; DK2922053T3; BR112015008505A2

Abstract

目的係為，在聲音編碼中的封包遺失時，可不增加演算延遲就能回復聲音品質。將聲音訊號予以編碼的聲音訊號送訊裝置，係具備：聲音編碼部，係將聲音訊號予以編碼；和輔助資訊編碼部，係從預讀訊號算出輔助資訊並予以編碼。另一方面，將聲音碼予以解碼而輸出聲音訊號的聲音訊號收訊裝置，係具備：聲音碼緩衝區，係從聲音封包之收訊狀態偵測出封包遺失；和聲音參數解碼部，係在聲音封包正常收訊時，將聲音碼予以解碼；和輔助資訊解碼部，係在聲音封包正常收訊時，將輔助資訊碼予以解碼；和輔助資訊積存部，係將輔助資訊碼解碼所得之輔助資訊，予以積存；和聲音參數遺失處理部，係在聲音封包遺失測出時，將聲音參數予以輸出；和聲音合成部，係從聲音參數來合成解碼聲音。

Description

聲音編碼裝置

本發明係有關於將聲音封包經由IP網或移動體通訊網而傳輸之際的錯誤隱蔽，更詳言之是有關於，實現錯誤隱蔽的用來生成高精度封包遺失隱蔽訊號所需的聲音編碼裝置、聲音編碼方法、聲音編碼程式、聲音解碼裝置、聲音解碼方法及聲音解碼程式。

在IP網或移動體通訊中傳輸語音‧音響訊號(以下總稱為「聲音訊號」)之際，是每某一定時間長就將聲音訊號予以編碼而生成聲音封包，經由通訊網路而傳輸。在收訊側，係透過通訊網而收取聲音封包，於收訊側的伺服器、MCU(Multipoint Control Unit)、終端等中進行解碼，成為解碼聲音訊號。

聲音訊號通常是以數位形式而被收音。亦即，是每1秒地以和取樣頻率同數之數列而被計測、積存。該數列之每一個要素，稱作樣本。於聲音編碼中，係每當既定樣本數的聲音訊號，在內藏的緩衝區積存到所定量時，就將緩衝區內的聲音訊號，進行編碼。上記所定樣本數稱作音框長度，與音框長度同數的樣本之集合，稱作音框。例如，於32kHz的取樣頻率下，令音框長度為20ms時，音框長度係為640樣本。此外，緩衝區的長度係亦可比1音框還長。

透過通訊網而傳輸聲音封包之際，係由於通訊網之壅塞狀態等，而會造成一部分聲音封包遺失、或聲音封包中所被寫入之資訊的一部分發生錯誤的現象(亦即所謂的封包遺失)。在此種情況下，由於在收訊側無法正確地將聲音封包予以解碼，因此無法獲得所望之解碼聲音訊號。又，由於發生封包遺失的聲音封包所對應的解碼聲音訊號係被感覺成雜音，因此對收聽的人而言，會顯著減損主觀品質。

為了解決如上述的不良情形，作為將封包遺失所致之喪失部分之聲音音響訊號予以內插的技術，使用了封包遺失隱蔽技術。在封包遺失隱蔽技術中，係有：僅在收訊側進行封包遺失隱蔽的「不使用輔助資訊的封包遺失隱蔽技術」，和在送訊側先求出對封包遺失隱蔽有用的參數，然後傳輸至收訊側，在收訊側利用所收取到的參數來進行封包遺失隱蔽的「使用輔助資訊的封包遺失隱蔽技術」。

其中在「不使用輔助資訊的封包遺失隱蔽技術」，例如，如非專利文獻1之技術，將過去正常收訊之封包中所含之解碼聲音訊號以音高單位加以複製之後，藉由乘算預先決定之衰減係數，以生成對應於封包遺失部分的聲音訊號。「不使用輔助資訊的封包遺失隱蔽技術」，係以封包遺失部分之聲音的性質是和封包剛遺失之前之聲音相似為前提，當封包遺失部分和剛遺失前的聲音是具有不同性質時，或功率有劇烈變化時，無法充分發揮隱蔽效果。

另一方面，「使用輔助資訊的封包遺失隱蔽技術」中，如專利文獻1所述，係有：在送訊側將封包遺失隱蔽上所必須之參數予以編碼而傳輸，利用於收訊側的封包遺失隱蔽之技術。在專利文獻1中，藉由主要編碼、冗長編碼之2個編碼方式，來將聲音予以編碼。冗長編碼，係以比主要編碼還低之位元速率，將主要編碼進行編碼之音框的前1個音框，予以編碼(參照圖1(a))。例如，在第N個封包中，係使其含有：將第N音框藉由主要編碼進行編碼所得之聲音碼、和將第N-1音框藉由冗長編碼進行編碼所得之輔助資訊碼，而予以傳輸。

在收訊側，係等待時間上連續之2個以上的封包的抵達，然後將時間上較早的封包予以解碼，獲得解碼聲音訊號。例如，在獲得對應於第N音框之訊號時，要先等待第N+1封包到達然後才進行解碼。若第N封包、第N+1封包是正常收訊，則藉由將第N封包中所含之聲音碼予以解碼以獲得第N音框的聲音訊號(參照圖1(b))。另一方面，在封包遺失的情況下(第N封包遺失的狀況下，得到第N+1封包時)，藉由將第N+1封包中所含之輔助資訊碼予以解碼，就可獲得第N音框的聲音訊號(參照圖1(c))。

在專利文獻1的方法中，係即使解碼對象之封包已經抵達，仍必須令解碼等待直到還有1個封包以上抵達為止，演算延遲會增加到1封包份以上。因此，在專利文獻1的方法中，雖然可以期待藉由封包遺失隱蔽而提升音質，但是演算延遲會增加，聲音通話品質會降低。

甚至，將如上記之封包遺失隱蔽技術對CELP(Code Excited Linear Prediction，碼激發線性預測)做適用之際，係仍會因為CELP之動作特徵而產生別的問題。CELP，係以線性預測為基礎的聲音模型，可將聲音訊號高精度且高壓縮率地進行編碼，因此被許多國際標準所採用。

CELP中，藉由全極型合成濾波器而將激發訊號e(n)進行過濾而被合成。亦即，按照下式來合成聲音訊號s(n)。

a(i)係為線性預測係數(LP係數)，作為下式係使用例如P=16等之值。

激發訊號，係被積存在稱作適應碼簿的緩衝區中。在將新的音框之聲音予以合成時，係根據一種稱作音高延遲的位置資訊，將從適應碼簿中所讀出之適應碼簿向量、和表示激發訊號之時間變化的固定碼簿向量進行加算，藉此而生成新的激發訊號。新生成的激發訊號，係在被積存於適應碼簿中的同時，會被全極型合成濾波器所過濾，合成解碼訊號。

在CELP中，係針對所有音框，算出LP係數。在LP係數算出時，必須要有10ms左右的預讀訊號。亦即，除了編碼對象音框以外，還需要先把預讀訊號也積存在緩衝區中之後，才實施LP係數算出及其後之處理(參照圖2)。各音框係被分割成4個左右的子音框，以子音框單位，進行上記音高延遲算出、適應碼簿向量算出、固定碼簿向量算出、適應碼簿更新等之處理。在上記子音框單位之處理時，LP係數也進行內插處理，藉此而使係數會每一子音框不同地變化。又，LP係數係由於量化、內插處理的方便，而先被轉換成LP係數之等價表現的ISP(Immittance Spectral Pair)參數、ISF(Immittance Spectral Frequency)參數，然後才被編碼。關於LP係數與ISP參數、ISF參數的相互轉換之處理程序，記載於非專利文獻2。

在CELP編碼中，編碼側與解碼側分別具有適應碼簿，是以這些適應碼簿總是保持同步為前提，來進行編碼、解碼。在正常接收封包、解碼被正常進行的狀況下，編碼側的適應碼簿與解碼側的適應碼簿係為同步，但一旦發生了封包遺失，適應碼簿就會無法保持同步。

例如，作為音高延遲所使用的值，若在編碼側與解碼側為不同，則適應碼簿向量就會在時間上偏誤。因為會用該適應碼簿向量來進行適應碼簿的更新，所以即使下個音框是正常收訊，編碼側所求出的適應碼簿向量、和解碼側所求出之適應碼簿向量仍不一致，適應碼簿的同步係無法回復。由於此種適應碼簿的不一致，導致封包遺失的音框之後，一直到數個音框，會發生音質劣化。

CELP編碼中的封包遺失隱蔽中，作為更進階之技術，係有專利文獻2之手法。在專利文獻2中，係在封包遺失所致影響較大的特定音框中，不傳輸音高延遲或適應碼簿增益，改為傳輸遷移模式碼簿之索引。在專利文獻2中，作為封包遺失所致影響較大之音框，係著眼於遷移音框(從無音之聲音區段往有音之聲音區段的遷移、或是2個母音間之遷移)。於此遷移音框中，藉由使用遷移模式碼簿進行激發訊號生成，而生成不依存於過去適應碼簿的激發訊號，可回復因為過去之封包遺失所導致的適應碼簿不一致。

專利文獻2的方法，係例如在較長母音持續的音框等中，不利用遷移音框碼簿，因此和先前同樣地，無法從適應碼簿之不一致回復。再者，若含有遷移模式碼簿的封包遺失，則和目前為止同樣地，封包遺失以後的音框中仍會殘留遺失的影響。這在含有遷移模式碼簿之封包的下個封包遺失時，也同樣如此。

雖然亦可將遷移音框碼簿這類不依存於過去音框的碼簿，對所有的音框做適應，但編碼效率會顯著降低，因此無法達成低位元速率、高音質。

〔先前技術文獻〕〔專利文獻〕

〔專利文獻1〕日本特表2003-533916號公報

〔專利文獻2〕日本特表2010-507818號公報

〔非專利文獻〕

〔非專利文獻1〕ITU-T G.711 Appendix I

〔非專利文獻2〕3GPP TS26-191

〔非專利文獻3〕3GPP TS26-190

〔非專利文獻4〕ITU-T G.718

若採用專利文獻1的方法，則在解碼對象封包抵達後，要等待後續之封包抵達然後才開始解碼。因此雖然可藉由封包遺失隱蔽來提升音質，但演算延遲會增加，通話品質會降低。

在CELP編碼中的封包遺失時，會因為編碼部、解碼部間的適應碼簿不一致，導致聲音品質劣化。雖然藉由專利文獻2的方法，可從適應碼簿之不一致回復過來，但遷移音框的前一個以外之音框遺失時，無法獲得充分效果。

本發明係為了解決上記課題而研發，目的在於提供一種，在聲音編碼中的封包遺失時，不會增加演算延遲就能回復聲音品質的聲音編碼裝置、聲音編碼方法、聲音編碼程式、聲音解碼裝置、聲音解碼方法及聲音解碼程式。

為了達成上記目的，本發明之一側面所述之聲音編碼裝置，係屬於將聲音訊號予以編碼的聲音編碼裝置，其特徵為，具備：聲音編碼部，係將聲音訊號予以編碼；和輔助資訊編碼部，係從預讀訊號算出輔助資訊並予以編碼。

輔助資訊係有關於預讀訊號中的音高延遲，或者，輔助資訊係有關於預讀訊號中的音高增益，或者亦可為有關於預讀訊號中的音高延遲及音高增益。又，輔助資訊係亦可含有。關於輔助資訊之利用可否的資訊。

亦可為，輔助資訊編碼部係針對預讀訊號部分算出輔助資訊並予以編碼，然後生成隱蔽訊號；且還具備：誤差訊號編碼部，係將輸入聲音訊號與輔助資訊編碼部所輸出之隱蔽訊號的誤差訊號，予以編碼；和主要編碼部，係將輸入聲音訊號本身予以編碼。

又，本發明之一側面所述之聲音解碼裝置，係屬於將聲音碼予以解碼而輸出聲音訊號的聲音解碼裝置，其特徵為，具備：聲音碼緩衝區，係從聲音封包之收訊狀態偵測出封包遺失；和聲音參數解碼部，係在聲音封包正常收訊時，將聲音碼予以解碼；和輔助資訊解碼部，係在聲音封包正常收訊時，將輔助資訊碼予以解碼；和輔助資訊積存部，係將輔助資訊碼解碼所得之輔助資訊，予以積存；和聲音參數遺失處理部，係在聲音封包遺失測出時，將聲音參數予以輸出；和聲音合成部，係從聲音參數來合成解碼聲音。

輔助資訊係有關於預讀訊號中的音高延遲，或者，係有關於預讀訊號中的音高增益，或者亦可為有關於預讀訊號中的音高延遲及音高增益。又，輔助資訊係亦可含有。關於輔助資訊之利用可否的資訊。

亦可為，輔助資訊解碼部，係將輔助資訊碼予以解碼而輸出輔助資訊，且利用輔助資訊來將關於預讀部分的隱蔽訊號予以輸出；且還具備：誤差解碼部，係將有關聲音訊號與隱蔽訊號之誤差訊號的代碼，予以解碼；和主要解碼部，係將有關聲音訊號的代碼，予以解碼；和隱蔽訊號積存部，係將輔助資訊解碼部所輸出的隱蔽訊號，予以積存。

亦可為，在聲音封包正常收訊時，係藉由將從隱蔽訊號積存部所讀出之隱蔽訊號、和誤差解碼部所輸出之解碼誤差訊號進行加算，以生成解碼訊號之一部分，藉由輔助資訊解碼部所輸出的隱蔽訊號，而將隱蔽訊號積存部予以更新。

亦可為，在聲音封包遺失測出時，係將從隱蔽訊號積存部所讀出之隱蔽訊號，當成解碼訊號的部分或全部。

亦可為，在聲音封包遺失測出時，係使用聲音參數遺失處理部所預測出來的聲音參數來生成解碼訊號，使用其一部分來更新隱蔽訊號積存部。

亦可為，聲音參數遺失處理部，係在聲音封包遺失測出時，將從輔助資訊積存部所讀出之輔助資訊，當成聲音參數之預測值的一部分而利用。

亦可為，聲音合成部，係在聲音封包遺失測出時，使用從輔助資訊積存部所讀出之輔助資訊，來修正身為聲音參數之1的適應碼簿向量。

又，本發明之一側面所述之聲音編碼方法，係屬於將聲音訊號予以編碼的聲音編碼裝置所進行的聲音編碼方法，其特徵為，含有：聲音編碼步驟，係將聲音訊號予以編碼；和輔助資訊編碼步驟，係從預讀訊號算出輔助資訊並予以編碼。

又，本發明之一側面所述之聲音解碼方法，係屬於將聲音碼予以解碼而輸出聲音訊號的聲音解碼裝置所進行的聲音解碼方法，其特徵為，含有：聲音碼緩衝步驟，係從聲音封包之收訊狀態偵測出封包遺失；和聲音參數解碼步驟，係在聲音封包正常收訊時，將聲音碼予以解碼；和輔助資訊解碼步驟，係在聲音封包正常收訊時，將輔助資訊碼予以解碼；和輔助資訊積存步驟，係將輔助資訊碼解碼所得之輔助資訊，予以積存；和聲音參數遺失處理步驟，係在聲音封包遺失測出時，將聲音參數予以輸出；和聲音合成步驟，係從聲音參數來合成解碼聲音。

又，本發明之一側面所述之聲音編碼程式，係使電腦發揮功能成為：聲音編碼部，係將聲音訊號予以編碼；和輔助資訊編碼部，係從預讀訊號算出輔助資訊並予以編碼。

又，本發明之一側面所述之聲音解碼程式，使電腦發揮功能成為：聲音碼緩衝區，係從聲音封包之收訊狀態偵測出封包遺失；和聲音參數解碼部，係在聲音封包正常收訊時，將聲音碼予以解碼；和輔助資訊解碼部，係在聲音封包正常收訊時，將輔助資訊碼予以解碼；和輔助資訊積存部，係將輔助資訊碼解碼所得之輔助資訊，予以積存；和聲音參數遺失處理部，係在聲音封包遺失測出時，將聲音參數予以輸出；和聲音合成部，係從聲音參數來合成解碼聲音。

在聲音編碼中的封包遺失時，可不增加演算延遲就能回復聲音品質。尤其是，在CELP編碼中，可降低封包遺失時所發生的適應碼簿之劣化，可改善封包遺失時的聲音品質。

60、80‧‧‧記憶媒體

61、81‧‧‧程式儲存領域

70‧‧‧聲音編碼程式

90‧‧‧聲音解碼程式

111‧‧‧聲音編碼部

112‧‧‧輔助資訊編碼部

121、231‧‧‧聲音碼緩衝區

122、232‧‧‧聲音參數解碼部

123、233‧‧‧聲音參數遺失處理部

124、234‧‧‧聲音合成部

125、235‧‧‧輔助資訊解碼部

126、236‧‧‧輔助資訊積存部

151、511、1121‧‧‧LP係數算出部

152、2012‧‧‧目標訊號算出部

153、513、2013‧‧‧音高延遲算出部

154、1123、514、2014、2313‧‧‧適應碼簿算出部

155、1124、2314‧‧‧激發向量合成部

156、315、515、2019‧‧‧適應碼簿緩衝區

157、1126、2018、2316‧‧‧合成濾波器

158、516‧‧‧音高延遲編碼部

191‧‧‧ISF預測部

192‧‧‧音高延遲預測部

193‧‧‧適應碼簿增益預測部

194‧‧‧固定碼簿增益預測部

195‧‧‧雜音訊號生成部

211‧‧‧主要編碼部

212‧‧‧輔助資訊編碼部

213、238‧‧‧隱蔽訊號積存部

214‧‧‧誤差訊號編碼部

237‧‧‧誤差訊號解碼部

311‧‧‧LP係數算出部

312‧‧‧音高延遲預測部

313‧‧‧音高延遲選定部

314‧‧‧音高延遲編碼部

512‧‧‧殘差訊號算出部

700‧‧‧聲音編碼模組

701‧‧‧輔助資訊編碼模組

900‧‧‧聲音參數解碼模組

901‧‧‧聲音參數遺失處理模組

902‧‧‧聲音合成模組

903‧‧‧輔助資訊解碼模組

1128‧‧‧輔助資訊輸出判定部

1122、2312‧‧‧適應碼簿

1125‧‧‧後濾波器

1127‧‧‧聽覺加權逆濾波器

2011‧‧‧ISF編碼部

2015‧‧‧固定碼簿算出部

2016‧‧‧增益算出部

2017‧‧‧激發向量算出部

2211‧‧‧ISF解碼部

2212‧‧‧音高延遲解碼部

2213‧‧‧增益解碼部

2214‧‧‧固定碼簿解碼部

2318‧‧‧預讀激發向量合成部

〔圖1〕專利文獻1所記載之先前技術中的封包與解碼訊號之時間關係的圖示。

〔圖2〕CELP編碼中的LP分析對象訊號與預讀訊號之時間關係的圖示。

〔圖3〕本發明的實施形態中的封包與解碼訊號之時間關係的圖示。

〔圖4〕本發明的實施例1中的聲音訊號送訊裝置的機能構成例的圖示。

〔圖5〕本發明的實施例1中的聲音訊號收訊裝置的機能構成例的圖示。

〔圖6〕本發明的實施例1中的聲音訊號送訊裝置的處理程序的圖示。

〔圖7〕本發明的實施例1中的聲音訊號收訊裝置的處理程序的圖示。

〔圖8〕本發明的實施例1中的輔助資訊編碼部的機能構成例的圖示。

〔圖9〕本發明的實施例1中的輔助資訊編碼部的處理程序的圖示。

〔圖10〕本發明的實施例1中的LP係數算出部的處理程序的圖示。

〔圖11〕本發明的實施例1中的目標訊號算出部的處理程序的圖示。

〔圖12〕本發明的實施例1中的聲音參數遺失處理部的機能構成例的圖示。

〔圖13〕本發明的實施例1中的聲音參數預測的處理程序的圖示。

〔圖14〕本發明的實施例1的變形例1-1中的激發向量合成部的處理程序的圖示。

〔圖15〕本發明的實施例1中的聲音合成部的機能構成圖的圖示。

〔圖16〕本發明的實施例1中的聲音合成部的處理程序的圖示。

〔圖17〕本發明的實施例1的變形例1-2中的輔助資訊編碼部(設置有輔助資訊輸出判定部的情形)的機能構成例的圖示。

〔圖18〕本發明的實施例1的變形例1-2中的輔助資訊編碼部(設置有輔助資訊輸出判定部的情形)的處理程序的圖示。

〔圖19〕本發明的實施例1的變形例1-2中的聲音參數預測的處理程序的圖示。

〔圖20〕本發明的實施例2中的聲音訊號送訊裝置的機能構成例的圖示。

〔圖21〕本發明的實施例2中的主要編碼部的機能構成例的圖示。

〔圖22〕本發明的實施例2中的聲音訊號送訊裝置的處理程序的圖示。

〔圖23〕本發明的實施例2中的聲音訊號收訊裝置的機能構成例的圖示。

〔圖24〕本發明的實施例2中的聲音訊號收訊裝置的處理程序的圖示。

〔圖25〕本發明的實施例2中的聲音合成部的機能構成圖的圖示。

〔圖26〕本發明的實施例2中的聲音參數解碼部的機能構成例的圖示。

〔圖27〕本發明的實施例3中的輔助資訊編碼部的機能構成例的圖示。

〔圖28〕本發明的實施例3中的輔助資訊編碼部的處理程序的圖示。

〔圖29〕本發明的實施例3中的音高延遲選定部的處理程序的圖示。

〔圖30〕本發明的實施例3中的輔助資訊解碼部的處理程序的圖示。

〔圖31〕本發明之實施形態所述之聲音編碼程式之構成連同記憶媒體的圖示。

〔圖32〕本發明之實施形態所述之聲音解碼程式之構成連同記憶媒體的圖示。

〔圖33〕本發明的實施例4中的輔助資訊編碼部的機能構成例的圖示。

〔圖34〕本發明的實施例4中的輔助資訊編碼部的處理程序的圖示。

〔圖35〕本發明的實施例4中的音高延遲預測部的處理程序的圖示(之1)。

〔圖36〕本發明的實施例4中的音高延遲預測部的處理程序的圖示(之2)。

〔圖37〕本發明的實施例4中的音高延遲預測部的處理程序的圖示(之3)。

〔圖38〕本發明的實施例4中的適應碼簿算出部的處理程序的圖示。

〔圖39〕本發明的實施例5中的輔助資訊編碼部的機能構成例的圖示。

〔圖40〕本發明的實施例5中的音高延遲編碼部的處理程序的圖示。

〔圖41〕本發明的實施例5中的輔助資訊解碼部的處理程序的圖示。

〔圖42〕本發明的實施例5中的音高延遲預測部的處理程序的圖示。

〔圖43〕本發明的實施例5中的適應碼簿算出部的處理程序的圖示。

參照添附圖面，說明本發明的實施形態。在可能的情況下，同一部分係標示同一符號，並省略重複說明。

本發明的實施形態係一種編碼器、及解碼器，係實現了，將編碼側上所算出之輔助資訊予以編碼而傳輸並利用於解碼側之封包遺失隱蔽的「使用輔助資訊的封包遺失隱蔽技術」。

在本發明的實施形態中，封包遺失隱蔽中所使用的輔助資訊，係被包含在前1個封包中。封包中所含之聲音碼和輔助資訊碼的時間關係，示於圖3。由圖3也可獲知，本發明的實施形態中的輔助資訊，係為針對CELP編碼中的預讀訊號所求出的參數(音高延遲、適應碼簿增益等)。

藉由把輔助資訊碼含在前1個封包中，就可不必等待比解碼對象封包還要後續之封包，就可進行解碼。在偵測到封包遺失之際也是，有關於隱蔽對象音框的輔助資訊，是於前一個封包中就可獲得，因此不必等待後續的封包，可實現高精度的封包遺失隱蔽。

又，藉由傳輸預讀訊號中的CELP編碼之參數來作為輔助資訊，即使封包遺失，仍可減輕適應碼簿的不一致。

本發明的實施形態，係由聲音訊號送訊裝置(聲音編碼裝置)、聲音訊號收訊裝置(聲音解碼裝置)所成。聲音訊號送訊裝置的機能構成例示於圖4，處理程序示於圖6。又，聲音訊號收訊裝置的機能構成例示於圖5，處理程序示於圖7。

聲音訊號送訊裝置，係如圖4所示，是由聲音編碼部111、輔助資訊編碼部112所成。聲音訊號收訊裝置，係如圖5所示，是由：聲音碼緩衝區121、聲音參數解碼部122、聲音參數遺失處理部123、聲音合成部124、輔助資訊解碼部125、輔助資訊積存部126所成。

聲音訊號送訊裝置，係藉由圖6所示的處理程序，將聲音訊號每音框地進行編碼而傳輸。

聲音編碼部111，係對編碼對象音框算出聲音參數，輸出聲音碼(圖6步驟S131)。

輔助資訊編碼部112，係對預讀訊號算出聲音參數，輸出輔助資訊碼(圖6步驟S132)。

判定聲音訊號是否結束，重複上述直到聲音訊號結束為止(圖6步驟S133)。

聲音訊號收訊裝置，係藉由圖7所示的處理程序，將抵達之聲音封包予以解碼而輸出聲音訊號。

聲音碼緩衝區121，係等待聲音封包的抵達，而將聲音碼予以積存。聲音封包正常抵達的情況下，則將處理切換成聲音參數解碼部122。另一方面，聲音封包沒有正常抵達的情況下，則將處理切換成聲音參數遺失處理部123(圖7步驟S141)。

<聲音封包正常收訊時>

聲音參數解碼部122，係將聲音碼予以解碼而輸出聲音參數(圖7步驟S142)。

輔助資訊解碼部125，係將輔助資訊碼予以解碼，輸出輔助資訊。所輸出的輔助資訊，係被送往輔助資訊積存部126(圖7步驟S143)。

聲音合成部124，係從聲音參數解碼部122所輸出之聲音參數，合成聲音訊號然後輸出(圖7步驟S144)。

聲音參數遺失處理部123，係將聲音參數解碼部122所輸出之聲音參數予以積存，以備封包遺失時所需(圖7步驟S145)。

聲音碼緩衝區121，係判斷聲音封包的送訊是否結束，若聲音封包的送訊已經結束，則停止處理。聲音封包之送訊為持續的期間，係重複上記步驟S141-S146(圖7步驟S147)。

<聲音封包遺失時>

聲音參數遺失處理部123，係從輔助資訊積存部126讀出輔助資訊，針對未被包含在輔助資訊中的參數，則是進行預測，以輸出聲音參數(圖7步驟S146)。

聲音合成部124，係從聲音參數遺失處理部123所輸出之聲音參數，合成聲音訊號然後輸出(圖7步驟S144)。

聲音參數遺失處理部123，係將聲音參數遺失處理部123所輸出之聲音參數予以積存，以備封包遺失時所需(圖7步驟S145)。

〔實施例1〕

在本實施例中係記載了，作為輔助資訊是傳輸了音高延遲，在解碼側係使用於封包遺失隱蔽訊號之生成的例子。

聲音訊號送訊裝置的機能構成例圖示於圖4，聲音訊號收訊裝置的機能構成例圖示於圖5，聲音訊號送訊裝置的處理程序圖示於圖6，聲音訊號收訊裝置的處理程序圖示於圖7。

<送訊側>

於聲音訊號送訊裝置中，輸入聲音訊號係被送往聲音編碼部111。

聲音編碼部111，係將編碼對象音框，以CELP編碼而進行編碼(圖6步驟131)。至於CELP編碼的細節，係採用例如非專利文獻3所記載之方法。CELP編碼的處理程序之細節係省略。此外，在CELP編碼中，係在編碼側進行本地解碼。所謂本地解碼，係在編碼側中也將聲音碼進行解碼，以獲得聲音合成上所必須之參數(ISP參數及對應之ISF參數、音高延遲、長期預測參數、適應碼簿、適應碼簿增益、固定碼簿增益、固定碼簿向量等)。由本地解碼所得到的參數當中，至少ISP參數及ISF參數之其中一者或雙方、音高延遲、適應碼簿，係被送往輔助資訊編碼部112。作為聲音編碼部111，是使用如非專利文獻4的聲音編碼的情況下，則亦可還把表示編碼對象音框之性質的索引，加以發送。又，作為聲音編碼部111係亦可採用CELP編碼以外的編碼。此情況下，從藉由輸入訊號或本地解碼所獲得之解碼訊號，另外算出至少ISP參數及ISF參數之其中一者或雙方、音高延遲、適應碼簿，傳輸至輔助資訊編碼部112。

輔助資訊編碼部112，係使用聲音編碼部111所算出之參數和預讀訊號，來算出輔助資訊碼(圖6步驟S132)。輔助資訊編碼部112，係如圖8所示，是由：LP係數算出部151、目標訊號算出部152、音高延遲算出部153、適應碼簿算出部154、激發向量合成部155、適應碼簿緩衝區156、合成濾波器157、音高延遲編碼部158所成．輔助資訊編碼部的處理程序示於圖9。

LP係數算出部151，係使用聲音編碼部111所算出之ISF參數、和過去數音框中所算出之ISF參數，來算出LP係數(圖9步驟161)。LP係數算出部151的處理程序示於圖10。

首先，使用從聲音編碼部111所得到之ISF參數，來更新緩衝區(圖10步驟171)。接著，將預讀訊號中的ISF參數

予以算出。ISF參數係用下式而算出(圖10步驟172)。

此處，係為緩衝區中所儲存之j音框前的ISF參數。

又，係事前藉由學習等而求出的發話區間中的ISF參數。β係為定數，可設定例如0.75之類的值，但不限於此。又，α也為定數，可設定0.9之類的值，但不限於此。係例如非專利文獻4所記載之ISF隱蔽，亦可藉由表示編碼對象音框之性質的索引而被改變。

接著，使得滿足的方式而排列i的值，使得相鄰之調整成彼此不會太過接近。之值的調整程序，係可採用例如非專利文獻4(式151)(圖10步驟173)。

接著，將ISF參數轉換成ISP參數，然後對每一子音框進行內插。從ISF參數算出ISP參數的方法係可採用非專利文獻4的6.4.4節所記載之方法，當作內插的方法，內插的方法係可採用非專利文獻6.8.3節所記載之處理程序(圖10步驟174)。

接著，將每一子音框的ISP參數，轉換成LP係數。

此處，假設預讀訊號中所含之子音框數為M_la。從ISP參數往LP係數之轉換，係可採用非專利文獻4的6.4.5節所記載之處理程序(圖10步驟175)。

目標訊號算出部152係使用LP係數

而算出目標訊號x(n)及脈衝響應h(n)(圖9步驟162)。如非專利文獻4的6.8.4.1.3節之記載，目標訊號係藉由將線性預測殘差訊號通過聽覺加權濾波器，就可獲得(圖11)。

首先，使用LP係數而將預讀訊號

的殘差訊號r(n)，依照下式而予以算出(圖11步驟181)。

其中，L’係表示子音框的樣本數，L係表示編碼對象音框s_pre(n)(0≦n<L)的樣本數。此時，係為

接著，將目標訊號x(n)(0≦n<L’)，依照下式而予以算出(圖11步驟182)。

[數22]x(n)=e(n)+γ．e(n-1)此處，聽覺加權濾波器γ=0.68。聽覺加權濾波器的值，係亦可隨著聲音編碼的設計方針而為別的值。

接著，依照下式而算出脈衝響應h(n)(0≦n<L’)(圖11步驟183)。

音高延遲算出部153，係藉由求出使下式呈最大化的k，針對每一子音框算出音高延遲(圖9步驟163)。此處，為了削減演算量，亦可省略上記目標訊號算出(圖11步驟182)及脈衝響應算出(圖11步驟183)，而將殘差訊號本身當作目標訊號使用。

T_p=argmaxT_k

此外，y_k(n)係藉由脈衝響應對線性預測殘差做摺積而獲得。此處，Int(i)係表示內插濾波器。內插濾波器之詳細係如非專利文獻4的6.8.4.1.4.1節所記載。當然，亦可在內插中不使用濾波器，變成v’(n)=u(n+N_adapt-T_p+i)。

藉由上記算出方法，音高延遲係被求出為整數值，但藉由將上記T_k進行內插，將音高延遲的精度提升到小數點以下時，也可求出。藉由內插而求出小數點以下之音高延遲的處理程序之細節，可利用非專利文獻4的6.8.4.1.4.1節所記載之處理方法。

適應碼簿算出部154係根據音高延遲T_p、適應碼簿緩衝區156中所儲存之適應碼簿u(n)，依照下式而算出適應碼簿向量v’(n)及長期預測參數(圖9步驟164)。

長期參數算出之詳細的處理程序係可使用非專利文獻3的5.7節所記載之方法。

激發向量合成部155，係對適應碼簿向量v’(n)乘算事前制定的適應碼簿增益

然後依照下式而輸出激發訊號向量(圖9步驟165)。

適應碼簿增益的值，雖然使用例如1.0等，但亦可使用藉由事前學習而求出的值，也可使其隨著表示編碼對象音框之性質的索引而改變。

接著，依照以下的式子，藉由激發訊號向量，將適應碼簿緩衝區156中所儲存之適應碼簿u(n)的狀態，予以更新(圖9步驟166)。

u(n)=u(n+L) (0≦n<N-L)

u(n+N-L)=e(n) (0≦n<L)

合成濾波器157，係將激發訊號向量當作激發源，藉由線性預測逆濾波，依照下式而將解碼訊號予以合成(圖9步驟167)。

上記圖9步驟162~步驟167係直到預讀訊號結束為止，都會對每一子音框重複進行(圖9步驟168)。

音高延遲編碼部158，係將預讀訊號中所算出之音高延遲

予以編碼(圖9的步驟169)。此處，假設預讀訊號中所含之子音框數為M_la。

作為編碼之方法，係可考慮例如以下，但編碼之方法可為任意。

1.將音高延遲

的部分或全部進行二進位編碼或純量量化或向量量化或算術編碼然後予以傳輸的方法。

2.將與前一個子音框之音高延遲的差分

的部分或全部進行二進位編碼或純量量化或向量量化或算術編碼然後予以傳輸的方法。其中，係為編碼對象音框中的最後子音框的音高延遲。

3.將音高延遲

的部分或全部、和編碼對象音框中所算出之音高延遲的部分或全部，一起進行向量量化或算術編碼然後予以傳輸的方法。

4.將音高延遲

的部分或全部當作線索，從事前制定之內插手法當中選擇出1者，將該內插手法的索引予以傳輸之方法。此時，亦可將過去的聲音合成時所使用過的複數子音框之音高延遲，一併用於內插手法之選擇。

純量量化及向量量化中，係可採用依照經驗而制定的碼簿，或是藉由學習而事前算出的碼簿。又，先對上記音高延遲加算偏置之值然後進行編碼的方法，當然也被包含在本發明的實施形態的思想中。

<解碼側>

如圖5所示，聲音訊號收訊裝置係由：聲音碼緩衝區121、聲音參數解碼部122、聲音參數遺失處理部123、聲音合成部124、輔助資訊解碼部125、輔助資訊積存部126所成。聲音訊號收訊裝置的處理程序係如圖7所示。

聲音碼緩衝區121，係判斷封包是否正常收訊，若判斷為封包是正常收訊，則將處理切換成聲音參數解碼部122及輔助資訊解碼部125，若判斷為封包無法正常收訊，則將處理切換成聲音參數遺失處理部123(圖7步驟141)。

<封包正常收訊時>

聲音參數解碼部122，係將接收到的聲音碼予以解碼，算出有關於編碼對象音框之聲音合成上所必須之聲音參數(ISP參數及對應之ISF參數、音高延遲、長期預測參數、適應碼簿、適應碼簿增益、固定碼簿增益、固定碼簿向量等)(圖7步驟142)。

輔助資訊解碼部125係將輔助資訊碼予以解碼而將音高延遲

予以算出，儲存在輔助資訊積存部126中。在輔助資訊解碼部125中，係使用與編碼側所用之編碼方法相對應的解碼方法，來將輔助資訊碼予以解碼(圖7步驟143)。

聲音合成部124，係從聲音參數解碼部122所輸出之參數，合成編碼對象音框所對應之聲音訊號(圖7步驟144)。聲音合成部124的機能構成例圖示於圖15，處理程序示於圖16。此外，為了表示訊號的流向而記載了聲音參數遺失處理部123，但聲音參數遺失處理部123係不被包含在聲音合成部124的機能構成中。

LP係數算出部1121，係將ISF參數轉換成ISP參數，然後實施內插處理，獲得每一子音框的ISP係數。接著，將ISP係數轉換成線性預測係數(LP係數)，獲得每一子音框的LP係數(圖16步驟11301)。關於ISP係數的內插處理、及ISP-LP係數，係可採用例如非專利文獻4的6.4.5節所記載之方法。這些參數轉換處理的程序並非本發明之實施形態的本質，因此省略細節。

適應碼簿算出部1123，係使用音高延遲及長期預測參數、和適應碼簿1122，而算出適應碼簿向量(圖16步驟11302)。根據音高延遲

、適應碼簿u(n)，依照下式，算出適應碼簿向量v’(n)。

適應碼簿向量，係將適應碼簿u(n)，藉由FIR濾波器Int(i)進行內插而予以算出。此處，將適應碼簿的長度設為N_adapt。內插時所使用的濾波器Int(i)，係和(數27)的內插濾波器相同。係為事前制定之長度21+1的FIR濾波器。L’係為子音框的樣本數。編碼器側也同樣，在內插時亦可不使用濾波器。

適應碼簿算出部1123，係隨著長期預測參數的值，來對上記適應碼簿向量，進行過濾(圖16步驟11303)。當長期預測參數是採取指示過濾之值時，則藉由以下的式子來對適應碼簿向量進行過濾。

v’(n)=0.18v’(n-1)+0.64v’(n)+0.18v’(n+1)

另一方面，當長期預測參數是採取不指示過濾之值時，則不進行過濾，而為v(n)=v’(n)。

激發向量合成部1124，係對適應碼簿向量乘算適應碼簿增益g_p(圖16步驟11304)。再者，激發向量合成部1124，係對固定碼簿向量c(n)，乘算固定碼簿增益g_c(圖16步驟11305)。再者，激發向量合成部1124，係將適應碼簿向量與固定碼簿向量進行加算，輸出激發訊號向量(圖16步驟11306)。

e(n)=g_p‧v’(n)+g_c‧c(n)

後濾波器1125，係對激發訊號向量，施加例如音高強調、雜訊強調、低頻強調之類的後處理。音高強調、雜訊強調、低頻強調這些技術的細節，係如非專利文獻3的6.1節所記載。後濾波器中的處理，係和本發明的實施形態的本質的關係較淺，因此省略細節(圖16步驟11307)。

適應碼簿1122，係依照以下的式子，藉由激發訊號向量而更新狀態(圖16步驟11308)。

u(n)=u(n+L) (0≦n<N-L)

u(n+N-L)=e(n) (0≦n<L)

合成濾波器1126，係將激發訊號向量當作激發源，藉由線性預測逆濾波，依照下式而將解碼訊號予以合成(圖16步驟11309)。

聽覺加權逆濾波器1127，係對解碼訊號，依照下式而適用聽覺加權逆濾波器(圖16步驟11310)。

作為β的值典型而言是使用0.68，但不限定於該值。

聲音參數遺失處理部123，係將聲音合成部124中所使用過的聲音參數(ISF參數、音高延遲、適應碼簿增益、固定碼簿增益)，儲存至緩衝區(圖7步驟 145)。

<偵測到封包遺失時>

聲音參數遺失處理部123，係從輔助資訊積存部126將音高延遲

予以讀出，並預測聲音參數。聲音參數遺失處理部123的機能構成例圖示於圖12，聲音參數預測的處理程序示於圖13。

ISF預測部191，係使用關於前一音框的ISF參數、和於過去數音框中所算出之ISF參數，來算出ISF參數(圖13步驟1101)。ISF預測部191的處理程序示於圖10。

首先，使用前一音框的ISF參數，來更新緩衝區(圖10步驟171)。接著，依照以下的式子而將ISF參數

予以算出(圖10步驟172)。

此處，係為緩衝區中所儲存之j音框前的ISF參數。又，，α、β係和編碼側所用過的值相同。

接著，使得滿足的方式而排列i的值，使得相鄰之調整成彼此不會太過接近。

之值的調整程序，係可採用例如非專利文獻4(式151)(圖10步驟173)。

音高延遲預測部192，係從輔助資訊積存部126將輔助資訊碼予以解碼而獲得音高延遲。

然後，使用過去解碼中所用過的音高延遲而將音高延遲予以輸出。此處，1音框中所含之子音框的數目係為M，輔助資訊中所含之音高延遲的數目係為M_la。音高延遲的預測時，可採用例如非專利文獻4的7.11.1.3節所記載之處理程序(圖13步驟1102)。

適應碼簿增益預測部193，係使用事前制定之適應碼簿增益、和過去解碼中所用過的適應碼簿增益

，而將適應碼簿增益予以輸出。此處，1音框中所含之子音框的數目係為M，輔助資訊中所含之音高延遲的數目係為M_la。適應碼簿增益的預測時，可採用例如非專利文獻4的7.11.2.5.3節所記載之處理程序(圖13步驟1103)。

固定碼簿增益預測部194，係使用過去解碼中所用過的固定碼簿增益，而將固定碼簿增益予以輸出。此處，1音框中所含之子音框數係為M。固定碼簿增益的預測時，可採用例如非專利文獻4的7.11.2.6節所記載之處理程序(圖13步驟1104)。

雜音訊號生成部195，係輸出長度L的白色雜音(圖13步驟1105)。此處，將1音框的長度假設為L。

聲音合成部124，係從聲音參數遺失處理部123所輸出之聲音參數，合成解碼訊號(圖7步驟144)。聲音合成部124的動作，係和<聲音封包正常收訊時>的聲音合成部之動作相同，因此省略細節(圖7步驟144)。

聲音參數遺失處理部123，係將聲音合成部124中所使用過的聲音參數(ISF參數、音高延遲、適應碼簿增益、固定碼簿增益)，儲存至緩衝區(圖7步驟145)。

在上記實施例中，雖然說明了將有關於預讀訊號中所含之所有子音框的輔助資訊予以編碼而傳輸的例子，但亦可構成為，僅將有關於特定子音框之輔助資訊予以傳輸。

〔變形例1-1〕

作為實施例1的變形例，表示了將音高增益追加至輔助資訊的例子。變形例1-1和實施例1的差異，只有激發向量合成部155的動作，因此關於其他部分則省略說明。

<編碼側>

激發向量合成部155的處理程序示於圖14。

從適應碼簿向量v’(n)與目標訊號x(n)，將適應碼簿增益依照下式而予以算出(圖14步驟1111)。

其中，y(n)係為將脈衝響應對適應碼簿向量進行摺積而得的訊號y(n)=v(n)*h(n)。

將已算出之適應碼簿增益進行編碼，使其包含在輔助資訊碼中(圖14步驟1112)。編碼中係可使用，使用到藉由事前學習而求出之碼簿的純量量化，但編碼的手法本身係可為任意。

將適應碼簿增益之編碼中所求出之代碼，進行解碼所得之適應碼簿增益乘算至適應碼簿向量，藉此而依照下式，算出激發向量(圖14步驟1113)。

<解碼側>

激發向量合成部155，係對適應碼簿向量v’(n)乘算一藉由將輔助資訊碼進行解碼所得之適應碼簿增益，然後藉由下式而輸出激發訊號向量(圖9步驟165)。

〔變形例1-2〕

作為實施例1的變形例，表示了將輔助資訊之利用判斷所需的旗標，追加至輔助資訊的例子。

<編碼側>

輔助資訊編碼部的機能構成例示於圖17，輔助資訊編碼部的處理程序示於圖18。與實施例1的差異，係只有輔助資訊輸出判定部1128(圖18步驟1131)，因此關於其他部分則省略說明。

輔助資訊輸出判定部1128，係依照下式而算出解碼訊號與預讀訊號的segmental SNR，只有在 segmental SNR超過閾值時，才將旗標的值設成ON而包含在輔助資訊中。

另一方面，當segmental SNR沒有超過閾值時，則將旗標之值設成OFF而包含在輔助資訊中(圖18步驟1131)。此外，亦可只有當旗標之值是ON時，才將音高延遲或音高增益等之輔助資訊附加至旗標而予以傳輸，旗標之值為OFF時係僅將旗標之值予以傳輸，藉此以削減輔助資訊的位元量。

<解碼側>

輔助資訊解碼部，係將輔助資訊碼中所含之旗標，予以解碼。聲音參數遺失處理部，係當旗標之值為ON時，則藉由和實施例1相同之處理程序，而算出解碼訊號。另一方面，當旗標之值為OFF時，藉由不使用輔助資訊的封包遺失隱蔽技術來算出解碼訊號(圖19的步驟1151)。

〔實施例2〕

在本實施例中，係說明對預讀訊號部分之解碼聲音正常收訊時也做利用的例子。為了容易說明，將1音框中所含之子音框的數目令作M子音框，將預讀訊號的長度令作M’子音框。

<編碼側>

聲音訊號送訊裝置，係如圖20所示，是由主要編碼部211、輔助資訊編碼部212、隱蔽訊號積存部213、誤差訊號編碼部214所成。聲音訊號送訊裝置的處理程序示於圖22。

誤差訊號編碼部214，係從隱蔽訊號積存部213讀出1子音框份的隱蔽訊號，從聲音訊號減去之，算出誤差訊號(圖22步驟221)。

誤差訊號編碼部214係將誤差訊號予以編碼。具體的處理程序係利用非專利文獻4的6.8.4.1.5節所記載之AVQ等。誤差訊號的編碼時，進行本地解碼，將解碼誤差訊號予以輸出(圖22步驟222)。

藉由將解碼誤差訊號加算至隱蔽訊號，以輸出1子音框份的解碼訊號(圖22步驟223)。

上記步驟221~223係直到隱蔽訊號結束為止，會重複M’子音框份之次數。

主要編碼部211的機能構成示於圖21。主要編碼部211係由ISF編碼部2011、目標訊號算出部2012、音高延遲算出部2013、適應碼簿算出部2014、固定碼簿算出部2015、增益算出部2016、激發向量算出部2017、合成濾波器2018、適應碼簿緩衝區2019所成。

ISF編碼部2011，係對編碼對象音框及預讀訊號適用列文遜-杜賓法而獲得LP係數。接著，將LP係數轉換成ISF參數然後予以編碼。接著，將代碼予以解碼而獲得解碼ISF參數。最後將解碼ISF參數進行內插之後，獲得每一子音框的解碼LP係數。列文遜-杜賓法、從LP係數的ISF參數轉換之處理程序，係和實施例1相同。又，ISF參數的編碼中，係採用例如非專利文獻4的6.8.2節所記載之處理程序。藉由ISF編碼部2011，獲得將ISF參數編碼所成之索引、解碼ISF參數、及解碼ISF參數轉換成LP係數而獲得之解碼LP係數(圖22步驟224)。

目標訊號算出部2012的詳細處理程序係和實施例1的圖9步驟162相同(圖22步驟225)。

音高延遲算出部2013，係參照適應碼簿緩衝區，使用目標訊號而算出音高延遲、及長期預測參數。音高延遲、及長期預測參數算出之詳細處理程序係和實施例1相同(圖22步驟226)。

適應碼簿算出部2014，係使用音高延遲算出部2013中所求出之音高延遲及長期預測參數，來算出適應碼簿向量。適應碼簿算出部2014的詳細之處理程序係和實施例1相同(圖22步驟227)。

固定碼簿算出部2015，係使用目標訊號及適應碼簿向量，算出將固定碼簿向量及固定碼簿向量予以編碼而得之索引。詳細的程序係和誤差訊號編碼部214中所使用之AVQ之處理程序相同(圖22步驟228)。

增益算出部2016，係使用目標訊號、適應碼簿向量、固定碼簿向量，算出適應碼簿增益、固定碼簿增益、及將這2個增益編碼而得之索引。詳細的處理程序係可利用非專利文獻4的6.8.4.1.6節所記載之處理程序(圖22步驟229)。

激發向量算出部2017，係將適用了增益之適應碼簿向量及固定碼簿向量予以加算，而算出激發向量。詳細的處理程序係和實施例1相同。然後，激發向量算出部2017係使用激發向量，而將適應碼簿緩衝區2019的狀態予以更新。詳細的處理程序係和實施例1相同(圖22步驟2210)。

合成濾波器2018，係使用解碼LP係數及激發向量來合成解碼訊號(圖22步驟2211)。

上記步驟224~2211係直到編碼對象音框結束為止，會重複M-M’子音框份之次數。

輔助資訊編碼部212係對預讀訊號M’子音框，算出輔助資訊。具體的處理程序係和實施例1相同(圖22步驟2212)。

除了實施例1的程序以外，在實施例2中，還將輔助資訊編碼部212的合成濾波器157所輸出之解碼訊號，積存在隱蔽訊號積存部213中(圖22步驟2213)。

<解碼部>

如圖23所示，聲音訊號收訊裝置係由聲音碼緩衝區231、聲音參數解碼部232、聲音參數遺失處理部233、聲音合成部234、輔助資訊解碼部235、輔助資訊積存部236、誤差訊號解碼部237、隱蔽訊號積存部238所成。聲音訊號收訊裝置的處理程序示於圖24。聲音合成部234的機能構成示於圖25。

聲音碼緩衝區231，係判斷封包是否正常收訊，若判斷為封包是正常收訊，則將處理切換成聲音參數解碼部232、輔助資訊解碼部235、誤差訊號解碼部237，若判斷為封包無法正常收訊，則將處理切換成聲音參數遺失處理部233(圖24步驟241)。

<封包正常收訊時>

誤差訊號解碼部237係將誤差訊號碼予以解碼而獲得解碼誤差訊號。具體的處理程序係可採用非專利文獻4的7.1.2.1.2節所記載之AVQ等、對於編碼側所使用之方法的解碼方法(圖24步驟242)。

預讀激發向量合成部2318，係從隱蔽訊號積存部238讀出1子音框份的隱蔽訊號，藉由加算至解碼誤差訊號，而輸出1子音框份的解碼訊號(圖24步驟243)。

上記步驟241~243係直到隱蔽訊號結束為止，會重複M’子音框份之次數。

聲音參數解碼部232係由：ISF解碼部 2211、音高延遲解碼部2212、增益解碼部2213、固定碼簿解碼部2214所成。聲音參數解碼部232的機能構成例圖示於圖26。

ISF解碼部2211，係將ISF碼予以解碼，轉換成LP係數而獲得解碼LP係數。可採用例如非專利文獻4的7.1.1節所記載之處理程序(圖24步驟244)。

音高延遲解碼部2212，係將音高延遲碼予以解碼，獲得音高延遲及長期預測參數(圖24步驟245)。

增益解碼部2213，係將增益碼予以解碼而獲得適應碼簿增益、固定碼簿增益。詳細的處理程序係如非專利文獻4的7.1.2.1.3節所記載(圖24步驟246)。

適應碼簿算出部2313，係使用音高延遲及長期預測參數，來算出適應碼簿向量。適應碼簿算出部2313的詳細之處理程序係和實施例1所記載相同(圖24步驟247)。

固定碼簿解碼部2214，係將固定碼簿碼予以解碼，算出固定碼簿向量。詳細的程序係如非專利文獻4的7.1.2.1.2節所記載(圖24步驟248)。

激發向量合成部2314，係將適用了增益之適應碼簿向量及固定碼簿向量予以加算，而算出激發向量。然後，激發向量算出部係使用激發向量，而將適應碼簿緩衝區予以更新(圖24步驟249)。詳細的處理程序係和實施例1相同。

合成濾波器2316，係使用解碼LP係數及激發向量來合成解碼訊號(圖24步驟2410)。詳細的處理程序係和實施例1相同。

上記步驟244~2410係直到編碼對象音框結束為止，會重複M-M’子音框份之次數。

輔助資訊解碼部235的機能構成係和實施例1相同。輔助資訊解碼部235，係將輔助資訊碼予以解碼，算出音高延遲(圖24步驟2411)。

聲音參數遺失處理部233的機能構成係和實施例1相同。

ISF預測部191，係使用前一音框的ISF參數來預測ISF參數，並轉換成LP係數。處理程序係和實施例1的圖10的步驟172、173、174相同(圖24步驟2412)。

適應碼簿算出部2313，係使用輔助資訊解碼部235所輸出之音高延遲、和適應碼簿2312，而算出適應碼簿向量(圖24步驟2413)。處理程序係和圖16步驟11301、11302相同。

適應碼簿增益預測部193係輸出適應碼簿增益。具體的處理程序係和圖13步驟1103相同(圖24步驟2414)。

固定碼簿增益預測部194係輸出固定碼簿增益。具體的處理程序係和圖13步驟1104相同(圖24步驟2415)。

雜音訊號生成部195係輸出白色雜音，成為固定碼簿向量。處理程序係和圖13步驟1105相同(圖24步驟2416)。

激發向量合成部2314，係對適應碼簿向量及固定碼簿向量分別適用了增益之後進行加算，而算出激發向量。又，藉由激發向量而將適應碼簿緩衝區予以更新(圖24步驟2417)。

合成濾波器2316，係使用上記LP係數和激發向量，來算出解碼訊號。以算出之解碼訊號來更新隱蔽訊號積存部238(圖24步驟2418)。

重複上記步驟M’子音框份之次數，將解碼訊號輸出成為聲音訊號。

<封包遺失時>

從隱蔽訊號積存部讀出1子音框份的隱蔽訊號，當作解碼訊號(圖24步驟2419)。

重複上記達M’子音框份之次數。

ISF預測部191係預測ISF參數(圖24步驟2420)。處理程序係使用圖13步驟1101。

音高延遲預測部192，係使用過去解碼中所用過的音高延遲，來輸出預測音高延遲(圖24步驟2421)。預測所使用的處理程序，係和實施例1的圖13步驟1102相同。

適應碼簿增益預測部193、固定碼簿增益預測部194、雜音訊號生成部195、聲音合成部234的動作，係和實施例1相同(圖24步驟2422)。

重複上記步驟M子音框份之次數，M-M’子音框份的解碼訊號係被輸出成為聲音訊號，以剩下的M’子音框份的解碼訊號來更新隱蔽訊號積存部238。

〔實施例3〕

說明在適應碼簿向量之算出時，使用聲門脈衝同步的情形。

<編碼側>

聲音訊號送訊裝置的機能構成係和實施例1相同。由於機能構成及處理程序不同處只有輔助資訊編碼部，因此這裡僅說明輔助資訊編碼部的動作。

輔助資訊編碼部係由：LP係數算出部311、音高延遲預測部312、音高延遲選定部313、音高延遲編碼部314、適應碼簿緩衝區315所成。輔助資訊編碼部的機能構成圖示於圖27，處理程序示於圖28。

LP係數算出部311係和實施例1的LP係數算出部相同，因此省略說明(圖28步驟321)。

音高延遲預測部312，係使用從聲音編碼部所得到之音高延遲而將音高延遲預測值予以算出(圖28步驟322)。預測的具體處理係和實施例1中的音高延遲預測部192中的音高延遲的預測相同(和圖13步驟1102相同)。

接著，音高延遲選定部313係決定要作為輔助資訊而傳輸的音高延遲(圖28步驟323)。音高延遲選定部313的更詳細的處理程序示於圖29。

首先，從音高延遲預測值及過去的音高延遲之值，依照下式而生成音高碼簿(圖29步驟331)。

此處，1子音框前的音高延遲的值，係為。又，令碼簿的索引數為I。又，δ_j係為事前制定之步進寬度，ρ係事前制定之定數。

接著，使用適應碼簿、音高延遲預測值然後依照下式而生成初期激發向量u₀(n)(圖29步驟332)。

初期激發向量算出之處理程序，係和非專利文獻4的式(607)及式(608)相同。

接著對初期激發向量，使用音高碼簿中的所有之候補音高延遲

來適用聲門脈衝同步，生成候補適應碼簿向量u^j(n)(0≦j<I)(圖29步驟333)。聲門脈衝同步係使用和非專利文獻4的7.11.2.5節中的脈衝位置無法利用時相同的處理程序。但是，非專利文獻4中的u(n)係對應於本發明之實施形態的u₀(n)，extrapolated pitch係對應於本發明之實施形態的，而the last reliable pitch(T_c)係對應於本發明之實施形態的

針對候補適應碼簿向量u^j(n)(0≦j<I)，計算評價尺度(圖29步驟334)。評價尺度是使用segmental SNR的情況下，則藉由使用到LP係數之逆濾波來將訊號予以合成，在輸入訊號之間依照下式而算出segmental SNR。

亦可不進行逆濾波，改為依照下式，使用殘差訊號而在適應碼簿向量的領域中算出segmental SNR。

此情況下，使用LP係數來算出預讀訊號s(n)(0≦n<L’)的殘差訊號r(n)(圖11步驟181)。

將步驟334所算出之評價尺度當中最大者所對應之索引予以選擇，求出該當索引所對應的音高延遲。(圖29步驟335)。

<解碼側>

聲音訊號收訊裝置的機能構成係和實施例1相同。與實施例1的差異只在於聲音參數遺失處理部123、輔助資訊解碼部125、輔助資訊積存部126的機能構成和處理程序，因此針對這些加以說明。

<封包正常收訊時>

輔助資訊解碼部125係將輔助資訊碼予以解碼而將音高延遲

予以算出，儲存在輔助資訊積存部126中。輔助資訊解碼部125之處理程序示於圖30。

在音高算出時，首先，音高延遲預測部312係使用從聲音解碼部所獲得之音高延遲，來將音高延遲預測值

予以算出(圖30步驟341)。預測的具體處理係和實施例3中的圖28步驟322相同。

接著，從音高延遲預測值及過去的音高延遲之值，依照下式而生成音高碼簿(圖30步驟342)。

處理程序係和圖29步驟331相同。此處，1子音框前的音高延遲的值，係為。又，令碼簿的索引數為I。又，δ_j係為事前制定之步進寬度，ρ係事前制定之定數。

接著，參照音高碼簿，將作為輔助資訊而被傳輸過來的索引idx所對應之音高延遲予以求出，儲存在輔助資訊積存部126(圖30步驟343)。

<偵測到封包遺失時>

聲音合成部的機能構成也和實施例1相同(和圖15相同)，僅針對與實施例1動作不同之適應碼簿算出部1123，說明如下。

聲音參數遺失處理部123，係從輔助資訊積存部126讀出音高延遲然後依照下式而算出音高延遲預測值，作為音高延遲預測部192之輸出的替代而使用。

此處，[數98]κ 係為預定之定數。

接著，對初期激發向量，使用音高延遲而適用聲門脈衝同步，生成適應碼簿向量u(n)。聲門脈衝同步係採用和圖29步驟333相同之處理程序。

接著說明，令電腦執行上述一連串聲音訊號送訊裝置所進行之處理所需的聲音編碼程式70。如圖31所示，聲音編碼程式70係被儲存在，被插入至電腦而存取的或電腦所具備之記錄媒體60中所形成的程式儲存領域61內。

聲音編碼程式70，係具備聲音編碼模組700、輔助資訊編碼模組701所構成。藉由執行聲音編碼模組700、輔助資訊編碼模組701而實現的機能，係和上述的聲音訊號送訊裝置之聲音編碼部111、輔助資訊編碼部112的機能分別相同。

此外，聲音編碼程式70係亦可構成為，其部分或全部，是透過通訊線路等之傳輸媒體而被傳輸，從其他機器接收而記錄(包含安裝)。又，聲音編碼程式70的各模組，係亦可不是被安裝在1台電腦，而是被安裝至複數台電腦之數台。此時，是由該當複數台電腦所成之電腦系統，來進行上述一連串的聲音編碼程式70之處理。

接著說明，令電腦執行上述一連串聲音訊號收訊裝置所進行之處理所需的聲音解碼程式90。如圖32所示，聲音解碼程式90係被儲存在，被插入至電腦而存取的或電腦所具備之記錄媒體80中所形成的程式儲存領域81內。

聲音解碼程式90係具備：聲音碼緩衝區模組900、聲音參數解碼模組901、輔助資訊解碼模組902、輔助資訊積存模組903、聲音參數遺失處理模組904、聲音合成模組905所構成。藉由執行聲音碼緩衝區模組900、聲音參數解碼模組901、輔助資訊解碼模組902、輔助資訊積存模組903、聲音參數遺失處理模組904、聲音合成模組905而實現的機能，係和上述的聲音訊號收訊裝置的聲音碼緩衝區231、聲音參數解碼部232、輔助資訊解碼部235、輔助資訊積存部236、聲音參數遺失處理部233、聲音合成部234的機能分別相同。

此外，聲音解碼程式90係亦可構成為，其部分或全部，是透過通訊線路等之傳輸媒體而被傳輸，從其他機器接收而記錄(包含安裝)。又，聲音解碼程式90 的各模組，係亦可不是被安裝在1台電腦，而是被安裝至複數台電腦之數者。此時，是由該當複數台電腦所成之電腦系統，來進行上述一連串的聲音解碼程式90之處理。

〔實施例4〕

說明將輔助資訊使用在解碼側之音高延遲預測的例子。

<編碼側>

聲音訊號送訊裝置的機能構成係和實施例1相同。由於機能構成及處理程序不同處只有輔助資訊編碼部112，因此這裡僅說明輔助資訊編碼部112的動作。

輔助資訊編碼部112的機能構成圖示於圖33，處理程序示於圖34。輔助資訊編碼部112係由：LP係數算出部511、殘差訊號算出部512、音高延遲算出部513、適應碼簿算出部514、適應碼簿緩衝區515、音高延遲編碼部516所成．

LP係數算出部511，係和實施例1的圖8之LP係數算出部151相同因此省略說明。

殘差訊號算出部512，係藉由和實施例1的圖11之步驟181相同之處理，而算出殘差訊號。

音高延遲算出部513，係藉由求出使下式呈最大化的k，針對每一子音框算出音高延遲(圖34的步驟163)。此處，u(n)係表示適應碼簿，L’係表示1子音框中所含之樣本數。

T_p=arg_kmaxT_k

適應碼簿算出部514係從音高延遲T_p、適應碼簿u(n)，算出適應碼簿向量v’(n)。此處，將適應碼簿的長度設為N_adapt。(圖34的步驟164)。

v’(n)=u(n+N_adapt-T_p)

適應碼簿緩衝區515，係藉由適應碼簿向量v’(n)而更新狀態(圖34步驟166)。

u(n)=u(n+L’) (0≦n<N-L’)

u(n+N-L’)=v’(n) (0≦n<L)

音高延遲編碼部516係和實施例1相同因此省略(圖34的步驟169)。

<解碼側>

聲音訊號收訊裝置，係如實施例1相同，是由：聲音碼緩衝區121、聲音參數解碼部122、聲音參數遺失處理部123、聲音合成部124、輔助資訊解碼部125、輔助資訊積存部126所成。聲音訊號收訊裝置的處理程序係如圖7所示。

聲音碼緩衝區121的動作係和實施例1相同。

<封包正常收訊時>

聲音參數解碼部122的動作係和實施例1相同。

輔助資訊解碼部125係將輔助資訊碼予以解碼而將音高延遲予以算出，儲存在輔助資訊積存部126中。在輔助資訊解碼部125中，係使用與編碼側所用之編碼方法相對應的解碼方法，來將輔助資訊碼予以解碼。

聲音合成部124係和實施例1相同。

<偵測到封包遺失時>

聲音參數遺失處理部123(參照圖12)的ISF預測部191，係和實施例1同樣地算出ISF參數。

音高延遲預測部192的處理程序示於圖35。音高延遲預測部192，係和實施例1相同，從輔助資訊積存部126讀出輔助資訊碼而獲得音高延遲

(圖35的步驟4051)。然後，使用過去解碼中所用過的音高延遲而將音高延遲予以輸出(圖35的步驟4052)。此處，令1音框中所含之子音框的數目為M，輔助資訊中所含之音高延遲的數目為M_la。音高延遲的預測時，可採用如非專利文獻4的處理程序(圖13的步驟1102)。

此處，係音高延遲預測部192，係在音高延遲之預測時，亦可使用過去解碼中所用過的音高延遲和音高延遲來預測音高延遲。又，亦可為。此時的音高延遲預測部的處理程序係變成如圖36所示。

甚至，音高延遲預測部192係亦可只有在音高延遲之預測值的信賴性較低時，設成。此時的音高延遲預測部192的處理程序示於圖37。亦可將是否使用預測值、還是使用由輔助資訊所獲得之音高延遲的相關之指示資訊，輸入至適應碼簿算出部154。

適應碼簿增益預測部193、固定碼簿增益預測部194係和實施例1相同。

雜音訊號生成部195係和實施例1相同。

聲音合成部124，係從聲音參數遺失處理部123所輸出之參數，合成編碼對象音框所對應之聲音訊號。

聲音合成部124(參照圖15)的LP係數算出部1121，係和實施例1同樣地獲得LP係數(圖16的步驟11301)。

適應碼簿算出部1123，係和實施例1同樣地算出適應碼簿向量。適應碼簿算出部1123，係亦可設計成總是對適應碼簿向量進行過濾，也可設計成總是不進行過濾。亦即，使用以下的式子來算出適應碼簿向量。此處，令濾波器係數為f_i。

v(n)=f_-1v’(n-1)+f₀v’(n)+f₁v’(n+1)

若採取不指示過濾之值時，則為v(n)=v’(n)(適應碼簿更新步驟A)。

適應碼簿算出部1123，係亦可用以下的程序，算出適應碼簿向量(適應碼簿更新步驟B)。

使用音高延遲及適應碼簿1122來算出初期適應碼簿向量。

v(n)=f_-1v’(n-1)+f₀v’(n)+f₁v’(n+1)

亦可隨著設計方針，而令v(n)=v’(n)。

接著，對初期適應碼簿向量，適用聲門脈衝同步。聲門脈衝同步係使用和非專利文獻4的7.11.2.5節中的脈衝位置無法利用時相同的處理程序。但是，非專利文獻4中的u(n)係對應於本發明之實施形態的v(n)，extrapolated pitch係對應於本發明之實施形態的，而the last reliable pitch(T_c)係對應於本發明之實施形態的

甚至，亦可為，適應碼簿算出部1123係當音高延遲預測部192是輸出上記預測值之指示資訊時，若上記指示資訊是表示，不把當作輔助資訊所送來之音高延遲作為預測值來使用的情況(圖38的步驟4082：NO)，則使用上記適應碼簿算出步驟A，其他情形(圖38的步驟4082：YES)則使用上記適應碼簿算出步驟B。此時的適應碼簿算出部1123的處理程序示於圖38。

激發向量合成部1124，係和實施例1同樣地，輸出激發訊號向量(圖16的步驟11306)。

後濾波器1125，係和實施例1同樣地，對合成訊號施加後處理。

適應碼簿1122，係和實施例1同樣地，藉由激發訊號向量來更新狀態(圖16的步驟11308)。

合成濾波器1126，係和實施例1同樣地，將解碼訊號予以合成(圖16的步驟11309)。

聽覺加權逆濾波器1127，係和實施例1同樣地，適用聽覺加權逆濾波器。

聲音參數遺失處理部123，係和實施例1同樣地，將聲音合成部124中所使用過的聲音參數(ISF參數、音高延遲、適應碼簿增益、固定碼簿增益)，儲存至緩衝區(圖7步驟145)。

〔實施例5〕

在本實施例中係說明，只有在特定的音框級別會把音高延遲當作輔助資訊而傳輸，其以外則不傳輸音高延遲的構成。

<送訊側>

本實施例中的聲音編碼部111，係一定會算出表示編碼對象音框之性質的索引，傳輸至輔助資訊編碼部112。其他動作則和實施例1相同。

於輔助資訊編碼部112中，與實施例1-4的差異只有音高延遲編碼部158，因此針對音高延遲編碼部158之動作，說明如下。實施例5中的輔助資訊編碼部112的構成圖，示於圖39。

音高延遲編碼部158的處理程序示於圖40。音高延遲編碼部158係將表現編碼對象音框之性質的索引予以讀出(圖40的步驟5021)，若表現編碼對象音框之性質的索引等於事前制定之值，則將分配給輔助資訊的位元數設成B位元(B>1)。另一方面，若表現編碼對象音框之性質的索引不等於事前制定之值，則將分配給輔助資訊的位元數設成1位元(圖40的步驟5022)。

分配給輔助資訊的位元數為1位元時(圖40的步驟5022：NO)，對輔助資訊索引設置表示不傳輸輔助資訊的值，當作輔助資訊碼(圖40的步驟5023)。

另一方面，分配給輔助資訊的位元數為B位元時(圖40的步驟5022：YES)，對輔助資訊索引設置表示傳輸輔助資訊的值(圖40的步驟5024)，然後將音高延遲包含在藉由實施例1之方法予以編碼所得之B-1位元的碼中，當作輔助資訊碼(圖40的步驟5025)。

<解碼側>

聲音碼緩衝區121的動作係和實施例1相同。

<封包正常收訊時>

聲音參數解碼部122的動作係和實施例1相同。

輔助資訊解碼部125之處理程序示於圖41。輔助資訊解碼部125，係首先將輔助資訊碼中所含之輔助資訊索引，予以解碼(圖41的步驟5031)。若輔助資訊索引是表示不傳輸輔助資訊，則不進行之後的解碼動作。又，將輔助資訊索引之值，儲存在輔助資訊積存部126(圖41的步驟5032)。

另一方面，若輔助資訊索引是表示傳輸輔助資訊，則還會進行B-1位元的解碼，將音高延遲予以算出，儲存在輔助資訊積存部126(圖41的步驟5033)。又，將輔助資訊索引之值，儲存在輔助資訊積存部126。此外，B-1位元的輔助資訊的解碼，係和實施例1的輔助資訊解碼部125相同之動作。

聲音合成部124係和實施例1相同。

<偵測到封包遺失時>

音高延遲預測部192的處理程序示於圖42。音高延遲預測部192，係從輔助資訊積存部126讀出輔助資訊索引(圖42的步驟5041)，調查是否為表示傳輸輔助資訊之值(圖42的步驟5042)。

<輔助資訊索引是表示傳輸輔助資訊之值時>

和實施例1同樣地，從輔助資訊積存部126讀出輔助資訊碼，而獲得音高延遲 (圖42的5043)。然後，使用過去解碼中所用過的音高延遲及作為輔助資訊而得到之而將音高延遲予以輸出(圖42的步驟5044)。此處，令1音框中所含之子音框的數目為M，輔助資訊中所含之音高延遲的數目為M_la。音高延遲的預測時，可採用如非專利文獻4的處理程序(圖13的步驟1102)。又，亦可為

甚至，音高延遲預測部192係亦可只有在音高延遲之預測值的信賴性較低時，設成，而其他情形則將預測值設成 (圖42的步驟5046)。又，亦可將是否使用預測值、還是使用由輔助資訊所獲得之音高延遲的相關之音高延遲指示資訊，輸入至適應碼簿算出部1123。

<輔助資訊索引是表示不傳輸輔助資訊之值時>

音高延遲預測部192，係在音高延遲之預測時，使用過去解碼中所用過的音高延遲來預測音高延遲 (圖42的步驟5048)。

甚至，音高延遲預測部192係亦可只有在音高延遲之預測值的信賴性較低時，設成 (圖42的步驟5049)，而其他情形則將預測值設成。又，將是否使用預測值、還是使用過去解碼中所用過的音高延遲的相關之音高延遲指示資訊，輸入至適應碼簿算出部1123(圖42的步驟5050)。

雜音訊號生成部195係和實施例1相同。

適應碼簿算出部1123之處理程序示於圖43。適應碼簿算出部1123，係和實施例1同樣地算出適應碼簿向量。首先，參照音高延遲指示資訊(圖43的步驟5051)，若預測值的信賴性較低(圖43的步驟5052： YES)，則使用以下的式子來算出適應碼簿向量(圖43的步驟5055)。此處，令濾波器係數為f_i。

v(n)=f_-1v’(n-1)+f₀v’(n)+f₁v’(n+1)

此外亦可隨著設計方針，而令v(n)=v’(n)。

參照音高延遲指示資訊，若預測值的信賴性較高(圖43的步驟5052：NO)，則適應碼簿算出部1123係以下述之程序，算出適應碼簿向量。

首先，使用音高延遲及適應碼簿1122，算出初期適應碼簿向量(圖43的步驟5053)。

v(n)=f_-1v’(n-1)+f₀v’(n)+f₁v’(n+1)

亦可隨著設計方針，而令v(n)=v’(n)。

接著，對初期適應碼簿向量，適用聲門脈衝同步。聲門脈衝同步係使用和非專利文獻4的7.11.2.5節中的脈衝位置無法利用時相同的處理程序(圖43的步驟5054)。但是，非專利文獻4中的u(n)係對應於本發明之實施形態的v(n)，extrapolated pitch係對應於本發明之實施形態的，而the last reliable pitch(T_c)係對應於本發明之實施形態的

111‧‧‧聲音編碼部

112‧‧‧輔助資訊編碼部

Claims

一種聲音編碼裝置，係屬於將聲音訊號予以編碼的聲音編碼裝置，其特徵為，具備：聲音編碼部，係將聲音訊號予以編碼；和輔助資訊編碼部，係將CELP編碼中的預讀訊號的參數予以算出，來作為CELP編碼中的封包遺失隱蔽時所被使用的輔助資訊；前記聲音編碼部，係將表示編碼對象音框之性質的索引予以算出，並發送至前記輔助資訊編碼部；僅在特定的音框級別時，在解碼對象之封包的前1個封包中含有音高延遲來作為前記輔助資訊，在特定的音框級別以外的情況下，則不含音高延遲。