TWI326447B - Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system - Google Patents

Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system Download PDF

Info

Publication number
TWI326447B
TWI326447B TW093102827A TW93102827A TWI326447B TW I326447 B TWI326447 B TW I326447B TW 093102827 A TW093102827 A TW 093102827A TW 93102827 A TW93102827 A TW 93102827A TW I326447 B TWI326447 B TW I326447B
Authority
TW
Taiwan
Prior art keywords
frame
category
tone
pitch
categories
Prior art date
Application number
TW093102827A
Other languages
English (en)
Other versions
TW200501055A (en
Inventor
Tenkasi V Ramabadran
Alexander Sorin
Original Assignee
Motorola Inc
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc, Ibm filed Critical Motorola Inc
Publication of TW200501055A publication Critical patent/TW200501055A/zh
Application granted granted Critical
Publication of TWI326447B publication Critical patent/TWI326447B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Description

1326447 (1) 玖、發明說明 【發明所屬之技術領域】 大致地’本發明有關分散式語音辨識系統,且更特別 地有關用於窄頻寬通訊及無線式通訊之分散式語音辨識。 【先前技術】 隨著傳呼器及行動電話之問世,無線式服務產業已成 長爲數十億美元之產業,無線式服務提供者(WSPs )之 巨量的收益源自於訂購。因此,WSP運作成功網路之能 力相依於在具有受限頻寬之網路上提供給訂戶的服務品質 。爲此目的’ WSPs恆常地找尋在網路上可減輕所傳輸資 訊量而仍維持高品質服務於訂戶之方式。 最近’語音辨識已在無線式服務產業中享有成就,語 音辨識係使周於種種應用及服務,例如無線式服務訂戶可 配置有語音撥號特性,藉此,該訂戶可說出傳呼之接收者 的姓名於該無線式服務之內,該接收者之姓名係利用語音 辨識予以辨識以及傳呼則始初化於該訂戶與接收者之間。 在另一實例中,傳呼者資訊(4 1 1 )可利用語音辨識來辨 識一訂戶企圖發出傳呼所給與之接收者之姓名。 當語音辨識在無線式社區中獲得肯定時,分散式語音 辨識(DSR)即露出爲一種引人注目之技術。DSR有關一 S訊框作業’其中語音辨識系統之特徵摘取及圖案辨識部 分係分散式’亦即,該語音辨識系統之特徵摘取及圖案辨 識部分係藉兩個不同的處理單元在兩個不同的位置處執行 -5- (3) 1326447 "零音調値”予以表示,係如美國聯邦標準之2400bps (位 兀 / 秒)之 Mixed Excitation Linear Predictive ( MELP)編 碼器。不幸地,用於該擴充式標準所提出之多重式的類別 需增加資訊量來表示及增加頻寬來傳輸該類別資訊。 因此,有必要克服上述習知技術之問題。 【發明內容】 簡言之,根據本發明,所揭示的係一種用於量化聲頻 之類別資訊及音調資訊之系統,方法及可電腦讀取媒體。 在本發明實施例中,在資訊處理系統上之該方法包含接收 聲頻及捕捉該聲頻之訊框,該方法進一步包含確定該聲頻 之音調及計算一代表該訊框之音調的碼字元,其中第一碼 字元之値表示無限的音調’該方法進一步包含確定該訊框 之類別,其中該類別係表示一無限音調之至少兩類別及表 示一有限音調之至少一類別之任一,該方法進一步包含計 算一代表該訊框之類別的碼字元,其中該碼字元長度爲代 表表示一無限音調之該至少兩類別所需之最小數目位元及 代表表示一有限音調之該至少一類別所需之最小數目位元 的最大値’該訊框之音調及類別係藉兩個碼字元予以代表 〇 在本發明之另一實施例中,一種用於量化聲頻之類別 資訊之資訊處理系統包含一微音器,用於接收聲頻及捕捉 該聲頻之訊框’該資訊處理系統進一步包含一數位信號處 理器’用於確定該訊框之音調及計算代表該訊框之音調的 (4) (4)1326447 碼字元,其中第一碼字元之値表示無限的音調,該數位信 號處理器進一步確定該訊框之類別,其中該類別係表示一 無限音調之至少兩類別及表示一有限音調之至少一類別之 任一,該數位信號處理器進一步計算一代表該訊框之類別 的碼字元,其中該碼字元長度爲代表表示一無限音調之該 至少兩類別所需之最小數目位元及代表表示一有限音調之 該至少一類別所需之最小數目位元的最大値,該訊框之音 調及類別係藉該兩個碼字元予以代表。 本發明之較佳實施例係具優點的,因爲它們作用爲減 少通訊網路上使用來傳輸聲頻資訊之位元量,且因爲通訊 網路擁有受限之頻寬,故此係有利的,而位元之節省可變 換爲更大的頻寬供目前或額外之訂戶有效地使用。所以, 本發明可提供網路性能上之改善以及通訊品質上之增加, 【實施方式】 如下文中所詳述地,根據一較佳實施例之本發明藉有 效地減少類別量化中所使用之位元數目而有利地克服習知 技術之問題。 I.槪論 第1圖係方塊圖,描繪根據本發明較佳實施例之用於 分散式語音辨識的網路。第1圖顯示操作於網路104上之 網路伺服器或無線式服務提供者1 02,該網路1 (M連接伺 服器/無線式服務提供者102與客戶1 06及]08。在本發明 -8- (5) (5)1326447 一實施例中,第1圖代表一網路電腦系統,其包含伺服器 1 02,網路1 04,及客戶電腦1 06至1 08 »在一第一實施例 中。該網路104爲一電路開關式網路,諸如 Pubnc Service Telephone Network ( PSTN)(公共服務電話網路 )。選擇性地,該網路1〇4爲一封包開關式網路,該封包 開關式網路爲一寬區域網路(WAN),諸如全球網際網路 ’ 一私人WAN,一局部區域網路(LAN),一電訊網路 ,或上述網路之任何組合。在另一選擇例中,該網路1〇4 爲一有線網路,一無線式網路,一廣播網路,或點對點網 路。 在該第一實施例中,伺服器1 02及電腦客戶]〇6及 108包含一或更多個個人電腦(PCs)(例如運轉微軟視 窗(Microsoft Windows ) 95/98/2000/ME/CE/NT/XP 操作 系統之IBM或可相容之PC工作站,運轉Mac 〇S操作系 統之麥金塔(Macintosh)電腦,運轉LINUX操作系統之 PCs,或等效者),或任何其他電腦處理裝置。選擇性地 ,該伺服器102及電腦客戶106及108含一或更多個伺服 器系統(例如運轉Sun 0S或AIX操作系統之SUN Ultra 工作站,IBM RS/6000工作站以及運轉AIX操作系統之伺 服器或運餞LINUX操作系統之伺服器)。. 在本發明之另一實施例中,第1圖代表一無線式通訊 系統,其包含無線式服務提供者]02,無線式網路104, 及無線式裝置106至]08。該無線式服務提供者]〇2爲第 —代類比式行動電話服務,第二代數位式行動電話服務, -9 - (6) (6)1326447 或第三代之具網際網路能力的行動電話服務。 在此實施例中,該無線式網路104爲一行動電話網路 ’一行動文字簡訊裝置網路,—傳呼器網路,或類似者。 進一步地,第1圖之無線式網路1〇4之通訊標準爲碼畫分 多重接達(CDMA ),時間畫分多重接達(TDMA ),行 動通訊之全球系統(G S Μ ),通用型封包無線電服務( GPRS) ’頻率畫分多重接達(FDMA)或類似者。該無線 式網路]〇4支援任一數目之無線式裝置106至108,該等 裝置係行動電話,文字簡訊裝置、手持式電腦、傳呼器、 蜂鳴器、或類似物》 在此實施例中,該無線式服務提供者1 02包含伺服器 ,該伺服器含一或更多個個人電腦(P C s )(例如運轉微 軟視窗(Microsoft Windows ) 95/98/2000/ME/CE/NT/XP 操作系統之IB Μ或可相容之P C.工作站,運轉M a c 0 S操 作系統之麥金塔(Macintosh)電腦,運轉LINUX操作系 統之PCs,或等效者),或任何其他電腦處理裝置。在本 發明之另一實施例中,無線式服務提供者1 02之伺服器係 —或更多個伺服器系統(例如運轉Sun 0S或AIX操作系 統之 SUN Ultra工作站,IBM RS/6000工作站以及運轉 AIX操作系統之伺服器或運轉LINUX操作系統之伺服器 )0 如上述’ DSR有關一種訊框作業,其中語音辨識系統 之特徵摘取及圖案辨識部分係分散式,亦即,該語音辨識 系統之特徵摘取及圖案辨識部分係藉兩個不同的處理單元 • 10 - (7) 1326447 在兩個不同的位置處執行。特定地,該特徵摘取過程係藉 前端執行,例如藉無線式裝置106及108,而圖案辨識過 程則藉後端執行’例如藉無線式服務提供者1 02。例如藉 無線式裝置106及108執行於前端之上的特徵摘取過程將 更詳細地描述於下文中。 第2圖係根據本發明較佳實施例之用於DSR之無線 式通訊系統的詳細方塊圖,第2圖係參照上述第1圖所描 繪之無線式通訊系統之更詳細的方塊圖。第2圖之無線式 通訊系統包含一耦合於基地台202,203及204之控制器 201,此外,第2圖之無線式通訊系統透過電話界面206 而界面於一外部網路,該等基地台202,203及204分別 地支援部分之含訂戶單元或傳收器(亦即,無線式裝置) 106及108之幾何涵蓋區域(參閱第1圖),該等無線式 裝置 106 及 108 利用諸如 CDMA,FDMA,TDMA,GPRS 及GSM之通訊協定而界面於基地台202,203及204。 第2圖之無線式通訊系統之幾何涵蓋區域畫分爲地區 或單元,分別地藉基地台202,203及204 (此處亦稱爲 單元伺服器)予以服務。操作於該無線式通訊系統內之無 線式裝置選擇特定之單元伺服器來當作其在該系統內用於 接收及發射操作之主要界面,例如無線式裝置]06具有單 元伺服器202爲其主要單元伺服器,以及無線式裝置1〇8 具有單元伺服器2〇4爲其主要單元伺服器。較佳地,無線 式裝置選擇一能提供最佳通訊界面至該無線式通訊系統內 之單元伺服器。一般地,此將相依於一無線式裝置與一特 -11 - (8) (8)1326447 定之單元伺服器間的通訊信號之信號品質。 當無線式裝置在涵蓋區域中移動於不同的幾何位置之 間時’必須移交或交接給另一個接著將作用爲主要單元伺 服器之單元伺服器。無線式裝置會監看來自服務鄰接單元 之基地台的通訊信號以確定用於移交目的之最合適的新伺 服器。除了監看來自鄰接單元伺服器之發射信號的品質之 外’該無線式裝置亦監看相結合發射信號之所發射的彩色 碼資訊以快速地識別那一個鄰接單元伺服器爲發射之信號 來源。 第3圖係一方塊圖,描繪根據本發明較佳實施例之用 於無線式通訊系統的無線式裝置,第3圖係參照上述第1 及2圖所描繪之無線式裝置之更詳細的方塊圖。第3圖顯 示諸如第1圖中所示之無線式裝置〗〇6。在本發明一實施 例中’該無線式裝置1 0 6係一能在諸如C D M A,F D Μ A, TDMA’ GPRS或GSM之通訊協定下接收及發射射頻信號 於一通訊頻道上之雙向無線電,該無線式裝置106在一能 切換該無線式裝置於接收與發射模式之間的控制器3 02之 控制下操作。在接收模式中,該控制器302透過一發射/ 接收開關314锅合一天線316於接收器304,該接收器 304解碼所接收之信號及提供該等經解碼之信號至控制器 302;在發射模式中,控制器302透過開關314耦合該天 線3]6於發射器312。 控制器302根據記憶體3 ] 0中所儲存之指令來操作發 射器及接收器’所儲存之指令包含鄰接單元測量排程演算 -12 - (9) (9)1326447 ,該記億體3 1 0爲快閃記憶體,其他非依電性記憶體,隨 機存取記億體(RAM ),動態隨機存取記憶體(DRAM ) 或類似物。計時器模組3 1 1提供時序資訊於控制器3 02以 追踪所計時之事件。進一步地,控制器302可利用來自計 時器模組3 I 1之時間資訊來追踪用於鄰接單元伺服器之傳 輸及所發射之彩色碼資訊的排程。 當排程鄰接單元測量時,接收器3 04會在控制器302 之控制下監看鄰接單元伺服器及接收π接收信號品質指示 表”(RSQI) ,RSQI電路308會產生代表各經監看之單元 伺服器所發射之信號的信號品質之RSQI信號,各RSQI 信號係藉一類比至數位轉換器3 06轉換爲數位資訊,且提 供至該控制器3 02當作輸入。利用該彩色碼資訊及相關連 之接收信號品質指示表,當必須移交時,該無線式裝置 106可確定最合適之鄰接單元伺服器而利用作一主要單元 伺服器。 第3圖中之處理器3 20可執行不同的功能,諸如下文 中將更詳盡描述之屬於分散式語音辨識之功能。在本發明 不同實施例中,第3圖中之處理器3 20係單一處理器或超 過一個之處理器,用以執行上述任務。 II.分散式語音辨識 第4圖係方塊圖,描繪無線式裝置1〇6與無線式服務 提供者1 02之資料交換。第4圖係參照上述第〗及2圖所 描繪之無線式裝置106之更詳細的方塊圖,而且顯示該無 -13- (10) (10)1326447 線式裝置1 06所執行之若干功能。第4圖顯示諸如第1圖 中所示之無線式裝置】〇6及無線式網路104,同時所顯 示的係如第3圖中所示之無線式裝置]〇6的處理器320及 發射器3 1 2。 在本發明一實施例中,該無線式裝置106亦含微音器 404,用於接收聲頻402,然後,經接收之聲頻402藉處 理器320予以處理。在藉處理器320所執行之過程中,聲 頻4 02訊框之類別及音調則藉處理器3 2 0予以量化,該聲 頻4 02訊框之類別及音調係以含於封包406中之至少一碼 字元予以具體化,然後,該封包406藉發射器312經由網 路104發射至伺服器或無線式服務提供者102。量化該聲 頻4 02訊框之類別及音調以及產生至少一碼字元的過程將 更詳盡地描述於下文中。 第5圖係根據本發明較佳實施例之整個分散式語音辨 識過程之操作流程圖,第5圖之操作流程圖描繪在客戶 106上執行輸入聲頻之特徵摘取的過程,及在伺服器或無 線式服務提供者102處執行圖案辨識的過程。第5圖之操 作流程圖開始於步驟502而直接流程至步驟504。 在步驟5〇4中,客戶106接收用於發射之聲頻於伺服 器102,在其中第1圖之系統代表諸如第2圖中所描繪之 無線式網路的實施例中,該無線式裝置106在步驟504中 經由微音器接收聲頻(參閱第4圖);接著,在步驟506 中,該客戶]〇6進行以執行特徵摘取於所接收之聲頻上, 該特徵摘取包含一訊框之音調及類別値之量化,該特徵摘 -14 - (11) (11)1326447 取將更詳細地描述於下文。在無線式網路實施例中,無線 式裝置106之處理器320(參閱第3圖)在步驟506中進 行以執行聲頻402上之特徵摘取。 在步驟508中,客戶106產生封包資料,該封包資訊 含所摘取之用於發射至伺服器1 02之特徵,資料封包之產 生將更詳細地描述如下。在無線式網路實施例中,無線式 裝置106在步驟508中產生含所摘取特徵之資料封包;接 著,在步驟510中,該客戶106.進行發射該資料封包至伺 服器102。在該無線式網路實施例中,無線式裝置106之 發射器3 1 2進行經由無線式網路1 〇4發射該資料封包406 至無線式網路提供者或伺服器1 02。 在步驟512中,伺服器102接收由客戶1〇6所傳送之 封包資料;以及在步驟5 14中,該伺服器102根據該封包 資料進行重建該聲頻;在步驟516中,該伺服器102根據 接收自該客戶106的封包資料來執行語音辨識。在無線式 網路實施例中,於步驟5 1 2,無線式服務提供者或伺服器 102接收由無線式裝置106所傳送之資料封包406 ;以及 在步驟514,該無線式服務提供者或伺服器102根據該資 料封包4 06進行重建聲頻;在步驟516,該無線式服務提 供者或伺服器1 02根據接收自該無線式裝置1 06之資料封 包4〇6執行語音辨識;在步驟5】8,第5圖之操作流程停 止。 ΙΠ.資料封包產生 -15- (12) (12)1326447 A.第一量化方案 在擴充式DSR標準之提議中(回應於Work Items WI —030及WI — 034) ’用於訊框之類別(發聲)資訊可取 4個可行之値:〗)非語音,亦即,靜音或背景雜訊,2 ) 未發聲,3)混合發聲’及4)完全發聲。該等4個値大 致地可畫分爲兩個.範圍:未發聲(含非語音及未發聲類別 )及發聲(含混合發聲及完全發聲類別)。爲量化一訊框 之類別資訊’一般需要2位元,因爲有4個類別之値要表 示而2位元可代表4個値。訊框之音調資訊可取範圍自大 約19至大約140樣品之任何値,爲量化一訊框之音.調資 訊,例如爲整數値,一般需要7位元,因爲有122音調値 要表示而7位元可代表丨2 8個値。 在本發明一較佳實施例中,藉組合類別資訊及音調資 訊,可如下述地節省每訊框一位元,該7位元音調碼字元 之一(例如所有零之碼字元)係使用於指示該類別並非發 聲(亦即,非語音或未發聲),其餘之127個非零7位元 音調碼字元係使用於表示不同的音調値以及類別係發聲之 資訊(亦即,混合發聲或完全發聲)。也就是說,該7位 元音調碼字元之一指示該類別爲未發聲,而其餘之碼字元 則指示該類別爲發聲。因此,一類別位元現已足以去除兩 個未發聲類別之間(亦即,在非語音與未發聲類別之間) 及兩個發聲類別之間(亦即,在混合發聲與完全發聲類別 之間)的模稜兩可。 下表顯示如上述之使用於指示音調及類別資訊之7位 -16- (13) (13)1326447 元音調碼字元値及1位元碼字元値之一實例。 類別形式 7位元音調碼字元 I位元類別碼字元 非語音 所有零 0 未發聲 所有零 1 混合發聲 非零 0 完全發聲 非零 1 所以1 1總結地,根據本實例, 使用於表示類別及音調 資訊之位元總數係8位元,此係相對於若已個別地量化類 別及音調資訊時將必須表示該類別及音調資訊之9位元( 亦即,如上述之用於音調之7位元及用於類別之2位元) 。此一方案所招致之不利係,除了 128個音調碼字元之外 之一已使用於指示類別資訊,因爲一碼字元之相對的不重 要性,此在音調量化之準確上具有很少(以及不重要)的 影響。 第6圖係操作流程圖,顯示根據本發明較佳實施例之 類別及音調量化過程。第6圖之操作流程圖描繪在客戶 1 06上計算音調及類別資訊以及產生一代表它們之資料封 包。第6圖更詳細地描述第5圖之步驟506及508。第6 圖之操作流程圖開始於步驟602且直接流程至步驟604。 在步驟604中,客戶106計算所接收聲頻之音調値。 在無線式網路之代表性實施例中,無線式裝置106 (更特 定地,無線式裝置106之處理器)在步驟6〇4中計算經由 -17 - (14) 1326447 微音器404所接收之聲頻402的音調値。在步驟 客戶1 06根據該聲頻之音調値執行音調化。如上 一實例中,係執行7位元音調量化。在無線式網 中,無線式裝置106在步驟606中根據聲頻402 執行音調量化。 在步驟608中,客戶106執行聲頻之類別計 驟610中,客戶確定是否步驟608中所計算之類 聲範圍,亦即,非語音類別或未發聲類別。若步 確定結果爲肯定,則控制將流程至步驟6 ] 2 ;若 之確定結果爲否定,則控制將流程至步驟6 1 6。 則步驟6 1 2中,客戶1 〇 6設定一音調碼字元 未發聲類別範圍(亦即,非語音類別或未發聲類 之預定音調碼字元。在一實例中,客戶106設定 調碼字元爲所有零-指示非語音類別或未發聲類 定音調碼字元。在步驟614中,客戶〗〇6設定類 以指示未發聲類別範圍(亦即,非語音類別或未 )訊框之類別。在一實例中,該客戶1〇6設定1 碼字元以指示非語音類別或未發聲類別。 在步驟616中’客戶】06設定—音調碼字元 步驟604中所執行之音調量化用之音調値。在— 該客戶100設定7位元音調碼字元於產生供步驟 執行之音調量化用之音調値。在步驟6]8中,客 類別碼字兀以指示發聲類別範圍(亦即,混合發 發聲)訊框。在一實例中:該客戶]〇6設定]位 606 中, 述地,在 路實施例 之音調値 算;在步 別爲未發 驟6 1 0之 步驟 6】0 爲一指示 別)訊框 7位元音 別訊框預 別碼字元 發聲類別 位元類別 於產生供 實例中, 604中所 戶設定一 聲或完全 元類別碼 -18- (15) 1326447 字元以指示混合發聲類別或完全發聲類別。在步驟620中 ,第6圖之操作流程停止。 第7圖係方塊圖,描繪用於類別及音調量化過程之習 知位元配置。第7圖顯示7位元表示音調量化702。所以 使用128個可行之値來表示一訊框之聲頻的音調週期資料 。第7圖顯示兩位元表示類別量化7 04,所以使用4個可 行之値來表示一訊框之聲頻的類別,該4個類別界定爲: 非語音,未發聲,混合發聲及完全發聲。因此,根據第7 圖,總計9位元使用於表示一訊框之聲頻的音調及類別量 化。 第8圖係方塊圖,描繪根據本發明較佳實施例之類別 及音調量化過程的位元配置。第8圖顯示根據本發明之類 別及音調量化的位元配置,第8圖顯示7位元表示音調量 化8 02。然而,128個可行之値有效地具有7位元而僅使 用127値來表示一訊框之聲頻的音調週期資料,所剩下之 一値使用於指示類別資訊,特定地,未發聲類別範圍(亦 即,非語音類別或未發聲類別)。較佳地,使用於指示類 別範圍之802之一値係所有零,以及此値指示未發聲類別 範圍訊框(亦即,非語音類別或未發聲類別)。8 02之其 他1 27値則使用於指示發聲範圍訊框(亦即,混合發聲類 別或完全發聲類別)的音調値。 第8圖亦顯示1位元表示類別量化8 04,此係本發明 之主要優點,所以使用兩個可行之値或碼字元進一步表示 —訊框之聲頻的類別。該兩個可行之値係使用於非發聲類 -19- (16) 1326447 別範圍(亦即,非語音類別或未發聲類別 框(亦即,混合發聲類別或完全發聲類別 佳地,若802爲所有零,則8 04之零値係 音類別,若802並非所有零,則804之零 混合發聲類別,若802爲所有零,則804 指示未發聲類別,若802並非所有零,則 用於指示未發聲類別(參閱上表)。因此 總計8位元使用於表示音調及類別量化値 訊框。 B.第二量化方案 在擴充式DSR標準之提議中,評估 各訊框且每1 0毫秒(或每秒1 〇〇次)更 之音調週期可取分數値且在8kHz取樣率I 至大約14 0樣品,因此,所評估之音B 57Hz至420Hz。當執行音調量化過程時 確性,亦即,低的量化誤差,低的位元速 誤差之堅固性。 在本發明較佳實施例中,所有偶數號 於計數零之第一訊框)係利用7位元予以 奇數號碼之訊框則利用5位元予以量化。 時,在一訊框配對中之第一訊框係利用7 以及在一訊框配對中之第二訊框係利用5 所以每一訊框之位元平均數目爲6’此由 )與發聲範圍訊 )間之區別。較 使用於指示非語 値係使用於指示 之1値係使用於 8 04之1値係使 ,根據第8圖, 以用於聲頻之一 音調週期以用於 新一次。所評估 寺範圍從大約1 9 I頻率範圍約自 ,企望於取得準 率,及對抗頻道 碼之訊框(起始 量化,以及所有 考慮爲訊框配對 位元予以量化, 位元予以量化》 於卓獨之音調量 -20- (17) (17)1326447 化而對應於600bps之位元速率。 絕對量化方案係使用於偶數號碼之訊框。除了有效之 128個碼字元之外,使用一碼字元(亦即,所有零之碼字 元)以用於傳輸未發聲範圍之類別資訊,亦即,指示該訊 框爲非語音或未發聲,其餘的127個碼字元係使用於音調 週期之量化,此方案已詳細描述於上文中。範圍約自19 至]4 0個樣品之音調係均等地畫分(在對數域中)爲1 2 7 個區且選擇該等區之中點爲重建位準,而對於任何所取得 之音調値,則選擇對應之量化音調値爲線性域中之最靠近 的重建位準,該〗27個碼字元係一對一地指定於127個重 建位準。具有此量化器設計之最大量化誤差約爲0.8%。 用於奇數號碼之訊框,大多數時間係使用差動量化方 案。然而,在若干情勢之下(如下表中所示)。亦使用絕 對量化方案。用於差動量化方案,必須選擇參考値使得目 前之訊框的音調週期値與參考値之間的差(或更合適地, 該兩値之比例)可予以量化。雖然前一訊框之量化的音調 週期可提供最佳可行的參考値,但此訊框並不會一直係發 聲類別範圍(亦即,混合發聲或完全發聲)。因此,選擇 前三訊框之一的量化音調週期値當作參考値,也就是說, 訊框配對之第二訊框的差動量化係利用該訊框配對之第_ 訊框之量化的音調週期値或前一訊框配對之兩個量化音調 週期値之任一當作參考値而予以執行。 在伺服器側,重要的是限制由於所解碼之音調週期値 之一中之誤差的誤差傳送。爲此目的,在客戶側辨識各量 -21 - (18) 1326447 化之音調値爲可靠(R)或不可靠(u)來當作參考値。 各絕對量化之音調値係視爲可靠的;各差動量化之音調値 係視爲可靠的,若使用於其量化之參考値爲相同訊框配對 之第一訊框之量化音調週期値時。因爲鄰接訊框之音調週 期値大致地相互接近,故接近參考値之音調週期値係精細 地量化,而遠離該參考値之音調週期値則粗略地量化。選 擇用於差動量化之量化位準係依據已選擇當作參考之前三 個量化音調値的那一個以及該參考値。下表描繪如何量化 奇數號碼訊框之音調週期値。 -22- (19) (19)1326447 P(-2) P(-1) P(0) 所採取之動作 0 0 0 絕對 量化 0 1 U 0 絕對 量化 * * 1 差動 量化= 參考値P(o) 氺 1 R 0 差動 量化: 參考値ρ(·υ 1 0 0 差動 量化: 參考値ρ(·2) 1 1 U 0 差動 量化: 參考値Ρ(-2) 在上表中,欲量化之値爲Ρ(ι),訊框配對之第二 訊框的音調週期値,該參考値爲前三個訊框之一的量化音 調週期値,亦即,P ( 〇 ),相同訊框配對之第一訊框之量 化音調週期値,P (— 1 ),前一訊框配對之第二訊框之量 化音調週期値,以及P (- 2 ),前一訊框配對之第一訊 -23- (20) (20)1326447 框之量化音調週期値。 在該表中’ 値指示相對應之訊框爲未發聲範圍類 別(亦即’非語音類別或未發聲類別),"丨"値指示相對 應之訊框爲發聲類別範圍(亦即,混合發聲類別或完全發 聲類別)’以及其量化之音調週期値可使用爲參考値。用 於差動量化之P ( — ϊ ),亦具有"I R"及,,1 u "分別指示是 否該量化之音調週期値爲可靠或不可靠。_,* "指示該量化 之音調週期爲不重要的,亦即,該値可爲"〇"或"1"且沒有 任可影響。例如初始之條件,假設Ρ (- 1 )= 〇及ρ (_ 2 )=〇,均在編碼器(亦即,客戶106)及解碼器(亦即-, 伺服器1 02 ),最後一行則指示是否該音調絕對地或差動 地量化,而若差動地,則使用參考訊框。 當前三訊框爲未發聲範圍類別或當唯一有效參考値爲 不可靠之Ρ ( _ 1 )時,則利用5位元來絕對地量化Ρ (] ),一諸如所有零之碼字元的碼字元係使用於指示該訊框 爲未發聲範圍類別,其餘的3 1個碼字元則使用於以相鄰 似於量化偶數號碼訊框之音調週期値所使用之方式來量化 音調週期Ρ ( Ο 。利用5位元之絕對量化選用性配備係 典型地選擇以用於發聲區段之第一訊框或用於若干屬於雜 訊背景情況之錯誤歸類訊框’不管在那種情況。產生自僅 只5位元之使用的稍大量化誤差並不會造成語音品質或易 瞭解性之任何重大之損失。如稍後將解說地’僅只5位元 之使用可限制解碼誤差之傳送。 當訊框配對之第一訊框爲發聲範圍類別時’則一直選 -24- (21) (21)1326447 擇相對應之音調週期値爲參考値而不管p( —η及p(-2 )之値。根據一代表性實施例,除了 3 2個可行的碼字元 (利用5位元量化之音調週期値),一諸如所有零之碼字 元的碼字元使用於指示目前之訊框爲非語音/未發聲,27 個碼字元使用於以對數形式涵蓋參考値周圍之小的音調範 圍(類似於上述7位元絕對量化,該音調範圍之端點均表 示重建位準,剩餘之4個位準係使用於粗略地量化其餘之 音調範圍’如上表中所示。須注意的是,所選擇之4個位 準係根據P ( 0 )之値,例如若P ( 0 )爲小,則該4個位 準大於P ( 〇 );另一方面,若P ( 0 )爲大,則所有4個 位準均小於P ( 0 )。 當訊框配對之第一訊框爲未發聲範圍類別時,則選擇 P(— 1)或P (— 2)爲參考値。若ρ(_ι)相對應於發 聲範圍類別之訊框且係可靠時,則選其爲參考値而不管P (一 2 )之値;若P ( — 1 )相對應於未發聲範圍類別訊框 或相對應於發聲範圍類別訊框但不可靠,且p ( — 2 )相 對應於發聲範圍類別訊框時,則選擇p (一 2 )爲參考値 。是否選擇P(— 1)或P(— 2)爲參考値,量化方法係 類似的。諸如所有零之碼字元之該等碼字元之一係使用於 指示目前之訊框爲未發聲範圍類別,2 5個碼字元係使用 於以對數方式涵蓋該參考値周圍之小的音調範圍(相類似 於上述7位兀絕對量化)’該音調範圍之端値均表示重建 位準’剩餘之6位準則使用於粗略地量化其餘之音調範圍 -25- (22) (22)1326447 如下文所述,上述之量化方案滿足準確性,低的位元 速率及堅固性之要件,藉7位元來量化偶數號碼訊框之音 調週期値及5位元來量化奇數號碼訊框之音調週期値,將 節省每訊框1位元之平均値,亦即,每秒1 0 0位元。同時 ,並不會影響準確性。7位元絕對量化係十分準確,5位 元絕對量化係典型地使用於發聲區段之第一訊框及用於若 干雜訊背景訊框。不管那一種情況,準確性之缺乏並非決 定性的,且並不會影響任一主要方式中所重建之語音的品 質或易瞭解性。具有5位元差動量化,接近於參考値之音 調週期値會更準確地量化而爲高度可行性之音調週期値, 遠離參考値之音調週期値則係低可行性且係粗略地量化。 再次地強調,在該等値之量化中的較大誤差並非決定性的 ,且並不會有效地影響所重建語音之品質或易瞭解性。 在本發明中之誤差傳送係藉下述予以限制,即,藉識 別差動地量化之音調週期値爲可靠及不可靠,以及藉使用 5位元絕對量化供奇數號碼訊框用而不論何時並沒有有效 參考値或僅一有效參考値係不可靠之時,例如考慮其中若 干訊框配對已抹除之情勢,此係DSR頻道之最普通形式 的頻道誤差情勢,假設已正確地接收到相對應於抹除後之 訊框之位元時,若抹除後之訊框配對的第一訊框爲發聲訊 框時,則並沒有絲毫之誤差傳送,此係因爲該第一訊框一 直爲絕對量化(利用7位元),而第二訊框則利用第一訊 框之量化音調週期値爲參考値予以差動地量化,且隨後之 訊框並不會依據任何抹除之訊框。 -26- (23) (23)1326447 若第一訊框爲未發聲範圍類別,則第二訊框無法正確 地解碼,除非其亦爲未發聲範圍類別。此係因爲該第二訊 框之音調値可利用一最後抹除訊框之量化音調値爲參考値 而差動地量化。在此例中,誤差已傳送至該等抹除之後的 第二訊框。 若第三訊框爲發聲範圍類別,則誤差傳送會停止,因 爲在該第三訊框之後的所有訊框之量化音調週期値並未依 據該等抹除之訊框或在該等抹除之後所正確接收之訊框配 對。假設第一及第三訊框爲未發聲範圍類別且第二訊息係 不可靠時,若該第三訊框爲未發聲範圍類別時,則可成功 地解碼第四訊框之量化音調週期値,因爲其必已絕對地量 化。因此,在一或更多個訊框配對抹除之後的誤差傳送會 在最多兩個訊框之後停止。 類似地,可顯示的是,在偶數號碼訊框之解碼的音調 週期値中的任一誤差(由於隨機之位元誤差)可傳送直至 最多三個訊框。此外,在奇數號碼訊框之解碼的音調週期 値中的任一誤差(由於隨機之位元誤差)可傳送直至最多 兩個訊框。 第9A,_9B及9C圖係操作流程圖,顯不根據本發明 較佳實施例之另一音調量化過程。第9A,9B及9C圖描 繪在客戶]06上計算一訊框之音調資訊,產生代表其之資 料封包以及持續下一個訊框之過程。第9A,9B及9C圖 更詳細地描述第5圖之步驟506及508,第9A,9B及9C 圖開始於步驟902 (在第9A圖中)以及直接流程至步驟 -27- (24) (24)1326447 904 ° 在步驟903中,客戶i〇6計算目前訊框之聲頻的音調 値。在無線式網路實施例中,無線式裝置106 (更特定地 ,無線式裝置]06之處理器320)在步驟903中計算經由 微音器4〇4所接收之聲頻的音調値;在步驟904中,客戶 106確定是否該目前訊框爲偶數或奇數訊框,若步驟9 04 之確定結果爲偶數,則控制將流程至步驟910,若步驟 9〇4之確定結果爲奇數,則控制將流程至步驟905 »在步 驟905中,該目前訊框爲奇數訊框,所以該客戶1〇6會進 行找尋一合適之參考訊框以使用於差動音調量化。在步驟 906中’控制將直接流程至第9B圖之步驟916(B)。 在步驟910中,客戶1〇6根據該聲頻之音調値執行絕 對音調量化。在一實例中,如上述地執行7位元絕對音調 量化=在無線式網路實施例中,該無線式裝置1 06在步驟 910中根據聲頻402之音調値來執行絕對音調量化。 在步驟912中’客戶丨06設定一音調碼字元於產生供 步驟9 1 0中所執行之絕對値距量化用之音調値。在一實例 中’客戶106設定7位元音調碼字元於產生供步驟9]0中 所執行之絕對値距量化用之音調値。在步驟915(E)中 ’控制直接流程至步驟914。在步驟914中,音調量化過 程前進至下一訊框且控制直接流程回到步驟9 0 3。 在第9B圖之步驟916(B)中,控制直接流程至步驟 917。在步驟9]7中’客戶1〇6確定是否接在目前訊框’,〇·, 之前的訊框類別爲發聲範圍類別(亦即,混合發聲類別或 -28- (25) 1326447 完全發聲類別)。須注意的是,在第9B及9C圖中,目 前訊框係指定爲訊框"〇 接在訊框” "之前的訊框爲訊框 "_】” ’接在訊框” —1 "之前的訊框爲訊框” _ 2,,,以及接在 訊框"一 2 "之前的訊框爲訊框"—3 "。若步驟9 1 7之確定結 果爲肯定時,則控制將流程至步驟94〇;若步驟917之確 定結果爲否定時,則控制會流程至步驟920。在步驟920 中’客戶106進行前一訊框以持續找尋合適的參考訊框而 使用於差動音調量化。 在步驟927中,客戶106確定是否訊框"―2,,之類別 爲發聲範圍類別(亦即’混合發聲類別或完全發聲類別) 。若步驟92 7之確定結果爲肯定時,則控制將流程至步驟 928 ;若步驟927之確定結果爲否定時,則控制會流程至 步驟930。在步驟928中,客戶106確定是否訊框,,—2"之 音調値係絕對量化。若步驟928之確定爲肯定時,則控制 將流程至步驟94 0 ;若步驟9 2 8之確定爲否定時,則控制 會流程至步驟9 29。在步驟929中,客戶106確定是否訊 框"一2"之音調値係差動量化且係可靠的(也就是說,其 係差動量化且參考直接在其之前的訊框)。若步驟92 9之 確定結果爲肯定時,則控制將流程至步驟940 ;若步驟 92 9之確定結果爲否定時,則控制會流程至步驟93 〇。 在步驟93 0中’客戶]06進行前一訊框以持續找尋— 合適之參考訊框而使用於差動音調量化。在步驟937中, 客戶】〇 6確定是否訊框3 "之類別爲發聲範圍類別(亦 即’混合發聲類別或完全發聲類別。若步驟93 7之確定結 • 29 - (26) (26)1326447 果爲肯定時,則控制將流程至步驟940 ;若步驟93 7之確 定結果爲否定時,則控制會流程至步驟942。步驟940直 接流程至9C圖之步驟960(C)以及步驟942直接流程至 第9C圖之步驟950(D)。 在第9C圖之步驟9 5 0 ( D )中,控制直接流程至步驟 952。在步驟952中,確定並沒有發現合適的參考訊框用 於差動等化目前的訊框在步驟956中,客戶106根 據聲頻之音調値執行絕對値距量化,在一實例中,執行5 位元絕對音調等化,如上文所述。在無線式網路實施例中 ’無線式裝置106在步驟956中根據聲頻402之音調値執 行絕對値距量化。在步驟958中,客戶106設定一音調碼 字元於產生供步驟95 6中所執行之絕對値距量化用之音調 値。在一實例中,客戶1 06設定5位元音調値於產生供步 驟9 5 6中所執行之絕對値距量化用之音調値。 在第9C圖之步驟960 (C)中,控制直接流程至步驟 962。在步驟962中’確定已發現一合適的參.考訊框用於 差動地量化目前之訊框"0"。在步驟966中,該客戶106 參照所辨識之參考訊框來執行差動音調量化,在一實例中 ’如上述地’執行5位元差動音調量化。在步驟968中, 客戶106設定一音調碼字元於產生供步驟966中所執行之 差動音調量化用的音調値,在一實例中,該客戶106設定 5位元音調碼字元於產生供步驟966中所執行之差動音調 量化甩的音調値。 在步驟970中,控制直接流程回到第9圖之步驟9 ] 5 -30- (27) (27)1326447 (Η )。在步驟915(E)中,控制直接流程至步驟914。 在步驟914中,該音調量化過程前進至下一訊框,且控制 直接回到步驟903。 C·習知技術之檢視 在混合激勵線性(ME LP )標準(電訊標準)中,在 非語音與未發聲語音訊框間並無區別,該兩類別係組合在 一起以及藉零音調週期値予以表示。當音調週期大於零, 亦即,當訊框爲發聲範圍類別時(例如混合發聲或完全發 聲)’使用額外的4位元以用於量化類別資訊,該4位元 會辨識語音頻譜之不同頻帶中之發聲。音調値係利7位元 予以絕對地量化。因此,在MELP中,並沒有如本發明中 所述之位元節省於其中。 在LPC— 10(另一電訊標準)中,使用7位元來指示 發聲範圍類別及音調,存在有6 0個音調週期位準及3個 使用於表示下列之位準’即,1)兩個的半訊框均爲未發 聲範圍類別(亦即’非語音類別及未發聲類別),2 )僅 第_個丰訊框爲發聲範圍類別(亦即,混合發聲類別或完 全發聲類別)’或3 )僅第一個半訊框爲發聲範圍類別。 因此’ LPC— 10僅區分於該發聲範圍類別與未發聲.範圍類 別之間’ LPC - 1 0並不區分於未發聲範圍類別之間(亦即 ,非語音與未發聲類別之間)’或發聲範圍類別之間(亦 即’混合發聲與完全發聲類別之間)。本發明以引介非語 音及未發聲類別於未發聲範圍類別之下,以及以引介混合 -31 - (28) 1326447 發聲及完全發聲於發聲範圍類別之下而擴充 IV.代表性之實施 本發明可以以硬體、軟體、或硬體與軟 現於第1圖之客戶106,108或伺服器102 9A,9B及9C圖中所述,根據本發明較佳 可以以集中之方式實行於一電腦系統中,或 件散佈於若干互連之電腦系統的分散式方式 何種類之電腦系統或其他合適於執行本文所 均可適用。硬體及軟體之典型組合可爲一具 通用型電腦系統’其中當載入及執行該電腦 腦程式可控制該電腦系統,使該系統可執行 法。 本發明之實施例亦可具體化於電腦程式 戶106及108以及伺服器1〇2中),該電腦 所有使本文所述方法能予以實施之特性,且 電腦系統中之時能執行該等方法。例如使用 電腦程式裝置或電腦系統可以以任何語言, 式來表示一組指令’該組指令係打算使具有 之系統可以直接地或在下述之一或兩者均是 行特定的功能’其中該兩者係a)轉換爲另 符號’以及b)以不同材料方式複製。 尤其’電腦系統可包含一或更多部電腦 電腦讀取媒體’而允許電腦系統從該電腦讀 LPC - ]0。 體之組合而實 。如第5,6, 實施例之系統 以其中不同元 予以實行。任 述方法的設備 有電腦程式之 程式時,該電 本文所述之方 產品中(在客 程式產品包含 當載入其於一 於本發明中之 碼或符號之形 資訊處理能力 地執行之後執 一語言、碼或 以及至少一可 取媒體讀取資 -32- (29) (29)1326447 料、指令、簡訊或簡訊封包,以及其他可電腦讀取之資訊 。該可電腦讀取媒體可包含諸如R0M之非依電性記憶體 、快閃記億體、碟片驅動器記億體、CD — R0M、及其他 永久儲存器。此外,例如可電腦讀取媒體可包含諸如 RAM之依電性儲存器、緩衝器、快取記億體、及網路電 路。而且,該可電腦讀取媒體可包含:在諸如含有線網路 或無線網路之網路連結及/或網路界面之短暫狀態媒體中 的可電腦讀取資訊而允許電腦系統讀取該等可電腦讀取資 第10圖係使用於實施本發明實施例之電腦系統的方 塊圖。第1 〇圖之電腦系統係客戶1 06及I 08以及伺服器 102之更詳細的顯示。第10圖之電腦系統含一或更多個 諸如處理器1004之處理器,該處理器1004連接於一通訊 外結構]002 (例如通訊匯流排、轉接桿、或網路)。不 同軟體實施例將就有關此代表性之電腦系統予以描述。在 讀完此說明之後,一般熟習於本項相關技藝之人士將更明 瞭如何利用其他電腦系統及/或電腦架構來實現本發明。 該電腦系統可含一顯示器界面]008,其傳遞來自通 訊外結構1002 (或來自未圖示之訊框緩衝器)之圖形, 文字及其他資料以用於顯示於顯示器單元1010之上。該 電腦系統亦含主記憶體1 006,較佳地係隨機存取記憶體 (RAM ) ’且亦可含第二記憶體]012。該第二記憶體 1012例如可含硬碟驅動器〗〇〗4及/或一代表磁碟驅動器, 磁帶驅動器’光碟驅動器等之可移式儲存驅動器1〇16。 -33- (30) 1326447 該可移式儲存驅動器1 0 1 6以熟習於本項技藝之人士所熟 知之方式讀取自及/或寫入於一可移式儲存單元1018。該 可移式儲存單元1018顯示磁碟、碟帶、光碟等,其係藉 可移式儲存驅動器]016予以讀取及寫入。例如將理解的 是’該可移式儲存單元10]8含一具有電腦軟體及/或資料 儲存於其中之可電腦使用之儲存媒體。 在選擇性實施例中,第二記憶體1012可含其他類似 之用於允許電腦程式或其他指令載入於電腦系統內之裝置 ,該裝置例如可含一可移式儲存單元1022及一界面1020 ’此之實例可含一程式匣及匣界面(諸如在視頻遊戲裝置 中所見的),一可移式記憶體晶片(諸如EPROM或 PROM)及相關插座,以及其他可允許軟體及資料從可移 式儲存單元1 022傳送至電腦系統的可移式儲存單元1〇〇2 及界面1 0 2 0。 該電腦系統亦可含一通訊界面1024,該通訊界面 1 024可允許軟體及資料傳送於電腦系統與外部裝置之間 。該通訊界面1 02 4之實例可含數據機,網路界面(諸如 乙太網路(Ethernet)卡),通訊埠,PCMCIA槽及卡等 。經由通訊界面1 024所傳送之軟體及資料可爲信號之形 式,例如可爲電子、電磁、光學或其他能藉通訊界面 1 〇24予以接收之信號,該等信號係經由通訊路徑(亦即 ,頻道)1026提供至通訊界面1024,此頻道1026可承載 信號且可利用配線或電纜、光纖、電話線、行動電話連結 、RF (射頻)連結、及/或其他通訊頻道予以實施。 -34 - (31) (31)1326447 在此文件中,”電腦程式媒體","可電腦使用之媒體" ,"可機器讀取媒體"及"可電腦讀取媒體"係使用於大致地 稱呼諸如主記億體1 006及第二記憶體1012,可移式儲存 驅動器1016,安裝硬碟驅動器104中之硬碟,及信號之 媒體。該等電腦程式產品係用於提供軟體至電腦系統之裝 置’該可電腦讀取媒體允許電腦系統從該可電腦讀取媒體 讀取資料、指令‘簡訊或簡訊封包、以及其他可電腦讀取 之資訊。例如該可電腦讀取媒體可含諸如磁碟、ROM、快 閃記憶體、碟片驅動器記憶體、CD — ROM、及其他永久 性儲存器之非依電性記憶體,例如有用於傳送諸如資料及 電腦指令之資訊於電腦系統之間。此外,該可電腦讀取媒 體可包含:在諸如含有線網路或無線網路之網路連結及/ 或網路界面之短暫狀態媒體中的可電腦讀取資訊而允許電 腦系統讀取該等可電腦·讀取資訊。 電腦程式(亦稱電腦控制邏輯)係儲存於主記憶體 1〇〇6及/或第二記億體1〇12中,電腦程式亦可經由電腦界 面1 024予以接收。當執行時,該等電腦程式使電腦系統 能執行如本文所述之本發明的特性。特別地,當執行時, 該等電腦程式使處理器1 〇〇4能執行電腦系統之特性,因 此’該等電腦程式代表電腦系統之控制器。 V.結論 雖然已揭示本發明之特定實施例,但熟習於本項技藝 之該等人士將理解的是’可完成改變於該等特定實施例而 -35- (32) (32)1326447 不會背離本發明之精神及範疇。因此,本發明之範疇並未 受限於該等特定實施例。此外,所打算的是,附錄之申請 專利範圍涵蓋任何及所有之該等應用、修正、及實施例於 本發明之範疇內。 【圖式簡單說明】 第1圖係方塊圖,描繪根據本發明較佳實施例之用於 分散式語音辨識的網路; 第2圖係根據本發明較佳實施例之用於分散式語音辨 識之無線式通訊系統的詳細方塊圖; 第3圖係方塊圖’描繪根據本發明較佳實施例之用於 無線式通訊系統之無線式裝置; 第4圖係方塊圖’描繪無線式裝置與無線式服務提供 者之資訊交換; 第5圖係操作流程圖,顯示根據本發明較佳實施例之 整個分散式語音辨識過程; 第6圖係操作流程圖,顯示根據本發明較佳實施例之 類別及音調量化過程。 第7圖係方塊圖’描繪用於類別及音調量化過程之習 知位兀配置; 第8圖係操作流程圖,描繪根據本發明較佳實施例之 用於類別及音調量化過程之位元配置; 第9A’9B及9C圖係操作流程圖,顯示根據本發明 較佳實施例之另一音調量化過程;以及 -36- (33) (33)1326447 第10圖係用於實施本發明較佳實施例之資訊處理系 統。 元件對照表 1 02 :網路伺服器或無線式服務提供者 1 04 :網路 1 0 6,1 0 8 :無線式裝置 2 0 1,3 0 2 :控制器 202,203,204:基地台(單元伺服器) 2 0 6 :電話界面 3 04 :接收器 3 1 6 :天線 3 1 4 :開關 3 1 2 :發射器 3 1 0 :記億體 3 1]:計時器模組 3 06 :類比至數位轉換器 3 0 8 : RSQI (接收信號品質指示表)電路 3 2 0 :處理器 402 :聲頻 404 :微音器 406 :資料封包 502〜518: , 602〜620 , 902〜970:步驟 702,802:音訊量化 -37- (34) (34)1326447 704,8 04 :類別量化 ]002 :通訊外結構 1 004 :處理器 1 006 :主記憶體 1008:顯示器界面 1 〇 1 〇 :記憶體單元 1 0 1 2 :第二記億體 1014 :硬碟驅動器 1016:可移式儲存驅動器 1018,1 022:可移式儲存單元 1 020 :界面 1 024 :通訊界面 1 026 :通訊路徑(亦即,頻道)

Claims (1)

  1. 拾、申請專利範圍 附件2A: 第93 102827號專利申請案 中文申請專利範圍替換本 民國96年2月2日修正 1·—種在資訊處理系統上用於量化聲頻之類別資訊 及音調資訊之方法,包含: 接收聲頻: 捕捉該聲頻之訊框; 確定該聲頻之音調; 計算一代表該訊框之音調的碼字元,其中第一碼字元 之値表示無限的音調: 確定該訊框之類別,其中該類別係表示一無限音調之 至少兩類別及表示一有限音調之至少一類別之任一;以及 計算一代表該訊框之類別的碼字元,其中該碼字元長 度爲代表表示一無限音調之該至少兩類別所需之最小數目 位元及代表表示一有限音調之該至少一類別所需之最小數 目位元的最大値, 其中該訊框之音調及類別係藉該兩個碼字元予以代表 〇 2.如申請專利範圔第1項之方法,其中若代表該訊 框之音調之該碼字元表示—無限的音調,則代表該訊框之 類別之該碼字元指示出表示一無限的音調之該至少兩類別 之一。 1326447- 日修正替換頁 3. 如申請專利範圍第2項之方法,其中若代表該訊 框之音調之該碼字元表示一有限的音調’則代表該訊框之 類別之該碼字元指示出表示一有限的音調之該至少兩類別 之一。 4. 如申請專利範圍第3項之方法,其中表示一無限 的音調之該至少兩類別包含一非語音類別及一未發聲類別 〇 5. 如申請專利範圍第1項之方法,其中該資訊處理 · 系統係客戶電腦及諸如行動電話之無線式裝置之任一。 6. 如申請專利範圍第5項之方法,其中該聲頻屬於 語音。 7. 如申請專利範圍第6項之方法,其中該訊框期間 自20至30毫秒,且其後之訊框相互重疊10至15毫秒。 8. 如申請專利範圍第1項之方法,進一步包含: 傳輸代表該訊框之音調的碼字元及代表該訊框之類別 的碼字元至伺服器。 ® 9. 一種用於量化聲頻之類別資訊及音調資訊之資訊 處理系統,包含: 一微音器,用於接收聲頻;以及 一數位信號處理器,用於捕捉該聲頻之訊框,確定該 訊框之音調,計算代表該訊框之音調的碼字元,其中第一 碼字元之値表示無限的音調,確定該訊框之類別,其中該 類別係表示一無限音調之至少兩類別及表示一有限音調之 至少一類別之任一,以及計算一代表該訊框之類別的碼字 -2- Ι326Φρ^ ^^月> 曰修正替換頁 兀,其中該碼字元長度爲代表表示一無限音調之該至少兩 類別所需之最小數目位元及代表表示一有限音調之該至少 一類別所需之最小數目位元的最大値, 其中該訊框之音調及類別係藉該兩個碼字元予以代表 〇 10·如申請專利範圍第9項之資訊處理系統,其中若 代表該訊框之音調之該碼字元表示一無限的音調,則代表 該訊框之類別之該碼字元指示出表示一無限的音調之該至 擊 少兩類別之一。 11·如申請專利範圍第10項之資訊處理系統,其中 若代表該訊框之音調之該碼字元表示一有限的音調,則代 表該訊框之類別之該碼字元指示出表示一有限的音調之該 至少兩類別之一。 12.如申請專利範圍第11項之資訊處理系統,其中 表示一無限的音調之該至少兩類別包含一非語音類別及一 未發聲類別。 _ 13·如申請專利範圍第9項之資訊處理系統,其中該 資訊處理系統係客戶電腦及諸如行動電話之無線式裝置之 -* 〇 如申請專利範圍第13項之資訊處理系統,其中 該聲頻屬於語音。 I5·如申請專利範圍第14項之資訊處理系統,其中 該訊框期間自20至30毫秒,且其後之訊框相互重疊10 至1 5毫秒。 -3- 1326447 __ 物上月、修正替換頁 16·如申請專利範圍第9項之資訊處理系統,進—步 包含: 傳輸器,用於傳輸代表該訊框之音調的碼字元及代表 該訊框之類別的碼字元至伺服器。 17· ~種在分散式語音辨識系統中之方法,該方法包 含: 接收聲頻; 組織該經接收之聲頻爲訊框; · 量化各訊框之聲頻音調資訊,其中該經量化之各訊框 之聲頻音調資訊係藉複數個量化音調値之一表示;以及 量化各訊框之類別資訊,其中該經量化之各訊框之類 別資訊係藉複數個量化類別値之一表示,及其中該複數個 量化音調値之一表示是否該經量化之各訊框之類別資訊爲 未發聲類別範圍及發聲類別範圍之一,該經量化之各訊框 之類別値係選擇自該未發聲類別範圍的複數個經量化的類 別値及該發聲類別範圍的至少一經量化的類別値之一。 · 18.如申請專利範圍第17項之方法,進一步包含: 提供至少一含經量化之音調資訊及經量化之類別資訊 的碼字元於至少一訊框。 1 9.如申請專利範圍第1 7項之方法,其中該經量化之 各訊框的類別値係藉代表至少兩類別之一所需之最小數目 的位元予以表示。
TW093102827A 2003-02-07 2004-02-06 Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system TWI326447B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/360,582 US6961696B2 (en) 2003-02-07 2003-02-07 Class quantization for distributed speech recognition

Publications (2)

Publication Number Publication Date
TW200501055A TW200501055A (en) 2005-01-01
TWI326447B true TWI326447B (en) 2010-06-21

Family

ID=32824044

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093102827A TWI326447B (en) 2003-02-07 2004-02-06 Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system

Country Status (8)

Country Link
US (1) US6961696B2 (zh)
EP (1) EP1595249B1 (zh)
KR (1) KR100763325B1 (zh)
CN (1) CN101160380B (zh)
BR (1) BRPI0406952B1 (zh)
RU (1) RU2348019C2 (zh)
TW (1) TWI326447B (zh)
WO (1) WO2004072948A2 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
CN102256372B (zh) * 2010-05-17 2016-06-22 中兴通讯股份有限公司 Mtc终端接入方法及系统和mtc终端
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
SE512613C2 (sv) * 1996-12-30 2000-04-10 Ericsson Telefon Ab L M Metod och organ för informationshantering
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
JP3011678B2 (ja) * 1997-07-09 2000-02-21 株式会社精研 たわし
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US6038535A (en) * 1998-03-23 2000-03-14 Motorola, Inc. Speech classifier and method using delay elements
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6915256B2 (en) * 2003-02-07 2005-07-05 Motorola, Inc. Pitch quantization for distributed speech recognition
KR20060068278A (ko) * 2004-12-16 2006-06-21 한국전자통신연구원 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치

Also Published As

Publication number Publication date
BRPI0406952A (pt) 2006-01-03
BRPI0406952B1 (pt) 2018-02-27
KR20050097928A (ko) 2005-10-10
RU2005127871A (ru) 2006-01-20
TW200501055A (en) 2005-01-01
EP1595249A4 (en) 2007-06-20
EP1595249B1 (en) 2017-07-12
RU2348019C2 (ru) 2009-02-27
WO2004072948A2 (en) 2004-08-26
CN101160380B (zh) 2011-09-21
WO2004072948A3 (en) 2004-12-16
US20040158461A1 (en) 2004-08-12
EP1595249A2 (en) 2005-11-16
CN101160380A (zh) 2008-04-09
KR100763325B1 (ko) 2007-10-05
US6961696B2 (en) 2005-11-01

Similar Documents

Publication Publication Date Title
JP4313570B2 (ja) 音声復号における音声フレームのエラー隠蔽のためのシステム
US6678654B2 (en) TDVC-to-MELP transcoder
JP4842472B2 (ja) フレーム抹消条件下で予測音声コーダの性能を改良するためにデコーダからエンコーダにフィードバックを供給するための方法および装置
TWI326447B (en) Method and information processing system for quantizing class information and pitch information of audio, and method in distributed speech recognition system
KR101548846B1 (ko) 워터마킹된 신호의 적응적 인코딩 및 디코딩을 위한 디바이스
KR20040054736A (ko) 헤더를 포함하는 프레임에 배열된 코딩된 디지털 오디오신호를 디코딩하는 방법 및 장치
JP2010092059A (ja) 可変率音声符号化に基づいた音声合成装置
US20030195745A1 (en) LPC-to-MELP transcoder
TWI333640B (en) Method and information processing system for quantizing pitch information of audio
AU6533799A (en) Method for transmitting data in wireless speech channels
JP2003526280A (ja) 受信機内の復号誤りを軽減するための符号化方法とシステム
JP2006039559A (ja) 移動通信端末機のplpを利用した音声コーディング装置及び方法
CN112509591B (zh) 一种音频编解码方法及系统
KR100962377B1 (ko) 음성 채널을 이용한 데이터 전송 방법 및 장치

Legal Events

Date Code Title Description
MK4A Expiration of patent term of an invention patent