TWI333640B - Method and information processing system for quantizing pitch information of audio - Google Patents

Method and information processing system for quantizing pitch information of audio Download PDF

Info

Publication number
TWI333640B
TWI333640B TW093102838A TW93102838A TWI333640B TW I333640 B TWI333640 B TW I333640B TW 093102838 A TW093102838 A TW 093102838A TW 93102838 A TW93102838 A TW 93102838A TW I333640 B TWI333640 B TW I333640B
Authority
TW
Taiwan
Prior art keywords
frame
level
pitch
length
box
Prior art date
Application number
TW093102838A
Other languages
English (en)
Other versions
TW200506814A (en
Inventor
Tenkasi V Ramabadran
Alexander Sorin
Original Assignee
Motorola Inc
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc, Ibm filed Critical Motorola Inc
Publication of TW200506814A publication Critical patent/TW200506814A/zh
Application granted granted Critical
Publication of TWI333640B publication Critical patent/TWI333640B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

1333640 (1) 玖、發明說明 【發明所屬之技術領域】 本發明係關於分佈語音辨識系統的領域,更特別地, 係關於用於窄頻帶通信及無線通信之分佈語音辨識。 【先前技術】 隨著呼叫器及行動電話的出現,無線服務業已成長爲 數十億工業。無線服務提供者(WSP )之收入量來自訂購 。就其本身而論,操作一成功網路的 WSP能力依賴經由 具有一有限帶寬的網路而提供給訂購者之服務品質。爲此 目的,WSP不斷地尋找緩和傳輸在網路上的資訊量之方 法,然而保持對訂購者的高服務品質。 近來語音辨識已享有無線服務工業的成功。語音辨識 被使用於多種的應用及服務。例如,無線服務訂購者可設 有速撥功能,因此,訂購者讀取將收話者的姓名入無線裝 置。收話者的姓名係使用語音辨識而辨識的,且,呼叫被 起始在訂購者及收話者之間。於另一實例中,呼叫者資訊 (411)可利用語音辨識來辨識訂購者企圖呼叫之收話者 的姓名。 因爲語音辨識獲得無線群體的接受度,分佈語音辨識 (DSR)已產生如一突出的技術e DSR所指的是特徵抽取 及語音辨識系統的圖案辨識部被分佈之框架。亦即,特徵 抽取及語音辨識系統的圖案辨識部係藉由兩個不同處理單 元而實施在兩個不同位置。明確地說=特徵抽取過程係實 -5- i (2) (2)1333640 施在前端上,亦即,無線裝置’且’圖案辨識過程係實施 在背端上,亦即,無線服務提供者。D S R加強語音辨識爲 了更複雜的任務,諸如具有語音航線資訊的自動化航空訂 位或具有較小特徵的經紀交易。 歐洲電信標準機構(ETSI )公佈一組DSR標準。 ETSI DSR 標準 ES201 108 ( 2000 年四月)及 ES202 05 0 ( 2 0 02年七月)界定在前端的特徵抽取及壓縮演算。然而 ,此些標準不會結合在背端的語音辨識,其在某些應用上 可能是重要的。結果,新的工作項目 WI-03 0及 WI-034 已由 ETSI釋出來擴充以上標準(分別爲ES201 108及 ES202 050 ),以包括在背端的語音辨識以及音調語音辨
Sail 識。 於目前的DSR標準中,抽取、壓縮且傳輸至背端的 特徵爲 13 個 Mel Frequency Cepstral Coefficients ( MFCC )C0-C12,及框能量的對數】og—E。此些特徵每10毫 秒更新一次。於擴充標準的建議中(亦即,上述的工作項 目)’除了 MFCC'及】〇g_E之外,音調及等級(或發 聲)資訊已被引出用於各框且被傳輸。此增加由無線裝置 傳輸在網路上之資訊量,且消耗額外的帶寬。因此,較佳 地’等級及音調資訊的表示儘可能地壓縮以保持低的位元 率。 這已是壓縮地表示音調資訊且不必犧牲針對通信通道 誤差的準確度及堅實之進行中問題。通常,語音音碼器( 例如’混合激勵線性預測(M ELP )編碼器)其爲在 (3) (3)1333640 2400bps的美國聯邦標準使用每框7或更多位元來絕對量 化音調資訊。於擴充的DSR標準,這是重要來保持由於 音調及等級資訊之額外位元率儘可能地低。絕對及差量化 技術的組合已被採用來量化使用每框僅6位元的音調週期 資訊’因此,每框節省至少1位元。然而,此可潛在地產 生關於對通道誤差的準確度及穩健性之問題》 因此,存在有克服如上述習知技術的問題之需要。 【發明內容】 簡要地說,依據本發明,揭示用來量化聲頻的音調資 訊之系統、方法及電腦可讀取媒體。於本發明的實施例中 ’在資訊處理系統上的方法,包含:捕獲代表一編號框的 數個框之聲頻。計算該框的等級,其中等級係發聲等級及 無聲等級的任何一者。如果該框係發聲等級,計算該框的 音調。如果該框係偶數框及發聲等級,藉由絕對量化該框 的音調來計算第一長度的碼字。如果該框係偶數框及無聲 等級,計算表示無聲等級的框之第一長度的碼字。如果該 框係奇數框及發聲等級以及在該框正前面的三個框的至少 一者係可靠的,參考最接近的前一可靠框的量化音調,藉 由差量化該框的音調來計算第二長度的碼字,其中該第一 長度大於該第二長度。如果該框係奇數框及發聲等級以及 該框正前面的三個框的每一者係不可靠的,藉由絕對量化 該框的音調來計算第二長度的碼字。及如果該框係奇數框 及無聲等級,計算表示無聲等級的框之第二長度的碼字。 -7- (4) (4)1333640 於本發明的另一實施例中’用來量化聲頻的音調資訊 之資訊處理系統包括:一傳聲器’用來捕獲代表一編號框 的數個框之聲頻。及一數位信號處理器,用於:計算該框 的等級’其中等級係發聲等級及無聲等級的任何一者。如 果該框係發聲等級,此處理器計算該框的音調。如果該框 係偶數框及發聲等級,藉由絕對量化該框的音調來計算第 一長度的碼字。如果該框係偶數框及無聲等級,此處理器 E十算表不無聲等級的框之第一長度的碼字。如果該框係奇 數框及發聲等級以及在該框正前面的三個框的至少一者係 可靠的’此處理器參考最接近的前一可靠框的量化音調, 藉由差量化該框的音調來計算第二長度的碼字,其中該第 一長度大於該第二長度。如果該框係奇數框及發聲等級以 及該框正前面的三個框的每一者係不可靠的,此處理器藉 由絕對量化該框的音調來計算第二長度的碼字。及如果該 框係奇數框及無聲等級’此處理器計算表示無聲等級的框 之第二長度的碼字。 本發明的較佳實施例係有利的,因爲它們用來減小使 用來傳輸聲頻資訊在通信網路上之位元的量。這是有利益 的’因爲通信網路擁有有限的帶寬。位元的節省被解釋爲 致使更大的帶寬可用在目前或額外的訂購者。因此,本發 明提供網路功能的改善及通信品質的增加 【實施方式】 依據一較佳實施例:藉由有效地減少使用於音調量化 -8 - (5) 1333640 j 的位元的數目如以下詳述,本發明有利地克服習知技術的 問題。 1 ·槪述 圖1係解說依據本發明的較佳實施例的分佈語音辨識 (DSR)的網路之方塊圖。圖1顯示操作在網路]〇4上的 網路伺服器或無線服務提供者1 0 2,網路〗〇 4連接伺服器 /無線服務提供者1 02以及用戶1 〇6與1 08。於本發明的 一個實施例中’圖]代表一網路電腦系統,其包括伺服器 102、網路104及用戶電腦1〇6至1〇8。於第一實施例中 ’網路]04係一電路切換網路,諸如公共服務電話網路( PSTN)。替代地,網路1〇4係—訊包切換網路。此訊包 切換網路係一廣域網路(W A N ),諸如全球網際網路 '私 人WAN、局域網路(LAN ) '電信網路或上述網路的任 何組合。於另一替代例中’網路1 04係—有線網路、無線 網路、廣播網路或點對點網路。
於第一實施例中’伺服器1 02及用戶電腦1 〇6及1 08 包含一或數個個人電腦(P C s )(例如,操作微軟視窗95 /98/2000 / M E/CE/NT/XP操作系統的IBM或相容 PC工作站、操作Mac OS操作系統的Macintosh電腦、操 作LINUX操作系統或等效系統的PCs '或任何其它電腦 處理裝置。替代地’伺服器102及用戶電腦106及1〇 8包 括一或數個伺服器系統(例如,操作S u η 0 S或AIX操作 系統的SUN Ultra工作站 '操作AIX操作系統的IBM RS -9- (6) (6)1333640 / 6000工作站及伺服器或操作LINUX操作系統的伺服器 )° 於本發明的另一實施例中,圖1代表一無線通信系統 ’其包括無線服務無線服務提供者I 0 2 '無線網路1 〇 4及 無線裝置1 0 6至1 0 8。無線服務提供者1 〇 2係第一代類比 行動電話服務 '第二代數位行動電話服務或第三代致能行 動電話服務。 於此實施例中,無線網路1 〇4係行動電話網路、行動 文字傳訊裝置網路、呼叫器網路或類似物。再者,圖]的 無線網路1 〇4的通信標準係碼分割多路接達(CDMA ), 時間分割多路接達(TDMA ),全球行動通信系統(GSM )’通用訊包無線電服務(GPRS )、頻率分割多路接達 (FDMA )或類似物。無線網路1 04支援任何數量的無線 裝置106至108,其爲行動電話 '文字傳訊裝置、手持式 電腦、呼叫器、發音器或類似物。
於此實施例中,無線服務提供者1 02包含一伺服器, 其包含一或數個個人電腦(P C S )(例如,操作微軟視窗 95 / 98 / 2000/ME/CE/NT/XP 操作系統的 IBM 或相 容PC工作站、操作Mac OS操作系統的Macintosh電腦 、操作LINUX操作系統或等效系統的PCs '或任何其它 電腦處理裝置。於本發明的另一實施例中,無線服務提供 者1 〇 2的伺服器係一或數個伺服器系統(例如,操作 SunOS或AIX操作系統的SUN Ultra工作站、操作AIX 操作系統的IBM RS/ 6000工作站及伺服器或操作LINUX -10 - (7) 1333640 操作系統的伺服器)。 如上所述’ D S R稱爲一框架,其 特徵抽取及圖案辨識部被分佈。亦即 徵抽取及圖案辨識部係藉由兩個不同 個不同位置。特別地,特徵抽取過程 106及]08的前端而實施的,且,圖 線服務提供者1 02的伺服器之背端而 106及108而實施在前端上之特徵抽 〇 圖2係依據本發明的較佳實施供 系統的詳細方塊圖。圖2係參考圖1 的更詳細方塊圖。圖2的無線通信系 202、203及204之控制器20]。再者 統係經由一電話介面2 0 6而接合至 202' 203及204各別地支援含有使 亦即,無線裝置)1 0 6及1 〇 8之地理 1 )。無線裝置106及1〇8使用諸 CDMA、GPRE及G S Μ的通信協定 及204而接介。 於圖2的無線通信系統的全球涵 ,其係由基地台202、203及204所 稱爲單元伺服器)。操作於無線通信 擇一特別單元伺服器作爲其主要介面 內的操作。例如,無線裝置】06具有 中一語音辨識系統的 ’語音辨識系統的特 處理單元而實施在兩 係由例如,無線裝置 案辨識係由例如,無 實施的。由無線裝置 取過程係在以下詳述 I的DSR之無線通信 所述之無線通信系統 統包括連接至基地台 ,圖2的無線通信系 -外部網路。基地台 用者單元或收發器( 涵蓋區的部份(見圖 如 CDMA、 FDMA' ί與基地台202、203 蓋區係分成單元或區 各別地服務(在此亦 系統內的無線裝置選 來接收及傳輸系統 元伺服器202作爲 -11 - (8) (8)1333640 其主要單元伺服器。較佳地,—無線裝置選擇提供最佳通 信介面之單元伺服器進入無線通信系統。通常,此將依據 一無線裝置及一特別單元伺服器間之通信信號的信號品質 而定。 當一無線裝置移在涵蓋區中的各種地理位置間時,脫 機(hand-off)或讓機(hand-over)對於另一單元伺服器 可能係需要的,此單元伺服器然後將作用如主要單元伺服 器。一無線裝置監視來自服務相鄰單元的基地台之通信信 號以決定用於脫機目的之最適當的新伺服器。除了監視來 自一相鄰單元伺服器的傳輸信號的品質,無線裝置亦監視 與傳輸信號相關之傳輸彩色碼資訊,以快速地識別哪一相 鄰單元伺服器爲傳輸信號的來源。 圖3係解說用於依據本發明的較佳實施例的無線通信 系統之無線裝置之方塊圖。圖3係參考圖〗及2所述之無 線裝置的更詳細方塊圖。圖3顯示無線裝置106,諸如圖 1所示。於本發明的一實施例中,無線裝置1 0 6係能夠在 一通信頻道而接收及傳輸無線電頻道信號之雙向無線電, 在諸如 CDMA、FDMA、CDMA、GPRS或GSM的通信協 定下。無線裝置1 06操作在切換無線裝置]06於接收及傳 輸模式間之控制器3 02的控制下。於接收模式中,控制器 3 02經由傳輸/接收開關314而連接天線316至接收器 3 04。接收器3 04解碼收到的信號並提供此些解碼的信號 至控制器3 0 2。於傳輸模式中,控制器3 0 2經由開關3 1 4 而連接天線316至傳輸器3】2。 -12- (9) (9)1333640 控制器3 0 2依據存於記億體3 1 0的指令來操作傳輸器 及接收器。儲存的指令包括安排演算的相鄰單元量測。記 ‘ 憶體3〗0係快閃記憶體 '其它非易失性記憶體、隨機接達 記億體(RAM )、動態隨機接達記憶體(DRAM )或類似 物。定時器模組3 1 1提供定時資訊給控制器3 02以追蹤定 時的事件β再者,控制器3 02可利用來自定時器模組3 1] 的時間資訊以追蹤相鄰單元伺服器傳輸及傳輸的彩色碼資 ‘ 訊之安排。 鲁 當一相鄰單元量測被安排時,接收器3 04在控制器 3 02的控制下,監視相鄰單元伺服器並接收"接收的信號 品質指示器〃 (RSQI ) 。RSQI電路3 08產生代表由每一 監視單元伺服器所傳輸的信號的信號品質之RSQI信號。 每一RSQI信號係藉由類比對數位轉換器3 06而轉換成數 位資訊,並提供作爲對控制器3 02的輸入。使用彩色碼資 訊及相關的接收信號品質指示器,無線裝置〗06決定當讓 機係需要時,使用作爲主要單元伺服器之最適當相鄰單元 β 伺服器。 圖3中的處理器3 20實施諸如歸因於分佈語音辨識的 功能之各種功能,以下詳述。於本發明的各種實施例中, 圖3中的處理器3 20係單一處理器或數個處理器,用來實 施上述的事務。 2.分佈語音辨識 圖4係解說無線裝置1 〇 6與無線服務提供者]〇2間的 -13- (10) (10)1333640 資料交換之方塊圖。圖4係參考圖〗及2所述的無線裝置 ]06的更詳細方塊圖。實施在無線裝置1〇6的一些功能亦 被顯示。圖4顯示無線裝置〗06及無線網路104,諸如圖 1所示。無線裝置106的處理器320及傳輸器312亦被顯 示,如圖3所示。 於本發明的一實施例中,無線裝置1 06亦包括用來接 收聲頻402的傳聲器404。收到的聲頻402然後由處理器 320而處理。在由處理器320所實施的過程中,一框的聲 頻402的等級及音調係由處理器3 20而量化。一框的聲頻 4 02的等級及音調係具體化於訊包406中所含的至少一碼 字。訊包4〇6然後係藉由傳輸器3]2經由網路104而傳輸 至一伺服器或無線服務提供者1 02。以下更詳細地說明量 化一框的聲頻4〇2的等級及音調與產生至少一碼字的過程 〇 圖5係顯示依據本發明的較佳實施例的整個分佈語音 辨識過程之操作流程圖。圖5的操作流程圖說明之用戶 ]06實施進入聲頻的特徵抽取的過程,及伺服器或無線服 務提供者I 02實施圖案辨識的過程。圖5的操作流程圖以 步驟502而開始,並直接前進至步驟504。 於步驟504中,用戶106接收傳輸至伺服器102的聲 頻。於圖1的系統代表諸如圖2中所述的無線網路之實施 例,於步驟5 04中,無線裝置106經由傳聲器404而接收 聲頻4〇2(見圖4)。接著,於步驟506中,用戶106進 行實施特徵抽取在收到的聲頻上。特徵抽取包括一框之音 -14- (11) (11)1333640 調及等級値的量化。以下更詳細說明特徵抽取。於無線網 路實施例中,於步驟506中,無線裝置]06的處理器320 (見圖3)進行實施特徵抽取在聲頻4〇2上. 於步驟508中,用戶]〇6產生包括抽取的特徵之訊包 資料’用來傳輸至伺服器102。以下更詳細的說明資料訊 包產生。於無線網路實施例中,於步驟508中,無線裝置 106產生包括抽取的特徵之資料訊包4〇6。接著,於步驟 51〇中,用戶106進行傳輸此資料訊包至伺服器]02。於 無線網路實施例中,於步驟510中,無線裝置1〇6的傳輸 器3 1 2經由無線網路1 〇 4而進行傳輸資料訊包4 〇 6至無線 服務提供者或伺服器102。 於步驟512中,伺服器1〇2接收由用戶106傳出的訊 包資料’且,於步驟5 1 1 2中,伺服器i 〇2基於此訊包資料 而進行重建此聲頻》於步驟516中,伺服器102基於接收 自用戶1 06的訊包資料來實施語音辨識。於無線網路實施 例中’於步驟512中,無線服務提供者或伺服器〗02接收 由無線裝置106所傳輸的資料訊包406,且,於步驟514 中’無線服務提供者或伺服器102基於資料訊包406而進 行重建聲頻。於步驟5 ] 6中,無線服務提供者或伺服器 102基於接收自無線裝置106的資料訊包406來實施語音 辨識。於步驟5 ] 8中,圖5的操作流程停止。 -15- 1 -資料訊包的產生 2 A .第一量化方案 (12) (12)1333640 於擴充的DSR標準的建議中(以回應工作項目WI_ 030及WI_034) ’一框的等級(或發聲)資訊可採四種可 能値])’非語音’亦即,寂靜或背景噪音2 )無聲3 ) 混聲及4)全聲。此四種値通常可分成兩類別,無發聲( 包括非語音及無聲等級)以及有發聲(包括混聲及全聲等 級)。爲了量化一框的等級資訊,2位元通常係需要的, 因爲有四個等級値要表示,且,2位元可代表四個値。一 框的音調資訊可採約]9至140樣本的範圍中之任一値》 爲量化一框的音調資訊如整數値,7位元通常係需要的, 因爲有122個音調値要表示,且,7位元可表示]28個値 〇 於本發明的一較佳實施例中,藉由組合等級資訊及音 調資訊,每框一位元可被儲存如下。7位元音調碼字的一 者,(例如,全零碼字)係使用來表示此等級爲無發聲( 亦即’非語音或無聲)。剩餘的]2 7個非零7位元音調碼 字係使用來表示不同音調値以及等級爲有發聲(亦即,混 聲或全聲)的資訊。亦即,7位元音調碼字的一者表示此 等級爲無發聲,然而,剩餘的碼字表示此等級爲有發聲。 因此’新一個等級位元足以消除兩個無發聲等級間(亦即 ,在非語音及無聲等級間)的混淆,及兩有聲等級間(亦 即,在混聲及全聲間)的混淆。 以下的表顯示使用來表示語音及等級資訊之7位元碼 字値及1位元碼字値的一個實例。 1333640 (13) 類型 7位元音調碼字 I位元等級碼字 非語音 全零 0 無聲 全零 1 混聲 非零 0 全聲 非零 1 因此’槪括來說,依據本實例,使用來表示等級及音 調資訊的位元的總數爲8位元。這是相對於9位元,如果 等級及音調資訊已被分開量化(亦即,7位元用於音調及 2位元用於等級)’將需要9位元來表示等級及音調資訊 。此種方案造成的損失在於,此128個音調碼字中的一者 已被使用來表示等級資訊。因爲相對不重要性的一個碼字 ,這具有非常小且不意義的衝擊在音調量化的準確性上。 圖6係顯示依據本發明的較佳實施例.的等級及音調量 化處理之操作流程圖。圖6說明操作流程圖表示之用戶 106計算音調及等級資訊以及產生代表此音調及等級資訊 的資料訊包的過程。圖6更詳細地明圖5的步驟506及 5 0 8。圖6的操作流程圖以步驟602開始且直接前進至步 驟 6 0 4。 於步驟604中,用戶106計算所收到的聲頻的音調値 。於無線網路實施例中,於步驟6〇4,無線裝置I 〇6 (尤 其無線裝置106的處理器320)計算經由傳聲器4〇4所收 到的聲頻402的音調値。於步驟606中,用戶1〇6基於聲 頻的音調値來實施音調量化。於—實例中,7位元音調量 -17 - (14) (14)1333640 化被實施,如上述。於無線網路實施例中,於步驟606, 無線裝置]06基於聲頻402的音調値來實施音調量化。 於步驟60 8中’用戶】〇6實施聲頻的等級計算。於步 驟6】〇中’用戶106決定計算於步驟608的等級是否爲無 發聲類別’亦即’非語音等級或無聲等級。如果步驟6 1 〇 的決疋的結果是同疋’則控制前進至步驟612。如果步驟 610的決定的結果是否定’則控制前進至步驟616。 於步驟612中’用戶1〇6設定一音調碼字給表示—無 發聲等級類別(亦即’非語音等級或無聲等級)框之預設 的音調碼字。於一實例中,用戶]06設定一 7位元音調碼 字爲全零。此較佳音調碼字表示一非語音等級或無聲等級 框。於步驟614中’用戶1〇6設定一等級碼字來表示—未 發聲等級類別(亦即’非語音等級或無聲等級)框的等級 。於一實例中’用戶1 06設定表示非語音等級或無聲等級 之〗位元等級碼字。 於步驟616中’用戶106設定一音調碼字給爲了實施 於步驟604的音調量化所產生之音調値。於—實例中,用 戶106設定一7位元音調碼字給爲了實施於步驟604的音 調量化所產生之音調値。於步驟6 1 8中,用戶]06設定一 等級碼字來表示一有聲等級類別的等級(亦即,混聲或全 聲)框。於一實例中,用戶]06設定表示混聲或全聲等級 之]位元等級碼字》於步驟620中,圖6的操作流程停止 〇 圖7係解說用於等級及音調量化處理的習知位元配置 -18 - (15) 1333640 之方塊圖。圖7顯示7位元表示音調量化702 128個可能値係使用來表示一框聲頻的音調週期 7亦顯示,2位元表示等級量化704。因此,4個 使用來表示一框的聲頻的等級。四個等級被界定 、無聲、混聲及全聲。因此,依據圖7,總共9 來表示一框的聲頻的音調及等級量化値。 圖8係解說用於依據本發明的較佳實施例的 調量化處理的位元配置之方塊圖。圖8顯示依據 等級及音調量化之位元配置。圖8顯示,7位元 量化8 02。然而,以7位元取得的12 8個可能値 127値係使用來表示一框的聲頻的音調週期資料 的一個値係使用來表示等級資訊,尤其爲,無發 別(亦即’非語音等級或無聲等級)。較佳地, 示等級類別的8 0 2的一値都爲零,且,此値表示 等級類別框(亦即’非語音等級或無聲等級)。 它127値係使用來表示一發聲類別框的音調値( 聲等級或全聲等級)。 圖8亦顯示,1位元表示等級量化8 〇4。這 的顯著優點。因此’ 2個可能値或碼字係使用來 示一框的聲頻的等級。此2個可能値係使用來區 聲等級類別中(亦即’非語音等級或無聲等級) 聲類別框中(亦即’混聲等級或全聲等級)。較 果802全爲零時,8〇4的零値係使用來表示一非 類別;如果802不全爲零時,8〇4的零値係使用 。因此, 資料。圖 可能値係 :非語音 個係使用 等級及音 本發明的 表不音調 中,只有 。此剩餘 聲等級類 使用來表 一無發聲 8 02的其 亦即,混 是本發明 進一步表 別於無發 ,及於發 佳地,如 語音等級 來表示一 -19- (16) (16)1333640 混聲等級;及,如果802不全爲零時,804的一者的値係 使用來表示一全聲等級。因此,依據圖8,總共8位元係 使用來表示一框的聲頻的音調及等級量化値。 B.第二量化方案 於擴充DSR標準的建議中,音調週期被估算用於每 —框’且係每l〇ms更新一次(或每秒100次)。估算的 音調週期可採分數値,且配置約19至】4〇樣本在8kHz取 樣率。因此,估算的音調頻率在約57Hz至約420 Hz的範 圍。當實施此音調量化過程時,這是較佳地達到準確度, 亦即’低量化誤差,低位元率及針對頻道誤差的穩健性》 於本發明的較佳實施例中,所有偶數框(以編號爲〇 的第一框起始)係使用7位元而量化,且,所有奇數框係 使用5位元而量化。考慮爲框對,一框對中的第一框係使 用7位元而量化’且’一框對中的第二框係使用5位元而 量化。因此,每一框中的平均數爲6»由於單獨的音調量 化,此符合600bps的位元率。 一絕對量化方案係使用於偶數框。在可利用的128個 碼字中’一碼字(亦即,全零碼字)係使用來傳輸未發聲 類別等級資訊’亦即’表示此框爲非語音或無聲的。剩餘 的127個碼字係使用於此音調週期的量化。以上更詳細說 明此方案。約19至140樣本的音調範圍係等量分成(127 個區於對數定義域)’且,此些區的中點被選爲重建位準 。用於任一指定音調値’對應量化的音調値係選擇如最近 -20- (17) 1333640 的重建位準於線性定義域。此1 2 7個 給I 2 7個重建位準。具有量化器設計 0.8%。 用於奇數框,大部份時間一差量 ,在某些情況下(如下表中所示), 使用。至於此差量化方案,一參考値 有框的音調週期値與此參考値間的差 値的比)可被量化。雖然前一框的量 的可能參考値,此框可能不一定是一 即,混聲或全聲)。因此,前三框的 値被選擇爲參考値。亦即,一框對的 用此框對的第一框的量化音調週期値 音調週期値的任一者作爲參考値而實 在伺服器側中,由於解碼的音調 差,限制誤差的傳播係重要的。爲此 戶側的每一量化音調値可靠(R )或 一參考値。每—絕對量化音調値被認 於量化的參考値係相同框對的第一框 每一差量化音調値被認定爲可靠。因 値通常係相互接近,接近參考値的音 且,更遠離此參考値之音調週期値被 量化的量化位準依據前三個量化音調 作爲參考以及參考値而定。以下表解 値如何被量化。 碼字係一對一地指定 的最大量化誤差係約 化方案被使用。然而 一絕對量化方案亦被 必須被選擇,使得現 (或更適當的,此兩 化音調週期提供最佳 有發聲等級類別(亦 一者的量化音調週期 第二框的差量化係使 或前一框對的兩量化 施。 週期値的一者中之誤 目的,我們識別在用 不可靠(U )以作爲 定爲可靠。如果使用 的量化音調週期値, 爲相鄰框的音調週期 調週期値被細量化, 粗量化。選擇用於差 値的哪一個已被選擇 說奇數框的音調週期 -21 - (18) 1333640 P(-2) Ρ(Ί) Ρ(0) 所 採 取 的動作 0 0 0 絕 對 量 化 0 1 U 0 絕 對 量 化 丰 * 1 差 量 化 :參 考 Ρ(〇) * 1 R 0 差 量 化 :參 考 P(_l) ] 0 0 差 量 化 :參 考 Ρ(-2) 1 1U 0 差 量 化 :參 考 Ρ(-2)
於上表中,被量化的値爲P(i),一框對的第二框 的音調週期値。參考値係前三框的一者的量化音調週期値 ’亦即’P(O) ’同一框對的第一框的量化音調週期値; P ( —】)’前一框對的第二框的量化音調週期値;及 P (— 2) ’前一框對的第一框的量化音調週期値。 於此表中0 〃的値表示對應框爲一無發聲類別等 級(亦即’非語音等級或無聲等級)。,:I 〃的値表示對 應框爲一發聲類別等級(亦即,混聲等級或全聲等級), 及’其量化音調週期値可使用作爲一參考値。至於差量化 的p (— 1) ’亦具有"1R"及"1U 〃來表示量化音調週 期値是否爲可靠或不可靠。表示量化音調週期係不 重要的’亦即,此値可以是'、0 〃或,]〃,且沒有什麼差 別。作爲初始條件,假設在編碼(亦即,用戶1 0 6 )及解 碼(亦即,伺服器]02 )爲P ( - ] ) = 〇及P ( — 2 ) = 0 。最後一行表示音調是否絕對或差量化,且:如果差量化 -22 - (19) (19)1333640 ,此參考値被使用。 當前三框爲無發聲類別等級時,或當唯一可利用的參 考値爲不可靠P ( — 1 ) ,P (])係使用5位元而絕對量 化。一編碼,諸如全零編碼,係使用來表示,此框爲無發 聲類別等級。剩餘的3 1編碼係使用來以相似於量化偶數 框的音調週期値之方式而量化音調週期P(l)。使用5 位元的絕對量化選擇通常被選擇用於發聲段的第一框,或 用於屬於噪音背景條件的一些錯誤分類框。於任一例子中 ,僅5位元的使用所導致之稍微較大的量化誤差不會造成 語音品質或可解度的任何明顯損失。僅5位元的使用有助 於限制解碼誤差的傳播,如後所述。 當一框對的第一框爲發聲類別等級時,則對應量化音 調週期値一直被選擇作爲參考値,無論P (- 1)及 P( - 2)的値。依據一示範實施例中,在32可能編碼中 (使用音調週期値的5位元量化),一編碼,諸如全零編 碼,係使用來表示目前的框爲非語音/無聲。二十七個編 碼被使用來以對數方式(相似於上述的7位元絕對量化) 而涵蓋參考値附近的小音調範圍。音調範圍的兩端點表示 重建位準。剩餘的四個位準被使用來粗量化音調範圍的其 餘部份。注意到’所選擇的四個位準依據P(0)的値而 定。例如’如果P ( 〇 )係小的,則此四個位準大於p ( 〇 )。另一方面’如果P ( 〇 )係大的,則所有四個準小於P (0 )。 當一框對的第一框爲無發聲類別等級時,則P (_ 1 -23- (20) (20)1333640 )或P(_2)被選擇作爲參考値。如果P (- I)符合發 聲類別等級的框且係可靠’則其被選擇作爲參考値,不論 P (- 2)的値。如果P(-l)符合無發聲類別等級框或 符合發聲類別等級框而是不可靠,且P(— 2)符合發聲 類別等級框’則P (- 2 )被選擇作爲參考値。不論 P (- ])或P(— 2)是否被選擇作爲參考値,量化方法 係相似的》編碼的一者’諸如全零編碼,二十五個編碼被 使用來以對數方式(相似於上述的7位元絕對量化)而涵 蓋參考値附近的小音調範圍。音調範圍的兩端點表示重建 位準。剩餘的六個位準被使用來粗量化音調範圍的其餘部 份。 以上量化方案滿足準確度、低位元率及穩健性的要件 如下。藉由以7位元量化偶數框的音調週期値及以5位元 量化奇數框的音調週期値,每框1位元的平均被儲存,亦 即’每秒I 00位元。同時,準確度不被妥協。7位元絕對 量化係足夠準確。5位元絕對量化通常係使用於發聲段的 第一框,以用於一些噪音背景框。於任一例中,準確度的 不足不受爭議,且’不會明顯地影響崇建語音的品質或可 解度。以5位元差量化,接近參考値的音調週期値係的確 準確地量化。這些値係高機率音調週期値。更遠離參考値 的音調週期値具有低機率且係粗量化。再次,此些値的量 化中的較大誤差不受爭議,且不會明顯地影響崇建語音的 品質或可解度。 本發明中的誤差傳播係藉由識別差量化音調週期値爲 -24 - (21) (21)1333640 可靠或不可靠’以及藉由使用5位元絕對量化用於奇數框 而限制’只當沒有參考値可利用或唯一可利用的參考値係 不可靠時。例如’考慮到許多框對已被抹除之情況。這是 最常用類型的DSR頻道誤差情況。假設,符合接在抹除 後的框之位元已被更正收到。如果接在抹除後的框對的第 一框係一發聲框’則完全沒有錯誤的傳播。這是因爲第一 框一直是絕對量化(使7位元),且,第二框係使用第一 框的量化音調週期値作爲參考値而差量化。且,隨後的框 不會依賴任一抹除的框。 如果第一框爲無發聲類別等級,則第二框不可能被更 正解碼,除非其亦爲無發聲類別等級。這是賓爲第二框的 音調値可能已使用最後一抹除框的量化音調値作爲參考値 。於此例中’此錯誤已傳播至接在此抹除之後的第二框。 如果第三框爲發聲類別等級,則錯誤傳播停止,因爲 接在第三框後的所有框的量化音調週期値不會依賴被抹除 的框或接在此抹除後之正收到的框對。如果第三框爲無發 聲類別等級’則第四框的量化音調週期値可被成功地解碼 ’因爲其必須已被絕對量化,假設第一及第三框爲無發聲 類別等級且第二框係不可靠地。因此,接在一或更多框對 的抹除後之錯誤傳播在最多兩框之後停止。 同樣地’可顯示’偶數框的解碼音調週期値中的任何 錯誤(由於隨機位元錯誤)可傳播多至最多三框。再者, 奇數框的解碼音調週期値中的任何錯誤(由於隨機位元錯 誤)可傳播多至最多兩框。 -25- (22) (22)^33640 圖9A' 9B及9C係顯示依據本發明的較佳實施例的 另〜音調量化處理之操作流程圖。圖9A、9B及9C說明 用戶]0ό計算一框的音調資訊 '產生代表此音調資訊的資 料訊包及繼續下—框的過程。圖9a、9B及9C更詳細地 說明圖5的步驟506及508»圖9A、9B及9C的操作流 圖以步驟902 (於圖9A)開始且直接前進至步驟904。 於步驟903中’用戶1〇6計算目前框的聲頻的音調値 。於無線網路實施例中,於步驟9 0 3中,無線裝置1 〇 6 ( 更特別地’無線裝置106的處理器320)計算經由傳聲器 404接收之聲頻402的音調値。於步驟9〇4中,用戶106 決定目前框是否爲偶數或奇數框。如果步驟9CM的決定的 結果係奇數’則控制前進至步驟9 0 5。於步驟9 0 5中,目 前框爲奇數框’且因此,用戶106進行尋找一適當參考値 以使用於差音調量化。於步驟906中,控制前進至圖9B 的步驟916(B )。 於步驟910中,用戶1〇6基於聲頻的音調値來實施絕 對音調量化。於一實例中,7位元絕對音調量化被實施, 如上所述。於無線網路實施例中,於步驟910中,無線裝 置】06基於聲頻402的音調値來實施絕對音調量化。 於步驟912中,用戶106設定一音調碼字給產生用於 實施於步驟910的絕對音調量化之音調値。於一實例中, 用戶]06設定7位元音調碼字給產生用於實施於步驟910 的絕對音調量化之音調値。於步驟9 1 5 ( E ),控制直接 前進至步驟914»於步驟914中,音調量化過程前進至下 -26- (23) (23)1333640 —框,且’控制直接前進至步驟9 03。 於圖9B的步驟9 16(B)中,控制直接前進至步驟917 。於步驟9]7中,用戶106決定在目前框正前面的 框的等級是否爲發聲類別等級(亦即,混聲等級或全聲等 級)。注意到’於圖9B及9C中,目前框被指定爲框"0 ",在框,〇"正前面的框係框'ι〃 ,在框1〃正 前面的框係框"一 2〃 ’及在框γ — 2〃正前面的框係框'^ —3 " °如果步驟9 ] 7的決定的結果被肯定,則控制前進 至步驟9 4 0。如果步驟9〗7的決定的結果被否定,則控制 則進至步驟920。於步驟920中,用戶丨〇6前進至上一框 以繼續尋找一適當參考値而使用於差音調量化。 於步驟9W中,用戶106決定框'一 的等級是否 爲發聲類別等級(亦即,混聲等級或全聲等級)。如果步 驟9 2 7決定的結果係肯定’則控制前進至步驟$ 2 8。如果 步驟927的決定的結果被否定,則控制前進至步驟93〇。 於步驟930中,用戶106決定框〜-2〃的音調値是否爲 絕對量化。如果步驟9 2 8決定的結果係肯定,則控制前進 至步驟94〇。如果步驟928的決定的結果被否定,則控制 則進至步驟929。於步驟929中,用戶1〇6決定框2 的音s周値是否爲差量化且係可靠(亦即,其爲差量化且 被黎考作爲在其正則面的框)。如果步驟929決定的結果 係同疋’則控制則進至步驟9 4 0。如果步驟9 2 9的決定的 結果被否定,則控制前進至步驟93 〇。 於步驟9j0中,用戶106前進至上—框以繼續保持— -27- (24) (24)1333640 適當參考値而利用差音調量化。於步驟93 7中’用戶]06 決定框'、- 3 〃的等級是否爲發聲類別等級(亦即’混聲 等級或全聲等級)。如果步驟93 7決定的結果係肯定’則 控制前進至步驟940。如果步驟937的決定的結果被否定 ,則控制前進至步驟942。步驟940直接前進至圖9C的 步驟960(C),且步驟90直接前進至圖9C的步驟950 (D )。 於圖9C的步驟950(D)中,控制前進至步驟952。 於步驟952中決定,沒有適當參考框被找到用來差量化目 前的框"0〃 。於步驟956中,用戶106基於聲頻的音調 値而實施.絕對音調量化。於一實例中,5位元絕對音調量 化被實施,如上述。於無線網路實施例中,於步驟956中 ,無線裝置106基於聲頻402的音調値而實施絕對音調量 化。於步驟95 8中,用戶106設定一音調碼字給產生用於 實施在步驟9 5 6的絕對音調量化之音調値。於一實例中, 用戶106設定一 5位元音調碼字給產生用於實施在步驟 956的絕對音調量化之音調値。 於圖9C的步驟960 (C)中,控制直接前進至步驟 962。於步驟962中,決定一適當參考框已被找到用來差 量化目前的框〜〇〃 。於步驟966中,用戶106參考被識 別的參考框來實施差音調量化。於一實例中,5位元差音 調量化被實施,如上所述。於步驟968中,用戶]06設定 —音調碼字給產生用於實施在步驟966的差音調量化之音 調値。於一實例中,用戶I 〇6設定一5位元音調碼字給產 -28- (25) 1333640 生用於實施在步驟9 66的差音調量/ 於步驟970中,控制直接流回 。於步驟915(E)中,控制直接前 914中,音調量化過程前進至下一 步驟903。 C .習知技術的探討 於混合激勵線性預測(MELP ) ),在無語音與無聲語音框間沒有H 起,且由零音調週期値所表示。當董 即,.當一框爲發聲類別等級(例如, 加的4位元被使用來量化等級資訊。 不同頻帶的語音頻譜。音調値係使用 因此,沒有位元儲存於MELP,諸如 於LPC— 10 (另一種電信標準) 示發聲類別等級框及音調。有60音 使用來表示以下:1)兩半框爲無聲 語音等級及非發聲等級),2 )僅第 級(亦即,混聲等級及全聲等級), 發聲類別等級。因此,LPC — ] 0僅區 無發聲類別等級之間。LPC - 10不會 (亦即’非語音及無發聲等級間), 級(亦即,混聲及全聲等級間)。本 級下的非語音及無聲等級以及在發聲 之音調値。 9A的步驟9] 5 ( E ) i至步驟9]4。於步驟 ,且’控制直接流回 標準(一種電信標準 ^別。兩等級係結合一 P調週期大於零時,亦 混聲或全聲)時,附 此4位元識別發聲於 丨7位元而絕對量化。 本發明中所述。 ’ 7位元被使用來表 調週期位準及3位準 類別等級(亦即,非 二半框爲發聲類別等 或3 )僅第一半框爲 ί別於發聲類別等級及 r區別於發聲類別等級 或,在無發聲類別等 :發明以在無聲類別等 :類別等級下的混聲及 -29- (26) (26)1333640 全聲等級的導入來擴充LPC — 10。 4 -示範性實施 本發明可被實現於圖]的用戶106、或伺服器 102中之硬體、軟體或硬體及軟體的組合。依據本發明的 較佳實施例之系統,如圖5、6、9A、9B及9C,可以集 中方式實現於一個電腦系統’或以不同元件分散於數個相 接電腦系統之分佈方式。任何種類的電腦系統,或適於實 施本文中所述的方法之其它裝置,係適合的。硬體及軟體 的典型組合可以是具有一電腦程式的一般用途電腦系統, 此電腦程式在下載及執行時控制此電腦系統,以使其實施 在此所述的方法。 本發明的實施例亦可被崁入一電腦程式產品中(於用 戶106及108及伺服器102中),此電腦程式產品包含致 使在此所述的方法的實施之所有特徵,且,電腦程式產品 在載入一電腦系統時能夠實施此些方法。如使用於本發明 的電腦程式機構或電腦程式以任何語言、碼或記號來表示 一組指令的任何語意’此組指令預期致使具有資訊處理能 力的系統實施一特別功能,直接或在以下情況的任一或兩 者之後’a)至轉換成另一語言、碼或記號;及b)複製 於不同材料形式。 —電腦系統尤其可包括一個或更多電腦及至少電腦可 讀取媒體,其允許電腦系統自此電腦可讀取媒體而讀取資 料、指令 '訊息或訊息包、及其它電腦可讀取資訊。此電 -30- (27) (27)1333640 腦可讀取媒體可包括非易失性記億體,諸如R 〇M、快閃 記憶體、光碟驅動記憶體、CD - ROM及其它永久儲存。 再者’電腦可讀取媒體可包括例如,易失性儲存。諸如 RAM、緩衝器、快取記憶體 '及網路電路。更者,電腦可 讀取媒體可包含短暫狀態媒體中的電腦可讀取資訊,諸如 網路連結及/或網路介面,包括有線網路或無線網路,其 允許電瑙系統圖取此種電腦可讀取資訊。 圖10係使用來實施本發明的較佳實施例之資訊處理 系統的方塊圖。圖1 0的電腦系統係用戶1 〇 6及1 〇 8與伺 服器1 0 2的更詳細代表作。圖丨〇的電腦系統包括—或更 多個處理器,諸如處理器1 004。處理器1〇〇4係連接至通 信下部結構1 002 (例如,通信匯流排 '交叉桿或網路) 。各種軟體實施例係以示範性電腦系統的角度來說明。在 讀取此些說明之後’對於熟習此項技藝者而言,如何使用 其它電腦系統及/或電腦架構來實施本發明將是顯而易見 的。 電腦系統可包括顯示介面1 0 0 8,其自通信下部結構 1002 (或自框緩衝器(未顯示))而送出圖形、文字及其 它資料’用於顯示單元1010上的顯示。電腦系統亦包括 主記億體】〇〇6較佳爲隨機接達記億體(RAM),且亦可 包括次記億體1 0】2。次記億體1 0 1 2可包括例如,硬碟驅 動器1014及/或可拆除儲存驅動器1016,其代表軟碟驅 動器、磁帶驅動器、光碟驅動器等。可拆除儲存驅動器 1 0〗6以熟習此項技藝者而言之方式讀取自及/或寫入至 -31 - (28) 1333640 可拆除儲存單元]0 1 8。可拆除儲存單元】〇 ] 8 磁帶、光碟等,其係藉由可拆除儲存驅動器 及寫入。如將領會的,可拆除儲存單元1018 可使用儲存媒體,其中已儲存電腦軟體及/或 於替代實施例中,次記億體1 〇 ] 2可包括 構,用來容許電腦程式或其它指令載入電腦系 構可包括例如,可拆除儲存單元1 022及介面 實例可包括程式卡匣及卡匣介面(諸如聲頻遊 發現的)、可拆除記憶體晶片(諸如EPROM 及相關插座,以及其它可拆除儲存單元1022 ,其允許軟體及資料自可拆除儲存單元]022 系統。 電腦系統亦可包括通信介面1 〇 2 4。通信/ 許軟體及資料轉移在電腦系統及外接裝置之間 1 0 24的實例可包括數據機、網路介面(諸如 絡卡)'通信埠、PCMCIA槽及卡等。經由通 所轉移的軟體及資料係以信號的形式,其可以 夠藉由通信介面1024所收到的電子、電磁、 信號。此些信號是經由通信路徑(亦即,頻i 提供至通信介面1024。此頻道1 026載送信號 電線或電纜、光纖、電話線、行動電話連結、 /或其它通信頻道而實施。 於此文件中,用辭"電腦程式媒體〃、、 媒體〃、。機器可讀取媒體〃及a電腦可讀取 代表軟碟、 ]〇】6而讀取 包括一電腦 資料。 ί其它相似機 :統。此種機 1 020。此種 ;戲裝置中所 或 PROM) 及介面1 02 0 轉移至電腦 卜面 1 024允 。通信介面 Ethernet 網 信介面1 024 是例如,能 光學或其它 菖)1 0 2 6而 ,且可使用 RF連結及 電腦可使用 媒體"係使 -32- (29) (29)1333640 用來大致參照諸如主記憶體]〇 〇 6及次記憶體]〇 1 2、可拆 除儲存驅動器]〇16、安裝於硬碟驅動器1〇]4的硬碟及信 號的媒體。此些電腦程式產品係用來提供軟體至電腦系統 的機構。電腦可讀取媒體容許電腦系統自電腦可讀取媒體 而讀取資料、指令、訊息或訊息包及其它電腦可讀取資訊 。電腦可讀取媒體例如,可包括非易失性,諸如軟碟、 ROM、快閃記憶體、光碟記憶體、cd - ROM及其它永久 f諸存。例如’傳輸諸如資料及電腦指令的資訊在電腦系統 間係有用的。更者,電腦可讀取媒體可包含諸如網路連結 及/或網路介面的短暫狀態媒體中之電腦可讀取資訊,包 括有線網路或無線網路,其允許電腦讀取此種電腦可讀取 資訊。 電腦程式(亦稱爲電腦控制邏輯)被儲存於主記億體 1 0 06及/或次記憶體1 〇〗2。電腦程式亦可經由通信介面 1 〇 2 4而接收。此種電腦程式在執行時致使電腦系統實施 如本文中所述的本發明的特徵。尤其,電腦程式在執形時 致使處理器1004實施電腦系統的特徵。因此,此種電腦 程式代表電腦系統的控制。 5.討論 雖然本發明的特定實施例已被討論,熟習此項技藝者 而言’將領會到,可對此些特定實施例作改變,而不超過 本發明的精神及範圍。本發明的範圍其不限制於此些特定 實施例。更者’可預期到’本案申請專利範圍函蓋本發明 -33- (30) (30)1333640 的範圍內之任何及所有此種應用、修改及實施例。 【圖式簡單說明】 圖1係解說依據本發明的較佳實施例的分佈語音辨識 的網路之方塊圖。 圖2係依據本發明的較佳實施例之分佈語音辨識的無 線通信系統的詳細方塊圖。 圖3係解說依據本發明的較佳實施例之無線通信系統 的無線裝置之方塊圖。 圖4係解說無線裝置與無線服務提供者的資料交換之 方塊圖。 圖5係顯示依據本發明的較佳實施例的整個分佈語音 辨識過程之操作流程圖。 圖6係顯示依據本發明的較佳實施例的等級及音調量 化處理之操作流程圖。 圖7係解說用於等級及音調量化處理的習知位元配置 之方塊圖。 _ 圖8係解說用於依據本發明的較佳實施例的等級及音 調量化處理的位元配置之方塊圖。 圖9A、9B及9C係顯示依據本發明的較佳實施例的 另~音調量化處理之操作流程圖。 圖10係使用來實施本發明的較佳實施例之資訊處理 系統的方塊圖。 -34 - (31)1333640 主要元件對照表 CDMA 碼 分 割 多 路 接 達 DRAM 動 態 隨 機 接 達 記 憶 體 D SR 分 佈 語 辨 識 FDMA 頻 率 分 割 多 路 接 達 GPRS 通 用 訊 包 y»w 線 電 服 務 GSM 全 球 行 動 通 信 系 統 LAN 局 域 網 路 MELP 混 合 激 勵 線 性 預 測 PSTN 公 共 服 務 電 話 網 路 RAM 隨 機 接 達 記 憶 體 RAM 隨 機 接 達 記 憶 體 RSQI 接 收 的 信 號 品 質 指 — □□ TIN TDM A 時 間 分 割 多 路 接 達 WAN 廣 域 網 路 WSP M. 線 服 務 提 供 者 102 4fff 線 服 務 提 供 者 1 04 網 路 106 用 戶 20 1 控 制 器 202 ' 203 及 204 基 地 台 206 電 話 介 面 3 02 控 制 □□ 益 3 04 接 收 □ 〇 茄
-35 - (32) 類比對數位轉換器 RSQI電路 記憶體3 1 0 定時器模組 傳輸器 傳輸/接收開關 天線 控制器 聲頻 傳聲器 訊包 音調量化 等級量化 音調量化 等級量化 通信下部結構 處理器 主記憶體 顯示介面 顯示單元 次記憶體 硬碟驅動器 可拆除儲存驅動器 可拆除儲存單元 -36- (33)1333640 1020 介面 1022 可拆除儲存單元 1024 通信介面 1026 通信路徑
-37-

Claims (1)

1333640 ______ 的年y月斗s修正替換頁 拾、申請專利範圍 附件4Α :第93丨02 83 8號專利申請案 中文申請專利範圍替換本 民國99年2月4曰修正 1. 一種在資訊處理系統上量化聲頻的音調資訊之方 法,包含: 捕獲代表一編號框的數個編號框之聲頻; 計算該框的等級’其中等級係發聲等級及無聲等級的 任何一者: 如果該框係發聲等級,計算該框的音調; 如果該框係偶數框及發聲等級,藉由絕對量化該框的 音調來計算第一長度的碼字; 如果該框係偶數框及無聲等級,計算表示無聲等級的 框之第一長度的碼字: 如果該框係奇數框及發聲等級以及在該框正前面的三 個框的至少一者係可靠的,參考最接近的前一可靠框的量 化音調’藉由差量化該框的音調來計算第二長度的碼字, 其·中該第一長度大於該第二長度; 如果該框係奇數框及發聲寺級以及該框正前面的三個 框的每一者係不可靠的,藉由絕對量化該框的音調來計算 第一長度的碼字;及 如果該框係奇數框及無聲等級,計算表示無聲等級的 框之第二長度的碼字。 2.如申請專利範圍第1項之方法,其中如果偶數框 1333640 ____ 科日修正替換頁 爲發聲等級,該偶數框係可靠的。 3.如申請專利範圍第2項之方法,其中如果奇數框 爲發聲等級以及該框的音調係參考正前面框的音調而絕對 或差量化該奇數框係可靠的。 4 ·如申請專利範圍第1項之方法,其中資訊處理系 統係用戶電腦及諸如行動電話的無線裝置的任何一者。 5 .如申請專利範圍第4項之方法,其中該聲頻屬於 語音。 6. 如申請專利範圍第5項之方法,其中一框包括2 0 至30毫秒的聲頻,且,連續的框可相互重疊達10至15 毫秒。 7. 如申請專利範圍第1項之方法,另包含: 傳輸被計算的碼字至一伺服器。 8 · —種用來量化聲頻的音調資訊之資訊處理系統, 包含= 一傳聲器,用來捕獲代表一編號框的數個編號框之聲 頻;及 至少一處理器,用於: 計算該框的等級,其中等級係發聲等級及無聲等級的 任何一者; 如果該框係發聲等級,計算該框的音調; 如果該框係偶數框及發聲等級,藉由絕對量化該框的 音調來計算第一長度的碼字; 如果該框係偶數框及無聲等級,計算表示無聲等級的 -2- 1333640 斗日修正替換頁 框之第一長度的碼字; 如果該框係奇數框及發聲等級以及在該框正前面的三 個框的至少一者係可靠的’參考最接近的前一可靠框的量 化音調,藉由差量化該框的音調來計算第二長度的碼字, 其中該第一長度大於該第二長度; 如果該框係奇數框及發聲等級以及該框正前面的三個 框的每一者係不可靠的’藉由絕對量化該框的音調來計算 第二長度的碼字;及 如果該框係奇數框及無聲等級,計算表示無聲等級的 框之第二長度的碼字。 9 ·如申請專利範圍第8項之資訊處理系統,其中如 果偶數框爲發聲等級,該偶數框係可靠的。 10·如申請專利範圍第9項之資訊處理系統,其中如 果奇數框爲發聲等級以及該框的音調係參考正前面框的音 調而絕對或差量化該奇數框係可靠的。 1 1 ·如申請專利範圍第8項之資訊處理系統,其中資 訊處理系統係用戶電腦及諸如行動電話的無線裝置的任何 一者。 12.如申請專利範圍第1 1項之資訊處理系統’其中 該聲頻屬於語音。 1 3 ·如申請專利範圔第1 2項之資訊處理系統,其中 一框包括20至30毫秒的聲頻’且’連續的框可相互重疊 達1 0至1 5毫秒。 14.如申請專利範圍第8項之資訊處理系統,另包含 -3- 1333640 月4日修正替換頁 • 一傳輸器,用來傳輸被計算的碼字至一伺服器。 15. —種在資訊處理系統上量化聲頻的音調資訊之方 法,包含: 捕獲代表一編號框的數個編號框之聲頻; • 計算該框的等級,其中等級係發聲等級及無聲等級的 • 任何一者; 如果該框係發聲等級,計算該框的音調; 如果該框係發聲等級,且該框號η係一預設値(N > 〇)的倍數’藉由絕對量化該框的音調來計算第一長度的 碼子, 如果該框係無聲等級且該框號η係Ν的倍數,計算 表示無聲等級的框之第一長度的碼字; 如果該框係無聲等級且該框號η不是Ν的倍數,計 算表示無聲等級的框之第二長度的碼字,其中該第一長度 大於該第二長度; 如果該框係發聲等級且該框號η不是Ν的倍數,以 及該框的音調可參考前一發聲框的量化音調而予以差量化 ’使得該框的總相關長度不大於由該框號η的預設函數D (η)給定之値,藉由參考前一發聲框的量化音調而予以 量化不同框的音調來計算第二長度的碼字,其中 其音調被絕對量化的框的總相關長度爲〇,及 其音調被差量化的框的總相關長度爲,參考框的總相 關長度及框與參考框間的框計算數中所量測的距離之總和 -4- 1333640 作日修正替換頁 :及 如果該框係發聲等級且該框號n不是N的倍數,以 及該框的音調不能參考前一發聲框的量化音調而予以差量 化,使得該框的總相關長度不大於由該框號n的預設函數 D (η)給定之値’藉由絕對量化該框的音調來計算第二 長度的碼字。 1 6.如申請專利範圍第1 5項之方法,其中差量化該 框的音調係使用最接近前一框作爲參考框而實施,使得該 框的總相關長度不大於由該框號η的預設函數D(n)給 定之値。 17. 如申請專利範圍第15項之方法’其中D(n)= kN+n模數Ν’其中k爲一預設非負數。 18. 如申請專利範圍第1 7項之方法,N = 2且k = 1。
TW093102838A 2003-02-07 2004-02-06 Method and information processing system for quantizing pitch information of audio TWI333640B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/360,581 US6915256B2 (en) 2003-02-07 2003-02-07 Pitch quantization for distributed speech recognition

Publications (2)

Publication Number Publication Date
TW200506814A TW200506814A (en) 2005-02-16
TWI333640B true TWI333640B (en) 2010-11-21

Family

ID=32867946

Family Applications (1)

Application Number Title Priority Date Filing Date
TW093102838A TWI333640B (en) 2003-02-07 2004-02-06 Method and information processing system for quantizing pitch information of audio

Country Status (9)

Country Link
US (1) US6915256B2 (zh)
EP (1) EP1595244B1 (zh)
KR (1) KR100641673B1 (zh)
CN (1) CN1748244B (zh)
BR (1) BRPI0406956B1 (zh)
ES (1) ES2395717T3 (zh)
RU (1) RU2331932C2 (zh)
TW (1) TWI333640B (zh)
WO (1) WO2004072949A2 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961696B2 (en) * 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
TWI299133B (en) 2006-01-23 2008-07-21 Realtek Semiconductor Corp Webcasting system and audio regulating methods therefor
KR101317269B1 (ko) 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
FI3751564T3 (fi) * 2010-07-20 2023-01-31 Audiokooderi, audiokoodausmenetelmä ja tietokoneohjelma
US8645128B1 (en) 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
US6199037B1 (en) * 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder

Also Published As

Publication number Publication date
RU2005127863A (ru) 2006-01-27
WO2004072949A3 (en) 2004-12-09
WO2004072949A2 (en) 2004-08-26
KR20050097929A (ko) 2005-10-10
BRPI0406956A (pt) 2006-01-03
ES2395717T3 (es) 2013-02-14
TW200506814A (en) 2005-02-16
EP1595244A4 (en) 2006-03-08
CN1748244A (zh) 2006-03-15
CN1748244B (zh) 2010-09-29
EP1595244B1 (en) 2012-11-14
US20040172243A1 (en) 2004-09-02
EP1595244A2 (en) 2005-11-16
RU2331932C2 (ru) 2008-08-20
US6915256B2 (en) 2005-07-05
KR100641673B1 (ko) 2006-11-10
BRPI0406956B1 (pt) 2018-02-27

Similar Documents

Publication Publication Date Title
US7062434B2 (en) Compressed domain voice activity detector
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
TWI333640B (en) Method and information processing system for quantizing pitch information of audio
US20030195745A1 (en) LPC-to-MELP transcoder
EP2127088B1 (en) Audio quantization
JP3464371B2 (ja) 不連続伝送中に快適雑音を発生させる改善された方法
KR100763325B1 (ko) 분산 음성 인식을 위한 클래스 양자화
JP2002536693A (ja) 可変率音声符号化に基づいた音声合成装置
JP2006039559A (ja) 移動通信端末機のplpを利用した音声コーディング装置及び方法

Legal Events

Date Code Title Description
MK4A Expiration of patent term of an invention patent