TW403892B

TW403892B - A method for enhancing 3-D localization of speech

Info

Publication number: TW403892B
Application number: TW087104113A
Authority: TW
Inventors: Mark Leavy
Original assignee: Intel Corp
Priority date: 1997-03-26
Filing date: 1998-03-19
Publication date: 2000-09-01
Also published as: DE69818238D1; DE69818238T2; CN1119799C; US5864790A; AU5734498A; EP0970464A4; ATE250271T1; EP0970464A1; KR100310283B1; KR20010005660A; CN1251195A; WO1998043239A1; EP0970464B1; HK1025176A1

Description

—__五、發明説明（1 ) A7 B7 經濟部中央標準局員工消費合作社印製 .發明背景 - !· 發明領域本發明係關於語言處理。更明.祕处里更明確地虱，是關於一種增強叩5二維（3-D)定乓之方法與裝置。正常人類的語言包含寬廣範園的頻率成分至數千赫⑽Z)之間變化。例二= ^基本上具有低頻，但是譜波則具有非常寬廣的音階。 '由於人㈣語言具有寬廣範園頻率之發現，所以某人在和另人説居時，可以將其語言換句話説，通常可以將與特定個人之語言加以定位。 . 爲了決定語言之或可明瞭性或訊息，聽高頻率的語言。因此，許多通訊系統，例如，大；：更話、影像電話與電話系統使用壓縮演算法-广而放棄在語中發現的高頻資訊。所以，大約在4千赫的多數高頻内被捨棄捧。當語言不需定位時，此種解答是足夠的。疋，如果疋而要或一定要作語言定位（例如，虚擬實境）應用時，成Λ 了失去語言中的高頻成分是不利的。這是叫爲聽者的語言定位是需要更高頻的、語言中的高頻成分幫助聽者智慧地感測到聲音之所在地。舉例來説，幫助聽者決定聲音在聽者的上方或下方；或是在左方或右方；或是在聽者的前方或後方。因此’所需的乃是一種將通訊系中所傳送的捨棄高頻成分的語言加以轉換的方法。此種法將允許聽者將所經過轉換的語言加以定位而且不失其· 電言容但的因統' 方明 • - II 1 I—-I . —.―.-------裝 _. I (請先閲讀背面之注意事項再填^本頁) 線 4 本紙張尺度適用中國國家標準（CNS.).A4規格（210Χ297公釐） , 經濟部中央標準局黃工消費合作社印製 403892 五、發明説明（2 ) · — 瞭性。 _ 發明之概述本發明揭露一種由電腦來完成的增強語言三維（3-D )定位之方法。先接收0—預定速率取樣之語言訊號，接著；決定該語言訊號之最大頻率；加大取樣速率，一低階、寬波帶之雜訊加入該語言訊號以產生具有更高頻成分的新語言訊號。 ' _ 圖式簡述 •本發明藉由舉例…的方式，但不限於附圖中的圖例來解釋，其中相同代號代表類似元圖1解釋一種可以完成本發明的典型電腦系統。圖2爲解釋本發明具體實施例的流程圖。圖3解釋一種可以用於本發明的一種硬體具體實施例。一發明之詳細説兩 … 描述一種增強語言三維定位之方法與裝置。在以下的描述中’許多特定的細節將會公開以徹底了解本發明。然而，很顯然地；對於已熟知此項技藝之人士來説，可以不用這些特定的細節而加以演練本發明。在其他的例子中，著名的架構與設備將以方塊圖的形式來表示以避免對本發明有不必要.的不了解。本發明藉著提供語言高頻成分以增強語言之三維定位。此方式是必須的，因爲，語言的高頻成分（例如，高於4 千赫）在傳送時經常因爲壓縮演算法而移去。結果，就失去了可以用於空間定位線索之語言的高頻成分。因此，，聽 _5_ 尺度適用中關家標準（CNS ) A4規格（210/ 297公楚7~ '~~~-_ ^ 抑衣訂線 -« ^ (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 ^°^892 at ~~_______________B7 _ 五、發明説明(3 ) ' ~ — ~ ~~ 者所得到的經過壓縮與定位的語言就不能準確地感測到語巨來源之位置。所以，本發明就藉由在加大語言取樣速率疋後與執行定位之前，將高頻、寬波帶雜訊加入到壓縮的语f中以改正此問題。請參考圖1，此爲一種典型的電腦系統，藉此本發明的 —具體實施例可如圖中之1〇〇來完成。該電腦系統1〇〇包含一匯流排或莫它通訊裝置1〇1以傳達資訊，處理機1〇2 與匯流排101連結以處理資訊。電腦系統1〇〇更包含隨機接達1己憶（RAM)或其它動態儲存裝置104 (如圖1中之主記憶），並連結到該匯-流排存.氛息及將由該處理機 1〇2執行之指令。主記憶亦可以儲存暫態之變數値或其它在處理機102執行指令時之中間訊息。電腦系統100亦包含僅讀記憶（ROM )與/或其它連結到該匯排101之靜態儲存裝置〗06以儲存處理’機〗〇2 所需之靜態t·訊與指令。連結到該匯流排1〇1之資料儲存裝置1〇7 儲存訊息與指令。該資料儲存裝置1〇7，例如爲磁碟或光碟，與其相當的磁碟機可以連結到電腦系統1〇〇。網路介面103連結到該匯流排101。操作網路介面1〇3以連結電腦系統100至網路上的電腦系統（沒在圖中表示）。電腦系統100亦可利用匯流排1.01與顯示裝置121連結。該顯示裝置121，例如是陰極射線管（CRT)，以顯示資訊给電腦使用者。一字符數字輸入裝置122，包含其它字符數字鍵，連結到該匯流排101以傳達資訊與下答指令至該處理機102。另一種使用者輸入裝置爲游標控制123，·例 -6- 本紙張尺度適用中國國家標準（CNS ) A4規格（210X 297公釐) --： (請先閲讀背面之注意事項再填寫本頁) -裝 -δ 線 4〇S892 ----—、發明説明（4 A7 B? 經濟部中央標準局員工消費合作社印製與下或是游標方向键以傳達方向資訊上之㈣==，1G2 ,並控制游標錢示裝置⑵ (如X)與第二接置具有2自由度與存取，第-接達位置β 4(>Y)，使得該裝[可以在平面上標示器其它輸入裝置，如尖筆或筆可以用於與顯示來二^腦:幕上顯示的物件可以用該尖筆或筆觸摸. .選柽。與系電躅猎由完成一觸摸感測式螢幕來感應到牛例來説，—系統亦可缺少該鍵盤122且所有的介面可藉由該尖筆當作是寫作儀似筆），而所寫的字元 :以利用感光字元辨識技術加以解釋。另夕卜，壓縮過的語舌訊號亦可經由通訊通道如網際網路或區域網路的連接而到達該電腦。圖2解释本發明的一·個具體實施例-。在步一驟2〇〇中，從通訊網路接收到數位語言訊號。例如，可能的數位語言訊號爲大哥大電話、影像電話或影像電話會議。在這些系統中’在該語s中，所發現的高頻成分（如大於4千赫）.經常捨棄掉β這是因爲在該語言中的高頻成分對於語言的了解性疋不為要的。.尤有甚者，該語言中的高頻成分在亦被語言的壓縮演算法給捨棄掉。在步驟202中，分析'所接收到的語言高頻成分。在步躁 204中’由所接收到的語言訊號之取樣速率依據尼克斯特 (Nyquist)法則計算該數位訊號的最大頻率。換句話説，該取樣速率被侃設成該傳送訊號最大頻率的兩倍。例如”， (靖先聞讀背面之注意事項再填寫本頁} -裝· -訂 .1 11 · -1 . 二·· 1-· 本紙張尺度適用中國國家標準（CNS ) Λ4規格（210X297公釐） Α7 B? 03892 五、發明説明（5 ) - 假設該數位語言訊號的取樣速率是8千赫（KHz )，則最大頻率爲8千赫的一半’也就是4千赫。所以，該傳送訊號的最大頻率爲4000赫。此觀點中’該語言的高頻成分已經被拿掉（如語言的壓縮演具法）且不可以經由空間的線索來提供方向性。更高頻的訊息被加入到該語言中以増強三維定位。此結‘果可以藉由將該語§以_更高.取樣速率再次取樣。步驟208中，將該取樣速率（如8千赫）加大，通常是以初始取樣速率的2 至6倍因子。在一具體實施例中，該取樣速率可以由8千赫提高到1 6千赫至4 8-千赫之肩—具體實施例中，該取樣速率可以由每秒8000次提高到每秒22〇5〇次（約2 2千赫）。取樣速率爲每秒22050次是中距離的標準取樣速率，且類似於調頻無線電的品質。例如，在2 2千赫時，可以不止聽到語言，亦可以聽到儀器的i質與效。所以，取樣速率提高了；但是沒有增加其它的高頻成分。在步驟210中，將寬波帶之高斯雜訊加入至該提高取樣速率的數位語言訊號中。通常，該寬波帶高斯雜訊之頻率焉所提高取樣速率之尼克斯特（Nyquist)頻率。例如，假如該取樣速率提高至22千赫或每秒22050次，則該寬波帶高斯雜訊之頻率爲u〇25赫或是所提高取樣速率的—半。該高斯雜訊具有與該提高的取樣速率不同頻率的優點。該寬波帶高斯雜訊亦具有與該提高的取樣速率成比例頻率的優點。在一具體實施例中，所加入的寬波帶高斯雜訊頻率可以在8千赫至24千赫之間。該寬波帶高斯雜訊的能量”通張尺度準 KNS ) A4規格（21GX297公釐） -- ------i-----批衣------ 訂線 r*--- (請先閲讀背面之注意事項再填寫本頁) , 經濟部中央為準局員工消費合作社印製 408892 Α7 Β7 經濟部中央標準局員工消費合作社印製五、發明説明（6 ) - ~~-- 常只保持在低到不足以干擾該語言的了解性。紝果，所加入的寬波帶高斯雜訊只加了約2〇到3〇分貝，較收的原始數位語言訊號爲低。該寬波帶高斯雜，訊將高頻成分加入到原始數位語古訊號。這對於増強語言之三維定位是很重要的這將經^波态加以介紹。例如，在虛擬實境的經驗中重新產生聽者的語言來源。在二具體實施例中，所形成的寬波帶語言可以傳送到電腦系統的三維語言定位常式中，如步驟2^。另、外，此時亦可以加入與該數位語言訊號相關的位置訊息。相當於此語言訊號·的位置訊更實際的虛擬經驗。例如，假如某人同時與五人進行多點的影像會議，其影像在各螢幕上是可見的，那麼其語言的位置訊息與影像連結起來而顯示在螢幕上。例如，顯示在螢幕上左方的影像正在説話，則語言訊號聽起來就應該展是來-自-榮幕上左方。該语—s訊號不能讓聽者覺得聽起來像是來自螢幕上的右方。本發明的另一應用是在三維虚擬實境螢幕上。例如，某人處在虚擬空間或是三度空間的室内，其中某人與各人的影像見面或説話。假如有一特定人士的三度空間影像可聽到其正在説話，而非只是不動，那麼本發明將使該語言的接收者能夠將此語言訊號與其三度空間影像連結起來。周此’假如一使用者從一群説話者中走到另一群説話者中，該使用者所接收的語言應該随著變化。 -9- (請it·閲讀背面之注意事項再填寫本頁) .裝- 訂線〇

I 一 A7 B7 403892 五、發明説明（7 ) " 圖3解釋本發明的一個磲體具體實施例300。數位語言凱號301由接收機303所接收。該數位語言訊號301是由通訊網路，如大哥大電話所傳送。人類的語言經常是先接收成類比訊號，然後再轉換成數位訊號。該數位語言訊號3 〇1 經常在到達該接收機3〇3.之前被塾縮.或限制波帶。因此，該數位語言訊號301的高頻成分（如大於4千赫）經常被移去。該接收機303亦決定該數位語言訊號的最大頻率。在該 •具體實施例中，該·接收機303依據該數位語言訊號的取樣速率利用尼克斯特（"Nyquist)-法alUJ來.決定其頻率。例如，假如取樣速率是6千赫，那麼依據尼克斯特（NyqUist)法則，其最大頻率是3千赫，也就是取樣速率的一半。然後’轉換器3 0 5將最小的取樣速率加以轉換或提升到另一 _ 加大的取樣速率。在該具體實施例；，該加-大的取樣速率可以是較大於原始取樣速率2到6倍。然後’產生器307產生寬波幣高斯雜訊以増加該數位語言訊號301的高頻成分。這是必須的因爲該語言的高頻成分使传聽者可以較佳地將該數位語言予以定位。換句話説，在二維疋位之後，該語言的高頻成分使得聽者可以決疋該语s在其左方或右方；上方或右下方；前方或右後方。該語言的三維定位增強聽者對於語言的能力。具有加大取樣速率的語言訊號與寬波帶高斯雜訊在相加器3 〇 9中相結合。然後所形成的寬波帶語言訊號在傳送到過濾衍生單兀313之前被儲存在記憶311之中。在該具體實施，例 -10- 本纸張尺度適用中國國家標準（CNS ) A4規格（210X297公您 j ^ J 扣衣 j 訂線 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 403892 _- B7 A7 五、發明説明(8 中，此濾波器可以是有限脈衝響應濾波器（fir)。其具有叮以.使用其t /慮波器的優點.。在先前的技藝中，不具有高頻成分的數位語言訊號301經常是直接傳送到過濾衍生單元313的。結果，邱形成的數位語言經常失去可察覺的三維定位線索。在強烈的對比之下，本發明允許使用者増強的二維定位能力或是語言訊號的感測力。因此，聽者將享受語訊號更.實際的經驗^ 在以上的描述中’許多特定的細節作爲本發明的解釋 '並不是本發明的限制。很顯然地；對於已熟知此項技藝人士來説，可以不甩這些特忠^加以演練本發明。尤有甚者’特定的語言處理設備與演算法並沒有詳細地加以公開以避免對本發明有不必要的不了解。因此，本發的方法與裝置由所附的申請專利範圍加以定義。因此’增強語言三維定位之方法碎加以福述。但之明 (請先閲讀背面之注意事項再填寫本頁) .装.

•1T 經部中 a 標準員工消费合作社印製

(210X297公釐）

Claims

B8 C8 D8 ,經濟部中央標準局員工消費合作社印製六、申請專利範圍 . ' Λ —種利用電腦完成增強語言三維定位之方法，包含：接收以預定速率作取樣的語言訊號；決定該語言訊號的最大頻率；加大該語言訊I虎的取樣速率；與在該語言訊號加入低階、寬波帶雜訊以產生具有高頻成分的新語言訊號。， 2. 如申請專利範-圍第1項之方法，更包含：傳送該新語言訊號的步驟。 • -· 3. 如申請專利範圍…第1項之方法，其中所加大的取樣速率至少是最大頻率的兩倍。、-.， 4·如申請專利範圍第3項之方法，其中該取樣速率以2到6 之間的範圍作爲增加的因子。、 5.如申請專利範圍.第丨項之方法，其中該低階、寬波帶雜訊_具有爲加大的取樣速率一半的頻率。K . 6·如申請專利範圍第1項之方法，其中該低階、寬波帶雜訊大約較該語言訊號低20至3〇分貝。、 7. 如申請專利範圍第i項之方法，其中該低階、寬波帶雜訊具有大約8千赫至2 4千赫之間的頻率。' 8. —種電腦可讀媒介，儲存一串指令，此串指令由一處理機執行，使得該處理機執行下列步碟：接收數位語言訊號；決定發生在該數位語言訊號的最大頻率；決定該數位語言訊號的取樣速率；加大該數位語.言.訊號的取樣速率以成爲加八取樣速 -12- 本紙張尺度適用中國國家標準（〇呢）八4^#(210父297公釐） (請先閎讀背面之注意事項再填寫本頁) -裝、βτ 線 A8 B8 C8 D8 403892 六、申請專利範圍率將寬波帶高斯雜訊加入該數位語言訊號以產生具有高頻的寬波帶數位語言訊、號；並傳送該寬波帶敦位語言訊,號。' 9. 如申請專利範圍第8項之電腦可讀媒介，更包含：提供該寬波帶數位語言訊號位置訊息的步驟。、 10. 如申請專利範圍第8項之電腦可讀媒介，其中最大頻率 $約是4千赫（KHz)。、 -Π.如申請專利範圍第1 〇項之電腦可讀媒介，其中該加大的取樣速率大約是在16與乏問％ 12.如申請專利範園第8項之電腦可讀媒介，其中該寬波帶高斯雜訊的頻率與該加大的取樣速率成正比。、 11如申請專利範圍第8項之電腦可讀媒介，其中該寬波帶商斯雜訊的頻率大約是在8與2 4千赫之簡'、 Η.如申請專利範圍第8項之電腦可讀媒介，其中該寬波帶南斯雜訊大約較該數位語言訊號低2〇至3〇分貝。、 15. —種增強語言三維定位之可程式化裝置，包含：、接收語.言訊號的接收機；與接收機連結以加大該語言訊號的取樣速率以成爲加大的取樣速率的轉換器；、產生寬波帶雜訊的產生器；連結到轉換機與產生機以將寬波帶雜訊結合至具有加大的取樣速率的語言訊號並產生寬波帶語言訊號的加益；與、 ' -13- 本紙張尺彦用中囷固定垣痕r ΓΝίς、目故，处 — I J J ； — 裝 ^ 訂' II I I 線 (請先閔讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合t社印製 i ? r f I 8 3ο 4, 8 8 8-A1BCD 六、申請專利範圍連結到加器以儲#該寬波帶語言訊號时記憶。、 16,如申請專利範園第15項之電腦可程式化裝置，更包含：' 連結到記憶以將該寬波帶語言訊號加以定位的濾波器。' . 17_如申請專利範園第15項之電腦可程式化裝置，其中該語言訊號爲數-位化且具有大約爲4千赫的頻率q 18. 如申請專利範園第15項之電腦可程式化裝置，其中該語s.訊號具有低泰4千赫的頻率。 19. 如申請專利範圍第〗5項之雇式化裝置，其中該轉換機決定該語言訊號的最大頻率，然後並將該語言訊號的取樣速率以最大頻率2至6倍的因子加以加大。、 2〇_如申請專利範圍第1 9項之電腦可程式化裝置，其中寬波帶雜訊具有大約爲該加大的取袅速率二-半的波寬。 21·如申請專利範圍第1 5項之電腦可程式化裝置，其中寬波帶雜訊大約較該語言訊號低2 〇至3 〇分貝。、 22.如申請專利範圍第2 1項之電腦可程式化裝置，其中寬波帶雜訊的頻率與加大的取樣速率的頻率不同。 (請先閱讀背面之注意事項再填寫本頁) -裝- 線- 經濟部中央標準局員工消費合作社印製 14- 本紙張尺度適财關家標準（CNS ) ( 21QX297公董）