TWI763208B

TWI763208B - 聲音訊號處理方法及電子裝置

Info

Publication number: TWI763208B
Application number: TW109146189A
Authority: TW
Inventors: 杜博仁; 張嘉仁; 曾凱盟
Original assignee: 宏碁股份有限公司
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-05-01
Also published as: TW202226224A

Abstract

本發明提供一種聲音訊號處理方法及電子裝置。所述方法包括：偵測電子裝置的揚聲器與電子裝置的聲音反射元件之間的第一相對位置；偵測臉部與揚聲器之間的第二相對位置；基於第一相對位置及第二相對位置從多個預設聲音處理模型中選擇特定聲音處理模型；取得待處理聲音訊號，並使用特定聲音處理模型將待處理聲音訊號轉換為輸出聲音訊號；以及使用揚聲器播放輸出聲音訊號。

Description

聲音訊號處理方法及電子裝置

本發明是有關於一種訊號處理方法及電子裝置，且特別是有關於一種聲音訊號處理方法及電子裝置。

一般而言，行動裝置的揚聲器所提供的立體音效常因揚聲器距離太近、螢幕角度造成的反射等原因而使得使用者無法聆聽到理想的音效。相較之下，貼近於使用者耳朵的耳機所提供的立體音效則能帶給使用者較完整的立體音效感受。

有鑑於此，本發明提供一種聲音訊號處理方法及電子裝置，其可用於解決上述技術問題。

本發明提供一種聲音訊號處理方法，適於一電子裝置。所述方法包括：偵測電子裝置的一揚聲器與電子裝置的一聲音反射元件之間的一第一相對位置；偵測一頭部與揚聲器之間的一第二相對位置；基於第一相對位置及第二相對位置從多個預設聲音處理模型中選擇一特定聲音處理模型；取得一待處理聲音訊號，並使用特定聲音處理模型將待處理聲音訊號轉換為一輸出聲音訊號；以及使用揚聲器播放輸出聲音訊號。

本發明提供一種電子裝置，其包括聲音反射元件、揚聲器及處理器。處理器耦接於揚聲器及聲音反射元件，並經配置以執行下列步驟：偵測電子裝置的揚聲器與電子裝置的六聲音反射元件之間的一第一相對位置；偵測一頭部與揚聲器之間的一第二相對位置；基於第一相對位置及第二相對位置從多個預設聲音處理模型中選擇一特定聲音處理模型；取得一待處理聲音訊號，並使用特定聲音處理模型將待處理聲音訊號轉換為一輸出聲音訊號；以及使用揚聲器播放輸出聲音訊號。

請參照圖1，其是依據本發明之一實施例繪示的電子裝置示意圖。在不同的實施例中，電子裝置100例如是各式可發出聲音的裝置，例如各式智慧型裝置、電腦裝置等，但不限於此。

在圖1中，電子裝置100例如是筆記型電腦，而其可包括聲音反射元件101、一或多個揚聲器102、取像元件103及處理器104。

在不同的實施例中，聲音反射元件101例如是電子裝置100上任何可能接收並反射揚聲器102所發出聲音的元件。以圖1為例，由於電子裝置100的螢幕的位置可能接收並反射揚聲器102所發出的聲音，故電子裝置100的螢幕可經定義為聲音反射元件101，但可不限於此。

取像元件103可以是任何具有電荷耦合元件（Charge coupled device，CCD）鏡頭、互補式金氧半電晶體（Complementary metal oxide semiconductor transistors，CMOS）鏡頭的裝置，但可不限於此。

處理器104耦接於聲音反射元件101、揚聲器102及取像元件103，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器（microprocessor）、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）、現場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在本發明的實施例中，處理器104可存取電子裝置100的儲存電路（未繪示）中記錄的模組、程式碼來實現本發明提出的聲音訊號處理方法，其細節詳述如下。

請參照圖2，其是依據本發明之一實施例繪示的聲音訊號處理方法流程圖。本實施例的方法可由圖1的電子裝置100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。

首先，在步驟S210中，處理器104可偵測電子裝置100的揚聲器102與電子裝置100的聲音反射元件101之間的第一相對位置。在圖1情境中，由於聲音反射元件101係假設為電子裝置100的螢幕，且螢幕與揚聲器102在電子裝置100上的位置一般為固定。因此，若能取得所述螢幕的翻轉角度，則可相應推得揚聲器102與聲音反射元件101之間的第一相對位置。因此，在圖1中，處理器104可取得電子裝置100的螢幕的翻轉角度來表徵揚聲器102與聲音反射元件101之間的第一相對位置，但可不限於此。在不同的實施例中，處理器104例如可基於重力感測器等元件來得知螢幕的翻轉角度，但可不限於此。

在步驟S220中，處理器104可偵測頭部199與揚聲器102之間的第二相對位置。在圖1中，頭部199例如是電子裝置100的使用者的頭部，而其臉部可面對電子裝置199，但可不限於此。

在一實施例中，處理器104例如可透過外接於電子裝置100的其他取像元件來擷取包括頭部199及揚聲器102的一第一特定影像，並可對此第一特定影像進行影像辨識而取得頭部199與揚聲器102之間的第二相對位置。

在另一實施例中，處理器104可透過設置於電子裝置100上的取像元件103來擷取包括頭部199的第二特定影像。之後，處理器104例如可對此第二特定影像進行臉部辨識而取得頭部199與揚聲器102之間的第二相對位置。具體而言，由於取像元件103及揚聲器102在電子裝置100上的位置為已知，故取像元件103及揚聲器102之間的相對位置可視為已知。在此情況下，處理器104可基於現有的影像辨識技術而得知頭部199與取像元件103之間的相對位置，並基於取像元件103及揚聲器102之間的相對位置估計頭部199與揚聲器102之間的第二相對位置，但可不限於此。

在步驟S230中，處理器104可基於第一相對位置及第二相對位置從多個預設聲音處理模型中選擇特定聲音處理模型。在本發明的實施例中，不同的預設聲音處理模型可對應於不同的第一、第二相對位置的組合，而其對應關係可如下表1所例示。

頭部位置1	頭部位置2	頭部位置3	頭部位置4

表1

在表1情境中，假設第一相對位置可具有4種可能的情況（以頭部位置1至頭部位置4表示），而第二相對位置（表徵為螢幕的翻轉角度）可具有5種可能的角度（例如

、

、

、

及

）。在此情況下，每一種第一、第二相對位置的組合可對應於一個預設聲音處理模型。例如，當第一、第二相對位置分別為頭部位置1及

時，對應的預設聲音處理模型例如是

。另外，當第一、第二相對位置分別為頭部位置2及

時，對應的預設聲音處理模型例如是

。其餘第一、第二相對位置的組合與對應的預設聲音處理模型之間的關係應可依上述教示而推得，於此不另贅述。

在本發明的實施例中，上述預設聲音處理模型個別例如是一神經網路，而其可經由一預訓練程序訓練而得。所述預訓練程序將輔以圖3A及圖3B作進一步說明。

請參照圖3A及圖3B，其是依據本發明之一實施例繪示的對於預設聲音處理模型的預訓練程序的示意圖。在圖3A及圖3B中，假設所考慮的預設聲音處理模型310（其是上述多個預設聲音處理模型的其中一者）係對應於某個第一、第二相對位置的組合，則設計者可依據此第一相對位置來調整聲音反射元件101的擺位（例如螢幕翻轉角度），以讓揚聲器102與聲音反射元件101的相對位置可對應於上述第一相對位置。另外，設置者還可將設置有收音裝置399a的人頭模型399擺放於某個位置，以讓人頭模型399與揚聲器102的相對位置可對應於此第二相對位置。

舉例而言，假設所考慮的預設聲音處理模型310為對應於頭部位置1及

的

，則在進行預設聲音處理模型310的預訓練程序時，設計者需將人頭模型399擺放於對應於頭部位置1的位置，並將電子裝置100的螢幕翻轉角度調整為

。舉另一例而言，假設所考慮的預設聲音處理模型310為對應於頭部位置2及

的

，則在進行預設聲音處理模型310的預訓練程序時，設計者需將人頭模型399擺放於對應於頭部位置2的位置，並將電子裝置100的螢幕翻轉角度調整為

。其餘預設聲音處理模型對應的人頭模型399及螢幕翻轉角度應可依上述教示而推得，於此不另贅述。

在一些實施例中，設計者亦可先將人頭模型399擺放至所需位置，再由處理器104基於臉部辨識等機制來判定人頭模型399與揚聲器102之間的相對位置，但可不限於此。

為便於說明，以下假設圖3A中的人頭模型399的位置係對應於頭部位置1。另外，由於圖3A所示的螢幕翻轉角度約略為

，故圖3A情境對應的預設聲音處理模型310例如是表1中的

，但可不限於此。

在一實施例中，在進行預設聲音處理模型310的預訓練程序時，處理器104可將原始聲音訊號RA（例如是某段音樂、聲響等）輸入至預設聲音處理模型310，以由預設聲音處理模型310將原始聲音訊號RA轉換為第一聲音訊號A1。在一實施例中，預設聲音處理模型310例如可將具固定長度（例如512個取樣點）的原始聲音訊號RA以具對應權重的多層神經元進行調整，進而改變原始聲音訊號RA的頻率響應、相位及時間差，從而形成第一聲音訊號A1，但可不限於此。

之後，處理器104可控制揚聲器102播放第一聲音訊號A1。在第一聲音訊號A1經過傳播之後，可由設置於人頭模型399的耳部的收音裝置399a接收。在一實施例中，由於收音裝置399a具有麥克風等電子元件，故收音裝置399a可在執行對應於前述電子元件的相關補償運算（例如用於補償麥克風效應的運算）之後，將經傳播的第一聲音訊號A1轉換為第二聲音訊號A2，其中第二聲音訊號A2可接近於人耳所聽到的聲音訊號，但可不限於此。之後，收音裝置399a可將第二聲音訊號A2提供予處理器104。

在一實施例中，處理器104還可使用頭部相關傳輸函數（head related transfer function，HRTF）320將原始聲音訊號RA轉換為參考聲音訊號IDA，其中參考聲音訊號IDA可理解為一理想聲音訊號（例如一般的耳機立體聲訊號），但可不限於此。

在處理器104取得第二聲音訊號A2及參考聲音訊號IDA之後，可據以訓練預設聲音處理模型310。舉例而言，處理器104可基於一損失函數相應地更新預設聲音處理模型310中各神經元的權重，但可不限於此。在一實施例中，處理器104例如可在估計第二聲音訊號A2及參考聲音訊號IDA之間的均方誤差之後，以最小化此均方誤差為目標來更新預設聲音處理模型310中各神經元的權重，但可不限於此。

在對預設聲音處理模型310重複執行上述預訓練過程之後，由預設聲音處理模型310所產生的第一聲音訊號A1可相應地讓第二聲音訊號A2逐漸接近參考聲音訊號IDA。在本發明的實施例中，處理器104可基於上述教示而個別訓練對應於不同第一、第二相對位置的預設聲音處理模型，其細節於此不另贅述。

因此，在步驟S230中，假設使用者的頭部199及螢幕的翻轉角度呈現如圖3A所示情況（即，頭部199的位置約略對應於頭部位置1，且螢幕的翻轉角度約為

）時，處理器104可相應地選擇預設聲音處理模型310（即，

）作為所述特定聲音處理模型。在此情況下，由所述特定聲音處理模型所產生的聲音訊號在經揚聲器102播放後，應可讓使用者所聽到的聲音訊號相當接近於理想的聲音訊號。

因此，在步驟S240中，處理器104可取得待處理聲音訊號，並使用特定聲音處理模型將待處理聲音訊號轉換為輸出聲音訊號。接著，在步驟S250中，處理器104可使用揚聲器102播放輸出聲音訊號。在本發明的實施例中，上述待處理聲音訊號例如是使用者於電子裝置100上播放的影片、音樂的原始聲音訊號，但可不限於此。基此，在處理器104將待處理聲音訊號轉換為輸出聲音訊號並以揚聲器102進行播放時，可讓使用者聆聽到接近於理想聲音訊號的聲音品質，從而改善使用者的聆聽體驗。

在其他實施例中，當使用者的頭部199移動及/或螢幕的翻轉角度改變時，處理器104還可據以選擇其他的預設聲音處理模型作為特定聲音處理模型，進而讓使用者持續地聆聽到接近於理想聲音訊號的聲音品質。

綜上所述，本發明實施例的方法可在判定揚聲器與聲音反射元件（例如螢幕）之間的第一相對位置以及使用者的頭部與揚聲器之間的第二相對位置之後，據以從多個預設聲音處理模型中選擇特定聲音處理模型。之後，本發明可使用所選擇的特定聲音處理模型將待處理聲音訊號轉換為可供揚聲器播放的輸出聲音訊號。藉此，可讓使用者聆聽到接近於理想聲音訊號的聲音品質，從而改善使用者的聆聽體驗。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:電子裝置

101:聲音反射元件

102:揚聲器

103:取像元件

104:處理器

199:頭部

310:預設聲音處理模型

320:HRTF

399:人頭模型

399a:收音裝置

A1:第一聲音訊號

A2:第二聲音訊號

RA:原始聲音訊號

IDA:參考聲音訊號

S210~S250:步驟

圖1是依據本發明之一實施例繪示的電子裝置示意圖。圖2是依據本發明之一實施例繪示的聲音訊號處理方法流程圖。圖3A及圖3B是依據本發明之一實施例繪示的對於預設聲音處理模型的預訓練程序的示意圖。

S210~S250:步驟

Claims

一種聲音訊號處理方法，適於一電子裝置，包括：偵測該電子裝置的一揚聲器與該電子裝置的一聲音反射元件之間的一第一相對位置；偵測一頭部與該揚聲器之間的一第二相對位置，包括：透過一取像元件擷取包括該頭部及該揚聲器的一第一特定影像；以及基於該第一特定影像估計該頭部與該揚聲器之間的該第二相對位置；基於該第一相對位置及該第二相對位置從多個預設聲音處理模型中選擇一特定聲音處理模型；取得一待處理聲音訊號，並使用該特定聲音處理模型將該待處理聲音訊號轉換為一輸出聲音訊號；以及使用該揚聲器播放該輸出聲音訊號，其中各該預設聲音處理個別經過一預訓練程序訓練，其中該特定聲音處理模型的該預訓練程序包括：取得一原始聲音訊號，並將該原始聲音訊號轉換為一參考聲音訊號；使用該特定聲音處理模型將該原始聲音訊號轉換為一第一聲音訊號，並以該揚聲器播放該第一聲音訊號，其中該揚聲器與該聲音反射元件的相對位置對應於該第一相對位置；以一收音裝置接收對應於該第一聲音訊號的一第二聲音訊號，其中該收音裝置設置於一人頭模型的耳部，且該人頭模型與該揚聲器之間的相對位置對應於該第二相對位置；以及基於該第二聲音訊號與該參考聲音訊號訓練該特定聲音處理模型。
如請求項1所述的方法，其中該聲音反射元件至少包括該電子裝置的一螢幕，且該第一相對位置表徵為該螢幕的一翻轉角度。
如請求項1所述的方法，其中該取像元件外接於該電子裝置。
如請求項1所述的方法，其中該電子裝置更包括該取像元件。
如請求項1所述的方法，其中將該原始聲音訊號轉換為該參考聲音訊號的步驟包括：使用一頭部相關傳輸函數將該原始聲音訊號轉換為該參考聲音訊號。
一種電子裝置，包括：一聲音反射元件；一揚聲器；以及一處理器，耦接於該揚聲器及該聲音反射元件，並經配置以執行下列步驟：偵測該電子裝置的該揚聲器與該電子裝置的一聲音反射元件之間的一第一相對位置；偵測一頭部與該揚聲器之間的一第二相對位置，包括：透過一取像元件擷取包括該頭部及該揚聲器的一第一特定影像；以及基於該第一特定影像估計該頭部與該揚聲器之間的該第二相對位置；基於該第一相對位置及該第二相對位置從多個預設聲音處理模型中選擇一特定聲音處理模型；取得一待處理聲音訊號，並使用該特定聲音處理模型將該待處理聲音訊號轉換為一輸出聲音訊號；以及使用該揚聲器播放該輸出聲音訊號，其中各該預設聲音處理個別經過一預訓練程序訓練，其中該特定聲音處理模型的該預訓練程序包括：取得一原始聲音訊號，並將該原始聲音訊號轉換為一參考聲音訊號；使用該特定聲音處理模型將該原始聲音訊號轉換為一第一聲音訊號，並以該揚聲器播放該第一聲音訊號，其中該揚聲器與該聲音反射元件的相對位置對應於該第一相對位置；以一收音裝置接收對應於該第一聲音訊號的一第二聲音訊號，其中該收音裝置設置於一人頭模型的耳部，且該人頭模型與該揚聲器之間的相對位置對應於該第二相對位置；以及基於該第二聲音訊號與該參考聲音訊號訓練該特定聲音處理模型。
如請求項6所述的電子裝置，其中該聲音反射元件至少包括該電子裝置的一螢幕，且該第一相對位置表徵為該螢幕的一翻轉角度。
如請求項6所述的電子裝置，其中該取像元件外接於該電子裝置。
如請求項6所述的電子裝置，其中該電子裝置更包括該取像元件。
如請求項6所述的電子裝置，其中該處理器經配置以：使用一頭部相關傳輸函數將該原始聲音訊號轉換為該參考聲音訊號。