TW202147301A

TW202147301A - 用於場景音轉換的方法與裝置及電話系統

Info

Publication number: TW202147301A
Application number: TW110119991A
Authority: TW
Inventors: 曹昱; 王緒翔; 康兆孚; 傅思維; 王新民
Original assignee: 中央研究院
Priority date: 2020-06-12
Filing date: 2021-06-01
Publication date: 2021-12-16
Also published as: US20210390971A1; TWI811692B; US11741984B2

Abstract

一種場景音轉換方法，包含：接收包含使用者的語音和場景音的聲音信號；根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；以及將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號。

Description

用於場景音轉換的方法與裝置及電話系統

本發明係關於信號處理，特別係關於場景音的處理。

行動電話是現代人日常溝通的工具。由於人們會在各式各樣的場所使用行動電話，所以遠端會聽到這些場所的背景音。例如，街頭的喇叭聲，市場裡的叫賣聲、舞廳的音樂聲、戶外的風雨聲等。由於背景因並不悅耳，或者是洩漏了地點的地點，人們並不願意這些場景音傳送到遠端去。

電話銷售人員或是客戶服務人員也想要改善客戶的體驗，不要讓遠端的客戶聽到吵雜的場景音，而是聽到悅耳的背景音樂。此外，由於在家工作的趨勢，使用者更不願意讓同事或客戶聽到家裡的場景音，洩漏了隱私。因此，為了解決上述的問題，需要一種阻斷實際的場景音傳送到遠端去，將其替換為另一個場景音，同時能保留甚至增強語音的裝置與方法。

根據本發明一實施例當中，提供一種場景音轉換方法，包含：接收包含使用者的語音和場景音的聲音信號；根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；以及將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號。

根據本發明的一實施例，提供一種用於場景音轉換的裝置，包含：一麥克風，用於接收包含使用者的語音和場景音的聲音信號；以及一處理器單元，連接至該麥克風，用於執行儲存在非揮發性記憶體當中的多個指令，以便實現下列步驟：根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；以及將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號。

根據本發明的一實施例，提供一種用於場景音轉換的電話系統，包含：一網路；連接到該網路的第一裝置與第二裝置。該第一裝置包含：連接到該網路的一第一網路介面；一麥克風，用於接收包含使用者的語音和場景音的聲音信號；以及一第一處理器單元，連接至該第一網路介面與該麥克風，用於執行儲存在非揮發性記憶體當中的多個指令，以便實現下列步驟：根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號；以及經由該第一網路介面將該轉換場景音的聲音信號透過該網路即時地傳送到該第二裝置。該第二裝置，包含：連接到該網路的一第二網路介面；一揚聲器；以及一第二處理器單元，連接到該第二網路介面與該揚聲器，用於執行儲存在非揮發性記憶體當中的多個指令，以便實現下列步驟：自該第二網路介面接收該轉換場景音的聲音信號；以及令該揚聲器播放該轉換場景音的聲音信號。

本發明所提供的用於場景音轉換的方法、裝置與電話系統，可以阻斷實際的場景音傳送到遠端去，將其替換為另一個場景音，同時能保留甚至增強語音。

110:語音強化與場景音移除模組

120:新場景音混合模組

200:轉換場景音應用程式

210:性別選項

220:場景選項

230:新場景音選項

240:場景音移除按鈕

250:混合場景音按鈕

260:新場景音音量調整條

300:行動電話裝置

300A:第一行動電話裝置

300B:第二行動電話裝置

310:麥克風

320:揚聲器

330:觸控介面

340:顯示器

350:處理器單元

360:記憶體模組

370:存儲模組

380:第一無線網路介面

390:第二無線網路介面

400:電話系統

410:資料網路

420A:第一使用者

420B:第二使用者

500:場景音轉換方法

510~540:步驟

圖1所示，其為根據本發明一實施例的場景音轉換的方塊示意圖。

圖2所示，其為根據本發明一實施例的場景音轉換應用程式的顯示畫面示意圖。

圖3所示，其為根據本發明一實施例的一行動電話裝置的一方塊示意圖。

圖4所示，其為根據本發明一實施例的一電話語音傳輸的一方塊示意圖。

圖5所示，其為根據本發明一實施例的場景音轉換方法的一流程示意圖。

傳統上要進行聲音信號的處理，需要錄音間與許多設備，才能得到高品質的聲音信號。由於行動電話內的計算資源有了大幅度的進步，使得我們不需要錄音間和內部的設備，就能夠利用行動電話的計算資源，達成濾除背景音並且留下語音的功能。還可以將語音混合如音樂之類的背景音，並且可以將混合後的聲音以即時的方式透過電信網路傳遞出去。在此同時，可以不會干擾既有的回音消除(echo cancellation)的功能。

為了達到上述的目的，可以在行動電話當中安裝軟體或應用程式以轉換場景音(acoustic scene conversion)。場景音的轉換可以分為兩個階段。第一個階段是強化語音。藉由即時地消除場景音，以及透過已訓練的人工智慧模型來即時強化語音。第二個階段是混合新的場景音，將已強化的語音與新的場景音進行混合並且傳到遠端。混合階段可以利用行動電話所提供的軟體、硬體或其提供的數位混合器進行數位混音。

由於轉換場景音的效果並沒有標準的量測方式，可以請參與通話的人們來進行評分。對於第一個階段，可以使用既有的工具，例如PESQ、STOI來進行量測。

以下將介紹轉換場景音的運作方式，以及所使用的人工智慧結構。場景音轉換的特徵包含了以下三點：1.可配置的環境(configurable environment)、2.先進的場景音移除技術、以及3.混合新的場景音。

可配置的環境

為了讓場景音轉換的功能更加準確，需要在轉換之前提供某些可配置的訊息。舉例來說，上述的訊息可以包含下列其中之一或其任意組合：說話者的性別、年齡、場景、場景的噪音。使得本發明所提供的機制能夠根據上述的訊息來選擇去噪(denoise)的模式，以便適應不同的環境情況。

由於有不同的環境，只有單一個訓練完成的人工智慧模型可能無法滿足各種場景的需要。因此，在優選的實施例當中，可以包含多個針對不同環境情況訓練的多個人工智慧模型。這些人工智慧模型的訓練過程，可以針對上述的訊息提供對應的多個樣本。舉例而言，可以有針對年長女性在市場的多個樣本，也可以有年輕男性在街頭的多個樣本，分別用於對應到不同的人工智慧模型。

在一實施例當中，本發明所提供的機制能夠讓使用者能夠事先設定好上述的訊息。舉例來說，在啟動場景音轉換的應用程式之後，先讓使用者輸入上述的訊息，再根據使用者所輸入的選項，載入相對應的人工智慧模型。在另一範例當中，上述的訊息可以是事先設定好的。舉例來說，使用者在安裝行動電話的系統時，可以設定自己的出生日與性別。本發明所提供的機制就可以從行動電話的系統中的設定資料，得知使用者的年紀與性別，而不需要使用者每一次都要輸入。

在一實施例當中，上述的訊息可以是動態決定的。舉例來說，可以利用行動電話當中的定位功能，自動判斷行動電話所在的場景。例如行動電話能夠根據衛星定位系統，得知所在的位置是在室外，而且根據移動的速度較快，判斷行動電話處於較為安靜的車上。本發明所提供的機制能夠利用上述自動判斷功能，選用相對應的人工智慧模型。

在另一範例中，本系統所提供的機制可以在進行通話之前，先利用行動電話收集場景音。接著，可以在行動電話本身判斷當前的場景音應當適用於哪些人工智慧模型。也可以將場景音的片段傳送到遠端的場景判斷伺服器，或者將場景音即時傳送到遠端的場景判斷伺服器。根據行動電話本身或遠端伺服器的判斷結果，可以載入對應的人工智慧模型。

換言之，本發明可以利用事先輸入的訊息與動態決定的訊息，來決定所要選用的人工智慧模型。除此之外，本發明可以依賴一個以上的動態決定訊息來選用模型。例如，可以同時利用定位功能所得到的位置與速度資訊，以及未通話前或通話中的背景音判斷結果，來決定所選用的人工智慧模型。在一實施例當中，本發明可以動態地選用人工智慧模型，亦即在場景音轉換的過程當中，使用兩個以上的人工智慧模型。

在一實施例當中，行動電話可以預先內載多個人工智慧模型。在另一實施例當中，行動電話可以動態地下載人工智慧模型。舉例來說，當先前提到的場景音判斷伺服器判斷出場景音的訊息之後，可以直接將相對應的人工智慧模型推送到行動電話，供本發明所提供的機制使用。

先進的場景音移除技術

本發明所提供的場景音移除技術用於行動電話之上，能夠即時地區分出語音和場景音，並且將後者移除。在一實施例中，本發明利用人工智慧模型來即時地移除場景音。該人工智慧模型可以是一種完全卷積神經網路(FCN,fully convolutional neural networks)。由於可以不需要任何預處理，就可以將原始聲音信號作為輸入，因此使用完全卷積神經網路能夠避免原始聲音信號的預處理，從而確保能即時移除場景音。留下來的是語音。

在另一實施例中，本發明可以利用其他的神經網路、深度神經網路或數學迴歸模型來即時地移除場景音。只要可以滿足不需要預先處理原始聲音信號，而且其運算速度能夠滿足即時處理的要求，本發明並不限定一定要使用完全卷積神經網路的人工智慧模型。本領域的普通技術人員可以了解到，本發明所指的人工智慧模型可以是任何一種滿足上述條件的演算法則，包含了神經網路、深度神經網路、或特定的數學演算法則。

在一實施例當中，可以使用一個以上的人工智慧模型，用於分別增強語音和消除場景音。例如，可以先用第一個人工智慧模型來消除場景音，再輸出至第二個人工智慧模型用來增強語音。反過來，在另一實施例當中，也可以先用第二個人工智慧模型來增強語音，再輸出至第一個人工智慧模型來消除場景音。

在一實施例當中，行動電話可以具有多個麥克風或收音模組。靠近嘴邊的第一個麥克風用於接收使用者的語音輸入，第二個遠離嘴邊的麥克風用於接收背景的場景音。這兩個麥克風同時接收的兩個信號之間的差異可以視為使用者的語音信號。再利用第一個麥克風的信號減去語音信號則可以視為場景音。在此實施例當中，為了進一步增強語音與消除場景音，可以利用人工智慧模型、其他的神經網路、深度神經網路或數學迴歸模型對上述兩個信號的差異信號更進一步地移除場景音。

混合新的場景音

由於聲音信號在取樣之後是數位化的形式，可以利用軟體或硬體作為數位混合器，將留下來的語音和新的場景音進行混合，得到替換場景音之後的聲音。透過數位混合器，這些聲音可以組成或調變成符合電信標準或專屬標準的傳輸格式。舉例來說，以128kb/s、64kb/s或16kb/s等具有固定或不定數據率的格式來傳輸到遠端。

在一實施例當中，為了避免無法完全消除場景音的問題，可以將原有的場景音的音量調小，把新的場景音的音量調大。使得遠端雖然能夠依稀聽見原有的場景音，但卻是以新的場景音作為基調。

為了確保能夠即時地轉換場景音，可以利用行動電話當中的硬體來加速運行。舉例來說，行動電話中的圖形顯示處理器(GPU)或人工智慧輔助處理器可以具有向量處理和其他用於加速處理的數值邏輯處理單元(ALU)或其陣列。本發明可以利用這些特定硬體來實現前述的場景音移除與混合功能的即時處理。

請參考圖1所示，其為根據本發明一實施例的場景音轉換的方塊示意圖。該實施例包含兩個模組，第一個模組為語音強化與場景音移除模組110，第二個模組是新場景音混合模組120。在這個方塊示意圖當中，第一通信端的使用者在一個吵雜的環境中講話。帶場景音的原始聲音信號可以即時地輸入到語音強化與場景音移除模組110，該語音強化與場景音移除模組110會根據事先設定或動態獲得的訊息，選用一個或一個以上的人工智慧模型，用於移除原始聲音信號當中的場景音或者說是背景噪音，留下強化後乾淨的使用者的語音信號。

接著，新場景音混合模組120會將強化後的語音信號與新場景音進行數位混合，以便得到混合新場景音的聲音信號。使用者可以指定用於混合的新場景音。在第一通信端進行場景音轉換後的聲音信號可以通過即時的電信網路傳送到遠端的另一個第二通信端。第二通信端也可以使用相同的場景音轉換技術，將轉換後的聲音信號傳回到第一通信端。

請參考圖2所示，其為根據本發明一實施例的場景音轉換應用程式的顯示畫面示意圖。圖2所示的轉換場景音應用程式200可以用來分別測試場景音轉換的兩個階段。該應用程式可以安裝在行動電話。在圖2所示的顯示畫面當中，有幾個選項可以供使用者輸入。為了較為精確地萃取出語音信號，可以利用性別選項210來選擇男性或女性。雖然性別選項210僅顯示男女兩個選項，本申請也可以包含小孩，因為使用者的性別與/或年齡影響了語音。為了指定場景，圖2的場景選項220包含了一個選擇場景按鈕。在另一實施例中，該場景選項220可以是選擇人工智慧模型按鈕。在點選該按鈕之後，應用程式可以跳出對話框，顯示可以選用的場景，亦即選用的針對該場景所訓練的人工智慧模型。在選用場景之後，畫面會顯示該場景的名稱。圖2的新場景音選項230包含了一個選擇新場景音按鈕。在點選該按鈕之後，應用程式可以跳出對話框，顯示可以選用的場景音。雖然圖2的實施例只列出這三個選項，但根據先前的說明，可以利用事先的設定充作預設值，避免使用者每次都要輸入這些選項。也可以利用動態的自動辨識進行輸入。

上述的性別選項210與場景選項220係用於協助語音強化與場景音移除模組110選用適合的人工智慧模型。在一實施例當中，也可以直接讓使用者選用人工智慧模型。可以針對某一個使用者進行訓練某些人工智慧模型，以便增進語音強化的功能。舉例來說，可以請使用者在其經常使用行動電話的場景錄音，以便訓練其個人適用的人工智慧模型。

在一實施例中，應用程式可以根據語音自動判斷使用者的性別與/或年齡，以便自動調整所使用的人工智慧模型。如前所述，應用程式也可以根據未通話之前的場景音來決定所使用的人工智慧模型。可以在行動電話本身進行判斷，也可以在遠端的場景音判斷伺服器進行判斷。還可以根據判斷後的結果，從遠端下載適用的人工智慧模型。

在一實施例中，應用程式可以根據說話的內容的特徵值來自動選用新的場景音與/或調整混合器的參數。舉例來說，應用程式可以偵測語音的語速、音調與音量等特徵值作為參考。當語音的一或多個特徵值有變化時，可以用於調整新背景音的音調或音量，甚至是選用新的背景音。在另一實施例中，應用程式可以根據被消除的舊場景音，選用新的場景音與/或調整混合器的參數。舉例來說，當被消除的舊場景音的音調與音量有所變化時，可以用於調整新背景音的音調或音量，甚至是選用新的背景音。簡而言之，應用程式可以根據所接收的原始聲音信號的某一些特徵值，自動調整混合器的各類參數與所混合的素材。

圖2所示的轉換場景音應用程式200還包含了場景音移除按鈕240、混合場景音按鈕250與新場景音音量調整條260。場景音移除按鈕240可以視為第一階段的開關。當使用者按下場景音移除按鈕240後，應用程式就會開始進行場景音移除與增強語音的工作。使用者可以測試某段聲音信號的效果。接著，可以利用新場景音音量調整條260調整新場景音的音量之後，使用者按下混合場景音按鈕250，將已經移除場景音的增強後的語音依照設定的音量來混合所選的新場景音。

雖然圖2的轉換場景音應用程式200僅有示出三種輸入設定，但根據人工智慧模型的訓練條件的增減，可以依據訓練條件的多寡增減所需設定的數量。本領域的普通技術人員應當可以了解如何利用不同條件的樣本集合來訓練出適用於不同條件的人工智慧模型。

在一實施例中，用於語音通話的應用程式在通話時可以不需要圖2所示的場景音移除按鈕240與混合場景音按鈕250。在語音通話接通之前，例如在發出通話要求之前，或是接受通話要求之前，可以利用性別選項210、場景選項220、新場景音230與新場景音音量調整鈕260之類的人機介面對應用程式進行設定。在另一實施例當中，用於語音通話的應用程式在語音通話接通之前可以不需要做任何臨時性的設定，而是使用預設值。在更一實施例當中，用於語音通話的應用程式可以自動地與動態地進行設定。

請參考圖3所示，其為根據本發明一實施例的一行動電話裝置300的一方塊示意圖。該行動電話裝置300可以用於實施本發明的場景音轉換方法，例如實施前述的場景音轉換應用程式。該行動電話裝置300包含一或多個麥克風310、一或多個揚聲器320、一觸控介面330、一顯示器340、一處理器單元350、一記憶體模組360、一存儲模組370、一第一無線網路介面380與一第二無線網路介面390。該處理器單元350可以執行一作業系統以控制圖3所示的所有元器件。

實現本發明的場景音轉換方法的應用程式可以在作業系統之下執行，例如圖2所示的場景音轉換應用程式200與其各種變化型。該應用程式可以使用麥克風310作為輸入裝置，以及該揚聲器320作為輸出裝置。應用程式可以出現在顯示器340之上，並且該應用程式透過該顯示器340上或獨立的觸控介面330接收使用者的輸入。在一實施例當中，如圖2所示的場景音轉換應用程式200，該應用程式所輸出的聲音信號，可以由揚聲器320重播。在另一實施例當中，該應用程式所輸出的聲音信號，可以通過該第一無線網路介面380或該第二無線網路介面390傳送到另一個行動電話裝置300，透過該另一個行動電話裝置300的揚聲器320遠端播放。

第一無線網路介面380可以是第3、第4、第5代行動通信或其他廣域的無線網路介面。第二無線網路介面390可以是區域無線網路。在一實施例中，該行動電話裝置300還可以包含圖3未示出有線網路介面。無論是有線或無線的網路介面，該行動電話裝置300可以透過這些網路介面傳輸到遠端。此外，該行動電話裝置300還可以包含衛星定位系統，或是經由第一無線網路介面380所連接的行動通信系統，或是第二無線網路介面390所連接的區域無線網路來確認該行動電話裝置300的位置。

請參考圖4所示，其為根據本發明一實施例的一電話語音傳輸的一方塊示意圖。該電話系統400包含一個諸如第3、第4、第5代行動通信或其他無線的資料網路410，其透過該第一無線網路介面380或該第二無線網路介面390連接到一第一行動電話裝置300A與一第二行動電話裝置300B。該無線網路410可以是電路交換網路或封包交換網路，其可以是私有網路或是公開網路。

當第一行動電話裝置300A的第一使用者420A說話時，該第一行動電話裝置300A接收了第一使用者420的語音和場景音。在該第一行動電話裝置300A上執行的應用程式根據接收到的聲音信號產生轉換後的聲音信號，其包含增強後的語音信號和轉換後的場景音。接著，第一行動電話裝置300A將轉換後的聲音信號透過無線網路410傳送到該第二行動電話裝置300B。因此，該第二行動電話裝置300B的第二使用者420B可以在遠端聽到在該第一行動電話裝置300A所產生的轉換後的聲音信號。

在該第一行動電話裝置300A與該第二行動電話裝置300B通話的期間，仍可以使用回音消除功能。上述的場景音轉換與傳輸是同時進行的，場景音的轉換與傳輸所產生的延遲時間小於該電話系統400所適用的電話服務標準的門檻值。除了一對一的電話通信之外，第一行動電話裝置300A可以是多方電話會議的其中一端。

雖然上述的場景音轉換可以是由安裝在行動電話上的應用程式來進行，也可以應用在有線連接的電話或電腦上。然而此功能也可以實施在普通的功能電話(feature phone)之上。本發明的實施例可以利用軟體、硬體或兩者的組合。

請參考圖5所示，其為根據本發明一實施例的場景音轉換方法的一流程示意圖。該場景音轉換方法500可以適用於圖3所示的行動電話裝置300當中。該場景音轉換方法500可以由該處理器單元350所執行的一應用程式來實現，該應用程式包含多個儲存在非揮發性記憶體內的處理器指令。

步驟510：接收包含語音與場景音的聲音信號。

步驟520：根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號。

步驟530：將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號。

步驟540：將該轉換場景音的聲音信號透過網路即時傳輸到遠端播放。

優選地，為了讓遠端或近端的使用者聽到場景音轉換後的成果，該場景音轉換方法更包含下列步驟當中的至少一個步驟：將該轉換場景音的聲音信號透過一網路即時地傳送到一遠端裝置以供播放；以及播放該轉換場景音的聲音信號。

優選地，為了讓遠端的使用者即時地聽到場景音轉換後的成果，從執行該接收步驟至該遠端裝置播放該轉換場景音的聲音信號的時間，滿足該網路所適用之電話語音服務規定的門檻值。

優選地，為了更精確地消除原有的場景音，該場景音轉換方法更包含：接收與該聲音信號同步收音的第二聲音信號，其中該第二聲音信號的收音處較該聲音信號的收音處遠離該使用者的口部；以及在該人工智慧模型處理該聲音信號之前，根據該聲音信號與該第二聲音信號之間的差異聲音信號，修改該聲音信號。

優選地，為了能盡快地消除原有的場景音，該人工智慧模型為已經訓練完成的完全卷積神經網路模型，該聲音信號為該完全卷積神經網路模型的輸入信號。

優選地，為了更精確地消除原有的場景音，該場景音轉換方法更包含：根據下列選項的其中之一或其任意組合，在多個人工智慧模型當中選用其中之一：該使用者的性別；該使用者的年齡；以及該場景的位置。

優選地，為了能自動地根據所在的場景來更精確地消除原有的場景音，該場景音轉換方法更包含：接收收音位置資料；以及根據該收音位置資料，在該多個人工智慧模型當中選用其中之一。

優選地，為了更精確地消除原有的場景音，該根據人工智慧模型處理該聲音信號以產生無場景音的增強語音信號的步驟更包含：根據第一人工智慧模型，消除該聲音信號當中的場景音，以產生去噪後的聲音信號；以及根據第二人工智慧模型，增強該去噪後的聲音信號當中的語音信號，以產生該無場景音的增強語音信號。

優選地，為了更精確地消除原有的場景音，該根據人工智慧模型處理該聲音信號以產生無場景音的增強語音信號的步驟更包含：根據第二人工智慧模型，增強該聲音信號當中的語音信號，以產生增強語音信號；以及根據第一人工智慧模型，消除該增強語音信號當中的場景音，以產生無場景音的增強語音信號。

優選地，為了讓遠端或近端的使用者聽到場景音轉換後的成果，該用於場景音轉換的裝置更包含：連接到一網路的一網路介面；以及一揚聲器，其中該處理器單元更用於執行下列步驟中的至少一個：經由該網路介面將該轉換場景音的聲音信號透過該網路即時地傳送到一遠端裝置以供播放；以及令該揚聲器播放該轉換場景音的聲音信號。

優選地，為了讓遠端的使用者即時地聽到場景音轉換後的成果，其中從該麥克風接收聲音至該遠端裝置播放該轉換場景音的聲音信號的時間，滿足該網路所適用之電話語音服務規定的門檻值。

優選地，為了更精確地消除原有的場景音，該用於場景音轉換的裝置更包含：一第二麥克風，用於與該麥可風同時接收第二聲音信號，其中該第二麥克風較該第一麥克風遠離該使用者的口部，其中該處理器單元更用於：在該人工智慧模型處理該聲音信號之前，根據該聲音信號與該第二聲音信號之間的差異聲音信號，修改該聲音信號。

優選地，為了更精確地消除原有的場景音，該處理器單元更用於根據下列選項的其中之一或其任意組合，在多個人工智慧模型當中選用其中之一：該使用者的性別；該使用者的年齡；以及該場景的位置。

優選地，為了能自動地根據所在的場景來更精確地消除原有的場景音，該用於場景音轉換的裝置更包含一定位裝置，用於提供該用於場景音轉換的裝置的位置資料，其中該處理器單元更用於根據該收音位置資料，在該多個人工智慧模型當中選用其中之一。

優選地，為了讓遠端的使用者即時地聽到場景音轉換後的成果，從執行該麥克風接收聲音信號至該第二裝置播放該轉換場景音的聲音信號的時間，滿足該網路所適用之電話語音服務規定的門檻值。

除了電話通信以外，本發明可以應用到以下的場景與領域當中：影視行業的音效工程，能夠替換攝錄好的影片中的場景音，改為另一種場景音或背景音樂。特別適用於直播或現場廣播的場景，可以不經後期的音效製作，讓觀眾能夠即時地聽到經過場景音轉換後的聲音。本發明可以應用到擴增實境(augmented reality)或虛擬實境(virtual reality)的娛樂系統、服務業與助聽系統。簡而言之，本發明可以應用到任何音效系統以便改善聽覺的認知。

上述的詳細說明與其隨伴的圖式係用於描述本發明特定實施例，而非用於限定本發明。在本發明的範圍中可以具有可能的許多修正與變化。本發明的不同面向在下列申請專利權利內定義。

500:場景音轉換方法

510~540:步驟

Claims

一種場景音轉換方法，包含：

接收包含使用者的語音和場景音的聲音信號；

根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；以及

將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號。
如請求項1所述的場景音轉換方法，更包含下列步驟當中的至少一個步驟：

將該轉換場景音的聲音信號透過一網路即時地傳送到一遠端裝置以供播放；以及

播放該轉換場景音的聲音信號。
如請求項2所述的場景音轉換方法，其中從執行該接收步驟至該遠端裝置播放該轉換場景音的聲音信號的時間，滿足該網路所適用之電話語音服務規定的門檻值。
如請求項1所述的場景音轉換方法，更包含：

接收與該聲音信號同步收音的第二聲音信號，其中該第二聲音信號的收音處較該聲音信號的收音處遠離該使用者的口部；以及

在該人工智慧模型處理該聲音信號之前，根據該聲音信號與該第二聲音信號之間的差異聲音信號，修改該聲音信號。
如請求項1所述的場景音轉換方法，其中該人工智慧模型為已經訓練完成的完全卷積神經網路模型，該聲音信號為該完全卷積神經網路模型的輸入信號。
如請求項1所述的場景音轉換方法，更包含根據下列選項的其中之一或其任意組合，在多個人工智慧模型當中選用其中之一：

該使用者的性別；

該使用者的年齡；以及

該場景的位置。
如請求項6所述的場景音轉換方法，更包含：

接收收音位置資料；以及

根據該收音位置資料，在該多個人工智慧模型當中選用其中之一。
如請求項1所述的場景音轉換方法，其中該根據人工智慧模型處理該聲音信號以產生無場景音的增強語音信號的步驟更包含：

根據第一人工智慧模型，消除該聲音信號當中的場景音，以產生去噪後的聲音信號；以及

根據第二人工智慧模型，增強該去噪後的聲音信號當中的語音信號，以產生該無場景音的增強語音信號。
如請求項1所述的場景音轉換方法，其中該根據人工智慧模型處理該聲音信號以產生無場景音的增強語音信號的步驟更包含：

根據第二人工智慧模型，增強該聲音信號當中的語音信號，以產生增強語音信號；以及

根據第一人工智慧模型，消除該增強語音信號當中的場景音，以產生無場景音的增強語音信號。
一種用於場景音轉換的裝置，包含：

一麥克風，用於接收包含使用者的語音和場景音的聲音信號；以及

一處理器單元，連接至該麥克風，用於執行儲存在非揮發性記憶體當中的多個指令，以便實現下列步驟：

根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；以及

將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號。
如請求項10所述的用於場景音轉換的裝置，更包含：

連接到一網路的一網路介面；以及

一揚聲器，

其中該處理器單元更用於執行下列步驟中的至少一個：

經由該網路介面將該轉換場景音的聲音信號透過該網路即時地傳送到一遠端裝置以供播放；以及

令該揚聲器播放該轉換場景音的聲音信號。
如請求項11所述的用於場景音轉換的裝置，其中從執行該接收步驟至該遠端裝置播放該轉換場景音的聲音信號的時間，滿足該網路所適用之電話語音服務規定的門檻值。
如請求項10所述的用於場景音轉換的裝置，更包含：

一第二麥克風，用於與該麥可風同時接收第二聲音信號，其中該第二麥克風較該第一麥克風遠離該使用者的口部，

其中該處理器單元更用於：在該人工智慧模型處理該聲音信號之前，根據該聲音信號與該第二聲音信號之間的差異聲音信號，修改該聲音信號。
如請求項10所述的用於場景音轉換的裝置，其中該人工智慧模型為已經訓練完成的完全卷積神經網路模型，該聲音信號為該完全卷積神經網路模型的輸入信號。
如請求項10所述的用於場景音轉換的裝置，其中該處理器單元更用於根據下列選項的其中之一或其任意組合，在多個人工智慧模型當中選用其中之一：

該使用者的性別；

該使用者的年齡；以及

該場景的位置。
如請求項15所述的用於場景音轉換的裝置，更包含一定位裝置，用於提供該用於場景音轉換的裝置的位置資料，其中該處理器單元更用於根據該收音位置資料，在該多個人工智慧模型當中選用其中之一。
如請求項10所述的用於場景音轉換的裝置，其中該根據人工智慧模型處理該聲音信號以產生無場景音的增強語音信號的步驟更包含：

根據第一人工智慧模型，消除該聲音信號當中的場景音，以產生去噪後的聲音信號；以及

根據第二人工智慧模型，增強該去噪後的聲音信號當中的語音信號，以產生該無場景音的增強語音信號。
如請求項10所述的用於場景音轉換的裝置，其中該根據人工智慧模型處理該聲音信號以產生無場景音的增強語音信號的步驟更包含：

根據第二人工智慧模型，增強該聲音信號當中的語音信號，以產生增強語音信號；以及

根據第一人工智慧模型，消除該增強語音信號當中的場景音，以產生無場景音的增強語音信號。
一種用於場景音轉換的電話系統，包含：

一網路；

連接到該網路的第一裝置，包含：

連接到該網路的一第一網路介面；

一麥克風，用於接收包含使用者的語音和場景音的聲音信號；以及

一第一處理器單元，連接至該第一網路介面與該麥克風，用於執行儲存在非揮發性記憶體當中的多個指令，以便實現下列步驟：

根據人工智慧模型處理該聲音信號，以產生無場景音的增強語音信號；

將該無場景音的增強語音信號與新場景音混合，以產生轉換場景音的聲音信號；以及

經由該第一網路介面將該轉換場景音的聲音信號透過該網路即時地傳送到一第二裝置；以及

連接到該網路的該第二裝置，包含：

連接到該網路的一第二網路介面；

一揚聲器；以及

一第二處理器單元，連接到該第二網路介面與該揚聲器，用於執行儲存在非揮發性記憶體當中的多個指令，以便實現下列步驟：

自該第二網路介面接收該轉換場景音的聲音信號；以及

令該揚聲器播放該轉換場景音的聲音信號。
如請求項19所述的用於場景音轉換的電話系統，其中從執行該麥克風接收聲音信號至該第二裝置播放該轉換場景音的聲音信號的時間，滿足該網路所適用之電話語音服務規定的門檻值。