TWI831822B - 語音處理方法與資訊裝置 - Google Patents
語音處理方法與資訊裝置 Download PDFInfo
- Publication number
- TWI831822B TWI831822B TW108130535A TW108130535A TWI831822B TW I831822 B TWI831822 B TW I831822B TW 108130535 A TW108130535 A TW 108130535A TW 108130535 A TW108130535 A TW 108130535A TW I831822 B TWI831822 B TW I831822B
- Authority
- TW
- Taiwan
- Prior art keywords
- speakers
- speech
- signal
- mixed
- network
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
一種電腦執行的語音處理方法,包含:- 透過一麥克風取得一混合語音信號,其中該混合語音信號至少包含不特定的複數個說話人所同時發出之複數個語音信號;- 根據該混合信號而利用一生成對抗網路產出一組模擬語音信號,以模擬該複數個語音信號;以及- 決定該組模擬語音信號的信號數目以估計所在環境中該複數個說話人的人數,並提供作為一資訊應用程式之輸入。
Description
本發明大體而言係關於電腦執行的語音處理方法與資訊裝置。特別地,係關於一種電腦執行的語音處理方法與資訊裝置,其可從所接收到的混合語音信號中估計所在環境中不預先特定說話人的人數。
關於可偵測語音且可供用戶透過語音進行控制的資訊裝置,目前已有商業化的智慧音箱產品,其基本結構可參考Amazon公司的產品Amazon Echo或是Google公司的產品Google Home而加以瞭解。此類裝置一般而言具有處理器,而可在本地或是透過網路而在雲端執行各式應用程式,以提供各式資訊服務。
此外,以Google Home為例,其可支援多用戶,也就是可為每個用戶提供不同的服務。為了要對用戶進行識別,每個用戶必須先註冊其聲紋。用戶先對著Google Home說出「Ok Google」和「Hey Google」兩個喚醒詞。然後Google Home會分析那些喚醒詞,以分析出該用戶聲紋的特徵。之後該用戶再對Google Home說「Ok Google」或「Hey Google」,Google Home就將聲音與以前所註冊的聲紋比較,理解是誰在說話。
另一方面,現有技術也可針對用戶所發出的語音內容進行辨識,例如可辨識出用戶話語中的特定字眼,進而決定用戶當下所感興趣的事物或是用戶當下的情緒,藉此可決定所要提供給該用戶的服務內容。對 此可參考例如美國專利US 9934785或是US Pub.20160336005。
雖然現有技術中可以做到說話人的辨識以及單字或語句內容的識別,但仍然有需要改進的空間。特別是,為了提供更符合用戶需求的服務,會希望能夠針對當下的環境特性(profile)及/或用戶的行為模式進行識別。對此,本發明體認到透過對於環境中說話人的人數以及人數變化進行辨識,可以合理地推斷出環境的特性以及環境中用戶的行為模式。
以住家環境為例,在一天當中,由於大部分的家庭成員在日間皆外出上班上學,因此在此環境中日間的說話人的數目最少,而到傍晚以後增加,在到晚餐時間可能人數到最大值。相較之下,在一般辦公室的環境中,其說話人的數目會在上班時間較多,而到下班時間後逐漸減少。因此,可以根據說話人的數目以及在一天之中變化的趨勢,再搭配其他已知的資訊(例如透過GPS資料或是網路IP位址所推知的地理資訊),可對用戶所在環境的特性進行更精確的判斷,進而提供客製化的服務。
現有技術中也許可透過聲紋辨識來識別出說話人的數目,但仍有些許不足之處。首先,現有技術中例如上述Google Home聲紋辨識的作法,必須仰賴用戶先將其聲紋進行註冊,使用上並不方便。此外目前已有金融機構以用戶的聲紋作為身分驗證工具,因此某些用戶可能會擔心聲紋資料外洩遭濫用而不願輕易提供。其次,縱使用戶願意預先註冊其聲紋,然而當同時有不特定的多數用戶進行交談或同時說話時,也就是俗稱「雞尾酒會問題(cocktail party problem)」的情況下,透過預先註冊的聲紋進行比對來判斷出當下環境中說話人的數目並不容易,而在人數無法確定的情況下,要進一步將各個聲紋一一區分而加以辨識其內容,或是要分離各個說話人的聲音就更為困難。
有鑑於此,本發明一方面係提出一種電腦執行的語音處理方 法與資訊裝置,其可採用深度學習(deep learning)的作法,特別是生成對抗網路(Generative Adversarial Network)模型,而從所接受到的混合語音信號中估計所在環境中不特定說話人的人數,且較佳地,其可不需要用戶預先提供其聲紋(即預先註冊聲紋)。
本發明另一方面則是在估計出環境中不特定說話人的人數之後,可再依此推斷出環境的特性以及環境中用戶的行為模式,並可提供適合的服務。對此,可根據預定時程或按照特定的條件來重複地採集環境中說話人的語音樣本,以觀察其變化的趨勢。
舉例來說,如果每天都可採集到充分的說話人的語音樣本,則可推斷所在的環境可能為住家;相對的,如果只有在工作日才能採集到充分的說話人的語音樣本,則可推斷環境所在的可能為辦公室。而進一步可從所估計環境中說話人的人數與其變化趨勢,則可更進一步推斷出例如家庭的組成或是辦公室的業務型態。舉例來說,以住家環境為例,可從放學時間之後所估計所增加的說話人人數來推斷出家庭成員中仍在就學的數目,而若以辦公室環境為例,則從一般下班時間(例如下午六點)後所估計到的說話人人數,來推斷是否加班工作為常態,或是否採用彈性工時制度。
根據本發明一實施例,提出一種電腦執行的語音處理方法,係涉及一生成對抗網路,該一生成對抗網路包含一個生成網路與一個判別網路,其中該方法包含:●透過一麥克風取得一混合語音信號,其中該混合語音信號至少包含複數個說話人在一時段內發出之複數個語音信號;●提供該混合語音信號給該生成網路,該生成網路以一生成模型來根據該混合語音樣本信號加以產出一組模擬語音信號,以模擬該複數個語音信號,其中該生成模型中的參數係由該生成網路與該判別網路不斷對抗學習而決定;以及●決定該組模擬語音信號的信號數目,並提供作為一資訊應用程式之 輸入。
根據本發明另一實施例,提出一種電腦執行的語音處理方法,其中該方法包含:●透過一麥克風取得一混合語音信號,其中該混合語音信號至少包含複數個說話人在一時段內所發出之複數個語音信號;●根據該混合語音樣本信號加以產出一組模擬語音信號,以模擬該複數個語音信號,其中該複數個說話人所發出之複數個語音信號並無作為樣本預先提供;以及●決定該組模擬語音信號的信號數目,並提供作為一資訊應用程式之輸入。
此外,本發明還提出一種電腦程式產品,包含一電腦可讀程式,供於一資訊裝置上執行時,以執行如上述所述之方法。
在其他實施例中,本發明還提出一種資訊裝置,包含:●一處理器,用以執行一音訊處理程式以及一資訊應用程式;●一麥克風,用以接收一混合語音信號,其中該混合語音信號至少包含複數個說話人所同時發出之複數個語音信號;●其中該處理器執行該音訊處理程式,以執行如上述所述之方法。
本說明書中所提及的特色、優點、或類似表達方式並不表示,可以本發明實現的所有特色及優點應在本發明之任何單一的具體實施例內。而是應明白,有關特色及優點的表達方式是指結合具體實施例所述的特定特色、優點、或特性係包含在本發明的至少一具體實施例內。因此,本說明書中對於特色及優點、及類似表達方式的論述與相同具體實施例有關,但亦非必要。
參考以下說明及隨附申請專利範圍或利用如下文所提之本發明的實施方式,即可更加明瞭本發明的這些特色及優點。
100‧‧‧語音控制助理裝置
102‧‧‧處理器
106‧‧‧麥克風
108‧‧‧網路通訊模組
130‧‧‧殼體
200‧‧‧步驟
202‧‧‧步驟
204‧‧‧步驟
AP1-APn‧‧‧資訊應用程式
ADP‧‧‧音訊處理程式
為了立即瞭解本發明的優點,請參考如附圖所示的特定具體實施例,詳細說明上文簡短敘述的本發明。在瞭解這些圖示僅描繪本發明的典型具體實施例並因此不將其視為限制本發明範疇的情況下,參考附圖以額外的明確性及細節來說明本發明,圖式中:圖1係依據本發明具體實施例的資訊裝置。
圖2係依據本發明一實施例的方法流程圖。
本說明書中「一具體實施例」或類似表達方式的引用是指結合該具體實施例所述的特定特色、結構、或特性係包括在本發明的至少一具體實施例中。因此,在本說明書中,「在一具體實施例中」及類似表達方式之用語的出現未必指相同的具體實施例。
熟此技藝者當知,本發明可實施為電腦系統/裝置、方法或作為電腦程式產品之電腦可讀媒體。因此,本發明可以實施為各種形式,例如完全的硬體實施例、完全的軟體實施例(包含韌體、常駐軟體、微程式碼等),或者亦可實施為軟體與硬體的實施形式,在以下會被稱為「電路」、「模組」或「系統」。此外,本發明亦可以任何有形的媒體形式實施為電腦程式產品,其具有電腦可使用程式碼儲存於其上。
一個或更多個電腦可使用或可讀取媒體的組合都可以利用。舉例來說,電腦可使用或可讀取媒體可以是(但並不限於)電子的、磁的、光學的、電磁的、紅外線的或半導體的系統、裝置、設備或傳播媒體。更具體的電腦可讀取媒體實施例可以包括下列所示(非限定的例示):由一個或多個連接線所組成的電氣連接、可攜式的電腦磁片、硬碟機、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式光碟片(CD-ROM)、光學儲存裝置、傳輸媒體 (例如網際網路(Internet)或內部網路(intranet)之基礎連接)、或磁儲存裝置。需注意的是,電腦可使用或可讀取媒體更可以為紙張或任何可用於將程式列印於其上而使得該程式可以再度被電子化之適當媒體,例如藉由光學掃描該紙張或其他媒體,然後再編譯、解譯或其他合適的必要處理方式,然後可再度被儲存於電腦記憶體中。在本文中,電腦可使用或可讀取媒體可以是任何用於保持、儲存、傳送、傳播或傳輸程式碼的媒體,以供與其相連接的指令執行系統、裝置或設備來處理。電腦可使用媒體可包括其中儲存有電腦可使用程式碼的傳播資料訊號,不論是以基頻(baseband)或是部分載波的型態。電腦可使用程式碼之傳輸可以使用任何適體的媒體,包括(但並不限於)無線、有線、光纖纜線、射頻(RF)等。
用於執行本發明操作的電腦程式碼可以使用一種或多種程式語言的組合來撰寫,包括物件導向程式語言(例如Java、Smalltalk、C++或其他類似者)以及傳統程序程式語言(例如C程式語言或其他類似的程式語言)。
於以下本發明的相關敘述會參照依據本發明具體實施例之系統、裝置、方法及電腦程式產品之流程圖及/或方塊圖來進行說明。當可理解每一個流程圖及/或方塊圖中的每一個方塊,以及流程圖及/或方塊圖中方塊的任何組合,可以使用電腦程式指令來實施。這些電腦程式指令可供通用型電腦或特殊電腦的處理器或其他可程式化資料處理裝置所組成的機器來執行,而指令經由電腦或其他可程式化資料處理裝置處理以便實施流程圖及/或方塊圖中所說明之功能或操作。
這些電腦程式指令亦可被儲存在電腦可讀取媒體上,以便指示電腦或其他可程式化資料處理裝置來進行特定的功能,而這些儲存在電腦可讀取媒體上的指令構成一製成品,其內包括之指令可實施流程圖及/或方塊圖中所說明之功能或操作。
電腦程式指令亦可被載入到電腦上或其他可程式化資料處 理裝置,以便於電腦或其他可程式化裝置上進行一系統操作步驟,而於該電腦或其他可程式化裝置上執行該指令時產生電腦實施程序以達成流程圖及/或方塊圖中所說明之功能或操作。
其次,請參照圖1至圖2,在圖式中顯示依據本發明各種實施例的裝置、方法及電腦程式產品可實施的架構、功能及操作之流程圖及方塊圖。因此,流程圖或方塊圖中的每個方塊可表示一模組、區段、或部分的程式碼,其包含一個或多個可執行指令,以實施指定的邏輯功能。另當注意者,某些其他的實施例中,方塊所述的功能可以不依圖中所示之順序進行。舉例來說,兩個圖示相連接的方塊事實上亦可以皆執行,或依所牽涉到的功能在某些情況下亦可以依圖示相反的順序執行。此外亦需注意者,每個方塊圖及/或流程圖的方塊,以及方塊圖及/或流程圖中方塊之組合,可藉由基於特殊目的硬體的系統來實施,或者藉由特殊目的硬體與電腦指令的組合,來執行特定的功能或操作。
<系統架構>
以下係以語音控制助理裝置100為例加以說明本發明所提出的資訊裝置。但應知本發明的資訊裝置不以語音控制助理裝置為限,智慧手機、智慧手表、智慧數位助聽器、個人電腦或是平板。
圖1顯示一實施例中之語音控制助理裝置100之硬體架構。語音控制助理裝置100可具有一殼體130,並在殼體130內設置有處理器102、與一或多個麥克風(或其他的語音輸入裝置)106。處理器102可以是一微控制器(microcontroller)、一數位信號處理器(DSP)、一通用處理器、或是應用導向之積體電路(ASIC),但本發明並不限於此。麥克風106的數量可以只有一個,其可以是單聲道或具有多聲道(例如左右聲道)的收音功能。此外,語音控制助理裝置100另外包含網路通訊模組108,用以進行有線或無線通訊(例如可透過藍芽、紅外線、或是Wi-Fi)以直接或間接連結區域網路、行動電話網路或網際網路。
語音控制助理裝置100中與本案無直接相關的基本架構,例如電源、記憶體、喇叭等等,可參見一般的語音控制助理裝置,例如Amazon公司的產品Amazon Echo或是Google公司的產品Google Home,更具體地也可參考美國專利US9304736或是US Pub.20150279387 A1。與本案無關的細節將省略不予描述。
處理器102係執行一作業系統(未圖示),例如Android作業系統或是Linux。處理器102可在作業系統下執行各式資訊應用程式AP1-APn。舉例來說,各式資訊應用程式AP1-APn可用於連接不同的網際網路服務,例如多媒體推播或串流、網路金融、網路購物等等。應注意資訊應用程式AP1-APn不一定需要網路連線環境下才能提供服務,舉例來說,語音控制助理裝置100本身可具有儲存單元(未圖示),其可在本地端儲存多媒體檔案,例如音樂檔案,而可供資訊應用程式AP1-APn存取,而不一定需要仰賴網路連線。
處理器102另可執行一音訊處理程式ADP,其可透過麥克風106用來採集、辨識、或處理語音控制助理裝置100所在環境中一或多個用戶說話或交談所發出的語音訊號。音訊處理程式ADP與本案無直接相關的基本內容,可參見一般的語音控制助理裝置中的語音辨識程式,例如Amazon公司的產品Alexa或是Google公司的產品Google Assistant。而音訊處理程式ADP與本案相關的特點,將進一步配合圖2之流程圖進一步詳述於下。
特別需說明的是,語音控制助理裝置100亦可實施為嵌入式系統,換言之,資訊應用程式AP1-APn與音訊處理程式ADP亦可以實施為處理器102的韌體。另外,若本發明的資訊裝置以智慧手機的形態加以實施,則上述資訊應用程式與音訊處理程式可由網路上的應用程式市集(例如Google Play或是App Store)下載取得。本發明對此些並不欲加以限制。
<音訊處理>
步驟200:麥克風106對環境中一或多個用戶說話或交談所發出的語音訊號持續地進行採集。而音訊處理程式ADP可根據預定時程或根據特定條件而對所採集到的語音訊號進行後續處理(參見後續步驟202至204)。舉例來說,音訊處理程式ADP可固定每隔20分鐘或30分鐘,或是當環境中可偵測到的語音音量大於一門檻值時,就將所採集到的語音訊號進行後續處理。而音訊處理程式ADP所使用的語音樣本的時間長度,可從3秒到1分鐘不等。此外,音訊處理程式ADP還可根據需求,自動地調整所需語音樣本的時間長度或檔案大小。理論上,所使用的語音樣本的時間愈長或檔案愈大,其提供的資訊也更豐富,對後續判斷的準確性有幫助,但同時也會耗費更多的處理資源。
值得一提的是,在此實施例中,在進行後續處理之前,音訊處理程式ADP在此步驟尚且無法判斷或估計麥克風106所採集到的語音訊號中實際上包含了多少說話人所發出的語音訊號。
步驟202:在此步驟中,採樣的語音信號其被切割成每秒數千到數萬個片段,並且再經過量化,即是把該片段聲波的振幅以數字表示。將採樣的語音信號轉換為數字資訊之後,音訊處理程式ADP可進一步利用轉換後的數字資訊進行說話人分離(speaker separation)的運算,以分離出個別說話人的語音資料,並可依此決定出個別說話人的數目。
此說話人分離的運算可在本地執行,也就是透過使用處理器102的計算資源來處理,但也可由音訊處理程式ADP將資料發送到網路上由「雲端」的計算資源來處理,本發明對此並不欲加以限制。
需說明的是,在此步驟中,音訊處理程式ADP所得的個別說話人的語音資料以及所決定出個別說話人的數目,乃是根據所使用演算法而得出。應可知,不同演算法所得之結果可能略有不同,且與實際值可存在誤差。
關於說話人分離的運算,在一實施例中,可參考例如C. Kwan,J.Yin,B.Ayhan,S.Chu,K.Puckett,Y.Zhao,K.C.Ho,M.Kruger,and I.Sityar,“Speech Separation Algorithms for Multiple Speaker Environments,”Proc.Int.Symposium on Neural Networks,2008。此技術乃使用了麥克風陣列或是多聲道的麥克風來對語音信號進行採樣。
在另一實施例中,則可使用了深度學習的方式,對此可參考Yusuf Isik,Jonathan Le Roux,Zhuo Chen,Shinji Watanabe,and John R Hershey,“Single-channel multi-speaker separation using deep clustering,”arXiv preprint rXiv:1607.02173,2016。
在另一實施例中,特別是(但不限於)在麥克風106僅以單聲道來接收並採集所在環境中的語音訊號的情況下,則較佳地使用了生成對抗網路(Generative Adversarial Network)模型。音訊處理程式ADP將採樣的語音信號(即可能混雜有多人交談的混合信號)以預先訓練完成的生成網路模型進行所需的說話人分離的運算,而會產生出一組模擬語音信號,其輸出分布(output distribution)係模擬所採樣的混合語音信號中個別說話人所發出的語音信號,並依該組模擬語音信號的數量來作為所估計出的個別說話人的數目。
生成對抗網路中包含一個生成網路與一個判別網路,而與其他深度學習技術不同的是,在生成對抗網路學習的過程中,首先其屬於非監督式,而可省卻了大量的訓練人力。其次,生成對抗網路涉及了兩個獨立的模型,也就是生成網路與判別網路所分別使用的模型。這兩個模型的參數係透過彼此不斷對抗學習而決定,因此準確性更高,且可處理更多數目的說話人語音彼此混雜的情況(例如辦公室環境)。此外,在生成對抗網路學習的過程中,也不需要用戶預先提供聲紋樣本,但仍然能夠保持高準確性,這點相較於現有技術中Google Home的作法,具有更大的優勢。
更多透過生成對抗網路來進行說話人分離的作法的細節,可例如參考Y.Cem Subakan and Paris Smaragdis.Generative adversarial source separation.arXiv preprint arXiv:1710.10779,2017。但本發明不欲局限於特定的生成對抗網路演算法,但較佳地應能夠處理說話人人數眾多的情況。
另外值得一提的是,上述生成網路模型的演算法,可編碼為音訊處理程式ADP中的一部分,因此相關運算可在本地端完成,但此生成網路模型的演算法中所使用的參數,也可持續地透過網路隨時更新。又或是上述生成網路模型的演算法也可實施在「雲端」,而可省卻需要經常更新的問題。
步驟204:將在上述步驟202中,所估計出的說話人人數作為資料輸入,而可以進行各式的應用,以下透過幾個範例加以說明。
在第一實施例中,以說話人人數作為輔助資料,可提供給音訊處理程式ADP(或是資訊應用程式AP1-APn),並針對在步驟200中麥克風106所採集到的語音樣本做進一步的分析,例如可再利用其他不同的演算法模型進行計算分析。例如在一家四口的家庭環境中,而家庭中每一用戶皆有預先註冊其聲紋,則透過步驟204可以當下所估計出說話人人數(例如當下僅有母親與兩子女在家互相交談)作為輔助資料,將有助於音訊處理程式ADP從混合語音樣本中進一步辨識出個別用戶的聲紋,進而可處理其中一用戶(例如兒子)的語音指令。對此可參考Wang,Y.,& Sun,W.(2017).Multi-speaker Recognition in Cocktail Party Problem.CoRR,abs/1712.01742.。
在第二實施例中,則以當下所估計的說話人人數作為參考資料,其作為輸入並提供給資訊應用程式AP1。舉例來說,資訊應用程式AP1可為類似Spotify之音樂串流服務程式,資訊應用程式AP1即可根據當下所估計的說話人人數選擇播放不同的歌單(playlist),例如當人數少的時候,可自動選擇音樂類型較為平靜的歌單。根據環境類型來存取特定的多媒體資料的相關技術,還可以參考美國專利公開號US20170060519,在此不予贅述。
額外地,如果所使用的演算法還可以從個別用戶的聲紋辨識出用戶的年齡、性別、情緒、喜好等個人特性資料,則亦可一併提供給資訊應用程式AP1作為選擇存取特定歌單(或特定多媒體檔案)的參考。相關參考資料可參見M.Li,K.J.Han,and S.Narayanan,“Automatic speaker age and gender recognition using acoustic and prosodic level information fusion,”Computer Speech and Language,vol.27,no.1,pp.151-167,2013.以及Nayak,Biswajit & Madhusmita,Mitali & Kumar Sahu,Debendra & Kumar Behera,Rajendra & Shaw,Kamalakanta.(2013).“Speaker Dependent Emotion Recognition from Speech”.International Journal of Innovative Technology and Exploring Engineering.3.40-42.但應知此部份並非本發明之必要,且應知若無法先準確地估計出說話人人數,則後續個別用戶的聲紋辨識將會遭遇困難。
相較於第二實施例中資訊應用程式AP1僅使用了當下所估計的說話人人數作為輸入作為參考資料,在第三實施例中,如步驟200至步驟204係根據預定時程或根據特定條件反覆執行,也就是重複地估計所在環境中的說話人人數,因此可獲得說話人人數變化的趨勢,進而可推斷所在環境為例如住家或是辦公室,或甚至可推斷出例如家庭的組成或是辦公室的業務型態。舉例來說,資訊應用程式AP1可為類似Spotify之一音樂串流服務程式,則資訊應用程式AP1可自動根據家庭的組成或是辦公室的業務型態來自動選擇存取特定歌單(或多媒體檔案);又舉例來說,資訊應用程式AP2可為一網路購物程式,則可資訊應用程式AP2自動根據家庭的組成或是辦公室的業務型態來推送特定商品的廣告資訊。
此外值得一提的是,如前所述,所估計出的說話人人數隨著演算法的好壞,可能與實際值存在誤差,但由於一給定環境中其環境特性與用戶行為通常有一定的規律,鮮少會劇烈的變化,因此在長時間多次的估算下(即例如第三實施例的情況),還可透過統計上的方法來提昇估計的準 確性,並作為演算法進一步調整或更新的參考。
在不脫離本發明精神或必要特性的情況下,可以其他特定形式來體現本發明。應將所述具體實施例各方面僅視為解說性而非限制性。因此,本發明的範疇如隨附申請專利範圍所示而非如前述說明所示。所有落在申請專利範圍之等效意義及範圍內的變更應視為落在申請專利範圍的範疇內。
200‧‧‧步驟
202‧‧‧步驟
204‧‧‧步驟
Claims (11)
- 一種電腦執行的語音處理方法,係涉及一生成對抗網路,該生成對抗網路包含一個生成網路與一個判別網路,其中該方法包含:(a)透過一麥克風取得一混合語音信號,其中該混合語音信號至少包含複數個說話人在一時段內發出之複數個語音信號,其中該複數個說話人的人數為未知且不特定;(b)提供該混合語音信號給該生成網路,而為了模擬該複數個說話人所發出之該複數個語音信號,該生成網路以一生成模型來將該混合語音信號分離為複數個模擬語音信號,其中該生成模型中的參數係由該生成網路與該判別網路不斷對抗學習而決定;以及(c)決定該複數個模擬語音信號的信號數目以估計該複數個說話人的人數,並提供該信號數目作為一資訊應用程式之輸入。
- 如請求項1所述的方法,其中該複數個說話人所發出之複數個語音信號並無作為樣本預先提供給該生成對抗網路。
- 如請求項1所述的方法,更包含:利用該組模擬語音信號的信號數目,辨識該複數個說話人所發出之複數個語音信號之聲紋。
- 如請求項1所述的方法,其中根據一預定時程或條件,重複步驟(a)至(c),以提供多個輸入給該資訊應用程式,藉此該資訊應用程式根據該多個輸入以執行一特定應用。
- 一種電腦執行的語音處理方法,其中該方法包含: (a)透過一麥克風取得一混合語音信號,其中該混合語音信號至少包含複數個說話人在一時段內所發出之複數個語音信號,其中該複數個說話人的人數為未知且不特定;(b)為了模擬該複數個說話人所發出之該複數個語音信號,將該混合語音信號分離為複數個模擬語音信號,其中該複數個說話人所發出之複數個語音信號並無作為樣本預先提供;以及(c)決定該複數個模擬語音信號的信號數目以估計該複數個說話人的人數,並提供該信號數目作為一資訊應用程式之輸入。
- 一種儲存在一電腦可用媒體上之電腦程式產品,包含一電腦可讀程式,供於一資訊裝置上執行時,以執行如請求項1至5中任一項所述之方法。
- 一種資訊裝置,包含:一處理器,用以執行一音訊處理程式以及一資訊應用程式;一麥克風,用以接收一混合語音信號,其中該混合語音信號至少包含複數個說話人所同時發出之複數個語音信號;其中該處理器執行該音訊處理程式,以執行如請求項1至5中任一項所述之方法。
- 如請求項7所述之資訊裝置,其中該麥克風更以單聲道接收該混合語音信號。
- 如請求項7所述之資訊裝置,其中該資訊應用程式根據該組模擬語音信號的信號數目,判斷該資訊裝置所處環境之環境特性。
- 如請求項7所述之資訊裝置,其中該資訊應用程式根據該組模擬語音信號的信號數目,判斷該資訊裝置所處環境中說話人的行為。
- 如請求項7所述之資訊裝置,其中該資訊應用程式根據該組模擬語音信號的信號數目決定存取特定的多媒體資料。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810988537.1A CN110867191B (zh) | 2018-08-28 | 语音处理方法、信息装置与计算机程序产品 | |
CN201810988537.1 | 2018-08-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202009925A TW202009925A (zh) | 2020-03-01 |
TWI831822B true TWI831822B (zh) | 2024-02-11 |
Family
ID=69642874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108130535A TWI831822B (zh) | 2018-08-28 | 2019-08-27 | 語音處理方法與資訊裝置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11551707B2 (zh) |
TW (1) | TWI831822B (zh) |
WO (1) | WO2020043110A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7333371B2 (ja) * | 2021-01-05 | 2023-08-24 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート | 話者分離基盤の自動通訳方法、話者分離基盤の自動通訳サービスを提供するユーザ端末、及び、話者分離基盤の自動通訳サービス提供システム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662956A (zh) * | 2002-06-19 | 2005-08-31 | 皇家飞利浦电子股份有限公司 | 大量说话人识别(id)系统及其相应方法 |
US20120130714A1 (en) * | 2010-11-24 | 2012-05-24 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
CN105229725A (zh) * | 2013-03-11 | 2016-01-06 | 微软技术许可有限责任公司 | 多语言深神经网络 |
CN106104674A (zh) * | 2014-03-24 | 2016-11-09 | 微软技术许可有限责任公司 | 混合语音识别 |
TWI560697B (en) * | 2013-10-18 | 2016-12-01 | Via Tech Inc | Method for building acoustic model, speech recognition method and electronic apparatus |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9060224B1 (en) | 2012-06-01 | 2015-06-16 | Rawles Llc | Voice controlled assistant with coaxial speaker and microphone arrangement |
US9304736B1 (en) | 2013-04-18 | 2016-04-05 | Amazon Technologies, Inc. | Voice controlled assistant with non-verbal code entry |
CN104992706A (zh) | 2015-05-15 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 一种基于语音的信息推送方法及装置 |
US20170060519A1 (en) | 2015-08-31 | 2017-03-02 | Ubithings Sas | Method of identifying media to be played |
JP2018063504A (ja) | 2016-10-12 | 2018-04-19 | 株式会社リコー | 生成モデル学習方法、装置及びプログラム |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
CN107293289B (zh) * | 2017-06-13 | 2020-05-29 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
KR102002681B1 (ko) * | 2017-06-27 | 2019-07-23 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
CN107563417A (zh) | 2017-08-18 | 2018-01-09 | 北京天元创新科技有限公司 | 一种深度学习人工智能模型建立方法及系统 |
CN111201784B (zh) * | 2017-10-17 | 2021-09-07 | 惠普发展公司,有限责任合伙企业 | 通信系统、用于通信的方法和视频会议系统 |
CN107909153A (zh) * | 2017-11-24 | 2018-04-13 | 天津科技大学 | 基于条件生成对抗网络的模型化策略搜索学习方法 |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
-
2019
- 2019-08-27 US US17/271,197 patent/US11551707B2/en active Active
- 2019-08-27 TW TW108130535A patent/TWI831822B/zh active
- 2019-08-27 WO PCT/CN2019/102912 patent/WO2020043110A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662956A (zh) * | 2002-06-19 | 2005-08-31 | 皇家飞利浦电子股份有限公司 | 大量说话人识别(id)系统及其相应方法 |
US20120130714A1 (en) * | 2010-11-24 | 2012-05-24 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
CN105229725A (zh) * | 2013-03-11 | 2016-01-06 | 微软技术许可有限责任公司 | 多语言深神经网络 |
TWI560697B (en) * | 2013-10-18 | 2016-12-01 | Via Tech Inc | Method for building acoustic model, speech recognition method and electronic apparatus |
CN106104674A (zh) * | 2014-03-24 | 2016-11-09 | 微软技术许可有限责任公司 | 混合语音识别 |
Also Published As
Publication number | Publication date |
---|---|
US11551707B2 (en) | 2023-01-10 |
US20210249033A1 (en) | 2021-08-12 |
WO2020043110A1 (zh) | 2020-03-05 |
TW202009925A (zh) | 2020-03-01 |
CN110867191A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107112014B (zh) | 在基于语音的系统中的应用焦点 | |
US9609442B2 (en) | Smart hearing aid | |
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
US9401140B1 (en) | Unsupervised acoustic model training | |
CN104080024B (zh) | 音量校平器控制器和控制方法以及音频分类器 | |
US10531178B2 (en) | Annoyance noise suppression | |
WO2014114048A1 (zh) | 一种语音识别的方法、装置 | |
KR20160106075A (ko) | 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스 | |
US8588442B2 (en) | Method for adjusting a hearing device | |
US11218796B2 (en) | Annoyance noise suppression | |
WO2023116660A2 (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
JP2017525023A (ja) | コンテンツ・ソースの拡張 | |
TWI831822B (zh) | 語音處理方法與資訊裝置 | |
Abdullah et al. | Paralinguistic speech processing: An overview | |
WO2020052135A1 (zh) | 音乐推荐的方法、装置、计算装置和存储介质 | |
CN110867191B (zh) | 语音处理方法、信息装置与计算机程序产品 | |
US20220093089A1 (en) | Model constructing method for audio recognition | |
TW202244898A (zh) | 用於音訊信號產生的系統和方法 | |
US11641592B1 (en) | Device management using stored network metrics | |
US6934364B1 (en) | Handset identifier using support vector machines | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
US20230024855A1 (en) | Method and electronic device for improving audio quality | |
WO2022068675A1 (zh) | 发声者语音抽取方法、装置、存储介质及电子设备 | |
Sharifi et al. | Delivering Audio Responses At Contextually Appropriate Volume Level | |
CN118230720A (zh) | 一种基于ai的语音语义识别方法及tws耳机 |