TWI745968B - 降噪方法和使用該方法的降噪裝置及降噪系統 - Google Patents
降噪方法和使用該方法的降噪裝置及降噪系統 Download PDFInfo
- Publication number
- TWI745968B TWI745968B TW109116524A TW109116524A TWI745968B TW I745968 B TWI745968 B TW I745968B TW 109116524 A TW109116524 A TW 109116524A TW 109116524 A TW109116524 A TW 109116524A TW I745968 B TWI745968 B TW I745968B
- Authority
- TW
- Taiwan
- Prior art keywords
- noise reduction
- voice signal
- signal
- noise
- voiceprint model
- Prior art date
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Telephone Function (AREA)
Abstract
提出一種降噪方法和使用該方法的降噪裝置及降噪系統。降噪方法包含:取得語音訊號;判斷語音訊號以及聲紋模型是否匹配;以及響應於語音訊號與聲紋模型匹配,根據語音訊號、聲紋模型以及第一降噪處理產生第一降噪語音訊號,並且輸出第一降噪語音訊號。
Description
本發明是有關於一種降噪方法和使用所述方法的降噪裝置及降噪系統。
目前,市售的輔聽器(hearing aid)可具備過濾噪音的功能。當用戶通過輔聽器收聽周遭的聲音時,輔聽器可根據安裝在輔聽器內的濾波器來過濾特定頻率的噪音,以使聲音中對應於語音部分的頻帶更加清晰。然而,與語音具有相同頻帶的噪音無法被濾波器濾除。另一方面,當用戶的周遭存在多名人員時,該些人員的語音的振幅均會被輔聽器所放大。如此,輔聽器的用戶將被迫收聽到許多與自身無關的語音,並且對用戶較為重要的語音將無法清楚地被用戶聽見。
有鑑於此,本發明提供一種降噪方法和使用所述方法的降噪裝置及降噪系統,可針對特定人員的語音進行更進一步的降噪處理。
本發明的一種降噪裝置,包括輸出裝置、儲存媒體、訊號接收器以及處理器。儲存媒體儲存聲紋模型、第一降噪自動編碼器以及第二降噪自動編碼器。訊號接收器取得語音訊號。處理器耦接儲存媒體、訊號接收器以及輸出裝置,其中處理器響應於語音訊號與聲紋模型匹配,將語音訊號以及聲紋模型輸入至第一降噪自動編碼器以產生第一降噪語音訊號,並且通過輸出裝置輸出第一降噪語音訊號。
在本發明的一實施例中,上述的處理器響應於語音訊號與聲紋模型不匹配,將語音訊號輸入至第二降噪自動編碼器以產生第二降噪語音訊號,並且通過輸出裝置輸出第二降噪語音訊號。
在本發明的一實施例中,上述的儲存媒體更儲存第三降噪自動編碼器,其中處理器將語音訊號以及聲紋模型輸入至第一降噪自動編碼器以產生第三降噪語音訊號,並且將第三降噪語音訊號以及語音訊號輸入至第三降噪自動編碼器以產生第一降噪語音訊號。
在本發明的一實施例中,上述的儲存媒體更儲存聲紋提取模組,其中處理器將第一降噪語音訊號輸入至聲紋提取模組以更新聲紋模型。
在本發明的一實施例中,上述的聲紋提取模組根據基於識別向量器的演算法或基於深度神經網路的演算法來更新聲紋模型。
在本發明的一實施例中,上述的儲存媒體更儲存聲紋提取模組,其中處理器將第二降噪語音訊號輸入至聲紋提取模組以產生第二聲紋模型。
在本發明的一實施例中,上述的聲紋提取模組根據基於識別向量器的演算法或基於深度神經網路的演算法來產生第二聲紋模型。
在本發明的一實施例中,上述的儲存媒體更儲存對應於聲紋模型的電話號碼,其中處理器響應於語音訊號的來源與電話號碼匹配而判斷語音訊號與聲紋模型匹配。
在本發明的一實施例中,上述的降噪裝置更包括輸入裝置。輸入裝置耦接處理器,其中輸入裝置接收用戶操作以產生觸發訊號,其中處理器響應於觸發訊號而根據第一降噪語音訊號更新聲紋模型。
在本發明的一實施例中,上述的降噪裝置更包括輸入裝置。輸入裝置耦接處理器,其中輸入裝置接收用戶操作以產生觸發訊號,其中處理器響應於觸發訊號而根據第二降噪語音訊號產生第二聲紋模型,並且儲存第二聲紋模型至儲存媒體。
在本發明的一實施例中,上述的降噪裝置更包括輸入裝置。輸入裝置耦接處理器,其中輸入裝置接收用戶操作以產生觸發訊號,其中訊號接收器響應於觸發訊號而接收語音訊號。
在本發明的一實施例中,上述的降噪裝置更包括震動裝置。震動裝置耦接處理器,其中震動裝置響應於訊號接收器接收來自來源的撥號訊號而震動。
在本發明的一實施例中,上述的儲存媒體更儲存語音辨識模型,其中處理器根據語音辨識模型判斷語音訊號與聲紋模型是否匹配。
在本發明的一實施例中,上述的語音辨識模型將語音訊號轉換為文字訊號,其中降噪裝置更包括顯示器,並且處理器通過顯示器輸出文字訊號。
在本發明的一實施例中,上述的輸出裝置包括揚聲器以及訊號傳送器的其中之一。
在本發明的一實施例中,上述的降噪裝置更包括傳聲器。傳聲器耦接訊號接收器,其中傳聲器接收聲波以產生語音訊號。
本發明的一種降噪方法,包括:取得語音訊號;判斷語音訊號以及聲紋模型是否匹配;以及響應於語音訊號與聲紋模型匹配,根據語音訊號、聲紋模型以及第一降噪處理產生第一降噪語音訊號,並且輸出第一降噪語音訊號。
在本發明的一實施例中,上述的降噪方法更包括:響應於語音訊號與聲紋模型不匹配,根據語音訊號以及第二降噪處理產生第二降噪語音訊號,並且輸出第二降噪語音訊號。
在本發明的一實施例中,上述的根據語音訊號、聲紋模型以及第一降噪處理產生第一降噪語音訊號的步驟包括:根據語音訊號、聲紋模型以及第一降噪處理產生第三降噪語音訊號;以及根據第三降噪語音訊號、語音訊號以及第三降噪處理產生第一降噪語音訊號。
在本發明的一實施例中,上述的降噪方法更包括:根據第一降噪語音訊號更新聲紋模型。
在本發明的一實施例中,上述的根據第一降噪語音訊號更新聲紋模型的步驟包括:根據基於識別向量器的演算法或基於深度神經網路的演算法來更新聲紋模型。
在本發明的一實施例中,上述的降噪方法更包括:根據第二降噪語音訊號產生第二聲紋模型,並且儲存第二聲紋模型。
在本發明的一實施例中,上述的根據第二降噪語音訊號產生第二聲紋模型的步驟包括:根據基於識別向量器的演算法或基於深度神經網路的演算法來產生第二聲紋模型。
在本發明的一實施例中,上述的降噪方法更包括:取得對應於聲紋模型的電話號碼;以及響應於語音訊號的來源與電話號碼匹配而判斷語音訊號與聲紋模型匹配。
在本發明的一實施例中,上述的降噪方法更包括:通過輸入裝置接收用戶操作以產生觸發訊號;以及響應於觸發訊號而根據第一降噪語音訊號更新聲紋模型。
在本發明的一實施例中,上述的降噪方法更包括:通過輸入裝置接收用戶操作以產生觸發訊號;以及響應於觸發訊號而根據第二降噪語音訊號產生第二聲紋模型,並且儲存第二聲紋模型。
在本發明的一實施例中,上述的降噪方法更包括:通過輸入裝置接收用戶操作以產生觸發訊號;以及響應於觸發訊號而接收語音訊號。
在本發明的一實施例中,上述的降噪方法更包括:根據語音辨識模型判斷語音訊號與聲紋模型是否匹配。
在本發明的一實施例中,上述的降噪方法更包括:通過語音辨識模型將語音訊號轉換為文字訊號;以及輸出文字訊號。
本發明的一種降噪系統,包括揚聲裝置以及降噪裝置。降噪裝置通訊連接至揚聲裝置,並且儲存聲紋模型、第一降噪自動編碼器以及第二降噪自動編碼器,其中降噪裝置取得語音訊號;降噪裝置響應於語音訊號與聲紋模型匹配,將語音訊號以及聲紋模型輸入至第一降噪自動編碼器以產生第一降噪語音訊號,並且輸出第一降噪語音訊號至揚聲裝置;以及揚聲裝置播放第一降噪語音訊號。
在本發明的一實施例中,上述的降噪裝置響應於語音訊號與聲紋模型不匹配,將語音訊號輸入至第二降噪自動編碼器以產生第二降噪語音訊號,並且輸出第二降噪語音訊號至揚聲裝置;以及揚聲裝置播放第二降噪語音訊號。
在本發明的一實施例中,上述的揚聲裝置為輔聽器、助聽器或耳機。
在本發明的一實施例中,上述的降噪裝置為智慧型手機、平板電腦或筆記型電腦。
基於上述,本發明的降噪裝置可根據聲紋模型對語音訊號進行更進一步的降噪處理,藉以使語音訊號能更清楚地被降噪裝置的用戶聽見。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
為了使本發明之內容可以被更容易明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
圖1根據本發明的一實施例繪示一種降噪裝置100的示意圖。降噪裝置100例如手持裝置或穿戴式裝置。上述的手持裝置可包含但不限於筆記型電腦、個人數位助理(personal digital assistant,PDA)、個人電腦(personal computer,PC)、平板電腦或智慧型手機等。上述的穿戴式裝置可包含但不限於輔聽器、助聽器、耳機、音樂裝置、手錶、手環或項鍊等。
降噪裝置100可包含處理器110、儲存媒體120、訊號接收器130以及輸出裝置140。在一實施例中,降噪裝置100還可包含傳聲器150、輸入裝置160、震動裝置170或顯示器180。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120、訊號接收器130、輸出裝置140、傳聲器150、輸入裝置160、震動裝置170以及顯示器180,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中,儲存媒體120可儲存包含電話簿121、第一降噪自動編碼器(denoising auto-encoder,DAE)122以及第二降噪自動編碼器123等多個模組,其中電話簿121可包含但不限於對應於一或多個特定人員的聲紋模型、人員基本資料(例如:姓名)及/或電話號碼等資訊。在一實施例中,儲存媒體120還可儲存包含第三降噪自動編碼器124、語音辨識模型125或聲紋提取模組126等多個模組。上述的多個模組的功能將於後續說明。第一降噪自動編碼器122、第二降噪自動編碼器123或第三降噪自動編碼器124例如是深度降噪自動編碼器(deep denoising auto-encoder,DDAE),本發明不限於此。
訊號接收器130可以無線或有線的方式接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。
輸出裝置140可包含但不限於揚聲器或訊號傳送器。舉例來說,若降噪裝置100為智慧型手機,則輸出裝置140可以是訊號傳送器。輸出裝置140可將包含語音訊號的數位訊號傳送至外部電子裝置(例如:耳機或輔聽器),以藉由外部電子裝置播放所述語音訊號。舉另一例來說,若降噪裝置100為輔聽器,則輸出裝置140可以是揚聲器。輸出裝置140可將由降噪裝置100所產生的語音訊號轉換成聲音,並且輸出所述聲音。
傳聲器150可接收聲波,並且將聲波轉換為語音訊號。訊號接收器130可自傳聲器150接收語音訊號。
輸入裝置160可包含但不限於鍵盤或觸控螢幕。輸入裝置160可用以接收用戶操作並且產生對應的觸發訊號。用戶可通過輸入裝置160來配置降噪裝置100或指示降噪裝置100執行降噪裝置100所擁有的功能,諸如接聽電話、新增聲紋模型或更新聲紋模型等,但本發明不限於此。
震動裝置170可發出震動,以藉由震動提示降噪裝置100的用戶有事件發生。在一實施例中,震動裝置170可響應於訊號接收器130接收到來自一語音訊號的來源的撥號訊號而發出震動。舉例來說,若訊號接收器130接收到來自外部電話裝置的撥號訊號,則震動裝置170可基於所述撥號訊號發出震動。另一方面,若輸出裝置140為揚聲器,則輸出裝置140可基於所述撥號訊號發出鈴聲。用戶可根據震動或鈴聲判斷降噪裝置100接收到撥號訊號。因此,用戶可操作輸入裝置160以產生觸發訊號。訊號接收器130可響應於觸發訊號而接收對應於撥號訊號的語音訊號。換句話說,用戶可根據震動裝置170的提示而通過輸入裝置160指示降噪裝置100接聽電話。
顯示器180可包含液晶顯示器(liquid-crystal display,LCD)、發光二極體(light-emitting diode,LED)顯示器、真空螢光顯示器(vacuum fluorescent display,VFD)、等離子顯示器(plasma display panel,PDP)、有機發光顯示器(organic light-emitting diode,OLED)或場發射顯示器(field-emission display,FED)。在一實施例中,輸入裝置160與顯示器180可以是相同的裝置。舉例來說,輸入裝置160以及顯示器180可由相同的觸控螢幕實施。
訊號接收器130可取得語音訊號,其中語音訊號例如是來自外部電子裝置或傳聲器150。舉例來說,若降噪裝置100為智慧型手機,則降噪裝置100的傳聲器150可接收聲波以產生對應的語音訊號。訊號接收器130可自傳聲器150接收所述語音訊號。舉另一例來說,若降噪裝置100為輔聽器,則降噪裝置100的訊號接收器130可以無線的方式自外部電子裝置(例如:智慧型手機)接收語音訊號。換句話說,語音訊號的來源可以是與降噪裝置100的用戶接近的人員所發出的聲波或是電話通道(telephone channel)。
在一實施例中,降噪裝置100可以是手持裝置或穿戴式裝置,並且降噪裝置100可與揚聲裝置(例如:輔聽器)協同作業。降噪裝置100可產生經過降噪的語音訊號或聲波,並藉由揚聲裝置輸出所述經過降噪的語音訊號或聲波。圖2根據本發明的一實施例繪示一種降噪系統10的示意圖。降噪系統10可包含降噪裝置100以及揚聲裝置200。圖3根據本發明的一實施例繪示一種揚聲裝置200的示意圖。揚聲裝置200可包含處理器210、輸入裝置220以及揚聲器230。
處理器210例如是中央處理單元,或是其他可程式化之一般用途或特殊用途的微控制單元、微處理器、數位信號處理器、可程式化控制器、特殊應用積體電路、圖形處理器、影像訊號處理器、影像處理單元、算數邏輯單元、複雜可程式邏輯裝置、現場可程式化邏輯閘陣列或其他類似元件或上述元件的組合。處理器210可耦接至輸入裝置220以及揚聲器230。
輸入裝置220可包含但不限於傳聲器或訊號接收器。參照圖2和圖3,降噪裝置100例如是由用戶手持的智慧型手機或例如是由用戶配戴的手錶等。在一實施例中,若輸出裝置140為訊號傳送器並且輸入裝置220為訊號接收器,則降噪裝置100可通過傳聲器150接收聲波以產生對應的語音訊號。在對語音訊號進行降噪處理後,降噪裝置100可通過輸出裝置140傳送經過降噪的語音訊號給揚聲裝置200。揚聲裝置200可通過輸入裝置220接收經過降噪的語音訊號,並且對經過降噪的語音訊號進行訊號處理(例如:放大或降噪)。接著,揚聲裝置200的處理器210可通過揚聲器230播放經過訊號處理的語音訊號。
在一實施例中,若輸出裝置140為揚聲器並且輸入裝置220為傳聲器,則降噪裝置100可通過傳聲器150接收聲波以產生對應的語音訊號。在對語音訊號進行降噪處理後,降噪裝置100可通過輸出裝置140播放對應於經過降噪的語音訊號的聲波。揚聲裝置200可通過輸入裝置220接收所述聲波。在處理器210對所接收的聲波進行訊號處理(例如:放大或降噪)後,揚聲裝置200可通過揚聲器230播放經過訊號處理的聲波。
圖4根據本發明的一實施例繪示一種降噪方法的流程圖,其中所述降噪方法可由如圖1所示的降噪裝置100或由如圖2所示的降噪系統10實施。
在步驟S401中,降噪裝置100可通過訊號接收器130接收語音訊號。舉例來說,訊號接收器130可自傳聲器150接收所述語音訊號,或者,訊號接收器130可以無線的方式自外部電子裝置接收語音訊號。
在步驟S402中,降噪裝置100的處理器110可決定是否對語音訊號進行初步的降噪處理。舉例來說,處理器110可根據預存於儲存媒體120中的組態來決定是否對語音訊號進行初步的降噪處理。若處理器110決定進行初步的降噪處理,則進入步驟S403。若處理器110決定不進行初步的降噪處理,則進入步驟S404。
在步驟S403中,處理器110對語音訊號進行初步的降噪處理。舉例來說,處理器110可通過第二降噪自動編碼器123對語音訊號進行初步的降噪處理。
在步驟S404中,處理器110判斷語音訊號(即:經過或未經過初步的降噪處理的語音訊號)是否與電話簿121中的聲紋模型匹配。若語音訊號與聲紋模型匹配,則進入步驟S409。若語音訊號與聲紋模型不匹配,則進入步驟S405。
在一實施例中,在訊號接收器130接收到來自語音訊號之前,訊號接收器130可先自所述語音訊號的來源接收到對應的撥號訊號。處理器110可判斷撥號訊號(或語音訊號)的來源是否與電話簿121中對應於聲紋模型的電話號碼匹配。若來源與電話號碼匹配,則處理器110可判斷語音訊號與聲紋模型匹配。
在一實施例中,處理器110可通過語音辨識技術來判斷語音訊號是否與電話簿121中的聲紋模型匹配。具體來說,儲存媒體120可預存語音辨識模型125。處理器110可將語音訊號輸入至語音辨識模型125。語音辨識模型125可判斷輸入至語音辨識模型125的語音訊號是否與電話簿121中的聲紋模型匹配。舉例來說,電話簿121可包含多個聲紋模型。語音辨識模型125可將語音訊號分別與所述多個聲紋模型進行比對,並且從所述多個聲紋模型挑選出具有與語音訊號最相似的聲紋的聲紋模型。語音辨識模型125可進一步比對語音訊號與受選的聲紋模型,從而判斷語音訊號與受選的聲紋模型是否匹配。在一實施例中,語音辨識模型125還可具有語音轉文字(speech-to-text,STT)功能。例如,語音辨識模型125可將語音訊號轉換為對應的文字訊號。處理器110可通過顯示器180來顯示文字訊號,從而通過文字訊號來幫助用戶理解語音訊號的內容。
聲紋模型可被預存於儲存媒體120的電話簿121之中。另一方面,聲紋模型也可由處理器110根據先前由訊號接收器130所接收到的第二語音訊號而產生。圖5根據本發明的一實施例繪示產生聲紋模型的示意圖,其中X為第二語音訊號並且Y為聲紋模型。具體來說,儲存媒體120可儲存聲紋提取模組126。在處理器110通過訊號接收器130接收到第二語音訊號後,處理器110可決定是否建立對應於第二語音訊號的聲紋模型。若處理器110決定建立聲紋模型,則處理器110可將第二語音訊號輸入至聲紋提取模組126。聲紋提取模組126可基於識別向量器的演算法(iVector-based algorithm)或根據基於深度神經網路的演算法(DNN-based algorithm)來提取第二語音訊號的一或多個特徵,並且根據該些特徵產生聲紋模型。
參照圖4,在步驟S405中,處理器110可將語音訊號輸入至第二降噪自動編碼器123以產生第二降噪語音訊號,並且通過輸出裝置140輸出或傳送第二降噪語音訊號,如圖6所示。圖6根據本發明的一實施例繪示產生第二降噪語音訊號的示意圖,其中S0為語音訊號並且S2為第二降噪語音訊號。在輸出第二降噪語音訊號之前,處理器110可先對第二降噪語音訊號進行訊號處理。例如,處理器110可放大第二降噪語音訊號的輸出功率。
在步驟S406中,處理器110可判斷是否根據第二降噪語音訊號產生對應的第二聲紋模型。若處理器110判斷根據第二降噪語音訊號產生對應的第二聲紋模型,則進入步驟S408。若處理器110判斷不根據第二降噪語音訊號產生對應的第二聲紋模型,則進入步驟S407。舉例來說,在輸出第二降噪語音訊號後,處理器110可通過顯示器180顯示訊息以詢問用戶是否在電話簿121建立與第二降噪語音訊號相關的條目,其中所述條目可包含但不限於對應於第二降噪語音訊號的第二聲紋模型、人員基本資料及/或電話號碼。若用戶欲建立對應於第二降噪語音訊號的第二聲紋模型,則輸入裝置160可接收用戶操作以產生觸發訊號。觸發訊號可指示處理器110將對應於第二降噪語音的第二聲紋模型新增至電話簿121中。觸發訊號還可指示處理器110將對應於第二聲紋模型的人員基本資料或電話號碼新增至電話簿121中。
在步驟S407中,處理器110可不產生第二聲紋模型。
在步驟S408中,處理器110可根據第二降噪語音訊號產生對應的第二聲紋模型。舉例來說,處理器110可將第二降噪語音訊號輸入至聲紋提取模組126。聲紋提取模組126可根據基於識別向量器的演算法或基於深度神經網路的演算法來提取第二降噪語音訊號的一或多個特徵,從而根據該些特徵產生對應於第二降噪語音訊號的第二聲紋模型,並且儲存第二聲紋模型至儲存媒體120的電話簿121中。
在步驟S409中,處理器110可將語音訊號與對應語音訊號的聲紋模型輸入至第一降噪自動編碼器122以產生第一降噪語音訊號,並且通過輸出裝置140輸出或傳送第一降噪語音訊號。第一降噪自動編碼器122所實施的降噪演算法(或所應用的神經網路)可與第二降噪自動編碼器123所實施的降噪演算法(或所應用的神經網路)相異。在輸出第一降噪語音訊號之前,處理器110可先對第一降噪語音訊號進行訊號處理。例如,處理器110可放大第一降噪語音訊號的輸出功率。
在一實施例中,處理器110可根據第一降噪自動編碼器122以及第三降噪自動編碼器124來產生第一降噪語音訊號。圖7根據本發明的一實施例繪示產生第一降噪語音訊號的示意圖,其中S0為語音訊號、Y為聲紋模型、S3為第三降噪語音訊號並且S1為第一降噪語音訊號。處理器110可將語音訊號以及聲紋模型輸入至第一降噪自動編碼器122以產生第三降噪語音訊號。接著,處理器110可將語音訊號以及第三降噪語音訊號輸入至第三降噪自動編碼器124以產生第一降噪語音訊號。第三降噪自動編碼器124所實施的降噪演算法(或所應用的神經網路)可與第一降噪自動編碼器122所實施的降噪演算法或第二降噪自動編碼器123所實施的降噪演算法相異。
回到圖4,在步驟S410中,處理器110可判斷是否根據第一降噪語音訊號更新對應的聲紋模型。若處理器110判斷根據第一降噪語音訊號更新對應的聲紋模型,則進入步驟S412。若處理器110不判斷根據第一降噪語音訊號更新對應的聲紋模型,則進入步驟S411。舉例來說,在輸出第一降噪語音訊號後,處理器110可通過顯示器180顯示訊息以詢問用戶是否更新電話簿121中與第一降噪語音訊號相關的條目,其中所述條目可包含但不限於對應於第二降噪語音訊號的聲紋模型、人員基本資料及/或電話號碼。若用戶欲更新對應於第一降噪語音訊號的聲紋模型,則輸入裝置160可接收用戶操作以產生觸發訊號。觸發訊號可指示處理器110根據第一降噪語音訊號來更新儲存在電話簿121中的聲紋模型。觸發訊號還可指示處理器110更新電話簿121中的對應於第二聲紋模型的人員基本資料或電話號碼。
在步驟S411中,處理器110可不更新聲紋模型。
在步驟S412中,處理器110可根據第一降噪語音訊號更新對應的聲紋模型。舉例來說,處理器110可將第一降噪語音訊號輸入至聲紋提取模組126。聲紋提取模組126可根據基於識別向量器的演算法或基於深度神經網路的演算法來提取第一降噪語音訊號的一或多個特徵,從而根據該些特徵以產生對應於第一降噪語音訊號的新的聲紋模型,並且將儲存在電話簿121中的原始的聲紋模型更新為新的聲紋模型。
圖8根據本發明的一實施例繪示一種適用於降噪裝置100的降噪方法的流程圖。在步驟S801中,取得語音訊號。在步驟S802中,判斷語音訊號以及聲紋模型是否匹配。在步驟S803中,響應於語音訊號與聲紋模型匹配,根據語音訊號、聲紋模型以及第一降噪處理產生第一降噪語音訊號,並且輸出第一降噪語音訊號。
圖9根據本發明的一實施例繪示一種適用於降噪系統10的降噪方法的流程圖。在步驟S901中,由降噪裝置儲存聲紋模型。在步驟S902中,由降噪裝置取得語音訊號。在步驟S903中,由降噪裝置響應於語音訊號與聲紋模型匹配,根據語音訊號、聲紋模型以及第一降噪處理產生第一降噪語音訊號,並且輸出第一降噪語音訊號至揚聲裝置。
綜上所述,本發明的降噪裝置可儲存包含特定人員的聲紋模型的電話簿。當降噪裝置通過接起電話或感測用戶的周遭而取得語音訊號時,降噪裝置可判斷所述語音訊號是否與聲紋模型匹配。若所述語音與聲紋模型匹配,則降噪裝置可根據聲紋模型以對所述語音進行更進一步的降噪處理,藉以使所述名特定人員的聲音能更清楚地被降噪裝置的用戶聽見。基此,與降噪裝置的用戶認識的人員的語音可經語音處理而變得更加的清晰。
10:降噪系統
100: 降噪裝置
110、210:處理器
120、220:儲存媒體
121:電話簿
122:第一降噪自動編碼器
123:第二降噪自動編碼器
124:第三降噪自動編碼器
125:語音辨識模型
126:聲紋提取模組
130:訊號接收器
140:輸出裝置
150:傳聲器
160:輸入裝置
170:震動裝置
180:顯示器
200:揚聲裝置
230:揚聲器
S0:語音訊號
S1:第一降噪語音訊號
S2:第二降噪語音訊號
S3:第三降噪語音訊號
S401、S402、S403、S404、S405、S406、S407、S408、S409、S410、S411、S412、S801、S802、S803、S901、S902、S903:步驟
X:第二語音訊號
Y:聲紋模型
圖1根據本發明的一實施例繪示一種降噪裝置的示意圖。
圖2根據本發明的一實施例繪示一種降噪系統的示意圖。
圖3根據本發明的一實施例繪示一種揚聲裝置的示意圖。
圖4根據本發明的一實施例繪示一種降噪方法的流程圖。
圖5根據本發明的一實施例繪示產生聲紋模型的示意圖。
圖6根據本發明的一實施例繪示產生第二降噪語音訊號的示意圖。
圖7根據本發明的一實施例繪示產生第一降噪語音訊號的示意圖。
圖8根據本發明的一實施例繪示一種適用於降噪裝置的降噪方法的流程圖。
圖9根據本發明的一實施例繪示一種適用於降噪系統的降噪方法的流程圖。
S401、S402、S403、S404、S405、S406、S407、S408、S409、S410、S411、S412:步驟
Claims (34)
- 一種降噪裝置,包括:輸出裝置;儲存媒體,儲存聲紋模型、第一降噪自動編碼器、第二降噪自動編碼器以及第三降噪自動編碼器;訊號接收器,取得語音訊號;以及處理器,耦接所述儲存媒體、所述訊號接收器以及所述輸出裝置,其中所述處理器響應於所述語音訊號與所述聲紋模型匹配,將所述語音訊號以及所述聲紋模型輸入至所述第一降噪自動編碼器以產生第三降噪語音訊號,將所述第三降噪語音訊號以及所述語音訊號輸入至所述第三降噪自動編碼器以產生第一降噪語音訊號,並且通過所述輸出裝置輸出所述第一降噪語音訊號。
- 如請求項1所述的降噪裝置,其中所述處理器響應於所述語音訊號與所述聲紋模型不匹配,將所述語音訊號輸入至所述第二降噪自動編碼器以產生第二降噪語音訊號,並且通過所述輸出裝置輸出所述第二降噪語音訊號。
- 如請求項1所述的降噪裝置,其中所述儲存媒體更儲存聲紋提取模組,其中所述處理器將所述第一降噪語音訊號輸入至所述聲紋提取模組以更新所述聲紋模型。
- 如請求項3所述的降噪裝置,其中所述聲紋提取模組根據基於識別向量器的演算法或基於深度神經網路的演算法來更新所述聲紋模型。
- 如請求項2所述的降噪裝置,其中所述儲存媒體更儲存聲紋提取模組,其中所述處理器將所述第二降噪語音訊號輸入至所述聲紋提取模組以產生第二聲紋模型。
- 如請求項5所述的降噪裝置,其中所述聲紋提取模組根據基於識別向量器的演算法或基於深度神經網路的演算法來產生所述第二聲紋模型。
- 如請求項1所述的降噪裝置,其中所述儲存媒體更儲存對應於所述聲紋模型的電話號碼,其中所述處理器響應於所述語音訊號的來源與所述電話號碼匹配而判斷所述語音訊號與所述聲紋模型匹配。
- 如請求項1所述的降噪裝置,更包括:輸入裝置,耦接所述處理器,其中所述輸入裝置接收用戶操作以產生觸發訊號,其中所述處理器響應於所述觸發訊號而根據所述第一降噪語音訊號更新所述聲紋模型。
- 如請求項2所述的降噪裝置,更包括:輸入裝置,耦接所述處理器,其中所述輸入裝置接收用戶操作以產生觸發訊號,其中所述處理器響應於所述觸發訊號而根據所述第二降噪語音訊號產生第二聲紋模型,並且儲存所述第二聲 紋模型至所述儲存媒體。
- 如請求項1所述的降噪裝置,更包括:輸入裝置,耦接所述處理器,其中所述輸入裝置接收用戶操作以產生觸發訊號,其中所述訊號接收器響應於所述觸發訊號而接收所述語音訊號。
- 如請求項7所述的降噪裝置,更包括:震動裝置,耦接所述處理器,其中所述震動裝置響應於所述訊號接收器接收來自所述來源的撥號訊號而震動。
- 如請求項1所述的降噪裝置,其中所述儲存媒體更儲存語音辨識模型,其中所述處理器根據所述語音辨識模型判斷所述語音訊號與所述聲紋模型是否匹配。
- 如請求項12所述的降噪裝置,其中所述語音辨識模型將所述語音訊號轉換為文字訊號,其中所述降噪裝置更包括顯示器,並且所述處理器通過所述顯示器輸出所述文字訊號。
- 如請求項1所述的降噪裝置,其中所述輸出裝置包括揚聲器以及訊號傳送器的其中之一。
- 如請求項1所述的降噪裝置,更包括:傳聲器,耦接所述訊號接收器,其中所述傳聲器接收聲波以產生所述語音訊號。
- 一種降噪方法,包括:取得語音訊號; 判斷所述語音訊號以及聲紋模型是否匹配;以及響應於所述語音訊號與所述聲紋模型匹配,根據所述語音訊號、所述聲紋模型以及第一降噪處理產生第一降噪語音訊號,並且輸出所述第一降噪語音訊號,包括:根據所述語音訊號、所述聲紋模型以及所述第一降噪處理產生第三降噪語音訊號;以及根據所述第三降噪語音訊號、所述語音訊號以及第三降噪處理產生所述第一降噪語音訊號。
- 如請求項16所述的降噪方法,更包括:響應於所述語音訊號與所述聲紋模型不匹配,根據所述語音訊號以及第二降噪處理產生第二降噪語音訊號,並且輸出所述第二降噪語音訊號。
- 如請求項16所述的降噪方法,更包括:根據所述第一降噪語音訊號更新所述聲紋模型。
- 如請求項18所述的降噪方法,其中根據所述第一降噪語音訊號更新所述聲紋模型的步驟包括:根據基於識別向量器的演算法或基於深度神經網路的演算法來更新所述聲紋模型。
- 如請求項17所述的降噪方法,更包括:根據所述第二降噪語音訊號產生第二聲紋模型,並且儲存所述第二聲紋模型。
- 如請求項20所述的降噪方法,其中根據所述第二降噪語音訊號產生所述第二聲紋模型的步驟包括:根據基於識別向量器的演算法或基於深度神經網路的演算法來產生所述第二聲紋模型。
- 如請求項16所述的降噪方法,更包括:取得對應於所述聲紋模型的電話號碼;以及響應於所述語音訊號的來源與所述電話號碼匹配而判斷所述語音訊號與所述聲紋模型匹配。
- 如請求項16所述的降噪方法,更包括:通過輸入裝置接收用戶操作以產生觸發訊號;以及響應於所述觸發訊號而根據所述第一降噪語音訊號更新所述聲紋模型。
- 如請求項17所述的降噪方法,更包括:通過輸入裝置接收用戶操作以產生觸發訊號;以及響應於所述觸發訊號而根據所述第二降噪語音訊號產生第二聲紋模型,並且儲存所述第二聲紋模型。
- 如請求項16所述的降噪方法,更包括:通過輸入裝置接收用戶操作以產生觸發訊號;以及響應於所述觸發訊號而接收所述語音訊號。
- 如請求項16所述的降噪方法,更包括:根據語音辨識模型判斷所述語音訊號與所述聲紋模型是否匹 配。
- 如請求項26所述的降噪方法,更包括:通過語音辨識模型將所述語音訊號轉換為文字訊號;以及輸出所述文字訊號。
- 一種降噪系統,包括揚聲裝置以及如請求項1的降噪裝置,其中所述降噪裝置通訊連接至所述揚聲裝置,並且輸出所述第一降噪語音訊號至所述揚聲裝置,其中所述揚聲裝置播放所述第一降噪語音訊號。
- 如請求項28所述的降噪系統,其中所述降噪裝置響應於所述語音訊號與所述聲紋模型不匹配,將所述語音訊號輸入至所述第二降噪自動編碼器以產生第二降噪語音訊號,並且輸出所述第二降噪語音訊號至所述揚聲裝置;以及所述揚聲裝置播放所述第二降噪語音訊號。
- 如請求項28所述的降噪系統,其中所述揚聲裝置為輔聽器、助聽器或耳機。
- 如請求項28所述的降噪系統,其中所述降噪裝置為智慧型手機、平板電腦或筆記型電腦。
- 一種降噪裝置,包括:輸出裝置;儲存媒體,儲存聲紋模型、第一降噪自動編碼器、第二降噪 自動編碼器以及對應於所述聲紋模型的電話號碼;訊號接收器,取得語音訊號;以及處理器,耦接所述儲存媒體、所述訊號接收器以及所述輸出裝置,其中所述處理器響應於所述語音訊號的來源與所述電話號碼匹配而判斷所述語音訊號與所述聲紋模型匹配,其中所述處理器響應於所述語音訊號與所述聲紋模型匹配,將所述語音訊號以及所述聲紋模型輸入至所述第一降噪自動編碼器以產生第一降噪語音訊號,並且通過所述輸出裝置輸出所述第一降噪語音訊號。
- 一種降噪裝置,包括:輸出裝置;輸入裝置;儲存媒體,儲存聲紋模型、第一降噪自動編碼器以及第二降噪自動編碼器;訊號接收器,取得語音訊號;以及處理器,耦接所述儲存媒體、所述訊號接收器、所述輸入裝置以及所述輸出裝置,其中所述處理器響應於所述語音訊號與所述聲紋模型匹配,將所述語音訊號以及所述聲紋模型輸入至所述第一降噪自動編碼器以產生第一降噪語音訊號,並且通過所述輸出裝置輸出所述第一降 噪語音訊號,其中所述輸入裝置接收用戶操作以產生觸發訊號,其中所述處理器響應於所述觸發訊號而根據所述第一降噪語音訊號更新所述聲紋模型。
- 一種降噪裝置,包括:輸出裝置;輸入裝置;儲存媒體,儲存聲紋模型、第一降噪自動編碼器以及第二降噪自動編碼器;訊號接收器,取得語音訊號;以及處理器,耦接所述儲存媒體、所述訊號接收器、所述輸入裝置以及所述輸出裝置,其中所述處理器響應於所述語音訊號與所述聲紋模型匹配,將所述語音訊號以及所述聲紋模型輸入至所述第一降噪自動編碼器以產生第一降噪語音訊號,並且通過所述輸出裝置輸出所述第一降噪語音訊號,其中所述輸入裝置接收用戶操作以產生觸發訊號,其中所述訊號接收器響應於所述觸發訊號而接收所述語音訊號。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962849966P | 2019-05-20 | 2019-05-20 | |
US62/849,966 | 2019-05-20 | ||
US201962877801P | 2019-07-23 | 2019-07-23 | |
US62/877,801 | 2019-07-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202103147A TW202103147A (zh) | 2021-01-16 |
TWI745968B true TWI745968B (zh) | 2021-11-11 |
Family
ID=75234547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109116524A TWI745968B (zh) | 2019-05-20 | 2020-05-19 | 降噪方法和使用該方法的降噪裝置及降噪系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI745968B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201430830A (zh) * | 2013-01-28 | 2014-08-01 | Tencent Tech Shenzhen Co Ltd | 一種聲紋識別方法和裝置 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
US20180366128A1 (en) * | 2017-06-16 | 2018-12-20 | Alibaba Group Holding Limited | Data update method, client, and electronic device |
-
2020
- 2020-05-19 TW TW109116524A patent/TWI745968B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201430830A (zh) * | 2013-01-28 | 2014-08-01 | Tencent Tech Shenzhen Co Ltd | 一種聲紋識別方法和裝置 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
US20180366128A1 (en) * | 2017-06-16 | 2018-12-20 | Alibaba Group Holding Limited | Data update method, client, and electronic device |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TW202103147A (zh) | 2021-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8526649B2 (en) | Providing notification sounds in a customizable manner | |
WO2015102040A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品 | |
EP3598435B1 (en) | Method for processing information and electronic device | |
CN108781241B (zh) | 用于声学回声消除的装置和方法 | |
WO2021263136A3 (en) | Systems, apparatus, and methods for acoustic transparency | |
JP6268033B2 (ja) | 携帯端末 | |
US20080118081A1 (en) | Method and Apparatus for Canceling a User's Voice | |
WO2019228329A1 (zh) | 个人听力装置、外部声音处理装置及相关计算机程序产品 | |
CN110837353B (zh) | 补偿耳内音频信号的方法、电子装置及记录介质 | |
CN115412788A (zh) | 耳挂式麦克风 | |
TWI624183B (zh) | 電話語音處理之方法及其電腦程式 | |
TWI745968B (zh) | 降噪方法和使用該方法的降噪裝置及降噪系統 | |
TWI603627B (zh) | 處理聲音段之方法及其電腦程式產品及助聽器 | |
TWI764151B (zh) | 過濾聲音的方法以及聲音濾波器 | |
JP2019110447A (ja) | 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム | |
CN111757211A (zh) | 降噪方法、终端设备及存储介质 | |
US20150201057A1 (en) | Method of processing telephone voice output and earphone | |
JP5644610B2 (ja) | 通信装置および受話音量設定プログラム | |
KR101536650B1 (ko) | 음성 신호 처리 방법 및 이를 포함하는 장치 | |
CN111615036B (zh) | 一种数据处理方法、装置及电子设备 | |
TWI519123B (zh) | 電話語音輸出之方法,用於電話語音之電腦程式產品及可撥打電話之電子裝置 | |
CN111263003B (zh) | 信号控制方法、装置、电路、存储介质及电子设备 | |
TWI656525B (zh) | 高保真語音裝置 | |
JP2023044750A (ja) | 音波出力装置、音波出力方法、および音波出力プログラム | |
US10887459B1 (en) | Identifying a live person on a phone call |