TW201705122A - 音訊處理系統及其音訊處理方法 - Google Patents
音訊處理系統及其音訊處理方法 Download PDFInfo
- Publication number
- TW201705122A TW201705122A TW104127106A TW104127106A TW201705122A TW 201705122 A TW201705122 A TW 201705122A TW 104127106 A TW104127106 A TW 104127106A TW 104127106 A TW104127106 A TW 104127106A TW 201705122 A TW201705122 A TW 201705122A
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- sound
- audio processing
- voice
- component signal
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Abstract
一種音訊處理系統及其音訊處理方法。所述音訊處理方法包括下列步驟。透過多個收音器接收來自不同方向的第一聲音信號及至少一個第二聲音信號。對第一聲音信號進行信號分離處理以計算出第一成分信號及第二成分信號。對第二聲音信號進行信號分離處理以計算出第三成分信號及第四成分信號。計算第一成分信號及第三成分信號以獲得主要語音資訊。計算第二成分信號及第四成分信號以獲得非主要語音資訊。將第一聲音信號減去非主要語音資訊以獲得運算結果。計算運算結果與主要語音資訊的總和以獲得第一聲音信號及第二聲音信號中的主要語音信號。
Description
本發明是有關於一種音訊處理技術, 且特別是有關於一種可應用於互聯網的互動顯示系統的音訊處理系統及其音訊處理方法。
隨著科技發展, 互動式技術逐漸成為一種新的輸入輸出( input/output, I/O) 介面以提供良好的操作體驗。對於互動顯示裝置而言, 語音辨識可藉由比對語音信號的語音特徵以及資料庫, 以辨識出使用者的語音信號。此外, 也可透過辨識與語音信號對應的語音指令, 以使互動顯示裝置能夠基於語音指令進而執行對應的操作。
當接收自使用者的語音信號不包括環境噪音時,語音辨識可以獲得正確的結果。然而,在透過收音器接收語音信號時,常會伴隨地接收到背景雜訊(例如環境噪音和/或在互動顯示系統中的裝置所製造的噪音),造成語音辨識的品質不佳。
本發明提供一種音訊處理系統及其音訊處理方法, 其可有效萃取出主要語音信號, 藉此提升語音辨識的精確度。
本發明提出一種音訊處理方法,其適用於包括收音裝置的音訊處理系統,且收音裝置包括多個收音器。所述音訊處理方法包括下列步驟。透過收音器接收來自不同方向的第一聲音信號及至少一個第二聲音信號。對第一聲音信號進行信號分離處理以計算出第一成分信號以及第二成分信號。對各所述至少一個第二聲音信號進行信號分離處理以計算出第三成分信號以及第四成分信號。計算第一成分信號及所述至少一個第三成分信號以獲得主要語音資訊。計算第二成分信號及所述至少一個第四成分信號以獲得非主要語音資訊。將第一聲音信號減去非主要語音資訊以獲得運算結果。計算運算結果與主要語音資訊的總和以獲得第一聲音信號及所述至少一個第二聲音信號中的主要語音信號。
在本發明的一實施例中,上述的收音器包括第一收音器及至少一個第二收音器,且透過收音器接收來自不同方向的第一聲音信號及至少一個第二聲音信號的步驟包括透過第一收音器接收第一聲音信號,以及透過至少一個第二收音器接收至少一個第二聲音信號。其中,主要語音信號由聲音源所發出,且第一收音器用以接收聲音源所發出的最大強度的主要語音信號,至少一個第二收音器用以偵測主要語音信號的雜訊。
在本發明的一實施例中,上述的音訊處理系統更包括顯示單元,其配置於音訊處理系統的第一側,並用以依據主要語音信號顯示對應的訊息。第一收音器配置於音訊處理系統的第一側,且至少一個第二收音器配置於音訊處理系統的至少一個第二側。所述第二側與第一側為不同側。
在本發明的一實施例中,上述的音訊處理系統更包括穿戴式電子裝置,第一收音器配置於穿戴式電子裝置,且透過第一收音器接收第一聲音信號的步驟包括透過無線通訊連結與穿戴式電子裝置連接,以及經由無線通訊連結以接收第一收音器所接收到的第一聲音信號。
在本發明的一實施例中,上述的音訊處理系統更包括第一無線通訊單元,且透過無線通訊連結與穿戴式電子裝置連接的步驟包括透過第一無線通訊單元與穿戴式電子裝置的第二無線通訊單元進行配對,以與第二無線通訊單元建立無線通訊連結。
在本發明的一實施例中,上述的第一無線通訊單元包括無線保真模組或藍牙模組的至少其中之一。
在本發明的一實施例中,上述計算第一成分信號及至少一個第三成分信號以獲得主要語音資訊的步驟包括將第一成分信號減去至少一個第三成分信號,以產生主要語音資訊。
在本發明的一實施例中,上述計算該第二成分信號及該至少一第四成分信號以獲得該非主要語音資訊的步驟包括將第二成分信號減去至少一個第四成分信號,以產生非主要語音資訊。
在本發明的一實施例中,上述音訊處理方法更包括比對主要語音信號與資料庫以進行語音辨識,以及依據主要語音信號執行對應的操作。
在本發明的一實施例中,上述比對主要語音信號與資料庫以進行語音辨識的步驟包括判斷主要語音信號的語音特徵是否與資料庫中所儲存的多個語音特徵的其中之一相同,以及當主要語音信號的語音特徵與資料庫中所儲存的語音特徵不同時,儲存主要語音信號的語音特徵至資料庫。
本發明另提出一種音訊處理系統,其包括收音裝置以及處理單元。收音裝置包括多個收音器,用以接收來自不同方向的第一聲音信號及至少一個第二聲音信號。處理單元耦接收音裝置,對第一聲音信號進行信號分離處理以計算出第一成分信號以及第二成分信號,對各所述至少一個第二聲音信號進行信號分離處理以計算出第三成分信號以及第四成分信號,計算第一成分信號及至少一個第三成分信號以獲得主要語音資訊,計算第二成分信號及至少一個第四成分信號以獲得非主要語音資訊,將第一聲音信號減去非主要語音資訊以獲得運算結果,以及計算運算結果與主要語音資訊的總和以獲得第一聲音信號及至少一個第二聲音信號中的主要語音信號。
在本發明的一實施例中,上述的收音器包括第一收音器及至少一個第二收音器,且第一收音器接收第一聲音信號,以及至少一個第二收音器接收至少一個第二聲音信號。主要語音信號由聲音源所發出,且第一收音器用以接收聲音源所發出的最大強度的主要語音信號,所述至少一個第二收音器用以偵測主要語音信號的雜訊。
在本發明的一實施例中,上述的音訊處理系統更包括顯示單元,其配置於音訊處理系統的第一側,並用以依據主要語音信號顯示對應的訊息。其中,第一收音器配置於音訊處理系統的第一側,且至少一個第二收音器配置於音訊處理系統的至少一個第二側,所述第二側與第一側為不同側。
在本發明的一實施例中,上述的音訊處理系統更包括穿戴式電子裝置,其耦接處理單元。其中,第一收音器配置於穿戴式電子裝置,處理單元透過無線通訊連結與穿戴式電子裝置連接,以及經由無線通訊連結以接收第一收音器所接收的第一聲音信號。
在本發明的一實施例中,上述的音訊處理系統更包括第一無線通訊單元,其耦接處理單元,用以與穿戴式電子裝置的第二無線通訊單元進行配對,以與第二無線通訊單元建立無線通訊連結。
在本發明的一實施例中,上述的第一無線通訊單元包括無線保真模組或藍牙模組的至少其中之一。
在本發明的一實施例中,上述的處理單元用以將第一成分信號減去至少一個第三成分信號,以產生主要語音資訊。
在本發明的一實施例中,上述的處理單元用以將第二成分信號減去至少一個第四成分信號,以產生非主要語音資訊。
在本發明的一實施例中,上述的處理單元用以比對主要語音信號與資料庫以進行語音辨識,以及用以依據主要語音信號執行對應的操作。
在本發明的一實施例中,上述的處理單元用以判斷主要語音信號的語音特徵是否與資料庫中所儲存的多個語音特徵的其中之一相同,以及當主要語音信號的語音特徵與資料庫中所儲存的語音特徵不同時,處理單元儲存主要語音信號的語音特徵至資料庫。
基於上述,本發明實施例所提出的音訊處理系統及其音訊處理方法可從不同方向接收多個聲音信號,並將各聲音信號分離成主要語音成分信號以及可視為雜訊的非主要語音成分信號。藉此,本發明實施例可基於非主要語音成分信號以有效減少雜訊,並且基於主要語音成分信號以增加主要語音信號的強度,從而提升語音品質以及語音辨識的精確度。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1 是依照本發明一實施例所繪示的一種音訊處理系統的方塊圖。請參照圖1,音訊處理系統100 包括收音裝置110、處理單元120、顯示單元130 以及儲存單元140, 其功能分述如下。
收音裝置110可包括多個收音器,其用以接收來自不同方向的多個聲音信號。在本實施例中,收音器可包括第一收音器112以及至少一個第二收音器114。為了便於說明,圖1中僅繪示出1個第二收音器114,然而,本發明並不限制第二收音器的數量。需注意的是,第一收音器112可用以接收一聲音源所發出的最大強度的主要語音信號,而所述至少一個第二收音器(例如第二收音器114)則可用以偵測主要語音信號的雜訊。
處理單元120例如是單晶片、一般用途處理器(General-Purpose Processor)、特殊用途處理器、傳統的處理器、數位信號處理器(Digital Signal Processor,DSP)、多個微處理器(Microprocessor)、一個或多個結合數位信號處理器核心的微處理器、控制器、微控制器、特殊應用集成電路(Application Specific Integrated Circuit,ASIC)、帶有數位信號處理器核心的場可程式閘陣列電路(Field Programmable Gate Array,FPGA)等。在本實施例中,處理單元120用以實現本發明實施例所提出的音訊處理方法。
顯示單元130可包括液晶顯示器(Liquid Crystal Display,LCD)、發光二極體(light-Emitting Diode,LED)顯示器、場發射顯示器(Field Emission Display,FED)或其他種類的顯示器。在一些實施例中,顯示單元130可由上述顯示器的其中一者與電阻式、電容式、光學式、超音波式等觸控面板組合而成,以同時提供顯示及觸控操作功能。
儲存裝置140可用以儲存資料(例如接收到的聲音信號、執行信號分離處理所產生的信號、主要語音資訊以及非主要語音資訊等)並提供處理單元120進行存取。在本實施例中,儲存單元140可包括用來儲存語音特徵的資料庫,其用以執行語音辨識。儲存裝置140例如是硬碟(Hard Disk Drive,HDD)、揮發性記憶體(Volatile Memory)及非揮發性記憶體(Non-Volatile Memory)。
圖2是依照本發明一實施例所繪示的一種音訊處理方法的流程圖,且適用於圖1的音訊處理系統100。以下即搭配音訊處理系統100的各個元件來說明本方法的詳細步驟。
請同時參照圖1及圖2,在步驟S210中,透過收音器接收來自不同方向的第一聲音信號及至少一個第二聲音信號。具體而言,在本實施例中,第一收音器112可用以接收第一聲音信號,且至少一個第二收音器114可用以接收所述至少一個第二聲音信號。
在步驟S220中,處理單元120對第一聲音信號進行信號分離處理以計算出第一成分信號以及第二成分信號。在步驟S230中,處理單元120對各所述第二聲音信號進行信號分離處理以計算出第三成分信號以及第四成分信號。
詳言之,處理單元120可執行獨立成分分析(Independent Component Analysis,ICA)以執行信號分離處理,從而對第一聲音信號以及所述至少一個第二聲音信號進行分離。此外,第一成分信號可為第一聲音信號中的主要語音成分信號,且相對於第一成分信號而言,第二成分信號可為非主要語音成分信號(例如環境雜訊或其他雜訊)。類似地,所述至少一個第三成分信號可為第二聲音信號中的主要語音成分信號,且相對於第三成分信號而言,第四成分信號可為非主要語音成分信號。
在步驟S240中,處理單元120計算第一成分信號及至少一個第三成分信號以獲得主要語音資訊。在步驟S250中,處理單元120計算第二成分信號及至少一個第四成分信號以獲得非主要語音資訊。
具體來說,主要語音資訊可基於第一成分信號和第三成分信號之間的權重比例而計算得到。類似地,非主要語音資訊可基於第二成分信號和第四成分信號之間的權重比例而計算得到。特別是,上述基於第一成分信號和第三成分信號之間的權重比例以及第二成分信號和第四成分信號之間的權重比例所進行的計算可透過信號減法處理來實現。例如,在一實施例中,處理單元120可用以將第一成分信號減去所述至少一個第三成分信號,以產生主要語音資訊。此外,處理單元120可用以將第二成分信號減去所述至少一個第四成分信號,以產生非主要語音資訊。
在步驟S260中,處理單元120將第一聲音信號減去非主要語音資訊以獲得一運算結果,以及在步驟S270中,處理單元120計算運算結果與主要語音資訊的總和以獲得第一聲音信號及至少一個第二聲音信號中的主要語音信號。
因此,本實施例藉由使用多個收音器以及對各個接收到的聲音信號執行信號分離處理,可獲得非主要語音資訊以及主要語音資訊。之後,本實施例便可利用非主要語音資訊消除主要語音信號中的雜訊,以及利用主要語音資訊進一步提升主要語音信號的強度,藉此而有效改善語音品質。
圖3是依照本發明一實施例所繪示的互動顯示系統的示意圖,其分別繪示出互動顯示系統300的正面圖300A、背面圖300B以及側面圖300C。互動顯示系統300的音訊處理系統可基於圖1中的音訊處理系統100而實現。因此,互動顯示系統300的音訊處理系統也可包括收音裝置110、處理單元120、顯示單元130以及儲存單元140,且這些元件的功能可與前述實施例類似。為了便於以下說明,圖3僅繪示出在互動顯示系統300的音訊處理系統中的顯示單元130。
在本實施例中,如正面圖300A所示,顯示單元130可配置於互動顯示系統300的正面(即,第一側)。收音裝置110包括收音器MIC1、MIC2以及MIC3,其用以接收來自不同方向的多個聲音信號。需注意的是,為了能夠有效地分別接收主要語音信號(即,使用者的語音指令及語音特徵)以及雜訊,收音器MIC1可配置於互動顯示系統300的正面(如正面圖300A所示),而收音器MIC2以及MIC3則可配置於互動顯示系統300的其他側(即,至少一個第二側)而與上述的正面不相同。在圖3的實施例中,收音器MIC2可配置於側面(如側面圖300C所示),且收音器MIC3可配置於互動顯示系統300的背面(如背面圖300B所示)。因此,收音器MIC2可用以接收揚聲器152所產生的雜訊,且收音器MIC3可用以接收揚聲器152、154以及風扇160所產生的雜訊。換言之,收音器MIC2以及MIC3(即,所述至少一個第二收音器)可用以偵測主要語音信號的雜訊。此外,收音器MIC1(即,所述第一收音器)則可接收聲音源(即,使用者)所發出的最大強度的主要語音信號。
值得一提的是,在互動顯示系統300的音訊處理系統中,儲存單元140可包括資料庫DB,並用以儲存用來進行語音辨識的多個語音特徵,其細節將於之後進行說明。
基於上述架構,圖4A和圖4B的實施例繪示出音訊處理的詳細流程。
圖4A和圖4B是依照本發明一實施例所繪示的音訊處理方法的示意圖,且適用於圖3的互動顯示系統300的音訊處理系統。
請先參照圖4A,收音器MIC1、MIC2以及MIC3可分別接收聲音信號AU1、AU2以及AU3。其中,聲音信號AU1可對應於第一聲音信號,且聲音信號AU2、AU3可對應於第二聲音信號。接著,在步驟S410中,處理單元120可對各個聲音信號AU1、AU2以及AU3執行信號分離處理。在本實施例中,聲音信號AU1可被分離成語音成分信號V1以及雜訊成分信號N1,聲音信號AU2可被分離成語音成分信號V2以及雜訊成分信號N2,且聲音信號AU3可被分離成語音成分信號V3以及雜訊成分信號N3。
在步驟S420中,處理單元120可藉由將語音成分信號V1減去語音成分信號V2以及語音成分信號V3,以獲得主要語音資訊MVI。另一方面,在步驟S430中,處理單元120可藉由將雜訊成分信號N1減去雜訊成分信號N2以及雜訊成分信號N3,以獲得非主要語音資訊NMVI。步驟S420、S430的執行順序可基於設計需求而適應性地調整。
接著,請參照圖4B,處理單元120可使用聲音信號AU1、非主要語音資訊NMVI以及主要語音資訊MVI以萃取出主要語音信號MVS。具體而言,在步驟S440中,處理單元120可將聲音信號AU1減去非主要語音資訊NMVI,以獲得運算結果CR。之後,在步驟S450中,處理單元120可計算運算結果CR與主要語音資訊MVI的總和,以獲得聲音信號AU1、AU2以及AU3中的主要語音信號MVS。
值得一提的是,處理單元120可在時域中執行步驟S420、S430、S440以及S450的運算。在其他實施例中,處理單元120可將聲音信號AU1、AU2以及AU3從時域轉換至頻域,接著再執行步驟S420、S430、S440以及S450的運算。換言之,本發明並不限制上述運算中所使用的信號類型。
基於圖3所示的互動顯示系統300的音訊處理系統,以下實施例則對音訊處理流程進行說明。
圖5是依照本發明一實施例所繪示的一種音訊處理方法的流程圖。請參照圖5,在步驟S510中,處理單元120致能音訊偵測。舉例而言,當接收到來自使用者的致能操作,或是偵測到位於顯示單元130前方的使用者的臉部時,處理單元120可被觸發而致能音訊偵測。
在步驟S520中,處理單元120判斷是否透過收音器MIC1、MIC2以及MIC3接收到聲音信號AU1、AU2以及AU3。當接收到聲音信號AU1、AU2以及AU3時,在步驟S530中,處理單元120執行音訊處理動作(其細節如圖4A和圖4B的實施例中所繪示),並在步驟S540中獲得主要語音信號MVS。
在從聲音信號AU1、AU2以及AU3中萃取出主要語音信號MVS之後,處理單元120可比對主要語音信號以及資料庫DB以進行語音辨識。詳細而言,在步驟S550中,處理單元120判斷主要語音信號MVS的語音特徵是否與資料庫DB中所儲存的多個語音特徵的其中之一相同。當主要語音信號MVS的語音特徵與資料庫DB中所儲存的語音特徵相同時,在步驟S560中,處理單元120依據主要語音信號MVS執行對應的操作。例如,處理單元120可依據主要語音信號MVS而在顯示單元130上顯示對應的訊息,或是反應於主要語音信號MVS而藉由揚聲器152、154來輸出回應訊息。
另一方面,當主要語音信號MVS的語音特徵與資料庫DB中所儲存的語音特徵不同時,在步驟S570中,處理單元120可儲存主要語音信號MVS的語音特徵至資料庫DB,接著再進入步驟S560以依據主要語音信號MVS執行對應的操作。
藉此,透過從不同方向接收多個聲音信號,並對各個接收到的聲音信號執行信號分離處理,本發明實施例可有效地萃取出主要語音信號MVS,從而實現高準確度的語音辨識。此外,還可應用於更新資料庫DB中所儲存的語音特徵,因此能夠適用於語音訓練流程。
需注意的是,第一收音器112的配置可基於設計需求而適應性地調整。在另一實施例中,音訊處理系統可應用於包括穿戴式電子裝置以及互動顯示裝置的互動顯示系統,且第一收音器112可配置於穿戴式電子裝置上。以下對此實施例進行詳細說明。
圖6是依照本發明另一實施例所繪示的互動顯示系統的示意圖,其分別繪示出互動顯示系統600的正面圖600A以及背面圖600B。互動顯示系統600的音訊處理系統可基於圖1中的音訊處理系統100而實現。因此,互動顯示系統600的音訊處理系統也可包括收音裝置110、處理單元120、顯示單元130以及儲存單元140,且這些元件的功能可與前述實施例類似。類似地,為了便於以下說明,圖6僅繪示出在互動顯示系統600的音訊處理系統中的顯示單元130。
在本實施例中,互動顯示系統600的音訊處理系統更包括第一無線通訊單元170以及穿戴式電子裝置700,且處理單元120可透過第一無線通訊單元170而與穿戴式電子裝置700連接。
此外,收音裝置110包括收音器MIC4以及MIC5,其用以接收來自不同方向的多個聲音信號。需注意的是,為了便於使用,收音器MIC4可配置於穿戴式電子裝置700上。因此,收音器MIC4(即,第一收音器)可用以接收聲音源(即,使用者)所發出的最大強度的主要語音信號。至於收音器MIC5(即,至少一個第二收音器)則可配置於互動顯示裝置的背面(如背面圖600B所示),並可用以接收揚聲器152、154以及風扇160所產生的雜訊。
需注意的是,在本實施例中,處理單元120可透過無線通訊連結與穿戴式電子裝置700連接,並可經由上述的無線通訊連結以透過收音器MIC4接收第一聲音信號。進一步而言,處理單元120可透過第一無線通訊單元170與穿戴式電子裝置700的第二無線通訊單元(未繪示)進行配對,以與第二無線通訊單元建立無線通訊連結。第一無線通訊單元170例如包括無線保真(WiFi)模組或藍牙(Bluetooth)模組的至少其中之一。
基於上述架構,互動顯示系統600的音訊處理系統可藉由執行類似於圖4A和圖4B的實施例所繪示的音訊處理方法,以萃取出主要語音信號,其細節此處不再說明。值得一提的是,本實施例和前述實施例的差異在於,本實施例省略了配置在音訊處理系統的側面的第二收音器(例如圖3所示的收音器MIC2)。因此,相對於前述實施例而言,本實施例的音訊處理方法可以簡化。
基於圖6所示的互動顯示系統600的音訊處理系統100,以下實施例對音訊處理流程進行說明。
圖7是依照本發明另一實施例所繪示的一種音訊處理方法的流程圖。請參照圖7,在步驟S710中,處理單元120致能與穿戴式電子裝置700的無線配對。在步驟S720中,處理單元120判斷無線配對是否完成。如前所述,無線配對可用以建立第一無線通訊單元170以及穿戴式電子裝置700的第二無線通訊單元之間的無線連結。
當無線配對完成(即,無線通訊連結建立),在步驟S730中,處理單元120致能音訊偵測。接著,在步驟S740中,處理單元120判斷是否透過收音器MIC4以及MIC5接收到聲音信號。當接收到聲音信號時,在步驟S750中,處理單元120執行音訊處理動作,並在步驟S760中獲得主要語音信號。步驟S730、S740、S750以及S760與圖5的步驟S510、S520、S530以及S540類似,故此處不再贅述。在步驟S760之後,本實施例的處理單元120可藉由步驟S550、S560、S570以進行語音辨識。這些步驟與前述實施例類似,故請參照前述。
綜上所述,本發明實施例可使用多個收音器以接收來自不同方向的多個聲音信號,並透過執行信號分離處理以將各個接收到的聲音信號分離成主要語音成分信號以及非主要語音成分信號。因此,本發明實施例可基於非主要語音成分信號以有效減少雜訊,並且基於主要語音成分信號以增加主要語音信號的強度。此外,本發明實施例還可適用於多種系統架構,而易於使用者進行操作。如此一來,可以清楚地萃取出主要語音信號,並且改善語音品質,以及提升語音辨識的精確度。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100‧‧‧音訊處理系統
110‧‧‧收音裝置
112‧‧‧第一收音器
114‧‧‧第二收音器
120‧‧‧處理單元
130‧‧‧顯示單元
140‧‧‧儲存單元
152、154‧‧‧揚聲器
160‧‧‧風扇
170‧‧‧第一無線通訊單元
300、600‧‧‧互動顯示系統
300A、600A‧‧‧正面圖
300B、600B‧‧‧背面圖
300C‧‧‧側面圖
700‧‧‧穿戴式電子裝置
AU1~AU3‧‧‧聲音信號
CR‧‧‧運算結果
DB‧‧‧資料庫
MIC1~MIC5‧‧‧收音器
MVI‧‧‧主要語音資訊
MVS‧‧‧主要語音信號
NMVI‧‧‧非主要語音資訊
N1~N3‧‧‧雜訊成分信號
V1~V3‧‧‧語音成分信號
S210~S270、S410~S450、S510~S570、S710~S760‧‧‧方法步驟
110‧‧‧收音裝置
112‧‧‧第一收音器
114‧‧‧第二收音器
120‧‧‧處理單元
130‧‧‧顯示單元
140‧‧‧儲存單元
152、154‧‧‧揚聲器
160‧‧‧風扇
170‧‧‧第一無線通訊單元
300、600‧‧‧互動顯示系統
300A、600A‧‧‧正面圖
300B、600B‧‧‧背面圖
300C‧‧‧側面圖
700‧‧‧穿戴式電子裝置
AU1~AU3‧‧‧聲音信號
CR‧‧‧運算結果
DB‧‧‧資料庫
MIC1~MIC5‧‧‧收音器
MVI‧‧‧主要語音資訊
MVS‧‧‧主要語音信號
NMVI‧‧‧非主要語音資訊
N1~N3‧‧‧雜訊成分信號
V1~V3‧‧‧語音成分信號
S210~S270、S410~S450、S510~S570、S710~S760‧‧‧方法步驟
圖1 是依照本發明一實施例所繪示的一種音訊處理系統的方 塊圖。 圖2 是依照本發明一實施例所繪示的一種音訊處理方法的流 程圖。 圖3 是依照本發明一實施例所繪示的互動顯示系統的示意圖。 圖4A 和圖4B 是依照本發明一實施例所繪示的音訊處理方法 的示意圖。 圖5 是依照本發明一實施例所繪示的一種音訊處理方法的流 程圖。 圖6 是依照本發明另一實施例所繪示的互動顯示系統的示意 圖。 圖7 是依照本發明另一實施例所繪示的一種音訊處理方法的 流程圖。
S210~S270‧‧‧步驟
Claims (20)
- 一種音訊處理方法,適用於包括一收音裝置的一音訊處理系統,其中該收音裝置包括多個收音器,該音訊處理方法包括下列步驟: 透過該些收音器接收來自不同方向的一第一聲音信號及至少一第二聲音信號; 對該第一聲音信號進行信號分離處理以計算出一第一成分信號以及一第二成分信號; 對各該至少一第二聲音信號進行信號分離處理以計算出一第三成分信號以及一第四成分信號; 計算該第一成分信號及該至少一第三成分信號以獲得一主要語音資訊; 計算該第二成分信號及該至少一第四成分信號以獲得一非主要語音資訊; 將該第一聲音信號減去該非主要語音資訊以獲得一運算結果;以及 計算該運算結果與該主要語音資訊的總和以獲得該第一聲音信號及該至少一第二聲音信號中的一主要語音信號。
- 如申請專利範圍第1項所述的音訊處理方法,其中該些收音器包括一第一收音器及至少一第二收音器,且透過該些收音器接收來自不同方向的該第一聲音信號及該至少一第二聲音信號的步驟包括: 透過該第一收音器接收該第一聲音信號;以及 透過該至少一第二收音器接收該至少一第二聲音信號, 其中該主要語音信號由一聲音源所發出,且該第一收音器用以接收該聲音源所發出的最大強度的該主要語音信號,該至少一第二收音器用以偵測該主要語音信號的雜訊。
- 如申請專利範圍第2項所述的音訊處理方法,其中該音訊處理系統更包括一顯示單元,配置於該音訊處理系統的一第一側,並用以依據該主要語音信號顯示對應的訊息,其中該第一收音器配置於該音訊處理系統的該第一側,且該至少一第二收音器配置於該音訊處理系統的至少一第二側,該至少一第二側與該第一側為不同側。
- 如申請專利範圍第2項所述的音訊處理方法,其中該音訊處理系統更包括一穿戴式電子裝置,該第一收音器配置於該穿戴式電子裝置,且透過該第一收音器接收該第一聲音信號的步驟包括: 透過一無線通訊連結與該穿戴式電子裝置連接;以及 經由該無線通訊連結以接收該第一收音器所接收到的該第一聲音信號。
- 如申請專利範圍第4項所述的音訊處理方法,其中該音訊處理系統更包括一第一無線通訊單元,且透過該無線通訊連結與該穿戴式電子裝置連接的步驟包括: 透過該第一無線通訊單元與該穿戴式電子裝置的一第二無線通訊單元進行配對,以與該第二無線通訊單元建立該無線通訊連結。
- 如申請專利範圍第5項所述的音訊處理方法,其中該第一無線通訊單元包括無線保真模組或藍牙模組的至少其中之一。
- 如申請專利範圍第1項所述的音訊處理方法,其中計算該第一成分信號及該至少一第三成分信號以獲得該主要語音資訊的步驟包括: 將該第一成分信號減去該至少一第三成分信號,以產生該主要語音資訊。
- 如申請專利範圍第1項所述的音訊處理方法,其中計算該第二成分信號及該至少一第四成分信號以獲得該非主要語音資訊的步驟包括: 將該第二成分信號減去該至少一第四成分信號,以產生該非主要語音資訊。
- 如申請專利範圍第1項所述的音訊處理方法,其中更包括: 比對該主要語音信號與一資料庫以進行語音辨識;以及 依據該主要語音信號執行對應的操作。
- 如申請專利範圍第9項所述的音訊處理方法,其中比對該主要語音信號與該資料庫以進行語音辨識的步驟包括: 判斷該主要語音信號的一語音特徵是否與該資料庫中所儲存的多個語音特徵的其中之一相同;以及 當該主要語音信號的該語音特徵與該資料庫中所儲存的該些語音特徵不同時,儲存該主要語音信號的該語音特徵至該資料庫。
- 一種音訊處理系統,包括: 一收音裝置,包括多個收音器,用以接收來自不同方向的一第一聲音信號及至少一第二聲音信號;以及 一處理單元,耦接該收音裝置,對該第一聲音信號進行信號分離處理以計算出一第一成分信號以及一第二成分信號,對各該至少一第二聲音信號進行信號分離處理以計算出一第三成分信號以及一第四成分信號,計算該第一成分信號及該至少一第三成分信號以獲得一主要語音資訊,計算該第二成分信號及該至少一第四成分信號以獲得一非主要語音資訊,將該第一聲音信號減去該非主要語音資訊以獲得一運算結果,以及計算該運算結果與該主要語音資訊的總和以獲得該第一聲音信號及該至少一第二聲音信號中的一主要語音信號。
- 如申請專利範圍第11項所述的音訊處理系統,其中該些收音器包括一第一收音器及至少一第二收音器,且該第一收音器接收該第一聲音信號,以及該至少一第二收音器接收該至少一第二聲音信號,其中該主要語音信號由一聲音源所發出,且該第一收音器用以接收該聲音源所發出的最大強度的該主要語音信號,該至少一第二收音器用以偵測該主要語音信號的雜訊。
- 如申請專利範圍第12項所述的音訊處理系統,更包括: 一顯示單元,配置於該音訊處理系統的一第一側,並用以依據該主要語音信號顯示對應的訊息, 其中該第一收音器配置於該音訊處理系統的該第一側,且該至少一第二收音器配置於該音訊處理系統的至少一第二側,該至少一第二側與該第一側為不同側。
- 如申請專利範圍第12項所述的音訊處理系統,更包括: 一穿戴式電子裝置,耦接該處理單元, 其中該第一收音器配置於該穿戴式電子裝置,該處理單元透過一無線通訊連結與該穿戴式電子裝置連接,以及經由該無線通訊連結以接收該第一收音器所接收的該第一聲音信號。
- 如申請專利範圍第14項所述的音訊處理系統,更包括: 一第一無線通訊單元,耦接該處理單元,用以與該穿戴式電子裝置的一第二無線通訊單元進行配對,以與該第二無線通訊單元建立該無線通訊連結。
- 如申請專利範圍第15項所述的音訊處理系統,其中該第一無線通訊單元包括無線保真模組或藍牙模組的至少其中之一。
- 如申請專利範圍第11項所述的音訊處理系統,其中該處理單元用以將該第一成分信號減去該至少一第三成分信號,以產生該主要語音資訊。
- 如申請專利範圍第11項所述的音訊處理系統,其中該處理單元用以將該第二成分信號減去該至少一第四成分信號,以產生該非主要語音資訊。
- 如申請專利範圍第11項所述的音訊處理系統,其中該處理單元用以比對該主要語音信號與一資料庫以進行語音辨識,以及用以依據該主要語音信號執行對應的操作。
- 如申請專利範圍第19項所述的音訊處理系統,其中該處理單元用以判斷該主要語音信號的一語音特徵是否與該資料庫中所儲存的多個語音特徵的其中之一相同,以及當該主要語音信號的該語音特徵與該資料庫中所儲存的該些語音特徵不同時,該處理單元儲存該主要語音信號的該語音特徵至該資料庫。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/801,669 US20170018282A1 (en) | 2015-07-16 | 2015-07-16 | Audio processing system and audio processing method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201705122A true TW201705122A (zh) | 2017-02-01 |
Family
ID=57776296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104127106A TW201705122A (zh) | 2015-07-16 | 2015-08-20 | 音訊處理系統及其音訊處理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170018282A1 (zh) |
CN (1) | CN106356074A (zh) |
TW (1) | TW201705122A (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417021B2 (en) | 2016-03-04 | 2019-09-17 | Ricoh Company, Ltd. | Interactive command assistant for an interactive whiteboard appliance |
US10409550B2 (en) * | 2016-03-04 | 2019-09-10 | Ricoh Company, Ltd. | Voice control of interactive whiteboard appliances |
CN108305638B (zh) * | 2018-01-10 | 2020-07-28 | 维沃移动通信有限公司 | 一种信号处理方法、信号处理装置和终端设备 |
CN109327749A (zh) * | 2018-08-16 | 2019-02-12 | 深圳市派虎科技有限公司 | 麦克风及其控制方法和降噪方法 |
US10728656B1 (en) * | 2019-01-07 | 2020-07-28 | Kikago Limited | Audio device and audio processing method |
JP2022075147A (ja) * | 2020-11-06 | 2022-05-18 | ヤマハ株式会社 | 音響処理システム、音響処理方法およびプログラム |
CN113628638A (zh) * | 2021-07-30 | 2021-11-09 | 深圳海翼智新科技有限公司 | 音频处理方法、装置、设备及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6151397A (en) * | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
DK1509065T3 (da) * | 2003-08-21 | 2006-08-07 | Bernafon Ag | Fremgangsmåde til behandling af audiosignaler |
US7533017B2 (en) * | 2004-08-31 | 2009-05-12 | Kitakyushu Foundation For The Advancement Of Industry, Science And Technology | Method for recovering target speech based on speech segment detection under a stationary noise |
US20100130198A1 (en) * | 2005-09-29 | 2010-05-27 | Plantronics, Inc. | Remote processing of multiple acoustic signals |
CN101442696A (zh) * | 2007-11-21 | 2009-05-27 | 宏达国际电子股份有限公司 | 滤除声音噪声的方法 |
US8131541B2 (en) * | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
US9202456B2 (en) * | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US8787591B2 (en) * | 2009-09-11 | 2014-07-22 | Texas Instruments Incorporated | Method and system for interference suppression using blind source separation |
US8712069B1 (en) * | 2010-04-19 | 2014-04-29 | Audience, Inc. | Selection of system parameters based on non-acoustic sensor information |
US9037458B2 (en) * | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
US20130315402A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
JP6148163B2 (ja) * | 2013-11-29 | 2017-06-14 | 本田技研工業株式会社 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
-
2015
- 2015-07-16 US US14/801,669 patent/US20170018282A1/en not_active Abandoned
- 2015-08-20 TW TW104127106A patent/TW201705122A/zh unknown
- 2015-09-24 CN CN201510615135.3A patent/CN106356074A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20170018282A1 (en) | 2017-01-19 |
CN106356074A (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201705122A (zh) | 音訊處理系統及其音訊處理方法 | |
CN105814909B (zh) | 用于反馈检测的系统和方法 | |
US10149049B2 (en) | Processing speech from distributed microphones | |
JP6039111B2 (ja) | マルチチャネルオーディオデータのビデオ解析支援生成 | |
WO2020228095A1 (zh) | 实时语音唤醒的音频设备、运行方法、装置及存储介质 | |
EP3127116B1 (en) | Attention-based dynamic audio level adjustment | |
JP2019518985A (ja) | 分散したマイクロホンからの音声の処理 | |
US20130279724A1 (en) | Auto detection of headphone orientation | |
WO2018045536A1 (zh) | 声音信号处理的方法、终端和耳机 | |
EP3852106A1 (en) | Sound processing method, apparatus and device | |
WO2017166603A1 (zh) | 一种音质调整方法、终端、电子设备及非易失性计算机存储介质 | |
WO2015163031A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2017538341A (ja) | 音量調節方法、システム、デバイス及びプログラム | |
US11096005B2 (en) | Sound reproduction | |
US10635388B2 (en) | Sound effect processing method and mobile terminal | |
JP2017527148A (ja) | 音質改善のための方法及びヘッドセット | |
US20220246161A1 (en) | Sound modification based on frequency composition | |
WO2018000764A1 (zh) | 一种声道自动匹配的方法、装置以及耳机 | |
CN107404587B (zh) | 音频播放控制方法、音频播放控制装置及移动终端 | |
US9807492B1 (en) | System and/or method for enhancing hearing using a camera module, processor and/or audio input and/or output devices | |
TWM526238U (zh) | 可依據使用者年齡調整等化器設定之電子裝置及聲音播放裝置 | |
CN113228710A (zh) | 听力装置中的声源分离及相关方法 | |
JP6276132B2 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
WO2017166686A1 (zh) | 外接扬声器切换方法及装置 | |
KR101661106B1 (ko) | 헤드셋 기반 2채널 음향 입출력 장치를 이용한 위험상황 알림장치 |