TWI818493B - 語音增強方法、系統和裝置 - Google Patents

語音增強方法、系統和裝置 Download PDF

Info

Publication number
TWI818493B
TWI818493B TW111112413A TW111112413A TWI818493B TW I818493 B TWI818493 B TW I818493B TW 111112413 A TW111112413 A TW 111112413A TW 111112413 A TW111112413 A TW 111112413A TW I818493 B TWI818493 B TW I818493B
Authority
TW
Taiwan
Prior art keywords
signal
speech
target
noise ratio
frequency
Prior art date
Application number
TW111112413A
Other languages
English (en)
Other versions
TW202247141A (zh
Inventor
肖樂
張承乾
廖風雲
齊心
Original Assignee
大陸商深圳市韶音科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市韶音科技有限公司 filed Critical 大陸商深圳市韶音科技有限公司
Publication of TW202247141A publication Critical patent/TW202247141A/zh
Application granted granted Critical
Publication of TWI818493B publication Critical patent/TWI818493B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本說明書實施例提供了一種語音增強方法、系統和裝置,包括:獲取目標語音的第一信號和第二信號,第一信號和第二信號是目標語音在不同語音採集位置的語音信號;基於第一信號或第二信號確定目標語音的目標信號雜訊比;基於目標信號雜訊比確定對第一信號和第二信號的處理方式;以及基於確定的處理方式對第一信號和第二信號進行處理,得到目標語音對應的語音增強後的輸出語音信號。

Description

語音增強方法、系統和裝置
本申請案涉及電腦技術領域,特別涉及語音增強的處理方法和系統。
本申請案主張於2021年4月1日提交之申請號為PCT/CN2021/085039的國際專利申請案的優先權,其全部內容通過引用的方式併入本文。
隨著科技的飛速前進,在通訊、語音採集等技術領域,對語音信號的品質要求越來越高。在進行語音通話和語音信號採集等場景中,會存在環境雜訊、他人語音等各種雜訊信號干擾,導致採集的目標語音不是乾淨的語音信號,影響了語音信號的品質,導致聽不清語音、通話品質不高等問題。
因此,急需提供一種語音增強方法和系統。
本說明書一個態樣提供一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比;基於所述目標信號雜訊比確定對所述第一信號和所述第 二信號的處理方式;以及基於確定的所述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書另一個態樣提供一種語音增強系統,包括:第一語音獲取模組,用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;信號雜訊比確定模組,用於基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比;信號雜訊比判別模組,用於基於所述目標信號雜訊比確定對所述第一信號和所述第二信號的處理方式;第一增強處理模組,用於基於確定的所述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書另一個態樣提供另一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號;合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書另一個態樣提供另一種語音增強系統,包括:第二語音獲取模組,用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;第二增強處理模組,用於採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號,採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目 標語音的高頻部分進行增強的第二輸出語音信號;第二處理輸出模組,用於合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書一個態樣提供另一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號;將所述增強語音信號中與所述第一降取樣信號和/或所述第二降取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
本說明書另一個態樣提供另一種語音增強系統,包括:第三語音獲取模組,用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;第三取樣模組,用於對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;第三增強處理模組,用於處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號;第三處理輸出模組,用於將所述增強語音信號中與所述第一降取樣信號和/或所述第二降取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
本說明書另一個態樣提供另一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號;基於所述至少一個第一子帶信號和/或所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比;基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子 帶信號和所述至少一個第二子帶信號的處理方式;以及基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書另一個態樣提供另一種語音增強系統,包括:第四語音獲取模組,用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;子帶確定模組,用於確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號;子帶信號雜訊比確定模組,用於基於所述至少一個第一子帶信號和/或所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比;子帶信號雜訊比判別模組,用於基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子帶信號和所述至少一個第二子帶信號的處理方式;第四增強處理模組,用於基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書另一個態樣提供一種語音增強裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現前述任一種語音增強方法。
100:語音增強系統
110:處理設備
112:處理引擎
120:採集設備
120-1:聲音感測器
120-2:聲音感測器
120-n:聲音感測器
130:終端
130-1:行動設備
130-2:平板電腦
130-3:筆記型電腦
140:存放裝置
150:網路
150-1:基站和/或無線接入點
150-2:基站和/或無線接入點
200:計算設備
210:記憶體
220:處理器
230:輸入/輸出(I/O)
240:通訊連接埠
300:行動設備
310:通信單元
320:顯示單元
330:圖形處理單元(GPU)
340:中央處理單元(CPU)
350:輸入/輸出(I/O)
360:記憶體
362:行動作業系統
364:應用程式
370:記憶體
400:方法
410:步驟
420:步驟
430:步驟
440:步驟
500:方法
510:步驟
520:步驟
530:步驟
600:方法
610:步驟
620:步驟
630:步驟
640:步驟
700:方法
710:步驟
720:步驟
730:步驟
740:步驟
800:方法
810:步驟
820:步驟
830:步驟
840:步驟
850:步驟
1000:語音增強系統
1010:第一語音獲取模組
1020:信號雜訊比確定模組
1030:信號雜訊比判別模組
1040:第一增強處理模組
1100:語音增強系統
1110:第二語音獲取模組
1120:第二增強處理模組
1130:第二處理輸出模組
1200:語音增強系統
1210:第三語音獲取模組
1220:第三取樣模組
1230:第三增強處理模組
1240:第三處理輸出模組
1300:語音增強系統
1310:第四語音獲取模組
1320:子帶確定模組
1330:子帶信號雜訊比確定模組
1340:子帶信號雜訊比判別模組
1350:第四增強處理模組
本發明將以示例性實施例的方式進一步說明,這些示例性實施例將通過圖式進行詳細描述。這些實施例並非限制性的,在這些實施例中,相同的元件符號表示相同的結構,其中: [圖1]係根據本說明書一些實施例所示的語音增強系統的應用場景示意圖; [圖2]係根據本申請的一些實施例所示的示例性計算設備的示例性硬體和/或軟體元件的示意圖;[圖3]係根據本申請的一些實施例所示的示例性行動設備的示例性硬體和/或軟體元件的示意圖;[圖4]係根據本說明書一些實施例所示的一種語音增強方法的示例性流程圖;[圖5]係根據本說明書一些實施例所示的另一種語音增強方法的示例性流程圖;[圖6]係根據本說明書一些實施例所示的另一種語音增強方法的示例性流程圖;[圖7]係根據本說明書一些實施例所示的另一種第一處理方法的示例性流程圖;[圖8]係根據本說明書一些實施例所示的另一種語音增強方法的示例性流程圖;[圖9]係根據本說明書一些實施例所示的目標語音對應的原始信號、降噪處理後得到的信號增強頻域信號S和增強頻域信號SS的示意圖;[圖10]係根據本說明書一些實施例所示的一種語音增強系統的示例性方塊圖;[圖11]係根據本說明書一些實施例所示的另一種語音增強系統的示例性方塊圖;[圖12]係根據本說明書一些實施例所示的另一種語音增強系統的示例性方塊圖;[圖13]係根據本說明書一些實施例所示的另一種語音增強系統的示例性方塊圖。
為了更清楚地說明本說明書實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單的介紹。顯而易見地,下面描述中的附圖僅僅是本說明書的一些示例或實施例,對於所屬技術領域中具有通常知識者來講,在不付出進步性努力的前提下,還可以根據這些附圖將本說明書應用於其它類似情景。除非從語言環境中顯而易見或另做說明,圖式中相同的元件符號代表相同結構或操作。
應當理解,本說明書中所使用的“系統”、“裝置”、“單元”和/或“模組”是用於區分不同級別的不同元件、組件、部件、部分或裝配的一種方法。然而,如果其他詞語可實現相同的目的,則可通過其他表達來替換所述詞語。
如本說明書和申請專利範圍中所示,除非上下文明確提示例外情形,“一”、“一個”、“一種”和/或“該”等詞並非特指單數,也可包括複數。一般說來,術語“包括”與“包含”僅提示包括已明確標識的步驟和元素,而這些步驟和元素不構成一個排它性的羅列,方法或者設備也可能包含其它的步驟或元素。
本說明書中使用了流程圖用來說明根據本說明書的實施例的系統所執行的操作。應當理解的是,前面或後面操作不一定按照順序來精確地執行。相反地,可以按照倒序或同時處理各個步驟。同時,也可以將其他操作添加到這些流程中,或從這些流程移除某一步驟或幾個步驟的操作。
圖1是根據本說明書一些實施例所示的語音增強的系統的應用場景示意圖。
本說明書的一些實施例所示的語音增強系統100可以應用在各種軟體、系統、平臺、設備中以實現語音信號的增強處理。例如,可以應用在對各種軟體、系統、平臺、設備獲取的使用者語音信號進行語音增強處理,還可以應 用在使用設備(如手機、平板、電腦、耳機等)進行語音通話時進行語音增強處理。
在語音通話場景中,會存在環境雜訊、他人語音等各種雜訊信號干擾,導致採集的目標語音不是乾淨的語音信號。為了提高語音通話的品質,需要對目標語音進行雜訊濾除、語音信號增強等語音增強處理以得到乾淨的語音信號。本說明書提出一種語音增強的系統和方法,可以實現對例如上述語音通話場景中的目標語音進行語音增強處理。
如圖1所示,語音增強系統100可以包括處理設備110、採集設備120、終端130、存放裝置140、網路150。
在一些實施例中,處理設備110可以處理從其他設備或系統組成部分中獲得的資料和/或資訊。處理設備110可以基於這些資料、資訊和/或處理結果執行程式指令,以執行一個或多個本說明書中描述的功能。如,處理設備可以接收目標語音的第一信號和第二信號並進行處理,輸出語音增強後的輸出語音信號。
在一些實施例中,處理設備110可以是單個的處理設備或者處理設備群組,例如伺服器或伺服器群組。所述處理設備群組可以是集中式的或分散式的(例如,處理設備110可以是分散式的系統)。在一些實施例中,處理設備110可以是本地的或遠端的。例如,處理設備110可以通過網路150存取採集設備120、終端130、存放裝置140中的資訊和/或資料。再例如,處理設備110可以直接連接到採集設備120、終端130、存放裝置140以存取儲存的資訊和/或資料。在一些實施例中,處理設備110可以在一個雲端平臺上實現。僅作為示例,所述雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分散雲、內部雲、多層雲等或上述舉例的任意組合。在一些實施例中,處理設備110可以在與本申請圖2所示的計算設備上實現。例如,處理設備110可以在如圖2所示的一個計算設備200中的一個 或多個部件上實現。
在一些實施例中,處理設備110可以包括處理引擎112。處理引擎112可處理與語音增強有關的資料和/或資訊以執行一個或多個本申請中描述的方法或功能。例如,處理引擎112可以獲取目標語音、目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音對應的在不同語音採集位置的語音信號。在一些實施例中,處理引擎112可以對第一信號和第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號;將增強語音信號中與第一降取樣信號和/或第二降取樣信號對應的部分信號進行升取樣,得到目標語音對應的輸出語音信號。在一些實施例中,處理引擎112可以採用第一處理方法處理第一信號的低頻部分和第二信號的低頻部分,得到對目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理第一信號的高頻部分和第二信號的高頻部分,得到對目標語音的高頻部分進行增強的第二輸出語音信號;合併第一輸出語音信號和第二輸出語音信號,得到目標語音對應的語音增強後的輸出語音信號。在一些實施例中,處理引擎112可以基於第一信號或第二信號確定目標語音的目標信號雜訊比;基於目標信號雜訊比確定對第一信號和第二信號的處理方式;以及基於確定的處理方式對第一信號和第二信號進行處理,得到目標語音對應的語音增強後的輸出語音信號。在一些實施例中,處理引擎112可以確定第一信號對應的至少一個第一子帶信號和第二信號對應的至少一個第二子帶信號;基於至少一個第一子帶信號或至少一個第二子帶信號確定目標語音的至少一個子帶目標信號雜訊比;基於至少一個子帶目標信號雜訊比確定對至少一個第一子帶信號和至少一個第二子帶信號的處理方式;以及基於確定的處理方式對至少一個第一子帶信號和至少一個第二子帶信號進行處理,得到目標語音對應的語音增強後的輸出語音信號。
在一些實施例中,處理引擎112可以包括一個或多個處理引擎(例如,單晶片處理引擎或多晶片處理器)。僅作為示例,處理引擎112可以包括中央處理單元(Central Processing Unit,CPU)、專用積體電路(Application Specific Integrated Circuit,ASIC)、專用指令集處理器(Application Specific Integrated Processor,ASIP)、影像處理單元(Graphics Processing Unit,GPU)、物理運算處理單元(Physics Processing Unit,PPU)、數位訊號處理器(Digital Signal Processor,DSP)、現場可程式閘陣列(Field-programable Gate Array,FPGA)、可程式邏輯裝置(Programable Logic Device,PLD)、控制器、微控制器單元、精簡指令集電腦(Reduced Instruction-set Computer,RISC)、微處理器等或以上任意組合。在一些實施例中,處理引擎112可以整合在採集設備120或終端130中。
在一些實施例中,採集設備120可以用於採集目標語音的語音信號,例如用於採集目標語音的第一信號和第二信號。在一些實施例中,採集設備120可以是單個的採集設備,或者是多個採集設備構成的群組。在一些實施例中,採集設備120可以是包含一個或多個麥克風或其它聲音感測器例如120-1、120-2,...,120-n的設備(如手機、耳機、對講機、平板、電腦等)。例如,採集設備120可以包括至少兩個麥克風,所述至少兩個麥克風之間相隔一定的距離。當採集設備120對使用者語音進行採集時,所述至少兩個麥克風可以在不同的位置同時採集來自使用者嘴部的聲音。所述至少兩個麥克風可以包括第一麥克風和第二麥克風。第一麥克風可以位於距離使用者嘴部較近的位置,第二麥克風可以位於距離使用者嘴部較遠的位置,第二麥克風與第一麥克風的連線可以向使用者嘴部所在的位置延伸。
採集設備120可以將採集的語音轉換為電信號,並發送至處理設備110進行處理。例如,上述第一麥克風和第二麥克風可以將採集得到使用者語音分別轉化為第一信號和第二信號。處理設備110可以基於第一信號和第二信號 實現對語音的增強處理。
在一些實施例中,採集設備120可以通過網路150與處理設備110、終端130、存放裝置140進行傳輸資訊和/或資料。在一些實施例中,採集設備120可以直接連接到處理設備110或存放裝置140以傳輸資訊和/或資料。例如,採集設備120和處理設備110可以是同一個電子設備(例如,耳機、眼鏡等)上的不同部分,並通過金屬導線連接。
在一些實施例中,終端130可以是使用者或其它實體使用的終端,例如可以是目標語音對應的聲源(人或其它實體)使用的終端,也可以是與目標語音對應的聲源(人或其它實體)進行語音通話的其它使用者或實體使用的終端。
在一些實施例中,終端130可以包括行動設備130-1、平板電腦130-2、筆記型電腦130-3等或其任意組合。在一些實施例中,行動設備130-1可以包括智慧居家設備、可穿戴設備、智慧行動設備、虛擬實境設備、擴增實境設備等或其任意組合。在一些實施例中,智慧居家設備可以包括智慧照明設備、智慧電器控制設備、智慧監控設備、智慧電視、智慧攝像機、對講機等或其任意組合。在一些實施例中,可穿戴設備可以包括智慧手鐲、智慧鞋襪、智慧眼鏡、智慧頭盔、智能手錶、智能耳機、智能穿著、智慧背包、智慧配件等或其任意組合。在一些實施例中,智慧行動設備可以包括智慧型電話、個人數位助理(Personal Digital Assistant,PDA)、遊戲裝置、導航設備、銷售點(Point-of-sale,POS)等或其任意組合。在一些實施例中,虛擬實境設備和/或擴增實境設備可以包括虛擬實境頭盔、虛擬實境眼鏡、虛擬實境眼罩、擴增實境頭盔、擴增實境眼鏡、擴增實境眼罩等或其任意組合。
在一些實施例中,終端130可以獲取/接收目標語音的語音信號,如第一信號和第二信號。在一些實施例中,終端130可以獲取/接收目標語音的語 音增強後的輸出語音信號。在一些實施例中,終端130可以直接從採集設備120、存放裝置140獲取/接收目標語音的語音信號,如第一信號和第二信號,或者終端130可以通過網路150從採集設備120、存放裝置140獲取/接收目標語音的語音信號,如第一信號和第二信號。在一些實施例中,終端130可以直接從處理設備110、存放裝置140獲取/接收目標語音的語音增強後的輸出語音信號,或者終端130可以通過網路150從處理設備110、存放裝置140獲取/接收目標語音的語音增強後的輸出語音信號。
在一些實施例中,終端130可以向處理設備110發送指令,處理設備110可以執行來自終端130指令。例如,終端130可以向處理設備110發送實現目標語音的語音增強方法的一個或多個指令,以令處理設備110執行語音增強方法的一個或多個操作/步驟。
存放裝置140可以儲存從其他設備或系統組成部分中獲得的資料和/或資訊。例如,存放裝置140可以儲存目標語音的語音信號,如第一信號和第二信號,還可以儲存目標語音的語音增強後的輸出語音信號。在一些實施例中,存放裝置140可以儲存從採集設備120獲得/獲取的資料。在一些實施例中,存放裝置140可以儲存從處理設備110獲得/獲取的資料。在一些實施例中,存放裝置140可以儲存處理設備110用於執行或使用來完成本申請中描述的示例性方法的資料和/或指令。在一些實施例中,存放裝置140可以包括大容量儲存器、卸除式存放裝置、揮發性讀寫記憶體、唯讀記憶體(ROM)等或其任意組合。示例性的大容量儲存器可以包括磁片、光碟、固態磁片等。示例性卸除式存放裝置可以包括快閃記憶體驅動器、軟碟、光碟、儲存卡、壓縮磁碟、磁帶等。示例性的揮發性讀寫記憶體可以包括隨機存取記憶體(RAM)。示例性的RAM可包括動態RAM(DRAM)、雙倍速率同步動態RAM(DDR SDRAM)、靜態RAM(SRAM)、閘流體RAM(T-RAM)和零電容RAM(Z-RAM)等。示例性的ROM可以包括遮 罩ROM(MROM)、可程式ROM(PROM)、可抹除可程式ROM(PEROM)、電子可抹除可程式ROM(EEPROM)、光碟ROM(CD-ROM)和數位通用磁片ROM等。在一些實施例中,所述存放裝置140可以在雲端平臺上實現。僅作為示例,所述雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分散雲、內部雲、多層雲等或其任意組合。
在一些實施例中,存放裝置140可以連接到網路150以與語音增強系統100中的一個或多個元件(例如,處理設備110、採集設備120、終端130)通信。語音增強系統100中的一個或多個元件可以通過網路150存取存放裝置140中儲存的資料或指令。在一些實施例中,存放裝置140可以與語音增強系統100中的一個或多個元件(例如,處理設備110、採集設備120、終端130)直接連接或通信。在一些實施例中,存放裝置140可以是處理設備110的一部分。
在一些實施例中,語音增強系統100的一個或多個元件(例如,處理設備110、採集設備120、終端130)可以具有存取存放裝置140的許可。在一些實施例中,語音增強系統100的一個或多個元件可以在滿足一個或多個條件時讀取和/或修改與目標語音相關的資訊。
網路150可以促進資訊和/或資料的交換。在一些實施例中,語音增強系統100中的一個或多個元件(例如,處理設備110、採集設備120、終端130和存放裝置140)可以通過網路150向/從語音增強系統100中的其他元件發送/接收資訊和/或資料。例如,處理設備110可以通過網路150從採集設備120或存放裝置140獲得/獲取目標語音的第一信號和第二信號,終端130可以通過網路150從處理設備110或存放裝置140獲得/獲取目標語音的語音增強後的輸出語音信號。在一些實施例中,網路150可以為任意形式的有線或無線網路或其任意組合。僅作為示例,網路150可以包括纜線網路、有線網路、光纖網路、遠端通訊網路、內部網路、網際網路、區域網路(Local Area Network,LAN)、廣域網路(Wide Area Network,WAN)、無線區域網路(Wireless Local Area Network,WLAN)、都會區網路(Metropolitan Area Network,MAN)、公共交換電話網路(Public Switched Telephone Network,PSTN)、藍牙網路、紫蜂網路、近場通訊(Near Field Communication,NFC)網路、全球行動通訊系統(Global System for Mobile Communications,GSM)網路、分碼多工存取(Code Division Multiple Access,CDMA)網路、分時多工存取(Time Division Multiple Address,TDMA)網路、一般封包式無線電服務(General Packet Radio Service,GPRS)網路、增強資料速率GSM演進(Enhanced Data Rate for GSM Evolution,EDGE)網路、寬頻分碼多工存取(Wideband Code Division Multiple Access,WCDMA)網路、高速下行封包存取(High Speed Downlink Packages Access,HSDPA)網路、長期演進(Long Term Evolution,LTE)網路、使用者資料包通訊協定(User Datagram Protocol,UDP)網路、傳輸控制協定/網際網路協定(Transmission Control Protocol/Internet Protocol,TCP/IP)網路、簡訊服務(Short Messaging Service,SMS)網路、無線應用協定(Wireless Application Protocol,WAP)網路、超寬頻(Ultra-wide Bandwidth,UWB)網路、紅外線等或其任意組合。在一些實施例中,語音增強系統100可以包括一個或多個網路接入點。例如,語音增強系統100可以包括有線或無線網路接入點,例如基站和/或無線接入點150-1、150-2、...,語音增強系統100的一個或多個元件可以通過其連接到網路150以交換資料和/或資訊。
所屬技術領域中具有通常知識者將理解,當語音增強系統100的元件執行時,元件可以通過電信號和/或電磁信號執行。例如,當採集設備120向處理設備110發送目標語音的第一信號和第二信號時,採集設備120可以產生編碼的電信號。然後,採集設備120可以將電信號發送到輸出埠。若採集設備120經由有線網路或資料傳輸線與採集設備120通信,則輸出埠可物理連接至電纜,其進一步將電信號傳輸給採集設備120的輸入埠。如果採集設備120經由無線網路 與採集設備120通信,則採集設備120的輸出埠可以是一個或多個天線,其將電信號轉換為電磁信號。在電子設備內,例如採集設備120和/或處理設備110,當處理指示,發出指令和/或執行動作時,指令和/或動作通過電信號進行。例如,當處理設備110從儲存媒體(例如,存放裝置140)檢索或保存資料時,它可以將電信號發送到儲存媒體的讀/寫設備,其可以在儲存媒體中讀取或寫入結構化資料。該結構資料可以通過電子設備的匯流排,以電信號的形式傳輸至處理器。此處,電信號可以指一個電信號、一系列電信號和/或至少兩個不連續的電信號。
圖2是根據本申請的一些實施例所示的示例性計算設備200的示意圖。
在一些實施例中,可以在計算設備200上實現處理設備110。如圖2所示,計算設備200可以包括記憶體210,處理器220,輸入/輸出(I/O)230和通訊連接埠240。
記憶體210可以儲存從採集設備120,終端130,存放裝置140或系統100的任何其他元件獲得的資料/資訊。在一些實施例中,記憶體210可以包括大量的存放裝置,卸除式存放裝置,揮發性讀寫記憶體,唯讀記憶體(ROM)等或其任意組合。例如,大量的存放裝置可以包括磁片,光碟,固態驅動器等。卸除式存放裝置可以包括快閃記憶體驅動器,軟碟,光碟,儲存卡,zip磁片,揮發性讀寫記憶體可以包括隨機存取記憶體(RAM)。RAM可以包括動態RAM(DRAM),雙倍速率同步動態RAM(DDR SDRAM),靜態RAM(SRAM),晶閘管RAM(T-RAM)和零電容器RAM(Z-RAM)。ROM可以包括遮罩ROM(MROM),可程式ROM(PROM),可抹除可程式ROM(PEROM),電子可抹除可程式ROM(EEPROM),光碟ROM(CD-ROM)。在一些實施例中,記憶體210可以儲存一個或多個程式和/或指令以執行本公開中描述的示例性方法。例如,記憶體210可以儲存用於處理設備110的程式,用於實現語音增強方法。
處理器220可以根據本文描述的技術執行電腦指令(程式碼)並執行處理設備110的功能。電腦指令可以包括例如常式,程式,物件,元件,信號,資料結構,過程,模組和功能,其執行本文描述的特定功能。例如,處理器220可以處理從採集設備120,終端130,存放裝置140和/或系統100的任何其他元件獲得的資料。例如,處理器220可以處理從採集設備120獲取的目標語音的第一信號和第二信號,以得到語音增強後的輸出語音信號。在一些實施例中,可將輸出語音信號儲存在存放裝置140,記憶體210等中。在一些實施例中,可通過I/O 230將輸出語音信號輸出給揚聲器等播報設備。在一些實施例中,處理器220可以執行從終端130獲得的指令。
在一些實施例中,處理器220可以包括一個或多個硬體處理器,例如微控制器,微處理器,精簡指令集電腦(RISC),專用積體電路(ASIC),專用指令集處理器(ASIP),中央處理單元(CPU),圖形處理單元(GPU),物理處理單元(PPU),微控制器單元,數位訊號處理器(DSP),現場可程式閘陣列(FPGA),高級RISC機器(Advanced RISC Machines,ARM),可程式邏輯裝置(PLD),能夠執行一個或多個功能的任何電路或處理器等,或它們的任意組合。
僅出於說明的目的,在計算設備200中僅描述了一個處理器。然而,應當注意,本公開中的計算設備200也可以包括多個處理器。因此,如本公開中所描述的由一個處理器執行的操作和/或方法步驟也可以由多個處理器聯合或分別執行。例如,如果在本公開中,計算設備200的處理器同時執行操作A和操作B,則應當理解,操作A和操作B也可以由計算設備中的兩個或更多個不同的處理器聯合或分開地執行。例如,第一處理器執行操作A,第二處理器執行操作B,或者第一處理器和第二處理器共同執行操作A和B。
I/O 230可以輸入或輸出信號,資料和/或資訊。在一些實施例中,I/O 230可以使使用者能夠與處理設備110交互。在一些實施例中,I/O 230可以包 括輸入裝置和輸出設備。示例性輸入裝置可以包括鍵盤,滑鼠,觸控式螢幕,麥克風等,或其組合。示例性輸出設備可以包括顯示裝置,揚聲器,印表機,投影儀等或其組合。示例性顯示裝置可以包括液晶顯示器(Liquid Crystal Display,LCD),基於發光二極體(Light-emitting Diode,LED)的顯示器、顯示器,平板顯示器,曲面螢幕,電視設備,陰極射線管(Cathode Ray Tube,CRT)等或它們的組合。
通訊連接埠240可以與網路(例如,網路150)連接,以促進資料通信。通訊連接埠240可以在處理設備110與採集設備120,終端130或存放裝置140之間建立連接。該連接可以是有線連接,無線連接或兩者的組合,以實現資料傳輸和接收。有線連接可以包括電纜,光纜,電話線等或其任何組合。無線連接可以包括藍牙,Wi-Fi,WiMax,WLAN,ZigBee,行動網路(例如3G,4G,5G等)等,或其組合。在一些實施例中,通訊連接埠240可以是標準化的通訊連接埠,例如RS232,RS485等。在一些實施例中,通訊連接埠240可以是專門設計的通訊連接埠。例如,可以根據數位成像和醫學通信(Digital Imaging and Communications in Medicine,DICOM)協議來設計通訊連接埠240。
圖3是根據本申請的一些實施例所示的可以在其上實現終端130的示例性行動設備300的示例性硬體和/或軟體元件的示意圖。
如圖3所示,行動設備300可以包括通信單元310、顯示單元320、圖形處理單元(GPU)330、中央處理單元(CPU)340、輸入/輸出(I/O)350、記憶體360和記憶體370。
中央處理單元(CPU)340可以包括介面電路和類似於處理器220的處理電路。在一些實施例中,任何其他合適的元件,包括但不限於系統匯流排或控制器(未示出),也可包括在行動設備300內。在一些實施例中,行動作業系統362(例如,IOSTM、Andro車輛TM、Windows PhoneTM等)和一個或多個應用程 式364可以從記憶體370載入到記憶體360中,以便由中央處理單元(CPU)340執行。應用程式364可以包括流覽器或任何其他合適的行動應用程式,用於從行動設備300上的語音增強系統接收和呈現與目標語音、目標語音的語音增強有關的資訊。信號和/或資料的交互可以通過輸入/輸出設備350實現,並通過網路150提供給處理引擎112和/或語音增強系統100的其他元件。
為了實現上述各種模組、單元及其功能,電腦硬體平臺可以用作一個或多個元件(例如,圖1中描述的處理設備110的模組)的硬體平臺。由於這些硬體元件、作業系統和程式語言是常見的,因此可以假設所屬技術領域中具有通常知識者熟悉這些技術並且他們能夠根據本文中描述的技術提供路線規劃中所需的資訊。具有使用者介面的電腦可以用作個人電腦(PC)或其他類型的工作站或終端設備。在正確程式設計之後,具有使用者介面的電腦可以用作處理設備如伺服器。可以認為所屬技術領域中具有通常知識者也可以熟悉這種類型的電腦設備的這種結構、程式或一般操作。因此,沒有針對附圖描述額外的解釋。
圖4是根據本說明書一些實施例所示的一種語音增強的方法的示例性流程圖。
在一些實施例中,方法400可以由處理設備110、處理引擎112、處理器220執行。例如,方法400可以以程式或指令的形式儲存在存放裝置(例如,存放裝置140或處理設備110的儲存單元)中,當處理設備110、處理引擎112、處理器220或圖10所示的模組執行程式或指令時,可以實現方法400。在一些實施例中,方法400可以利用以下未描述的一個或多個附加操作/步驟,和/或不通過以下所討論的一個或多個操作/步驟完成。另外,如圖4所示的操作/步驟的順序並非限制性的。
如圖4所示,該方法400可以包括:
步驟410,獲取目標語音的第一信號和第二信號,所述第一信號 和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
具體的,該步驟410可以由第一語音獲取模組1010執行。
目標語音可以是目標聲源所發出的語音。目標聲源可以是使用者、機器人(例如自動回應機器人、將人的輸入資料如文本、手勢等轉換為語音信號播報的機器人等)、或者能夠發出語音資訊的其它生物和設備。
在一些實施例中,目標語音中會摻雜無用或帶來干擾的雜訊,例如,周圍環境產生的雜訊或者目標聲源外其他聲源的聲音。示例性的雜訊包括加性雜訊、白色雜訊、乘性雜訊、或類似的雜訊或其任意的組合。加性雜訊是指與語音信號無關的獨立雜訊信號,乘性雜訊是指與語音信號成正比的雜訊信號,白色雜訊是指雜訊的功率譜為一常數的雜訊信號。
目標語音的第一信號或第二信號是指採集設備在接收到目標語音後所產生的電信號,其可以反映目標語音在採集設備所在的位置(也叫做語音採集位置)的資訊。對於目標語音,可以由不同的採集設備(例如,不同的麥克風)在不同的語音採集位置獲得對應於該目標語音的不同電信號,例如,所述第一信號和第二信號可以是兩個位於不同語音採集位置的麥克風分別獲取到的語音信號。僅作為示例,兩個不同的語音採集位置可以是距離為d且相對於目標聲源(如使用者的嘴部)距離不同的兩個位置。d可以由使用者根據實際需求設置,例如,在特定的場景下,d可以被設置為不小於0.5cm,或者不小於1cm。
可以理解的是,第一信號和第二信號的差異取決於目標語音在不同語音採集位置的強度、信號幅值和相位差異、雜訊信號在所述不同語音採集位置的強度、信號幅值和相位差異等。
在一些實施例中,第一信號和第二信號可以通過兩個採集設備即時採集目標語音得到,例如通過兩個麥克風即時採集使用者說話獲得。可替換地,第一信號和第二信號可以對應於一段歷史語音資訊,其可以通過從儲存有該 歷史語音資訊的儲存空間中讀取獲得。
步驟420,基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比。
具體的,該步驟420可以由信號雜訊比確定模組1020執行。
信號雜訊比是指語音信號能量與雜訊信號能量的比值,可以稱為SNR或S/N(SIGNAL-NOISE RATIO)。信號能量可以是信號功率、基於信號功率得到的其它能量資料。一般來說,信號雜訊比越大,說明混在目標語音裡的雜訊越小。
在一些實施例中,目標語音的目標信號雜訊比可以是純淨的語音信號(即不含雜訊的語音信號)的能量與雜訊信號能量的比值,也可以是含有雜訊的語音信號的能量與雜訊信號能量的比值。
在一些實施例中,可以基於第一信號和第二信號中的任意一個確定目標信號雜訊比。例如,可以基於第一信號的信號資料計算信號雜訊比,並將其作為目標信號雜訊比,或者可以基於第二信號的信號資料計算信號雜訊比,並將其作為目標信號雜訊比。在一些實施例中,也可以基於第一信號和第二信號共同確定目標信號雜訊比,例如可以基於第一信號的信號資料計算得到第一信號雜訊比,基於第二信號的信號資料計算得到第二信號雜訊比,然後基於第一信號雜訊比和第二信號雜訊比共同確定一個最終的信號雜訊比作為目標信號雜訊比。基於第一信號雜訊比和第二信號雜訊比共同確定一個最終的信號雜訊比可以包括對第一信號雜訊比和第二信號雜訊比求平均值、加權求和等方式。
在一些實施例中,基於信號資料確定信號雜訊比可以通過信號雜訊比估計演算法確定,例如採用最小值跟蹤演算法、時間遞迴平均演算法(MCRA)等雜訊估計演算法計算得到雜訊信號值,再基於原始信號值和雜訊信號值計算得到信號雜訊比。在一些實施例中,也可以採用訓練得到的信號雜訊比 估計模型確定信號資料的信號雜訊比。
在一些實施例中,信號雜訊比估計模型可以包括但不限於多層感知機(Multi-Layer Perception,MLP)、決策樹(Decision Tree,DT)、深度神經網路(Deep Neural Network,DNN)、支援向量機(Support Vector Machine,SVM)、K最近鄰演算法(K-Nearest Neighbor,KNN)等任何可以進行特徵提取和/或分類的演算法或者模型。
在一些實施例中,信號雜訊比估計模型可以通過採用訓練樣本訓練初始模型得到。訓練樣本可以包括語音信號樣本(如獲取的至少一個歷史語音信號,歷史語音信號中摻雜無用或帶來干擾的雜訊),以及語音信號樣本的標籤值(如,歷史語音信號v1的目標信號雜訊比為0.5,歷史語音信號v2的目標信號雜訊比為0.6)。利用模型處理語音信號樣本,得到預測的目標信號雜訊比。基於預測的目標信號雜訊比與對應訓練樣本的標籤值構造損失函數,基於損失函數調整模型參數,以減小預測的目標信號雜訊比與標籤值之間的差異。例如,可以基於梯度下降法等進行模型參數更新或調整。如此進行多輪反覆運算訓練,當訓練的模型滿足預設條件時,訓練結束,得到訓練後的信號雜訊比估計模型。其中,預設條件可以是損失函數結果收斂或小於預設閾值等。
考慮到目標語音及其中的雜訊會隨著時間變化,本說明書中目標信號雜訊比可以理解為特定時間或時間段內該目標語音的信號雜訊比。為方便描述,可以將目標語音看成是由連續的多個訊框的語音構成,每個訊框的語音分別對應第一信號和第二信號中的一訊框資料。在一些實施例中,在對目標語音的第一信號和第二信號進行處理時,可以是對信號的一或多個訊框資料進行處理。在某一時刻,目標語音的目標信號雜訊比是第一信號和/或第二信號在該時刻的訊框資料(即當前訊框資料)所對應的信號雜訊比。
在一些實施例中,目標語音的目標信號雜訊比可以基於第一信號 和/或第二信號的當前訊框資料確定。可替代地,目標語音的目標信號雜訊比可以基於第一信號和/或第二信號的當前訊框資料之前的一或多個訊框資料確定。可替代地,目標語音的目標信號雜訊比可以基於第一信號和/或第二信號的當前訊框資料以及至少一個在所述當前訊框資料之前的訊框資料共同確定。需要知道的是,這裡所說的用於確定目標信號雜訊比的訊框資料可以是第一信號和/或第二信號中的原始訊框資料,也可以是經過語音增強後的訊框資料。例如,在計算當前訊框資料所對應的目標信號雜訊比時,信號雜訊比確定模組可以結合第一信號和/或第二信號中未經過語音增強的當前訊框資料,以及經過語音增強的一個或多個先前的訊框資料來共同確定。
出於說明的目的,可以通過如下方式確定目標語音的在當前時刻對應的目標信號雜訊比:分別獲取所述第一信號、所述第二信號的當前訊框資料;確定與所述第一信號和所述第二信號的當前訊框資料所對應的估計信號雜訊比;基於所述第一信號和所述第二信號的至少一個在所述當前訊框資料之前的訊框資料,確定所述目標語音的驗證信號雜訊比;基於所述驗證信號雜訊比和所述估計信號雜訊比確定與所述第一信號和所述第二信號的當前訊框資料所對應的所述目標信號雜訊比。
估計信號雜訊比是指基於第一信號和/或第二信號的當前訊框資料計算得到的信號雜訊比。對於當前訊框的信號,可以對其估計雜訊,計算估計信號雜訊比可以為:ξ0=Y/N-1, (1) 在一些實施例中,還可以基於第一信號和/或第二信號的當前訊框資料和當前訊框資料之前的多個訊框資料共同計算當前訊框資料的估計信號雜訊比。例如,可以基於第一信號和/或第二信號的當前訊框資料(第n訊框)、當前訊框資料之前的多個訊框資料(第n訊框之前的k訊框資料,即第n-1訊框到 第n-k訊框),分別計算得到多個訊框資料對應的多個估計信號雜訊比,進而對多個信號雜訊比進行平均值計算、加權求和、平滑等方式得到一個最終信號雜訊比,作為當前訊框資料的估計信號雜訊比ξ0
驗證信號雜訊比是指基於第一信號和/或第二信號的至少一個在所述當前訊框資料之前的降噪後的訊框資料(即當前訊框資料之前的訊框資料對應的語音增強後的輸出語音信號)計算得到的信號雜訊比。例如,可以基於第一信號和/或第二信號的當前訊框資料之前的一訊框降噪後的訊框資料,計算得到一個信號雜訊比作為驗證信號雜訊比,對於前一訊框的信號,其等於乾淨信號(如降噪後的訊框資料)與雜訊信號之和,基於前一訊框降噪後的訊框資料計算驗證信號雜訊比ξ1可以為:ξ1=Y/(Y-X), (2) 又例如,也可以基於第一信號和/或第二信號的當前訊框資料之前的多個訊框資料分別計算得到對應的多個驗證信號雜訊比,在一些實施例中,可以基於多個驗證信號雜訊比和估計信號雜訊比確定一個最終信號雜訊比作為目標信號雜訊比。以第一信號和/或第二信號的當前訊框資料(第n訊框)之前的兩個訊框的訊框資料計算驗證信號雜訊比ξ1為例,驗證信號雜訊比ξ1可以為:ξ1=aξ1(n)+(1-a)ξ1(n-1), (3) 其中,ξ1(n)為基於第n訊框的前一訊框資料(即第n-1訊框)計算得到的驗證信號雜訊比,ξ1(n-1)為基於第n-1訊框的前一訊框資料(即第n-2訊框)計算得到的驗證信號雜訊比。
或者為:ξ1=max(ξ1(n),aξ1(n-1)), (4) 其中,a為權重係數,可以根據經驗或實際需求進行設置。
在一些實施例中,可以對多個驗證信號雜訊比進行平均值計算, 加權求和等方式得到一個最終信號雜訊比,並將其作為當前訊框信號的驗證信號雜訊比,在一些實施例中,可以用該驗證信號雜訊比與估計信號雜訊比共同確定目標信號雜訊比。在一些實施例中,可以單獨用該驗證信號雜訊比或估計信號雜訊比確定目標信號雜訊比。
在一些實施例中,基於驗證信號雜訊比和估計信號雜訊比確定與第一信號和第二信號的當前訊框資料所對應的目標信號雜訊比,可以是對驗證信號雜訊比(可以是多個驗證信號雜訊比)和估計信號雜訊比進行平均值計算,加權求和等方式得到一個最終信號雜訊比,並將其作為當前訊框資料所對應的目標信號雜訊比。例如,得到驗證信號雜訊比ξ1,估計信號雜訊比ξ0,目標信號雜訊比ξ為:ξ=cξ0+(1-c)ξ1, (5)其中,c為權重係數,可以根據經驗或實際需求進行設置。
步驟430,基於所述目標信號雜訊比確定對所述第一信號和所述第二信號的處理方式。
具體的,該步驟430可以由信號雜訊比判別模組1030執行。
這裡所說的對第一信號和第二信號的處理可以理解為對目標語音中摻雜的雜訊進行消除的過程。當目標語音中摻雜的雜訊數量不同,即目標信號雜訊比不同時,對雜訊消除的方式也會不一樣。在一些實施例中,基於所述目標信號雜訊比確定對所述第一信號和所述第二信號處理方式包括:回應於所述目標信號雜訊比小於第一閾值時,採用第一模式處理所述第一信號和所述第二信號;回應於所述目標信號雜訊比大於第二閾值時,採用第二模式處理所述第一信號和所述第二信號。所述第一模式和第二模式是不同的處理方式。在一些實施例中,所述第一模式和所述第二模式會消耗不同數量的計算資源。例如,相比於第二模式,處理設備110會分配給第一模式更多的記憶體資源,以提高對低信號 雜訊比信號的處理速度。
第一閾值和第二閾值可以是固定值。在一些實施例中,第一閾值可以等於第二閾值。在一些實施例中,第一閾值也可以小於第二閾值(例如,第一閾值可以是-5dB,第二閾值可以是10dB)。當第一閾值小於第二閾值時,基於目標信號雜訊比選擇處理方式時,可以避免由於目標信號雜訊比在第一閾值或第二閾值附近小範圍變化而不停地切換處理方式,可以增強信號處理的穩定性。在一些實施例中,第一閾值小於第二閾值,且第二閾值和第一閾值的差值不小於3dB,4dB,5dB,8dB,10dB,15dB,或20dB。在一些實施例中,第一閾值和第二閾值可以由使用者或者語音增強系統100進行調整。例如,當第一閾值和第二閾值被調整為遠高於目標信號雜訊比可能的數值時,語音增強系統100會始終以第一模式對信號進行處理。類似地,當第一閾值和第二閾值被調整為遠低於目標信號雜訊比可能的數值時,語音增強系統100會始終以第二模式對信號進行處理。
在一些實施例中,還可以響應於所述目標信號雜訊比小於第一閾值時,採用第一模式和第二模式按照預設的第一比例處理所述第一信號和所述第二信號;回應於所述目標信號雜訊比大於第二閾值時,採用第一模式和第二模式按照預設的第二比例處理所述第一信號和所述第二信號。第一模式和第二模式按照預設的比例(第一比例或第二比例)處理所述第一信號和所述第二信號是指對第一信號和第二信號按照比例(第一比例或第二比例)進行劃分,對劃分得到的不同部分的信號採取對應的處理方式進行處理(例如,第一部分信號採用第一模式處理,第二部分信號採用第二模式處理)。對第一信號和第二信號按照比例進行劃分可以是基於信號頻率、信號的時間座標等對信號按照比例劃分。在一些實施例中,第一比例可以對應第一模式處理的信號部分多於第二模式處理的信號部分,第二比例可以對應第二模式處理的信號部分多於第一模式處理的信 號部分。
步驟440,基於確定的所述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
具體的,該步驟440可以由第一增強處理模組1040執行。
基於確定的處理方式對第一信號和第二信號進行處理後,可以實現目標語音的語音增強,例如降噪、加強語音信號等效果,處理後得到的語音信號即為目標語音對應的語音增強後的輸出語音信號。
在一些實施例中,第一模式可以包括採用delay-sum(延遲求和波束形成),ANF(自我調整零點形成),MVDR(最小方差無失真回應波束形成),GSC(廣義旁瓣相消器)、差分譜減等方法中的一種或多種的組合對第一信號和第二信號進行處理。對第一信號和第二信號進行處理可以是在時域上對第一信號和第二信號進行處理(例如,利用ANF方法在時域上進行處理),也可以是在頻域上對第一信號和第二信號進行處理(例如,利用ANF、delay-sum、MVDR、GSC、頻域差分譜減等方法在頻域上進行處理)。
以第一模式為採用ANF方法對第一信號和第二信號進行處理為例:第一信號(表示為x(n))為位置靠近目標聲源的採集設備所獲取的語音信號,第二信號(表示為y(n))為另一個採集設備所獲取的語音信號,x(n)和y(n)中語音信號和雜訊信號的比例不同。為方便理解,x(n)可以看作主要包含語音信號,y(n)可以看作主要包含雜訊信號,利用x(n)和y(n)在時域或頻域上的差異進行兩路信號的處理,可以達到消除目標語音中雜訊的效果。
在一些實施例中,第二模式可以採用波束形成方法(例如自我調整零點形成的波束形成方法、GSC、MVDR等)、譜減法、自我調整濾波等語音增強方法中的一種或多種的組合對第一信號和第二信號進行處理。
以第二模式採用自我調整零點形成的波束形成方法對第一信號 和第二信號進行處理為例,可以通過構建極點位於目標語音方向的第一信號和第二信號的差分輸出信號xs,構建極點位於反方向、零點位於目標語音方向的第一信號和第二信號的差分輸出信號xn,利用自我調整濾波的原理,對xs和xn進行差分運算,得到目標語音對應的語音增強後的輸出語音信號。通過自我調整零點形成的波束形成方法,可以實現當語音信號和雜訊的角度差大的時候,對雜訊進行有效的濾波。在一些實施例中,還可以在採用自我調整零點形成的波束形成方法對第一信號和第二信號進行處理後,對得到的信號資料再採用分佈機率的後置濾波演算法做進一步的雜訊濾除處理,以對目標語音附近方向的雜訊進行更有效的抑制。
在一些實施例中,第一模式中可以對第一信號和第二信號的低頻部分、高頻部分分別採用不同的處理方法進行處理。這裡所說的低頻、高頻等只表示頻率的大致範圍,在不同的應用場景中,可以具有不同的劃分方式。例如,可以確定一個分頻點,低頻表示分頻點以下的頻率範圍,高頻表示分頻點以上的頻率。該分頻點可以為人耳可聽範圍內的任意值,例如,200Hz,500Hz,600Hz,700Hz,800Hz,1000Hz等。
可以理解的是,對於低頻部分,第一信號和第二信號的語音信號強度(如信號幅值)差異較大而相位差異較小。在一些實施例中,可以基於頻域資訊(例如,幅值)對第一信號和第二信號的低頻部分進行處理。對於高頻部分,第一信號和第二信號的語音信號相位差異較突出而強度差異較小。在一些實施例中,可以基於時域資訊(時域信號體現信號的相位資訊)對第一信號和第二信號的高頻部分進行處理。通過對高頻部分和低頻部分採用不同的處理方法,可以分別對目標語音的低頻部分和高頻部分的雜訊進行有效消除,從而提高目標語音的語音增強效果。
在一些實施例中,採用第一模式處理第一信號和第二信號可以包 括:採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號。
在一些實施例中,可以合併第一輸出語音信號和第二輸出語音信號,得到目標語音對應的輸出語音信號。關於採用第一模式處理第一信號和第二信號的更多內容可以參見圖5、圖6及其相關內容,此處不再贅述。
在一些實施例中,得到目標語音的輸出語音信號後,還可以對輸出語音信號進行後置濾波,後置濾波可以採用例如時間遞迴平均演算法(MCRA)、多麥克維納濾波(MCWF)等方法進行,實現對殘留的部分穩態雜訊進行進一步的濾波。
圖5是根據本說明書一些實施例所示的另一種語音增強的方法的示例性流程圖。
在一些實施例中,方法500可以由處理設備110、處理引擎112、處理器220執行。例如,方法500可以以程式或指令的形式儲存在存放裝置(例如,存放裝置140或處理設備110的儲存單元)中,當處理設備110、處理引擎112、處理器220或圖11所示的模組執行程式或指令時,可以實現方法500。在一些實施例中,方法500可以利用以下未描述的一個或多個附加操作/步驟,和/或不通過以下所討論的一個或多個操作/步驟完成。另外,如圖5所示的操作/步驟的順序並非限制性的。
如圖5所示,該方法500可以包括:
步驟510,獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
具體的,該步驟510可以由第二語音獲取模組1110執行。
關於獲取目標語音的第一信號和第二信號的更多內容可以參見圖4中步驟410及其相關說明,此處不再贅述。
步驟520,採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號。
具體的,該步驟520可以由第二增強處理模組1120執行。
如前所述,第一模式可以對第一信號和第二信號的低頻部分、高頻部分分別採用不同的處理方法進行處理。在一些實施例中,可以採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分。
在一些實施例中,採用第一處理方法處理第一信號的低頻部分和第二信號的低頻部分可以按照圖6所示的方法進行,其方法說明可以參見圖6及其相關內容。
在一些實施例中,採用第一處理方法處理第一信號的低頻部分和第二信號的低頻部分,得到對目標語音的低頻部分進行增強的第一輸出語音信號還可以採用圖7所示的方法進行,其方法說明可以參見圖7及其相關內容。
在一些實施例中,第二處理方法可以為前述處理方法如delay-sum(延遲求和波束形成)、ANF(自我調整零點形成)、MVDR(最小方差無失真回應波束形成)、GSC(廣義旁瓣相消器)、差分譜減等方法中的一種或多種的組合。
在一些實施例中,第二處理方法可以包括:獲取所述第一信號的高頻部分對應的第一高頻段信號,和獲取所述第二信號的高頻部分對應的第二 高頻段信號;基於所述第一高頻段信號和所述第二高頻段信號進行差分運算,得到對所述目標語音的高頻部分進行增強的所述第二輸出語音信號。
在一些實施例中,可以通過高通濾波或其它方法獲取信號的高頻部分。例如,對第一信號和第二信號進行截止頻率為特定頻率的高通濾波,得到第一信號和第二信號中信號頻率大於或等於該特定頻率的部分信號,作為第一信號的第一高頻段信號和第二信號的第二高頻段信號。
第二輸出語音信號是指通過對第一高頻段信號和第二高頻段信號進行處理,實現了目標語音的高頻部分語音增強後得到的語音信號。
基於所述第一高頻段信號和所述第二高頻段信號進行差分運算,可以是對第一高頻段信號和第二高頻段信號的信號差值進行運算的各種差分運算方法,例如自我調整差分運算方法。通過對第一高頻段信號和第二高頻段信號進行差分運算,可以實現雜訊信號的去除,以及語音信號的增強。
對語音信號進行語音增強處理時,考慮到實際處理需求和處理效率,是基於取樣後的信號進行的。在基於第一高頻段信號和所述第二高頻段信號進行差分運算之前,會對第一高頻段信號和第二高頻段信號進行取樣,基於取樣得到的第一高頻段信號和第二高頻段信號進行後續的差分運算處理。可替代的,也可以在獲取第一信號和第二信號,或者獲取第一信號的高頻部分和獲取第二信號的高頻部分時,完成取樣,則得到的第一高頻段信號和第二高頻段信號就是經過取樣的信號。
在一些實施例中,對第一高頻段信號和第二高頻段信號進行差分運算可以包括:對第一高頻段信號和第二高頻段信號分別進行升取樣,分別得到升取樣後的第一高頻段信號和第二高頻段信號,即第一升取樣信號和第二升取樣信號。對第一升取樣信號和第二升取樣信號進行差分運算,得到對目標語音的高頻部分進行增強的第二輸出語音信號。
升取樣是指對原信號進行插值補充,得到的結果等同於對原信號進行升高取樣頻率後得到的信號。插值補充是指在原信號的信號點之間,插入若干個信號值為固定值(如0)的信號點。在一些實施例中,升取樣的升取樣倍數即升取樣後信號的取樣頻率與原信號的取樣頻率的比值,可以根據經驗或實際需求進行設置。例如,可以對第一信號和第二信號進行5倍的升取樣,升取樣後第一信號和第二信號的取樣頻率是原第一高頻段信號和原第二高頻段信號的取樣頻率的5倍。
在一些實施例中,上述升取樣的過程可以替換為在對第一高頻段信號和第二高頻段信號進行取樣時,採用特定取樣頻率進行取樣,獲取得到所述第一信號的高頻部分對應的第一高頻段信號,和獲取所述第二信號的高頻部分對應的第二高頻段信號。再進一步對取樣得到的信號繼續進行所述差分運算,得到對目標語音的高頻部分進行增強的第二輸出語音信號。
特定取樣頻率可以根據第一信號和第二信號對應的位置距離確定,如取樣的取樣頻率用fs表示,第一信號和第二信號由於語音採集位置的差異,第一信號和第二信號之間存在信號的時延t,t=d/c, (6) 其中,d為第一信號和第二信號對應的語音採集位置之間的距離。
在進行取樣時,兩個取樣點之間的時間差t1為1/fs。若兩個取樣點之間的時間差t1大於信號的時延t,則第一信號和第二信號的信號時延被包括在一個取樣週期內,出現一個取樣週期內第一信號和第二信號的混疊,取樣得到的第一信號和第二信號無法進行差分運算。所以,可以令取樣頻率滿足條件t1小於或等於t,即1/fs小於或等於d/c。進一步的,還可以令取樣頻率滿足條件t1小於或等於比t更小的數值,即1/fs小於或等於比(d/c)更小的數值。例如,還可以令取樣頻率滿足條件t1小於或等於1/2t,即1/fs小於或等於1/2(d/c)。進一步的,還 可以令取樣頻率滿足條件t1小於或等於1/3t,即1/fs小於或等於1/3(d/c)。進一步的,還可以令取樣頻率滿足條件t1小於或等於1/4t,即1/fs小於或等於1/4(d/c)。
在一些實施例中,對第一高頻段信號和第二高頻段信號進行差分運算可以包括:基於第一高頻段信號(或者第一升取樣信號)的第一時序信號、所述第二高頻段信號(或者第二升取樣信號)中在所述第一時序之前的至少一個時序信號進行差分運算;得到對所述目標語音的高頻部分進行增強的所述第二輸出語音信號。
時序信號可以是指訊框信號或其它單位時間的信號。第一時序信號是指當前進行處理的時序信號(如當前訊框資料),第一時序之前的至少一個時序信號是指當前進行處理的時序信號之前的至少一個時間點的時序信號,如第一時序信號是第k訊框的訊框資料,之前的至少一個時序信號是第k-i訊框的訊框資料,i為大於0的整數。
差分運算可以包括:將第一高頻段信號和第二高頻段信號中,當前訊框(如第n訊框)的信號資料進行計算差值。例如fm(n)表示第一高頻段信號的第n訊框信號,rm(n)表示第二高頻段信號的第n訊框信號,差分運算可以包括:output(n)=fm(n)-rm(n), (7) 其中,output(n)表示差分運算得到的輸出信號資料。
差分運算可以包括:將第二高頻段信號中第一時序之前的至少一個時序信號進行合併後得到信號資料,並求該信號資料與第一高頻段信號的第一時序信號的差值。以取i為1、2、3的3個第一時序信號之前的時序信號為例,fm為第一高頻段信號的信號表示,rm為第二高頻段信號的信號表示,差分運算可以包括求第一時序信號即第一高頻段信號的第k訊框信號fm(k)與將第二高頻段信號的第k-1訊框信號rm(k-1)、第k-2訊框信號rm(k-2)、第k-3訊框信號rm(k-3)合併後得到的信號資料的差值。這裡的合併可以是對每個信號進行加權求和。
在一些實施例中,在第一時序之前的至少一個時序信號中,每一個時序信號有對應的權重係數,該權重係數稱為第二權重係數,可以基於第一高頻段信號的第一時序信號、第二高頻段信號中在第一時序之前的至少一個時序信號和至少一個時序信號對應的所述第二權重係數進行所述差分運算。例如,可以基於每一個時序信號對應的第二權重係數將第一時序之前的至少一個時序信號進行加權求和,得到一個信號資料,將該信號資料與第一時序信號求差值。第二權重係數可以根據經驗或實際需求進行設置。
例如,第一高頻段信號的第一時序信號fm(k)對應的第二高頻段信號的第一時序之前的至少一個時序信號為rm(k-1)、rm(k-2)、rm(k-3)...rm(k-i),則:
Figure 111112413-A0305-02-0034-1
其中,output(k)表示差分運算得到的輸出信號資料,n為大於0小於k的整數,wi表示第k-i訊框信號即rm(k-i)對應的第二權重係數。
在一些實施例中,在第一時序之前的至少一個時序信號中,每一個時序信號對應的第二權重係數可以根據當前處理的時序信號即第一時序信號進行確定,第一時序信號不同,則對應的第一時序之前的至少一個時序信號的第二權重係數不同。
在一些實施例中,第一時序信號(如當前訊框資料)對應的第二權重係數還可以根據第一高頻段信號中第一時序信號之前的一個時序信號(當前訊框的前一訊框資料)對應的第二權重係數進行確定。
例如,第一高頻段信號的第一時序信號為第k訊框信號,表示為fm(k),第二高頻段信號中第k訊框信號之前的至少i個時序信號的的第二權重係數為wi(k),第一高頻段信號中第一時序信號fm(k)的前一時序信號即第k-1訊框信號為fm(k-1),第二高頻段信號中第k-1訊框信號之前的至少i個時序信號的第二權 重係數為wi(k-1)。
第一高頻段信號的第一時序信號即第k訊框信號fm(k),對應的第二高頻段信號的第一時序之前的至少i個時序信號為rm(k-1)、rm(k-2)、rm(k-3)...rm(k-i),可以構成一個信號矩陣,為[rm(k-1),rm(k-2),rm(k-3)...rm(k-i)],則fm(k)對應的第二權重係數wi可以確定為:wi=wi(k-1)+A*output(k-1)*[rm(k-1),rm(k-2),rm(k-3)...rm(k-i)]/B, (9) 其中,前一時序信號fm(k-1)進行前述差分運算處理,得到的輸出信號為output(k-1);A可以根據經驗或實際需求設置,例如可以是信號的步長;B可以根據經驗或實際需求設置,例如可以是第一時序之前的至少i個時序信號rm(k-1)、rm(k-2)、rm(k-3)...rm(k-i)的能量均方。
在一些實施例中,可以對小於預設參數的第二權重係數進行更新。例如,若第二權重系數值小於0,則將該第二權重係數設為0。
步驟530,合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
具體的,該步驟530可以由第二處理輸出模組1130執行。
在一些實施例中,合併第一輸出語音信號和第二輸出語音信號可以是將第一輸出語音信號和第二輸出語音信號進行疊加,得到一個總的信號,將該總的信號作為目標語音對應的語音增強後的輸出語音信號。例如,可以將第一輸出語音信號與第二輸出語音信號中對應的各個信號點進行疊加,得到信號值疊加後的信號點序列,作為目標語音對應的語音增強後的輸出語音信號。
圖6是根據本說明書一些實施例所示的另一種語音增強的方法的示例性流程圖。
在一些實施例中,方法600可以由處理設備110、處理引擎112、 處理器220執行。例如,方法600可以以程式或指令的形式儲存在存放裝置(例如,存放裝置140或處理設備110的儲存單元)中,當處理設備110、處理引擎112、處理器220或圖12所示的模組執行程式或指令時,可以實現方法600。在一些實施例中,方法600可以利用以下未描述的一個或多個附加操作/步驟,和/或不通過以下所討論的一個或多個操作/步驟完成。另外,如圖6所示的操作/步驟的順序並非限制性的。
如圖6所示,該方法600可以包括:
步驟610,獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
具體的,該步驟610可以由第三語音獲取模組1210執行。
關於獲取目標語音的第一信號和第二信號的具體內容可以參見步驟410及其相關描述,此處不再贅述。
對語音信號進行語音增強處理時,考慮到實際處理需求和處理效率,是基於取樣後的信號進行的。在對第一信號和第二信號進行處理之前,會對第一信號和第二信號進行取樣,基於取樣得到的第一信號和第二信號進行後續的處理。可替代的,也可以在獲取第一信號和獲取第二信號時,完成取樣,則得到的第一信號和第二信號就是經過取樣的信號。
步驟620,對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號。
具體的,該步驟620可以由第三取樣模組1220執行。
對第一信號和第一信號分別進行降取樣,分別得到的降取樣後的第一信號和第一信號,即為第一降取樣信號和第二降取樣信號。
降取樣是指對原信號進行信號點抽取,得到的結果等同於對原信號進行降低取樣頻率後得到的信號。信號點抽取是指在原信號的信號點之中,抽 取信號點。在一些實施例中,降取樣的降取樣倍數即降取樣後信號的取樣頻率與原信號的取樣頻率的比值,可以根據經驗或實際需求進行設置。M倍降取樣可以是對原信號每隔M個點取一個點保留下來組成新的信號。例如,可以對第一信號和第二信號進行每隔5個點取一個點保留下來,實現5倍的降取樣,降取樣後第一降取樣信號和第二降取樣信號的取樣頻率是原第一信號和第二信號的取樣頻率的5倍。
在一些實施例中,降取樣還可以增加低通濾波器模組,以實現對低頻信號的採集,通過低通濾波器,可以避免降取樣可能帶來的頻譜的混疊。
在一些實施例中,降取樣的降取樣倍數k可以根據經驗或實際需求進行設置。例如,k可以為5、10等。
可以理解的是,如果第一信號和第二信號的原信號頻寬為f,經過k倍降取樣後,第一降取樣信號和第二降取樣信號的頻寬變為f/k,此時可以將第一降取樣信號和第二降取樣信號近似看作第一信號和第二信號中頻率小於f/k的低頻部分。也就是說,通過上述對第一信號和第二信號的降取樣,可以近似等效於對第一信號和第二信號進行了截止頻率為f/k的低通濾波。
在一些實施例中,可以補充第一降取樣信號和第二降取樣信號以令其信號長度、取樣頻率滿足預設條件。
在一些實施例中,可以根據對原始信號(即第一信號或第二信號)的估計,將補充信號補充至第一降取樣信號和第二降取樣信號中的特定位置。可替代地,也可以通過補零的方式補充第一降取樣信號和第二降取樣信號。補零的位置可以是第一降取樣信號和第二降取樣信號的末端、中間插值位置等各個位置。
預設條件可以是信號長度大於等於L。L可以根據經驗或實際需求設置,例如L可以是原始的第一信號和第二信號的長度,也可以大於原始的第 一信號和第二信號的長度。預設條件也可以是信號的取樣頻率小於或等於f,f可以根據經驗或實際需求設置。
通過補充第一降取樣信號和第二降取樣信號以令其信號長度滿足預設條件,在後續對第一降取樣信號和第二降取樣信號進行語音增強處理時,可以提高信號的頻率解析度。例如,若對第一信號進行k倍降取樣後再補充第一降取樣信號使得第一降取樣信號的長度和第一信號一致,則第一降取樣信號的頻率解析度可以提到k倍。通過提高頻率解析度,可以提高信號處理的精度,提升語音增強的效果。
通過補充第一降取樣信號和第二降取樣信號以令其取樣頻率滿足預設條件,可以滿足降低取樣頻率的條件,以實現降取樣取低頻信號的效果更理想,進而可以提高信號處理的精度,提升語音增強的效果。
步驟630,處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號。
具體的,該步驟630可以由第三增強處理模組1230執行。
處理第一降取樣信號和第二降取樣信號包括對第一降取樣信號和第二降取樣信號進行降噪處理,這樣得到的輸出信號即為目標語音對應的降噪後的增強語音信號。
在一些實施例中,處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的語音增強後的增強語音信號可以包括:獲取所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號;處理所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號,得到所述目標語音對應的語音增強後的增強頻域信號;基於所述增強頻域信號,確定所述增強語音信號。
第一降取樣信號的頻域信號和第二降取樣信號的頻域信號可以 通過對第一降取樣信號和第二降取樣信號進行傅立葉轉換演算法處理得到。這裡的第一降取樣信號和第二降取樣信號可以是上述經過長度補充後的降取樣信號。傅立葉轉換演算法可以採用傅立葉級數、傅立葉轉換、離散時域傅立葉轉換、離散傅立葉轉換、快速傅立葉轉換等可用的傅立葉轉換演算法。
在一些實施例中,處理第一降取樣信號的頻域信號和第二降取樣信號的頻域信號,得到目標語音對應的語音增強後的增強頻域信號可以包括:基於第一降取樣信號的雜訊信號和第二降取樣信號的雜訊信號的差異因數,對第一降取樣信號的頻域信號和第二降取樣信號的頻域信號進行差分運算;得到降噪後的所述增強頻域信號。
由於語音採集位置的差異,第一信號和第二信號中的雜訊信號的信號量有所不同,第一信號和第二信號中的雜訊信號的信號量的差異可以用差異因數來表徵。
在一些實施例中,差異因數可以用第一降取樣信號和第二降取樣信號對應訊框的信號能量的比值來表示。在一些實施例中,差異因數可以用第一信號中的雜訊信號和第二信號中的雜訊信號的信號比值來表示。差異因數可以為固定值,也可以根據當前信號進行即時更新。
在一些實施例中,差異因數可以基於語音信號靜音時(即不存在語音信號時)的信號檢測確定。例如,可以通過VAD檢測從聲音信號流裡識別出語音信號的靜音期(即目標聲源未發出語音的時期)。在靜音期內,由於不存在目標聲源的語音,此時兩個採集裝置獲取的第一信號和第二信號中僅含有雜訊成分。此時,兩個採集裝置獲取的雜訊信號的信號量的差異因數可以直接通過第一信號和第二信號的差異反映出來。VAD檢測是指語音活動檢測(Voice Activity Detection,VAD),又稱語音端點檢測、語音邊界檢測,可以得出目標聲源未發出語音的靜音區間。在一些實施例中,當檢測到有語音信號時,差異因數可以不進 行更新,即,此時可以近似認為當前時刻第一(降取樣)信號和第二(降取樣)信號中的雜訊信號的信號量分別和此前靜音區間內的第一(降取樣)信號和第二(降取樣)信號中的雜訊信號的信號量相同。當沒有檢測到語音信號時即為靜音期時,可以即時地根據此時的信號更新差異因數。
在一些實施例中,用第一降取樣信號和第二降取樣信號的信號能量的比值來表示差異因數時,可以先對第一降取樣信號和第二降取樣信號的當前訊框資料進行平滑處理。在一些實施例中,可以基於第一降取樣信號的當前訊框資料以及前一或多個訊框的訊框資料之前的平滑參數,對第一降取樣信號的當前訊框資料做平滑處理,以及基於第二降取樣信號的當前訊框資料以及前一或多個訊框的訊框資料之前的平滑參數,對第二降取樣信號的當前訊框資料做平滑處理。平滑處理後的第一降取樣信號的當前訊框資料和平滑處理後的第二降取樣信號的當前訊框資料之間的比值可以作為差異因數。例如:Y1(n)=G*Y1(n-1)+(1-G)abs(sig1), (10) Y2(n)=G*Y2(n-1)+(1-G)abs(sig2), (11) α=(Y1(n)/Y2(n))2, (12) 其中,第一降取樣信號的頻域信號為sig1,第二降取樣信號的頻域信號為sig2,α是差異因數,Y1(n)是對第一降取樣信號的當前訊框資料做平滑處理後得到的信號資料,Y2(n)是對第二降取樣信號的當前訊框資料做平滑處理後得到的信號資料,G是訊框資料之間的平滑參數。在一些實施例中,可以根據當前信號進行更新差異因數。
在一些實施例中,基於第一降取樣信號的雜訊信號和第二降取樣信號的雜訊信號的差異因數,對第一降取樣信號的頻域信號和第二降取樣信號的頻域信號進行差分運算得到降噪後的增強頻域信號,可以是:基於差異因數,對第一降取樣信號的頻域信號和第二降取樣信號的頻域信號求差值,並將輸出 結果作為降噪後的增強頻域信號。例如,第一降取樣信號的頻域信號為sig1,第二降取樣信號的頻域信號為sig2,sig1的信號能量可以表示為abs(sig1)2,sig2的信號能量可以表示為abs(sig2)2,α是差異因數,降噪後的增強頻域信號S為:S=abs(sig1)2-αabs(sig2)2。 (13)
在一些實施例中,可以將所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號進行差分運算得到的信號作為第一級降噪後的初步增強頻域信號。並可以基於初步增強頻域信號、第一降取樣信號的頻域信號和第二降取樣信號的頻域信號進一步進行差分運算,得到降噪後的增強頻域信號。
繼續以前述對所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號進行差分運算得到的語音信號S為例,S即作為初步增強頻域信號,可以對S和abs(sig2)2進一步求差值,得到一個輸出資料R_N,如:R_N=abs(sig2)2-S, (14) 再對R_N和abs(sig1)2進一步求差值,得到一個輸出資料作為降噪後的增強頻域信號SS,如:SS=abs(sig1)2-R_N。 (15)
圖9為目標語音對應的原始信號、降噪處理後得到的初步增強頻域信號S、增強頻域信號SS的示意圖。原始信號經過第一級降噪處理後得到的初步增強頻域信號S中濾除了大部分的雜訊信號,進一步進行差分運算得到的增強頻域信號SS繼續進一步濾除了殘餘的部分雜訊信號,並在初步增強頻域信號S基礎上增強了語音信號。
在一些實施例中,所述初步增強頻域信號、所述第一降取樣信號的頻域信號或所述第二降取樣信號的頻域信號對應有第一權重係數。
在一些實施例中,對S和abs(sig2)2進一步求差值時,S可以對應有第一權重係數。如: R_N=abs(sig2)2-hS, (16) 其中,h為第一權重係數,第一權重係數可以為固定值,也可以基於當前所處理信號的語音存在機率進行即時更新。
在一些實施例中,在對R_N和abs(sig1)2進一步求差值時,R_N可以對應有第一權重係數。如:再對R_N和abs(sig1)2進一步求差值,得到一個輸出資料作為降噪後的增強頻域信號SS,為:SS=abs(sig1)2-jR_N。 (17)
其中,j為第一權重係數,第一權重係數可以為固定值,也可以基於當前所處理信號的語音存在機率進行即時更新。語音存在機率是指信號資料中語音資料存在的機率,在一些實施例中,可以表示為當前信號(當前訊框信號)的功率與功率最小值的比值,功率最小值可以是針對目標語音確定的功率最小值。
在一些實施例中,得到降噪後的增強頻域信號後,可以對增強頻域信號中,信號值小於預設參數的信號點的信號值進行更新。預設參數可以根據經驗或實際需求進行設置,例如可以為0、0.01等。當增強頻域信號的信號點的信號值小於預設參數時,可以將信號點的信號值更新為預設參數值。如:SS_final=max(SS_final,μ), (18) 其中,SS_final是增強頻域信號中信號點的信號值,μ是預設參數。
通過對信號值進行更新,可以避免處理得到的增強頻域信號出現極小值,加強了語音增強的效果。
基於所述增強頻域信號,確定所述增強語音信號可以是將增強頻域信號直接作為增強語音信號,也可以根據實際需求將增強頻域信號從頻域信號轉換為時域信號,並將轉換後的時域信號作為增強語音信號。頻域信號轉換為時域信號可以通過前述傅立葉轉換的逆轉換得到。
步驟640,將所述增強語音信號中與第一降取樣信號和/或第二降 取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
具體的,該步驟640可以由第三處理輸出模組1240執行。
將增強語音信號中與第一降取樣信號和/或第二降取樣信號對應的部分信號進行升取樣是指將增強語音信號中與第一降取樣信號和/或第二降取樣信號中非補充部分對應的部分進行升取樣。升取樣的倍數可以基於實際需求進行設置。例如升取樣的倍數可以等於第一降取樣信號和第二降取樣信號的降取樣倍數,這樣,將增強語音信號中對應部分進行升取樣後的信號長度與第一信號和第二信號的長度一致。
繼續以前述將第一信號和第二信號的原信號頻寬表示為f,經過k倍降取樣,第一降取樣信號和第二降取樣信號的頻寬變為f/k為例,原始的第一信號和第二信號的長度為L,降取樣得到的第一降取樣信號或第二降取樣信號長度變為L/k,增強語音信號中與降取樣得到的第一降取樣信號或第二降取樣信號對應的這部分信號,其信號長度也為L/k,對該部分信號進行k倍的升取樣,可以將信號長度還原為L。
可以理解的是,第一信號和第二信號的處理可以是通過對一個或多個訊框信號的逐個處理,最後得到的目標語音的輸出語音信號即是由各個訊框的處理得到的信號所疊加構成的語音信號。
圖7是根據本說明書一些實施例所示的另一種第一處理方法的示例性流程圖。
在一些實施例中,方法700可以由處理設備110、處理引擎112、處理器220執行。例如,方法700可以以程式或指令的形式儲存在存放裝置(例如,存放裝置140或處理設備110的儲存單元)中,當處理設備110、處理引擎112、處理器220或圖11所示的模組執行程式或指令時,可以實現方法700。在一些實施例中,方法700可以利用以下未描述的一個或多個附加操作/步驟,和/或不通過以下 所討論的一個或多個操作/步驟完成。另外,如圖7所示的操作/步驟的順序並非限制性的。
如圖7所示,該方法700可以包括:
步驟710,獲取所述第一信號的低頻部分對應的第一低頻段信號,和獲取所述第二信號的低頻部分對應的第二低頻段信號。
在一些實施例中,可以通過低通濾波的方式獲取第一信號和第二信號的低頻部分,也可以通過其它的演算法或器件做基於頻率的子帶劃分,得到第一信號和第二信號的低頻部分。
在一些實施例中,可以對第一低頻段信號和第二低頻段信號進行補充以令其信號長度滿足預設條件,補充信號的方法可以與前述補充第一降取樣信號和第二降取樣信號的方法類似,具體內容可以參見步驟620及其相關描述。
步驟720,獲取所述第一低頻段信號的頻域信號和所述第二低頻段信號的頻域信號。
獲取第一低頻段信號的頻域信號和第二低頻段信號的頻域信號的方式與方法600中獲取第一降取樣信號的頻域信號和第二降取樣信號的頻域信號的方法類似,具體內容可以參見步驟630及其相關描述。
步驟730,處理所述第一低頻段信號的頻域信號和所述第二低頻段信號的頻域信號,得到所述目標語音對應的增強頻域信號。
處理第一低頻段信號的頻域信號和第二低頻段信號的頻域信號,得到目標語音對應的語音增強後的增強頻域信號,與前述處理第一降取樣信號的頻域信號和第二降取樣信號的頻域信號,得到目標語音對應的語音增強後的增強頻域信號的方法類似,具體內容可以參見步驟630及其相關描述。
步驟740,基於所述增強頻域信號,確定所述目標語音對應的第 一輸出語音信號。
基於所述增強頻域信號,確定所述目標語音對應的第一輸出語音信號可以是將增強頻域信號直接作為第一輸出語音信號,也可以根據實際需求將增強頻域信號從頻域信號轉換為時域信號,並將轉換後的時域信號作為第一輸出語音信號。頻域信號轉換為時域信號可以通過前述傅立葉轉換的逆轉換得到。
圖8是根據本說明書一些實施例所示的另一種語音增強的方法的示例性流程圖。
在一些實施例中,方法800可以由處理設備110、處理引擎112、處理器220執行。例如,方法800可以以程式或指令的形式儲存在存放裝置(例如,存放裝置140或處理設備110的儲存單元)中,當處理設備110、處理引擎112、處理器220或圖13所示的模組執行程式或指令時,可以實現方法800。在一些實施例中,方法800可以利用以下未描述的一個或多個附加操作/步驟,和/或不通過以下所討論的一個或多個操作/步驟完成。另外,如圖8所示的操作/步驟的順序並非限制性的。
如圖8所示,該方法800可以包括:
步驟810,獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
具體的,該步驟810可以由第四語音獲取模組1310執行。
關於獲取目標語音的第一信號和第二信號的具體內容可以參見步驟410及其相關描述,此處不再贅述。
步驟820,確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號。
具體的,該步驟820可以由子帶確定模組1320執行。
在一些實施例中,可以基於信號的頻段對第一信號和第二信號進行子帶劃分,得到第一信號對應的至少一個第一子帶信號和第二信號對應的至少一個第二子帶信號。例如,子帶確定模組可以按照低頻、中頻或高頻的頻段類別對信號進行子帶劃分,或者也可以按照特定的頻帶寬度(例如,每2kHz作為一個頻帶)對信號進行子帶的劃分。在一些實施例中,還可以基於第一信號和第二信號的信號頻點進行子帶劃分。信號頻點是指:信號的頻率值中小數點之後的數值,例如信號的頻率值為72.810,則該信號的信號頻點為810。基於信號頻點進行子帶劃分可以是按照特定的信號頻點寬度對信號進行子帶的劃分,例如:信號頻點810-830作為一個子帶,信號頻點600-620作為一個子帶。
在一些實施例中,可以通過濾波的方式獲取第一信號對應的至少一個第一子帶信號和第二信號對應的至少一個第二子帶信號,也可以通過其它的演算法或器件做子帶劃分,來得到第一信號對應的至少一個第一子帶信號和第二信號對應的至少一個第二子帶信號。
可以理解,第一信號對應的至少一個第一子帶信號和第二信號對應的至少一個第二子帶信號中,基於子帶劃分規則,第一信號和第二信號的子帶是成對的,即第一信號的一個第一子帶信號,與第二信號的一個第二子帶信號是對應的。
步驟830,基於所述至少一個第一子帶信號和所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比。
具體的,該步驟830可以由子帶信號雜訊比確定模組1330執行。
基於至少一個第一子帶信號和至少一個第二子帶信號確定目標語音的至少一個子帶目標信號雜訊比是指:對於第一信號的一個第一子帶信號和與之對應的第二信號的第二子帶信(即一個成對的子帶信號),對應確定得到一個子帶目標信號雜訊比,通過子帶劃分得到的多個第一子帶信號和第二子帶 信號中,對每一個成對的子帶信號確定其對應的子帶目標信號雜訊比,可以對應得到多個子帶目標信號雜訊比。
對於第一信號的一個第一子帶信號和與之對應的第二信號的第二子帶信號,即一個成對的子帶信號,對應確定得到一個子帶目標信號雜訊比,可以採用與前述確定與第一信號、第二信號對應的目標信號雜訊比相同的方法,即基於第一信號和/或第二信號確定所述目標語音的目標信號雜訊比得方法,具體內容可以參見步驟410及其相關描述。
步驟840,基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子帶信號和所述至少一個第二子帶信號的處理方式。
具體的,該步驟840可以由子帶信號雜訊比判別模組1340執行。
基於至少一個子帶目標信號雜訊比確定對至少一個第一子帶信號和至少一個第二子帶信號的處理方式,即是根據子帶目標信號雜訊比確定對第一子帶信號和第二子帶信號的處理方式。
在一些實施例中,可以判斷子帶目標信號雜訊比是否滿足預設條件,進而確定對應的處理方式。在一些實施例中,響應於所述子帶目標信號雜訊比小於第一閾值時,採用本說明書中其它地方所描述的第一模式處理所述至少一個第一子帶信號和所述至少一個第二子帶信號;響應於所述子帶目標信號雜訊比大於第二閾值時,採用本說明書中其它地方所描述的第二模式處理所述至少一個第一子帶信號和所述至少一個第二子帶信號,其中,所述第一閾值小於第二閾值。關於子帶目標信號雜訊比的判別、第一閾值、第二閾值、第一模式、第一模式的更多內容可以參見圖4及其相關描述。
在一些實施例中,可以採用本說明書中其它地方所描述的第一處理方法處理至少一個第一子帶信號和至少一個第二子帶信號中屬於低頻部分的子帶信號,得到對所述目標語音的低頻部分進行增強的至少一個第一子帶輸出 語音信號。
在一些實施例中,可以採用本說明書中其它地方所描述的第二處理方法處理至少一個第一子帶信號和至少一個第二子帶信號中屬於高頻部分的子帶信號,得到對所述目標語音的高頻部分進行增強的至少一個第二子帶輸出語音信號。
在一些實施例中,可以合併至少一個第一子帶輸出語音信號和至少一個第二子帶輸出語音信號,得到輸出語音信號。即,每一對子帶信號(包括第一子帶信號和對應的第二子帶信號)進行處理後得到一個子帶輸出語音信號,可以將各個子帶輸出語音信號合併,得到目標語音整體的輸出語音信號。
在一些實施例中,也可以在對各個成對的子帶信號處理後,將分別得到的各個子帶輸出語音信號,分別作為各個子帶信號對應的輸出語音信號。
在一些實施中,根據需要,也可以選擇第一信號和第二信號中,特定子帶的信號資料,將對特定子帶信號(特定子帶的第一子帶信號和第二子帶信號)處理後得到的子帶輸出信號作為所需的輸出語音信號。
步驟850,基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
具體的,該步驟850可以由第四增強處理模組1350執行。
在一些實施例中,第一處理方法可以包括:獲取至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號;處理所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號,得到所述目標語音對應的語音增強後的至少一個子帶增強頻域信號;基於所述至少一個子帶增強頻域信號,確定所述至少一個第一子帶輸出語音信號。
獲取第一子帶信號的頻域信號和第二子帶信號的頻域信號的方 法與前述獲取第一降取樣信號的頻域信號和第二降取樣信號的頻域信號的方法類似,具體內容可以參見圖4及其相關描述。
處理所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號,得到所述目標語音對應的語音增強後的至少一個子帶增強頻域信號,與前述處理第一降取樣信號的頻域信號和第二降取樣信號的頻域信號,得到目標語音對應的語音增強後的增強頻域信號,基於增強頻域信號,確定增強語音信號的方法類似,具體內容可以參見圖4、圖5、圖6及其相關描述。
在一些實施例中,獲取至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號可以包括:對所述至少一個第一子帶信號和所述至少一個第二子帶信號分別進行取樣,分別得到至少一個第一取樣子帶信號和至少一個第二取樣子帶信號;基於所述至少一個第一取樣子帶信號和所述至少一個第二取樣子帶信號,得到所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號。
其中,取樣可以是指按照一定的取樣頻率對第一子帶信號和第二子帶信號進行取樣(信號抽取),得到的信號即為第一取樣子帶信號和第二取樣子帶信號。
基於所述至少一個第一取樣子帶信號和所述至少一個第二取樣子帶信號,得到所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號的方法與前述獲取第一降取樣信號的頻域信號和第二降取樣信號的頻域信號的方法類似,具體內容可以參見圖4及其相關描述。
在一些實施例中,第一處理方法還可以包括:補充所述至少一個第一取樣子帶信號和所述至少一個第二取樣子帶信號以令其信號長度滿足預設條件。補充信號以滿足預設條件的方法與前述補充第一降取樣信號和第二降取樣信號以令其信號長度滿足預設條件的方法類似,具體內容可以參見圖4、圖5、 圖6、圖7及其相關描述。
在一些實施例中,處理所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號,得到所述目標語音對應的語音增強後的至少一個子帶增強頻域信號可以包括:基於所述至少一個第一子帶信號的雜訊信號和所述至少一個第二子帶信號的雜訊信號的差異因數,對所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號進行差分運算;得到降噪後的所述至少一個子帶增強頻域信號。該方法與對第一降取樣信號的頻域信號和第二降取樣信號的頻域信號進行差分運算,得到降噪後的所述增強頻域信號類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。差異因數可以基於所述至少一個第一子帶信號和所述至少一個第二子帶信號的信號能量確定。該差異因數的確定方法與前述基於第一降取樣信號的雜訊信號和第二降取樣信號的雜訊信號確定差異因數類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,還可以基於所述至少一個第一子帶信號的雜訊信號和所述至少一個第二子帶信號的雜訊信號的差異因數,對所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號進行差分運算,將得到至少一個語音信號作為第一級降噪後的至少一個初步子帶增強頻域信號,該方法與前述對第一降取樣信號的頻域信號和第二降取樣信號的頻域信號進行差分運算,將得到的語音信號作為第一級降噪後的初步增強頻域信號類似,更多內容可以參見圖4、圖5、圖6、圖7及其相關描述。在一些實施例中,可以基於所述至少一個初步子帶增強頻域信號、所述至少一個第一子帶信號的頻域信號和所述至少一個第二子帶信號的頻域信號進行差分運算,得到降噪後的所述至少一個子帶增強頻域信號。該方法與前述基於初步增強頻域信號、第一降取樣信號的頻域信號和第二降取樣信號的頻域信號進行差分運算,得到降噪後 的增強頻域信號類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,所述至少一個初步子帶增強頻域信號、至少一個第一子帶信號的頻域信號和/或所述至少一個第二子帶信號的頻域信號對應有第一權重係數,所述第一權重係數基於當前所處理信號的語音存在機率確定。該第一權重係數與前述初步增強頻域信號、所述第一降取樣信號的頻域信號和/或所述第二降取樣信號的頻域信號對應的第一權重係數類似,確定方法也與之類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,可以基於第一權重係數,對前述至少一個初步子帶增強頻域信號、至少一個第一子帶信號的頻域信號和至少一個第二子帶信號的頻域信號進行差分運算,得到降噪後的所述至少一個子帶增強頻域信號。基於第一權重係數進行差分運算得到至少一個子帶增強頻域信號的方法,與前述基於第一權重係數進行差分運算得到增強頻域信號的方法類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,還可以對所述至少一個子帶增強頻域信號中,信號值小於預設參數的信號點的信號值進行更新。對信號值進行更新的方法與前述對增強頻域信號中,信號值小於預設參數的信號點的信號值進行更新的方法類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,第二處理方法可以包括:基於所述至少一個第一子帶信號和所述至少一個第二子帶信號進行差分運算,得到對所述目標語音的高頻部分進行增強的所述至少一個第二子帶輸出語音信號。該部分方法與前述基於第一高頻段信號和第二高頻段信號進行差分運算,得到對目標語音的高頻部分進行增強的第二輸出語音信號類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,可以對所述至少一個第一子帶信號和所述至少 一個第二子帶信號分別進行升取樣,分別得到至少一個第一升取樣信號和至少一個第二升取樣信號。該部分方法與前述對第一高頻段信號和第二高頻段信號分別進行升取樣,分別得到第一升取樣信號和第二升取樣信號類似,具體內容可以參見圖2、圖3、圖4、圖5及其相關描述。進一步地,可以對所述至少一個第一升取樣信號和所述至少一個第二升取樣信號進行差分運算,得到對所述目標語音的高頻部分進行增強的所述至少一個第二子帶輸出語音信號。該部分方法與前述對第一升取樣信號和第二升取樣信號進行差分運算,得到對目標語音的高頻部分進行增強的所述第二輸出語音信號類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,差分運算可以包括:基於所述第一子帶信號的第一時序信號、所述第二子帶信號中在所述第一時序之前的至少一個時序信號進行所述差分運算;得到對所述目標語音的高頻部分進行增強的所述第二子帶輸出語音信號。該部分方法可以與前述基於所述第一高頻段信號的第一時序信號、所述第二高頻段信號中在所述第一時序之前的至少一個時序信號進行差分運算;得到對所述目標語音的高頻部分進行增強的所述第二輸出語音信號類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,在所述第一時序之前的所述至少一個時序信號中,每一個所述時序信號對應有第二權重係數,基於所述第一信號的所述第一時序信號、所述第二信號中在所述第一時序之前的所述至少一個時序信號和所述至少一個時序信號對應的所述第二權重係數進行所述差分運算。該第二權重係數與前述第二高頻段信號中在第一時序之前的至少一個時序信號的第二權重係數作用類似,確定方法與其類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
關於基於所述第一信號的所述第一時序信號、所述第二信號中在 所述第一時序之前的所述至少一個時序信號和所述至少一個時序信號對應的所述第二權重係數進行所述差分運算,與前述基於所述第一高頻段信號的第一時序信號、第二高頻段信號中在第一時序之前的至少一個時序信號和至少一個時序信號的所述第二權重係數進行差分運算類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
在一些實施例中,第二權重係數可以基於所述第一時序信號、所述第一信號中所述第一時序信號的前一時序信號對應的所述第二信號中在所述前一時序之前的至少一個時序信號的第二權重係數確定。該第二權重係數的確定方法與前述基於第一高頻段信號中第一時序信號、第一高頻段信號中第一時序信號的前一時序信號對應的的第二權重係數確定第一時序信號對應的第二權重係數類似,具體內容可以參見圖4、圖5、圖6、圖7及其相關描述。
圖10是根據本說明書一些實施例所示的一種語音增強系統的示例性方塊圖。
在一些實施例中,語音增強系統1000可以實現於處理設備110上,其可以包括第一語音獲取模組1010、信號雜訊比確定模組1020、信號雜訊比判別模組1030和第一增強處理模組1040。
在一些實施例中,第一語音獲取模組1010可以用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
在一些實施例中,信號雜訊比確定模組1020可以用於基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比。
在一些實施例中,信號雜訊比判別模組1030可以用於基於所述目標信號雜訊比確定對所述第一信號和所述第二信號的處理方式。
在一些實施例中,第一增強處理模組1040可以用於基於確定的所 述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
圖11是根據本說明書一些實施例所示的一種語音增強系統的示例性方塊圖。
在一些實施例中,語音增強系統1100可以實現於處理設備110上,其可以包括第二語音獲取模組1110、第二增強處理模組1120和第二處理輸出模組1130。
在一些實施例中,第二語音獲取模組1110可以用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
在一些實施例中,第二增強處理模組1120可以用於採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號。
在一些實施例中,第二處理輸出模組1130可以用於合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
圖12是根據本說明書一些實施例所示的一種語音增強系統的示例性方塊圖。
在一些實施例中,語音增強系統1200可以實現於處理設備110上,其可以包括第三語音獲取模組1210、第三取樣模組1220、第三增強處理模組1230和第三處理輸出模組1240。
在一些實施例中,第三語音獲取模組1210可以用於獲取目標語音 的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
在一些實施例中,第三取樣模組1220可以用於對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號。
在一些實施例中,第三增強處理模組1230可以用於處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號。
在一些實施例中,第三處理輸出模組1240可以用於將所述增強語音信號中與第一降取樣信號和/或第二降取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
圖13是根據本說明書一些實施例所示的一種語音增強系統的示例性方塊圖。
在一些實施例中,語音增強系統1300可以實現於處理設備110上,其可以包括第四語音獲取模組1310、子帶確定模組1320、子帶信號雜訊比確定模組1330、子帶信號雜訊比判別模組1340和第四增強處理模組1350。
在一些實施例中,第四語音獲取模組1310可以用於獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號。
在一些實施例中,子帶確定模組1320可以用於確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號。
在一些實施例中,子帶信號雜訊比確定模組1330可以用於基於所述至少一個第一子帶信號和/或所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比。
在一些實施例中,子帶信號雜訊比判別模組1340可以用於基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子帶信號和所述至少 一個第二子帶信號的處理方式。
在一些實施例中,第四增強處理模組1350可以用於基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
應當理解,所示的系統及其模組可以利用各種方式來實現。例如,在一些實施例中,系統及其模組可以通過硬體、軟體或者軟體和硬體的結合來實現。其中,硬體部分可以利用專用邏輯來實現;軟體部分則可以儲存在記憶體中,由適當的指令執行系統,例如微處理器或者專用設計硬體來執行。所屬技術領域中具有通常知識者可以理解上述的方法和系統可以使用電腦可執行指令和/或包含在處理器控制代碼中來實現,例如在諸如磁片、CD或DVD-ROM的載體媒體、諸如唯讀記憶體(韌體)的可程式記憶體或者諸如光學或電子信號載體的資料載體上提供了這樣的代碼。本說明書的系統及其模組不僅可以有諸如超大型積體電路或閘陣列、諸如邏輯晶片、電晶體等的半導體、或者諸如現場可程式閘陣列、可程式邏輯裝置等的可程式硬體設備的硬體電路實現,也可以用例如由各種類型的處理器所執行的軟體實現,還可以由上述硬體電路和軟體的結合(例如,韌體)來實現。
需要注意的是,以上對於語音增強系統及其模組的描述,僅為描述方便,並不能把本說明書限制在所舉實施例範圍之內。可以理解,對於所屬技術領域中具有通常知識者來說,在瞭解該系統的原理後,可能在不背離這一原理的情況下,對各個模組進行任意組合,或者構成子系統與其他模組連接。
本說明書實施例還提供一種語音增強的裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現如下方法:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音對應的在不同的語音 採集位置的語音信號;對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的語音增強後的增強語音信號;將所述增強語音信號中與第一降取樣信號和/或第二降取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
本說明書實施例還提供一種語音增強的裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現如下方法:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音對應的在不同的語音採集位置的語音信號;採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號;合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書實施例還提供一種語音增強的裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現如下方法:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音對應的在不同的語音採集位置的語音信號;基於所述第一信號和/或所述第二信號確定所述目標語音的目標信號雜訊比;基於所述目標信號雜訊比確定對所述第一信號和所述第二信號的處理方式;以及基於確定的所述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書實施例還提供一種語音增強的裝置,包括至少一個儲存 媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現如下方法:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音對應的在不同的語音採集位置的語音信號;確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號;基於所述至少一個第一子帶信號和/或所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比;基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子帶信號和所述至少一個第二子帶信號的處理方式;以及基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
本說明書實施例可能帶來的有益效果包括但不限於:(1)本說明書中,通過對目標語音的第一信號和第二信號進行降取樣並長度補零後做語音增強處理,再進行部分升取樣得到最後輸出語音信號,實現了低頻部分的高頻率解析度增強處理,提高了低頻部分的語音增強效果;(2)本說明書中,通過對目標語音的第一信號和第二信號進行高頻部分和低頻部分分別處理,實現了有效地分別提高低頻部分的語音增強效果和高頻部分的語音增強效果;(3)本說明書中,基於目標語音的目標信號雜訊比判別,選擇對目標語音的第一信號和第二信號的不同處理方法,使得更加精準和有效地根據不同信號雜訊比的信號特點實現目標語音的語音增強,提高了語音增強效果;(4)本說明書中,通過對目標語音的第一信號和第二信號進行子帶劃分,基於子帶信號進行目標語音的語音增強處理,實現了更加有針對性和更精細的語音增強處理,能夠提高語音增強的效果。需要說明的是,不同實施例可能產生的有益效果不同,在不同的實施例裡,可能產生的有益效果可以是以上任意一種或幾種的組合,也可以是其他任何可能獲得的有益效果。
上文已對基本概念做了描述,顯然,對於所屬技術領域中具有通常知識者來說,上述詳細揭露內容露僅僅作為示例,而並不構成對本說明書的限定。雖然此處並沒有明確說明,所屬技術領域中具有通常知識者可以對本說明書進行各種修改、改進和修正。該類修改、改進和修正在本說明書中被建議,所以該類修改、改進、修正仍屬於本說明書示範實施例的精神和範圍。
同時,本說明書使用了特定詞語來描述本說明書的實施例。如“一個實施例”、“一實施例”、和/或“一些實施例”意指與本說明書至少一個實施例相關的某一特徵、結構或特點。因此,應強調並注意的是,本說明書中在不同位置兩次或多次提及的“一實施例”或“一個實施例”或“一個替代性實施例”並不一定是指同一實施例。此外,本說明書的一個或多個實施例中的某些特徵、結構或特點可以進行適當的組合。
此外,所屬技術領域中具有通常知識者可以理解,本說明書的各個態樣可以通過若干具有可專利性的種類或情況進行說明和描述,包括任何新的和有用的流程、機器、產品或物質的組合,或對他們的任何新的和有用的改進。相應地,本說明書的各個態樣可以完全由硬體執行、可以完全由軟體(包括韌體、常駐軟體、微碼等)執行、也可以由硬體和軟體組合執行。以上硬體或軟體均可被稱為“資料塊”、“模組”、“引擎”、“單元”、“元件”或“系統”。此外,本說明書的各態樣可以表現為位於一個或多個電腦可讀取媒體中的電腦產品,該產品包括電腦可讀取程式碼。
電腦儲存媒體可能包含一個內含有電腦程式碼的傳播資料信號,例如在基帶上或作為載波的一部分。該傳播信號可能有多種表現形式,包括電磁形式、光形式等,或合適的組合形式。電腦儲存媒體可以是除電腦可讀取儲存媒體之外的任何電腦可讀取媒體,該媒體可以通過連接至一個指令執行系統、裝置或設備以實現通訊、傳播或傳輸供使用的程式。位於電腦儲存媒體上的程式編碼 可以通過任何合適的媒體進行傳播,包括無線電、電纜、光纖電纜、RF、或類似媒體,或任何上述媒體的組合。
本說明書各部分操作所需的電腦程式編碼可以用任意一種或多種程式語言編寫,包括物件導向程式設計語言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常規程式化程式設計語言如C語言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,動態程式設計語言如Python、Ruby和Groovy,或其他程式設計語言等。該程式編碼可以完全在使用者電腦上運行、或作為獨立的套裝軟體在使用者電腦上運行、或部分在使用者電腦上運行部分在遠端電腦運行、或完全在遠端電腦或處理設備上運行。在後種情況下,遠端電腦可以通過任何網路形式與使用者電腦連接,比如區域網路(LAN)或廣域網路(WAN),或連接至外部電腦(例如通過網際網路),或在雲端計算環境中,或作為服務使用如軟體即服務(SaaS)。
此外,除非申請專利範圍中明確說明,本說明書所述處理元素和序列的順序、數字字母的使用、或其他名稱的使用,並非用於限定本說明書流程和方法的順序。儘管上述揭露內容中通過各種示例討論了一些目前認為有用的發明實施例,但應當理解的是,該類細節僅起到說明的目的,附加的申請專利範圍並不僅限於揭露的實施例,相反地,申請專利範圍旨在覆蓋所有符合本說明書實施例實質和範圍的修正和等價組合。例如,雖然以上所描述的系統元件可以通過硬體設備實現,但是也可以只通過軟體的解決方案得以實現,如在現有的處理設備或行動設備上安裝所描述的系統。
同理,應當注意的是,為了簡化本說明書揭露內容的表述,從而幫助對一個或多個發明實施例的理解,前文對本說明書實施例的描述中,有時會將多種特徵歸併至一個實施例、附圖或對其的描述中。但是,這種揭露方式並不意味著本說明書物件所需要的特徵比申請專利範圍中提及的特徵多。實際上,實 施例的特徵要少於上述揭露的單個實施例的全部特徵。
一些實施例中使用了描述成分、屬性數量的數位,應當理解的是,此類用於實施例描述的數字,在一些示例中使用了修飾詞“大約”、“近似”或“大體上”來修飾。除非另外說明,“大約”、“近似”或“大體上”表明所述數字允許有±20%的變化。相應地,在一些實施例中,說明書和申請專利範圍中使用的數值參數均為近似值,該近似值根據個別實施例所需特點可以發生改變。在一些實施例中,數值參數應考慮規定的有效位數並採用一般位數保留的方法。儘管本說明書一些實施例中用於確認其範圍廣度的數值域和參數為近似值,在具體實施例中,此類數值的設定在可行範圍內盡可能精確。
針對本說明書引用的每個專利、專利申請案、專利申請案的公開本和其他材料,如文章、書籍、說明書、出版物、文件等,特此將其全部內容併入本說明書作為參考。與本說明書內容不一致或產生衝突的申請歷史文件除外,對本案申請專利範圍最廣範圍有限制的文件(當前或之後附加於本申請案中的)也除外。需要說明的是,如果本申請案附屬材料中的描述、定義、和/或術語的使用與本說明書所述內容有不一致或衝突的地方,以本說明書的描述、定義和/或術語的使用為準。
最後,應當理解的是,本說明書中所述實施例僅用以說明本說明書實施例的原則。其他的變形也可以屬於本說明書的範圍。因此,作為示例而非限制,本說明書實施例的替代配置可視為與本說明書的教導一致。相應地,本說明書的實施例不僅限於本說明書明確介紹和描述的實施例。
400:方法
410:步驟
420:步驟
430:步驟
440:步驟

Claims (26)

  1. 一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比;基於所述目標信號雜訊比確定對所述第一信號和所述第二信號的處理方式,包括:回應於所述目標信號雜訊比小於第一閾值時,採用第一模式處理所述第一信號和所述第二信號;回應於所述目標信號雜訊比大於第二閾值時,採用第二模式處理所述第一信號和所述第二信號,其中,所述第一閾值小於所述第二閾值;以及基於確定的所述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
  2. 如請求項1之方法,其中,基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比包括:分別獲取所述第一信號和所述第二信號的當前訊框資料;確定與所述第一信號和所述第二信號的所述當前訊框資料所對應的估計信號雜訊比;基於所述第一信號和所述第二信號的至少一個在所述當前訊框資料之前的訊框資料,確定所述目標語音的驗證信號雜訊比;以及基於所述驗證信號雜訊比和所述估計信號雜訊比確定與所述第一信號和所述第二信號的所述當前訊框資料所對應的所述目標信號雜訊比。
  3. 如請求項2之方法,其中,基於所述第一信號和所述第二信號的至少一個在所述當前訊框資料之前的訊框資料,確定所述目標語音的驗證信號 雜訊比;以及基於所述驗證信號雜訊比和所述估計信號雜訊比確定與所述第一信號和所述第二信號的所述當前訊框資料所對應的所述目標信號雜訊比包括:獲取所述第一信號和所述第二信號的至少一個在所述當前訊框資料之前並且經過語音增強的訊框資料;確定與所述經過語音增強的訊框資料對應的至少一個驗證信號雜訊比;以及基於所述至少一個驗證信號雜訊比和所述估計信號雜訊比確定與所述第一信號和所述第二信號的所述當前訊框資料所對應的所述目標信號雜訊比。
  4. 如請求項1之方法,其中,採用第一模式處理所述第一信號和所述第二信號包括:採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號;以及合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述輸出語音信號。
  5. 如請求項4之方法,其中,所述第一處理方法包括:對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號;將所述增強語音信號中與所述第一降取樣信號和所述第二降取樣信號對應的部分信號進行升取樣,得到對所述目標語音的低頻部分進行增強的所述第一輸出語音信號。
  6. 如請求項5之方法,其中,處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號包括:獲取所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號;處理所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號,得到所述目標語音對應的增強頻域信號;基於所述增強頻域信號,確定所述增強語音信號。
  7. 如請求項6之方法,其中,處理所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號,得到所述目標語音對應的增強頻域信號包括:基於所述第一降取樣信號的雜訊信號和所述第二降取樣信號的雜訊信號的差異因數,對所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號進行差分運算,得到所述增強頻域信號,所述差異因數基於所述第一降取樣信號和所述第二降取樣信號的信號能量確定。
  8. 如請求項6之方法,其中,處理所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號,得到所述目標語音對應的增強頻域信號包括:基於所述第一降取樣信號的雜訊信號和所述第二降取樣信號的雜訊信號的差異因數,對所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號進行差分運算,得到初步增強頻域信號;以及基於所述初步增強頻域信號、所述第一降取樣信號的頻域信號和所述第二降取樣信號的頻域信號進行差分運算,得到所述增強頻域信號。
  9. 如請求項8之方法,其中,所述初步增強頻域信號、所述第一降取樣信號的頻域信號或所述第二降取樣信號的頻域信號對應有第一權重係數,所述第一權重係數與當前所處理信號的語音存在機率有關。
  10. 如請求項4之方法,其中,所述第一處理方法包括:獲取所述第一信號的低頻部分對應的第一低頻段信號,和所述第二信號的低頻部分對應的第二低頻段信號;獲取所述第一低頻段信號的頻域信號和所述第二低頻段信號的頻域信號;處理所述第一低頻段信號的頻域信號和所述第二低頻段信號的頻域信號,得到所述目標語音對應的語音增強後的增強頻域信號;基於所述增強頻域信號,確定所述目標語音對應的所述第一輸出語音信號。
  11. 如請求項4之方法,其中,所述第二處理方法包括:獲取所述第一信號的高頻部分對應的第一高頻段信號,和所述第二信號的高頻部分對應的第二高頻段信號;以及基於所述第一高頻段信號和所述第二高頻段信號進行差分運算,得到對所述目標語音的高頻部分進行增強的所述第二輸出語音信號。
  12. 如請求項11之方法,其中,基於所述第一高頻段信號和所述第二高頻段信號進行差分運算包括:對所述第一高頻段信號和所述第二高頻段信號分別進行升取樣,分別得到第一升取樣信號和第二升取樣信號;以及對所述第一升取樣信號和所述第二升取樣信號進行差分運算,得到對所述目標語音的高頻部分進行增強的所述第二輸出語音信號。
  13. 如請求項11之方法,其中,所述差分運算包括:基於所述第一高頻段信號的第一時序信號、所述第二高頻段信號中在所述第一時序之前的至少一個時序信號進行所述差分運算。
  14. 如請求項13之方法,其中,在所述第一時序之前的所述至少一個時序信號中,每一個所述時序信號有對應的第二權重係數,所述方法包括:基於所述第一高頻段信號的所述第一時序信號、所述第二高頻段信號中在所述第 一時序之前的所述至少一個時序信號和所述至少一個時序信號對應的所述第二權重係數進行所述差分運算。
  15. 如請求項14之方法,其中,所述第二權重係數基於所述第一時序信號、所述第一高頻段信號中所述第一時序信號的前一時序信號對應的所述第二高頻段信號中在所述前一時序之前的至少一個時序信號的第二權重係數確定。
  16. 一種語音增強系统,包括:第一語音獲取模組,用於:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;信號雜訊比確定模組,用於:基於所述第一信號或所述第二信號確定所述目標語音的目標信號雜訊比;信號雜訊比判別模組,用於:基於所述目標信號雜訊比確定對所述第一信號和所述第二信號的處理方式,包括:回應於所述目標信號雜訊比小於第一閾值時,採用第一模式處理所述第一信號和所述第二信號;回應於所述目標信號雜訊比大於第二閾值時,採用第二模式處理所述第一信號和所述第二信號,其中,所述第一閾值小於所述第二閾值;以及第一增強處理模組,用於:基於確定的所述處理方式對所述第一信號和所述第二信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
  17. 一種語音增強裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現請求項1至15中任一項所述的方法。
  18. 一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所 述目標語音在不同語音採集位置的語音信號;當所述目標語音的目標信號雜訊比小於第一閾值時,採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號;合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
  19. 一種語音增強系統,包括:第二語音獲取模組,用於:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;第二增強處理模組,用於:當所述目標語音的目標信號雜訊比小於第一閾值時,採用第一處理方法處理所述第一信號的低頻部分和所述第二信號的低頻部分,得到對所述目標語音的低頻部分進行增強的第一輸出語音信號;採用第二處理方法處理所述第一信號的高頻部分和所述第二信號的高頻部分,得到對所述目標語音的高頻部分進行增強的第二輸出語音信號;以及第二處理輸出模組,用於:當所述目標語音的所述目標信號雜訊比小於所述第一閾值時,合併所述第一輸出語音信號和所述第二輸出語音信號,得到所述目標語音對應的語音增強後的輸出語音信號。
  20. 一種語音增強裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現請求項18所述的方法。
  21. 一種語音增強方法,包括:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所 述目標語音在不同語音採集位置的語音信號;當所述目標語音的目標信號雜訊比小於第一閾值時,對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號;將所述增強語音信號中與所述第一降取樣信號和所述第二降取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
  22. 一種語音增強系統,包括:第三語音獲取模組,用於:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;第三取樣模組,用於:當所述目標語音的目標信號雜訊比小於第一閾值時,對所述第一信號和所述第二信號分別進行降取樣,分別得到第一降取樣信號和第二降取樣信號;第三增強處理模組,用於:當所述目標語音的所述目標信號雜訊比小於所述第一閾值時,處理所述第一降取樣信號和所述第二降取樣信號,得到所述目標語音對應的增強語音信號;第三處理輸出模組,用於:當所述目標語音的所述目標信號雜訊比小於所述第一閾值時,將所述增強語音信號中與所述第一降取樣信號和/或所述第二降取樣信號對應的部分信號進行升取樣,得到所述目標語音對應的輸出語音信號。
  23. 一種語音增強裝置,包括至少一個儲存媒體和至少一個處理器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現請求項21所述的方法。
  24. 一種語音增強方法,包括: 獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號;基於所述至少一個第一子帶信號或所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比;基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子帶信號和所述至少一個第二子帶信號的處理方式;以及基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
  25. 一種語音增強系統,包括:第四語音獲取模組,用於:獲取目標語音的第一信號和第二信號,所述第一信號和所述第二信號是所述目標語音在不同語音採集位置的語音信號;子帶確定模組,用於:確定所述第一信號對應的至少一個第一子帶信號和所述第二信號對應的至少一個第二子帶信號;子帶信號雜訊比確定模組,用於:基於所述至少一個第一子帶信號或所述至少一個第二子帶信號確定所述目標語音的至少一個子帶目標信號雜訊比;子帶信號雜訊比判別模組,用於:基於所述至少一個子帶目標信號雜訊比確定對所述至少一個第一子帶信號和所述至少一個第二子帶信號的處理方式;以及第四增強處理模組,用於:基於確定的所述處理方式對所述至少一個第一子帶信號和所述至少一個第二子帶信號進行處理,得到所述目標語音對應的語音增強後的輸出語音信號。
  26. 一種語音增強裝置,包括至少一個儲存媒體和至少一個處理 器,所述至少一個儲存媒體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令以實現請求項24所述的方法。
TW111112413A 2021-04-01 2022-03-31 語音增強方法、系統和裝置 TWI818493B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
WOPCT/CN2021/085039 2021-04-01
PCT/CN2021/085039 WO2022205345A1 (zh) 2021-04-01 2021-04-01 一种语音增强方法和系统

Publications (2)

Publication Number Publication Date
TW202247141A TW202247141A (zh) 2022-12-01
TWI818493B true TWI818493B (zh) 2023-10-11

Family

ID=83457845

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111112413A TWI818493B (zh) 2021-04-01 2022-03-31 語音增強方法、系統和裝置

Country Status (4)

Country Link
US (1) US20230317093A1 (zh)
CN (1) CN116711007A (zh)
TW (1) TWI818493B (zh)
WO (1) WO2022205345A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116904569B (zh) * 2023-09-13 2023-12-15 北京齐碳科技有限公司 信号处理方法、装置、电子设备、介质和产品
CN117278896B (zh) * 2023-11-23 2024-03-19 深圳市昂思科技有限公司 一种基于双麦克风的语音增强方法、装置及助听设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102623016A (zh) * 2012-03-26 2012-08-01 华为技术有限公司 宽带语音处理方法及装置
JP2013068919A (ja) * 2011-09-07 2013-04-18 Nara Institute Of Science & Technology 雑音抑圧用係数設定装置および雑音抑圧装置
CN104464745A (zh) * 2014-12-17 2015-03-25 中航华东光电(上海)有限公司 一种双通道语音增强系统及其方法
CN107967918A (zh) * 2016-10-19 2018-04-27 河南蓝信科技股份有限公司 一种增强语音信号清晰度的方法
US20180167747A1 (en) * 2016-12-13 2018-06-14 Oticon A/S Method of reducing noise in an audio processing device
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
TW202030723A (zh) * 2018-12-21 2020-08-16 弗勞恩霍夫爾協會 使用脈衝處理用於產生一頻率增強音訊信號的音訊處理器及方法
CN112116918A (zh) * 2020-09-27 2020-12-22 北京声加科技有限公司 语音信号增强处理方法和耳机

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894563B (zh) * 2010-07-15 2013-03-20 瑞声声学科技(深圳)有限公司 语音增强的方法
CN104575511B (zh) * 2013-10-22 2019-05-10 陈卓 语音增强方法及装置
CN110310651B (zh) * 2018-03-25 2021-11-19 深圳市麦吉通科技有限公司 波束形成的自适应语音处理方法、移动终端及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013068919A (ja) * 2011-09-07 2013-04-18 Nara Institute Of Science & Technology 雑音抑圧用係数設定装置および雑音抑圧装置
CN102623016A (zh) * 2012-03-26 2012-08-01 华为技术有限公司 宽带语音处理方法及装置
CN104464745A (zh) * 2014-12-17 2015-03-25 中航华东光电(上海)有限公司 一种双通道语音增强系统及其方法
CN107967918A (zh) * 2016-10-19 2018-04-27 河南蓝信科技股份有限公司 一种增强语音信号清晰度的方法
US20180167747A1 (en) * 2016-12-13 2018-06-14 Oticon A/S Method of reducing noise in an audio processing device
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
TW202030723A (zh) * 2018-12-21 2020-08-16 弗勞恩霍夫爾協會 使用脈衝處理用於產生一頻率增強音訊信號的音訊處理器及方法
CN110085246A (zh) * 2019-03-26 2019-08-02 北京捷通华声科技股份有限公司 语音增强方法、装置、设备和存储介质
CN112116918A (zh) * 2020-09-27 2020-12-22 北京声加科技有限公司 语音信号增强处理方法和耳机

Also Published As

Publication number Publication date
CN116711007A (zh) 2023-09-05
US20230317093A1 (en) 2023-10-05
TW202247141A (zh) 2022-12-01
WO2022205345A1 (zh) 2022-10-06

Similar Documents

Publication Publication Date Title
TWI818493B (zh) 語音增強方法、系統和裝置
US10123113B2 (en) Selective audio source enhancement
US10170134B2 (en) Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
CN111133511B (zh) 声源分离系统
WO2020108614A1 (zh) 音频识别方法、定位目标音频的方法、装置和设备
EP3526979B1 (en) Method and apparatus for output signal equalization between microphones
US10930298B2 (en) Multiple input multiple output (MIMO) audio signal processing for speech de-reverberation
CN111418010A (zh) 一种多麦克风降噪方法、装置及终端设备
CN110164467A (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
US9754604B2 (en) System and method for addressing acoustic signal reverberation
US11114109B2 (en) Mitigating noise in audio signals
US10262672B2 (en) Audio processing for speech
US20180174598A1 (en) Echo cancellation for keyword spotting
EP3320311B1 (en) Estimation of reverberant energy component from active audio source
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
CN114898762A (zh) 基于目标人的实时语音降噪方法、装置和电子设备
JP2015143811A (ja) 雑音抑圧装置および雑音抑圧方法
RU2616534C2 (ru) Ослабление шума при передаче аудиосигналов
CN117136407A (zh) 用于音频处理的深度神经网络去噪器掩模生成系统
KR102378207B1 (ko) 오디오 신호들을 정제하는 멀티 오럴 mmse 분석 기술들
WO2024000854A1 (zh) 语音降噪方法、装置、设备及计算机可读存储介质
JP2017015774A (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
CN114783455A (zh) 用于语音降噪的方法、装置、电子设备和计算机可读介质
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN114363753A (zh) 耳机的降噪方法、装置、耳机及存储介质