TW202322107A - 降噪處理方法 - Google Patents
降噪處理方法 Download PDFInfo
- Publication number
- TW202322107A TW202322107A TW111108724A TW111108724A TW202322107A TW 202322107 A TW202322107 A TW 202322107A TW 111108724 A TW111108724 A TW 111108724A TW 111108724 A TW111108724 A TW 111108724A TW 202322107 A TW202322107 A TW 202322107A
- Authority
- TW
- Taiwan
- Prior art keywords
- noise
- feature information
- noise reduction
- voiceprint
- voiceprint feature
- Prior art date
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 76
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 abstract description 13
- 238000012545 processing Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1041—Mechanical or electronic switches, or control elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Processing (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
Abstract
本發明公開一種降噪處理方法。降噪處理方法包括:當檢測到降噪耳機處於佩戴狀態且降噪模式處於開啟狀態,採集周圍環境中的第一語音資料;基於所述第一語音資料提取待識別聲紋特徵資訊;逐一比較註冊聲紋庫中的註冊聲紋特徵資訊與待識別聲紋特徵資訊的相似度;以及當存在至少一相似度大於第一預設閾值,對降噪耳機執行預設動作。本發明避免了使用者佩戴耳機時聽不到別人呼叫,而不利於溝通交流的問題,提升了佩戴者與別人的溝通體驗。
Description
相關申請案
本發明係主張中國專利申請案第202111407413.8號(申請日:2021年11月24日)之國際優先權,該申請案之完整內容納入為本發明專利說明書的一部分以供參照。
本發明涉及訊號處理技術領域,具體地說,涉及一種降噪處理方法及裝置。
隨著技術的進步,降噪耳機的降噪性能不斷改進,降噪耳機受到了越來越多使用者的喜愛。降噪耳機能夠有效地抑制環境雜訊,讓佩戴者即使在嘈雜的環境中也能享受到美妙的音訊資料,能較清晰地聽到耳機裡的音訊串流。
但由於降噪耳機在抑制環境雜訊的同時,也將人說話的聲音進行了抑制,導致使用者佩戴耳機時聽不到別人呼叫,而產生尷尬影響了兩個人之間的正常交流。
針對現有技術中的問題,本發明的目的在於提供一種降噪處理方法及裝置,解決現有的降噪處理方法在降噪的同時,影響了人的正常交流,不利於溝通的問題。
為實現上述目的,本發明提供了一種降噪處理方法,所述方法包括以下步驟:
當檢測到降噪耳機處於佩戴狀態且降噪模式處於開啟狀態,採集周圍環境中的第一語音資料;
基於所述第一語音資料提取待識別聲紋特徵資訊;
逐一比較註冊聲紋庫中的註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度;以及
當存在至少一相似度大於第一預設閾值,對降噪耳機執行預設動作,以使外界聲音傳導至佩戴所述降噪耳機的目標使用者。
可選地,在逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟之前,還包括:
採集佩戴所述降噪耳機的目標使用者在過去第一預設時間段內的歷史對話對應的第二語音資料;
提取所述第二語音資料中的所有聲紋,基於所有聲紋中出現頻率最高的N個聲紋進行註冊,形成註冊聲紋庫;N為整數。
可選地,所述註冊聲紋特徵資訊還包含位置資訊,且所述降噪處理方法在逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟之前,還包括:
對所述註冊聲紋特徵資訊基於相關聯的位置資訊進行分組,形成位置資訊與聲紋組相對應的第一映射關係;
獲取降噪耳機的當前位置資訊;
基於所述第一映射關係,判斷與所述當前位置資訊匹配的目標聲紋組;
逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟還包括:
逐一比較所述目標聲紋組中的註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度。
可選地,採集周圍環境中的所述第一語音資料的步驟包括:同時採集降噪耳機的當前位置資訊;
逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟還包括:
基於佩戴所述降噪耳機的目標使用者在不同位置的歷史對話資料,構建訓練集;
基於所述訓練集,對預設網路模型進行訓練,得到初始網路模型;所述初始網路模型中對於同一對話者在不同位置的參數權重不同,所述參數權重與所述位置相關聯;
基於所述當前位置資訊,判斷所述初始網路模型中的參數權重,形成目標網路模型;
基於所述目標網路模型,逐一判斷註冊聲紋庫中的註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度。
可選地,所述基於佩戴所述降噪耳機的目標使用者在不同位置的歷史對話資料,構建訓練集,包括:
獲取一歷史時間段內,佩戴所述降噪耳機的目標使用者在不同位置的歷史對話資料,作為初始訓練資料;所述歷史對話資料中包含有對話開始後的一預設時長內,所述降噪耳機的佩戴狀態變化資料;
自所述初始訓練資料,篩選出在對話開始後的一預設時長內,所述降噪耳機由佩戴狀態切換為非佩戴狀態對應的歷史對話資料,作為目標訓練資料;
基於所述目標訓練資料,構建訓練集。
可選地,在逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟之前,還包括:
基於指定的聲紋特徵資訊進行註冊,形成註冊聲紋庫。
可選地,所述方法還包括:
獲取大於所述第一預設閾值的相似度對應的註冊聲紋特徵資訊,作為目標聲紋;並繼續採集周圍環境的第三語音資料;
當在第二預設時間段內自所述第三語音資料中,持續未識別到所述目標聲紋以及所述目標使用者的聲紋特徵資訊,則開啟所述降噪耳機的降噪模式。
可選地,採集周圍環境中的所述第一語音資料的步驟還包括:
採集周圍環境中距離降噪耳機的音訊強度大於第二預設閾值的語音資料,作為第一語音資料。
可選地,逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟還包括:
當檢測到降噪耳機的電量低於第三預設閾值,且所述降噪耳機與一終端設備建立連接,則所述降噪耳機關閉所述降噪模式。
可選地,所述預設動作為關閉降噪模式或者開啟通透模式。
本發明與現有技術相比,具有以下優點及突出性效果:
本發明提供的降噪處理方法及裝置通過偵測環境中的語音資料,當識別到註冊聲紋特徵資訊時,就對降噪耳機執行預設動作,比如關閉降噪模式;避免了使用者佩戴耳機時聽不到別人呼叫,而不利於溝通交流的問題,提升了佩戴者與別人的溝通體驗。
為使能更進一步瞭解本發明的特徵及技術內容,請參閱以下有關本發明的詳細說明與圖式,然而所提供的圖式僅用於提供參考與說明,並非用來對本發明加以限制。
現在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應被理解為限於在此闡述的實施方式。相反,提供這些實施方式使得本發明將全面及完整,並將示例實施方式的構思全面地傳達給本領域具有通常知識者。在圖中相同的附圖標記表示相同或類似的結構,因而將省略其重複描述。
示例性地,本發明對一降噪耳機的結構和功能進行示例性說明。該降噪耳機可以包含有多種聲音模式,比如降噪模式、普通模式、通透模式等。其中降噪模式包含主動降噪功能,主動降噪功能就是通過降噪系統產生與外界噪音相等的反向聲波,將噪音中和,從而實現降噪的效果。普通模式是沒有任何對聲音進行額外處理的模式,耳機中播放的音訊就是原音訊中帶有的音訊效果。通透模式,是指對環境音資料不做消音處理,使得用戶可以清晰聽到外部環境聲音,允許耳機使用者與外界進行正常的交流。
如圖1所示,本發明一實施例公開了一種關於降噪耳機的降噪處理方法,該方法包括以下步驟:
步驟S110,當檢測到降噪耳機處於佩戴狀態且降噪模式處於開啟狀態,採集周圍環境中的第一語音資料。具體來說,採集環境中人說話的音訊資料,作為第一語音資料。
上述佩戴狀態的檢測可以通過紅外感測器等技術實現,比如當耳機的第二端能夠檢測到第一端發射的紅外訊號,說明耳機處於佩戴狀態,若檢測不到紅外訊號,則說明不處於佩戴狀態。該檢測也可以通過現有技術實現,本發明對此不再贅述。
在本發明的一實施例中,該步驟中可以採集周圍環境中距離降噪耳機的音訊強度大於第二預設閾值的語音資料,作為第一語音資料。亦即,將以降噪耳機的位置為採集點,從採集到的周圍語音資料中,篩選出音訊強度大於第二預設閾值的音訊資料,作為第一語音資料。也就是說,因為兩個人的對話通常是面對面交流,所以本實施例僅採集與耳機佩戴者距離較近的說話者的音訊資料,這樣有利於提高對與耳機佩戴者交談的對話音訊的檢測準確度。示例性的,上述第二預設閾值可以為60分貝。本發明對此不作限制。
步驟S120,基於上述第一語音資料提取待識別聲紋特徵資訊。具體來說,示例性地,可以對第一語音資料進行語音端點檢測後,進行語音增強,然後提取有效語音,再提取聲紋特徵,即得到周圍環境中的待識別聲紋特徵資訊。在其他實施例中,該步驟的實現也可參考現有技術來實施。
步驟S130,逐一比較註冊聲紋庫中的註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度。具體而言,上述註冊聲紋庫即為需要進行比對的聲紋構成的聲紋庫。具體實施時,可以提取並註冊一個或多個指定人的聲紋構成註冊聲紋庫,也可以提取一個環境(比如佩戴者的工作場所、公司或者家庭)中所有人的聲紋並註冊後構成註冊聲紋庫。
在本發明的一實施例中,若耳機佩戴者需要從環境的第一語音資料中識別指定的一個或多個人的聲紋,那麼上述註冊聲紋庫可以基於指定人的聲紋特徵資訊進行註冊,也就是基於預設聲紋特徵資訊進行註冊。
上述相似度是基於聲紋比對演算法對註冊聲紋特徵資訊與所述待識別聲紋特徵資訊進行比對計算得到的。其中,註冊聲紋庫中的每一個註冊聲紋特徵資訊對應一個計算得到的相似度,即為一對一之關係。上述聲紋比對演算法的實現可參考現有技術,比如採用歐式距離、餘弦相似度等方式,本實施例不再贅述。
步驟S140,當存在至少一個相似度大於第一預設閾值,對降噪耳機執行預設動作,以使外界聲音傳導至佩戴所述降噪耳機的目標使用者。亦即,在上述步驟計算得到的所有註冊聲紋特徵資訊對應的相似度中,只要有一個相似度大於第一預設閾值,就關閉耳機的降噪模式或者開啟通透模式,使得外界別人說話的聲音能夠穿過耳機,傳導至耳機佩戴者的耳朵。本實施例中,上述預設動作為關閉降噪模式或者開啟通透模式。上述第一預設閾值可根據需要進行設置,比如,可以為90%,本發明對此不作限制。
在一實施例中,只要有一個相似度大於第一預設閾值,就可以停止計算後續的註冊聲紋特徵資訊對應的相似度,這樣可以提高聲紋檢測效率。
在本發明的另一實施例中,公開了另一種降噪處理方法。如圖2所示,該方法在上述實施例的基礎上,在步驟S120和步驟S130之間還包括:
步驟S150,採集佩戴上述降噪耳機的目標使用者在過去第一預設時間段內的歷史對話對應的第二語音資料。
步驟S160,提取上述第二語音資料中的所有聲紋,基於所有聲紋中出現頻率最高的N個聲紋進行註冊,形成註冊聲紋庫。其中,N為正整數。
具體而言,上述佩戴降噪耳機的目標使用者即為降噪耳機的佩戴者,也即為降噪耳機的使用者。上述歷史對話是指必須有上述目標使用者參與的對話,可以是目標使用者與另一方之間的對話,也可以是包含目標使用者在內的多人對話。
該註冊聲紋庫中包含的聲紋特徵資訊是與目標使用者的日常對話中頻率最高的N個人,這樣有利於提高聲紋識別檢測的效率和準確率,進而有利於改善用戶溝通交流體驗。
上述第一預設時間段可根據需要進行設置,比如,可以為當前時間之前的一個月,本發明對此不作限制。
在本發明的另一實施例中,公開了另一種降噪處理方法。如圖3所示,該方法在上述實施例的基礎上,在步驟S120和步驟S130之間還包括步驟:
步驟S170,在採集註冊聲紋特徵資訊的同時,採集位置資訊,並將採集到的位置資訊和上述註冊聲紋特徵資訊相關聯,基於採集到的註冊聲紋特徵資訊形成註冊聲紋庫。需要說明的是,該位置資訊是指聲紋特徵資訊對應的採集地點,也即人聲說話發生的位置。
步驟S180,對上述註冊聲紋特徵資訊基於相關聯的位置資訊進行分組,形成位置資訊與聲紋組相對應的第一映射關係。其中,分組後的每一組註冊聲紋特徵資訊對應一個位置資訊,每一組註冊聲紋特徵資訊即為一個上述聲紋組。
步驟S190,獲取降噪耳機的當前位置資訊。
步驟S200,基於上述第一映射關係,判斷與上述當前位置資訊匹配的目標聲紋組。
步驟S130包括:
逐一比較上述目標聲紋組中的註冊聲紋特徵資訊與上述待識別聲紋特徵資訊的相似度。
具體而言,示例性地,在家庭和公司中,與降噪耳機佩戴者經常對話的人群是不同的,那麼可以針對不同的位置,將採集到的註冊聲紋特徵資訊進行分組。比如家庭的對話者和公司的對話者在不同的兩組。這樣在進行聲紋識別時,基於地理位置資訊可以縮小待對比的聲紋範圍,有利於提高聲紋識別檢測的效率和準確率,進而有利於改善用戶溝通交流體驗。
在本發明的另一實施例中,公開了另一種降噪處理方法。如圖4所示,該方法在上述實施例的基礎上,步驟S110為:
當檢測到降噪耳機處於佩戴狀態且降噪模式處於開啟狀態,採集降噪耳機的當前位置資訊,以及周圍環境中的第一語音資料。
步驟S130包括:
S131,基於佩戴上述降噪耳機的目標使用者在不同位置的歷史對話資料,建立訓練集。具體而言,該步驟的實施可參考上述實施例實現。該歷史對話資料可以為過去的第一預設時間段內耳機佩戴者與其他人的對話資料。不同位置可以包含有家庭以及公司。
S132,基於上述訓練集,對預設網路模型進行訓練,得到初始網路模型。上述初始網路模型中對於同一對話者在不同位置的參數權重不同,上述參數權重與上述位置相關聯。具體而言,該預設網路模型的實現可參考現有技術實施,比如基於現有技術的卷積神經網路模型實現。具體實施時,該步驟中,可以為在一個預設網路模型中,每一個位置對應一套模型參數權重組合。也可以為每一個位置對應一個各個參數權重均為固定值的初始網路模型。也即,可以為具有多個初始網路模型,每一個位置對應一個初始網路模型。
步驟S133,基於上述當前位置資訊,判斷上述初始網路模型中的參數權重,形成目標網路模型。也即,該步驟判斷與當前位置資訊對應的模型參數權重。
步驟S134,基於上述目標網路模型,逐一判斷聲紋庫中的註冊聲紋特徵資訊與上述待識別聲紋特徵資訊的相似度。具體而言,也即將註冊聲紋特徵資訊與上述待識別聲紋特徵資訊作為目標網路模型的輸入,輸出兩個聲紋之間的相似度。
如圖5所示,在本發明的另一實施例中,上述步驟S131包括:
步驟S1311,獲取一歷史時間段內,佩戴上述降噪耳機的目標使用者在不同位置的歷史對話資料,作為初始訓練資料。上述歷史對話資料中包含有對話開始後的一預設時長內,上述降噪耳機的佩戴狀態變化資料。
步驟S1312,自上述初始訓練資料,篩選出在對話開始後的預設時長內,上述降噪耳機由佩戴狀態切換為非佩戴狀態對應的歷史對話資料,作為目標訓練資料。
步驟S1313,基於上述目標訓練資料,建立訓練集。
本實施例中,上述佩戴狀態變化資料可以為由佩戴狀態切換為非佩戴狀態、保持佩戴狀態不變、保持非佩戴狀態不變、或者由非佩戴狀態切換為佩戴狀態等四種類型。一般來說,耳機佩戴者即目標使用者在聽到或看到別人跟他打招呼,此時對話已經開始,然後佩戴者會摘下耳機參與進行對話,所以本實施例採用佩戴者摘下耳機後進行對話的歷史對話資料,這樣提取的歷史對話資料訓練價值更高,得到的模型識別檢測聲紋更加準確,有利於提高耳機識別聲紋效率。
也就是說,本發明根據佩戴狀態變化資料篩選訓練資料,可以篩選出佩戴者每次摘下耳機後與人對話交談的歷史對話資料作為訓練資料,使得訓練集的訓練準確度更高,進而有利於提高後續的聲紋檢測準確率和效率,進而有利於改善用戶溝通交流體驗。
在另一實施例中,上述步驟S1312可以為:自上述初始訓練資料,篩選出在對話中目標使用者說話前的一預設時長內,上述降噪耳機由佩戴狀態切換為非佩戴狀態對應的歷史對話資料,作為目標訓練資料。
上述歷史時間段和預設時長可根據需要進行設置,比如,歷史時間段可以為當前時間之前的一個月,預設時長可以為5秒鐘;本發明對此不作限制。
在本發明的另一實施例中,公開了另一種降噪處理方法。該方法在上述實施例的基礎上,還包括步驟:
獲取步驟S140中大於所述第一預設閾值的相似度對應的註冊聲紋特徵資訊,作為目標聲紋;並繼續採集周圍環境的第三語音資料。
當在第二預設時間段內自所述第三語音資料中,持續未識別到所述目標聲紋以及所述目標使用者的聲紋特徵資訊,則開啟所述降噪耳機的降噪模式。
具體而言,也即自環境音訊資料中未檢測到耳機佩戴者和前述對話者的聲紋時,繼續自動開啟耳機降噪模式,進行降噪。在其他實施例中,也可以在接收到觸發訊號後開啟耳機降噪模式,比如目標使用者手動觸發產生的觸發訊號。
上述第二預設時間段可根據需要進行設置,比如,可以為30秒鐘;本發明對此不作限制。
在本發明的另一實施例中,公開了另一種降噪處理方法。該方法在上述實施例的基礎上,步驟S130包括:
判斷降噪耳機的電量是否低於第三預設閾值,若檢測到降噪耳機的電量低於第三預設閾值,且上述降噪耳機與一終端設備建立連接,則基於上述終端設備逐一比較註冊聲紋庫中的註冊聲紋特徵資訊與上述待識別聲紋特徵資訊的相似度。並執行步驟S210及步驟S220。
步驟S210,當存在至少一相似度大於第一預設閾值,終端設備向降噪耳機發送一預設指令。
步驟S220,降噪耳機基於上述預設指令,執行預設工作。
若降噪耳機的電量不低於第三預設閾值,則基於降噪耳機逐一比較註冊聲紋庫中的註冊聲紋特徵資訊與上述待識別聲紋特徵資訊的相似度。然後執行上述步驟S140。
具體而言,上述終端設備可以為比如手機、平板電腦等設備,降噪耳機可以正在與終端設備進行藍牙連接。那麼在降噪耳機電量較低時,比如低於20%時,向終端設備發送一指令。終端設備接收到該指令後,採集開啟耳機降噪模式,並進行比對計算相似度。並在計算得到相似度大於第一預設閾值的聲紋特徵,向耳機發送預設指令,用於告知耳機關閉降噪模式或者開啟通透模式。
這樣可以節省降噪耳機的電量消耗,延長其續航時間,既能實現檢測對話者聲紋,又能不影響續航,有利於提升用戶體驗。
需要說明的是,本發明中公開的上述所有實施例可以進行自由組合,組合後得到的技術方案也在本發明的保護範圍之內。
如圖6所示,本發明一實施例還公開了一種降噪處理裝置6,該裝置包括:
第一語音資料獲取模組61,當檢測到降噪耳機處於佩戴狀態且降噪模式處於開啟狀態,採集周圍環境中的第一語音資料。
第一聲紋提取模組62,基於上述第一語音資料提取待識別聲紋特徵資訊。
第一聲紋比對模組63,逐一比較註冊聲紋庫中的註冊聲紋特徵資訊與上述待識別聲紋特徵資訊的相似度。
執行模組64,當存在至少一相似度大於第一預設閾值,對降噪耳機執行預設動作。
可以理解的是,本發明的降噪處理裝置還包括其他支援降噪處理裝置運行的現有功能模組。圖6顯示的降噪處理裝置僅僅是一個示例,不應對本發明實施例的功能和使用範圍帶來任何限制。
本實施例中的降噪處理裝置用於實現上述的降噪處理的方法,因此對於降噪處理裝置的具體實施步驟可以參照上述對降噪處理的方法的描述,此處不再贅述。
本發明實施例提供的降噪處理方法及裝置,通過偵測環境中的語音資料,當識別到註冊聲紋特徵資訊時,就對降噪耳機執行預設動作,比如關閉降噪模式;避免了使用者佩戴耳機時聽不到別人呼叫,而不利於溝通交流的問題,提升了佩戴者與別人的溝通體驗。
以上內容是結合具體的優選實施方式對本發明所作的進一步詳細說明,不能認定本發明的具體實施只局限於這些說明。對於本發明所屬技術領域的通常知識者來說,在不脫離本發明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬於本發明的保護範圍。
以上所公開的內容僅為本發明的優選可行實施例,並非因此侷限本發明的申請專利範圍,所以凡是運用本發明說明書及圖式內容所做的等效技術變化,均包含於本發明的申請專利範圍內。
6:降噪處理裝置
61:第一語音資料獲取模組
62:第一聲紋提取模組
63:第一聲紋比對模組
64:執行模組
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特徵、目的及優點將會是顯而易見的。
圖1為本發明一實施例公開的一種降噪處理方法的示意圖;
圖2為本發明另一實施例公開的一種降噪處理方法的示意圖;
圖3為本發明另一實施例公開的一種降噪處理方法的示意圖;
圖4為本發明另一實施例公開的一種降噪處理方法的示意圖;
圖5為本發明一實施例公開的降噪處理方法中步驟S131的流程示意圖;以及
圖6為本發明一實施例公開的一種降噪處理裝置的結構示意圖。
代表圖為流程圖,故無符號簡單說明。
Claims (10)
- 一種降噪處理方法,包括以下步驟: 一降噪耳機處於佩戴狀態且一降噪模式處於開啟狀態,採集周圍環境中的第一語音資料; 基於所述第一語音資料提取待識別聲紋特徵資訊; 逐一比較一註冊聲紋庫中的註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度;以及 當存在至少一個所述相似度大於一第一預設閾值,則對所述降噪耳機執行一預設動作,以使外界聲音傳導至佩戴所述降噪耳機的一目標使用者。
- 如請求項1所述的降噪處理方法,其中,在逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟之前,還包括: 採集佩戴所述降噪耳機的所述目標使用者在過去第一預設時間段內的歷史對話對應的第二語音資料; 提取所述第二語音資料中的所有聲紋,基於所有所述聲紋中出現頻率最高的N個所述聲紋進行註冊,形成所述註冊聲紋庫,其中,N為整數。
- 如請求項1所述的降噪處理方法,其中,所述註冊聲紋特徵資訊還包含位置資訊,且所述的降噪處理方法在逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟之前還包括: 對所述註冊聲紋特徵資訊基於相關聯的所述位置資訊進行分組,形成所述位置資訊與聲紋組相對應的第一映射關係; 獲取所述降噪耳機的當前位置資訊;以及 基於所述第一映射關係,判斷與所述當前位置資訊匹配的一目標聲紋組。
- 如請求項1所述的降噪處理方法,其中,採集周圍環境中的所述第一語音資料的步驟還包括:同時採集所述降噪耳機的當前位置資訊; 逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟還包括: 基於佩戴所述降噪耳機的所述目標使用者在不同位置的歷史對話資料,建立一訓練集; 基於所述訓練集,對一預設網路模型進行訓練,得到一初始網路模型,其中,所述初始網路模型中對於同一對話者在不同位置的參數權重不同,所述參數權重與所述位置相關聯; 基於所述當前位置資訊,判斷所述初始網路模型中的所述參數權重,形成一目標網路模型;以及 基於所述目標網路模型,逐一判斷所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的所述相似度。
- 如請求項4所述的降噪處理方法,其中,基於佩戴所述降噪耳機的所述目標使用者在不同位置的所述歷史對話資料,建立所述訓練集的步驟包括: 獲取一歷史時間段內,佩戴所述降噪耳機的所述目標使用者在不同位置的所述歷史對話資料,作為初始訓練資料,其中,所述歷史對話資料中包含有對話開始後的一預設時長內,所述降噪耳機的佩戴狀態變化資料; 自所述初始訓練資料,篩選出在對話開始後的所述預設時長內,所述降噪耳機由一佩戴狀態切換為一非佩戴狀態對應的所述歷史對話資料,作為目標訓練資料;以及 基於所述目標訓練資料,建立所述訓練集。
- 如請求項1所述的降噪處理方法,其中,在逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟之前,還包括: 基於指定的聲紋特徵資訊進行註冊,形成所述註冊聲紋庫。
- 如請求項1所述的降噪處理方法,還包括: 獲取大於所述第一預設閾值的所述相似度對應的所述註冊聲紋特徵資訊,作為一目標聲紋,並繼續採集周圍環境的第三語音資料;以及 當在一第二預設時間段內自所述第三語音資料中,未識別到所述目標聲紋以及所述目標使用者的聲紋特徵資訊,則開啟所述降噪耳機的所述降噪模式。
- 如請求項1所述的降噪處理方法,其中,採集周圍環境中的所述第一語音資料的步驟還包括: 採集所述降噪耳機的周圍環境中音訊強度大於一第二預設閾值的語音資料, 作為所述第一語音資料。
- 如請求項1所述的降噪處理方法,其中,逐一比較所述註冊聲紋庫中的所述註冊聲紋特徵資訊與所述待識別聲紋特徵資訊的相似度的步驟還包括: 當檢測到所述降噪耳機的電量低於一第三預設閾值,且所述降噪耳機與一終端設備建立連接,則所述降噪耳機關閉所述降噪模式。
- 如請求項1所述的降噪處理方法,其中,所述預設動作為關閉所述降噪模式或者開啟一通透模式。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111407413.8A CN113938785A (zh) | 2021-11-24 | 2021-11-24 | 降噪处理方法、装置、设备、耳机及存储介质 |
CN202111407413.8 | 2021-11-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202322107A true TW202322107A (zh) | 2023-06-01 |
TWI815343B TWI815343B (zh) | 2023-09-11 |
Family
ID=79288238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111108724A TWI815343B (zh) | 2021-11-24 | 2022-03-10 | 降噪處理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12114125B2 (zh) |
CN (1) | CN113938785A (zh) |
TW (1) | TWI815343B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134708B (zh) * | 2022-06-30 | 2024-07-30 | 歌尔股份有限公司 | 耳机模式切换方法、装置、电子设备及可读存储介质 |
CN118057837A (zh) * | 2022-11-21 | 2024-05-21 | 荣耀终端有限公司 | 透传模式的切换方法和切换装置 |
CN116597829B (zh) * | 2023-07-18 | 2023-09-08 | 西兴(青岛)技术服务有限公司 | 一种提高语音识别精度的降噪处理方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU5359498A (en) * | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
US20040260470A1 (en) * | 2003-06-14 | 2004-12-23 | Rast Rodger H. | Conveyance scheduling and logistics system |
US20130121494A1 (en) * | 2011-11-15 | 2013-05-16 | Plantronics, Inc. | Ear Coupling Status Sensor |
KR102094219B1 (ko) * | 2014-01-13 | 2020-04-14 | 엘지전자 주식회사 | 음향 액세서리 장치 및 그 동작 방법 |
US9674598B2 (en) * | 2014-04-15 | 2017-06-06 | Fairchild Semiconductor Corporation | Audio accessory communication with active noise cancellation |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
CN108605073B (zh) * | 2016-09-08 | 2021-01-05 | 华为技术有限公司 | 声音信号处理的方法、终端和耳机 |
CN109448725A (zh) * | 2019-01-11 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种语音交互设备唤醒方法、装置、设备及存储介质 |
TW202046061A (zh) * | 2019-06-10 | 2020-12-16 | 英業達股份有限公司 | 啟動語音助理的方法及具有語音助理的電子裝置 |
CN110708625A (zh) * | 2019-09-25 | 2020-01-17 | 华东师范大学 | 基于智能终端的环境声抑制与增强可调节耳机系统与方法 |
CN111800700B (zh) * | 2020-07-23 | 2022-04-22 | 江苏紫米电子技术有限公司 | 环境中对象提示方法、装置、耳机设备及存储介质 |
CN112118511A (zh) * | 2020-11-19 | 2020-12-22 | 北京声智科技有限公司 | 耳机降噪方法、装置、耳机及计算机可读存储介质 |
CN214226506U (zh) * | 2020-12-31 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 声音处理电路、电声器件和声音处理系统 |
-
2021
- 2021-11-24 CN CN202111407413.8A patent/CN113938785A/zh active Pending
-
2022
- 2022-03-10 TW TW111108724A patent/TWI815343B/zh active
- 2022-06-22 US US17/846,708 patent/US12114125B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN113938785A (zh) | 2022-01-14 |
US20230164477A1 (en) | 2023-05-25 |
TWI815343B (zh) | 2023-09-11 |
US12114125B2 (en) | 2024-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI815343B (zh) | 降噪處理方法 | |
EP3081011B1 (en) | Name-sensitive listening device | |
US11696063B2 (en) | Automatic active noise reduction (ANR) control to improve user interaction | |
US20230352038A1 (en) | Voice activation detecting method of earphones, earphones and storage medium | |
CN111464905A (zh) | 基于智能穿戴设备的听力增强方法、系统和穿戴设备 | |
CN107566658A (zh) | 通话方法、装置、存储介质及移动终端 | |
CN112532266A (zh) | 智能头盔及智能头盔的语音交互控制方法 | |
CN103618835A (zh) | 一种根据周围噪音大小自动切换情景模式的方法及系统 | |
US20180054688A1 (en) | Personal Audio Lifestyle Analytics and Behavior Modification Feedback | |
WO2018076615A1 (zh) | 一种信息发送方法及装置 | |
CN110364156A (zh) | 语音交互方法、系统、终端及可读存储介质 | |
WO2023040523A1 (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
CN112992169A (zh) | 语音信号的采集方法、装置、电子设备以及存储介质 | |
JP2014174255A (ja) | 信号処理装置、信号処理方法及び記憶媒体 | |
US20240096343A1 (en) | Voice quality enhancement method and related device | |
TW202005420A (zh) | 個人聽力裝置 | |
Lezzoum et al. | Voice activity detection system for smart earphones | |
CN114255776A (zh) | 使用互连电子设备进行音频修改 | |
WO2017166495A1 (zh) | 一种语音信号处理方法及装置 | |
CN107370898B (zh) | 铃音播放方法、终端及其存储介质 | |
US11128962B2 (en) | Grouping of hearing device users based on spatial sensor input | |
CN111182416B (zh) | 处理方法、装置及电子设备 | |
CN111326175A (zh) | 一种对话者的提示方法及穿戴设备 | |
CN114979880A (zh) | 自动声学切换 | |
EP3288035B1 (en) | Personal audio analytics and behavior modification feedback |