TW201503116A - 利用聲紋識別進行語音辨識的方法及其電子裝置 - Google Patents

利用聲紋識別進行語音辨識的方法及其電子裝置 Download PDF

Info

Publication number
TW201503116A
TW201503116A TW102125581A TW102125581A TW201503116A TW 201503116 A TW201503116 A TW 201503116A TW 102125581 A TW102125581 A TW 102125581A TW 102125581 A TW102125581 A TW 102125581A TW 201503116 A TW201503116 A TW 201503116A
Authority
TW
Taiwan
Prior art keywords
sub
speech
segment
voiceprint
specific
Prior art date
Application number
TW102125581A
Other languages
English (en)
Other versions
TWI523006B (zh
Inventor
guo-feng Zhang
Original Assignee
Via Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Tech Inc filed Critical Via Tech Inc
Publication of TW201503116A publication Critical patent/TW201503116A/zh
Application granted granted Critical
Publication of TWI523006B publication Critical patent/TWI523006B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

一種利用聲紋識別進行語音辨識的方法及其電子裝置,此方法包括下列步驟:接收一特定語音片段,切割所接收的特定語音片段為數個特定子語音片段,並對此數個特定子語音片段分別進行一聲紋識別流程。根據聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段。擷取被判斷為適格的子語音片段,進行語音辨識。

Description

利用聲紋識別進行語音辨識的方法及其電子裝置
本發明是有關於一種語音辨識的方法及其電子裝置,且特別是有關於一種利用聲紋識別進行語音辨識的方法及其電子裝置。
以現有技術而言,大多數的電子裝置,例如手機、筆記型電腦、平板電腦等,都具有語音辨識模組,使用者可藉由聲控的方式,控制電子裝置執行各種指令。但是,在處理使用者語音對話輸入時,由於外界的干擾噪音,很容易使得語音辨識模組錯誤的將使用者語音輸入之外的其他聲音作識別,而導致識別錯誤率上升。因此,如何提升使用者語音輸入的正確辨識率,乃是目前語音辨識領域需要研究的課題。
本發明提供一種利用聲紋識別進行語音辨識的方法,此 方法包括下列步驟:接收一特定語音片段,切割所接收的特定語音片段為數個特定子語音片段,對此數個特定子語音片段分別進行一聲紋識別流程,根據对此數個特定子語音片段分別進行聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段。接著,擷取被判斷為適格的子語音片段,進行語音辨識。
在本發明的一實施例中,其中,根據對上述數個特定子語音片段分別進行前述聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段的步驟,更包括:依照時間先後順序,定義上述數個特定子語音片段為一第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段,其中,N為上述數個特定子語音片段的個數。接著,透過前述聲紋識別流程,分別辨識第一子語音片段、第二子語音片段及第三子語音片段。當第一子語音片段、第二子語音片段、第三子語音片段透過聲紋識別流程,被識別為同一特定用戶之聲紋,則接著辨識第四子語音片段至第N子語音片段,是否亦為此同一特定用戶之聲紋。當判斷第四子語音片段至第N子語音片段其中之一個或多個子語音片段亦為此同一特定用戶之聲紋,則判斷是此同一特定用戶之聲紋的子語音片段為適格的子語音片段,接著對這些適格的子語音片段進行語音辨識。
在本發明的一實施例中,其中,辨識第四子語音片段至第N子語音片段是否亦為此同一特定用戶之聲紋的步驟,更包括:當判斷第四子語音片段至第N子語音片段其中之一個或多個 子語音片段並非此同一特定用戶之聲紋,則判斷不是此同一特定用戶之聲紋的子語音片段為不適格的子語音片段。接著,捨棄這些不適格的子語音片段,不對其進行語音辨識。
在本發明的一實施例中,其中,根據分別對上述數個特定子語音片段分別進行聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段的步驟,包括:在一資料庫提前儲存一預設聲紋辨識資料,當判斷上述數個子語音片段其中之一個或多個子語音片段為符合預設聲紋辨識資料之聲紋時,則確定符合預設聲紋辨識資料之聲紋的子語音片段為適格的子語音片段,接著,對這些適格的子語音片段進行語音辨識。
在本發明的一實施例中,其中,根據分別對上述數個特定子語音片段分別進行聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段的步驟,更包括:當判斷上述數個子語音片段其中之一或多個子語音片段為不符合預設聲紋辨識資料之聲紋時,則確定不符合預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段。接著,捨棄這些不適格的子語音片段,不對其進行語音辨識。
在本發明的一實施例中,其中,上述的聲紋識別流程是利用梅爾倒頻譜係數運算方法(Mel-Frequency Cepstral Coefficients,MFCCs)實施。
本發明提供一種利用聲紋識別進行語音辨識的裝置,包括:一收發模組、一控制模組。其中,收發模組接收一特定語音 片段,而控制模組耦接至收發模組,控制模組切割所接收的特定語音片段為數個特定子語音片段,並對此數個特定子語音片段分別進行一聲紋識別流程,根據此數個特定子語音片段分別進行聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段。接著,擷取被判斷為適格的子語音片段,進行語音辨識。
基於上述,本發明提供一種利用聲紋識別進行語音辨識的方法及其電子裝置。在進行語音辨識之前,先透過聲紋識別流程,判斷經收發模組接收到的語音片段,切割之後的其中一個或多個子語音片段是否為適格的子語音片段,接著再擷取適格的子語音片段,對其進行語音辨識。依此使得語音交互的人機介面,不再因為其他噪音的干擾,而導致大量的錯誤辨識。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100‧‧‧電子裝置
110‧‧‧收發模組
120‧‧‧控制模組
130‧‧‧資料庫
S210~S260、S310~S344、S410~S424‧‧‧利用聲紋識別進行語音辨識的方法流程步驟
圖1是依照本發明實施例的一種電子裝置的示意圖。
圖2是依照本發明實施例的一種利用聲紋識別進行語音辨識的方法的流程圖。
圖3是依照本發明圖1實施例的另一種利用聲紋識別進行語音辨識的方法的流程圖。
圖4A是依照本發明另一實施例的一種電子裝置的示意圖。
圖4B是依照本發明圖4A實施例的一種利用聲紋識別進行語音辨識的方法的流程圖。
圖1是依照本發明實施例的一種電子裝置的示意圖,電子裝置100實施本發明所提出的利用聲紋識別進行語音辨識的方法。電子裝置100包括收發模組110、控制模組120,兩者相互耦接。其中,收發模組110可以是麥克風、音訊偵測器等收音元件及喇叭、擴大機等播音元件的組合。控制模組120可以是硬體及/或軟體所實現的功能模塊,其中,硬體可包括中央處理器、晶片組、微處理器等具有運算功能的硬體設備或上述硬體設備的組合,而軟體則可以是作業系統、驅動程式等等,控制模組120為提供本發明利用聲紋識別進行語音辨識整體過程之主控元件。
圖2是依照本發明實施例的一種利用聲紋識別進行語音辨識的方法的流程圖,請同時參照圖1及圖2。首先,收發模組110接收一特定語音片段(步驟210),控制模組120切割收發模組110所接收的此特定語音片段為數個特定子語音片段(步驟S220),接著,對此數個特定子語音片段分別進行一聲紋識別流程(步驟S230)。其中,聲紋識別流程是利用梅爾倒頻譜係數運算方法(Mel-Frequency Cepstral Coefficients,MFCCs)實施,在語音辨識(Speech Identification)和聲紋辨識(Voiceprint Recognition)方面,最常用到的語音特徵就是梅爾倒頻譜係數,此參數考慮到聽 覺對於不同頻率的感受程度,因此特別適合用在語音或聲紋辨識。梅爾倒頻譜係數的計算首先用快速傅立葉轉換(Fast Fourier Transform,FFT)將時域信號轉化成頻域,之後對其對數能量譜用依照梅爾(Mel)刻度分布的三角濾波器組進行卷積,最後對各個濾波器的輸出構成的向量進行離散餘弦變換,進而得到結果。
在步驟S230之後,控制模組120根據上述數個特定子語音片段分別進行該聲紋識別流程的結果,判斷各特定子語音片段是否為適格的子語音片段(步驟S240)。當步驟S240的判斷為否,則該控制模組120捨棄該些不適格的子語音片段,不對其進行語音辨識(步驟S250)。當步驟S240判斷為是,控制模組120擷取被判斷為該適格的子語音片段,進行語音辨識(步驟S260)。
圖3是依照本發明另一實施例的一種利用聲紋識別進行語音辨識的方法的流程圖,請同時參照圖1及圖3。圖3在步驟S210~S230與圖2所揭示的流程相同,不再贅述。而在圖2所揭示的步驟S240,根據進行聲紋識別流程的結果,控制模組120判斷各特定子語音片段是否為適格的子語音片段的步驟,更在圖3之實施例中,細分為步驟S310~S344,將於以下論述。圖3之實施例,在步驟S230對上述數個特定子語音片段分別進行聲紋識別流程之後,依照時間先後順序,定義該數個特定子語音片段為第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段,其中,N為上述數個特定子語音片段的個數(步驟S310)。
接著,透過前述聲紋識別流程,辨識第一子語音片段、 第二子語音片段及第三子語音片段(步驟S320),判斷此第一子語音片段、此第二子語音片段、此第三子語音片段透過前述聲紋識別流程,是否被識別為同一特定用戶之聲紋(步驟S330),也就是說,判斷此第一子語音片段、此第二子語音片段、此第三子語音片段是否由同一位使用者之發出。當步驟S330的判斷為否,則認定其為不適格的子語音片段(步驟S342)。而當步驟S330的判斷為是,則至步驟S340,判斷第四子語音片段至第N子語音片段其中之一個或多個子語音片段是否仍為此同一特定用戶之聲紋(步驟S340)。當步驟S340的判斷為否,則認定不是此同一特定用戶之聲紋的子語音片段為不適格的子語音片段(步驟S342),當步驟S340的判斷為是,則認定是此同一特定用戶之聲紋的子語音片段為適格的子語音片段(步驟S344)。在步驟S342之後,捨棄上述被判斷為不適格的子語音片段,不對其進行語音辨識(步驟S250)。而在步驟S344之後,擷取被判斷為適格的子語音片段,進行語音辨識(步驟S260)。
圖4A是依照本發明另一實施例的一種電子裝置的示意圖,圖4B是依照本發明圖4A實施例的一種利用聲紋識別進行語音辨識的方法的流程圖,請同時參照圖4A及圖4B。圖4A的功能方塊圖與圖1實施例相較,其不同之處在於圖4A具有資料庫130耦接至控制模組120,資料庫130預先儲存一預設聲紋辨識資料。圖4B在步驟S210~S230與圖2所揭示的流程相同,不再贅述。而在圖2所揭示的步驟S240,控制模組120根據進行聲紋識別流程 的結果,判斷各特定子語音片段是否為適格的子語音片段的步驟,在圖4B之實施例中,更細分為步驟S410~S424,將於以下論述。圖4B之實施例,在資料庫130預先儲存一預設聲紋辨識資料(步驟S410)。接著,控制模組120判斷上述數個特定子語音片段其中之一個或多個子語音片段是否符合此預設聲紋辨識資料之聲紋(步驟S420)。當步驟S420的判斷為否,則判斷不符合預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段(步驟S422)。當步驟S420的判斷為是,則判斷符合預設聲紋辨識資料之聲紋的子語音片段為適格的子語音片段(步驟S424)。在步驟S422之後,捨棄上述被判斷為不適格的子語音片段,不對其進行語音辨識(步驟S250),而在步驟S424之後,擷取被判斷為適格的子語音片段,進行語音辨識(步驟S260)。
綜上所述,本發明提供一種利用聲紋識別進行語音辨識的方法及其電子裝置,在進行語音辨識之前,先透過聲紋識別流程,判斷經收發模組接收到的語音片段,切割之後的其中一個或多個子語音片段是否為適格的子語音片段,接著再擷取適格的子語音片段,對其進行語音辨識。藉由本發明所提供的判斷流程,使得語音交互的人機介面,擷取真正屬於使用者的語音對話片段,不再因為其他語音或噪音的干擾,而導致錯誤辨識,大大提升了語音辨識的正確率。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的 精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S210~S260‧‧‧利用聲紋識別進行語音辨識的方法流程步驟

Claims (13)

  1. 一種利用聲紋識別進行語音辨識的方法,包括:接收一特定語音片段;切割所接收的該特定語音片段為數個特定子語音片段;對該數個特定子語音片段分別進行一聲紋識別流程;根據該數個特定子語音片段分別進行該聲紋識別流程的結果,判斷各該特定子語音片段是否為適格的子語音片段;以及擷取被判斷為該適格的子語音片段,進行語音辨識。
  2. 如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法,其中當判斷各該特定子語音片段為不適格的子語音片段,則捨棄該些不適格的子語音片段,不對其進行語音辨識。
  3. 如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法,其中,根據對該數個特定子語音片段分別進行該聲紋識別流程的結果,判斷各該特定子語音片段是否為適格的子語音片段的步驟,更包括:依照時間先後順序,定義該數個特定子語音片段為第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段,其中,N為該數個特定子語音片段的個數;透過該聲紋識別流程,辨識該第一子語音片段、該第二子語音片段及該第三子語音片段;當該第一子語音片段、該第二子語音片段、該第三子語音片段透過該聲紋識別流程,被識別為同一特定用戶之聲紋,則接著 辨識該第四子語音片段至該第N子語音片段,是否亦為該同一特定用戶之聲紋;當判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段亦為該同一特定用戶之聲紋,則判斷是該同一特定用戶之聲紋的子語音片段為該適格的子語音片段;以及擷取被判斷為該適格的子語音片段,進行語音辨識。
  4. 如申請專利範圍第3項所述的利用聲紋識別進行語音辨識的方法,其中,辨識該第四子語音片段至該第N子語音片段是否亦為該同一特定用戶之聲紋步驟,更包括:當判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段並非該同一特定用戶之聲紋,則判斷不是該同一特定用戶之聲紋的子語音片段為不適格的子語音片段;以及捨棄該些不適格的子語音片段,不對其進行語音辨識。
  5. 如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法,其中,根據該數個特定子語音片段分別進行該聲紋識別流程的結果,判斷各該特定子語音片段是否為適格的子語音片段的步驟,包括:在一資料庫儲存一預設聲紋辨識資料;以及當判斷該數個特定子語音片段其中之一個或多個特定子語音片段符合該預設聲紋辨識資料之聲紋,則判斷符合該預設聲紋辨識資料之聲紋的子語音片段為該適格的子語音片段;以及擷取被判斷為該適格的子語音片段,進行語音辨識。
  6. 如申請專利範圍第5項所述的利用聲紋識別進行語音辨識的方法,其中,根據該數個特定子語音片段分別進行該聲紋識別流程的結果,判斷各該特定子語音片段是否為適格的子語音片段的步驟,更包括:當判斷該數個特定子語音片段其中之一個或多個特定子語音片段不符合該預設聲紋辨識資料之聲紋,則判斷不符合該預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段;以及捨棄該些不適格的子語音片段,不對其進行語音辨識。
  7. 如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法,其中,該聲紋識別流程是利用梅爾倒頻譜係數運算方法實施。
  8. 一種電子裝置,包括:一收發模組,接收一特定語音片段;以及一控制模組,耦接至該收發模組,切割所接收的該特定語音片段為數個特定子語音片段,分別對該數個特定子語音片段進行一聲紋識別流程,根據該數個特定子語音片段分別進行該聲紋識別流程的結果,判斷各該特定子語音片段是否為適格的子語音片段,擷取被判斷為該適格的子語音片段,進行語音辨識。
  9. 如申請專利範圍第8項所述的電子裝置,其中該控制模組依照時間先後順序,定義該數個特定子語音片段為第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段,其中,N為該數個特定子語音片段的個數,該控制模組並透過該聲紋識 別流程,辨識該第一子語音片段、該第二子語音片段及該第三子語音片段,當該第一子語音片段、該第二子語音片段、該第三子語音片段透過該聲紋識別流程,被識別為同一特定用戶之聲紋,則該控制模組接著辨識該第四子語音片段至該第N子語音片段,是否亦為該同一特定用戶之聲紋,當該控制模組判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段亦為該同一特定用戶之聲紋,則判斷是該同一特定用戶之聲紋的子語音片段為該適格的子語音片段,該控制模組擷取被判斷為該適格的子語音片段,進行語音辨識。
  10. 如申請專利範圍第9項所述的電子裝置,其中該控制模組當判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段並非該同一特定用戶之聲紋,則判斷不是該同一特定用戶之聲紋的子語音片段為不適格的子語音片段,該控制模組捨棄該些不適格的子語音片段,不對其進行語音辨識。
  11. 如申請專利範圍第10項所述的電子裝置,更包括:一資料庫,耦接至該控制模組,預先儲存一預設聲紋辨識資料,當該控制模組判斷該數個特定子語音片段其中之一個或多個特定子語音片段符合該預設聲紋辨識資料之聲紋時,則判斷符合該預設聲紋辨識資料之聲紋的子語音片段為該適格的子語音片段,該控制模組接著擷取被判斷為該適格的子語音片段,進行語音辨識。
  12. 如申請專利範圍第11項所述的電子裝置,更包括當該控 制模組判斷該特定數個子語音片段其中之一個或多個特定子語音片段不符合該預設聲紋辨識資料之聲紋,則判斷不符合該預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段,該控制模組捨棄該些不適格的子語音片段,不對其進行語音辨識。
  13. 如申請專利範圍第8項所述的電子裝置,其中,該聲紋識別流程是利用梅爾倒頻譜係數運算方法實施。
TW102125581A 2013-07-09 2013-07-17 利用聲紋識別進行語音辨識的方法及其電子裝置 TWI523006B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310285509.0A CN104282303B (zh) 2013-07-09 2013-07-09 利用声纹识别进行语音辨识的方法及其电子装置

Publications (2)

Publication Number Publication Date
TW201503116A true TW201503116A (zh) 2015-01-16
TWI523006B TWI523006B (zh) 2016-02-21

Family

ID=52257125

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102125581A TWI523006B (zh) 2013-07-09 2013-07-17 利用聲紋識別進行語音辨識的方法及其電子裝置

Country Status (3)

Country Link
US (1) US10224029B2 (zh)
CN (1) CN104282303B (zh)
TW (1) TWI523006B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI557599B (zh) * 2015-11-05 2016-11-11 宏碁股份有限公司 語音控制方法及語音控制系統
CN106098068B (zh) * 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US10399845B2 (en) * 2017-09-22 2019-09-03 Emco Wheaton Retail Corporation Testable overfill prevention valve for a liquid storage container
CN109065069B (zh) * 2018-10-10 2020-09-04 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109583171A (zh) * 2018-12-05 2019-04-05 北京蓦然认知科技有限公司 一种用户登录解锁方法、装置
CN110491389B (zh) * 2019-08-19 2021-12-14 效生软件科技(上海)有限公司 一种话务系统的声纹识别方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US20050096900A1 (en) * 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
TWI342010B (en) 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101452704B (zh) * 2007-11-29 2011-05-11 中国科学院声学研究所 一种基于信息传递的说话人聚类方法
CN201955775U (zh) * 2010-11-19 2011-08-31 吉林大学 基于声纹识别的usb身份认证系统
CN102694891A (zh) 2011-03-21 2012-09-26 鸿富锦精密工业(深圳)有限公司 通话噪音去除系统及方法
CN102543063B (zh) * 2011-12-07 2013-07-24 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
JP5929154B2 (ja) 2011-12-15 2016-06-01 富士通株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
US20130317827A1 (en) * 2012-05-23 2013-11-28 Tsung-Chun Fu Voice control method and computer-implemented system for data management and protection
CN102723081B (zh) 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端

Also Published As

Publication number Publication date
US20150019222A1 (en) 2015-01-15
US10224029B2 (en) 2019-03-05
TWI523006B (zh) 2016-02-21
CN104282303B (zh) 2019-03-29
CN104282303A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
TWI523006B (zh) 利用聲紋識別進行語音辨識的方法及其電子裝置
US11289072B2 (en) Object recognition method, computer device, and computer-readable storage medium
CN107945815B (zh) 语音信号降噪方法及设备
US20180374487A1 (en) Detection of replay attack
US9704478B1 (en) Audio output masking for improved automatic speech recognition
JP6764923B2 (ja) 音声処理方法、装置、デバイスおよび記憶媒体
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN109361995B (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
CN112102851B (zh) 语音端点检测方法、装置、设备及计算机可读存储介质
US10887034B2 (en) Methods and apparatus for increasing the robustness of media signatures
US20160295320A1 (en) Audio capturing enhancement method and audio capturing system using the same
CN110718238B (zh) 串音数据检测方法、客户端和电子设备
US9749741B1 (en) Systems and methods for reducing intermodulation distortion
EP3847642B1 (en) Methods and apparatus to fingerprint an audio signal via normalization
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
EP4371112A1 (en) Speech enhancement
WO2018032760A1 (zh) 一种语音信息处理方法和装置
EP3696815B1 (en) Nonlinear noise reduction system
AU2020394354A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
WO2023287782A1 (en) Data augmentation for speech enhancement
JP6361360B2 (ja) 残響判定装置及びプログラム
US11600273B2 (en) Speech processing apparatus, method, and program
CN116229987A (zh) 一种校园语音识别的方法、装置及存储介质
Anderson et al. Tri-modal speech recognition for noisy and variable lighting conditions
TW201703029A (zh) 口吃偵測方法與裝置、電腦程式產品