TWI763207B - 聲音訊號處理評估方法及裝置 - Google Patents

聲音訊號處理評估方法及裝置 Download PDF

Info

Publication number
TWI763207B
TWI763207B TW109146186A TW109146186A TWI763207B TW I763207 B TWI763207 B TW I763207B TW 109146186 A TW109146186 A TW 109146186A TW 109146186 A TW109146186 A TW 109146186A TW I763207 B TWI763207 B TW I763207B
Authority
TW
Taiwan
Prior art keywords
signal
sound signal
sound
signal processing
voiceprint
Prior art date
Application number
TW109146186A
Other languages
English (en)
Other versions
TW202226220A (zh
Inventor
杜博仁
張嘉仁
曾凱盟
Original Assignee
宏碁股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宏碁股份有限公司 filed Critical 宏碁股份有限公司
Priority to TW109146186A priority Critical patent/TWI763207B/zh
Priority to CN202110123933.XA priority patent/CN114694689A/zh
Priority to US17/165,940 priority patent/US11636844B2/en
Application granted granted Critical
Publication of TWI763207B publication Critical patent/TWI763207B/zh
Publication of TW202226220A publication Critical patent/TW202226220A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)

Abstract

本發明提供聲音訊號處理評估方法及裝置。對合成聲音訊號進行聲音訊號處理以產生經處理聲音訊號。此合成聲音訊號是對主要訊號加入次要訊號所產生,主要訊號僅有語音訊號,且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。分別對經處理聲音訊號及主要訊號取得聲音特性。此聲音特性包括文字內容,且文字內容是對經處理聲音訊號及主要訊號進行語音轉文字處理所產生。依據經處理聲音訊號及主要訊號的聲音特性之間的比較結果評估此聲音訊號處理。此比較結果包括經處理聲音訊號的文字內容對應於主要訊號的正確性。藉此,可提供客觀的評估結果。

Description

聲音訊號處理評估方法及裝置
本發明是有關於一種訊號分析技術,且特別是有關於一種聲音訊號處理評估方法及裝置。
市面上已有許多提供雜訊或噪音消除技術的喇叭、耳機或其他多媒體播放器。不同廠商所推出的雜訊或噪音消除技術可能涉及到不同演算法或機制,更可能達到不同效果。然而,現今沒有可客觀評量不同消除技術的方案。
有鑑於此,本發明實施例提供一種聲音訊號處理評估方法及裝置,可針對語音相關訊號的聲音訊號處理提供客觀的評量。
本發明實施例的聲音訊號處理評估方法包括(但不僅限於)下列步驟:對合成聲音訊號進行聲音訊號處理以產生經處理聲音訊號。此合成聲音訊號是對主要訊號加入次要訊號所產生,主要訊號僅有語音訊號,且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。分別對經處理聲音訊號及主要訊號取得聲音特性。此聲音特性包括文字內容,且文字內容是對經處理聲音訊號及主要訊號進行語音轉文字處理所產生。依據經處理聲音訊號及主要訊號的聲音特性之間的比較結果評估此聲音訊號處理。此比較結果包括經處理聲音訊號的文字內容對應於主要訊號的正確性。
本發明實施例的聲音訊號處理評估裝置包括(但不僅限於)儲存器及處理器。儲存器用以儲存數個軟體模組。處理器耦接儲存器,並用以載入且執行那些軟體模組。那些軟體模組包括聲音訊號處理模組、特性擷取模組及評估模組。聲音訊號處理模組對合成聲音訊號進行聲音訊號處理以產生經處理聲音訊號。此合成聲音訊號是對主要訊號加入次要訊號所產生,主要訊號僅有語音訊號,且聲音訊號處理相關於對合成聲音訊號濾除次要訊號。特性擷取模組分別對經處理聲音訊號及主要訊號取得聲音特性。此聲音特性包括文字內容,且文字內容是對經處理聲音訊號及主要訊號進行語音轉文字處理所產生。評估模組依據經處理聲音訊號及主要訊號的聲音特性之間的比較結果評估此聲音訊號處理。此比較結果包括經處理聲音訊號的文字內容對應於主要訊號的正確性。
基於上述,依據本發明實施例的聲音訊號處理評估方法及裝置,可判斷語音相關的原訊號及經聲音訊號處理的經處理聲音訊號兩者在聲音特性上的差異,並據以作為評估參考依據。其中,可判斷兩訊號經語音轉文字後的文字差異。藉此,可適用於評估針對語音訊號相關的聲音訊號處理。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例的聲音訊號處理評估裝置100的方塊圖。請參照圖1,聲音訊號處理評估裝置100包括(但不僅限於)儲存器110及處理器150。聲音訊號處理評估裝置100可以是桌上型電腦、筆記型電腦、AIO電腦、智慧型手機、平板電腦、或伺服器等裝置。
儲存器110可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory,RAM)、唯讀記憶體(Read Only Memory,ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid-State Drive,SSD)或類似元件。在一實施例中,儲存器110用以記錄程式碼、軟體模組(例如,合成模組111、聲音訊號處理模組113、特性擷取模組115及評估模組117)、組態配置、資料或檔案(例如,聲音訊號、聲音特性及評估結果),並待後續實施例詳述。
處理器150耦接儲存器110,處理器150並可以是中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphic Processing unit,GPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array,FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中,處理器150用以執行聲音訊號處理評估裝置100的所有或部份作業,且可載入並執行儲存器110所記錄的各軟體模組、檔案及資料。
下文中,將搭配聲音訊號處理評估裝置100中的各項元件、模組及訊號說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
圖2是依據本發明一實施例的聲音訊號處理評估方法的流程圖。請參照圖2,聲音訊號處理模組113對合成聲音訊號S C進行聲音訊號處理以產生經處理聲音訊號S P(步驟S210)。具體而言,合成聲音訊號S C是合成模組111對主要訊號S M加入次要訊號S S所產生的。即,合成主要訊號S M及次要訊號S S可產生合成聲音訊號S C。假設主要訊號S M僅有語音訊號。即,單純人聲。而次要訊號S S可以是生物(例如,狗、貓、或嬰兒)所發出聲音、非生物(例如,冷氣機、吹風機或冰箱)運作聲、合成聲、環境聲(例如,風聲、樹枝拍打聲等)、物件互動作用的聲音(例如,手指敲擊鍵盤的聲音、碗摔落地面等)或其組合。只要是主要訊號S M以外的其他聲音都可視為次要訊號S S
在一實施例中,合成模組111例如可對兩訊號S M, S S在頻譜上疊加或採用其他合成技術。在另一實施例中,聲音訊號處理評估裝置100可透過內建、外置或外部喇叭同時播放主要訊號S M及次要訊號S S,並進一步錄製,以取得合成聲音訊號S C
另一方面,在一實施例中,聲音訊號處理模型113對合成聲音訊號S C所進行的聲音訊號處理是相關於對合成聲音訊號S C濾除次要訊號S S。例如,聲音訊號處理的目的之一在於還原主要訊號S M、或雜訊消除。雜訊/降噪抑制(或聲源分離)技術例如是產生與雜訊音波相位相反的訊號、或利用獨立成分分析(Independent Components Analysis,ICA)等方式自合成聲音訊號S C中消除雜訊(即,次要訊號S S),本發明實施例不加以限制。
值得注意的是,基於不同技術的聲音訊號處理對相同輸入訊號所輸出的訊號在頻率、波形或振幅上可能有差異。若欲評估多種聲音訊號處理技術,聲音訊號處理模組113可整合這些聲音訊號處理技術,並分別採用不同聲音訊號處理技術來處理合成聲音訊號S C。此外,若欲了解特定聲音訊號處理對不同次要訊號S S的濾除能力,也可分別加入不同次要訊號S S
在一實施例中,聲音訊號處理評估裝置100可透過內建、外置或外部喇叭分別播放主要訊號S M及經處理聲音訊號S P,並進一步分別錄製這兩訊號S M, S P,以作為後續分析使用。
特性擷取模組115可分別對經處理聲音訊號S P及主要訊號S M取得聲音特性F P, F M(步驟S230)。具體而言,評估的判斷依據是希望聲音訊號處理後可同時保存主要語音的聲紋特性且提高語意辨識度。在一實施例中,聲音特性F P, F M包括聲紋特徵。特性擷取模組115例如是採用有線性預估係數(Linear Predictive Coefficient,LPC)、倒譜係數、梅爾倒頻譜係數(Mel-frequency Cepstrum Coefficient,MFCC)或其他特徵參數擷取方法來取得聲紋特徵。聲紋特徵可用於區別不同人物所發出的聲音。由此可知,評估的判斷依據之一在於,希望聽者聆聽經處理聲音訊號S P後仍可辨識出主要訊號S M對應的相同人物。
圖3是依據本發明一實施例的比較與評估的流程圖。請參照圖3,在一實施例中,特性擷取模組115可進一步將經處理聲音訊號S P及主要訊號S M的聲紋特徵轉換成兩筆特徵向量F 1 P, F 1 M(步驟S231)。例如,特性擷取模組115對部分音段的聲紋特徵組合,並取其平均向量作為特徵向量。
在一實施例中,聲音特性F P, F M包括文字內容。特性擷取模組115可對經處理聲音訊號S P及主要訊號S M進行語音轉文字處理,以產生文字內容F 2 P, F 2 M(步驟S232)。語音轉文字處理例如是基於特徵擷取、聲學模型、發音詞典、語言模型、解碼器或其組合來輸出具有最大或相較大機率的詞串。文字內容即是聲音訊號中的說話內容(以文字形式表示)。文字內容可用於了解語意。由此可知,評估的判斷依據之一在於,希望聽者聆聽經處理聲音訊號S P後仍可辨識出主要訊號S M對應的正確內容。
在一實施例中,聲音特性F P, F M包括聲紋特徵及文字內容兩者。
評估模組117可依據經處理聲音訊號S P及主要訊號S M的聲音特性之間的比較結果評估聲音訊號處理模組113所執行的聲音訊號處理(步驟S250)。在一實施例中,針對聲紋特徵,比較結果包括聲紋相似性,且評估模組117可比較經處理聲音訊號S P及主要訊號S M的聲紋特徵之間的聲紋相似性。即,經處理聲音訊號S P的聲紋特徵是否相同或相似於主要訊號S M的聲紋特徵。
依據不同特徵擷取技術,聲紋比對的方法可能不同。請參照圖3,在一實施例中,聲紋相似性相關於經處理聲音訊號S P及主要訊號S M的特徵向量F 1 P, F 1 M之間的距離d 1(步驟S251)。例如,距離d 1是歐氏距離(Euclidean Distance)算法所決定的最短距離,但也可能是兩特徵向量F 1 P, F 1 M上其他點之間的距離。若距離d 1值越小/近,則代表經處理聲音訊號S P及主要訊號S M的聲紋特徵越接近。即,評估模組117將距離d 1越近者視為聲紋相似性越高者,並對應於較好的評估結果。若距離d 1值越大/遠,則代表兩訊號S P, S M的聲紋特徵差異越大。即,評估模組117將距離d 1越遠者視為聲紋相似性越低者,並對應於較差的評估結果。
在一實施例中,針對文字內容,比較結果包括經處理聲音訊號S P的文字內容對應於主要訊號S M的正確性。例如,兩筆訊號S P, S M對應文字內容中字元的正確性。
請參照圖3,在一實施例中,評估模組117可比較經處理聲音訊號S P及主要訊號S M的文字內容F 2 P, F 2 M中的字元差異。字元差異相關於兩筆訊號S P, S M的文字內容F 2 P, F 2 M中的對應字元是否相同。文字內容F 2 P, F 2 M的正確性相關於文字正確率。評估模組117可依據字元差異決定經處理聲音訊號S P相對於主要訊號S M的文字正確率d 2(或稱辨識率)(步驟S252)。例如,文字正確率是經比對相同文字的數量所占文字內容F 2 M的所有字元數的比例。評估模組117可將文字正確率d 2越高者視為文字內容的正確性越高者並對應於較好的評估結果,且將文字正確率d 2越低者視為文字內容的正確性越低者並對應於較差的評估結果。
在一實施例中,比較結果包括文字內容的正確性及聲紋相似性兩者。評估模組117可判斷聲紋相似性越高且文字內容的正確性越高者對應於較好的評估結果(即,聲音訊號處理的結果較好),且評估模組117可判斷聲紋相似性越低或文字內容的正確性越低者對應於較差的評估結果(即,聲音訊號處理的結果較差)。
例如,評估模組117可計算完整度I(步驟S253):
Figure 02_image001
…(1) 其中,α為可變的調整參數(即,常數),完整度I相關於評估結果。假設文字正確率
Figure 02_image003
介於0~1之間,則完整度I會介於0~1之間。而完整度I相關於評估結果,其數值越大表示評估結果較好(例如,兩筆訊號S P, S M的特性越接近),且其數值越小代表評估結果較差(例如,兩筆訊號S P, S M的特性越不接近)。
藉此,若欲應用在評估通話中降低雜訊的語音相關聲音訊號處理,則可判斷此語音相關聲音訊號處理是否能同時保存主要語音的聲紋特性且提高語意辨識度。
須說明的是,評估結果的量化方式不限於完整度I的方程式(1),且應用者可依據實際需求而自行調整。
綜上所述,在本發明實施例的聲音訊號處理評估方法及裝置中,分析主要訊號與經處理聲音訊號的聲音特性,並依據針對文字正確性/辨識度及聲紋相似性決定聲音訊號處理的優劣。藉此,可提供客觀的評估標準。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:聲音訊號處理評估裝置 110:儲存器 111:合成模組 113:聲音訊號處理模組 115:特性擷取模組 117:評估模組 150:處理器 S M:主要訊號 S S:次要訊號 S C:合成聲音訊號 S P:經處理聲音訊號 F P、F M:聲音特性 F 1 P、F 1 M:特徵向量 F 2 P、F 2 M:文字內容 d 1:距離 d 2:文字正確率 I:完整度 S210~S250、S231~S232、S251~S253:步驟
圖1是依據本發明一實施例的聲音訊號處理評估裝置的方塊圖。 圖2是依據本發明一實施例的聲音訊號處理評估方法的流程圖。 圖3是依據本發明一實施例的比較與評估的流程圖。
S210~S250:步驟

Claims (8)

  1. 一種聲音訊號處理評估方法,包括:對一合成聲音訊號進行一聲音訊號處理以產生一經處理聲音訊號,其中該合成聲音訊號是對一主要訊號加入一次要訊號所產生,該主要訊號僅有語音訊號,且該聲音訊號處理相關於對該合成聲音訊號濾除該次要訊號,其中該聲音訊號處理對不同的該次要訊號的濾除能力不同;分別對該經處理聲音訊號及該主要訊號取得一聲音特性,其中該聲音特性包括一文字內容與一聲紋特徵,且該文字內容是對該經處理聲音訊號及該主要訊號進行一語音轉文字處理所產生;以及依據該經處理聲音訊號及該主要訊號的該聲音特性之間的一比較結果評估該聲音訊號處理,其中評估該聲音訊號處理的步驟包括:比較該經處理聲音訊號及該主要訊號的該聲紋特徵之間的一聲紋相似性,其中該比較結果包括該經處理聲音訊號的該文字內容對應於該主要訊號的正確性與該聲紋相似性。
  2. 如請求項1所述的聲音訊號處理評估方法,其中評估該聲音訊號處理的步驟包括:比較該經處理聲音訊號及該主要訊號的該文字內容中的一字元差異,其中該字元差異相關於該文字內容中的對應字元是否相同;以及 依據該字元差異決定該經處理聲音訊號相對於該主要訊號的一文字正確率,其中該文字內容的正確性相關於該文字正確率。
  3. 如請求項1所述的聲音訊號處理評估方法,其中評估該聲音訊號處理的步驟包括:判斷該聲紋相似性越高且該文字內容的正確性越高者對應於較好的評估結果;以及判斷該聲紋相似性越低或該文字內容的正確性越低者對應於較差的評估結果。
  4. 如請求項3所述的聲音訊號處理評估方法,其中該聲紋相似性相關於該經處理聲音訊號及該主要訊號的特徵向量之間的距離,該特徵向量是由該聲紋特徵轉換,且評估該聲音訊號處理的步驟包括:將該距離越近者視為該聲紋相似性越高者;以及將該距離越遠者視為該聲紋相似性越低者。
  5. 一種聲音訊號處理評估裝置,包括:一儲存器,儲存多個軟體模組;以及一處理器,耦接該儲存器,載入且執行該些軟體模組,其中該些軟體模組包括:一聲音訊號處理模組,對一合成聲音訊號進行一聲音訊號處理以產生一經處理聲音訊號,其中該合成聲音訊號是對一主要訊號加入一次要訊號所產生,該主要訊號僅有語音訊號,且該聲音訊號處理相關於對該合成聲音訊號濾除該次要訊號,其中該聲 音訊號處理對不同的該次要訊號的濾除能力不同;一特徵擷取模組,分別對該經處理聲音訊號及該主要訊號取得一聲音特性,其中該聲音特性包括一文字內容與一聲紋特徵,且該文字內容是對該經處理聲音訊號及該主要訊號進行一語音轉文字處理所產生;以及一評估模組,依據該經處理聲音訊號及該主要訊號的該聲音特性之間的一比較結果評估該聲音訊號處理,其中該評估模組比較該經處理聲音訊號及該主要訊號的該聲紋特徵之間的一聲紋相似性,以及該比較結果包括該經處理聲音訊號的該文字內容對應於該主要訊號的正確性與該聲紋相似性。
  6. 如請求項5所述的聲音訊號處理評估裝置,其中該評估模組比較該經處理聲音訊號及該主要訊號的該文字內容中的一字元差異,且該評估模組依據該字元差異決定該經處理聲音訊號相對於該主要訊號的一文字正確率,其中該字元差異相關於該文字內容中的對應字元是否相同,且該文字內容的正確性相關於該文字正確率。
  7. 如請求項5所述的聲音訊號處理評估裝置,其中該評估模組判斷該聲紋相似性越高且該文字內容的正確性越高者對應於較好的評估結果,且該評估模組判斷該聲紋相似性越低或該文字內容的正確性越低者對應於較差的評估結果。
  8. 如請求項7所述的聲音訊號處理評估裝置,其中該聲紋相似性相關於該經處理聲音訊號及該主要訊號的特徵向量之間 的距離,該特徵向量是由該聲紋特徵轉換,該評估模組將該距離越近者視為該聲紋相似性越高者,且該評估模組將該距離越遠者視為該聲紋相似性越低者。
TW109146186A 2020-12-25 2020-12-25 聲音訊號處理評估方法及裝置 TWI763207B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW109146186A TWI763207B (zh) 2020-12-25 2020-12-25 聲音訊號處理評估方法及裝置
CN202110123933.XA CN114694689A (zh) 2020-12-25 2021-01-29 声音信号处理评估方法和装置
US17/165,940 US11636844B2 (en) 2020-12-25 2021-02-03 Method and apparatus for audio signal processing evaluation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109146186A TWI763207B (zh) 2020-12-25 2020-12-25 聲音訊號處理評估方法及裝置

Publications (2)

Publication Number Publication Date
TWI763207B true TWI763207B (zh) 2022-05-01
TW202226220A TW202226220A (zh) 2022-07-01

Family

ID=82117553

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109146186A TWI763207B (zh) 2020-12-25 2020-12-25 聲音訊號處理評估方法及裝置

Country Status (3)

Country Link
US (1) US11636844B2 (zh)
CN (1) CN114694689A (zh)
TW (1) TWI763207B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240689B (zh) * 2022-09-15 2022-12-02 深圳市水世界信息有限公司 目标声音确定方法、装置、计算机设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004882A1 (en) * 2004-06-14 2008-01-03 Papadimitriou Wanda G Autonomous Fitness for Service Assessment
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
CN106201424A (zh) * 2016-07-08 2016-12-07 北京甘为乐博科技有限公司 一种信息交互方法、装置及电子设备
TW201725580A (zh) * 2015-12-31 2017-07-16 Beijing Sogou Technology Development Co Ltd 語音輸入方法、裝置和終端設備

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102257567B (zh) * 2009-10-21 2014-05-07 松下电器产业株式会社 音响信号处理装置、音响编码装置及音响解码装置
JP5609737B2 (ja) * 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US10614826B2 (en) * 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
EP3752957A4 (en) * 2018-02-15 2021-11-17 DMAI, Inc. SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION
CN108806715B (zh) 2018-04-12 2021-02-23 会听声学科技(北京)有限公司 降噪性能评价方法及系统
US10832671B2 (en) * 2018-06-25 2020-11-10 Intel Corporation Method and system of audio false keyphrase rejection using speaker recognition
KR102280692B1 (ko) * 2019-08-12 2021-07-22 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
US11588800B2 (en) * 2019-11-15 2023-02-21 Salesforce, Inc. Customizable voice-based user authentication in a multi-tenant system
CN111031463B (zh) 2019-11-20 2021-08-17 福建升腾资讯有限公司 麦克风阵列性能评测方法、装置、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004882A1 (en) * 2004-06-14 2008-01-03 Papadimitriou Wanda G Autonomous Fitness for Service Assessment
CN104732977A (zh) * 2015-03-09 2015-06-24 广东外语外贸大学 一种在线口语发音质量评价方法和系统
TW201725580A (zh) * 2015-12-31 2017-07-16 Beijing Sogou Technology Development Co Ltd 語音輸入方法、裝置和終端設備
CN106201424A (zh) * 2016-07-08 2016-12-07 北京甘为乐博科技有限公司 一种信息交互方法、装置及电子设备

Also Published As

Publication number Publication date
US11636844B2 (en) 2023-04-25
TW202226220A (zh) 2022-07-01
CN114694689A (zh) 2022-07-01
US20220208171A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
Eronen Musical instrument recognition using ICA-based transform of features and discriminatively trained HMMs
CN101136199B (zh) 语音数据处理方法和设备
Zhao et al. Robust emotion recognition in noisy speech via sparse representation
Leu et al. An MFCC-based speaker identification system
CN107633851B (zh) 基于情感维度预测的离散语音情感识别方法、装置及系统
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
Besbes et al. Multi-class SVM for stressed speech recognition
Nanavare et al. Recognition of human emotions from speech processing
Beigi Speaker recognition: Advancements and challenges
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Piotrowska et al. Machine learning-based analysis of English lateral allophones
Obin et al. On the generalization of Shannon entropy for speech recognition
TWI763207B (zh) 聲音訊號處理評估方法及裝置
Shahnawazuddin et al. Enhancing the recognition of children's speech on acoustically mismatched ASR system
Hafen et al. Speech information retrieval: a review
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
Evain et al. Beatbox sounds recognition using a speech-dedicated HMM-GMM based system
CN114743526A (zh) 音频调整方法、计算机设备和计算机程序产品
US9928832B2 (en) Method and apparatus for classifying lexical stress
Ibrahim et al. Classification and clustering to identify spoken dialects in Indonesian