TWI386917B - Find the same language of the same language and the method of grouping - Google Patents

Find the same language of the same language and the method of grouping Download PDF

Info

Publication number
TWI386917B
TWI386917B TW99121225A TW99121225A TWI386917B TW I386917 B TWI386917 B TW I386917B TW 99121225 A TW99121225 A TW 99121225A TW 99121225 A TW99121225 A TW 99121225A TW I386917 B TWI386917 B TW I386917B
Authority
TW
Taiwan
Prior art keywords
audio
error rate
classification error
block
detection window
Prior art date
Application number
TW99121225A
Other languages
English (en)
Other versions
TW201201196A (en
Original Assignee
Tung Fang Inst Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tung Fang Inst Of Technology filed Critical Tung Fang Inst Of Technology
Priority to TW99121225A priority Critical patent/TWI386917B/zh
Publication of TW201201196A publication Critical patent/TW201201196A/zh
Application granted granted Critical
Publication of TWI386917B publication Critical patent/TWI386917B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

尋找相同語者數位音訊而加以群聚之方法
  一種尋找相同語者數位音訊而加以群聚之方法,係指利用相似度的比對,將數位音訊內之複數音訊區塊群聚成不同語者之音訊。
  習用相同語者之數位音訊群聚之方法係利用比對不同音訊間各個音訊參數之距離,來判斷是否為相同語者之音訊,較常見的方法為metric-based,於該數位音訊中任取一音訊區塊,將該音訊區塊與其他音訊區塊作相似度比對,將兩個音訊區塊內各個音訊參數,利用metric-based計算出音訊參數間之距離,由於不同語者之音訊參數中,各個參數間之距離較遠,而相同語者之音訊參數中,各個參數間之距離較近,因此得以藉由metric-based計算出各個參數間的距離,來判斷二音訊區塊是否為相同語者之音訊。
  藉由重複上述之方法,將該數位音訊中,各個相同語者之音訊區塊標上記號或者取出合併,而使該數位音訊群聚成不同語者之音訊區塊,而以下本說明書所指之群聚,係指將相同語者之音訊區塊作上記號或者取出,而使得該數位音訊分類成不同語者之聲音區塊。
  該metric-based雖得以判斷兩音訊區塊是否為同一語者之音訊,然,由於該metric-based須計算各個音訊參數間之距離,使得偵測時所需時間較長,並且由於係計算各個音訊參數間之距離,係使得偵測時產生較大之誤差,而使得該metric-based用於語者群聚時,不僅花費時間長,正確性亦略有所不足。
  本發明人於聲音學方面有著較高之造詣,且對聲音辨識與判斷具有高度樂誠與興趣,因此,對於上述習用技術之不足,開始著手思考解決之方法。
  有鑑於先前之技術所產生之問題,本創作者認為應有一種得以改善之方法,經過多次設計、實驗與思考,終於得到一種尋找相同語者數位音訊而加以群聚之方法,藉以改善先前技術不足之處。
  本發明係一種尋找相同語者數位音訊而加以群聚之方法,包括以下之步驟:
  步驟(A):取一數位音訊,該數位音訊係藉由複數音訊區塊排列而成,該複數音訊區塊係包括一第一音訊區塊;
  步驟(B):取該第一音訊區塊依序與其他音訊區塊利用一分類器作音訊相似度比對,而得一相似度值,設一相似度門檻值,將該相似度值高於該相似度門檻值之音訊區塊標記為一第一語者。
  音訊區塊內係包括複數音訊參數,因此,本發明係利用相同語者之音訊參數相似度較高,來判斷該兩音訊區塊是否為同一語者之音訊區塊,首先,於該數位音訊中取一第一音訊區塊,將該第一音訊區塊與其他各個音訊區塊作相似度比對,該相似度比對係利用一分類機將該數位音訊內之各個音訊區塊分類成不同語者之音訊區塊,將比對後相似度值高於相似度門檻值之音訊區塊作上標記,藉此,將各個音訊區塊作分類,該分類器可為最近鄰居分類器、支援向量機、GMM、K-means等,可以將兩筆不同資料作區別、分類之機器。
  故,本發明之較佳實施例,係利用一支援向量機,將該第一音訊區塊與其他各個音訊區塊作相似度比對,而得到一第一分類錯誤率與一第二分類錯誤率,設一分類錯誤率門檻值,當該第一分類錯誤率與該第二分類錯誤率均低於該分類錯誤率門檻值時,則判斷為同一語者之音訊區塊,將該數位音訊中各個相同之音訊區塊作標記,而使得該數位音訊分類成不同語者之音訊區塊。
  以下文字說明,藉由圖式之輔助敘述,說明本發明之構造、特點以及實施例,俾使 貴審查人員對於本發明有更進一步之瞭解。
  本發明係一種尋找相同語者數位音訊而加以群聚之方法,係藉由以下之步驟將一數位音訊中,各個音訊區塊間相似度值較高之音訊區塊標記為相同之音訊區塊。
  請參閱第一圖配合第二圖所示,步驟(A),取至少一第一語者與一第二語者之對話紀錄,將該對話紀錄藉由一類比數位轉換器轉換成一數位音訊(1),該數位音訊(1)係由複數音訊區塊(11)排列連接而成,該複數音訊區塊(11)係包括一第一音訊區塊(111)與一第二音訊區塊(112),該各個音訊區塊係代表一語者之音訊,如該第一音訊區塊(111)係代表該第一語者之音訊,且該複數音訊區塊(11)並非按照相鄰之音訊區塊為不同語者之音訊區塊做排列。
  請參閱第一圖配合第二圖所示,步驟(B),取該第一音訊區塊(111),將該第一音訊區塊(111)與該第二音訊區塊(112)利用一分類器作相似度比對,而得一相似度值,由於相同語者之音訊參數較為接近,故較不易藉由分類器將該第一音訊區塊(111)與該第二音訊區塊(112)做分類,而使得相同語者之音訊區塊具有較高的相似度值,該分類器係為一種可將兩筆不同資料做分類處理之機器,該分類機亦可為一最近鄰居分類器、支援向量機、GMM、K-means等。
  設一相似度門檻值,當該相似度值高於該相似度門檻值時,則判斷該第一音訊區塊(111)與該第二音訊區塊(112)為同一語者之音訊,將該第一音訊區塊(111)依序與其他音訊區塊作相似度比對後,再將各個判斷為同一語者之音訊區塊,做上標記,如經相似度比對後與該第一音訊區塊(111)為相同語者之音訊區塊,標記為第一語者。
  請參閱第一圖配合第二圖所示,該步驟(B),較佳實施例係為該分類機為該支援向量機,由於該第一音訊區塊(111)與該第二音訊區塊(112)係包括複數參數,由於該支援向量機之作動原理較為抽象,因此請參閱第三-A圖與第三-B圖,為該支援向量機之作動示意圖,利用該支援向量機可將由該複數音訊區塊中一第一音訊區塊參數(61)與該第二音訊區塊參數(62)作分類處理,而得一分類線(6),再將該第一音訊區塊參數(61)與該第二音訊區塊參數(62)做分類處理之檢驗,若檢驗過程中發現,原本為第一音訊區塊參數(61),經檢驗後為第二音訊區塊參數(62),則產生一第一分類錯誤率,樣本音訊參數個數標記為A,該待鑑定音訊參數個數標記為B,該第一分類錯誤率計算公式為:;若檢驗過程中發現,原本為第二音訊區塊參數(62),經檢驗後為第一音訊區塊參數(61),則產生一第二分類錯誤率,該第二分類錯誤率計算公式係為:
  請參閱第三-A圖所示,由於不同語者之音訊參數較為不同,該支援向量機較容易找到該分類線(6),將不同語者之音訊參數做分類,而使得該第一分類錯誤率與該第二分類錯誤率較低。由於相同語者之音訊參數較為接近,故經由該支援向量機作分類後,較不易找出該分類線(6),而使得該第一分類錯誤率與該第二分類錯誤率較高。
  請參閱第二圖所示,重複步驟(B),直到該數位音訊中,該各個音訊區塊均做上標記而區分成不同語者之音訊。該步驟(B)之另一實施例為,該第一音訊區塊(111)與其他各個音訊區塊作相似度比對後,將比對後之結果與該第一音訊區塊(111)為同一語者之音訊區塊標上記號,由未標上記號之複數音訊區塊(11)中任取一音訊區塊,再與其餘之音訊區塊作相似度比對,直到各個音訊區塊均已標上記號為止,減少本發明進行相同語者之群聚時所需之時間。
  請參閱第四圖所示,本發明之另一實施例係為於該步驟(A)之前更設一前置步驟,取一複數語者對話紀錄聲音源,利用一類比數位轉換器將該第一語者與該第二語者之語者對話紀錄聲音源轉換成該數位音訊(1),該數位音訊(1)係包括複數音訊參數,設一第一偵測視窗(3)與一第二偵測視窗(4),該第一偵測視窗(3)與該第二偵測視窗(4)係以分別偵測相同單位時間內之該數位音訊(1),該第一偵測視窗(3)於該數位音訊(1)之起始時間開始偵測,該第二偵測視窗(4)鄰接該第一偵測視窗(3)開始偵測,而分別得一第一音訊參數與一第二音訊參數,利用該支援向量機將該第一音訊參數與該第二音訊參數做分類處理,而分別得該第三分類錯誤率與該第四分類錯誤率。
  請參閱第四圖配合第一圖所示,設一第二分類錯誤率門檻值(0),當該第三分類錯誤率與該第四分類錯誤率均低於該第二分類錯誤率門檻值(0)時,設一分界線(2),該分界線(2)係以通過該第一偵測視窗(3)與該第二偵測視窗(4)相連接處,而使該數位音訊(1)分成二個該音訊區塊,利用該第一偵測視窗(3)與該第二偵測視窗(4),一次移動一單位時間,依序對該數位音訊(1)做偵測,再利用該支援向量之找出該複數分界線(2),使該數位音訊(1)分割成該複數音訊區塊(11),且該各個相鄰之該音訊區塊係為不同語者之該音訊區塊,因此,本發明於進行步驟(B)時,得以減少偵測時所需之時間。
  請參閱第一圖所示,承接上述實施例,由於任一該音訊區塊鄰接之該音訊區塊均為不同語者之音訊,故,藉由本創作之較佳實施例於步驟(B),取該第一音訊區塊(111),該第一音訊區塊(111)係以越過鄰接之該第二音訊區塊(112)而與其他該複數音訊區塊(11)進行訊號相似度比對,進而使本發明尋找相同語者之音訊區塊所需之時間降低。
  綜上所述,本發明確實符合產業利用性,且未於申請前見於刊物或公開使用,亦未為公眾所知悉,且具有非顯而易知性,符合可專利之要件,爰依法提出專利申請。
  惟上述之所陳,為本發明在產業上一較佳實施例,舉凡依本發明申請專利範圍所作之均等變化,皆屬本案訴求標的之範疇。
(0)‧‧‧第二分類錯誤率門檻值
(1)‧‧‧數位音訊
(11)‧‧‧複數音訊區塊
(111)‧‧‧第一音訊區塊
(112)‧‧‧第二音訊區塊
(2)‧‧‧分界線
(3)‧‧‧第一偵測視窗
(4)‧‧‧第二偵測視窗
(6)‧‧‧分類線
(61)‧‧‧第一音訊區塊參數
(62)‧‧‧第二音訊區塊參數
第一圖係本發明之數位音訊示意圖
第二圖係本發明之步驟流程圖
第三-A圖係支援向量機作動示意圖(一)
第三-B圖係支援向量機作動示意圖(二)
第四圖係本發明之另一實施例作動示意圖

(1)‧‧‧數位音訊
(11)‧‧‧複數音訊區塊
(111)‧‧‧第一音訊區塊
(112)‧‧‧第二音訊區塊

Claims (4)

  1. 一種尋找相同語者數位音訊而加以群聚之方法,包括以下步驟:
    (A)取一數位音訊,該數位音訊係藉由複數音訊區塊排列而成,該複數音訊區塊係包括一第一音訊區塊;
    (B)取該第一音訊區塊依序與其他音訊區塊利用一分類器作音訊相似度比對,而得一相似度值,設一相似度門檻值,將該相似度值高於該相似度門檻值之音訊區塊標記為一第一語者。
  2. 如申請專利範圍第1項所述之尋找相同語者數位音訊而加以群聚之方法,其中該分類器為一支援向量機,一音訊區塊與其他音訊區塊作音訊相似度比對時,利用該支援向量機做分類處理,而產生二相似度值,分別為一第一分類錯誤率與一第二分類錯誤率,該相似度門檻值為一第一分類錯誤率門檻值,當該第一分類錯誤率與該第二分類錯誤率均高於該分類錯誤率門檻值時,則判定為相同語者之音訊區塊。
  3. 如申請專利範圍第1項所述之尋找相同語者數位音訊而加以群聚之方法,其中更設一前置步驟,該前置步驟取一複數語者對話紀錄聲音源,利用一類比數位轉換器將該複數語者對話紀錄聲音源轉換成一數位音訊,設一第一偵測視窗與一第二偵測視窗,該第一偵測視窗與該第二偵測視窗係以分別偵測相同單位時間內該數位音訊,該第一偵測視窗於該數位音訊之起始時間開始偵測,該第二偵測視窗鄰接該第一偵測視窗開始偵測,而分別得一第一音訊參數與一第二音訊參數,利用一支援向量機將該第一音訊參數與該第二音訊參數做分類處理,而分別得一第三分類錯誤率與一第四分類錯誤率,設一第二分類錯誤率門檻值,當該第三分類錯誤率與該第四分類錯誤率,均低於該第二分類錯誤率門檻值時,設一分界線,該分界線係以通過該第一偵測視窗與該第二偵測視窗相連接處,而使該數位音訊分成二該音訊區塊,利用該第一偵測視窗與該第二偵測視窗一次移動一單位時間,依序偵測該數位音訊,再利用支援向量機找出複數分界線,使該數位音訊分割成該複數音訊區塊。
  4. 如申請專利範圍第3項所述之尋找相同語者數位音訊而加以群聚之方法,其中該步驟(B)之音訊區塊係越過鄰接之音訊區塊而與其他音訊區塊進行相似度比對。
TW99121225A 2010-06-29 2010-06-29 Find the same language of the same language and the method of grouping TWI386917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW99121225A TWI386917B (zh) 2010-06-29 2010-06-29 Find the same language of the same language and the method of grouping

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW99121225A TWI386917B (zh) 2010-06-29 2010-06-29 Find the same language of the same language and the method of grouping

Publications (2)

Publication Number Publication Date
TW201201196A TW201201196A (en) 2012-01-01
TWI386917B true TWI386917B (zh) 2013-02-21

Family

ID=46755729

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99121225A TWI386917B (zh) 2010-06-29 2010-06-29 Find the same language of the same language and the method of grouping

Country Status (1)

Country Link
TW (1) TWI386917B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006032028A2 (en) * 2004-09-13 2006-03-23 Reactivity, Inc. Metric-based monitoring and control of a limited resource

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006032028A2 (en) * 2004-09-13 2006-03-23 Reactivity, Inc. Metric-based monitoring and control of a limited resource

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Po-Chuan Lin, J. F. Wang, and Li- Chang Wen, "Design and Portable Device Implementation of Feature-Based Partial Matching Algorithms for Personal Spoken Sentence Retrieval," IET (Institution of Engineering and Technology), Vol. 1, Issue: 3, P.139-149, 2007.09. *
Po-Chuan Lin, Jia-Ching Wang, Jhing-Fa Wang, and Hao-Ching Sung, "Unsupervised Speaker Change Detection Using SVM Training Misclassification Rate," IEEE Transactions on Computers, Vol.56, Issue 9,pp:1212-1244 *
王駿發、林博川等人, "以支援向量機為基礎之新穎語者切換偵測演算法", 第十七屆自然語言與語音處理研討會, 94.09 *

Also Published As

Publication number Publication date
TW201201196A (en) 2012-01-01

Similar Documents

Publication Publication Date Title
CN102682760B (zh) 重叠语音检测方法和系统
TWI569263B (zh) 聲頻訊號的訊號擷取方法與裝置
KR101780676B1 (ko) 트레이닝 이미지를 이용하여 분류 트리를 구성함으로써 rejector를 학습하고 상기 rejector를 이용하여 테스트 이미지 상의 객체를 검출하는 방법
JP3913772B2 (ja) 音識別装置
JP6103899B2 (ja) 故障個所推定装置
JP2009086901A (ja) 年齢推定システム及び年齢推定方法
Tan et al. Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions.
CN112362753A (zh) 一种基于不平等距离优化聚类算法的伤损裂纹声发射信号检测方法
JP5105097B2 (ja) 音声分類装置、音声分類方法及びプログラム
TWI386917B (zh) Find the same language of the same language and the method of grouping
Xie et al. Detection of anuran calling activity in long field recordings for bio-acoustic monitoring
CN113963719A (zh) 基于深度学习的声音分类方法和装置、存储介质和计算机
JP5997813B2 (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
Gomes et al. Classifying urban sounds using time series motifs
TWI386918B (zh) Sound recognition method
TWI386915B (zh) Find the way of speech demarcation of different speakers
JP2004349846A (ja) 外れ値検出方法
Xie et al. Feature extraction based on bandpass filtering for frog call classification
KR101069232B1 (ko) 음악 장르 분류 방법 및 장치
US11250871B2 (en) Acoustic signal separation device and acoustic signal separating method
TWI287216B (en) Intelligent engine noise diagnostic system and diagnostic method thereof
Zhang et al. Surface Defect Detection of Wooden Boards Based on Multi-Modal Fusion
CN117059126A (zh) 基于特征融合和堆叠自编码器的工业设备异常声检测方法
KR20230057682A (ko) 인공지능 기반 동영상 어노테이션 자동화 방법 및 시스템

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees