TWI755328B - 孩童聲音偵測系統、方法及電腦可讀媒介 - Google Patents

孩童聲音偵測系統、方法及電腦可讀媒介 Download PDF

Info

Publication number
TWI755328B
TWI755328B TW110118686A TW110118686A TWI755328B TW I755328 B TWI755328 B TW I755328B TW 110118686 A TW110118686 A TW 110118686A TW 110118686 A TW110118686 A TW 110118686A TW I755328 B TWI755328 B TW I755328B
Authority
TW
Taiwan
Prior art keywords
vector
syllable
child
prosodic acoustic
voice
Prior art date
Application number
TW110118686A
Other languages
English (en)
Other versions
TW202247147A (zh
Inventor
楊智合
詹博丞
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW110118686A priority Critical patent/TWI755328B/zh
Application granted granted Critical
Publication of TWI755328B publication Critical patent/TWI755328B/zh
Publication of TW202247147A publication Critical patent/TW202247147A/zh

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本發明揭露一種孩童聲音偵測系統、方法及電腦可讀媒介,係辨識具有多個音節之語音之音節切割資訊與詞序列,以從語音及其音節切割資訊中抽取出多個音節之重要因子向量與韻律聲學特徵參數來建構音節韻律聲學特徵參數組,再從音節韻律聲學特徵參數組中抽取出整句韻律聲學向量,亦從語音之詞序列中抽取出語言向量。繼之,將整句韻律聲學向量與語言向量結合成一融合向量,以依據融合向量運算出語音之孩童預測機率值,俾依據孩童預測機率值判斷出語音為孩童聲音或非孩童聲音。

Description

孩童聲音偵測系統、方法及電腦可讀媒介
本發明係關於一種聲音偵測技術,特別是指一種孩童聲音偵測系統、方法及電腦可讀媒介。
隨著人機介面技術之發展,愈來愈著重智慧語音之輸入操作,故在分析使用者之年齡分布與使用情境上,孩童聲音偵測結果之可靠度愈顯得重要。
在一現有技術中,提出一種用以時間性延展或壓縮音訊信號之時間節段的裝置與方法,其中,比較器可將資訊內容之測量值與門檻值做比較,且將多個時間節段各自分類為具有高資訊內容或低資訊內容之測量值,而分析裝置可於時間節段之音訊信號比較多個聲音樣本,保有最相似的聲音樣本,各個聲音樣本可具有與其相關聯之資訊以指示聲音樣本的本質,例如高資訊內容或低資訊內容之測量值。
然而,此現有技術僅能採用不同時間點的聲音樣本,並依據可操控的時間點觀測量與可變的測定門檻值區分聲音樣本為高資訊內容或低資訊內容,卻無法在聲學上之特徵採用音節(如中文音節)為基礎,從語音 (語音辨識)之音節切割資訊中抽取出多個音節之重要因子向量與韻律聲學特徵參數當作重要特徵參數。再者,此現有技術僅使用測定的門檻值區分聲音類別,但未使用類神經網路模型或結合整句韻律聲學向量與語言向量來表達孩童之不同方面的資訊,故無法提升孩童聲音之辨識度。
因此,如何提供一種創新之聲音偵測技術,以解決上述之問題或提供相關之功能,已成為本領域技術人員之一大研究課題。
本發明提供一種創新之孩童聲音偵測系統、方法及電腦可讀媒介,能在聲學上之特徵採用音節(如中文音節)為基礎,從音節切割資訊中抽取出多個音節之重要因子向量與韻律聲學特徵參數當作重要特徵參數,或者能使用音節深層類神經網路模型或深層類神經網路模型,抑或者能結合整句韻律聲學向量與語言向量來表達孩童之不同方面的資訊。
本發明之孩童聲音偵測系統包括:語音辨識模組,係用以辨識具有多個音節之語音之音節切割資訊與詞序列;音節韻律聲學特徵抽取模組,係從語音辨識模組所辨識之具有多個音節之語音及其音節切割資訊中抽取出多個音節之重要因子向量與韻律聲學特徵參數,以依據多個音節之重要因子向量與韻律聲學特徵參數建構出音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列;整句韻律聲學向量抽取模組,係從音節韻律聲學特徵抽取模組所建構之音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列中抽取出整句韻律聲學向量;整句語言向量抽取模組,係從語音辨識模組所辨識之具有多個音節之語音之詞序列中抽取出語言向量;以 及孩童聲音偵測模組,係將整句韻律聲學向量抽取模組所抽取之整句韻律聲學向量與整句語言向量抽取模組所抽取之語言向量結合成一融合向量,以由孩童聲音偵測模組依據整句韻律聲學向量與語言向量所結合成之融合向量運算出語音之孩童預測機率值,俾由孩童聲音偵測模組依據語音之孩童預測機率值判斷出語音為孩童聲音或非孩童聲音。
本發明之孩童聲音偵測方法包括:由語音辨識模組辨識具有多個音節之語音之音節切割資訊與詞序列;由音節韻律聲學特徵抽取模組從語音辨識模組所辨識之具有多個音節之語音及其音節切割資訊中抽取出多個音節之重要因子向量與韻律聲學特徵參數,以依據多個音節之重要因子向量與韻律聲學特徵參數建構出音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列;由整句韻律聲學向量抽取模組從音節韻律聲學特徵抽取模組所建構之音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列中抽取出整句韻律聲學向量;由整句語言向量抽取模組從語音辨識模組所辨識之具有多個音節之語音之詞序列中抽取出語言向量;以及由孩童聲音偵測模組將整句韻律聲學向量抽取模組所抽取之整句韻律聲學向量與整句語言向量抽取模組所抽取之語言向量結合成一融合向量,以由孩童聲音偵測模組依據整句韻律聲學向量與語言向量所結合成之融合向量運算出語音之孩童預測機率值,俾由孩童聲音偵測模組依據語音之孩童預測機率值判斷出語音為孩童聲音或非孩童聲音。
本發明之電腦可讀媒介應用於計算裝置或電腦中,係儲存有指令,以執行上述之孩童聲音偵測方法。
為讓本發明之上述特徵與優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之 額外特徵及優點,且此等特徵及優點將部分自所述描述內容可得而知,或可藉由對本發明之實踐習得。應理解,前文一般描述與以下詳細描述兩者均為例示性及解釋性的,且不欲約束本發明所欲主張之範圍。
1:孩童聲音偵測系統
10:語音辨識模組
20:音節韻律聲學特徵抽取模組
30:整句韻律聲學向量抽取模組
31:音節深層類神經網路模型
32:統計式池化層
40:整句語言向量抽取模組
41:詞庫
42:詞向量轉換單元
50:孩童聲音偵測模組
51:融合單元
52:深層類神經網路模型
A:語音
B:音節切割資訊
C:詞序列
D:音節韻律聲學特徵參數組
D1:重要因子向量
D2:基頻參數
D3:能量參數
D4:諧頻參數
D5:音節長度參數
D6:音節間停頓參數
E:整句韻律聲學向量
F:語言向量
G:融合向量
H:孩童或非孩童之事後機率
I1:孩童聲音
I2:非孩童聲音
S1至S6:步驟
圖1為本發明之孩童聲音偵測系統之架構示意圖;以及
圖2為本發明之孩童聲音偵測方法之流程示意圖。
以下藉由特定的具體實施形態說明本發明之實施方式,熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其它優點與功效,亦可因而藉由其它不同的具體等同實施形態加以施行或運用。
圖1為本發明之孩童聲音偵測系統1之架構示意圖。如圖所示,孩童聲音偵測系統1可包括一語音辨識模組10、一音節韻律聲學特徵抽取模組20、一整句韻律聲學向量抽取模組30、一整句語言向量抽取模組40以及一孩童聲音偵測模組50。語音辨識模組10可依序連接或通訊音節韻律聲學特徵抽取模組20、整句韻律聲學向量抽取模組30與孩童聲音偵測模組50,亦可依序連接或通訊整句語言向量抽取模組40與孩童聲音偵測模組50。
例如,語音辨識模組10可為語音辨識器(晶片/電路)、語音辨識軟體(程式)等,音節韻律聲學特徵抽取模組20可為音節韻律聲學特徵 抽取器(晶片/電路)、音節韻律聲學特徵抽取軟體(程式)等,整句韻律聲學向量抽取模組30可為整句韻律聲學向量抽取器(晶片/電路)、整句韻律聲學向量抽取軟體(程式)等,整句語言向量抽取模組40可為整句語言向量抽取器(晶片/電路)、整句語言向量抽取軟體(程式)等,孩童聲音偵測模組50可為孩童聲音偵測器(晶片/電路)、孩童聲音偵測軟體(程式)等。孩童之年齡可為3至15歲,亦可為3歲以下且能講出語音A(如語音資料)之整句者。但是,本發明並不以此為限。
語音辨識模組10可辨識出具有多個音節(如中文音節)之語音A(如語音資料)之音節切割資訊B與詞序列C(如候選詞序列)。例如,本實施例所述「我要聽周杰倫的告白氣球」為具有11個音節之語音A(如語音資料),且詞序列C(如候選詞序列)為「我 要聽 周杰倫 的 告白氣球」等5個詞所組成之序列。
音節韻律聲學特徵抽取模組20可依據具有多個音節(如中文音節)之語音A(如語音資料)及其音節切割資訊B計算出多個音節韻律聲學特徵參數組D或一音節韻律聲學特徵參數組序列。各個音節韻律聲學特徵參數組D可包括語音A(如語音資料)之一個音節中之一個重要因子向量D1(如頻譜向量/核心頻譜向量)與至少一個(如多個)韻律聲學特徵參數,多個音節韻律聲學特徵參數組D可構成一個音節韻律聲學特徵參數組序列,且韻律聲學特徵參數可包括基頻參數D2、能量參數D3、諧頻參數D4、音節長度參數D5與音節間停頓參數D6之至少一者。音節韻律聲學特徵抽取模組20可將語音A(如語音資料)中各個音節之頻譜向量或核心頻譜向量表達成一固定長度之向量,且將語音A(如語音資料)中長度不一之多個音節 切割資訊B投影轉換成一固定長度之音節韻律聲學特徵參數組D。
整句韻律聲學向量抽取模組30可具有一由音節深層類神經網路所構成之音節深層類神經網路模型31,且音節深層類神經網路模型31可具有一統計式池化層32。整句語言向量抽取模組40可具有互相連接或通訊之一詞庫41與一詞向量轉換單元42。孩童聲音偵測模組50可具有互相連接或通訊之一融合單元51與一深層類神經網路模型52,用以分類或分析出孩童聲音I1或非孩童聲音I2。
申言之,語音辨識模組10可辨識具有多個音節(如中文音節)之語音A(如語音資料)之音節切割資訊B與詞序列C(如候選詞序列),以將具有多個音節(如中文音節)之語音A(如語音資料)及其音節切割資訊B傳送或輸入至音節韻律聲學特徵抽取模組20,且將具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)傳送或輸入至整句語言向量抽取模組40。
音節韻律聲學特徵抽取模組20可從語音辨識模組10所辨識之具有多個音節(如中文音節)之語音A(如語音資料)及其音節切割資訊B中抽取出多個音節之重要因子向量D1與韻律聲學特徵參數,以依據多個音節之重要因子向量D1與韻律聲學特徵參數建構出多個音節韻律聲學特徵參數組D或一個音節韻律聲學特徵參數組序列。韻律聲學特徵參數可包括基頻參數D2、能量參數D3、諧頻參數D4、音節長度參數D5與音節間停頓參數D6之至少一者,且多個音節韻律聲學特徵參數組D可構成一個音節韻律聲學特徵參數組序列。
基頻參數D2可為音節之基頻軌跡,且採用多維(如4維)之 正交多項式(Orthogonal polynomials)予以表達。能量參數D3可為音節之能量軌跡平均,且採用多段(如3段)之平均值予以表達。諧頻參數D4可為基頻之多倍頻(如2、3、4、5或更高倍頻),音節長度參數D5可為音節之長度,音節間停頓參數D6可為音節間靜音長度。同時,音節韻律聲學特徵抽取模組20可將語音A之各個音節(如中文音節)表示成一固定長度之音節韻律聲學特徵參數組D,以利提升孩童聲音偵測之準確度。
音節韻律聲學特徵抽取模組20係假設具有多個音節(如中文音節)之語音A(如語音資料)為音節與通道相依之高斯混合模型(Gaussian Mixture Model,GMM)之超向量s,以對重要因子向量D1進行抽取,且超向量s可表示成公式:s=m+Tw。m可代表一泛用背景模型(Universal Background Model;UBM)之平均值超向量,T可代表一低維度矩陣並用以抽取重要因子向量D1。低維度矩陣T可為將多個(如M個或300個)重要因子向量D1視作總變異數所生成之子空間,且處於泛用背景模型(UBM)之平均值超向量空間中。w可代表多個(如M個或300個)重要因子向量D1之組合,並為事後機率分佈呈標準常態N(0,I),其中參數0可代表平均數,參數I可代表標準差。此處之最終目標是由音節韻律聲學特徵抽取模組20利用簡單之因子分析法將具有多個音節(如中文音節)之語音A(如語音資料)投影至低維度之總變異數空間,以過濾掉通道之影響。
整句韻律聲學向量抽取模組30可具有一由音節深層類神經網路所構成之音節深層類神經網路模型31,音節深層類神經網路模型31可具有一統計式池化層32,且音節深層類神經網路可由任一類神經網路予以實現。音節深層類神經網路或音節深層類神經網路模型31之輸入端可連 接或通訊音節韻律聲學特徵抽取模組20以取得音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列,且整句韻律聲學向量抽取模組30可從據來自音節韻律聲學特徵抽取模組20所建構之音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列中抽取出整句韻律聲學向量E。例如,整句韻律聲學向量抽取模組30可依據音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列從音節深層類神經網路所構成之音節深層類神經網路模型31中抽取出統計式池化層32之輸出結果當作整句韻律聲學向量E。
整句語言向量抽取模組40可具有互相連接或通訊之一詞庫41與一詞向量轉換單元42,整句語言向量抽取模組40或詞向量轉換單元42之輸入端可連接或通訊語音辨識模組10以取得具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列),且整句語言向量抽取模組40可從語音辨識模組10所辨識之具有多個音節之語音A之詞序列C中抽取出語言向量F(如整句語言向量)。整句語言向量抽取模組40之詞向量轉換單元42可將語音辨識模組10所辨識之具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)轉換成詞向量或語言向量F,以提供詞向量或語言向量F之高層次資訊(如文字語言)至孩童聲音偵測模組50。
孩童聲音偵測模組50可具有互相連接或通訊之一融合單元51與一由深層類神經網路所構成之深層類神經網路模型52,且深層類神經網路模型52可由任一類神經網路予以實現。孩童聲音偵測模組50或融合單元51之輸入端可連接或通訊整句韻律聲學向量抽取模組30以取得整 句韻律聲學向量E,並連接或通訊整句語言向量抽取模組40以取得語言向量F(詞向量)。
孩童聲音偵測模組50之融合單元51可將整句韻律聲學向量抽取模組30所抽取之整句韻律聲學向量E與整句語言向量抽取模組40所抽取之語言向量F(詞向量)兩者融合成或結合成一融合向量G,以將整句韻律聲學向量E與語言向量F(詞向量)兩者所融合而成或所結合成之融合向量G傳送至深層類神經網路所構成之深層類神經網路模型52。因此,孩童聲音偵測模組50或融合單元51可結合整句韻律聲學向量E之低層次資訊(如聲音)與語言向量F(詞向量)之高層次資訊(如文字語言),有利於提升孩童聲音偵測之準確度。
本發明可結合整句韻律聲學向量E(即韻律聲學)與語言向量F(即語言)兩者之特徵,以區分具有多個音節(如中文音節)之語音A(如語音資料)為孩童聲音I1或非孩童聲音I2。整句韻律聲學向量E或韻律聲學上之特徵採用音節(如中文音節)為基礎,音節韻律聲學特徵抽取模組20可從語音辨識模組10所辨識之具有多個音節(如中文音節)之語音A(如語音資料)及其音節切割資訊B中抽取出多個音節之重要因子向量D1與韻律聲學特徵參數當作重要特徵參數,再由整句韻律聲學向量抽取模組30從音節深層類神經網路所構成之音節深層類神經網路模型31中抽取出一統計式池化層32之輸出結果當作整句韻律聲學向量E。同時,利用語音辨識模組10所辨識之具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)結合整句語言向量抽取模組40之詞庫41與詞向量轉換單元42之詞向量轉換方法,以由整句語言向量抽取模組40將具有多個音節(如 中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)轉換成詞向量來表示語言向量F,再由孩童聲音偵測模組50或融合單元51結合整句韻律聲學向量E與語言向量F來表達孩童之不同方面之資訊,有利於提升孩童聲音之辨識度。
是以,本發明可從具有多個音節(如中文音節)之語音A(如語音資料)及其音節切割資訊B中抽取出多個音節之重要因子向量D1與韻律聲學特徵參數(如基頻參數D2、能量參數D3、諧頻參數D4、音節長度參數D5、音節間停頓參數D6),以依據多個音節之重要因子向量D1與韻律聲學特徵參數建構出多個音節韻律聲學特徵參數組D或一個音節韻律聲學特徵參數組序列,再利用音節深層類神經網路所構成之音節深層類神經網路模型31從音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列中找出多個音節之特徵之關聯性以進一步分析出整句韻律聲學向量E。
在語言上,利用整句語言向量抽取模組40之詞庫41與詞向量轉換單元42之詞向量轉換方法將具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)轉換成詞向量或語言向量F,以由孩童聲音偵測模組50之融合單元51結合整句韻律聲學向量E與語言向量F(詞向量)兩者之不同層次資訊,再透過孩童聲音偵測模組50之深層類神經網路模型52判定具有多個音節(如中文音節)之語音A(如語音資料)為孩童聲音I1的可能性高低。
圖2為本發明之孩童聲音偵測方法之流程示意圖,並參閱圖1予以說明。同時,此孩童聲音偵測方法之主要內容如下,其餘內容相同於上述圖1之說明,於此不再重覆記載。
如步驟S1所示,透過各種電子裝置、語音媒體(圖未示)或人類聲音取得一具有多個音節(如中文音節)之語音A(如語音資料)。例如,電子裝置可為行動裝置(如智慧型手機)、電腦(如個人電腦)、伺服器(如雲端伺服器)、麥克風、錄音筆、記憶卡、隨身碟、硬碟、光碟等,語音媒體可為錄音檔、雲端(如雲端硬碟)、網路(如網路硬碟)、影音媒體(如YouTube、抖音)等。
如步驟S2所示,由語音辨識模組10辨識出具有多個音節(如中文音節)之語音A(如語音資料)之音節切割資訊B與詞序列C(如候選詞序列)。
如步驟S3所示,由音節韻律聲學特徵抽取模組20使用音節韻律聲學特徵抽取方法從具有多個音節(如中文音節)之語音A(如語音資料)及其音節切割資訊B中抽取出多個音節之重要因子向量D1(如頻譜向量或核心頻譜向量)與韻律聲學特徵參數,以依據多個音節之重要因子向量D1與韻律聲學特徵參數建構出多個音節韻律聲學特徵參數組D或一個音節韻律聲學特徵參數組序列,且韻律聲學特徵參數可包括基頻參數D2、能量參數D3、諧頻參數D4、音節長度參數D5與音節間停頓參數D6之至少一者。例如,M個(如300個)重要因子向量D1,4維之正交多項式之基頻參數D2,3段平均值表示之能量參數D3,5個諧頻參數D4,1個音節長度參數D5,1個音節間停頓參數D6。
如步驟S4所示,音節韻律聲學特徵抽取模組20可將各個固定長度之音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列輸入至整句韻律聲學向量抽取模組30,以由整句韻律聲學向量抽取模組30 依據音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列從音節深層類神經網路所構成之音節深層類神經網路模型31中抽取出統計式池化層32之輸出結果當作整句韻律聲學向量E。
亦即,整句韻律聲學向量抽取模組30可將語音A(如語音資料)之多個音節中不同的音節韻律聲學特徵參數組合或串接成音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列,以將音節韻律聲學特徵參數組D或音節韻律聲學特徵參數組序列輸入至音節深層類神經網路所構成之音節深層類神經網路模型31,再從音節深層類神經網路模型31中抽取出統計式池化層32之輸出結果當作整句韻律聲學向量E。
如步驟S5所示,語音辨識模組10可將所辨識之具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)輸入至整句語言向量抽取模組40,以透過整句語言向量抽取模組40之詞庫41與詞向量轉換單元42之詞向量轉換方法從具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)中抽取出語言向量F(如整句語言向量)。
亦即,語音辨識模組10可將具有多個音節(如中文音節)之語音A(如語音資料)之詞序列C(如候選詞序列)輸入至整句語言向量抽取模組40,且整句語言向量抽取模組40可載入詞庫41,再透過詞庫41與詞向量轉換單元42之詞向量轉換方法得到詞序列C(如候選詞序列)之詞向量當作語言向量F(如孩童聲音之語言向量)。
如步驟S6所示,整句韻律聲學向量抽取模組30與整句語言向量抽取模組40可分別將整句韻律聲學向量E與語言向量F輸入至孩 童聲音偵測模組50,以由孩童聲音偵測模組50之融合單元51將整句韻律聲學向量E與語言向量F兩者融合成或結合成一融合向量G,再由孩童聲音偵測模組50將整句韻律聲學向量E與語言向量F兩者所融合而成或所結合成之融合向量G透過孩童聲音偵測模組50之深層類神經網路或深層類神經網路模型52運算出語音A(如語音資料)之孩童或非孩童之事後機率H(或稱孩童預測機率值),俾由孩童聲音偵測模組50依據語音A(如語音資料)之孩童或非孩童之事後機率H(或稱孩童預測機率值)之高低判斷出語音A(如語音資料)為孩童聲音I1或非孩童聲音I2。
換言之,整句韻律聲學向量抽取模組30與整句語言向量抽取模組40可分別將整句韻律聲學向量E與語言向量F輸入至孩童聲音偵測模組50,以由孩童聲音偵測模組50之融合單元51將整句韻律聲學向量E與語言向量F融合成或結合成一融合向量G,再將整句韻律聲學向量E與語言向量F兩者所融合而成或所結合成之融合向量G透過孩童聲音偵測模組50之深層類神經網路或深層類神經網路模型52運算出語音A(如語音資料)之孩童或非孩童之事後機率H(或稱孩童預測機率值),俾由孩童聲音偵測模組50依據語音A(如語音資料)之孩童或非孩童之事後機率H(或稱孩童預測機率值)之高低判斷出語音A(如語音資料)為孩童聲音I1或非孩童聲音I2。
例如,若孩童之事後機率較高或大於門檻值(如51%以上),即非孩童之事後機率較低或小於門檻值(如49%以下),則判定語音A為孩童聲音I1。反之,若孩童之事後機率較低或小於門檻值(如49%以下),即非孩童之事後機率較高或大於門檻值(如51%以上),則判定語音A為非孩 童聲音I2。
因此,本發明可將一具有多個音節(如中文音節)之語音A(如語音資料)輸入至語音辨識模組10,以透過語音辨識模組10從具有多個音節(如中文音節)之語音A(如語音資料)中語音辨識或轉換出音節切割資訊B與詞序列C(如候選詞序列)。接著,由整句韻律聲學向量抽取模組30與整句語言向量抽取模組40分別取得整句韻律聲學向量E與語言向量F,以由孩童聲音偵測模組50之融合單元51將整句韻律聲學向量E(如韻律聲學)與語言向量F(如語言)兩種不同資訊融合成一融合向量G,再由孩童聲音偵測模組50將整句韻律聲學向量E與語言向量F兩者所融合而成之融合向量G透過深層類神經網路或深層類神經網路模型52運算出語音A(如語音資料)之孩童或非孩童之事後機率H(或稱孩童預測機率值),俾由孩童聲音偵測模組50依據語音A(如語音資料)之孩童或非孩童之事後機率H(或稱孩童預測機率值)之高低判斷出語音A(如語音資料)為孩童聲音I1或非孩童聲音I2之可能性。
另外,本發明還提供一種用於孩童聲音偵測方法之電腦可讀媒介,係應用於具有處理器及/或記憶體的計算裝置或電腦中,且儲存有指令,並可利用計算裝置或電腦透過處理器及/或記憶體執行電腦可讀媒介,以於執行電腦可讀媒介時執行上述內容。例如,處理器可為微處理器、中央處理單元(CPU)、圖形處理器(GPU)等,記憶體可為暫存器、隨機存取記憶體(RAM)、快閃記憶體(flash)、記憶卡、硬碟(如雲端/網路硬碟)等,但不以此為限。
綜上,本發明之孩童聲音偵測系統、方法及電腦可讀媒介至 少具有下列特色、優點或技術功效。
一、本發明能在聲學上之特徵採用音節(如中文音節)為基礎,以利從語音(語音辨識)之音節切割資訊中抽取出多個音節之重要因子向量與韻律聲學特徵參數當作重要特徵參數。
二、本發明能利用語音(如語音資料)具有多個音節(如中文音節)之特性,以音節為單元分析出孩童聲音,故相較於習知以音框為單元或使用音框層次抽取,本發明更具有強健性之功效。
三、本發明之音節韻律聲學特徵抽取模組能將語音之各個音節(如中文音節)表示成一固定長度之音節韻律聲學特徵參數組,以利提升孩童聲音偵測之準確度。
四、本發明能利用音節韻律聲學特徵之資訊,以利學習孩童聲音上之韻律特性,亦能於區分孩童聲音與非孩童聲音的差異性。
五、本發明能使用音節深層類神經網路模型或深層類神經網路模型,亦能結合整句韻律聲學向量與語言向量來表達孩童之不同方面的資訊。
六、本發明之孩童聲音偵測模組或融合單元能結合韻律聲學(如整句韻律聲學向量)與語言(如語言向量)兩者之不同層次資訊,有利於提升孩童聲音之辨識度。
七、本發明之孩童聲音偵測模組或融合單元可將整句韻律聲學向量與語言向量(詞向量)融合成一融合向量,故能結合整句韻律聲學向量之低層次資訊(如聲音)與語言向量(詞向量)之高層次資訊(如文字語言),有利於提升孩童聲音偵測之準確度。
八、本發明可能應用之產業為例如智慧語音人機互動產業、汽車產業、物聯網、智慧家庭等,且可能應用之產品為例如語意雲智慧音箱、聲控遙控器等,但不以此為限。
上述實施形態僅例示性說明本發明之原理、特點及其功效,並非用以限制本發明之可實施範疇,任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾,均仍應為申請專利範圍所涵蓋。因此,本發明之權利保護範圍應如申請專利範圍所列。
1:孩童聲音偵測系統
10:語音辨識模組
20:音節韻律聲學特徵抽取模組
30:整句韻律聲學向量抽取模組
31:音節深層類神經網路模型
32:統計式池化層
40:整句語言向量抽取模組
41:詞庫
42:詞向量轉換單元
50:孩童聲音偵測模組
51:融合單元
52:深層類神經網路模型
A:語音
B:音節切割資訊
C:詞序列
D:音節韻律聲學特徵參數組
D1:重要因子向量
D2:基頻參數
D3:能量參數
D4:諧頻參數
D5:音節長度參數
D6:音節間停頓參數
E:整句韻律聲學向量
F:語言向量
G:融合向量
H:孩童或非孩童之事後機率
I1:孩童聲音
I2:非孩童聲音

Claims (18)

  1. 一種孩童聲音偵測系統,包括:
    語音辨識模組,係用以辨識具有多個音節之語音之音節切割資訊與詞序列;
    音節韻律聲學特徵抽取模組,係從該語音辨識模組所辨識之該具有多個音節之語音及其音節切割資訊中抽取出該多個音節之重要因子向量與韻律聲學特徵參數,以依據該多個音節之重要因子向量與韻律聲學特徵參數建構出音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列;
    整句韻律聲學向量抽取模組,係從該音節韻律聲學特徵抽取模組所建構之該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列中抽取出整句韻律聲學向量;
    整句語言向量抽取模組,係從該語音辨識模組所辨識之該具有多個音節之語音之詞序列中抽取出語言向量;以及
    孩童聲音偵測模組,係將該整句韻律聲學向量抽取模組所抽取之該整句韻律聲學向量與該整句語言向量抽取模組所抽取之該語言向量結合成一融合向量,以由該孩童聲音偵測模組依據該整句韻律聲學向量與該語言向量所結合成之該融合向量運算出該語音之孩童預測機率值,俾由該孩童聲音偵測模組依據該語音之孩童預測機率值判斷出該語音為孩童聲音或非孩童聲音。
  2. 如請求項1所述之孩童聲音偵測系統,其中,該多個音節之重要因子向量係包括頻譜向量或核心頻譜向量,且該多個音節之韻律聲學特徵參數係包括基頻參數、能量參數、諧頻參數、音節長度參數與音節間停頓參數之至少一者。
  3. 如請求項1所述之孩童聲音偵測系統,其中,該音節韻律聲學特徵抽取模組係將該語音中各個音節之頻譜向量或核心頻譜向量表達成一固定長度之向量,且將該語音中長度不一之多個音節切割資訊投影轉換成一固定長度之音節韻律聲學特徵參數組。
  4. 如請求項1所述之孩童聲音偵測系統,其中,該整句韻律聲學向量抽取模組係具有一由音節深層類神經網路所構成之音節深層類神經網路模型,該音節深層類神經網路模型係具有一統計式池化層,以供該整句韻律聲學向量抽取模組依據該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列從該音節深層類神經網路模型中抽取出該統計式池化層之輸出結果當作該整句韻律聲學向量。
  5. 如請求項1所述之孩童聲音偵測系統,其中,該整句韻律聲學向量抽取模組係具有一由音節深層類神經網路所構成之音節深層類神經網路模型,該音節深層類神經網路模型係具有一統計式池化層,以供該整句韻律聲學向量抽取模組將該語音之多個音節中不同的音節韻律聲學特徵參數組合或串接成該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列,俾將該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列輸入至該音節深層類神經網路模型,再從該音節深層類神經網路模型中抽取出該統計式池化層之輸出結果當作該整句韻律聲學向量。
  6. 如請求項1所述之孩童聲音偵測系統,其中,該整句語言向量抽取模組係具有一詞庫與一詞向量轉換單元,以供該語音辨識模組將所辨識之該具有多個音節之語音之詞序列輸入至該整句語言向量抽取模組,俾透過該整句語言向量抽取模組之詞庫與詞向量轉換單元從該具有多個音節之語音之詞序列中抽取出該語言向量。
  7. 如請求項1所述之孩童聲音偵測系統,其中,該整句語言向量抽取模組係具有一詞庫與一詞向量轉換方法,以將該語音辨識模組所辨識之該具有多個音節之語音之詞序列結合該整句語言向量抽取模組之詞庫與詞向量轉換方法,俾由該整句語言向量抽取模組將具有該多個音節之語音之詞序列轉換成詞向量來表示該語言向量。
  8. 如請求項1所述之孩童聲音偵測系統,其中,該孩童聲音偵測模組係具有一融合單元與一由深層類神經網路所構成之深層類神經網路模型,以供該融合單元將該整句韻律聲學向量抽取模組所抽取之該整句韻律聲學向量與該整句語言向量抽取模組所抽取之該語言向量結合成該融合向量,俾將該整句韻律聲學向量與該語言向量所結合成之該融合向量傳送至該深層類神經網路模型。
  9. 如請求項1所述之孩童聲音偵測系統,其中,該孩童聲音偵測模組係具有一由深層類神經網路所構成之深層類神經網路模型,以供該孩童聲音偵測模組將該整句韻律聲學向量與該語言向量所結合成之該融合向量透過該深層類神經網路或該深層類神經網路模型運算出該語音之孩童預測機率值,以依據該語音之孩童預測機率值判斷出該語音為該孩童聲音或非孩童聲音。
  10. 一種孩童聲音偵測方法,包括:
    由語音辨識模組辨識具有多個音節之語音之音節切割資訊與詞序列;
    由音節韻律聲學特徵抽取模組從該語音辨識模組所辨識之該具有多個音節之語音及其音節切割資訊中抽取出該多個音節之重要因子向量與韻律聲學特徵參數,以依據該多個音節之重要因子向量與韻律聲學特徵參數建構出音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列;
    由整句韻律聲學向量抽取模組從該音節韻律聲學特徵抽取模組所建構之該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列中抽取出整句韻律聲學向量;
    由整句語言向量抽取模組從該語音辨識模組所辨識之該具有多個音節之語音之詞序列中抽取出語言向量;以及
    由孩童聲音偵測模組將該整句韻律聲學向量抽取模組所抽取之該整句韻律聲學向量與該整句語言向量抽取模組所抽取之該語言向量結合成一融合向量,以由該孩童聲音偵測模組依據該整句韻律聲學向量與該語言向量所結合成之該融合向量運算出該語音之孩童預測機率值,俾由該孩童聲音偵測模組依據該語音之孩童預測機率值判斷出該語音為孩童聲音或非孩童聲音。
  11. 如請求項10所述之孩童聲音偵測方法,更包括由該音節韻律聲學特徵抽取模組將該語音中各個音節之頻譜向量或核心頻譜向量表達成一固定長度之向量,且將該語音中長度不一之多個音節切割資訊投影轉換成一固定長度之音節韻律聲學特徵參數組。
  12. 如請求項10所述之孩童聲音偵測方法,更包括使該整句韻律聲學向量抽取模組具有一由音節深層類神經網路所構成之音節深層類神經網路模型,且該音節深層類神經網路模型具有一統計式池化層,其中,該整句韻律聲學向量抽取模組依據該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列從該音節深層類神經網路模型中抽取出該統計式池化層之輸出結果當作該整句韻律聲學向量。
  13. 如請求項10所述之孩童聲音偵測方法,更包括使該整句韻律聲學向量抽取模組具有一由音節深層類神經網路所構成之音節深層類神經網路模型,且該音節深層類神經網路模型具有一統計式池化層,其中, 該整句韻律聲學向量抽取模組將該語音之多個音節中不同的音節韻律聲學特徵參數組合或串接成該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列,以將該音節韻律聲學特徵參數組或音節韻律聲學特徵參數組序列輸入至該音節深層類神經網路模型,再從該音節深層類神經網路模型中抽取出該統計式池化層之輸出結果當作該整句韻律聲學向量。
  14. 如請求項10所述之孩童聲音偵測方法,更包括使該整句語言向量抽取模組具有一詞庫與一詞向量轉換單元,以由該語音辨識模組將所辨識之該具有多個音節之語音之詞序列輸入至該整句語言向量抽取模組,俾透過該整句語言向量抽取模組之詞庫與詞向量轉換單元從該具有多個音節之語音之詞序列中抽取出該語言向量。
  15. 如請求項10所述之孩童聲音偵測方法,更包括使該整句語言向量抽取模組具有一詞庫與一詞向量轉換方法,以將該語音辨識模組所辨識之該具有多個音節之語音之詞序列結合該整句語言向量抽取模組之詞庫與詞向量轉換方法,俾由該整句語言向量抽取模組將具有該多個音節之語音之詞序列轉換成詞向量來表示該語言向量。
  16. 如請求項10所述之孩童聲音偵測方法,更包括使該孩童聲音偵測模組具有一融合單元與一由深層類神經網路所構成之深層類神經網路模型,以由該融合單元將該整句韻律聲學向量抽取模組所抽取之該整句韻律聲學向量與該整句語言向量抽取模組所抽取之該語言向量結合成該融合向量,俾將該整句韻律聲學向量與該語言向量所結合成之該融合向量傳送至該深層類神經網路模型。
  17. 如請求項10所述之孩童聲音偵測方法,更包括使該孩童聲音偵測模組具有一由深層類神經網路所構成之深層類神經網路模型,以由該孩童聲音偵測模組將該整句韻律聲學向量與該語言向量所結合成之該 融合向量透過該深層類神經網路或該深層類神經網路模型運算出該語音之孩童預測機率值,俾依據該語音之孩童預測機率值判斷出該語音為該孩童聲音或非孩童聲音。
  18. 一種電腦可讀媒介,應用於計算裝置或電腦中,係儲存有指令,以執行如請求項10至17之任一者所述之孩童聲音偵測方法。
TW110118686A 2021-05-24 2021-05-24 孩童聲音偵測系統、方法及電腦可讀媒介 TWI755328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110118686A TWI755328B (zh) 2021-05-24 2021-05-24 孩童聲音偵測系統、方法及電腦可讀媒介

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110118686A TWI755328B (zh) 2021-05-24 2021-05-24 孩童聲音偵測系統、方法及電腦可讀媒介

Publications (2)

Publication Number Publication Date
TWI755328B true TWI755328B (zh) 2022-02-11
TW202247147A TW202247147A (zh) 2022-12-01

Family

ID=81329619

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110118686A TWI755328B (zh) 2021-05-24 2021-05-24 孩童聲音偵測系統、方法及電腦可讀媒介

Country Status (1)

Country Link
TW (1) TWI755328B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235019A1 (en) * 2007-03-23 2008-09-25 Verizon Business Network Services, Inc. Age determination using speech
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
TWI473080B (zh) * 2012-04-10 2015-02-11 Nat Univ Chung Cheng The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals
US20170256268A1 (en) * 2014-04-30 2017-09-07 Qualcomm Incorporated Voice profile management and speech signal generation
US20180277117A1 (en) * 2017-03-23 2018-09-27 Alex Lauren HERGENROEDER Method and Apparatus for Speech Interaction with Children
US20190013009A1 (en) * 2017-07-10 2019-01-10 Vox Frontera, Inc. Syllable based automatic speech recognition
US20200321010A1 (en) * 2015-07-23 2020-10-08 Alibaba Group Holding Limited Voiceprint recognition model construction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235019A1 (en) * 2007-03-23 2008-09-25 Verizon Business Network Services, Inc. Age determination using speech
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
TWI473080B (zh) * 2012-04-10 2015-02-11 Nat Univ Chung Cheng The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals
US20170256268A1 (en) * 2014-04-30 2017-09-07 Qualcomm Incorporated Voice profile management and speech signal generation
US20200321010A1 (en) * 2015-07-23 2020-10-08 Alibaba Group Holding Limited Voiceprint recognition model construction
US20180277117A1 (en) * 2017-03-23 2018-09-27 Alex Lauren HERGENROEDER Method and Apparatus for Speech Interaction with Children
US20190013009A1 (en) * 2017-07-10 2019-01-10 Vox Frontera, Inc. Syllable based automatic speech recognition

Also Published As

Publication number Publication date
TW202247147A (zh) 2022-12-01

Similar Documents

Publication Publication Date Title
Yeh et al. An interaction-aware attention network for speech emotion recognition in spoken dialogs
Kabir et al. A survey of speaker recognition: Fundamental theories, recognition methods and opportunities
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
CN102982811B (zh) 一种基于实时解码的语音端点检测方法
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
WO2022166218A1 (zh) 一种语音识别中添加标点符号的方法及语音识别装置
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
CN112331207B (zh) 服务内容监控方法、装置、电子设备和存储介质
KR20230129094A (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
Kumar et al. Machine learning based speech emotions recognition system
CN110853669B (zh) 音频识别方法、装置及设备
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
Gupta et al. A study on speech recognition system: a literature review
Wazir et al. Deep learning-based detection of inappropriate speech content for film censorship
TWI755328B (zh) 孩童聲音偵測系統、方法及電腦可讀媒介
CN116052655A (zh) 音频处理方法、装置、电子设备和可读存储介质
JP2002169592A (ja) 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
Humayun et al. Estimating Social Background Profiling of Indian Speakers by Acoustic Speech Features: SPEECH ACCENT CLASSIFICATION BY ACOUSTIC ANALYSIS
Sawakare et al. Speech recognition techniques: a review
CN114582373A (zh) 用于在人机对话中识别用户情绪的方法及装置