TWI413106B

TWI413106B - 電子記錄裝置及方法

Info

Publication number: TWI413106B
Application number: TW099125821A
Authority: TW
Inventors: Ping Yang Chuang; Shian Shyi Shyu; Ying Chuan Yu
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2010-08-04
Filing date: 2010-08-04
Publication date: 2013-10-21
Also published as: US20120035919A1; TW201207838A

Description

電子記錄裝置及方法

本發明涉及一種電子記錄裝置及方法，特別涉及一種在會議中記錄發言者的發言的裝置及方法。

目前在開會時，一般採用攝影機拍攝或者錄音的方式記錄會議的過程。但在會後，當用戶查詢會議中某個發言者的發言時，需要將所拍攝的整個會議過程從頭開始播放以尋找該發言者的發言內容，如此浪費時間。

有鑒於此，有必要提供一種電子記錄裝置及方法，根據發言者的發言語音識別發言者的個人資訊，並將該發言者的發言語音與發言者的個人資訊關聯。

一種電子記錄裝置，包括一輸入單元，一存儲單元以及一處理單元，該輸入單元用於輸入語音，該存儲單元中存儲有聲紋資料庫，該聲紋資料庫包括用戶的聲紋模型和與用戶的聲紋模型相對應的個人資訊，該處理單元包括一聲音接收模組，一特徵獲取模組，一語音識別模組以及一檔案生成模組；該聲音接收模組用於接收通過輸入單元輸入的發言者語音，並將接收的語音存儲至存儲單元中；該特徵獲取模組用於從發言語音中提取出語音特徵；該語音識別模組判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型；當聲紋資料庫中有與發言者語音匹配的聲紋模型時，檔案生成模組根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊，並獲取發言者的語音在存儲單元中的位址建立一個索引檔。

一種用於電子記錄裝置的電子記錄方法，該聲紋識別裝置包括一輸入單元和一存儲單元，該輸入單元用於輸入語音，該存儲單元中包括有聲紋資料庫，該聲紋資料庫包括用戶的聲紋模型以及與聲紋模型對應的用戶的個人資訊，該方法還包括接收通過輸入單元輸入的發言者語音，並將接收的語音存儲至存儲單元中；從發言者語音中提取出語音特徵；判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型，當聲紋資料庫中有與發言者語音匹配的聲紋模型時，根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊，並獲取發言者的語音在存儲單元中的位址建立一個索引檔。

該聲音接收模組接收發言者語音，該特徵獲取模組從發言者語音中提取出語音特徵。該語音識別模組識別發言者語音對應的聲紋模型；該生成模組根據該聲紋模型獲取對應的個人資訊，並將個人資訊與對應發言語音進行合成建立索引檔。通過本發明的電子記錄裝置及方法，可以得知發言人的相關資訊及發言人所對應的講話內容，從而可在日後方便的查詢某個參會者的發言。

100‧‧‧電子記錄裝置

10‧‧‧輸入單元

20‧‧‧存儲單元

30‧‧‧處理單元

310‧‧‧聲音接收模組

320‧‧‧特徵獲取模組

330‧‧‧語音識別模組

340‧‧‧檔案生成模組

350‧‧‧聲紋模型建立模組

圖1係本發明一實施方式中電子記錄裝置之方框結構示意圖。

圖2係本發明一實施方式中的電子記錄方法之流程圖。

圖3係本發明一實施方式中的該聲紋資料庫之建立流程圖。

請參閱圖1，該電子記錄裝置100包括一輸入單元10，一存儲單元20及一處理單元30。

該輸入單元10用於輸入語音。在本實施方式中，該輸入裝置10為一麥克風。

該存儲單元20內存儲有一聲紋資料庫，該聲紋資料庫中存儲有用戶的聲紋模型以及該聲紋模型對應用戶的個人資訊，如姓名，照片，職稱等。

該處理單元30包括一聲音接收模組310、一特徵獲取模組320、一語音識別模組330、一檔案生成模組340和一聲紋模型建立模組350。

該聲音接收模組310用於通過輸入單元10接受發言者的語音，並將該發言者的語音存儲至存儲單元20中。

該特徵獲取模組320從發言者語音中提取發言者的語音特徵。在本實施方式中，該特徵獲取模組320通過梅爾倒頻譜係數進行發言者的語音特徵的提取。但本發明提取語音特徵並不限於上述方式，其他提取語音特徵也包括在本發明所揭露的範圍之內。

該語音識別模組330判斷該聲紋資料庫中是否有與該發言者的語音特徵相匹配的聲紋模型。若聲紋資料庫中有與該發言者的語音特徵相匹配的聲紋模型，該檔案生成模組340直接根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊，記錄發言者的發言時間，並獲取發言者的語音在存儲單元20中的位址，根據以上資訊建立一個索引檔並將索引檔存儲於存儲單元中。例如：若發言者的名字為張三，發言時間為9：00-9：10，在存儲單元20中的位址為D：會議資訊/2010年7月5日/人力招募，則生成的索引檔即可為：張三：發言時間：9：00-9：10，發言內容：D：會議資訊/2010年7月5日/人力招募。其他發言者的資訊可依發言的先後順序添加至該索引檔。

若該聲紋資料庫中不存在與該發言者的聲紋特徵相匹配的聲紋模型，則該聲紋模型建立模組350根據所提取的該發言者的語音特徵建立該發言者的聲紋模型，並將使用者輸入的該發言者的個人資訊與發言者的聲紋模型進行關聯。然後檔案生成模組340將該發言者的發言的索引資訊添加至索引檔。則以後可根據該索引檔方便查詢發言者的發言內容。在本實施方式中，該聲紋模型建立模組350根據高斯混合模型進行聲紋模型的建立。但本發明建立聲紋模型的方法並不限於上述方法，其他建立聲紋模型的方式也包括在本發明所揭露的範圍之內。

在該聲紋資料庫的建立過程中，該聲音接收模組310通過該輸入單元10接受用戶的登記語音，並將該用戶的登記語音存儲至存儲單元20中。該特徵獲取模組320從用戶的登記語音中提取用戶的語音特徵。

該聲紋模型建立模組350根據所提取的用戶的語音特徵建立該用戶的聲紋模型，獲取使用者輸入的對應用戶的個人資訊，並將該用戶的聲紋模型及個人資訊進行關聯後存儲至該聲紋資料庫中。

請參閱圖2，為本發明一實施方式中通過電子記錄裝置會議記錄方法的流程圖。步驟S201中，聲音接收模組310接收發言者語音，並將該發言者的語音存儲至存儲單元20中。步驟S202中，特徵獲取模組320從發言者語音中提取語音特徵。步驟S203中，語音識別模組330判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型，當該聲紋資料庫中不存在與該發言者的聲紋特徵相匹配的聲紋模型時，執行步驟S204。當聲紋資料庫中存儲有與發言者語音對應的聲紋模型時，直接執行步驟S205。步驟S204中，聲紋模型建立模組350根據所提取的該發言者的語音特徵建立該發言者的聲紋模型，並將使用者輸入的該發言者的個人資訊與發言者的聲紋模型進行關聯。步驟S205中，檔案生成模組340根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊，記錄發言者的發言時間，並獲取發言者的語音在存儲單元20中的位址，根據以上資訊建立一個索引檔並將索引檔存儲於存儲單元20中。

如圖3所示，為該聲紋資料庫的建立流程圖。步驟S301中，聲音接收模組310接收用戶的登記語音，並將該用戶的登記語音存儲至存儲單元20中。步驟S302中，特徵獲取模組320從登記語音中提取出用戶的語音特徵。步驟S303中，聲紋模型建立模組350根據所提取的用戶的語音特徵建立該用戶的聲紋模型，獲取使用者輸入的對應用戶的個人資訊，並將該用戶的聲紋模型及個人資訊進行關聯後存儲至該聲紋資料庫中。