TWI413106B - 電子記錄裝置及方法 - Google Patents

電子記錄裝置及方法 Download PDF

Info

Publication number
TWI413106B
TWI413106B TW099125821A TW99125821A TWI413106B TW I413106 B TWI413106 B TW I413106B TW 099125821 A TW099125821 A TW 099125821A TW 99125821 A TW99125821 A TW 99125821A TW I413106 B TWI413106 B TW I413106B
Authority
TW
Taiwan
Prior art keywords
voice
speaker
voiceprint
user
model
Prior art date
Application number
TW099125821A
Other languages
English (en)
Other versions
TW201207838A (en
Inventor
Ping Yang Chuang
Shian Shyi Shyu
Ying Chuan Yu
Original Assignee
Hon Hai Prec Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hon Hai Prec Ind Co Ltd filed Critical Hon Hai Prec Ind Co Ltd
Priority to TW099125821A priority Critical patent/TWI413106B/zh
Priority to US12/961,424 priority patent/US20120035919A1/en
Publication of TW201207838A publication Critical patent/TW201207838A/zh
Application granted granted Critical
Publication of TWI413106B publication Critical patent/TWI413106B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

電子記錄裝置及方法
本發明涉及一種電子記錄裝置及方法,特別涉及一種在會議中記錄發言者的發言的裝置及方法。
目前在開會時,一般採用攝影機拍攝或者錄音的方式記錄會議的過程。但在會後,當用戶查詢會議中某個發言者的發言時,需要將所拍攝的整個會議過程從頭開始播放以尋找該發言者的發言內容,如此浪費時間。
有鑒於此,有必要提供一種電子記錄裝置及方法,根據發言者的發言語音識別發言者的個人資訊,並將該發言者的發言語音與發言者的個人資訊關聯。
一種電子記錄裝置,包括一輸入單元,一存儲單元以及一處理單元,該輸入單元用於輸入語音,該存儲單元中存儲有聲紋資料庫,該聲紋資料庫包括用戶的聲紋模型和與用戶的聲紋模型相對應的個人資訊,該處理單元包括一聲音接收模組,一特徵獲取模組,一語音識別模組以及一檔案生成模組;該聲音接收模組用於接收通過輸入單元輸入的發言者語音,並將接收的語音存儲至存儲單元中;該特徵獲取模組用於從發言語音中提取出語音特徵;該 語音識別模組判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型;當聲紋資料庫中有與發言者語音匹配的聲紋模型時,檔案生成模組根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,並獲取發言者的語音在存儲單元中的位址建立一個索引檔。
一種用於電子記錄裝置的電子記錄方法,該聲紋識別裝置包括一輸入單元和一存儲單元,該輸入單元用於輸入語音,該存儲單元中包括有聲紋資料庫,該聲紋資料庫包括用戶的聲紋模型以及與聲紋模型對應的用戶的個人資訊,該方法還包括接收通過輸入單元輸入的發言者語音,並將接收的語音存儲至存儲單元中;從發言者語音中提取出語音特徵;判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型,當聲紋資料庫中有與發言者語音匹配的聲紋模型時,根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,並獲取發言者的語音在存儲單元中的位址建立一個索引檔。
該聲音接收模組接收發言者語音,該特徵獲取模組從發言者語音中提取出語音特徵。該語音識別模組識別發言者語音對應的聲紋模型;該生成模組根據該聲紋模型獲取對應的個人資訊,並將個人資訊與對應發言語音進行合成建立索引檔。通過本發明的電子記錄裝置及方法,可以得知發言人的相關資訊及發言人所對應的講話內容,從而可在日後方便的查詢某個參會者的發言。
100‧‧‧電子記錄裝置
10‧‧‧輸入單元
20‧‧‧存儲單元
30‧‧‧處理單元
310‧‧‧聲音接收模組
320‧‧‧特徵獲取模組
330‧‧‧語音識別模組
340‧‧‧檔案生成模組
350‧‧‧聲紋模型建立模組
圖1係本發明一實施方式中電子記錄裝置之方框結構示意圖。
圖2係本發明一實施方式中的電子記錄方法之流程圖。
圖3係本發明一實施方式中的該聲紋資料庫之建立流程圖。
請參閱圖1,該電子記錄裝置100包括一輸入單元10,一存儲單元20及一處理單元30。
該輸入單元10用於輸入語音。在本實施方式中,該輸入裝置10為一麥克風。
該存儲單元20內存儲有一聲紋資料庫,該聲紋資料庫中存儲有用戶的聲紋模型以及該聲紋模型對應用戶的個人資訊,如姓名,照片,職稱等。
該處理單元30包括一聲音接收模組310、一特徵獲取模組320、一語音識別模組330、一檔案生成模組340和一聲紋模型建立模組350。
該聲音接收模組310用於通過輸入單元10接受發言者的語音,並將該發言者的語音存儲至存儲單元20中。
該特徵獲取模組320從發言者語音中提取發言者的語音特徵。在本實施方式中,該特徵獲取模組320通過梅爾倒頻譜係數進行發言者的語音特徵的提取。但本發明提取語音特徵並不限於上述方式,其他提取語音特徵也包括在本發明所揭露的範圍之內。
該語音識別模組330判斷該聲紋資料庫中是否有與該發言者的語音特徵相匹配的聲紋模型。若聲紋資料庫中有與該發言者的語音特徵相匹配的聲紋模型,該檔案生成模組340直接根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,記錄發言者的發言 時間,並獲取發言者的語音在存儲單元20中的位址,根據以上資訊建立一個索引檔並將索引檔存儲於存儲單元中。例如:若發言者的名字為張三,發言時間為9:00-9:10,在存儲單元20中的位址為D:會議資訊/2010年7月5日/人力招募,則生成的索引檔即可為:張三:發言時間:9:00-9:10,發言內容:D:會議資訊/2010年7月5日/人力招募。其他發言者的資訊可依發言的先後順序添加至該索引檔。
若該聲紋資料庫中不存在與該發言者的聲紋特徵相匹配的聲紋模型,則該聲紋模型建立模組350根據所提取的該發言者的語音特徵建立該發言者的聲紋模型,並將使用者輸入的該發言者的個人資訊與發言者的聲紋模型進行關聯。然後檔案生成模組340將該發言者的發言的索引資訊添加至索引檔。則以後可根據該索引檔方便查詢發言者的發言內容。在本實施方式中,該聲紋模型建立模組350根據高斯混合模型進行聲紋模型的建立。但本發明建立聲紋模型的方法並不限於上述方法,其他建立聲紋模型的方式也包括在本發明所揭露的範圍之內。
在該聲紋資料庫的建立過程中,該聲音接收模組310通過該輸入單元10接受用戶的登記語音,並將該用戶的登記語音存儲至存儲單元20中。該特徵獲取模組320從用戶的登記語音中提取用戶的語音特徵。
該聲紋模型建立模組350根據所提取的用戶的語音特徵建立該用戶的聲紋模型,獲取使用者輸入的對應用戶的個人資訊,並將該用戶的聲紋模型及個人資訊進行關聯後存儲至該聲紋資料庫中。
請參閱圖2,為本發明一實施方式中通過電子記錄裝置會議記錄方法的流程圖。步驟S201中,聲音接收模組310接收發言者語音,並將該發言者的語音存儲至存儲單元20中。步驟S202中,特徵獲取模組320從發言者語音中提取語音特徵。步驟S203中,語音識別模組330判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型,當該聲紋資料庫中不存在與該發言者的聲紋特徵相匹配的聲紋模型時,執行步驟S204。當聲紋資料庫中存儲有與發言者語音對應的聲紋模型時,直接執行步驟S205。步驟S204中,聲紋模型建立模組350根據所提取的該發言者的語音特徵建立該發言者的聲紋模型,並將使用者輸入的該發言者的個人資訊與發言者的聲紋模型進行關聯。步驟S205中,檔案生成模組340根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,記錄發言者的發言時間,並獲取發言者的語音在存儲單元20中的位址,根據以上資訊建立一個索引檔並將索引檔存儲於存儲單元20中。
如圖3所示,為該聲紋資料庫的建立流程圖。步驟S301中,聲音接收模組310接收用戶的登記語音,並將該用戶的登記語音存儲至存儲單元20中。步驟S302中,特徵獲取模組320從登記語音中提取出用戶的語音特徵。步驟S303中,聲紋模型建立模組350根據所提取的用戶的語音特徵建立該用戶的聲紋模型,獲取使用者輸入的對應用戶的個人資訊,並將該用戶的聲紋模型及個人資訊進行關聯後存儲至該聲紋資料庫中。
100‧‧‧電子記錄裝置
10‧‧‧輸入單元
20‧‧‧存儲單元
30‧‧‧處理單元
310‧‧‧聲音接收模組
320‧‧‧特徵獲取模組
330‧‧‧語音識別模組
340‧‧‧檔案生成模組
350‧‧‧聲紋模型建立模組

Claims (10)

  1. 一種電子記錄裝置,包括一輸入單元,一存儲單元以及一處理單元,該輸入單元用於輸入語音,其改良在於:該存儲單元中存儲有聲紋資料庫,該聲紋資料庫存儲用戶的聲紋模型和與用戶的聲紋模型相對應的個人資訊,該處理單元包括一聲音接收模組,一特徵獲取模組,一語音識別模組以及一檔案生成模組;該聲音接收模組用於接收通過該輸入單元輸入的發言者語音,並將接收的語音存儲至該存儲單元中;該特徵獲取模組用於從發言語音中提取出語音特徵;該語音識別模組用於判斷該聲紋資料庫中是否有與發言者語音匹配的聲紋模型;該檔案生成模組用於當該聲紋資料庫中有與發言者語音匹配的聲紋模型時,根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,記錄發言者的發言時間,並獲取發言者的語音在存儲單元中的位址,根據發言者的個人資訊、發言時間及發言者的語音在存儲單元中的位址建立一個索引檔並將索引檔存儲於存儲單元中。
  2. 如申請專利範圍第1項所述之電子記錄裝置,其中,該特徵獲取模組通過梅爾倒頻譜係數進行發言者的語音特徵的提取。
  3. 如申請專利範圍第1項所述之電子記錄裝置,其中,該處理單元還包括一聲紋模型建立模組,若該聲紋資料庫中不存在與該發言 者的聲紋特徵相匹配的聲紋模型,則該聲紋模型建立模組根據所提取的該發言者的語音特徵建立該發言者的聲紋模型,並將該發言者的個人資訊與發言者的聲紋模型進行關聯,該檔案生成模組根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,並獲取發言者的語音在該存儲單元中的位址建立一個索引檔。
  4. 如申請專利範圍第3項所述之電子記錄裝置,其中,該聲紋模型建立模組通過高斯混合模型進行聲紋模型的建立。
  5. 如申請專利範圍第1項所述之電子記錄裝置,其中,該聲紋資料庫的建立過程如下:聲音接收模組接收用戶的登記語音,並將該用戶的登記語音存儲至該存儲單元中;特徵獲取模組從登記語音中提取出用戶的語音特徵;聲紋模型建立模組根據所提取的用戶的語音特徵建立該用戶的聲紋模型,獲取對應的用戶的個人資訊,並將用戶的聲紋模型及個人資訊進行關聯後並存儲至該聲紋資料庫中。
  6. 一種用於電子記錄裝置的電子記錄方法,該電子記錄裝置包括一輸入單元和一存儲單元,該輸入單元用於輸入語音,該存儲單元中存儲有聲紋資料庫,該聲紋資料庫存儲用戶的聲紋模型以及與聲紋模型對應的用戶的個人資訊,其改良在於,該方法包括:接收通過該輸入單元輸入的發言者語音,將接收的語音存儲至該存儲單元中;從發言者語音中提取出語音特徵;判斷聲紋資料庫中是否有與發言者語音匹配的聲紋模型;當聲紋資料庫中有與發言者語音匹配的聲紋模型時,根據該聲紋模型獲取該聲紋模型對應的發言者的個人資訊,記錄發言者的發 言時間,並獲取發言者的語音在存儲單元中的位址,根據發言者的個人資訊、發言時間及發言者的語音在存儲單元中的位址建立一個索引檔並將索引檔存儲於存儲單元中。
  7. 如申請專利範圍第6項所述之電子記錄方法,其中,該發言者語音特徵的提取是通過梅爾倒頻譜係數進行提取。
  8. 如申請專利範圍第6項所述之電子記錄方法,其中,該方法還包括:當該聲紋資料庫中不存在與該發言者的聲紋特徵相匹配的聲紋模型時,根據所提取的該發言者的語音特徵建立該發言者的聲紋模型,並將該發言者的個人資訊與發言者的聲紋模型進行關聯。
  9. 如申請專利範圍第8項所述之電子記錄方法,其中,該聲紋模型的建立是通過高斯混合模型進行建立。
  10. 如申請專利範圍第6項所述之電子記錄方法,其中,該聲紋資料庫的建立步驟包括:接收用戶的登記語音,並將該用戶的登記語音存儲至該存儲單元中;從用戶的登記語音中提取出用戶的語音特徵;根據所提取的用戶的語音特徵建立該用戶的聲紋模型,獲取對應的用戶的個人資訊,並將用戶的聲紋模型及個人資訊進行關聯後並存儲至該聲紋資料庫中。
TW099125821A 2010-08-04 2010-08-04 電子記錄裝置及方法 TWI413106B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW099125821A TWI413106B (zh) 2010-08-04 2010-08-04 電子記錄裝置及方法
US12/961,424 US20120035919A1 (en) 2010-08-04 2010-12-06 Voice recording device and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099125821A TWI413106B (zh) 2010-08-04 2010-08-04 電子記錄裝置及方法

Publications (2)

Publication Number Publication Date
TW201207838A TW201207838A (en) 2012-02-16
TWI413106B true TWI413106B (zh) 2013-10-21

Family

ID=45556775

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099125821A TWI413106B (zh) 2010-08-04 2010-08-04 電子記錄裝置及方法

Country Status (2)

Country Link
US (1) US20120035919A1 (zh)
TW (1) TWI413106B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103247289A (zh) * 2012-02-01 2013-08-14 鸿富锦精密工业(深圳)有限公司 记录系统及方法、声音输入装置和语音记录装置及方法
TWI506617B (zh) * 2013-09-27 2015-11-01 John C Wang 語音管理裝置,及其操作方法
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
TWI619115B (zh) * 2014-12-30 2018-03-21 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
CN107610699A (zh) * 2017-09-06 2018-01-19 深圳金康特智能科技有限公司 一种具有会议记录功能的智能穿戴装置
CN109343761B (zh) * 2018-11-29 2021-02-19 广州视源电子科技股份有限公司 基于智能交互设备的数据处理方法及相关设备
CN109726332A (zh) * 2019-01-11 2019-05-07 何梓菁 一种基于自学习的个性化音乐推送方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200409082A (en) * 2002-11-22 2004-06-01 Inventec Multimedia & Telecom Communication equipment for automatically displaying current speaker's information and method thereof
TW200840312A (en) * 2007-03-29 2008-10-01 Jung-Tang Huang A personal reminding apparatus and method thereof
CN201242747Y (zh) * 2008-05-21 2009-05-20 北京帮助在线信息技术有限公司 一种可由人工或系统自动进行会议记录的设备
TW200923911A (en) * 2007-11-20 2009-06-01 Inst Information Industry Apparatus, server, method, and computer readable medium thereof for processing and recognizing a voice signal

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6349281B1 (en) * 1997-01-30 2002-02-19 Seiko Epson Corporation Voice model learning data creation method and its apparatus
US7689416B1 (en) * 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US7185197B2 (en) * 2000-12-08 2007-02-27 Itt Manufacturing Enterprises, Inc. Method and apparatus to facilitate secure network communications with a voice responsive network interface device
US7064652B2 (en) * 2002-09-09 2006-06-20 Matsushita Electric Industrial Co., Ltd. Multimodal concierge for secure and convenient access to a home or building
CN101448186B (zh) * 2007-11-26 2012-07-18 鸿富锦精密工业(深圳)有限公司 扬声器音效自动调整系统及方法
US8077836B2 (en) * 2008-07-30 2011-12-13 At&T Intellectual Property, I, L.P. Transparent voice registration and verification method and system
WO2011007497A1 (ja) * 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200409082A (en) * 2002-11-22 2004-06-01 Inventec Multimedia & Telecom Communication equipment for automatically displaying current speaker's information and method thereof
TW200840312A (en) * 2007-03-29 2008-10-01 Jung-Tang Huang A personal reminding apparatus and method thereof
TW200923911A (en) * 2007-11-20 2009-06-01 Inst Information Industry Apparatus, server, method, and computer readable medium thereof for processing and recognizing a voice signal
CN201242747Y (zh) * 2008-05-21 2009-05-20 北京帮助在线信息技术有限公司 一种可由人工或系统自动进行会议记录的设备

Also Published As

Publication number Publication date
US20120035919A1 (en) 2012-02-09
TW201207838A (en) 2012-02-16

Similar Documents

Publication Publication Date Title
TWI413106B (zh) 電子記錄裝置及方法
JP7536789B2 (ja) 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力
US10930300B2 (en) Automated transcript generation from multi-channel audio
WO2020006935A1 (zh) 动物声纹特征提取方法、装置及计算机可读存储介质
JP4085924B2 (ja) 音声処理装置
CN105488227B (zh) 一种电子设备及其基于声纹特征处理音频文件的方法
TW201327546A (zh) 語音處理系統及語音處理方法
US8589167B2 (en) Speaker liveness detection
CN102347060A (zh) 电子记录装置及方法
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
CN108630202A (zh) 语音识别装置、语音识别方法以及语音识别程序
JPWO2020222925A5 (zh)
JP2010102254A (ja) 話者テンプレートを更新する装置及び方法
JP2017021125A5 (ja) 音声対話装置および音声対話方法
WO2016197708A1 (zh) 一种录音方法及终端
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
TW201513095A (zh) 語音處理系統、裝置及方法
Cardoso et al. Forensic voice comparison using long-term acoustic measures of voice quality
JP2015191076A (ja) 音声識別装置
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム
US8615153B2 (en) Multi-media data editing system, method and electronic device using same
KR101181060B1 (ko) 음성 인식 시스템 및 이를 이용한 화자 인증 방법
CN102831890A (zh) 一种对文本无关的声纹进行识别的方法
CN113921026A (zh) 语音增强方法和装置

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees