WO2019148584A1 - 一种会议的语音摘要形成方法及系统 - Google Patents

一种会议的语音摘要形成方法及系统 Download PDF

Info

Publication number
WO2019148584A1
WO2019148584A1 PCT/CN2018/078528 CN2018078528W WO2019148584A1 WO 2019148584 A1 WO2019148584 A1 WO 2019148584A1 CN 2018078528 W CN2018078528 W CN 2018078528W WO 2019148584 A1 WO2019148584 A1 WO 2019148584A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
speaking
conference
key
voice
Prior art date
Application number
PCT/CN2018/078528
Other languages
English (en)
French (fr)
Inventor
李明
刘胜强
Original Assignee
深圳市鹰硕技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市鹰硕技术有限公司 filed Critical 深圳市鹰硕技术有限公司
Publication of WO2019148584A1 publication Critical patent/WO2019148584A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to a method and system for forming a voice summary of a conference, and more particularly to a method and system for automatically synthesizing a conference summary in a voice form in a key speech content of different speakers.
  • video or audio data of the conference site can usually be recorded by using a camera or a recording pen, and the video data or audio data can be saved into a multimedia file and saved by playback.
  • the files can be viewed or listened to at any time, or manually converted into recorded texts afterwards to meet the needs of memo, training and so on.
  • the conference site usually arranges a dedicated recorder or participant to record by hand or by hand, recording the content of the conference.
  • the video or audio data is usually large, and it takes a lot of hardware storage space when saving.
  • the automatic summary extraction technology can process the input text, voice, video and other information, obtain the summary content in the input data, and present the processed summary result to the user for browsing.
  • the automatic summary extraction technology not only saves users time to access information, but also improves user productivity. There are a number of ways in the prior art to automatically generate a summary or summary of a meeting.
  • Patent Document 1 (CN107409061 A) provides a method and system for speech summarization, which determines which participant is speaking based on comparing the image of the participant with the template image of the speaker and the non-speaker face.
  • the computer determines the voiceprint of the speaking participant by applying a hidden Markov model to the summary record of the participant's sound waveform and associating the determined voiceprint with the face of the speaking participant.
  • the computer recognizes and transcribes the content of the speaker's statements, identifies key points, and displays them on the participant's face in the video conference.
  • Patent Document 2 (CN102572356A) provides a method of recording a conference, setting a configuration file, defining key information of the conference (for example, raising a question question scenario), and formatting the conference summary, at the time of the conference

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种会议的语音摘要形成方法及系统,涉及语音识别领域。本发明通过分析发言人在会议中的发言位置、身份信息、个人资料等信息,确定发言人的权重系数,从而根据权重系数来用不同的预设策略获取不同发言人对应的候选关键发言片段,进一步根据发言内容本身的特点,例如发言的重要内容出现在发言时间轴上的概率较大的位置,或者发言的重要内容所跟的关键转折词、连接词,来截取候选关键发言片段集合,再对截取的候选关键发言片段集合进行处理以获取形成语音摘要的音频/视频片段集合,能够针对重要发言提取更多的内容,针对不重要的发言提取相对较少的内容,使最终形成的摘要内容更加合理,为用户提供更有效的帮助。

Description

一种会议的语音摘要形成方法及系统 技术领域
本发明涉及一种会议的语音摘要形成方法及系统,尤其涉及一种识别不同发言者的关键发言内容自动合成语音形式的会议摘要的方法及系统。
背景技术
现如今,每天召开的各类会议数不胜数,为了记录会议内容,通常可以使用摄像机或者录音笔等采集工具记录下会议现场的视频或者音频数据,将视频数据或音频数据保存成多媒体文件,通过回放保存的文件,可以随时观看或收听到会议内容,或者事后人工将其转化为记录文本,满足备忘、培训等需求。此外,会议现场通常会安排专门的记录员或者参会者自己通过笔记本电脑或者手写等方式进行记录,记录下召开的会议内容。但是,视频或者音频数据通常较大,保存时要占用大量硬件存储空间,且会议时间较长时回放过程中不容易定位到所需的内容,用户寻找到感兴趣的对象内容需要花费很多时间,用户体验很差。采用人工的方式记录会议内容虽然有助于记录关键内容且查找方便,但对记录人的要求较高,不经过专门训练的人员通常很难跟上会议讲话的进度,容易发生疏漏。
自动摘要提取技术可对输入的文本、语音、视频等信息进行处理,获得输入数据中的摘要内容,将处理后的摘要结果呈现给用户浏览。自动摘要提取技术不仅节约了用户访问信息的时间,而且提高了用户的工作效率。现有技术中存在多种自动生成会议摘要或总结的方式。
专利文献1(CN107409061A)提供了一种语音总结的方法、系统,计算机基于比较参与者的图像与讲话者和非讲话者面部的模板图像判断哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用到参与者声音波形的简要记录确定讲话参与者的声纹,并将确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做陈述的内容,确定关键点,并在视频会议中参与者的面部上方显示它们。
专利文献2(CN102572356A)提供了一种记录会议的方法,设置配置文件,定义会议的关键信息(例如举手问问题场景)以及会议摘要的格式,在会议时

Claims (1)

  1. Figure PCTCN2018078528-appb-100001
PCT/CN2018/078528 2018-02-02 2018-03-09 一种会议的语音摘要形成方法及系统 WO2019148584A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810105172.3 2018-02-02
CN201810105172.3A CN108305632B (zh) 2018-02-02 2018-02-02 一种会议的语音摘要形成方法及系统

Publications (1)

Publication Number Publication Date
WO2019148584A1 true WO2019148584A1 (zh) 2019-08-08

Family

ID=62864260

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/078528 WO2019148584A1 (zh) 2018-02-02 2018-03-09 一种会议的语音摘要形成方法及系统

Country Status (2)

Country Link
CN (1) CN108305632B (zh)
WO (1) WO2019148584A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230421525A1 (en) * 2022-06-22 2023-12-28 Whatsapp Llc Facilitating pausing while recording audio and/or visual messages in social media messaging applications

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036381A (zh) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN109065023A (zh) * 2018-08-23 2018-12-21 广州势必可赢网络科技有限公司 一种语音鉴定方法、装置、设备及计算机可读存储介质
CN111081257A (zh) * 2018-10-19 2020-04-28 珠海格力电器股份有限公司 一种语音采集方法、装置、设备及存储介质
CN109451158B (zh) * 2018-11-09 2021-07-27 维沃移动通信有限公司 一种提醒方法和装置
CN109348035A (zh) * 2018-11-23 2019-02-15 东莞市步步高通信软件有限公司 一种电话号码的识别方法和终端设备
CN109670035B (zh) * 2018-12-03 2021-03-23 科大讯飞股份有限公司 一种文本摘要生成方法
CN109740015A (zh) * 2019-01-09 2019-05-10 安徽睿极智能科技有限公司 基于音频浓缩摘要的海量音频检索方法
CN110139062B (zh) * 2019-05-09 2022-10-18 平安科技(深圳)有限公司 一种视频会议记录的创建方法、装置及终端设备
CN110322869B (zh) * 2019-05-21 2023-06-16 平安科技(深圳)有限公司 会议分角色语音合成方法、装置、计算机设备和存储介质
CN110211590B (zh) * 2019-06-24 2021-12-03 新华智云科技有限公司 一种会议热点的处理方法、装置、终端设备及存储介质
CN112153321B (zh) * 2019-06-28 2022-04-05 华为技术有限公司 一种会议录制方法、装置及会议录制系统
CN110493019B (zh) * 2019-07-05 2022-11-04 深圳壹账通智能科技有限公司 会议纪要的自动生成方法、装置、设备及存储介质
CN110493553B (zh) * 2019-07-08 2021-09-28 视联动力信息技术股份有限公司 文件存储方法、装置及存储介质
CN112312039A (zh) * 2019-07-15 2021-02-02 北京小米移动软件有限公司 音视频信息获取方法、装置、设备及存储介质
CN110837557B (zh) * 2019-11-05 2023-02-17 北京声智科技有限公司 摘要生成方法、装置、设备及介质
CN111031333B (zh) * 2019-12-02 2022-04-22 北京达佳互联信息技术有限公司 视频处理方法、装置、系统及存储介质
CN114503117A (zh) * 2019-12-30 2022-05-13 深圳市欢太科技有限公司 语音信息处理方法、中枢设备、控制终端及存储介质
CN111223487B (zh) * 2019-12-31 2023-06-23 联想(北京)有限公司 一种信息处理方法及电子设备
CN111491123A (zh) * 2020-04-17 2020-08-04 维沃移动通信有限公司 视频背景处理方法、装置及电子设备
CN111225237B (zh) 2020-04-23 2020-08-21 腾讯科技(深圳)有限公司 一种视频的音画匹配方法、相关装置以及存储介质
CN111563182A (zh) * 2020-04-28 2020-08-21 深圳震有科技股份有限公司 语音会议记录存储处理方法、装置
CN111708912A (zh) * 2020-05-06 2020-09-25 深圳震有科技股份有限公司 视频会议记录查询处理方法、装置
CN111739536A (zh) * 2020-05-09 2020-10-02 北京捷通华声科技股份有限公司 一种音频处理的方法和装置
CN112417134B (zh) * 2020-10-30 2022-05-13 同济大学 基于语音文本深度融合特征的摘要自动生成系统及方法
CN112836016B (zh) * 2021-02-05 2022-02-22 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN112908339B (zh) * 2021-03-18 2022-11-04 龙马智芯(珠海横琴)科技有限公司 一种会议环节定位方法、装置、定位设备及可读存储介质
CN113573029B (zh) * 2021-09-26 2022-01-04 广州科天视畅信息科技有限公司 一种基于iot的多方音视频交互方法及系统
CN114003695A (zh) * 2021-11-03 2022-02-01 中国银行股份有限公司 一种银行交流智能辅助方法、装置及设备
CN114900504B (zh) * 2022-06-13 2023-08-18 重庆回形针信息技术有限公司 基于议题的问题解决追踪系统、方法及存储介质
CN115050393B (zh) * 2022-06-23 2024-07-12 安徽听见科技有限公司 获取回听音频的方法、装置、设备及存储介质
CN115988164A (zh) * 2022-12-03 2023-04-18 北京视通科技有限公司 一种会议室多媒体控制方法、系统及计算机设备
CN115828907B (zh) * 2023-02-16 2023-04-25 南昌航天广信科技有限责任公司 智能会议管理方法、系统、可读存储介质及计算机设备
CN116781856A (zh) * 2023-07-12 2023-09-19 深圳市艾姆诗电商股份有限公司 基于深度学习的视听转换控制方法、系统及存储介质
CN118394928A (zh) * 2024-05-25 2024-07-26 广州兆熠数字科技有限公司 一种基于自然语言处理的会议摘要生成系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US20060074895A1 (en) * 2004-09-29 2006-04-06 International Business Machines Corporation Method and system for extracting and utilizing metadata to improve accuracy in speech to text conversions
CN102572356A (zh) * 2012-01-16 2012-07-11 华为技术有限公司 记录会议的方法和会议系统
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103152633A (zh) * 2013-03-25 2013-06-12 天脉聚源(北京)传媒科技有限公司 一种关键词的识别方法及装置
CN103186557A (zh) * 2011-12-28 2013-07-03 宇龙计算机通信科技(深圳)有限公司 一种录音或者录像文件自动命名的方法和装置
CN106294764A (zh) * 2016-08-11 2017-01-04 乐视控股(北京)有限公司 一种视频台词检索方法和装置
CN106547889A (zh) * 2016-10-27 2017-03-29 广东小天才科技有限公司 一种题目推送方法及装置
CN106982344A (zh) * 2016-01-15 2017-07-25 阿里巴巴集团控股有限公司 视频信息处理方法及装置
CN107562723A (zh) * 2017-08-24 2018-01-09 网易乐得科技有限公司 会议处理方法、介质、装置和计算设备
CN107609045A (zh) * 2017-08-17 2018-01-19 深圳壹秘科技有限公司 一种会议记录生成装置及其方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US20060074895A1 (en) * 2004-09-29 2006-04-06 International Business Machines Corporation Method and system for extracting and utilizing metadata to improve accuracy in speech to text conversions
CN103186557A (zh) * 2011-12-28 2013-07-03 宇龙计算机通信科技(深圳)有限公司 一种录音或者录像文件自动命名的方法和装置
CN102572356A (zh) * 2012-01-16 2012-07-11 华为技术有限公司 记录会议的方法和会议系统
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103152633A (zh) * 2013-03-25 2013-06-12 天脉聚源(北京)传媒科技有限公司 一种关键词的识别方法及装置
CN106982344A (zh) * 2016-01-15 2017-07-25 阿里巴巴集团控股有限公司 视频信息处理方法及装置
CN106294764A (zh) * 2016-08-11 2017-01-04 乐视控股(北京)有限公司 一种视频台词检索方法和装置
CN106547889A (zh) * 2016-10-27 2017-03-29 广东小天才科技有限公司 一种题目推送方法及装置
CN107609045A (zh) * 2017-08-17 2018-01-19 深圳壹秘科技有限公司 一种会议记录生成装置及其方法
CN107562723A (zh) * 2017-08-24 2018-01-09 网易乐得科技有限公司 会议处理方法、介质、装置和计算设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230421525A1 (en) * 2022-06-22 2023-12-28 Whatsapp Llc Facilitating pausing while recording audio and/or visual messages in social media messaging applications

Also Published As

Publication number Publication date
CN108305632A (zh) 2018-07-20
CN108305632B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
WO2019148584A1 (zh) 一种会议的语音摘要形成方法及系统
US12020708B2 (en) Method and system for conversation transcription with metadata
US20220059096A1 (en) Systems and Methods for Improved Digital Transcript Creation Using Automated Speech Recognition
US11417343B2 (en) Automatic speaker identification in calls using multiple speaker-identification parameters
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US9672829B2 (en) Extracting and displaying key points of a video conference
US20190259388A1 (en) Speech-to-text generation using video-speech matching from a primary speaker
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US8315866B2 (en) Generating representations of group interactions
US20160283185A1 (en) Semi-supervised speaker diarization
WO2019148586A1 (zh) 多人发言中发言人识别方法以及装置
TW202041037A (zh) 影片編輯方法及裝置
CN107211061A (zh) 用于空间会议回放的优化虚拟场景布局
TW201327546A (zh) 語音處理系統及語音處理方法
CN107210034A (zh) 选择性会议摘要
Moore Automated transcription and conversation analysis
WO2016119370A1 (zh) 一种实现录音的方法、装置和移动终端
CN107210036A (zh) 会议词语云
CN107025913A (zh) 一种录音方法及终端
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
Gref et al. Improved transcription and indexing of oral history interviews for digital humanities research
CN111223487B (zh) 一种信息处理方法及电子设备
Duffner et al. The TA2 database-a multi-modal database from home entertainment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18904073

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18904073

Country of ref document: EP

Kind code of ref document: A1