WO2014173370A1 - 会议纪要的提取方法及装置 - Google Patents

会议纪要的提取方法及装置 Download PDF

Info

Publication number
WO2014173370A1
WO2014173370A1 PCT/CN2014/079792 CN2014079792W WO2014173370A1 WO 2014173370 A1 WO2014173370 A1 WO 2014173370A1 CN 2014079792 W CN2014079792 W CN 2014079792W WO 2014173370 A1 WO2014173370 A1 WO 2014173370A1
Authority
WO
WIPO (PCT)
Prior art keywords
conference
meeting minutes
speaker
cloud server
audio signal
Prior art date
Application number
PCT/CN2014/079792
Other languages
English (en)
French (fr)
Inventor
王建欢
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2014173370A1 publication Critical patent/WO2014173370A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Definitions

  • the present invention relates to the field of computer technology, and in particular, to a method and apparatus for extracting meeting minutes. Background technique
  • the conference television has been widely used in a plurality of scenes in life and work, and the simultaneous video session can be conveniently performed in a plurality of different scenes through the conference television, which greatly improves the work efficiency.
  • drawbacks in the traditional conference TV including: 1.
  • the functions of meeting minutes and recordings are not supported. They can only be recorded by manual recording or recording function, which often fails to maximize the conference process or conference content. Recording; 2, video conferences often appear in multiple parties, so it is easy to miss many important information in multi-person discussions; 3, video conferencing is often carried out by multiple people in different places, such meetings The sharing of minutes will be very inconvenient.
  • An embodiment of the present invention provides a method for extracting a meeting minutes, including: acquiring an audio signal collected from a video conference signal, and converting the audio signal into text; and identifying the identity of each speaker by using a voiceprint recognition technology from the audio signal, The speaker is associated with the corresponding content in the text to form a meeting minutes.
  • the minutes of the meeting are minutes of the meeting in the form of dialogue.
  • the foregoing method specifically includes: the cloud server acquires an audio signal collected from the video conference signal, and converts the audio signal into text; the cloud server identifies the identity of each speaker by using voiceprint recognition technology from the audio signal, and will speak The person is associated with the corresponding content in the text to form a meeting minutes.
  • the above method further comprises: the cloud server performing multilingual translation on the meeting minutes.
  • the above method further comprises: the cloud server sharing the meeting minutes in real time.
  • the embodiment of the present invention further provides a device for extracting meeting minutes, comprising: a conference television terminal, configured to collect audio signals from a video conference signal; and a cloud server, configured to acquire an audio signal collected by the conference television terminal, and convert the audio signal into For text, the identity of each speaker is identified from the audio signal by voiceprint recognition technology, and the speaker is associated with the corresponding content in the text to form a meeting minutes.
  • the meeting minutes mentioned above are meeting minutes in the form of dialogue.
  • the cloud server further includes: a translation module, configured to perform multilingual translation on the meeting minutes.
  • a translation module configured to perform multilingual translation on the meeting minutes.
  • the cloud server further includes: a sharing module, configured to share the meeting minutes in real time.
  • a sharing module configured to share the meeting minutes in real time.
  • FIG. 1 is a flowchart of a method for extracting meeting minutes according to an embodiment of the present invention
  • FIG. 3 is a flowchart of a cloud server service process according to an embodiment of the present invention.
  • FIG. 4 is a flowchart of processing a cloud client of a conference television terminal according to an embodiment of the present invention
  • FIG. 5 is a flowchart of obtaining a speaker identity ID according to an embodiment of the present invention
  • FIG. 6 is a schematic structural diagram of an apparatus for extracting meeting minutes according to an embodiment of the present invention. detailed description
  • the embodiment of the present invention provides a method for extracting conference minutes.
  • the device proposes relevant methods for the extraction of meeting minutes, including:
  • the voiceprint recognition technology is used to distinguish the identity of the speaker from the acquired voice signal, and the speaker can be associated with the corresponding text to form a dialogue text.
  • a solution is implemented using cloud services, and the main implementation functions of extracting conference minutes in conference TV will be performed in the cloud server. That is to say, the main functions completed in the cloud server are: the basic method of automatic meeting minutes extraction mentioned in the previous point, multi-language translation of meeting minutes, and real-time sharing of meeting minutes.
  • the use of the cloud service separates the conference minutes extracted from the conference television terminal, so that the conference television terminal can only do business with the video conference communication, which greatly reduces the pressure on the terminal and improves the performance.
  • FIG. 1 is a flowchart of a method for extracting meeting minutes according to an embodiment of the present invention, which includes the following processing:
  • Step 101 Acquire an audio signal from a video conference signal; convert the audio signal into text;
  • Step 102 Identify the identity of each speaker from the audio signal, and associate the speaker with the corresponding content in the text to form a meeting minutes.
  • the minutes of the meeting are minutes of the meeting in the form of dialogue.
  • the identification of the identity of each speaker may first identify the identity of each speaker by voiceprint recognition technology, and then identify the identity of each speaker by voiceprint recognition technology.
  • the following processing is also required: establishing a cloud server for implementing conference minutes extraction and storage, and setting the conference television terminal A cloud client connected to the cloud server; a cloud client is used to form a meeting minutes through the cloud client. That is, the cloud server acquires the audio signal collected from the video conference signal and converts the audio signal into text; the cloud server identifies the identity of each speaker through the voiceprint recognition technology from the audio signal, and the speaker and the text The corresponding content is linked to form a meeting minutes.
  • the following specifically includes:
  • the first step is to establish a cloud server for implementing the meeting minutes to extract and store the main functions.
  • the second step is to establish a cloud client that is convenient for users to use and operate the meeting minutes.
  • the application will be installed in the conference TV terminal, and the participants directly The client can perform acquisition, storage, conversion, and the like of the meeting minutes.
  • the cloud client can use the cloud server to perform multi-lingual translation of the meeting minutes and share the meeting minutes in real time.
  • FIG. 2 is a basic flowchart of the conference minutes extraction according to the embodiment of the present invention. As shown in FIG. 2, the following includes the following processing:
  • step 201 the voice of the speaker is collected by the conference television terminal through the microphone.
  • the cloud server automatically acquires the audio data related to the terminal through the parameters set by the client on the terminal.
  • Step 203 The cloud server converts the audio data into text, and associates the identity ID of the sender obtained in step 202 with the corresponding content in the text.
  • FIG. 3 is a flowchart of a cloud server service process according to an embodiment of the present invention. As shown in FIG. 3, the following processes are included:
  • Step 301 The cloud server receives a request initiated by a cloud client on the terminal.
  • Step 302 The cloud server performs different services according to different requests, including voice data processing and text file processing.
  • Step 303 When the client request is voice data processing, the cloud server starts the voice processing identification module.
  • Step 304 The cloud server determines, according to parameters requested by the client, whether to save the acquired voice data.
  • Step 305 If the voice data needs to be saved, write the voice data to the file; Step 306, the cloud server converts the obtained voice data into text storage, and at the same time, obtains the speaker corresponding to the voice through voiceprint recognition;
  • Step 307 In the cloud server, the voice file is first converted into the text of the corresponding language. If the participant speaks in Chinese, the voice file is first converted into Chinese, and then the language type is converted according to the user's request; When the conference is registered, the session name of the corresponding language type can be obtained by setting the response parameter, and the step is to obtain the parameter value; Step 308, if the conference registration is not set the language type parameter, the default value is adopted, and the default language type is Chinese, that is, if the parameter is not set when the conference is registered, the final conference minutes will be Chinese files;
  • Step 309 if the language type parameter is set, the conference minutes are finally converted into the required language type for saving;
  • Step 310 Save the converted conference minutes to the cloud server.
  • Step 311 If the request received by the cloud server is text processing, the user enters a text processing process, in which the user can query and manage the meeting minutes;
  • Step 312 first, the user can convert the meeting minutes into the language type that they need; Step 313, the user operation may be to download related meeting minutes or perform other operations on the meeting minutes;
  • Step 314 the non-download user can perform other operations
  • Step 315 the user who needs to download the meeting minutes enters the download interface
  • Step 316 download the required meeting minutes.
  • FIG. 4 is a flowchart of processing a cloud client of a conference television terminal according to an embodiment of the present invention. As shown in FIG. 4, the following specifically includes the following processing:
  • Step 401 The conference television terminal user starts the cloud client to log in;
  • Step 402 Verify whether the logged-in user is a valid user. If it is a valid user, the login cloud client is allowed to register for the conference process or manage the conference content, and the invalid user refuses to log in to the management interface.
  • Step 403 The user may choose to participate in the conference or the conference content management service;
  • Step 404 if the user selects to participate in the conference, the user may be the creator of the conference, or just the participant;
  • Step 405 if it is the creator of the conference, it is necessary to register the conference, and set some parameters corresponding to the conference mode, such as which conference sites, conference languages, and the like;
  • Step 406 After the conference mode parameter is set, request the cloud server to start the conference mode. Step 407, whether the conference creator or the conference participant needs to collect the sound sample before the conference starts, so as to obtain the speech during the conference.
  • Step 408 If the user is not attending the conference, the conference content may also be managed, for example, the generation, query, translation, download, and the like of the conference content;
  • Step 409 the operation performed by the user on the content of the conference is restricted by the authority, and the user can only perform the operation authorized by the user;
  • Step 410 Perform various conference content operations that can be performed.
  • FIG. 5 is a flowchart of obtaining a speaker identity ID according to an embodiment of the present invention, as shown in FIG. 5,
  • the body includes the following processing:
  • Step 501 After the client user registers the conference, the conference mode is started, and the conference is started.
  • the speaker starts to speak, and the conference television terminal can collect voice through the microphone.
  • the cloud server automatically obtains the voice collected by the conference television terminal. Data; step 504, the cloud server automatically analyzes the obtained voice data;
  • Step 505 The cloud server obtains information such as the site where the speaker is located, the speaking time, and the like by analyzing the obtained voice information and related parameters.
  • Step 506 Acquire the identity of the speaker by voiceprint recognition in the voice recognition module.
  • Step 507 after the conference is registered, before the conference starts, it is necessary to collect the voice sample of the participant and the venue and other information for identity registration, so In order to obtain the identity of the speaker in the meeting, the system will check if there is a sample of the sound;
  • Step 508 Match the acquired sound with the saved sound sample, and if yes, directly obtain the identity ID of the speaker;
  • Step 509 if there is no matching sound sample, which means that the identity is not registered, the sound sample is saved, and a new speaker identity is generated according to the information such as the site and the speaking time, and saved; Step 510, and the text converted from the voice Identity association;
  • Step 511 save the text associated with the speaker identity, and generate a complete meeting minutes.
  • the technical solution of the embodiment of the present invention not only the speaker in the conference and the content of the speaker in the conference can be clearly displayed to the user in the meeting minutes, and the use of the cloud service is originally completed by the conference television terminal.
  • the conference record extraction work is separated, so that the conference TV terminal can only do business with the video conference communication, which greatly reduces the pressure on the terminal and improves the performance.
  • FIG. 6 is a schematic structural diagram of an apparatus for extracting meeting minutes according to an embodiment of the present invention.
  • the apparatus for extracting meeting minutes of the embodiment includes: a conference television terminal 60, and a cloud server 62.
  • a conference television terminal 60 includes: a conference television terminal 60, and a cloud server 62.
  • a conference television terminal 60 configured to collect an audio signal from the video conference signal
  • the cloud server 62 is configured to acquire an audio signal, convert the audio signal into text, identify the identity of each speaker by voiceprint recognition technology from the audio signal, and associate the speaker with the corresponding content in the text to form a meeting minutes.
  • the cloud server 62 identifies the identity of each speaker by voiceprint recognition technology from the voice signal
  • the identity of the speaker can be stored in the speaker directory for later use using a unique identifier.
  • the minutes of the meeting are minutes of the meeting in the form of dialogue.
  • the cloud server 62 is used to map the saved text to the speaker identity, to obtain a corresponding relationship, and to associate the two.
  • the conference television terminal 60 may be provided with a cloud client for interacting with the cloud server, controlling the operation of the device in the cloud server, and forming a meeting minutes by using the cloud server.
  • the cloud server 62 is further configured to: perform multi-lingual translation of the meeting minutes by using a cloud server under the control of the cloud client.
  • the cloud server is used to share the meeting minutes in real time under the control of the cloud client.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种会议纪要的提取方法及装置。该方法包括:获取从视频会议信号中采集的音频信号,并将音频信号转化为文本;从音频信号中通过声纹识别技术标识各个发言者的身份,并将发言者与文本中的相应内容进行关联,形成会议纪要。

Description

会议纪要的提取方法及装置 技术领域
本发明涉及计算机技术领域, 特别是涉及一种会议纪要的提取方法及 装置。 背景技术
在现有技术中, 会议电视已经被广泛的使用在生活和工作中的多个场 景里, 通过会议电视可以很方便地在多个不同的场景进行同时视频会话, 极大的提高了工作效率。 但是在传统的会议电视中仍然还存在着一些弊端, 具体包括: 1、 不支持会议纪要和记录整理的功能, 只能通过手动记录或者 录音功能记录,这样往往无法对会议过程或会议内容进行最大化的记录; 2、 视频会议中常常会出现多方多人在进行会议, 这样很容易在多人讨论中漏 掉许多重要信息; 3、 视频会议往往是不同地方的多个人员进行的, 这样会 议纪要的共享将存在很大的不便。
目前已有从音视频会议中提取会议纪要的方法, 这些方法基本都是从 会议中提取语音信息, 然后通过语音识别转换成文字并存储。 这样同样会 存在弊端, 例如, 同时在几个不同的会场, 有多个人进行 2个小时的会议 时, 生成的会议纪要将会非常冗长, 而且记录中谁说了什么内容也完全不 知道, 这样得到的将是冗长混乱的会议纪要。
另外, 在现有技术中, 也有对无法得到有针对性的会议纪要的问题提 供了一些关于会议纪要的提取方法和装置, 但是这些功能的实现以及视频 会议都是在一个终端上运行, 这样终端将承受巨大的压力, 严重影响到视 频会议的正常进行。
综上所述, 在会议电视应用场景中, 目前在相关技术中存在自动生成 会议纪要的方式与终端性能不可兼得的问题, 急需有效的解决方案。 发明内容
有鉴于此, 提出了本发明实施例以便提供一种克服上述问题或者至少 部分地解决上述问题。
本发明实施例提供一种会议纪要的提取方法, 包括: 获取从视频会议 信号中采集的音频信号, 并将音频信号转化为文本; 从音频信号中通过声 纹识别技术标识各个发言者的身份, 并将发言者与文本中的相应内容进行 关联, 形成会议纪要。
优选地, 会议纪要为对白形式的会议纪要。
优选地, 上述方法具体包括: 云服务器获取从视频会议信号中采集的 音频信号, 并将音频信号转化为文本; 云服务器从音频信号中通过声纹识 别技术标识各个发言者的身份, 并将发言者与文本中的相应内容进行关联, 形成会议纪要。
优选地, 上述方法进一步包括: 云服务器对会议纪要进行多语种翻译。 优选地, 上述方法进一步包括: 云服务器对会议纪要进行实时共享。 本发明实施例还提供了一种会议纪要的提取装置, 包括: 会议电视终 端, 用于从视频会议信号中采集音频信号; 云服务器, 用于获取会议电视 终端采集的音频信号, 将音频信号转化为文本, 从音频信号中通过声纹识 别技术标识各个发言者的身份, 并将发言者与文本中的相应内容进行关联, 形成会议纪要。
优选地, 上述会议纪要为对白形式的会议纪要。
优选地, 上述云服务器进一步包括: 翻译模块, 用于对会议纪要进行 多语种翻译。
优选地, 上述云服务器进一步包括: 共享模块, 用于对会议纪要进行 实时共享。 本发明实施例有益效果如下:
通过将发言者与文本中的相应内容进行关联, 解决了现有技术中会议 纪要冗长混乱的问题, 能够在会议纪要中向用户清楚的展示在会议中的发 言者和其发言的内容。
上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的 技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和 其它目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实施方式。 附图说明
通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于 本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式的目 的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的参考符 号表示相同的部件。 在附图中:
图 1是本发明实施例的会议纪要的提取方法的流程图;
图 2是本发明实施例的会议纪要提取的基本流程图;
图 3是本发明实施例的云服务器业务处理的流程图;
图 4是本发明实施例的会议电视终端云客户端处理的流程图; 图 5是本发明实施例的获取发言者身份 ID的流程图;
图 6是本发明实施例的会议纪要的提取装置的结构示意图。 具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。 虽然附图中显 示了本公开的示例性实施例, 然而应当理解, 可以以各种形式实现本公开 而不应被这里阐述的实施例所限制。 相反, 提供这些实施例是为了能够更 透彻地理解本公开, 并且能够将本公开的范围完整的传达给本领域的技术 人员。 为了解决现有技术中在会议电视应用场景中获取会议纪要时与终端性 能不可兼得的问题、 以及现有技术中会议纪要冗长混乱的问题, 本发明实 施例提供了一种会议纪要的提取方法及装置, 一个方面, 针对会议纪要的 提取提出了相关的方法, 包括:
从视频会议信号中获取音视频信号 , 并将音视频信号中的语音信号转 化成对应的文本;
从获取的语音信号中通过声纹识别技术来区分发言者的身份, 并可以 将发言者与对应的文本关联起来, 形成对白式的文本。
另一方面, 对自动生成多语言的会议纪要与终端性能不可同时兼得的 问题, 实现了一种解决方案使用云端服务, 会议电视中提取会议纪要的主 要实现功能都将在云服务器中进行。 也就是说, 在云服务器中主要完成的 功能有: 上一点提到的自动会议纪要提取的基本方法、 会议纪要多语种翻 译、 以及会议纪要实时共享等。 云服务的使用将原来由会议电视终端完成 的会议纪要提取工作分离出来, 使得会议电视终端可以只做与视频会议通 讯方面的业务, 大大减轻了终端的压力, 提高性能。 以下结合附图以及实 施例, 对本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施 例仅仅用以解释本发明, 并不限定本发明。
方法实施例
根据本发明的实施例, 提供了一种会议纪要的提取方法, 图 1是本发 明实施例的会议纪要的提取方法的流程图, 包括如下处理:
步骤 101 ,从视频会议信号中采集音频信号; 将所述音频信号转化为文 本;
步骤 102,从所述音频信号中标识各个发言者的身份, 并将所述发言者 与所述文本中的相应内容进行关联, 形成会议纪要。
优选地, 会议纪要为对白形式的会议纪要。 其中, 所述标识各个发言者的身份可以采用声纹识别技术先对各个发 言者的身份进行识别, 再通过声纹识别技术标识各个发言者的身份。
为了解决现有技术中在会议电视应用场景中获取会议纪要时与终端性 能不可兼得的问题, 还需要进行如下处理: 建立用于实现会议纪要提取和 存储的云服务器, 并在会议电视终端设置与云服务器连接的云客户端; 通 过云客户端利用云服务器形成会议纪要。 也就是说, 云服务器获取从视频 会议信号中采集的音频信号, 并将音频信号转化为文本; 云服务器从音频 信号中通过声纹识别技术标识各个发言者的身份, 并将发言者与文本中的 相应内容进行关联, 形成会议纪要。
优选地, 在实际应用中, 具体包括如下处理:
第一步, 建立一个用于实现会议纪要提取和存储主要功能的云服务器; 第二步, 建立便于用户使用和操作会议纪要的云客户端, 该应用将被 安装在会议电视终端, 与会者直接可以通过该客户端进行会议纪要的获取、 存储、 转换等操作。
在本发明实施例中, 可以通过云客户端利用云服务器对会议纪要进行 多语种翻译、 以及对会议纪要进行实时共享。
以下结合附图, 对本发明实施例的上述技术方案进行详细说明。
图 2是本发明实施例的会议纪要提取的基本流程图, 如图 2所示, 具 体包括如下处理:
步骤 201 ,在会议电视终端通过麦克风采集到发言者的声音, 通过终端 上的客户端设置的参数, 云服务器会自动获取终端上相关的音频数据; 步骤 202, 云服务器通过声纹识别获取发言者的身份 ID;
步骤 203, 云服务器将音频数据转换为文本, 并将步骤 202中获取的发 言者的身份 ID与该文本中的相应内容进行关联;
步骤 204, 将转换好的文本保存在文件中, 并存储在云服务器上。 图 3是本发明实施例的云服务器业务处理的流程图, 如图 3所示, 包 括如下处理:
步骤 301 , 云服务器接收到终端上的云客户端发起的请求;
步骤 302, 云服务器将根据不同的请求执行不同的业务, 包括语音数据 处理和文本文件处理;
步骤 303 ,客户端请求是语音数据处理时, 云服务器将启动语音处理识 别模块;
步骤 304, 云服务器将根据客户端请求的参数, 来确定是否保存获取的 语音数据;
步骤 305 , 如果需要保存语音数据, 则将语音数据写入文件; 步骤 306, 云服务器将获取的语音数据转换为文字保存, 同时还可以通 过声纹识别来获取语音对应的发言者;
步骤 307 , 在云服务器中, 首先会将语音文件转换为对应语种的文字, 如与会者采用中文发言, 则首先将语音文件转换为中文, 然后再根据用户 的要求进行语言种类的转换; 会议发起者在会议注册的时候可以通过设置 响应的参数来获取对应语种类型的会议纪要, 该步骤就是获取该参数值; 步骤 308, 如果会议注册是没有设置语种类型参数则取默认值, 默认语 言种类为中文, 即如果在会议注册的时候没有设置该项参数, 则最终输出 的会议纪要将为中文文件;
步骤 309,如果语种类型参数被设置, 则最后将会议纪要转换为所需要 的语种类型进行保存;
步骤 310, 保存已经转换好的会议纪要到云服务器;
步骤 311 , 如果云服务器接收到的请求为文本处理, 这进入文本处理流 程, 在该流程中用户可以进行会议纪要的查询和管理;
步骤 312, 首先用户可以将会议纪要转换为自己需要的语种类型; 步骤 313 ,用户操作可以是下载相关的会议纪要或者是对会议纪要进行 其他的操作;
步骤 314, 非下载用户可以进行其他操作;
步骤 315 , 需要下载会议纪要的用户进入下载界面;
步骤 316, 下载需要的会议纪要。
图 4是本发明实施例的会议电视终端云客户端处理的流程图, 如图 4 所示, 具体包括如下处理:
步骤 401 , 会议电视终端用户启动云客户端进行登录;
步骤 402,检验登录用户是否为有效用户,如果是有效用户则允许登录 云客户端进行会议流程注册或对会议内容管理, 无效用户则拒绝登陆管理 界面;
步骤 403 , 用户可以选择参加会议或者是会议内容管理业务;
步骤 404,如果用户选择的是参加会议,那么用户可以是会议的创建者, 或者只是参与者;
步骤 405 , 如果是会议的创建者, 则需要注册会议, 并设置会议模式对 应的一些参数, 比如有哪些会场、 会议纪要采用哪种语种等;
步骤 406, 设置完会议模式参数后, 请求云服务器启动会议模式; 步骤 407, 不管是会议的创建者, 或者是会议的参与者都需要在会议开 始前进行声音样本的采集, 方便会议中获取发言者的身份;
步骤 408,如果用户不是参加会议,也可以进行会议内容的管理,比如, 会议内容的生成, 查询, 翻译, 下载等操作;
步骤 409, 用户对会议内容进行的操作是受权限限制的, 用户只可以进 行自己被授权的操作;
步骤 410, 执行可以进行的各种会议内容操作。
图 5是本发明实施例的获取发言者身份 ID的流程图, 如图 5所示, 具 体包括如下处理:
步骤 501 , 客户端用户注册会议后, 启动为会议模式, 开始会议; 步骤 502,发言者开始发言,会议电视终端可以通过麦克风采集到语音; 步骤 503 , 云端服务器自动获取会议电视终端采集到的语音数据; 步骤 504, 云端服务器自动分析获取到的语音数据;
步骤 505 , 云端服务器通过分析获取的语音信息, 以及相关参数, 获取 到发言者所在会场、 发言时间等信息;
步骤 506, 在语音识别模块中通过声纹识别来获取发言者的身份; 步骤 507, 会议被注册后, 在会议开始前, 都需要采集与会者的声音样 本和会场等信息进行身份注册, 所以在会议中需要获取发言者身份是, 系 统会检查是否存在该声音的样本;
步骤 508, 将获取的声音与保存的声音样本进行匹配, 如果存在则直接 可以获取发言者的身份 ID;
步骤 509, 如果没有匹配的声音样本, 这说明该身份未注册, 则保存声 音样本, 并根据会场和发言时间等信息生成新的发言者身份, 并保存; 步骤 510, 与从语音转换来的文本进行身份关联;
步骤 511 ,将关联了发言者身份的文本保存起来,生成完整的会议纪要。 综上, 借助于本发明实施例的技术方案, 不仅能够在会议纪要中向用 户清楚的展示在会议中的发言者和其发言的内容, 并且, 云服务的使用将 原来由会议电视终端完成的会议记录提取工作分离出来, 使得会议电视终 端可以只做与视频会议通讯方面的业务, 大大减轻了终端的压力, 提高性 能。
装置实施例
根据本发明的实施例, 提供了一种会议纪要的提取装置, 图 6是本发 明实施例的会议纪要的提取装置的结构示意图, 如图 6所示, 根据本发明 实施例的会议纪要的提取装置包括: 会议电视终端 60、 以及云服务器 62, 以下对本发明实施例的各个模块进行详细的说明。
会议电视终端 60, 用于从视频会议信号中采集音频信号;
云服务器 62, 用于获取音频信号, 将音频信号转化为文本, 从音频信 号中通过声纹识别技术标识各个发言者的身份, 并将发言者与文本中的相 应内容进行关联, 形成会议纪要。
在实际应用中, 云服务器 62从语音信号中通过声纹识别技术标识各个 发言者的身份时, 可以使用唯一的标识将发言者的身份存储在发言者目录 中, 供后面使用。 优选地, 会议纪要为对白形式的会议纪要。
也就是说, 云服务器 62用于将保存的文本与发言者身份进行映射, 得 出——对应的关系, 并使两者关联起来。
在实际应用中, 会议电视终端 60中可以设置有云客户端, 用于与云服 务器进行交互, 对装置在云服务器中的操作进行控制, 利用云服务器形成 会议纪要。
优选地, 上述云服务器 62进一步用于: 在云客户端的控制下利用云服 务器对会议纪要进行多语种翻译。 在云客户端的控制下利用云服务器对会 议纪要进行实时共享。
需要说明的是, 本发明实施例的会议纪要的提取装置中各个模块的处 理可以参考上述方法实施例中的相关描述进行理解, 在此不再赘述。
综上所述, 借助于本发明实施例的技术方案, 不仅能够在会议纪要中 向用户清楚的展示在会议中的发言者和其发言的内容, 并且, 云服务的使 用将原来由会议电视终端完成的会议记录提取工作分离出来, 使得会议电 视终端可以只做与视频会议通讯方面的业务, 大大减轻了终端的压力, 提 高性能。
显然, 本领域的技术人员可以对本发明进行各种改动和变型而不脱离 本发明的精神和范围。 这样, 倘若本发明的这些修改和变型属于本发明权 利要求及其等同技术的范围之内, 则本发明也意图包含这些改动和变型在 内。

Claims

权利要求书
1、 一种会议纪要的提取方法, 所述方法包括:
从视频会议信号中采集音频信号;
将所述音频信号转化为文本;
从所述音频信号中标识各个发言者的身份, 并将所述发言者与所述文 本中的相应内容进行关联, 形成会议纪要。
2、 根据权利要求 1所述的方法, 其中, 所述会议纪要为对白形式的会 议纪要。
3、 根据权利要求 1或 2所述的方法, 其中, 所述方法包括:
云服务器获取从视频会议信号中采集的音频信号 , 并将所述音频信号 转化为文本;
所述云服务器从所述音频信号中通过声纹识别技术标识各个发言者的 身份, 并将所述发言者与所述文本中的相应内容进行关联, 形成会议纪要。
4、 根据权利要求 3所述的方法, 其中, 所述方法还包括:
所述云服务器对所述会议纪要进行多语种翻译。
5、 根据权利要求 3所述的方法, 其中, 所述方法还包括:
所述云服务器对所述会议纪要进行实时共享。
6、 一种会议纪要的提取装置, 包括:
会议电视终端, 配置为从视频会议信号中采集音频信号;
云服务器, 配置为获取所述音频信号, 将所述音频信号转化为文本, 从所述音频信号中标识各个发言者的身份, 并将所述发言者与所述文本中 的相应内容进行关联, 形成会议纪要。
7、 根据权利要求 6所述的装置, 其中, 所述会议纪要为对白形式的会 议纪要。
8、 根据权利要求 6所述的装置, 其中, 所述云服务器包括: 翻译模块, 配置为对所述会议纪要进行多语种翻译。
9、 根据权利要求 6所述的装置, 其中, 所述云服务器还包括: 共享模块, 配置为对所述会议纪要进行实时共享。
PCT/CN2014/079792 2013-08-22 2014-06-12 会议纪要的提取方法及装置 WO2014173370A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310369677.8 2013-08-22
CN201310369677.8A CN104427292A (zh) 2013-08-22 2013-08-22 会议纪要的提取方法及装置

Publications (1)

Publication Number Publication Date
WO2014173370A1 true WO2014173370A1 (zh) 2014-10-30

Family

ID=51791097

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/CN2014/079792 WO2014173370A1 (zh) 2013-08-22 2014-06-12 会议纪要的提取方法及装置
PCT/CN2014/080651 WO2015024413A1 (zh) 2013-08-22 2014-06-24 会议纪要的提取方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/080651 WO2015024413A1 (zh) 2013-08-22 2014-06-24 会议纪要的提取方法及装置

Country Status (2)

Country Link
CN (1) CN104427292A (zh)
WO (2) WO2014173370A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109686363A (zh) * 2019-02-26 2019-04-26 深圳市合言信息科技有限公司 一种现场会议人工智能同传设备
CN109788232A (zh) * 2018-12-18 2019-05-21 视联动力信息技术股份有限公司 一种视频会议的会议记要记录方法、装置和系统
TWI699120B (zh) * 2019-04-30 2020-07-11 陳筱涵 會議記錄系統與會議記錄方法
CN111583953A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于声纹特征的人声分离方法和装置以及设备
EP3767624A1 (en) * 2019-07-15 2021-01-20 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for obtaining audio-visual information
CN113919307A (zh) * 2021-09-30 2022-01-11 北京金山数字娱乐科技有限公司 一种会议纪要生成方法及装置
US11616657B2 (en) 2020-04-09 2023-03-28 Nokia Technologies Oy Virtual meeting

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
CN105025023B (zh) * 2015-07-16 2019-04-12 广东科达洁能股份有限公司 一种会议实现方法及会议系统
CN106487757A (zh) * 2015-08-28 2017-03-08 华为技术有限公司 进行语音会议的方法、会议客户端和系统
CN105895077A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音标记方法及录音装置
CN107333090B (zh) * 2016-04-29 2020-04-07 中国电信股份有限公司 视频会议数据处理方法和平台
CN105915798A (zh) * 2016-06-02 2016-08-31 北京小米移动软件有限公司 视频会议中摄像头的控制方法和控制装置
CN107886951B (zh) * 2016-09-29 2021-07-23 百度在线网络技术(北京)有限公司 一种语音检测方法、装置及设备
CN112399133B (zh) * 2016-09-30 2023-04-18 阿里巴巴集团控股有限公司 一种会议分享方法及装置
CN106782551B (zh) * 2016-12-06 2020-07-24 北京华夏电通科技有限公司 一种语音识别系统及方法
CN106653002A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种文字直播方法及平台
CN108335693B (zh) * 2017-01-17 2022-02-25 腾讯科技(深圳)有限公司 一种语种识别方法以及语种识别设备
CN106875157B (zh) * 2017-02-15 2018-05-04 超锐创新(北京)科技有限公司 会议处理方法和装置
CN108962253A (zh) * 2017-05-26 2018-12-07 北京搜狗科技发展有限公司 一种基于语音的数据处理方法、装置和电子设备
CN107689225B (zh) * 2017-09-29 2019-11-19 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN108022583A (zh) * 2017-11-17 2018-05-11 平安科技(深圳)有限公司 会议纪要生成方法、应用服务器及计算机可读存储介质
CN107885736A (zh) * 2017-11-29 2018-04-06 深圳市沃特沃德股份有限公司 翻译方法及装置
CN107978317A (zh) * 2017-12-18 2018-05-01 北京百度网讯科技有限公司 会议纪要合成方法、系统及终端设备
CN108231064A (zh) * 2018-01-02 2018-06-29 联想(北京)有限公司 一种数据处理方法及系统
CN108255377B (zh) * 2018-01-30 2020-05-26 维沃移动通信有限公司 一种信息处理方法及移动终端
JP2019153099A (ja) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 会議支援システム及び会議支援プログラム
CN110473545A (zh) * 2018-05-11 2019-11-19 视联动力信息技术股份有限公司 一种基于会议室的会议处理方法和装置
CN108922538B (zh) * 2018-05-29 2023-04-07 平安科技(深圳)有限公司 会议信息记录方法、装置、计算机设备及存储介质
CN109309804A (zh) * 2018-09-29 2019-02-05 芜湖星途机器人科技有限公司 一种智能会议系统
CN109474763A (zh) * 2018-12-21 2019-03-15 深圳市智搜信息技术有限公司 一种基于语音、语义的ai智能会议系统及其实现方法
CN111385185A (zh) * 2018-12-28 2020-07-07 中兴通讯股份有限公司 信息处理方法、计算机装置及计算机可读存储介质
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110717031B (zh) * 2019-10-15 2021-05-18 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN113139392B (zh) * 2020-01-17 2023-08-15 青岛海信商用显示股份有限公司 会议纪要的生成方法、装置及存储介质
CN111582708A (zh) * 2020-04-30 2020-08-25 北京声智科技有限公司 医疗信息的检测方法、系统、电子设备及计算机可读存储介质
CN111785271A (zh) * 2020-05-15 2020-10-16 深圳奥尼电子股份有限公司 语音识别处理方法及系统、电子设备
WO2022237381A1 (zh) * 2021-05-08 2022-11-17 聚好看科技股份有限公司 保存会议记录的方法、终端及服务器
CN115086887B (zh) * 2022-05-11 2023-11-24 山东工商学院 一种基于5g局域网的即时通信系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1061724A2 (en) * 1999-06-14 2000-12-20 Canon Kabushiki Kaisha Conference voice processing method, apparatus and information memory medium therefor
JP2002099530A (ja) * 2000-09-22 2002-04-05 Sharp Corp 議事録作成装置及び方法並びにこれを用いた記憶媒体
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN102968991A (zh) * 2012-11-29 2013-03-13 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865478B2 (en) * 2005-06-04 2011-01-04 International Business Machines Corporation Based on repeated experience, system for modification of expression and negating overload from media and optimizing referential efficiency
CN101068271A (zh) * 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成系统、通信终端、媒体服务器及方法
CN102195685B (zh) * 2011-05-20 2013-12-11 惠州Tcl移动通信有限公司 对显示的文字信息进行翻译的处理系统、方法
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
CN102750273A (zh) * 2012-06-19 2012-10-24 深圳市金立通信设备有限公司 一种将手机录音文件翻译为目标语言信息的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1061724A2 (en) * 1999-06-14 2000-12-20 Canon Kabushiki Kaisha Conference voice processing method, apparatus and information memory medium therefor
JP2002099530A (ja) * 2000-09-22 2002-04-05 Sharp Corp 議事録作成装置及び方法並びにこれを用いた記憶媒体
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN102968991A (zh) * 2012-11-29 2013-03-13 华为技术有限公司 一种语音会议纪要的分类方法、设备和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788232A (zh) * 2018-12-18 2019-05-21 视联动力信息技术股份有限公司 一种视频会议的会议记要记录方法、装置和系统
CN109686363A (zh) * 2019-02-26 2019-04-26 深圳市合言信息科技有限公司 一种现场会议人工智能同传设备
TWI699120B (zh) * 2019-04-30 2020-07-11 陳筱涵 會議記錄系統與會議記錄方法
CN111866421A (zh) * 2019-04-30 2020-10-30 陈筱涵 会议记录系统与会议记录方法
EP3767624A1 (en) * 2019-07-15 2021-01-20 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for obtaining audio-visual information
US10950272B2 (en) 2019-07-15 2021-03-16 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for obtaining audio-visual information, device, and storage medium
US11616657B2 (en) 2020-04-09 2023-03-28 Nokia Technologies Oy Virtual meeting
CN111583953A (zh) * 2020-04-30 2020-08-25 厦门快商通科技股份有限公司 一种基于声纹特征的人声分离方法和装置以及设备
CN113919307A (zh) * 2021-09-30 2022-01-11 北京金山数字娱乐科技有限公司 一种会议纪要生成方法及装置

Also Published As

Publication number Publication date
WO2015024413A1 (zh) 2015-02-26
CN104427292A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
WO2014173370A1 (zh) 会议纪要的提取方法及装置
US11699456B2 (en) Automated transcript generation from multi-channel audio
CN111052230B (zh) 用于语音捕获设备的语音激活的选择性存储器
CN106373575B (zh) 一种用户声纹模型构建方法、装置及系统
US20170359393A1 (en) System and Method for Building Contextual Highlights for Conferencing Systems
JP4089148B2 (ja) 通訳サービス方法および通訳サービス装置
TWI507063B (zh) 資訊共用方法、終端、伺服器及系統
TWI536365B (zh) 聲紋辨識
US20020133339A1 (en) Method and apparatus for automatic collection and summarization of meeting information
CN107205097B (zh) 移动终端查找方法、装置以及计算机可读存储介质
US20210160242A1 (en) Secure audio transcription
CN109474763A (zh) 一种基于语音、语义的ai智能会议系统及其实现方法
WO2008045153A2 (en) Interaction based on facial recognition of conference participants
WO2020073633A1 (zh) 会议音箱及会议记录方法、设备、系统和计算机存储介质
JP2008199609A (ja) 聴覚アーカイブを自動的に発生し聴覚アーカイブを提供するための方法、システム、およびコンピュータ・プログラム
JP6690796B1 (ja) 情報管理プログラム、情報管理方法および情報管理装置
CN105897686A (zh) 智能电视语音管理用户账号方法及智能电视
WO2019076120A1 (zh) 一种图像处理的方法、装置、存储介质及电子装置
JP2013250931A (ja) 情報取得システム、プログラム、サーバ、情報取得方法
CN109743529A (zh) 一种多功能视频会议系统
CN106549947A (zh) 一种即时更新的声纹认证方法及系统
CN111626061A (zh) 会议记录生成方法、装置、设备及可读存储介质
CN110489536B (zh) 群组问答方法和群组问答系统
CN109639623B (zh) 认证系统及服务器装置
US20210312143A1 (en) Real-time call translation system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14787801

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14787801

Country of ref document: EP

Kind code of ref document: A1