WO2013182129A2 - 一种云笔记实现方法及装置 - Google Patents

一种云笔记实现方法及装置 Download PDF

Info

Publication number
WO2013182129A2
WO2013182129A2 PCT/CN2013/079366 CN2013079366W WO2013182129A2 WO 2013182129 A2 WO2013182129 A2 WO 2013182129A2 CN 2013079366 W CN2013079366 W CN 2013079366W WO 2013182129 A2 WO2013182129 A2 WO 2013182129A2
Authority
WO
WIPO (PCT)
Prior art keywords
cloud
voice
document
note
text
Prior art date
Application number
PCT/CN2013/079366
Other languages
English (en)
French (fr)
Other versions
WO2013182129A3 (zh
Inventor
陈斌
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2013182129A2 publication Critical patent/WO2013182129A2/zh
Publication of WO2013182129A3 publication Critical patent/WO2013182129A3/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the present invention relates to the field of communications, and in particular, to a cloud note implementation method and apparatus.
  • voice scenes surrounding mobile terminals are endless, including communication scenarios such as talking, conference scenarios, classroom scenarios, interview scenarios, live broadcast scenarios, and the like.
  • Voice is the most common user scene with a very large coverage, including a lot of "user data”, which is really a "data gold mine”!
  • the key to mining the golden value of voice data is: To change the status quo of voice data alone, to make the voice data into the text data stream, the value can be continuously improved.
  • Embodiments of the present invention provide a cloud note implementation method and apparatus, which convert voice into textual information, and the 4 bar voice is truly integrated into a general information stream to truly realize voice informationization of the Internet.
  • an embodiment of the present invention provides a cloud note implementation method, including: a cloud receiving data of a voice audio segment sent by a terminal; the cloud performing voice to text conversion on the voice audio segment and generating Formatting the processing result, and then performing document logic processing on the formatted processing result; After the cloud receives the data of the voice audio segment, the entire cloud note document is generated according to all the logicalized content of the document.
  • the step of the cloud performing voice-to-text conversion on the voice audio segment and generating a formatted processing result includes: the cloud identifying an identifiable text portion of the voice audio segment and a time period length of each blank segment, A formatted processing result is generated, and the format of the processing result is: a text portion and a length of a period of one or more blank segments distributed before or after the text or between the characters.
  • the cloud converts the blank segment into a corresponding document logical symbol according to a correspondence between a length of the blank segment and a logical symbol of the document, and generates the cloud processing document by the formatted processing result.
  • the method further includes: the cloud receiving the header information of the current cloud note sent by the terminal, and saving, and sending the confirmation information to the terminal; And when the cloud generates an overall cloud note document according to all the content that is logically processed by the document, the saved head information of the cloud note is used as the header information of the cloud note document.
  • the method further includes: the cloud saving the entire cloud note document in a voice note subdirectory in a cloud note of a cloud personal data center under a user account.
  • an embodiment of the present invention further provides a cloud note implementation apparatus, including:
  • An interaction module configured to: receive data of a voice audio segment sent by the terminal; a voice text processing module, configured to: perform voice to text conversion on the voice audio segment and generate a formatted processing result, The formatted processing result is further processed by the document, and the logically processed content is sent to the voice text cloud note generation module; a voice text cloud note generation module, configured to: receive and save the documentized content of the document sent by the voice text processing module, and after receiving the data of the voice audio segment, according to all The documented content of the document generates an overall cloud note document.
  • the voice text processing module further includes: a voice text conversion module, configured to: identify an identifiable text portion of the voice audio segment and a time period length of each blank segment, generate a formatted processing result, and The formatted processing result is sent to the document logic processing module; the format of the processing result is: a text portion and a time period length of one or more blank segments distributed before or after the text or in the text; and a document logic processing module And configured to: receive the formatted processing result sent by the voice text conversion module, and convert the blank segment into a corresponding document logic according to the correspondence between the length of the blank segment and the logical symbol of the document A symbol, and the processed result of the formatting is generated into a cloud note document.
  • a voice text conversion module configured to: identify an identifiable text portion of the voice audio segment and a time period length of each blank segment, generate a formatted processing result, and The formatted processing result is sent to the document logic processing module
  • the format of the processing result is: a text portion and a time period length of one or more blank segments distributed before
  • the interaction module is further configured to: receive the header information of the current cloud note sent by the terminal, save, and send the confirmation information to the terminal; and the voice text cloud note generation module is further configured to: When the content of the cloud note processing is generated by the documentized content of the document, the header information of the current cloud note is saved as the header information of the cloud note document.
  • the voice text cloud note generation module is further configured to: save the entire cloud note document in a voice note subdirectory in a cloud note of a cloud personal data center under a user account.
  • the cloud note implementation method and device provided by the embodiment of the invention utilizes the voice text processing process supported by the cloud efficient processing capability of the cloud, converts the voice into text information, forms a cloud note, and enters the personal data of the cloud service.
  • the center in conjunction with the cloud service system, can further expand various cloud services, such as synchronization, sharing, etc., to truly integrate the voice into the general information flow, and truly realize the voice informationization of the Internet.
  • FIG. 1 is a structural diagram of a cloud text implementation device for voice text in an embodiment
  • FIG. 2 is a flow chart of a cloud text implementation method for voice text in an embodiment
  • FIG. 3 is a structural diagram of a mobile terminal in an application example
  • FIG. 5 is a flow chart of a voice note-based cloud note implementation method in an application example.
  • the embodiment provides a cloud note implementation apparatus, including: an interaction module 11 configured to: receive data of a voice audio segment sent by a terminal; and a voice text processing module 12 configured to: Performing speech-to-text conversion on the voice audio segment and generating a formatted processing result, performing document logical processing on the formatted processing result, and transmitting the logically processed content to the voice text
  • the cloud text processing module 13 further includes: a voice text conversion module 121, configured to: identify an identifiable text portion of the voice audio segment and a time period length of each blank segment, Generating the processed processing result, and sending the formatted processing result to the document logic processing module 122; the format of the processing result is: a text portion and one or more blank segments distributed in front of or in the text or in the middle of the text The length of the time period; the document logic processing module 122 is configured to: receive the voice text conversion module 121 to send Formatting the processing result, and converting the blank segment into a corresponding document logical symbol according to the correspondence between the length
  • a voice text cloud note generation module 13 configured to: receive and save the voice text The documentized processing content sent by the processing module 12, and after the interaction module 11 receives the data of the voice audio segment, generates an overall note document according to all the logicalized content of the document.
  • the interaction module 11 is further configured to: receive the header information of the current cloud note sent by the terminal, save, and send the confirmation information to the terminal;
  • the voice text cloud note generation module 13 is further configured to: When all the logically processed content of the document generates an overall cloud note document, the header information of the current cloud note saved is used as the header information of the cloud note document.
  • the voice text cloud note generation module 13 is further configured to: save the entire cloud note document in a voice note subdirectory in a cloud note of a cloud personal data center under a user account.
  • the embodiment provides a cloud note implementation method, including the following steps: S101: The cloud receives data of a voice audio segment sent by a terminal;
  • S102 The cloud performs voice-to-text conversion on the voice audio segment and generates a formatted processing result, and performs document logic processing on the formatted processing result;
  • the step of the cloud to perform voice to text conversion on the voice audio segment and generate a formatted processing result includes:
  • the cloud identifies the identifiable text portion of the voice audio segment and the time period length of each blank segment, and generates a formatted processing result.
  • the format of the processing result is: a text portion and a text portion and a text distribution before or after the text
  • the cloud converts the blank segment into a corresponding document logical symbol according to a correspondence between a length of the blank segment and a logical symbol of the document, and generates the cloud processing document by the formatted processing result.
  • the method further includes: the cloud receiving the header information of the current cloud note sent by the terminal, and saving, and sending the confirmation information to the terminal;
  • Step S103 further includes: when the cloud generates an entire note document according to all the logically processed content of the document, the saved head information of the current cloud note is used as the header information of the note document.
  • step S103 The following steps are further included after step S103:
  • the cloud saves the entire note document in the "voice note” subdirectory in the “Cloud Note” of the cloud personal data center under the user account.
  • the mobile terminal at least includes: a voice text cloud note function setting module 31, a voice collection module 32, a voice buffer module 33, and a data interaction module 34.
  • the voice text cloud function setting module 31 provides settings for the operation of the voice text cloud note function on the terminal. This module provides the function keys for "Start" I “Stop” voice text cloud notes. After clicking the "Start” button, the user enters the login interface of the login cloud. After completing the login, the user enters the "Startup" configuration interface, which is included in the cloud note task, but is not limited to the following information items: cloud note title, role description and scene description , as the head information of this speech text cloud note.
  • the voice collection module 32 is configured to: collect voice on the terminal platform.
  • the module is always in the working state when the voice text cloud function is turned on, and the voice data is stored in the voice buffer module 33 in a loop.
  • the voice buffer module 33 is configured to: buffer voice data collected from the voice collection module 32.
  • the data interaction module 34 is configured to: message interaction between the terminal and the cloud, send the header information of the cloud note to the cloud, and sequentially buffer the voice data of the voice buffer module 33. Extract and send to the cloud.
  • the voice textized cloud note implementation apparatus includes: a data interaction module 41, a voice text conversion module 42, a document logic processing module 43, a data cache module 44, and a voice text.
  • Cloud note generation module 45 wherein:
  • the data interaction module 41 is configured to: exchange message between the cloud and the mobile terminal, receive the header information of the current cloud note sent by the mobile terminal, save, send the acknowledgement information to the terminal, and receive the mobile terminal from the mobile terminal.
  • the data of the voice audio segment sent by the data interaction module is cyclically transmitted to the voice text conversion module 42 and received from the mobile terminal to end the cloud note message and passed to the voice text cloud note generation module 45;
  • the voice text conversion module 42 is configured to: perform voice text conversion and blank segment processing on the voice data transmitted by the data interaction module 41, that is, identify the identifiable text portion and the blank segments in the audio segment of the current collection. The length of the time period, and the formatted processing result is generated. The format of the processing result is: a text portion and a length of a period of one or more blank segments distributed before and after the text, and the length of the time period is in seconds.
  • the voice text conversion module 42 outputs the formatted processing result to the document logic processing module 43;
  • the document logic processing module 43 is configured to: receive the formatted processing result sent by the voice text conversion module 42 and correspond to the logical symbol of the document according to the length of the time segment of the blank segment set by the system
  • the logic rule performs the document logic processing on the formatted processing result output by the voice text conversion module 42: for the blank segment, the hierarchical segment is converted into the corresponding document logical symbol according to the length of the time segment, where the logical symbol of the document includes: a colon, a comma, The number, the double quotation mark, the period, and the newline character, the paragraph character, and the like, so that the document logic processing module 43 can generate the cloud note document having the document logical symbol and the paragraph according to the length of the blank segment.
  • the document logic processing module 43 stores the current result of the logical processing in the data cache module 44;
  • the data caching module 44 is configured to: cache document data outputted from the document logic processing module 43;
  • the voice text cloud note generation module 45 is configured to: after receiving the cloud note message sent by the data interaction module 41, construct the document data in the data cache module 44 as a whole.
  • the text cloud note and generate the note document of the cloud note in the format of the document by the document header information, and save the entire text cloud note document in the "cloud note” of the cloud personal data center under the user account.
  • “Voice Notes” subdirectory In the "Voice Notes" subdirectory.
  • the voice textization cloud note implementation method includes the following steps:
  • S202 The user enters the login interface of the login cloud, and the user enters the “startup” configuration interface after completing the login;
  • S203 The user completes the information configuration in the voice-initiated cloud note "startup" configuration (including: cloud note title: lecture - 2013.03.20, role description: student, scene description: listening lecture), as the cloud note
  • the header information is then submitted to the data exchange module of the mobile terminal by the system
  • the voice collection module of the mobile terminal stores the collected voice data into the voice buffer module of the mobile terminal in each cycle of collecting voices;
  • the data interaction module of the mobile terminal extracts the current cached voice data from the voice buffer module of the mobile terminal and sends the data to the cloud data interaction module.
  • S210 The voice text conversion module that is sent to the cloud by the data interaction module of the cloud after receiving the current voice data segment;
  • the document logicalization processing module in the cloud logically processes the formatted processing result output by the voice text conversion module according to the logic rule set by the system, and stores the processing result in the cloud data cache module in the cloud;
  • S213 The user turns off the voice text cloud note function on the terminal side, and the data interaction module of the mobile terminal sends the voice text cloud note end message to the cloud data interaction module;
  • the voice text cloud note generation module is invoked; the voice text cloud note generation module obtains all the logicalized content of the document from the cloud data cache module. After the block, the overall note content is generated, and the note document of the cloud note is generated by the document header information, and the format is txt; and the complete voice text note document of the cloud note is saved in the cloud personal data center under the user account.
  • the cloud note implementation method and apparatus provided in the foregoing embodiments use the mobile terminal as a voice information portal, and use the mobile terminal to cyclically collect and upload audio data in batches, and the portability thereof.
  • the cloud note implementation method and device provided by the embodiment of the invention utilizes the voice text processing process supported by the cloud efficient processing capability of the cloud, converts the voice into text information, forms a cloud note, and enters the personal data of the cloud service.
  • the center in conjunction with the cloud service system, can further expand various cloud services, such as synchronization, sharing, etc., to truly integrate the voice into the general information flow, and truly realize the voice informationization of the Internet.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种云笔记实现方法及装置,其中,所述装置包括:交互模块、语音文字化处理模块以及语音文字化云笔记生成模块,所述方法包括:云端接收终端发来的语音音频段的数据;所述云端对所述语音音频段进行语音到文字的转换并生成格式化的处理结果,对所述格式化的处理结果再进行文档逻辑化处理;所述云端接收所述语音音频段的数据结束后,根据所有经文档逻辑化处理后的内容生成整体的云笔记文档。这种方法及装置将语音转换为文字化信息,把语音真正融入到通用的信息流中,真正实现互联网的语音信息化。

Description

一种云笔记实现方法及装置
技术领域
本发明涉及通信领域, 尤其涉及一种云笔记实现方法及装置。
背景技术 随着移动终端的日益普及, 围绕移动终端的语音场景层出不穷, 包括通 话等沟通类场景、 会议场景、 课堂场景、 访谈场景、 直播场景等等。 语音当 之无愧的成为最为普通的、 覆盖面非常大的用户场景, 包含了大量 "用户数 据" , 真可谓 "数据金矿" ! 挖掘语音数据的黄金价值的关键在于: 要改变 语音数据单独存在的现状, 要让语音数据融于文字化的数据流中, 才能让其 价值不断的提升。
相关技术中, 互联网上为移动终端提供的云笔记类应用渐趋热门, 主要 有印象笔记、 有道云笔记等, 就目前业务形式来看, "语音内容上传互联网" 还只是简单的将终端的语音文件直接上传到云端, 仍然以语音格式的文件存 在, 相当于终端侧录音文件的云上传。 对于语音格式文件, 只能通过播放器 播放, 无法与互联网的数据流、 内容流融通, 使得移动语音资源的信息化拓 展空间受限。 发明内容 本发明实施例提供一种云笔记实现方法及装置, 将语音转换为文字化信 息, 4巴语音真正融入到通用的信息流中, 真正实现互联网的语音信息化。 为了解决上述技术问题, 本发明实施例提供了一种云笔记实现方法, 包 括: 云端接收终端发来的语音音频段的数据; 所述云端对所述语音音频段进行语音到文字的转换并生成格式化的处理 结果, 对所述格式化的处理结果再进行文档逻辑化处理; 以及 所述云端接收所述语音音频段的数据结束后, 根据所有经文档逻辑化处 理后的内容生成整体的云笔记文档。 所述云端对所述语音音频段进行语音到文字的转换并生成格式化的处理 结果的步骤包括: 所述云端识别所述语音音频段中的可识别文字部分以及各空白段的时间 段长度, 生成格式化的处理结果, 所述处理结果的格式为: 文字部分以及在 文字前后或文字中间分布的一个或多个空白段的时间段长度。
所述云端根据所述空白段的时间段长度与文档逻辑符号的对应关系, 将 所述空白段转换为相应的文档逻辑符号, 并将所述格式化的处理结果生成云 笔记文档。 在所述云端接收终端发来的语音音频段的数据之前, 所述方法还包括: 所述云端接收所述终端发送的本次云笔记的头信息并保存, 并发送确认 信息给所述终端; 以及 当所述云端根据所有经文档逻辑化处理后的内容生成整体的云笔记文档 时, 将保存的本次云笔记的头信息作为所述云笔记文档的头信息。 所述方法还包括: 所述云端将所述整体的云笔记文档保存在用户账号下的云端个人数据中 心的云笔记中的语音笔记子目录中。 为了解决上述技术问题, 本发明实施例还提供了一种云笔记实现装置, 包括:
交互模块, 其设置成: 接收终端发来的语音音频段的数据; 语音文字化处理模块, 其设置成: 对所述语音音频段进行语音到文字的 转换并生成格式化的处理结果, 对所述格式化的处理结果再进行文档逻辑化 处理, 并将经文档逻辑化处理后的内容发送至语音文字化云笔记生成模块; 以及 语音文字化云笔记生成模块, 其设置成: 接收并保存所述语音文字化处 理模块发来的经文档逻辑化处理后的内容, 并在接收所述语音音频段的数据 结束后, 根据所有经文档逻辑化处理后的内容生成整体的云笔记文档。 所述语音文字化处理模块还包括: 语音文字转换模块, 其设置成: 识别所述语音音频段中的可识别文字部 分以及各空白段的时间段长度, 生成格式化的处理结果, 并将所述格式化的 处理结果发送至文档逻辑化处理模块; 所述处理结果的格式为: 文字部分以 及在文字前后或文字中间分布的一个或多个空白段的时间段长度; 以及 文档逻辑化处理模块, 其设置成: 接收所述语音文字转换模块发送来的 格式化的处理结果, 并根据所述空白段的时间段长度与文档逻辑符号的对应 关系, 将所述空白段转换为相应的文档逻辑符号, 并将所述格式化的处理结 果生成云笔记文档。 所述交互模块还设置成: 接收所述终端发送的本次云笔记的头信息并保 存, 并发送确认信息给所述终端; 以及 所述语音文字化云笔记生成模块还设置成: 当根据所有经文档逻辑化处 理后的内容生成整体的云笔记文档时, 将保存的本次云笔记的头信息作为所 述云笔记文档的头信息。 所述语音文字化云笔记生成模块还设置成: 将所述整体的云笔记文档保 存在用户账号下的云端个人数据中心的云笔记中的语音笔记子目录中。
本发明实施例提供的一种云笔记实现方法及装置, 利用云端高效的云计 算处理能力支撑下的语音文字化处理过程, 将语音转换为文字化信息, 形成 云笔记, 进入云服务的个人数据中心, 从而与云服务系统融通, 后续还可以 进一步拓展各种云服务, 例如, 同步、 共享等, 把语音真正融入到通用的信 息流中, 真正实现互联网的语音信息化。
附图概述 图 1 是实施例中语音文字化的云笔记实现装置的结构图; 图 2 是实施例中语音文字化的云笔记实现方法流程图; 图 3是一个应用示例中移动终端的结构图; 图 4是一个应用示例中语音文字化的云笔记实现装置的结构图; 图 5是一个应用示例中语音文字化的云笔记实现方法流程图。
本发明的较佳实施方式
下文中将结合附图对本发明的实施例进行详细说明。 需要说明的是, 在 不冲突的情况下, 本申请中的实施例及实施例中的特征可以相互任意组合。
实施例:
如图 1所示, 本实施例提供了一种云笔记实现装置, 包括: 交互模块 11 , 其设置成: 接收终端发来的语音音频段的数据; 语音文字化处理模块 12, 其设置成: 对所述语音音频段进行语音到文字 的转换并生成格式化的处理结果, 对所述格式化的处理结果再进行文档逻辑 化处理, 并将经文档逻辑化处理后的内容发送至语音文字化云笔记生成模块 13; 其中, 所述语音文字化处理模块 12还包括: 语音文字转换模块 121 , 其设置成: 识别所述语音音频段中的可识别文 字部分以及各空白段的时间段长度, 生成格式化的处理结果, 并将所述格式 化的处理结果发送至文档逻辑化处理模块 122; 所述处理结果的格式为: 文 字部分以及在文字前后或文字中间分布的一个或多个空白段的时间段长度; 文档逻辑化处理模块 122 , 其设置成: 接收所述语音文字转换模块 121 发送来的格式化的处理结果, 并根据所述空白段的时间段长度与文档逻辑符 号的对应关系, 将所述空白段转换为相应的文档逻辑符号, 并将所述格式化 的处理结果生成云笔记文档。 语音文字化云笔记生成模块 13 , 其设置成: 接收并保存所述语音文字化 处理模块 12发来的经文档逻辑化处理后的内容, 并在所述交互模块 11接收 语音音频段的数据结束后, 根据所有经文档逻辑化处理后的内容生成整体的 笔记文档。 所述交互模块 11还设置成:接收所述终端发送的本次云笔记的头信息并 保存, 并发送确认信息给所述终端; 所述语音文字化云笔记生成模块 13还设置成: 当根据所有经文档逻辑化 处理后的内容生成整体的云笔记文档时, 将保存的本次云笔记的头信息作为 所述云笔记文档的头信息。 所述语音文字化云笔记生成模块 13还设置成:将所述整体的云笔记文档 保存在用户账号下的云端个人数据中心的云笔记中的语音笔记子目录中。
如图 2所示, 本实施例提供了一种云笔记实现方法, 包括以下步骤: S101 : 云端接收终端发来的语音音频段的数据;
S102: 云端对所述语音音频段进行语音到文字的转换并生成格式化的处 理结果, 对所述格式化的处理结果再进行文档逻辑化处理;
其中, 所述云端对所述语音音频段进行语音到文字的转换并生成格式化 的处理结果的步骤包括:
所述云端识别所述语音音频段中的可识别文字部分以及各空白段的时间 段长度, 生成格式化的处理结果, 所述处理结果的格式为: 文字部分以及在 文字前后或文字中间分布的一个或多个空白段的时间计数长度。 包括:
所述云端根据所述空白段的时间段长度与文档逻辑符号的对应关系, 将 所述空白段转换为相应的文档逻辑符号, 并将所述格式化的处理结果生成云 笔记文档。
S103 : 在云端接收所述语音音频段的数据结束后, 根据所有经文档逻辑 化处理后的内容生成整体的云笔记文档。 在步骤 S101之前还包括:所述云端接收所述终端发送的本次云笔记的头 信息并保存, 并发送确认信息给所述终端;
步骤 S103还包括:所述云端根据所有经文档逻辑化处理后的内容生成整 体的笔记文档时, 将保存的本次云笔记的头信息作为该笔记文档的头信息。
在步骤 S103之后还包括以下步骤:
所述云端将所述整体的笔记文档保存在用户账号下的云端个人数据中心 的"云笔记 "中的"语音笔记,,子目录中。
在一个应用示例中, 以移动终端为例, 当然也不排除其他如 PC等可以 与云端进行交互, 并且能够釆集音频数据上传云端的终端。 移动终端通过循 环釆集, 将循环釆集的音频数据分批上传至云端, 可以减轻终端处理负荷、 优化业务过程, 且移动终端具有便携性好, 釆集语音实时性强的优点, 使得 "语音云笔记" 的业务体验真正达到用户级要求。 因此, 下面以移动终端为 例, 对本实施例做详细说明。 如图 3所示,该移动终端至少包括:语音文字化云笔记功能设置模块 31、 语音釆集模块 32、 语音緩存模块 33和数据交互模块 34。
所述语音文字化云笔记功能设置模块 31 , 在终端上为语音文字化云笔记 功能的运行提供设置。 该模块提供 "启动" I "停止" 语音文字化云笔记的功 能键。 用户点击 "启动"键后进入登录云端的登录界面, 完成登录后进入 "启 动" 配置界面, 该界面为本次云笔记任务填写包括但不限于以下信息项: 云 笔记标题、 角色说明以及场景说明, 作为本次语音文字化云笔记的头信息。
所述语音釆集模块 32, 其设置成: 在终端平台上釆集语音。 该模块在语 音文字化云笔记功能开启状态下一直处在工作状态, 并循环向语音緩存模块 33存入语音数据。
所述语音緩存模块 33 , 其设置成: 緩存从语音釆集模块 32釆集到的语 音数据。 所述数据交互模块 34, 其设置成: 终端与云端之间的消息交互, 将本次 云笔记的头信息发送至云端,以及将语音緩存模块 33的緩冲区语音数据依次 提取并向云端发送。
在本应用示例中, 如图 4所示, 所述语音文字化的云笔记实现装置包括: 数据交互模块 41、 语音文字转换模块 42、 文档逻辑化处理模块 43、 数 据緩存模块 44和语音文字化云笔记生成模块 45 , 其中:
所述数据交互模块 41 , 其设置成: 云端与移动终端之间的消息交互, 接 收移动终端发送的本次云笔记的头信息并保存, 发送确认信息给所述终端; 并接收来自移动终端的数据交互模块发送过来的语音音频段的数据, 并循环 传递到语音文字转换模块 42, 以及接收来自移动终端结束本次云笔记消息, 并传递给语音文字化云笔记生成模块 45;
所述语音文字转换模块 42, 其设置成: 将数据交互模块 41传递来的语 音数据进行语音文字转换及空白段处理, 即识别当前釆集的音频段中的可识 别文字部分以及各空白段的时间段长度, 并生成格式化的处理结果, 所述处 理结果的格式为: 文字部分以及在文字前后、 文字中间分布的一个或多个空 白段的时间段长度, 该时间段长度单位为秒。 语音文字转换模块 42将格式化 的处理结果输出给文档逻辑化处理模块 43;
所述文档逻辑化处理模块 43 , 其设置成: 接收所述语音文字转换模块 42 发送来的格式化的处理结果, 并根据系统设定的所述空白段的时间段长度与 文档逻辑符号的对应逻辑规则,将语音文字转换模块 42输出的格式化的处理 结果进行文档逻辑化处理: 对于空白段, 根据其时间段长度分级转换为相应 的文档逻辑符号, 这里文档逻辑符号包括: 冒号、 逗号、 顿号、 双引号、 句 号, 以及换行符、 段落符等, 这样文档逻辑化处理模块 43就可以根据空白段 的时间段长短生成有文档逻辑符号有段落的云笔记文档了。 所述文档逻辑化 处理模块 43将逻辑化处理的当前结果存入数据緩存模块 44;
所述数据緩存模块 44, 其设置成: 緩存来自文档逻辑化处理模块 43循 环输出的文档数据;
所述语音文字化云笔记生成模块 45 , 其设置成: 在收到数据交互模块 41 发来的结束本次云笔记消息后,将数据緩存模块 44中的文档数据构建成整体 的文字化云笔记,并通过文档头信息生成本次云笔记的笔记文档,格式为 txt; 并将整体的文字化云笔记文档保存在用户账号下的云端个人数据中心的"云 笔记"中的"语音笔记"子目录中。
在本应用示例中, 以学生听讲座的语音场景为例, 釆用上述应用示例中 的移动终端和语音文字化的云笔记实现装置, 如图 5所示, 语音文字化的云 笔记实现方法, 包括以下步骤:
S201 : 用户点击移动终端语音文字化云笔记功能设置模块中的 "启动" 键;
S202: 用户进入登录云端的登录界面, 用户完成登录后进入 "启动" 配 置界面;
S203 : 用户完成语音文字化云笔记 "启动 "配置中的信息项 (包括: 云笔 记标题: 讲座 -2013.03.20、 角色说明: 学生、 场景说明: 听讲座)的信息配置, 作为本次云笔记的头信息, 然后, 通过系统提交给移动终端的数据交互模块; S204: 移动终端的数据交互模块把为本次语音文字化云笔记配置的头信 息发送给云端的数据交互模块;
S205: 云端的数据交互模块接收到本次语音文字化云笔记的头信息后, 给移动终端发送确认消息;
S206: 移动终端的数据交互模块接收到云端确认消息后, 提示用户本次 云笔记在用户 "确认" 后可开始工作;
S207: 用户 "确认" 后, 移动终端的语音釆集模块开始循环釆集语音数 据;
S208: 移动终端的语音釆集模块在釆集语音的每个循环中, 将釆集到的 语音数据存入移动终端的语音緩存模块;
S209: 移动终端的数据交互模块从移动终端的语音緩存模块中提取当前 緩存语音数据向云端的数据交互模块发送;
S210: 云端的数据交互模块接收到当前语音数据段后传递给云端的语音 文字转换模块; S211 : 云端的语音文字转换模块对当前的语音段数据进行语音文字转换 及空白段处理, 并生成格式化的处理结果, 将该处理结果输出给云端的文档 逻辑化处理模块;
S212: 云端的文档逻辑化处理模块根据系统设定的逻辑规则, 将语音文 字转换模块输出的格式化的处理结果进行文档逻辑化处理, 并将处理结果存 入云端的数据緩存模块;
S213 : 用户在终端侧关闭语音文字化云笔记功能, 移动终端的数据交互 模块向云端的数据交互模块发送语音文字化云笔记结束消息;
S214: 当云端的数据交互模块接收到该结束消息后, 调用语音文字化云 笔记生成模块; 语音文字化云笔记生成模块从云端的数据緩存模块中获取到 所有经文档逻辑化处理后的所有内容块后生成整体的笔记内容, 并通过文档 头信息生成本次云笔记的笔记文档, 格式为 txt; 并将本次云笔记完整的语音 文字化笔记文档保存在用户账号下的云端个人数据中心的 "云笔记"中的 "语音 笔记"子目录中。 从上述实施例可以看出, 相对于相关技术, 上述实施例中提供的云笔记 实现方法及装置, 通过移动终端作为语音信息入口, 利用移动终端循环釆集 分批上传音频数据, 以及其便携性和随时可以釆集音频数据的优点, 釆用移 动终端的緩冲技术将现场语音数据依次发送到云端, 利用云端高效的云计算 处理能力支撑下的语音文字化处理过程, 将语音数据转换为文字化信息, 形 成云笔记, 进入云服务的个人数据中心, 从而与云服务系统融通, 后续还可 以拓展各种云服务, 例如, 同步、 共享等, 把语音真正融入到通用的信息流 中, 真正实现互联网的语音信息化。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序 来指令相关硬件完成, 所述程序可以存储于计算机可读存储介质中, 如只读 存储器、 磁盘或光盘等。 可选地, 上述实施例的全部或部分步骤也可以使用 一个或多个集成电路来实现。 相应地, 上述实施例中的各模块 /单元可以釆用 硬件的形式实现, 也可以釆用软件功能模块的形式实现。 本发明不限制于任 何特定形式的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已, 并非用于限定本发明的保护范 围。 根据本发明的发明内容, 还可有其他多种实施例, 在不背离本发明精神 改变和变形, 凡在本发明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。
工业实用性
本发明实施例提供的一种云笔记实现方法及装置, 利用云端高效的云计 算处理能力支撑下的语音文字化处理过程, 将语音转换为文字化信息, 形成 云笔记, 进入云服务的个人数据中心, 从而与云服务系统融通, 后续还可以 进一步拓展各种云服务, 例如, 同步、 共享等, 把语音真正融入到通用的信 息流中, 真正实现互联网的语音信息化。

Claims

权 利 要 求 书
1、 一种云笔记实现方法, 包括: 云端接收终端发来的语音音频段的数据; 所述云端对所述语音音频段进行语音到文字的转换并生成格式化的处理 结果, 对所述格式化的处理结果再进行文档逻辑化处理; 以及 所述云端接收所述语音音频段的数据结束后, 根据所有经文档逻辑化处 理后的内容生成整体的云笔记文档。
2、 如权利要求 1所述的方法, 其中: 所述云端对所述语音音频段进行语音到文字的转换并生成格式化的处理 结果的步骤包括: 所述云端识别所述语音音频段中的可识别文字部分以及各空白段的时间 段长度, 生成格式化的处理结果, 所述处理结果的格式为: 文字部分以及在 文字前后或文字中间分布的一个或多个空白段的时间段长度。
3、 如权利要求 2所述的方法, 其中:
所述云端根据所述空白段的时间段长度与文档逻辑符号的对应关系, 将 所述空白段转换为相应的文档逻辑符号, 并将所述格式化的处理结果生成云 笔记文档。
4、 如权利要求 1所述的方法, 其中: 在所述云端接收终端发来的语音音频段的数据之前, 所述方法还包括: 所述云端接收所述终端发送的本次云笔记的头信息并保存, 并发送确认 信息给所述终端; 以及 当所述云端根据所有经文档逻辑化处理后的内容生成整体的云笔记文档 时, 将保存的本次云笔记的头信息作为所述云笔记文档的头信息。
5、 如权利要求 4所述的方法, 所述方法还包括: 所述云端将所述整体的云笔记文档保存在用户账号下的云端个人数据中 心的云笔记中的语音笔记子目录中。
6、 一种云笔记实现装置, 包括:
交互模块, 其设置成: 接收终端发来的语音音频段的数据; 语音文字化处理模块, 其设置成: 对所述语音音频段进行语音到文字的 转换并生成格式化的处理结果, 对所述格式化的处理结果再进行文档逻辑化 处理, 并将经文档逻辑化处理后的内容发送至语音文字化云笔记生成模块; 以及 语音文字化云笔记生成模块, 其设置成: 接收并保存所述语音文字化处 理模块发来的经文档逻辑化处理后的内容, 并在接收所述语音音频段的数据 结束后, 根据所有经文档逻辑化处理后的内容生成整体的云笔记文档。
7、 如权利要求 6所述的装置, 其中: 所述语音文字化处理模块还包括: 语音文字转换模块, 其设置成: 识别所述语音音频段中的可识别文字部 分以及各空白段的时间段长度, 生成格式化的处理结果, 并将所述格式化的 处理结果发送至文档逻辑化处理模块; 所述处理结果的格式为: 文字部分以 及在文字前后或文字中间分布的一个或多个空白段的时间段长度; 以及 文档逻辑化处理模块, 其设置成: 接收所述语音文字转换模块发送来的 格式化的处理结果, 并根据所述空白段的时间段长度与文档逻辑符号的对应 关系, 将所述空白段转换为相应的文档逻辑符号, 并将所述格式化的处理结 果生成云笔记文档。
8、 如权利要求 6所述的装置, 其中: 所述交互模块还设置成: 接收所述终端发送的本次云笔记的头信息并保 存, 并发送确认信息给所述终端; 以及 所述语音文字化云笔记生成模块还设置成: 当根据所有经文档逻辑化处 理后的内容生成整体的云笔记文档时, 将保存的本次云笔记的头信息作为所 述云笔记文档的头信息。
9、 如权利要求 8所述的装置, 其中: 所述语音文字化云笔记生成模块还设置成: 将所述整体的云笔记文档保 存在用户账号下的云端个人数据中心的云笔记中的语音笔记子目录中。
PCT/CN2013/079366 2013-03-22 2013-07-15 一种云笔记实现方法及装置 WO2013182129A2 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310094909.3 2013-03-22
CN201310094909.3A CN104064188A (zh) 2013-03-22 2013-03-22 一种语音文字化的云笔记实现方法及装置

Publications (2)

Publication Number Publication Date
WO2013182129A2 true WO2013182129A2 (zh) 2013-12-12
WO2013182129A3 WO2013182129A3 (zh) 2014-02-20

Family

ID=49712751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/079366 WO2013182129A2 (zh) 2013-03-22 2013-07-15 一种云笔记实现方法及装置

Country Status (2)

Country Link
CN (1) CN104064188A (zh)
WO (1) WO2013182129A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700687A (zh) * 2021-01-13 2021-04-23 中教云智数字科技有限公司 一种数字教材制作系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262784A (zh) * 2019-06-06 2019-09-20 秒针信息技术有限公司 一种云笔记实现方法及装置
CN111932964A (zh) * 2020-08-21 2020-11-13 扬州大学 一种在线直播教学方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181404A1 (en) * 2003-03-01 2004-09-16 Shedd Jonathan Elias Weather radio with speech to text recognition of audio forecast and display summary of weather
CN102299934A (zh) * 2010-06-23 2011-12-28 上海博路信息技术有限公司 一种基于云模式和语音识别的语音输入方法
CN202351853U (zh) * 2011-07-07 2012-07-25 张剑 一种基于云计算的语音输入系统
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
CN102750273A (zh) * 2012-06-19 2012-10-24 深圳市金立通信设备有限公司 一种将手机录音文件翻译为目标语言信息的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212452A1 (en) * 2005-03-18 2006-09-21 Cornacchia Louis G Iii System and method for remotely inputting and retrieving records and generating reports
US20070245223A1 (en) * 2006-04-17 2007-10-18 Microsoft Corporation Synchronizing multimedia mobile notes
EP1895745B1 (de) * 2006-08-31 2015-04-22 Swisscom AG Verfahren und Kommunikationssystem zum kontinuierlichen Aufnehmen von Umgebungsdaten
WO2012094422A2 (en) * 2011-01-05 2012-07-12 Health Fidelity, Inc. A voice based system and method for data input
US8825478B2 (en) * 2011-01-10 2014-09-02 Nuance Communications, Inc. Real time generation of audio content summaries
CN102231278B (zh) * 2011-06-10 2013-08-21 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
JP2013030163A (ja) * 2011-06-23 2013-02-07 Sk Network Inc クラウド型情報管理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181404A1 (en) * 2003-03-01 2004-09-16 Shedd Jonathan Elias Weather radio with speech to text recognition of audio forecast and display summary of weather
CN102299934A (zh) * 2010-06-23 2011-12-28 上海博路信息技术有限公司 一种基于云模式和语音识别的语音输入方法
CN202351853U (zh) * 2011-07-07 2012-07-25 张剑 一种基于云计算的语音输入系统
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
CN102750273A (zh) * 2012-06-19 2012-10-24 深圳市金立通信设备有限公司 一种将手机录音文件翻译为目标语言信息的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700687A (zh) * 2021-01-13 2021-04-23 中教云智数字科技有限公司 一种数字教材制作系统

Also Published As

Publication number Publication date
WO2013182129A3 (zh) 2014-02-20
CN104064188A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN110730952B (zh) 处理网络上的音频通信的方法和系统
WO2018054181A1 (zh) 一种虚拟资源的展示方法、客户端及插件
US10380206B2 (en) Search engine inference based virtual assistance
US8121842B2 (en) Audio output of a document from mobile device
WO2017016104A1 (zh) 问答信息的处理方法、装置、存储介质及设备
US10854199B2 (en) Communications with trigger phrases
JP2015501106A (ja) デジタル化された音声ストリームを分析するための低電力集積回路
CN110164437A (zh) 一种即时通信的语音识别方法和终端
CN104158945A (zh) 通话信息获取方法、装置及系统
WO2016101571A1 (zh) 一种语音翻译方法、通讯方法及相关装置
CN105282621A (zh) 一种语音消息可视化服务的实现方法及装置
WO2021103741A1 (zh) 内容处理方法、装置、计算机设备及存储介质
US10666588B2 (en) Method for sharing media content, terminal device, and content sharing system
CN111816190A (zh) 用于上位机与下位机的语音交互方法和装置
WO2018133656A1 (zh) 将语音输入转换成文本输入的方法、装置和语音输入设备
WO2013182129A2 (zh) 一种云笔记实现方法及装置
CN104079580A (zh) 教务教学图像语音识别系统及方法
CN112306560B (zh) 用于唤醒电子设备的方法和装置
JP6297933B2 (ja) 音声データ送信装置およびその動作方法
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
TWM515143U (zh) 語音翻譯系統及翻譯處理裝置
US20160157129A1 (en) Compressing and transmitting structured information
CN112581934A (zh) 一种语音合成方法、装置及系统
CN112217644A (zh) 数字签名方法、设备、系统及存储介质
WO2024032111A9 (zh) 在线会议的数据处理方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
122 Ep: pct application non-entry in european phase

Ref document number: 13799905

Country of ref document: EP

Kind code of ref document: A2