TWI774654B - 基於語音識別的即時通信方法和即時通信系統 - Google Patents

基於語音識別的即時通信方法和即時通信系統 Download PDF

Info

Publication number
TWI774654B
TWI774654B TW106102454A TW106102454A TWI774654B TW I774654 B TWI774654 B TW I774654B TW 106102454 A TW106102454 A TW 106102454A TW 106102454 A TW106102454 A TW 106102454A TW I774654 B TWI774654 B TW I774654B
Authority
TW
Taiwan
Prior art keywords
information
text information
receiving
voice
sending
Prior art date
Application number
TW106102454A
Other languages
English (en)
Other versions
TW201733376A (zh
Inventor
鄢志杰
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201733376A publication Critical patent/TW201733376A/zh
Application granted granted Critical
Publication of TWI774654B publication Critical patent/TWI774654B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本發明揭示一種基於語音識別的即時通信方法和即時通信系統,該即時通信方法包括:接收發送終端發送的語音資訊;將該語音資訊進行語音識別,產生文字資訊;將該語音資訊發送至接收終端;以及將該文字資訊發送至接收終端。本發明提出一種基於語音識別的即時通信方法和即時通信系統,將語音資訊透過識別產生文字資訊,透過伺服器將語音資訊和文字資訊均發送至接收終端,克服了某些場合下接收終端收到語音資訊後無法收聽的障礙,避免了使用者隱私洩露的問題。

Description

基於語音識別的即時通信方法和即時通信系統
本發明關於即時通信技術領域,尤其關於一種基於語音識別的即時通信方法和即時通信系統。
透過手機或平板電腦的社交app對講聊天是很多軟體常用的便利功能,例如騰訊的微信、阿裡的釘釘、支付寶、淘寶等都具備這樣的功能。目前這類功能主要的實現方式是發送終端透過語音方式錄製自己的留言,接受方點按收到的資訊,透過聽筒或外放收聽。
這類功能在方便發送終端的同時,對接收終端實際帶來了一定障礙。主要缺點在於:接收終端無法像文字資訊一樣一目了然的看到資訊內容,需要點按再將手機或平板拿到耳邊用聽筒收聽,或是用手機或平板的揚聲器外放,這在很多場合(例如會議中、或旁邊有其他人),這是非常不便的,也可能存在隱私洩露的問題。
鑒於上述問題,提出了本發明實施例以便提供一種克 服上述問題或者至少部分地解決上述問題的基於語音識別的即時通信方法和即時通信系統。
為解決上述問題,本發明揭示一種基於語音識別的即時通信方法,包括:接收發送終端發送的語音資訊;將該語音資訊進行語音識別,產生文字資訊;將該語音資訊發送至接收終端;以及將該文字資訊發送至接收終端。
本發明另一實施例提出一種基於語音識別的即時通信方法,包括:錄製語音資訊並發送至伺服器;接收經過識別該語音資訊產生的文字資訊,並顯示該文字資訊;在接收到糾正操作指令後,進入編輯文字資訊的介面;顯示編輯後文字資訊,並將編輯後文字資訊發送至伺服器。
本發明再一實施例提出一種基於語音識別的即時通信方法,包括:接收伺服器發送的語音資訊;接收伺服器發送的識別該語音資訊後產生的文字資訊;顯示並標記該文字資訊。
本發明一實施例提出一種基於語音識別的即時通信系 統,其特徵在於,包括:語音資訊接收模組,用於接收發送終端發送的語音資訊;文字資訊產生模組,用於將該語音資訊進行語音識別,產生文字資訊;第一發送模組,用於將該語音資訊發送至接收終端;以及第二發送模組,用於將該文字資訊發送至接收終端。
本發明另一實施例提出一種基於語音識別的即時通信系統,包括:語音資訊錄製發送模組,用於錄製語音資訊並發送至伺服器;文字資訊接收顯示模組,用於接收經過識別該語音資訊產生的文字資訊,並顯示該文字資訊;編輯模組,用於在接收到糾正操作指令後,進入編輯文字資訊的介面;顯示發送模組,用於顯示編輯後文字資訊,並將編輯後文字資訊發送至伺服器。
本發明再一實施例提出一種基於語音識別的即時通信系統,包括:語音資訊獲取模組,用於接收伺服器發送的語音資訊;文字資訊獲取模組,用於接收伺服器發送的識別該語音資訊後產生的文字資訊; 文字資訊顯示標記模組,用於顯示並標記該文字資訊。
本發明實施例至少具有以下優點:本發明實施例提出的基於語音識別的即時通信方法和即時通信系統中,透過語音識別功能,將語音資訊和文字資訊均發送至接收終端,克服了接收終端獲得資訊的障礙,方便了使用者的使用,避免了隱私洩露的問題。
S101、S102、S103、S104‧‧‧方法步驟
S201、S202、S203、S204、S205、S206、S207、S208、S209‧‧‧方法步驟
S301、S302、S302a、S302b、S303、S304‧‧‧方法步驟
S401、S402、S402a、S403、S404、S405‧‧‧方法步驟
500‧‧‧即時通信系統
501‧‧‧語音資訊接收模組
502‧‧‧文字資訊產生模組
503‧‧‧第一發送模組
504‧‧‧第二發送模組
600‧‧‧即時通信系統
601‧‧‧語音資訊接收模組
602‧‧‧文字資訊產生模組
603‧‧‧第一發送模組
604‧‧‧第二發送模組
605‧‧‧第三發送模組
606‧‧‧資訊收發模組
607‧‧‧第一儲存模組
608‧‧‧第四發送模組
609‧‧‧資訊收發模組
610‧‧‧文字資訊關聯模組
700‧‧‧即時通信系統
701‧‧‧語音資訊錄製發送模組
702‧‧‧文字資訊接收顯示模組
703‧‧‧編輯模組
704‧‧‧顯示發送模組
705‧‧‧輔助修改資訊接收模組
706‧‧‧語音資訊播放模組
800‧‧‧即時通信系統
801‧‧‧語音資訊獲取模組
802‧‧‧文字資訊獲取模組
803‧‧‧文字資訊顯示標記模組
804‧‧‧標記資訊獲取模組
805‧‧‧語音資訊播放模組
806‧‧‧接收顯示模組
圖1是本發明第一實施例的基於語音識別的即時通信方法的流程圖。
圖2是本發明第二實施例的基於語音識別的即時通信方法的流程圖。
圖3是本發明第三實施例的基於語音識別的即時通信方法的流程圖。
圖4是本發明第四實施例的基於語音識別的即時通信方法的流程圖。
圖5是對應於本發明第一實施例的基於語音識別的即時通信方法的即時通信系統的方塊圖。
圖6是對應於本發明第二實施例的基於語音識別的即時通信方法的即時通信系統的方塊圖。
圖7是對應於本發明第三實施例的基於語音識別的即時通信方法的即時通信系統的方塊圖。
圖8是對應於本發明第四實施例的基於語音識別的即 時通信方法的即時通信系統的方塊圖。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬於本發明保護的範圍。
本發明的核心思想之一在於,提出一種即時通信方法和即時通信系統,使用語音識別將語音資訊進行識別,並透過伺服器將文字資訊直接顯示在發送終端和接收終端的螢幕上,方便了接收終端接收資訊,克服了某些場合下接收終端收到語音資訊後無法收聽的障礙,避免了使用者隱私洩露的問題。
第一實施例
本發明第一實施例提出一種基於語音識別的即時通信方法,如圖1所示為本發明第一實施例的基於語音識別的即時通信方法的流程圖。本發明第一實施例中的即時通信方法應用於伺服器,包括如下步驟:
S101,接收發送終端發送的語音資訊;在這一步驟中,發送終端可以在即時通信介面(例如聊天介面)錄製語音資訊,錄音完成之後鬆開該標記或按鈕,則錄製完成。之後,發送終端將語音資訊透過網路發 送至伺服器。
S102,將該語音資訊識別為文字資訊;在這一步驟中,伺服器接受到該方發送的語音資訊之後,透過語音識別技術,將該語音資訊識別為文字資訊。語音識別技術是本領域常用的技術,在此並不贅述。
S103,將該語音資訊發送至接收終端;在這一步驟中,伺服器將步驟S101中接收到的語音資訊發送至接收終端。
值得注意的是,步驟S103可以與步驟S102同時執行或先後執行,當先後執行時,步驟S102和步驟S103的步驟順序並不特別限定。
S104,將識別後產生的該文字資訊發送至接收終端;在這一步驟中,伺服器將經過語音識別處理後產生的文字資訊發送給接收終端。較佳地,在這一步驟中,伺服器在發送文字資訊的同時發送指定標記,用於區別由語音資訊轉成的文字資訊和發送方直接以文字方式輸入的文字資訊。
值得注意的是,當步驟S103在步驟S102之後執行時,步驟S104可以與步驟S103同時執行,或者步驟S104可以先於或後於步驟S103執行,本發明並不特別限定。
在一實施例中,可以先執行步驟S103,將步驟S101中收到的語音資訊發送至接收終端,再執行步驟S102,將語音資訊經過語音識別產生文字資訊,之後執行步驟 S104,將識別後產生的文字資訊發送至接收終端;在另一實施例中,可以先執行步驟S102,將步驟S101中收到的語音資訊進行語音識別產生文字資訊,再同時或先後執行步驟S103和步驟S104,將語音資訊和識別後產生的文字資訊發送至接收終端。
綜上所述,本發明第一實施例提出一種基於語音識別的即時通信方法,將語音資訊透過識別產生文字資訊,透過伺服器將語音資訊和文字資訊均發送至接收終端。該實施例提供的即時通信方法方便了接收終端接收資訊,克服了某些場合下接收終端收到語音資訊後無法收聽的障礙,避免了使用者隱私洩露的問題。
第二實施例
本發明第二實施例提出一種基於語音識別的即時通信方法,如圖2所示為本發明第二實施例的基於語音識別的即時通信方法的流程圖。本發明第一實施例中的即時通信方法應用於伺服器,包括如下步驟:
S201,接收發送終端發送的語音資訊;
S202,將該語音資訊識別為文字資訊;
S203,將該語音資訊發送至接收終端;
S204,將識別後產生的該文字資訊發送至接收終端;
上述步驟S201至S204與第一實施例中的步驟S101至步驟S104相同或相似,在此並不贅述。
在一較佳實施例中,在步驟S202之後,該方法還可 以包括
S205,將識別後產生的該文字資訊發送至發送終端;在這一步驟中,伺服器將在步驟S202中產生的文字資訊發送至發送終端。
其中,步驟S205、步驟S204和步驟S203的執行順序並不限制,三者可以同時執行,或者以任意順序先後執行,本發明並不特別限制。
另外,在步驟S202之後,所述方法還可以包括:
S206,將識別後產生的該文字資訊儲存於資料庫;在這一步驟中,伺服器將識別後產生的文字資訊發送至與伺服器連接的資料庫中備用。這一步驟S206可以與步驟S203至S205中的任一者同時或以任意順序先後執行,本發明並不特別限制。
在步驟S202之後,所述方法還可以包括:
S207,將輔助錯誤糾正資訊發送至發送終端;這一步驟可以與步驟S203至S205中的任一者同時或以任意順序先後執行,本發明並不特別限制。較佳地,步驟S207可以與步驟S205同時執行,即在將識別後產生的文字資訊發送至發送終端的同時,將錯誤輔助糾正資訊同時發送至發送終端,供發送終端修改識別後的文字資訊。
在語音識別過程中,將會產生詞圖(word graph)及識別詞多候選資訊,在步驟S207中,可以根據詞圖裡的資訊,使用演算法,推薦備選的糾錯詞給使用者點選。這些資訊透過回傳發送終端,可以輔助更高效的對識別文字 進行錯誤糾正。例如,當發送終端的使用者選擇錯誤糾正、並點擊識別錯誤的某字詞時,可透過輔助糾正資訊得到該字詞的其他候選字詞,並顯示在虛擬鍵盤上,使用者可透過點擊正確候選高效的進行錯誤糾正。具體地,舉例來說,使用者說:“我要買黃色的”,語音識別錯誤識別成“我要買紅色的”,當使用者點擊“紅色”這個詞時,演算法可根據詞圖資訊,提示出“黃色”這個第二候選供使用者點選。用戶點擊“黃色”,即完成了替換糾錯的操作,非常簡單快捷。
之後,所述方法還可以包括:
步驟S208,接收發送終端發出的編輯後文字資訊,並發送至接收終端;在這一步驟中,當發送終端的使用者完成糾正後,發送終端將編輯後文字資訊發送至伺服器,伺服器接收該編輯後文字資訊,並發送至接收終端。
較佳地,在步驟S208之後,本發明還可以包括:
步驟S209,將編輯後文字資訊發送至資料庫。
在這一步驟中,被糾正過的自動語音識別結果價值很高、尤為重要,它提示了:1)伺服器未能完全正確地識別該語音資訊;2)該語音資訊的正確文字資訊已由使用者透過糾正給出。對這類編輯後文字資訊,可以利用語音識別系統的訓練演算法,記錄識別錯誤的文字內容、所對應的語音內容和正確的語音內容,避免此後再犯類似錯誤。這類錯誤糾正資料對語音識別系統自我進化的功能是 其他資料所不可比擬的。
綜上所述,本發明第二實施例提出一種基於語音識別的即時通信方法,將語音資訊透過識別產生文字資訊,透過伺服器將語音資訊和文字資訊均發送至接收終端,並將文字資訊發送至發送終端,在發送給發送終端之後提供輔助修改資訊,利用該資訊可以讓發送終端的使用者能夠高效地修改。該實施例提供的即時通信方法方便了接收終端接收資訊,克服了某些場合下接收終端收到語音資訊後無法收聽的障礙,避免了使用者隱私洩露的問題,同時進一步保證了接收終端接收到資訊的準確性。
第三實施例
本發明第三實施例提出一種基於語音識別的即時通信方法,如圖3所示為本發明第三實施例的基於語音識別的即時通信方法的流程圖。本發明第三實施例中的即時通信方法應用於資訊的發送終端,包括如下步驟:
S301,錄製語音資訊並發送至伺服器;在這一步驟中,發送終端可以在即時通信介面(例如聊天介面)錄製語音資訊,例如按住輸入塊的指定標記或按鈕不放,則開始錄音,錄音完成之後鬆開該標記或按鈕,則錄製完成。在錄製完成之後,該即時通信介面可以預設為直接發送,或者發送終端點擊另一標記或按鈕,將資訊透過網路發送至伺服器。
S302,接收經過伺服器識別該語音資訊後的產生文字 資訊,並顯示該文字資訊;在這一步驟中,伺服器將發送終端發送的語音資訊進行語音識別產生文字資訊並回傳給發送終端,發送終端接收識別後的文字資訊,並進行顯示。例如在聊天介面,發送終端在步驟S301中將錄製好的語音資訊發送給伺服器,在此步驟S302中,發送終端可在同一聊天介面中接收伺服器回傳的識別該語音資訊後產生的文字資訊,並顯示於該聊天介面。
S303,在接收到糾正操作指令後,開啟錯誤糾正介面,進入編輯文字資訊的介面;在這一步驟中,當發送終端的使用者認為語音識別後產生的文字資訊的內容與語音資訊不一致,則可以透過發出糾正操作指令開啟錯誤糾正介面。例如,糾正操作指令可以為使用者長按該文字資訊,發送終端即接收該指令並開啟錯誤糾正介面,進入編輯文字狀態,同時該糾正介面可以顯示虛擬鍵盤或者手寫鍵盤等輸入介面,供使用者糾正錯誤。使用者可以透過虛擬鍵盤等對文字資訊進行增、刪等操作。
之後,本方法還可以包括:
S304,顯示編輯後文字資訊,並將編輯後文字資訊發送至伺服器。
在這一步驟中,發送終端的使用者編輯之後的編輯後文字資訊已顯示在發送端,該文字資訊同時由發送終端上傳至伺服器中,由該伺服器發送至接收方並進行同步顯 示,本發明不再贅述。
在一較佳實施例中,步驟S302之後還可以包括:
步驟S302a,接收伺服器發送的輔助修改資訊;在這一步驟中,將在語音識別過程中產生的詞圖(word graph)及識別詞多候選資訊發送至發送終端,可以輔助發送終端使用者更高效的對識別文字進行錯誤糾正。
在步驟S303中,該錯誤糾正介面不僅可以顯示文字資訊進入編輯狀態、虛擬鍵盤或者手寫鍵盤等輸入介面,同時可以顯示步驟S302a中伺服器發送的輔助修改資訊,例如,當伺服器認為語音識別之後產生的文字資訊中某一句話或某一個詞不符合語法構成,則可以在該句或該詞的下方加上虛線底線,同時在發送終端顯示介面的其他位置(例如輸入介面)顯示伺服器發送來的輔助修改資訊中包含的多個候選詞,供使用者點選正確的候選詞。或者,當發送方選擇錯誤糾正、並點擊識別錯誤的某字詞時,可透過輔助糾正資訊得到該字詞的其他候選字詞,並顯示在虛擬鍵盤上,使用者可透過點擊正確候選高效的進行錯誤糾正。
在一較佳實施例中,步驟S302之後還包括:
S302b,在接收到播放語音資訊指令後,播放語音資訊;在該步驟中,若發送終端的使用者透過點擊所顯示的文字資訊等方式發出播放語音資訊指令,則發送終端可以 透過聽筒或揚聲器播放在步驟3101中錄製的語音資訊。
綜上所述,本發明第三實施例提出一種基於語音識別的即時通信方法,將語音資訊透過識別產生文字資訊,並提供錯誤糾正功能,可以讓發送終端的使用者能夠修改識別後的文字資訊。該實施例提供的即時通信方法方便了接收終端接收資訊,克服了某些場合下接收終端收到語音資訊後無法收聽的障礙,避免了使用者隱私洩露的問題,同時保證了接收終端接收到資訊的準確性。
較佳地,本發明第三實施例還可以接收伺服器發出的輔助修改資訊,可以讓使用者高效地修改文字資訊,進一步提高了資訊的準確性和及時性。
第四實施例
本發明第四實施例提出一種基於語音識別的即時通信方法,如圖4所示為本發明第四實施例的基於語音識別的即時通信方法的流程圖。本發明第四實施例中的即時通信方法應用於資訊的接收終端,包括如下步驟:
S401,接收伺服器發送的語音資訊;在這一步驟中,發送終端錄製語音資訊並發送至伺服器,在由伺服器將該語音資訊發送至接收終端;
S402,接收伺服器發送的識別該語音資訊後產生的文字資訊;在這一步驟中,伺服器將該語音資訊經過語音識別產生文字資訊之後,發送至接收終端,接收終端接收經過識 別產生的這一文字資訊。
值得注意的是,步驟S401和步驟S402可以同時或先後執行,即接收終端可以同時或先後接收語音資訊和產生的文字資訊,本發明並不特別限制。較佳地,伺服器將語音資訊轉成文字資訊之後,再將語音資訊和文字資訊同時發送給接收終端,接收終端同時接收該語音資訊和該文字資訊。
S403,顯示並標記該文字資訊;在這一步驟中,接收終端可以將該文字資訊顯示於即時通信的介面上。由於該文字資訊是由語音資訊經過識別後產生,為了將其區別於發送方直接以文字輸入的文字資訊,可以對該文字資訊進行標記,例如透過設置特別的底色、字體、標記特別的字元(例如“語音識別”或“ASR”)來區分普通文字資訊和語音識別的文字資訊。
在標記該文字資訊中,一種可能的方式是,當接收終端接收到語音資訊和對應於該語音資訊的文字資訊,則接收終端將該文字資訊進行標記,使之區別於伺服器發來的由發送終端直接以文字形式輸入的文字資訊;另一種可能的方式是,伺服器在發送該文字資訊時同時發送標記,該標記與該文字資訊同時顯示於接收終端的顯示介面上。在這一種情況下,步驟S402之後還包括:
S402a,接收伺服器發送的標記資訊。
在這一步驟中,這一標記資訊例如可以為設置特別的底色、字體、標記特別的字元(例如“語音識別”或 “ASR”)等。
較佳地,在步驟S403之後,該方法還可以包括:
S404,當接收到使用者的播放該語音資訊的指令,播放該語音資訊;在這一實施例中,播放語音資訊的指令可以為使用者點擊該文字資訊,當使用者點擊所顯示的文字資訊,該接收終端怎透過聽筒或揚聲器播放步驟S401中接收到的語音資訊; 較佳地,在步驟S403之後,該方法還可以包括:
S405,接收伺服器發送的編輯後文字資訊,並顯示編輯後文字資訊;在該步驟中,當發送終端對文字資訊進行錯誤糾正後,發送終端將糾正後文字資訊發送至伺服器,由伺服器發送至接收終端,接收終端接收該編輯後文字資訊,並進行顯示。較佳地,接收終端可以用編輯後文字資訊覆蓋修改之前的文字資訊。
綜上所述,本發明第四實施例提出一種基於語音識別的即時通信方法,將語音資訊透過識別產生文字資訊,並提供錯誤糾正功能,可以讓接收終端的使用者直接接收經過語音識別的文字資訊,並能夠明確該文字資訊是由發送終端直接以文字形式發出還是經過語音識別後產生的文字資訊。該實施例提供的即時通信方法方便了接收終端接收資訊,克服了某些場合下接收終端收到語音資訊後無法收聽的障礙,避免了使用者隱私洩露的問題。
圖5所示為對應於本發明第一實施例的基於語音識別的即時通信方法的即時通信系統,如圖5所示,該實施例中的即時通信系統500包括如下模組:語音資訊接收模組501,用於接收發送終端發送的語音資訊;文字資訊產生模組502,用於將該語音資訊進行語音識別,產生文字資訊;第一發送模組503,用於將該語音資訊發送至接收終端;以及第二發送模組504,用於將該文字資訊發送至接收終端。
圖6所示為對應於本發明第二實施例的基於語音識別的即時通信方法的即時通信系統600,如圖6所示,在一較佳實施例中,除了上述語音資訊接收模組601、文字資訊產生模組602、第一發送模組603、第二發送模組604之外,所述系統600還包括:第三發送模組605,用於將該文字資訊發送至發送終端。
此外,所述系統600還包括:資訊收發模組606,用於接收所述發送終端發出的編輯後文字資訊,並發送至接收終端。
在一較佳實施例中,所述系統還包括:第一儲存模組607,將該文字資訊儲存於資料庫。
在一較佳實施例中,所述系統還包括:第四發送模組608,用於將輔助錯誤糾正資訊發送至發送終端;以及資訊收發模組609,用於接收所述發送終端發出的編輯後文字資訊,並發送至接收終端。
在一較佳實施例中,所述系統還包括:文字資訊關聯模組610,用於將編輯後文字資訊發送至資料庫,並與糾正前的所述文字資訊關聯。
在一較佳實施例中,所述輔助錯誤糾正資訊包括針對所述文字資訊的指定字、詞或句的詞圖和候選字詞。
在一較佳實施例中,所述指定字、詞或句的詞圖和候選字詞從所述資料庫中獲得。
在一較佳實施例中,所述第一發送模組和所述第二發送模組同時執行,將所述將該語音資訊和所述文字資訊同時發送至接收終端。
圖7所示為對應於本發明第三實施例的基於語音識別的即時通信方法的即時通信系統,如圖7所示,該實施例中的即時通信系統700包括如下模組:語音資訊錄製發送模組701,用於錄製語音資訊並發送至伺服器;文字資訊接收顯示模組702,用於接收經過識別該語音資訊產生的文字資訊,並顯示該文字資訊;編輯模組703,用於在接收到糾正操作指令後,進入編輯文字資訊的介面;顯示發送模組704,用於顯示編輯後文字資訊,並將 編輯後文字資訊發送至伺服器。
在一較佳實施例中,所述系統還包括:輔助修改資訊接收模組705,用於接收伺服器發送的輔助修改資訊。
在一較佳實施例中,所述輔助修改資訊包括針對所述文字資訊的指定字、詞或句的詞圖和候選字詞,所述候選字詞顯示在所述編輯文字資訊的介面中。
在一較佳實施例中,所述編輯文字資訊的介面包括輸入介面。
在一較佳實施例中,所述系統還包括:語音資訊播放模組706,用於在接收到播放語音資訊指令後,播放語音資訊。
在一較佳實施例中,所述播放語音資訊指令透過使用者點擊該文字資訊產生。
圖8所示為對應於本發明第四實施例的基於語音識別的即時通信方法的即時通信系統,如圖8所示,該實施例中的即時通信系統800包括如下模組:語音資訊獲取模組801,用於接收伺服器發送的語音資訊;文字資訊獲取模組802,用於接收伺服器發送的識別該語音資訊後產生的文字資訊;文字資訊顯示標記模組803,用於顯示並標記該文字資訊。
在一較佳實施例中,所述系統還包括:標記資訊獲取模組804,用於接收伺服器發送的標記資訊。
在一較佳實施例中,所述文字資訊獲取模組和所述標記資訊獲取模組同時執行,將所述文字資訊和所述標記資訊同時獲取。
在一較佳實施例中,文字資訊顯示標記模組用於顯示所述文字資訊,利用所述標記資訊對所述文字資訊進行標記。
在一較佳實施例中,所述系統還包括:語音資訊播放模組805,用於當接收到使用者的播放該語音資訊的指令,播放該語音資訊。
在一較佳實施例中,所述播放該語音資訊的指令透過使用者點擊該文字資訊產生。
在一較佳實施例中,所述系統還包括:接收顯示模組806,用於接收伺服器發送的編輯後文字資訊,並顯示該編輯後文字資訊。
在一較佳實施例中,所述編輯後文字資訊以覆蓋編輯前文字資訊的方式顯示。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
綜上所述,本發明實施例提出的基於語音識別的即時通信方法和即時通信系統,至少具有以下優點:
(1)本發明實施例提出的基於語音識別的即時通信 方法和即時通信系統中,透過語音識別功能,克服了接收終端獲得資訊的障礙,方便了使用者的使用,避免了隱私洩露的問題。
(2)本發明實施例提出的基於語音識別的即時通信方法和即時通信系統中,透過錯誤修改功能,使得發送終端有機會糾正語音識別系統的錯誤;
(3)本發明實施例提出的基於語音識別的即時通信方法和即時通信系統中,透過資料收集功能,獲得真實識別錯誤資料以改進語音識別系統的性能。
(4)本發明實施例提出的基於語音識別的即時通信方法和即時通信系統中,錯誤糾正的步驟方便發送終端進行錯誤糾正;
(5)本發明實施例提出的基於語音識別的即時通信方法和即時通信系統中,資訊標記的步驟方便接收終端辨識收到的資訊是虛擬鍵盤輸入還是語音資訊;
(6)本發明實施例提出的基於語音識別的即時通信方法和即時通信系統中,如果是語音資訊,接收終端可以點選識別語音資訊後產生的文字資訊,對原始的語音資訊進行重播。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實 施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信號儲存。信號可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的信號。按照本文中的界定,電腦可讀媒體不包括暫態性的電腦可讀媒體(transitory media),如調變的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意 欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種基於語音識別的即時通信方法和即時通信系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (26)

  1. 一種基於語音識別的即時通信方法,其特徵在於,包括:接收發送終端發送的語音資訊;將該語音資訊進行語音識別,產生文字資訊;將該語音資訊發送至接收終端;以及將該文字資訊發送至該接收終端,其中,在將該語音資訊進行語音識別,產生文字資訊之後,該方法還包括:將該文字資訊發送至發送終端,且在將該文字資訊發送至發送終端之後,該方法還包括:接收該發送終端發出的編輯後文字資訊,並發送至該接收終端。
  2. 如申請專利範圍第1項所述的即時通信方法,其中,在將該語音資訊進行語音識別,產生文字資訊之後,並在接收該發送終端發出的編輯後文字資訊,並發送至接收終端之前,該方法還包括:將輔助錯誤糾正資訊發送至發送終端,該輔助錯誤糾正資訊包括針對該文字資訊的指定字、詞或句的詞圖和候選字詞。
  3. 如申請專利範圍第1項所述的即時通信方法,其中,在將該語音資訊進行語音識別,產生文字資訊之後,該方法還包括: 將該文字資訊儲存於資料庫;在將該語音資訊進行語音識別,產生文字資訊之後,該方法還包括:將輔助錯誤糾正資訊發送至發送終端;接收該發送終端發出的編輯後文字資訊,並發送至接收終端;以及在接收發送終端發出的編輯後文字資訊,並發送至接收終端之後,該方法還包括:將編輯後文字資訊發送至資料庫,並與糾正前的該文字資訊關聯。
  4. 如申請專利範圍第3項所述的即時通信方法,其中,該輔助錯誤糾正資訊包括針對該文字資訊的指定字、詞或句的詞圖和候選字詞,該指定字、詞或句的詞圖和候選字詞從該資料庫中獲得。
  5. 一種基於語音識別的即時通信方法,其特徵在於,包括:錄製語音資訊並發送至伺服器;接收經過該伺服器識別該語音資訊產生的文字資訊,並顯示該文字資訊;在接收到糾正操作指令後,進入編輯文字資訊的介面;以及顯示編輯後文字資訊,其中,在接收經過該伺服器識別該語音資訊產生的文字資訊之後,該方法還包括: 編輯該文字資訊,並將編輯後文字資訊發送至該伺服器,由該伺服器發送至接收終端,由該接收終端顯示並標記該編輯後文字資訊。
  6. 如申請專利範圍第5項所述的即時通信方法,其中,在接收經過識別該語音資訊產生的文字資訊,並顯示該文字資訊之後,該方法還包括:接收伺服器發送的輔助修改資訊,該輔助修改資訊包括針對該文字資訊的指定字、詞或句的詞圖和候選字詞,該候選字詞顯示在該編輯文字資訊的介面中。
  7. 如申請專利範圍第5項所述的即時通信方法,其中,在接收經過識別該語音資訊產生的文字資訊,並顯示該文字資訊之後,該方法還包括:在接收到播放語音資訊指令後,播放語音資訊。
  8. 如申請專利範圍第7項所述的即時通信方法,其中,該播放語音資訊指令透過使用者點擊該文字資訊產生。
  9. 一種基於語音識別的即時通信方法,其特徵在於,包括:接收伺服器發送的語音資訊;接收該伺服器發送的識別該語音資訊後產生的文字資訊;以及顯示並標記該文字資訊,其中,該顯示並標記該文字資訊的步驟之後,該方法還包括: 當接收到使用者的播放該語音資訊的指令,播放該語音資訊,該播放該語音資訊的指令透過使用者點擊該文字資訊產生。
  10. 如申請專利範圍第9項所述的即時通信方法,其中,該方法還包括:接收伺服器發送的標記資訊。
  11. 如申請專利範圍第10項所述的即時通信方法,其中,該顯示並標記該文字資訊的步驟包括:顯示該文字資訊,利用該標記資訊對該文字資訊進行標記。
  12. 如申請專利範圍第9項所述的即時通信方法,其中,在顯示並標記該文字資訊的步驟之後,該方法還包括:接收伺服器發送的編輯後文字資訊,並顯示該編輯後文字資訊。
  13. 如申請專利範圍第12項所述的即時通信方法,其中,該編輯後文字資訊以覆蓋編輯前文字資訊的方式顯示。
  14. 一種基於語音識別的即時通信系統,其特徵在於,包括:語音資訊接收模組,用於接收發送終端發送的語音資訊;文字資訊產生模組,用於將該語音資訊進行語音識別,產生文字資訊; 第一發送模組,用於將該語音資訊發送至接收終端;第二發送模組,用於將該文字資訊發送至接收終端;第三發送模組,用於將該文字資訊發送至該發送終端;以及資訊收發模組,用於接收該發送終端發出的編輯後文字資訊,並發送至該接收終端。
  15. 如申請專利範圍第14項所述的即時通信系統,其中,該系統還包括:第四發送模組,用於將輔助錯誤糾正資訊發送至發送終端,該輔助錯誤糾正資訊包括針對該文字資訊的指定字、詞或句的詞圖和候選字詞。
  16. 如申請專利範圍第14項所述的即時通信系統,其中,該系統還包括:第一儲存模組,將該文字資訊儲存於資料庫;第四發送模組,用於將輔助錯誤糾正資訊發送至發送終端;資訊收發模組,用於接收該發送終端發出的編輯後文字資訊,並發送至接收終端;以及文字資訊關聯模組,用於將編輯後文字資訊發送至資料庫,並與糾正前的該文字資訊關聯。
  17. 如申請專利範圍第16項所述的即時通信系統,其中,該輔助錯誤糾正資訊包括針對該文字資訊的指定字、詞或句的詞圖和候選字詞,該指定字、詞或句的詞圖和候選字詞從該資料庫中獲得。
  18. 一種基於語音識別的即時通信系統,其特徵在於,包括:語音資訊錄製發送模組,用於錄製語音資訊並發送至伺服器;文字資訊接收顯示模組,用於接收經過識別該語音資訊產生的文字資訊,並顯示該文字資訊;編輯模組,用於在接收到糾正操作指令後,進入編輯文字資訊的介面;以及顯示發送模組,用於顯示編輯後文字資訊,其中,在該文字資訊接收顯示模組接收經過該伺服器識別該語音資訊產生的文字資訊之後,由該編輯模組編輯該文字資訊,並由該顯示發送模組將該編輯後文字資訊發送至該伺服器,由該伺服器發送至接收終端,由該接收終端顯示並標記該編輯後文字資訊。
  19. 如申請專利範圍第18項所述的即時通信系統,其中,該系統還包括:輔助修改資訊接收模組,用於接收伺服器發送的輔助修改資訊,該輔助修改資訊包括針對該文字資訊的指定字、詞或句的詞圖和候選字詞,該候選字詞顯示在該編輯文字資訊的介面中。
  20. 如申請專利範圍第18項該的即時通信系統,其中,該系統還包括:語音資訊播放模組,用於在接收到播放語音資訊指令後,播放語音資訊。
  21. 如申請專利範圍第20項所述的即時通信系統,其中,該播放語音資訊指令透過使用者點擊該文字資訊產生。
  22. 一種基於語音識別的即時通信系統,其特徵在於,包括:語音資訊獲取模組,用於接收伺服器發送的語音資訊;文字資訊獲取模組,用於接收伺服器發送的識別該語音資訊後產生的文字資訊;文字資訊顯示標記模組,用於顯示並標記該文字資訊;以及語音資訊播放模組,用於當接收到使用者的播放該語音資訊的指令,播放該語音資訊,該播放該語音資訊的指令透過使用者點擊該文字資訊產生。
  23. 如申請專利範圍第22項所述的即時通信系統,其中,該系統還包括:標記資訊獲取模組,用於接收伺服器發送的標記資訊。
  24. 如申請專利範圍第23項所述的即時通信系統,其中,文字資訊顯示標記模組用於顯示該文字資訊,利用該標記資訊對該文字資訊進行標記。
  25. 如申請專利範圍第22項所述的即時通信系統,其中,該系統還包括:接收顯示模組,用於接收伺服器發送的編輯後文字資 訊,並顯示該編輯後文字資訊。
  26. 如申請專利範圍第25項所述的即時通信系統,其中,該編輯後文字資訊以覆蓋編輯前文字資訊的方式顯示。
TW106102454A 2016-01-26 2017-01-23 基於語音識別的即時通信方法和即時通信系統 TWI774654B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610052305.6A CN106997764B (zh) 2016-01-26 2016-01-26 一种基于语音识别的即时通信方法和即时通信系统
CN201610052305.6 2016-01-26

Publications (2)

Publication Number Publication Date
TW201733376A TW201733376A (zh) 2017-09-16
TWI774654B true TWI774654B (zh) 2022-08-21

Family

ID=59397373

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106102454A TWI774654B (zh) 2016-01-26 2017-01-23 基於語音識別的即時通信方法和即時通信系統

Country Status (3)

Country Link
CN (1) CN106997764B (zh)
TW (1) TWI774654B (zh)
WO (1) WO2017128991A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107689912B (zh) * 2017-09-15 2020-05-12 珠海格力电器股份有限公司 语音消息发送、播放、传输方法及装置、终端和服务器
CN107888479A (zh) * 2017-10-31 2018-04-06 深圳云之家网络有限公司 语音通信方法、装置、计算机设备及存储介质
CN108109625B (zh) * 2017-12-21 2021-07-20 北京华夏电通科技股份有限公司 手机语音识别内外网传输系统及方法
CN110392158A (zh) * 2018-04-19 2019-10-29 成都野望数码科技有限公司 一种消息处理方法、装置以及终端设备
CN110570865A (zh) * 2018-06-06 2019-12-13 上海擎感智能科技有限公司 一种基于云端服务器的通信方法、系统及云端服务器
CN109087641A (zh) * 2018-08-27 2018-12-25 杭州安恒信息技术股份有限公司 智能音箱、指令录入器及其安全预警方法、装置
CN111147948A (zh) * 2018-11-02 2020-05-12 北京快如科技有限公司 信息处理方法、装置及电子设备
CN109493665A (zh) * 2018-12-28 2019-03-19 南京红松信息技术有限公司 基于语音识别的快速答题方法及其系统
CN109600307A (zh) * 2019-01-29 2019-04-09 北京百度网讯科技有限公司 即时通讯方法、终端、设备、计算机可读介质
CN109801627A (zh) * 2019-01-31 2019-05-24 冯泽 语音类信息处理方法、装置、计算机设备和存储介质
CN109922371B (zh) * 2019-03-11 2021-07-09 海信视像科技股份有限公司 自然语言处理方法、设备及存储介质
CN112530435B (zh) * 2019-09-19 2024-04-16 比亚迪股份有限公司 数据传输方法、装置、系统、可读存储介质及电子设备
CN110943908A (zh) * 2019-11-05 2020-03-31 上海盛付通电子支付服务有限公司 语音消息发送方法、电子设备及介质
CN113571061A (zh) * 2020-04-28 2021-10-29 阿里巴巴集团控股有限公司 语音转写文本编辑系统、方法、装置及设备
CN111698446B (zh) * 2020-05-26 2021-09-21 上海智勘科技有限公司 在实时视频中同时进行文本信息传输的方法
CN112651125A (zh) * 2020-12-22 2021-04-13 郑州捷安高科股份有限公司 仿真列车通信方法、装置、设备及存储介质
CN115442273B (zh) * 2022-09-14 2023-04-07 润芯微科技(江苏)有限公司 一种基于语音识别的音频传输完整性监控方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254238A1 (en) * 2007-10-26 2015-09-10 Facebook, Inc. System and Methods for Maintaining Speech-To-Speech Translation in the Field
CN102710539A (zh) * 2012-05-02 2012-10-03 中兴通讯股份有限公司 语音信息传送方法及装置
WO2013184048A1 (en) * 2012-06-04 2013-12-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and message server for routing a speech message
CN102946499B (zh) * 2012-11-14 2015-10-14 广州市讯飞樽鸿信息技术有限公司 可视化语音信箱系统及应用于可视化语音信箱系统的方法
CN104007832B (zh) * 2013-02-25 2017-09-01 上海触乐信息科技有限公司 连续滑行输入文本的方法、系统及设备
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
CN104700836B (zh) * 2013-12-10 2019-01-29 阿里巴巴集团控股有限公司 一种语音识别方法和系统
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
KR20160008949A (ko) * 2014-07-15 2016-01-25 한국전자통신연구원 음성 대화 기반의 외국어 학습 방법 및 이를 위한 장치
CN104407834A (zh) * 2014-11-13 2015-03-11 腾讯科技(成都)有限公司 信息输入方法和装置
CN105159870B (zh) * 2015-06-26 2018-06-29 徐信 一种精准完成连续自然语音文本化的处理系统及方法
CN105068982A (zh) * 2015-08-26 2015-11-18 百度在线网络技术(北京)有限公司 输入内容的修改方法和装置
CN105245917B (zh) * 2015-09-28 2018-05-04 徐信 一种多媒体语音字幕生成的系统和方法
CN105430208A (zh) * 2015-10-23 2016-03-23 小米科技有限责任公司 语音会话方法、装置及终端设备

Also Published As

Publication number Publication date
CN106997764B (zh) 2021-07-27
WO2017128991A1 (zh) 2017-08-03
CN106997764A (zh) 2017-08-01
TW201733376A (zh) 2017-09-16

Similar Documents

Publication Publication Date Title
TWI774654B (zh) 基於語音識別的即時通信方法和即時通信系統
CN107766482B (zh) 信息推送及发送方法、装置、电子设备、存储介质
CN103035240B (zh) 用于使用上下文信息的语音识别修复的方法和系统
TWI550417B (zh) 資料遷移方法及裝置
KR101768509B1 (ko) 온라인 음성 번역 방법 및 장치
US8605868B2 (en) System and method for externally mapping an interactive voice response menu
CN103916513A (zh) 在通信终端记录通话信息的方法和设备
CN107239547B (zh) 用于语音点歌的语音纠错方法、终端及存储介质
US20200118569A1 (en) Conference sound box and conference recording method, apparatus, system and computer storage medium
US9374399B1 (en) Social group suggestions within a social network
US20200380965A1 (en) Method for generating speech, apparatus, device and storage medium
US20200336794A1 (en) Auto-completion for content expressed in video data
CN106847256A (zh) 一种语音转化聊天方法
KR20200046734A (ko) 강의 콘텐츠 생성 장치 및 이를 위한 방법
KR20160141682A (ko) 메신저 기반 서비스 제공 장치 및 이를 이용한 방법
CN112233669A (zh) 一种演讲内容提示方法及系统
WO2023226726A1 (zh) 语音数据处理方法及装置
CN116109734A (zh) 图片处理方法和装置
WO2016107278A1 (zh) 一种用户信息标注的方法、装置及系统
WO2016107001A1 (zh) 一种记录语音通信信息的方法、终端及计算机存储介质
CN109147791A (zh) 一种速记系统和方法
WO2017071210A1 (zh) 联系人的创建方法及装置
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
KR20170005590A (ko) 음성 통화 녹음 방법 및 이를 수행하는 단말
CN114155841A (zh) 语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent