TWI808936B - 音頻訊息的處理方法及裝置 - Google Patents
音頻訊息的處理方法及裝置 Download PDFInfo
- Publication number
- TWI808936B TWI808936B TW106105609A TW106105609A TWI808936B TW I808936 B TWI808936 B TW I808936B TW 106105609 A TW106105609 A TW 106105609A TW 106105609 A TW106105609 A TW 106105609A TW I808936 B TWI808936 B TW I808936B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- communication
- message
- text content
- server
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims description 20
- 230000006854 communication Effects 0.000 claims abstract description 501
- 238000004891 communication Methods 0.000 claims abstract description 494
- 238000006243 chemical reaction Methods 0.000 claims abstract description 217
- 238000012545 processing Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 70
- 230000004044 response Effects 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 121
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
- H04L51/046—Interoperability with other network applications or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/06—Message adaptation to terminal or network requirements
- H04L51/066—Format adaptation, e.g. format conversion or compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/18—Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/565—Conversion or adaptation of application format or content
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Debugging And Monitoring (AREA)
- Communication Control (AREA)
Abstract
本申請提供一種音頻訊息的處理方法及裝置,該方法可以包括:伺服器識別通訊雙方之間傳輸的通訊訊息的類型;當任一通訊訊息的類型為音頻類型時,所述伺服器獲取所述任一通訊訊息,並預轉換為相應的文字內容;當確定任一通訊方存在對所述任一通訊訊息的轉換需求時,所述伺服器向所述任一通訊方發送所述文字內容。透過本申請的技術方案,可以預先對音頻訊息進行文字轉換,從而提升對用戶的音頻轉換需求的回應速度。
Description
本申請係關於通訊技術領域,尤其關於一種音頻訊息的處理方法及裝置。
透過安裝有通訊應用的電子設備,用戶之間可以實現通訊訊息的收發,從而使用戶間的溝通更為方便、快捷。
通常而言,通訊應用透過採集用戶手動輸入的文字,以作為通訊訊息進行收發。然而,手動輸入存在諸多方面的限制,比如用戶需要雙眼盯住電子設備的螢幕,則當用戶處於駕駛狀態時,手動輸入可能帶來極大的安全風險;再比如,當電子設備較大、無法單手握持時,用戶需要雙手同時握持並完成輸入操作,則假定用戶一隻手提著重物時,將難以透過另一隻手來完成手動輸入。
在相關技術中,一些通訊應用透過添加音頻輸入功能,使得用戶能夠更為便捷地收發音頻類型的通訊訊息,而消除了上述限制。
有鑑於此,本申請提供一種音頻訊息的處理方法及裝置,可以預先對音頻訊息進行文字轉換,從而提升對用戶的音頻轉換需求的回應速度。
為實現上述目的,本申請提供技術方案如下:根據本申請的第一態樣,提出了一種音頻訊息的處理方法,包括:伺服器識別通訊雙方之間傳輸的通訊訊息的類型;當任一通訊訊息的類型為音頻類型時,所述伺服器獲取所述任一通訊訊息,並預轉換為相應的文字內容;當確定任一通訊方存在對所述任一通訊訊息的轉換需求時,所述伺服器向所述任一通訊方發送所述文字內容。
根據本申請的第二態樣,提出了一種音頻訊息的處理方法,包括:本端通訊設備在接收到用戶發出的針對音頻類型的任一通訊訊息的音頻轉換命令時,向伺服器發起相應的音頻轉換請求;本端通訊設備接收到所述伺服器返回的所述任一通訊訊息對應的文字內容,並與所述任一通訊訊息進行關聯展示;其中,所述文字內容由所述伺服器在接收到所述音頻轉換請求之前主動預轉換得到。
根據本申請的第三態樣,提出了一種音頻訊息的處理方法,包括:本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容;
當接收到用戶發出的針對所述任一通訊訊息的音頻轉換命令時,所述本端通訊設備示出預獲取的所述文字內容。
根據本申請的第四態樣,提出了一種音頻訊息的處理方法,包括:在生成音頻類型的通訊訊息的過程中,本端通訊設備依次確定已採集到的每個音頻片段是否符合預設切分規則;當任一音頻片段符合所述預設切分規則時,所述本端通訊設備將所述任一音頻片段即時切分並上傳至伺服器,以由所述伺服器將所述任一音頻片段預轉換為相應的文字片段,且所有音頻片段對應的文字片段由所述伺服器依次拼接為所述通訊訊息對應的文字內容。
根據本申請的第五態樣,提出了一種音頻訊息的處理裝置,包括:識別單元,使伺服器識別通訊雙方之間傳輸的通訊訊息的類型;預轉換單元,當任一通訊訊息的類型為音頻類型時,使所述伺服器獲取所述任一通訊訊息,並預轉換為相應的文字內容;發送單元,當確定任一通訊方存在對所述任一通訊訊息的轉換需求時,使所述伺服器向所述任一通訊方發送所述文字內容。
根據本申請的第六態樣,提出了一種音頻訊息的處理
裝置,包括:請求單元,使本端通訊設備在接收到用戶發出的針對音頻類型的任一通訊訊息的音頻轉換命令時,向伺服器發起相應的音頻轉換請求;展示單元,使本端通訊設備接收到所述伺服器返回的所述任一通訊訊息對應的文字內容,並與所述任一通訊訊息進行關聯展示;其中,所述文字內容由所述伺服器在接收到所述音頻轉換請求之前主動預轉換得到。
根據本申請的第七態樣,提出了一種音頻訊息的處理裝置,包括:預獲取單元,使本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容;展示單元,當接收到用戶發出的針對所述任一通訊訊息的音頻轉換命令時,使所述本端通訊設備示出預獲取的所述文字內容。
根據本申請的第八態樣,提出了一種音頻訊息的處理裝置,包括:確定單元,在生成音頻類型的通訊訊息的過程中,使本端通訊設備依次確定已採集到的每個音頻片段是否符合預設切分規則;處理單元,當任一音頻片段符合所述預設切分規則時,使所述本端通訊設備將所述任一音頻片段即時切分並上傳至伺服器,以由所述伺服器將所述任一音頻片段預轉換為相應的文字片段,且所有音頻片段對應的文字片段由
所述伺服器依次拼接為所述通訊訊息對應的文字內容。
根據本申請的第九態樣,提出了一種音頻訊息的處理裝置,包括:當接收到任一通訊方針對任一音頻訊息的音頻轉換請求時,伺服器確定與所述任一通訊方相關的未回應音頻訊息;所述伺服器分別獲取所述任一音頻訊息和所述未回應音頻訊息對應的文字內容,並返回至所述任一通訊方。
根據本申請的第十態樣,提出了一種音頻訊息的處理裝置,包括:當接收到用戶針對任一音頻訊息發出的音頻轉換命令時,本端通訊設備分別確定所述任一音頻訊息對應的第一文字內容,以及所述任一音頻訊息之外的未回應音頻訊息對應的第二文字內容;所述本端通訊設備分別將所述第一文字內容與所述任一音頻訊息、所述第二文字內容與所述未回應音頻訊息進行關聯展示。
根據本申請的第十一態樣,提出了一種音頻訊息的處理裝置,包括:確定單元,當接收到任一通訊方針對任一音頻訊息的音頻轉換請求時,使伺服器確定與所述任一通訊方相關的未回應音頻訊息;返回單元,使所述伺服器分別獲取所述任一音頻訊息和所述未回應音頻訊息對應的文字內容,並返回至所述任
一通訊方。
根據本申請的第十二態樣,提出了一種音頻訊息的處理裝置,包括:確定單元,當接收到用戶針對任一音頻訊息發出的音頻轉換命令時,使本端通訊設備分別確定所述任一音頻訊息對應的第一文字內容,以及所述任一音頻訊息之外的未回應音頻訊息對應的第二文字內容;展示單元,使所述本端通訊設備分別將所述第一文字內容與所述任一音頻訊息、所述第二文字內容與所述未回應音頻訊息進行關聯展示。
由以上技術方案可見,本申請透過預先對音頻訊息進行文字轉換,使得用戶存在音頻轉換需求時,能夠立即回饋相應的文字內容,而無需在翻譯過程中進行等待,有助於加快對用戶需求的回應速度,從而提升用戶的應用體驗。
圖1是本申請一示例性實施例提供的一種基於伺服器側的音頻訊息的處理方法的流程圖。
圖2是本申請一示例性實施例之一提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖。
圖3是本申請一示例性實施例之二提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖。
圖4是本申請一示例性實施例提供的一種音頻訊息的
處理方法的流程圖。
圖5-8是本申請一示例性實施例提供的一種基於接收方側的通訊應用的介面示意圖。
圖9是本申請一示例性實施例提供的一種基於發送方側的通訊應用的介面示意圖。
圖10是本申請一示例性實施例之三提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖。
圖11是本申請一示例性實施例提供的另一種音頻訊息的處理方法的流程圖。
圖12是本申請一示例性實施例提供的又一種音頻訊息的處理方法的流程圖。
圖13是本申請一示例性實施例提供的又一種音頻訊息的處理方法的流程圖。
圖14是本申請一示例性實施例提供的另一種基於伺服器側的音頻訊息的處理方法的流程圖。
圖15是本申請一示例性實施例之四提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖。
圖16是本申請一示例性實施例提供的一種電子設備的結構示意圖。
圖17是本申請一示例性實施例提供的一種基於伺服器側的音頻訊息的處理裝置的框圖。
圖18是本申請一示例性實施例之一提供的一種基於通訊設備側的音頻訊息的處理裝置的框圖。
圖19是本申請一示例性實施例之二提供的一種基於
通訊設備側的音頻訊息的處理裝置的框圖。
圖20是本申請一示例性實施例之三提供的一種基於通訊設備側的音頻訊息的處理裝置的框圖。
圖21是本申請一示例性實施例之四提供的一種基於通訊設備側的音頻訊息的處理裝置的框圖。
圖22是本申請一示例性實施例之五提供的一種基於通訊設備側的音頻訊息的處理裝置的框圖。
當用戶採用音頻類型的通訊訊息時,存在一定的場景限制。舉例而言,當用戶在會議中接收到音頻類型的通訊訊息時,除非用戶佩戴有藍牙耳機或其他可穿戴設備,否則可能由於無法及時收聽該通信訊息而造成相關事件的貽誤。
為了解決音頻類型的通訊訊息存在的上述問題,相關技術中提出了對音頻訊息的文字轉換,具體而言:用戶在接收到音頻類型通訊訊息時,如果不方便接聽,可以向伺服器發起針對該通訊訊息的音頻轉換請求,則伺服器可以主動識別音頻資料,並將轉換得到的文字內容返回給用戶,便於用戶閱讀。
然而,伺服器對通訊訊息的音頻轉換操作需要一定時間,使得用戶在向伺服器發出音頻轉換請求之後,需要等待較長時間才能夠看到轉換後的文字內容,一方面造成用戶的長時間等待,增添了用戶情緒的焦慮感,另一方面造
成用戶長時間不回覆的現象,使通訊訊息的發送方用戶長時間無法得到回饋,不僅影響用戶的應用體驗,而且造成了用戶之間的溝通效率的極大降低。
因此,本申請透過對音頻訊息的處理過程進行改進,以解決相關技術中的上述技術問題。為對本申請進行進一步說明,提供下列實施例:
圖1是本申請一示例性實施例提供的一種基於伺服器側的音頻訊息的處理方法的流程圖,如圖1所示,該方法可以包括:
步驟102,伺服器識別通訊雙方之間傳輸的通訊訊息的類型。
步驟104,當任一通訊訊息的類型為音頻類型時,所述伺服器獲取所述任一通訊訊息,並預轉換為相應的文字內容。
步驟106,當確定任一通訊方存在對所述任一通訊訊息的轉換需求時,所述伺服器向所述任一通訊方發送所述文字內容。
在本實施例中,伺服器可以主動判定通訊方對音頻訊息的轉換需求;比如,當任一通訊方在通訊過程中屬於預設通訊角色時,伺服器可以判定該任一通訊方存在轉換需求,並發送相應的文字內容。舉例而言,伺服器可以預定義為默認接收方存在轉換需求,從而只要存在音頻訊息時,伺服器總是預先轉換出相應的文字內容,並主動發送給接收方的通訊設備。
在該實施例中,透過由伺服器的預轉換處理,並將文字內容主動發送給通訊設備,使得相應的通訊方確實需要執行音頻轉換時,該通訊設備可以直接調取並展示出已經儲存於本地的文字內容,而無需從伺服器上即時下載,從而即便當時網路狀況不佳,也不影響對音頻訊息的文字內容展示,即降低了對即時網路狀況的需求。
在本實施例中,伺服器可以根據通訊方的請求情況,判定其是否存在轉換需求;比如,當接收到任一通訊方針對任一通訊訊息的音頻轉換請求時,伺服器可以判定該任一通訊方存在轉換需求,並向該任一通訊方返回該任一通訊訊息對應的預轉換的文字內容。
在該實施例中,伺服器僅在通訊方確實存在需求時,才返回相應的文字內容;透過對通訊方的真實需求的準確判斷,可以減少伺服器與通訊設備之間的交互次數,降低伺服器與通訊設備之間的通訊資料量,這一方面有助於降低通訊設備的功耗,另一方面對於採用無線移動通訊網路的通訊設備而言,可以減少無線流量的消耗,避免給用戶造成不必要的費用損失。
由上述實施例可知,在本申請的技術方案中,伺服器可以在用戶提出音頻轉換需求之前,主動且預先對音頻訊息進行轉換並得到相應的文字內容,因而當伺服器接收到來自用戶的音頻轉換需求時,可以立即將文字內容返回至用戶,而無需用戶等待伺服器對音頻訊息進行轉換,極大地縮短了接收方用戶的等待時間,也縮短了對端的發送方
用戶收到回饋的等待時間,從而不僅提升了通訊雙方的用戶體驗,而且極大地提升通訊雙方之間的通訊效率。
對應於圖1所示的實施例,在用戶採用的通訊設備處存在多種相應的實施例,下面進行舉例說明:
圖2是本申請一示例性實施例之一提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖,如圖2所示,該方法可以包括:
步驟202,本端通訊設備在接收到用戶發出的針對音頻類型的任一通訊訊息的音頻轉換命令時,向伺服器發起相應的音頻轉換請求。
步驟204,本端通訊設備接收到所述伺服器返回的所述任一通訊訊息對應的文字內容,並與所述任一通訊訊息進行關聯展示;其中,所述文字內容由所述伺服器在接收到所述音頻轉換請求之前主動預轉換得到。
在本實施例中,本端通訊設備基於用戶發出的音頻轉換命令,主動向伺服器發起音頻轉換請求,以表明其對於音頻轉換的切實需求,並由伺服器相應返回其所需的文字內容。
由上述實施例可知,在本申請的技術方案中,基於伺服器主動且預先對音頻訊息的預轉換處理,本端通訊設備基於用戶的音頻轉換命令而向伺服器發起音頻轉換請求時,可以立即從伺服器處獲得相應的文字內容,不需要等待伺服器對音頻訊息進行即時轉換,有助於提升通訊雙方的用戶體驗,而且極大地提升通訊雙方之間的通訊效率。
圖3是本申請一示例性實施例之二提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖,如圖3所示,該方法可以包括:
步驟302,本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容。
在本實施例中,本端通訊設備可以從伺服器處預獲取文字內容,該文字內容由該伺服器預轉換得到。其中,該文字內容可以由伺服器主動推送至本端通訊設備;或者,本端通訊設備在確定與對端通訊設備之間傳輸的通訊訊息的類型時,若確定任一通訊訊息的類型為音頻類型,則可以向伺服器發起音頻轉換請求,以獲得伺服器預轉換處理得到的文字內容。在該實施例中,透過利用伺服器執行預轉換處理,既能夠充分利用伺服器強大的處理能力,提升對音頻訊息的預轉換處理的執行效率,又可以降低對本端通訊設備的處理性能需求和處理資源佔用,從而降低本端通訊設備的功耗。
在本實施例中,本端通訊設備可以自行對任一通訊訊息進行預轉換處理,得到該文字內容;換言之,即本端通訊設備對音頻訊息的本地預轉換處理。比如,本端通訊設備在確定與對端通訊設備之間傳輸的通訊訊息的類型時,若確定任一通訊訊息的類型為音頻類型,則可以執行該本地預轉換處理,以得到相應的文字內容。在該實施例中,透過採用本地預轉換處理,可以消除或降低對網路的需求,從而適用於更多應用場景。
步驟304,當接收到用戶發出的針對所述任一通訊訊息的音頻轉換命令時,所述本端通訊設備示出預獲取的所述文字內容。
由上述實施例可知,在本申請的技術方案中,本端通訊設備透過對文字內容的預獲取,使得在用戶發出音頻轉換命令時,本端通訊設備可以直接獲取並展示出相應的文字內容,而無需用戶在轉換過程中進行等待,有助於提升通訊效率。同時,透過將文字內容預獲取在本端通訊設備的本地,使得用戶可以在發出音頻轉換命令時,不存在對網路環境的需求,那麼即便本端通訊設備並未連接至網路,用戶仍然可以查看到相應音頻訊息的文字內容,適合於用戶在一些特殊場景下對於歷史通訊訊息的查閱。
下面結合通訊過程中涉及到的發送方、接收方和伺服端之間的交互過程,對本申請的技術方案進行詳細描述;其中,圖4是本申請一示例性實施例提供的一種音頻訊息的處理方法的流程圖,如圖4所示,該方法可以包括以下步驟:
步驟402,伺服器獲取通訊雙方之間傳輸的通訊訊息。
在本實施例中,通訊雙方在本申請的技術方案中完全對等,即每個通訊方均可以作為圖4所示的發送方或接收方;因而在圖4所示的實施例中,實際上是針對通訊雙方之間的任一次通訊過程,確定出相應的發送方和接收方,並用於對本申請的技術方案進行舉例說明。
步驟404,伺服器對通訊訊息進行類型識別。
在本實施例中,通訊訊息可以包括很多類型,本申請中可以將任意包含音頻資料的通訊訊息判定為音頻類型,即音頻訊息,比如語音訊息、視頻訊息等;下面結合的通訊應用的介面示意圖中,以基於語音訊息的音頻訊息為例進行說明,但本申請並不對此進行限制。
步驟406,伺服器對音頻類型的通訊訊息(即音頻訊息)進行預轉換處理,得到相應的文字內容。
在本實施例中,伺服器可以採用相關技術中的任意方式,對音頻訊息進行預轉換處理,並得到相應的文字內容。
需要說明的是,伺服器在檢測到某條通訊訊息為音頻類型之後,即可在任意恰當的時刻執行預轉換處理,以得到相應的文字內容,只要能夠確保該預轉換處理在步驟408之前完成即可。換言之,伺服器對音頻訊息的預轉換處理,與用戶對該音頻訊息發起的音頻轉換命令無關,該預轉換處理是由伺服器預先、主動完成的。
因此,當用戶向伺服器發起對音頻訊息的音頻轉換命令時,伺服器可以立即將已經預轉換得到的文字內容提供至該用戶,而無需伺服器即時執行訊息轉換,避免了通訊雙方的長時間等待,有助於提升通訊效率。
步驟408,伺服器接收到接收方針對該音頻訊息的音頻轉換請求。
在本實施例中,與該音頻訊息相關的每個通訊方,比
如圖4所示的發送方、接收方等,均可以發出音頻轉換命令,並由相應的電子設備向伺服器發起音頻轉換請求(也可以理解為發送方或接收方等用戶向伺服器發起音頻轉換請求);此處以接收方發起音頻轉換請求為例進行說明。
假定用戶“小白”與用戶“小黑”之間實現通訊;其中,本申請並不限制兩者採用的通訊應用的類型,該通訊應用可以為即時通訊應用,比如該即時通訊應用可以為企業即時通訊應用(Enterprise Instant Messaging,EIM),例如“釘釘(DING Talk)”等。如圖5所示,假定用戶“小白”向用戶“小黑”發送了若干條音頻訊息,則用戶“小黑”可以透過長按(或重壓等其他觸發方式)希望查看的音頻訊息,以調起圖6所示的功能選項功能表,該功能選項功能表中包含“聽筒播放”、“收藏”、“轉文字”、“刪除”等功能選項,則當用戶“小黑”選取“轉文字”功能選項後,可以判定為向電子設備發出了針對相應音頻訊息的音頻轉換命令,並由該電子設備向伺服器發起相應的音頻轉換請求。
步驟410,伺服器確定其他音頻訊息的回應狀態。
步驟412,伺服器將音頻訊息對應的文字內容發送至接收方。
步驟414,接收方對接收到的文字內容進行展示。
在一示例性實施例中,當不包含上述的步驟410時,伺服器可以直接確定出用戶“小黑”在圖5中選中的長度為12s的音頻訊息對應的文字內容,並將該文字內容返回
至用戶“小黑”,以展示於用戶“小黑”。
用戶“小黑”採用的電子設備在接收伺服器返回的文字內容後,可以對相應的音頻訊息的展示區域進行擴展;其中,擴展後的展示區域被劃分為第一區域和第二區域;該第一區域用於示出相應的音頻訊息、該第二區域用於示出該音頻訊息對應的文字內容。比如圖7所示,假定總共包含三條音頻訊息,而用戶“小黑”觸發了最上方的一條音頻訊息,則該音頻訊息對應的展示區域(該展示區域可以為圖7所示的“氣泡框”形式;當然,本申請並不對此進行限制)可以向下方擴展,則擴展後的展示區域被劃分為相當於第一區域的上側區域,以及相當於第二區域的下側區域,其中上側區域用於展示該音頻訊息的示意性圖示,而下側區域用於展示該音頻訊息對應的文字內容,比如“我現在不方便打字,直接語音吧”等。當然,本領域技術人員還可以採用其他方式對擴展區域進行功能劃分,本申請並不對此進行限制。
在另一示例性實施例中,本申請的實施例中可以包含上述的步驟410;相應的,在本申請的技術方案中,伺服器可以確定通訊雙方對傳輸的通訊訊息的回應狀態;那麼,針對上述的音頻訊息,當接收到任一通訊方針對該音頻訊息發起的音頻轉換請求時,若存在與該任一通訊方相關的其他訊息的回應狀態為未回應,且該其他訊息為音頻類型時,伺服器在步驟412中除了返回上述音頻訊息對應的文字內容之外,還可以返回該其他訊息對應的文字內
容。當然,該其他訊息對應的文字內容,也是由伺服器主動、預先透過預轉換處理而得到,並不需要通訊方等待伺服器即時執行轉換。
那麼,如圖5所示,當用戶“小黑”僅針對第一條音頻訊息發起音頻轉換請求時,若同時存在第二條音頻訊息和第三條音頻訊息,且兩者均為未回應狀態,則無需用戶“小黑”一一手動發起音頻轉換請求,伺服器即可主動下發所有三條音頻訊息對應的文字內容;相應的,如圖8所示,用戶“小黑”採用的電子設備可以分別對三條音頻訊息的展示區域進行擴展,並示出相應的文字內容,包括“我現在不方便打字,直接語音吧”、“關於上次的合同報價”、“再提高三個點”等,從而一方面可以簡化用戶“小黑”的觸發操作(即發出音頻轉換命令,或發起音頻轉換請求),透過一次觸發即可實現對所有未回應的音頻訊息的查看,另一方面可以幫助用戶“小黑”對多條未回應的音頻訊息進行同時查看,這相比於分別單獨查看每一條音頻訊息對應的文字內容,顯然具有更佳的可讀性和閱讀連貫性,便於用戶“小黑”對用戶“小白”的通訊意圖的理解,有助於提升通訊效率。
在又一示例性實施例中,除了伺服器透過步驟410等來確定每條通訊訊息的回應狀態之外,可以由接收方對每條通訊訊息的回應狀況進行確定和處理。比如,接收方採用的電子設備可以確定該接收方對已接收的音頻類型的通訊訊息的回應狀態;其中,當接收到該接收方發出的針對
任一音頻訊息的音頻轉換命令時,若存在除該任一音頻訊息之外的音頻類型的未回應通訊訊息,則該電子設備在向伺服器發起的音頻轉換請求,該音頻轉換請求不僅與該任一音頻訊息相關(即可以用於獲取該任一音頻訊息對應的文字內容),還與其他的未回應通訊訊息相關(即可以用於獲取該其他的未回應通訊訊息對應的文字內容)。比如,當用戶“小黑”在電子設備上觸發圖5中的第一條音頻訊息後,該電子設備檢測到還存在第二條音頻訊息、第三條音頻訊息,且兩條音頻訊息的回應狀態均為未回應,則該電子設備向伺服器發起針對這三條音頻訊息的音頻轉換請求,從而同時獲得伺服器返回的這三條音頻訊息的文字內容,並透過如圖8所示的方式進行展示,可參考上述實施例,此處不再贅述。
步驟416,伺服器將該音頻訊息的已回應狀態告知發送方。
在本實施例中,如圖5所示,可以透過在通訊訊息附近展示一黑色圓點,以表示其處於未回應狀態。當用戶“小黑”透過觸發第一條音頻訊息而發出相應的音頻轉換請求後,用戶“小黑”的電子設備可以判定為該音頻訊息被回應,從而如圖7所示消除了第一條音頻訊息附近的黑色圓點。
同時,如圖9所示,用戶“小白”發出每條通訊訊息後,用戶“小白”的電子設備上分別在每條通訊訊息附近標示出其回應狀態,比如“已讀”對應於已回應狀態、
“未讀”對應於未回應狀態。那麼,伺服器在接收到用戶“小黑”針對第一條音頻訊息的音頻轉換請求,並將預轉換的相應文字內容返回給用戶“小黑”之後,可以判定為該第一條音頻訊息由未回應狀態切換至已回應狀態,從而向該已回應狀態告知給作為發送方的用戶“小白”,因而圖9中的第一條音頻訊息附近標示出“已讀”,而第二條、第三條音頻訊息附近仍然標示為“未讀”。當然,對應於圖8所示的實施例,當用戶“小黑”雖然僅針對第一條音頻訊息發起音頻轉換請求,但是基於伺服器向用戶“小黑”返回了全部三條音頻訊息對應的文字內容時,伺服器可以認為三條音頻訊息均對應於已回應狀態,並告知給用戶“小白”的電子設備,以使其在三條音頻訊息附近均標示“已讀”。
圖10是本申請一示例性實施例之三提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖,如圖10所示,該方法可以包括:
步驟1002,在生成音頻類型的通訊訊息的過程中,本端通訊設備依次確定已採集到的每個音頻片段是否符合預設切分規則。
步驟1004,當任一音頻片段符合所述預設切分規則時,所述本端通訊設備將所述任一音頻片段即時切分並上傳至伺服器。
在本實施例中,伺服器依次接收到該本端通訊設備按照預設規則即時切分並上傳的音頻片段,並分別將每個音
頻片段預轉換為相應的文字片段;然後,伺服器將所有文字片段依次拼接,得到整條音頻訊息對應的文字內容。
在本實施例中,切分規則可以採用多種形式,比如基於時間長度、基於音頻片段的資料量等多個維度中的一個或多個維度相結合。舉例而言,當採用基於時間長度的切分規則時,假定整條音頻訊息共12s,而預定義的切分時長為2s,則每當達到2s時即可執行即時切分操作,並將該2s的音頻片段上傳至伺服器,且伺服器可以隨即執行預轉換處理,得到相應的文字片段;那麼,整條音頻一共可以得到6個音頻片段,以及相應的6個文字片段,然後由伺服器將其整合拼接為對應於整條音頻訊息對應的文字內容。
在本實施例中,透過由發送方的電子設備(即上述的本端通訊設備)對音頻訊息的即時切分與上傳,使得發送方在輸入該音頻訊息的同時,伺服器能夠幾乎不存在延遲地獲得相應的音頻片段,並隨即執行對各個音頻片段的預轉換處理,相比於將音頻訊息完成輸入後完整地上傳至伺服器,可使伺服器更為迅速地完成對音頻訊息的預轉換處理並得到相應的文字內容,從而即便接收方在接收到該音頻訊息後馬上發起音頻轉換請求,伺服器也能夠確保在接收到該音頻轉換請求之前完成預轉換處理,從而在接收到音頻轉換請求後立即返回相應的文字內容,那麼通訊雙方在通訊過程中,既可以透過音頻輸入而避免手動打字時的低效率和誤輸入問題,還解決了音頻轉換為文字時的延遲
等待問題,即同時兼顧了音頻輸入時的快捷方便和文字交流時的無延遲,有助於提升通訊雙方之間的溝通效率。
圖11是本申請一示例性實施例提供的另一種音頻訊息的處理方法的流程圖,如圖11所示,該方法可以包括以下步驟:
步驟1102,伺服器獲取通訊雙方之間傳輸的通訊訊息。
步驟1104,伺服器對通訊訊息進行類型識別。
步驟1106,伺服器對音頻類型的通訊訊息(即音頻訊息)進行預轉換處理,得到相應的文字內容。
在本實施例中,步驟1102-1106可參考圖4所示實施例中的步驟402-406,此處不再贅述。
步驟1108,伺服器將音頻訊息對應的文字內容發送至接收方。
在本實施例中,伺服器默認為接收方對所有音頻訊息均存在音頻轉換需求,因而不僅透過預轉換處理得到所有音頻訊息對應的文字內容,而且主動將文字內容推送至接收方。
步驟1110,接收方的通訊設備接收到該接收方針對該音頻訊息的音頻轉換命令。
步驟1112,接收方的通訊設備確定其他音頻訊息的回應狀態。
步驟1114,接收方的通訊設備對文字內容進行展示。
在本實施例中,在接收方發起音頻轉換命令之前,伺服器已經預轉換處理得到相應的文字內容,並主動推送至該接收方的通訊設備上;換言之,可以認為接收方的通訊設備在接收到音頻轉換命令之前,已經對音頻訊息對應的文字內容進行了“預獲取”。因此,當接收方發起音頻轉換命令後,該通訊設備可以立即獲得並展示出相應的文字內容,而無需接收方等待。
同時,相比於圖4所示的實施例,本實施例透過將文字內容預獲取至通訊設備的本地,使得該通訊設備在接收到音頻轉換命令後,直接從本地調取相應的文字內容即可,不存在對網路環境的需求。因此,對於一些場景下,比如用戶希望在無網路環境下,對歷史通訊訊息中的音頻訊息進行文字轉換時,圖11由於不需要網路支援而仍然可以滿足用戶需求。
在本實施例中,與圖4所示的步驟410相類似的,除了接收方直接發起音頻轉換命令的音頻訊息之外,若存在其他處於未回應狀態的音頻訊息,該通訊設備可以一併對這些音頻訊息的文字內容進行展示,此處不再贅述。
步驟1116,接收方的通訊設備將執行了文字內容展示的音頻訊息標記為已回應狀態,將該已回應狀態告知伺服器,並由伺服器告知發送方。
在本實施例中,通訊設備可以將音頻訊息的已回應狀態添加至回應狀態切換通知,將該回應狀態切換通知發送至伺服器,並由伺服器將其轉發至發送方,從而在發送方
的通訊設備上對相應的音頻訊息進行正確標記。
圖12是本申請一示例性實施例提供的又一種音頻訊息的處理方法的流程圖,如圖12所示,該方法可以包括以下步驟:
步驟1202,通訊雙方執行通訊訊息的收發操作。
步驟1204,接收方的通訊設備對通訊訊息進行類型識別。
步驟1206,當識別出音頻訊息時,接收方的通訊設備向伺服器發起音頻轉換請求。
步驟1208,伺服器對音頻類型的通訊訊息(即音頻訊息)進行預轉換處理,得到相應的文字內容。
步驟1210,伺服器將音頻訊息對應的文字內容發送至接收方。
在本實施例中,音頻轉換請求是由通訊設備主動向伺服器發起的,而並非基於接收方發出的音頻轉換命令而發起;換言之,在接收方切實發出音頻轉換命令之前,該通訊設備透過主動向伺服器發起音頻轉換請求,使得伺服器執行預轉換處理並得到相應的文字內容,即該通訊設備實現了對音頻訊息對應的文字內容的“預獲取”操作。因此,當接收方發起音頻轉換命令後,該通訊設備可以立即獲得並展示出相應的文字內容,而無需接收方等待。
同時,相比於圖11所示實施例,本實施例中的通訊設備透過對通訊訊息進行類型識別,主動向伺服器發起音頻轉換請求,以觸發伺服器執行預轉換處理,而非伺服器
自行啟動預轉換處理,從而使得該通訊設備分擔了“類型識別”功能的執行過程,降低了伺服器的處理負荷。
步驟1212,接收方的通訊設備接收到該接收方針對該音頻訊息的音頻轉換命令。
步驟1214,接收方的通訊設備確定其他音頻訊息的回應狀態。
步驟1216,接收方的通訊設備對文字內容進行展示。
步驟1218,接收方的通訊設備將執行了文字內容展示的音頻訊息標記為已回應狀態,將該已回應狀態告知伺服器,並由伺服器告知發送方。
在本實施例中,步驟1212-1218可參考圖11所示實施例中的步驟1110-1116,此處不再贅述。
圖13是本申請一示例性實施例提供的又一種音頻訊息的處理方法的流程圖,如圖13所示,該方法可以包括以下步驟:
步驟1302,通訊雙方執行通訊訊息的收發操作。
步驟1304,接收方的通訊設備對通訊訊息進行類型識別。
步驟1306,當識別出音頻訊息時,接收方的通訊設備對音頻類型的通訊訊息(即音頻訊息)進行預轉換處理,得到相應的文字內容。
在本實施例中,接收方的通訊設備主動識別通訊訊息的類型,並在確定為音頻訊息時,還主動完成對該音頻訊
息的預轉換處理,以得到相應的文字內容。那麼,當網路環境差或無網路時,接收方的通訊設備仍然可以“預獲取”音頻訊息的文字內容,使得接收方發出音頻轉換命令時,能夠及時展示出該文字內容,避免接收方等待。
當網路環境不穩定時,通訊設備在接收到音頻訊息後,若依賴於伺服器來執行預轉換處理,則由於網路環境不穩定而可能導致通訊設備無法順利向伺服器發起音頻轉換請求,或者伺服器無法將預轉換處理的文字內容順利發送至該通訊設備,那麼可能導致接收方在發起音頻轉換命令之前,該通訊設備無法預獲取到相應的文字內容,造成接收方需要即時向伺服器發起音頻轉換請求,無疑增加了用戶等待時間。
實際上,當網路環境不穩定時,透過本申請中任一實施例的預轉換處理(或預獲取)方案,即無論對音頻訊息的預轉換處理在伺服器或通訊設備上執行,均可以優化用戶的使用體驗。比如,當預轉換處理在伺服器上實現時,透過預先獲得文字內容,那麼在用戶發起音頻轉換命令之前,伺服器與通訊設備可以獲得更多時間和機會來傳輸該文字內容,避免用戶即時請求轉換時,由於網路原因造成文字內容無法傳輸或反復出現傳輸失敗的情況。
步驟1308,接收方的通訊設備接收到該接收方針對該音頻訊息的音頻轉換命令。
步驟1310,接收方的通訊設備確定其他音頻訊息的回應狀態。
步驟1312,接收方的通訊設備對文字內容進行展示。
步驟1314,接收方的通訊設備將執行了文字內容展示的音頻訊息標記為已回應狀態,將該已回應狀態告知伺服器,並由伺服器告知發送方。
在本實施例中,步驟1308-1314可參考圖11所示實施例中的步驟1110-1116,此處不再贅述。
圖14是本申請一示例性實施例提供的一種基於伺服器側的音頻訊息的處理方法的流程圖,如圖14所示,該方法應用於伺服器,可以包括以下步驟:
步驟1402,當接收到任一通訊方針對任一音頻訊息的音頻轉換請求時,伺服器確定與所述任一通訊方相關的未回應音頻訊息。
步驟1404,所述伺服器分別獲取所述任一音頻訊息和所述未回應音頻訊息對應的文字內容,並返回至所述任一通訊方。
在本實施例中,伺服器在接收到針對任一音頻訊息的音頻轉換請求時,主動相關聯的其他未回應音頻訊息,使得用戶無需針對每一音頻訊息分別發起音頻轉換,即可獲得所有未回應音頻訊息對應的文字內容,從而極大地簡化了用戶操作。尤其是,當用戶不便於觸發對音頻訊息的音頻轉換命令時,比如用戶一隻手提著重物、僅能夠透過另一隻手操作,透過本申請的技術方案,用戶僅需要對一條音頻訊息發起音頻轉換命令,即可讀取所有音頻訊息對應
的文字內容;再者,當多條音頻訊息之間的內容關聯性較大時,透過將多條音頻訊息的文字內容主動呈現給用戶,便於用戶將多條音頻訊息的內容和邏輯相互串通,有助於提升閱讀和溝通效率。
在本實施例的一種情況下,伺服器可以對所有音頻訊息進行預轉換並得到相應的文字內容,則當接收到音頻轉換請求時,伺服器只需分別查找到上述的任一音頻訊息和未回應音頻訊息對應的預轉換的文字內容即可;該場景下的技術方案可參考圖4所示實施例的步驟410等,此處不再贅述。
在本實施例的另一種情況下,伺服器可以在接收到音頻轉換請求後,分別將任一音頻訊息和未回應音頻訊息分別即時轉換為對應的文字內容,並返回給用戶進行展示;其中,對於每一單獨音頻訊息的轉換處理,可以參考相關技術中的處理過程,此處不再贅述。
圖15是本申請一示例性實施例之一提供的一種基於通訊設備側的音頻訊息的處理方法的流程圖,如圖15所示,該方法應用於通訊設備,可以包括以下步驟:
步驟1502,當接收到用戶針對任一音頻訊息發出的音頻轉換命令時,本端通訊設備分別確定所述任一音頻訊息對應的第一文字內容,以及所述任一音頻訊息之外的未回應音頻訊息對應的第二文字內容。
步驟1504,所述本端通訊設備分別將所述第一文字內容與所述任一音頻訊息、所述第二文字內容與所述未回
應音頻訊息進行關聯展示。
在本實施例中,與圖14所示實施例相類似的,由通訊設備在接收到音頻轉換命令時,除了該音頻轉換命令針對的任一音頻訊息,該通訊設備還主動確定出該音頻轉換命令未針對的未回應音頻訊息,並透過將兩者分別對應的第一文字內容和第二文字內容進行展示,以便於簡化用戶操作,並有助於提升閱讀和溝通效率,此處不再贅述。
一方面,從對音頻訊息的轉換時機而言,通訊設備可以在接收到音頻轉換命令之前,預獲取第一文字內容和第二文字內容,該過程可以參考圖3所示實施例中的步驟302,此處不再贅述;或者,通訊設備可以在接收到音頻轉換命令之後,即時獲取第一文字內容和第二文字內容。
另一方面,無論是採用預獲取或即時獲取,通訊設備均可以透過下述任一方式獲取第一文字內容和第二文字內容:
第一種方式下,通訊設備可以主動將任一音頻訊息和未回應音頻訊息轉換為第一文字內容和第二文字內容;當通訊設備採用預轉換的處理方式時,該過程與圖13所示實施例中的步驟1306相似,此處不再贅述。
第二種方式下,通訊設備可以向伺服器發起音頻轉換請求,以獲得伺服器返回的第一文字內容和第二文字內容。其中,第一文字內容和第二文字內容可以由伺服器根據音頻轉換請求進行即時轉換得到,即伺服器在接收到音頻轉換請求後才執行音頻轉換操作,該過程與圖12所示
實施例中的步驟1208相似,此處不再贅述;或者,第一文字內容和第二文字內容也可以由伺服器預轉換得到,該過程與圖4所示實施例中的步驟406相似,此處不再贅述。
圖16示出了根據本申請的一示例性實施例的電子設備的示意結構圖。請參考圖16,在硬體層面,該電子設備包括處理器、內部匯流排、網路介面、記憶體以及非揮發性記憶體,當然還可能包括其他業務所需要的硬體。處理器從非揮發性記憶體中讀取對應的電腦程式到記憶體中然後運行,在邏輯層面上形成音頻訊息的處理裝置。當然,除了軟體實現方式之外,本申請並不排除其他實現方式,比如邏輯裝置抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯器件。
在一實施例中,請參考圖17,在軟體實施方式中,該音頻訊息的處理裝置可以包括識別單元、預轉換單元和發送單元。其中:識別單元,使伺服器識別通訊雙方之間傳輸的通訊訊息的類型;預轉換單元,當任一通訊訊息的類型為音頻類型時,使所述伺服器獲取所述任一通訊訊息,並預轉換為相應的文字內容;發送單元,當確定任一通訊方存在對所述任一通訊訊息的轉換需求時,使所述伺服器向所述任一通訊方發送所
述文字內容。
可選的,所述發送單元具體用於:當所述任一通訊方在通訊過程中屬於預設通訊角色時,使所述伺服器判定所述任一通訊方存在所述轉換需求,並發送所述文字內容。
可選的,所述發送單元具體用於:當接收到任一通訊方針對所述任一通訊訊息的音頻轉換請求時,使所述伺服器判定所述任一通訊方存在所述轉換需求,並向所述任一通訊方返回所述任一通訊訊息對應的預轉換的所述文字內容。
可選的,還包括:確定單元,使所述伺服器確定通訊雙方對傳輸的通訊訊息的回應狀態;返回單元,當接收到任一通訊方針對所述任一通訊訊息的音頻轉換請求時,若存在與所述任一通訊方相關的音頻類型的未回應通訊訊息,則使所述伺服器還向所述任一通訊方返回所有音頻類型的未回應通訊訊息對應的預轉換的文字內容。
可選的,還包括:判定單元,在向所述任一通訊方返回所述任一通訊訊息對應的預轉換的所述文字內容之後,使所述伺服器判定所述任一通訊訊息切換至已回應狀態;告知單元,使所述伺服器將所述已回應狀態告知所述任一通訊訊息的發送方。
可選的,所述預轉換單元具體用於:使所述伺服器依次接收通訊方按照預設規則即時切分並上傳的音頻片段,並分別將每個音頻片段預轉換為相應的文字片段;所述伺服器將所有文字片段依次拼接,得到所述文字內容。
在一實施例中,請參考圖18,在軟體實施方式中,該音頻訊息的處理裝置可以包括請求單元和展示單元。其中:請求單元,使本端通訊設備在接收到用戶發出的針對音頻類型的任一通訊訊息的音頻轉換命令時,向伺服器發起相應的音頻轉換請求;展示單元,使本端通訊設備接收到所述伺服器返回的所述任一通訊訊息對應的文字內容,並與所述任一通訊訊息進行關聯展示;其中,所述文字內容由所述伺服器在接收到所述音頻轉換請求之前主動預轉換得到。
可選的,還包括:確定單元,使所述本端通訊設備確定所述用戶對已接收的音頻類型的通訊訊息的回應狀態;其中,當接收到所述用戶發出的針對所述任一通訊訊息的音頻轉換命令時,若存在所述任一通訊訊息之外的音頻類型的未回應通訊訊息,則所述音頻轉換請求還與所述未回應通訊訊息相關。
可選的,還包括:
擴展單元,使所述本端通訊設備在接收所述伺服器返回的文字內容後,對相應的通訊訊息的展示區域進行擴展;其中,擴展後的展示區域被劃分為第一區域和第二區域;所述第一區域用於示出相應的通訊訊息、所述第二區域用於示出所述通訊訊息對應的文字內容。
在一實施例中,請參考圖19,在軟體實施方式中,該音頻訊息的處理裝置可以包括預獲取單元和展示單元。其中:預獲取單元,使本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容;展示單元,當接收到用戶發出的針對所述任一通訊訊息的音頻轉換命令時,使所述本端通訊設備示出預獲取的所述文字內容。
可選的,所述預獲取單元具體用於:使所述本端通訊設備從伺服器處預獲取所述文字內容,所述文字內容由所述伺服器預轉換得到;或者,使所述本端通訊設備對所述任一通訊訊息進行預轉換處理,得到所述文字內容。
可選的,所述預獲取單元具體用於:使所述本端通訊設備接收到伺服器推送的所述文字內容;或者,使所述本端通訊設備在確定與對端通訊設備之間傳輸的通訊訊息的類型時,若確定所述任一通訊訊息的
類型為音頻類型,則預獲取所述任一通訊訊息對應的文字內容。
可選的,當接收到用戶發出的針對所述任一通訊訊息的音頻轉換命令時,若存在處於未回應狀態的音頻類型的其他通訊訊息,則所述展示單元還使所述本端通訊設備分別示出所述其他通訊訊息對應的預獲取的文字內容。
可選的,還包括:通知單元,使所述本端通訊設備在分別示出所述其他通訊訊息對應的預獲取的文字內容之後,向伺服器發出對應於所述其他通訊訊息的回應狀態切換通知,以由所述伺服器將所述其他通訊訊息的已回應狀態告知對應的發送方。
在一實施例中,請參考圖20,在軟體實施方式中,該音頻訊息的處理裝置可以包括確定單元和處理單元。其中:確定單元,在生成音頻類型的通訊訊息的過程中,使本端通訊設備依次確定已採集到的每個音頻片段是否符合預設切分規則;處理單元,當任一音頻片段符合所述預設切分規則時,使所述本端通訊設備將所述任一音頻片段即時切分並上傳至伺服器,以由所述伺服器將所述任一音頻片段預轉換為相應的文字片段,且所有音頻片段對應的文字片段由所述伺服器依次拼接為所述通訊訊息對應的文字內容。
在一實施例中,請參考圖21,在軟體實施方式中,
該音頻訊息的處理裝置可以包括確定單元和返回單元。其中:確定單元,當接收到任一通訊方針對任一音頻訊息的音頻轉換請求時,使伺服器確定與所述任一通訊方相關的未回應音頻訊息;返回單元,使所述伺服器分別獲取所述任一音頻訊息和所述未回應音頻訊息對應的文字內容,並返回至所述任一通訊方。
可選的,所述返回單元具體用於:使所述伺服器分別將所述任一音頻訊息和所述未回應音頻訊息轉換為對應的文字內容;或者,使所述伺服器分別查找到所述任一音頻訊息和所述未回應音頻訊息對應的預轉換的文字內容。
在一實施例中,請參考圖22,在軟體實施方式中,該音頻訊息的處理裝置可以包括確定單元和展示單元。其中:確定單元,當接收到用戶針對任一音頻訊息發出的音頻轉換命令時,使本端通訊設備分別確定所述任一音頻訊息對應的第一文字內容,以及所述任一音頻訊息之外的未回應音頻訊息對應的第二文字內容;展示單元,使所述本端通訊設備分別將所述第一文字內容與所述任一音頻訊息、所述第二文字內容與所述未回應音頻訊息進行關聯展示。
可選的,還包括:
預獲取單元,在接收到所述音頻轉換命令之前,使所述本端通訊設備預獲取所述第一文字內容和所述第二文字內容;或者,即時獲取單元,在接收到所述音頻轉換命令之後,使所述本端通訊設備即時獲取所述第一文字內容和所述第二文字內容。
可選的,還包括:主動轉換單元,使所述本端通訊設備主動將所述任一音頻訊息和所述未回應音頻訊息轉換為所述第一文字內容和所述第二文字內容;或者,請求單元,使所述本端通訊設備向伺服器發起音頻轉換請求,以獲得所述伺服器返回的所述第一文字內容和所述第二文字內容;其中,所述第一文字內容和所述第二文字內容由所述伺服器根據所述音頻轉換請求進行即時轉換得到,或者由所述伺服器預轉換得到。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。
電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調製的資料信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
以上所述僅為本申請的較佳實施例而已,並不用以限制本申請,凡在本申請的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請保護的範圍之內。
Claims (34)
- 一種音頻訊息的處理方法,其特徵在於,包括:伺服器識別通訊雙方之間傳輸的通訊訊息的類型;當任一通訊訊息的類型為音頻類型時,該伺服器獲取該任一通訊訊息,並且在接收到音頻轉換請求之前將該任一通訊訊息預轉換為相應的文字內容;當確定任一通訊方存在對該任一通訊訊息的音頻轉換需求時,該伺服器向該任一通訊方發送該文字內容;該伺服器確定通訊雙方對傳輸的通訊訊息的回應狀態;當接收到任一通訊方針對該任一通訊訊息的音頻轉換請求時,若存在與該任一通訊方相關的音頻類型的未回應通訊訊息,則該伺服器還向該任一通訊方返回所有音頻類型的未回應通訊訊息對應的預轉換的文字內容。
- 根據申請專利範圍第1項所述的方法,其中,所述當確定任一通訊方存在對該任一通訊訊息的音頻轉換需求時,該伺服器向該任一通訊方發送該文字內容,包括:當該任一通訊方在通訊過程中屬於預設通訊角色時,該伺服器判定該任一通訊方存在該轉換需求,並發送該文字內容。
- 根據申請專利範圍第1項所述的方法,其中,所述當確定任一通訊方存在對該任一通訊訊息的音頻轉換需求時,該伺服器向該任一通訊方發送該文字內容,包括:當接收到任一通訊方針對該任一通訊訊息的音頻轉換 請求時,該伺服器判定該任一通訊方存在該轉換需求,並向該任一通訊方返回該任一通訊訊息對應的預轉換的該文字內容。
- 根據申請專利範圍第3項所述的方法,其中,還包括:在向該任一通訊方返回該任一通訊訊息對應的預轉換的該文字內容之後,該伺服器判定該任一通訊訊息切換至已回應狀態;該伺服器將該已回應狀態告知該任一通訊訊息的發送方。
- 根據申請專利範圍第1項所述的方法,其中,該伺服器獲取該任一通訊訊息,並預轉換為相應的文字內容,包括:該伺服器依次接收通訊方按照預設規則即時切分並上傳的音頻片段,並分別將每個音頻片段預轉換為相應的文字片段;該伺服器將該些相應的文字片段依次拼接,得到該任一通訊訊息的相應文字內容。
- 一種音頻訊息的處理方法,其特徵在於,包括:本端通訊設備在接收到用戶發出的針對音頻類型的任一通訊訊息的音頻轉換命令時,向伺服器發起相應的音頻轉換請求;本端通訊設備接收到該伺服器返回的該任一通訊訊息對應的文字內容,並將該文字內容與該任一通訊訊息進行 關聯展示;其中,該文字內容由該伺服器在接收到該音頻轉換請求之前主動預轉換得到;該本端通訊設備確定該用戶對已接收的音頻類型的通訊訊息的回應狀態;其中,當接收到該用戶發出的針對該任一通訊訊息的音頻轉換命令時,若存在該任一通訊訊息之外的音頻類型的未回應通訊訊息,則該音頻轉換請求還與該未回應通訊訊息相關。
- 根據申請專利範圍第6項所述的方法,其中,還包括:該本端通訊設備在接收該伺服器返回的文字內容後,對相應的通訊訊息的展示區域進行擴展;其中,擴展後的展示區域被劃分為第一區域和第二區域;該第一區域用於示出相應的通訊訊息、該第二區域用於示出該通訊訊息對應的文字內容。
- 一種音頻訊息的處理方法,其特徵在於,包括:本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容;當接收到用戶發出的針對該任一通訊訊息的音頻轉換命令時,該本端通訊設備示出預獲取的該文字內容;若存在處於未回應狀態的音頻類型的其他通訊訊息,則該本端通訊設備還分別示出該其他通訊訊息對應的預獲取的文字內容。
- 根據申請專利範圍第8項所述的方法,其中,所述本端通訊設備預獲取音頻類型的任一通訊訊息對應的文 字內容,包括:該本端通訊設備從伺服器處預獲取該文字內容,該文字內容由該伺服器預轉換得到;或者,該本端通訊設備對該任一通訊訊息進行預轉換處理,得到該文字內容。
- 根據申請專利範圍第8項所述的方法,其中,該本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容,包括:該本端通訊設備接收到伺服器推送的該文字內容;或者,該本端通訊設備在確定與對端通訊設備之間傳輸的通訊訊息的類型時,若確定該任一通訊訊息的類型為音頻類型,則預獲取該任一通訊訊息對應的文字內容。
- 根據申請專利範圍第8項所述的方法,其中,還包括:該本端通訊設備在分別示出該其他通訊訊息對應的預獲取的文字內容之後,向伺服器發出對應於該其他通訊訊息的回應狀態切換通知,以由該伺服器將該其他通訊訊息的已回應狀態告知對應的發送方。
- 一種音頻訊息的處理方法,其特徵在於,包括:在生成音頻類型的通訊訊息的過程中,本端通訊設備依次確定已採集到的每個音頻片段是否符合預設切分規則,其中該預設切分規則包括時間長度及/或音頻片段的資料量;當任一音頻片段符合該預設切分規則時,該本端通訊 設備將該任一音頻片段即時切分並上傳至伺服器,以由該伺服器將該任一音頻片段預轉換為相應的文字片段,且所有音頻片段對應的文字片段由該伺服器依次拼接為該通訊訊息對應的文字內容。
- 一種音頻訊息的處理裝置,其特徵在於,包括:識別單元,使伺服器識別通訊雙方之間傳輸的通訊訊息的類型;預轉換單元,當任一通訊訊息的類型為音頻類型時,使該伺服器獲取該任一通訊訊息,並且在接收到音頻轉換請求之前將該任一通訊訊息預轉換為相應的文字內容;發送單元,當確定任一通訊方存在對該任一通訊訊息的音頻轉換需求時,使該伺服器向該任一通訊方發送該文字內容;確定單元,使該伺服器確定通訊雙方對傳輸的通訊訊息的回應狀態;返回單元,當接收到任一通訊方針對該任一通訊訊息的音頻轉換請求時,若存在與該任一通訊方相關的音頻類型的未回應通訊訊息,則使該伺服器還向該任一通訊方返回所有音頻類型的未回應通訊訊息對應的預轉換的文字內容。
- 根據申請專利範圍第13項所述的裝置,其中,該發送單元具體用於:當該任一通訊方在通訊過程中屬於預設通訊角色時,使該伺服器判定該任一通訊方存在該轉換需求,並發送該 文字內容。
- 根據申請專利範圍第13項所述的裝置,其中,該發送單元具體用於:當接收到任一通訊方針對該任一通訊訊息的音頻轉換請求時,使該伺服器判定該任一通訊方存在該轉換需求,並向該任一通訊方返回該任一通訊訊息對應的預轉換的該文字內容。
- 根據申請專利範圍第15項所述的裝置,其中,還包括:判定單元,在向該任一通訊方返回該任一通訊訊息對應的預轉換的該文字內容之後,使該伺服器判定該任一通訊訊息切換至已回應狀態;告知單元,使該伺服器將該已回應狀態告知該任一通訊訊息的發送方。
- 根據申請專利範圍第13項所述的裝置,其中,該預轉換單元具體用於:使該伺服器依次接收通訊方按照預設規則即時切分並上傳的音頻片段,並分別將每個音頻片段預轉換為相應的文字片段;該伺服器將該些相應的文字片段依次拼接,得到該任一通訊訊息的相應文字內容。
- 一種音頻訊息的處理裝置,其特徵在於,包括:請求單元,使本端通訊設備在接收到用戶發出的針對音頻類型的任一通訊訊息的音頻轉換命令時,向伺服器發 起相應的音頻轉換請求;展示單元,使本端通訊設備接收到該伺服器返回的該任一通訊訊息對應的文字內容,並與該任一通訊訊息進行關聯展示;其中,該文字內容由該伺服器在接收到該音頻轉換請求之前主動預轉換得到;確定單元,使該本端通訊設備確定該用戶對已接收的音頻類型的通訊訊息的回應狀態;其中,當接收到該用戶發出的針對該任一通訊訊息的音頻轉換命令時,若存在該任一通訊訊息之外的音頻類型的未回應通訊訊息,則該音頻轉換請求還與該未回應通訊訊息相關。
- 根據申請專利範圍第18項所述的裝置,其中,還包括:擴展單元,使該本端通訊設備在接收該伺服器返回的文字內容後,對相應的通訊訊息的展示區域進行擴展;其中,擴展後的展示區域被劃分為第一區域和第二區域;該第一區域用於示出相應的通訊訊息、該第二區域用於示出該通訊訊息對應的文字內容。
- 一種音頻訊息的處理裝置,其特徵在於,包括:預獲取單元,使本端通訊設備預獲取音頻類型的任一通訊訊息對應的文字內容;展示單元,當接收到用戶發出的針對該任一通訊訊息的音頻轉換命令時,使該本端通訊設備示出預獲取的該文字內容;若存在處於未回應狀態的音頻類型的其他通訊訊息,則該展示單元還使該本端通訊設備分別示出該其他通 訊訊息對應的預獲取的文字內容。
- 根據申請專利範圍第20項所述的裝置,其中,該預獲取單元具體用於:使該本端通訊設備從伺服器處預獲取該文字內容,該文字內容由該伺服器預轉換得到;或者,使該本端通訊設備對該任一通訊訊息進行預轉換處理,得到該文字內容。
- 根據申請專利範圍第20項所述的裝置,其中,該預獲取單元具體用於:使該本端通訊設備接收到伺服器推送的該文字內容;或者,使該本端通訊設備在確定與對端通訊設備之間傳輸的通訊訊息的類型時,若確定該任一通訊訊息的類型為音頻類型,則預獲取該任一通訊訊息對應的文字內容。
- 根據申請專利範圍第20項所述的裝置,其中,還包括:通知單元,使該本端通訊設備在分別示出該其他通訊訊息對應的預獲取的文字內容之後,向伺服器發出對應於該其他通訊訊息的回應狀態切換通知,以由該伺服器將該其他通訊訊息的已回應狀態告知對應的發送方。
- 一種音頻訊息的處理裝置,其特徵在於,包括:確定單元,在生成音頻類型的通訊訊息的過程中,使本端通訊設備依次確定已採集到的每個音頻片段是否符合預設切分規則,其中該預設切分規則包括時間長度及/或音頻片段的資料量; 處理單元,當任一音頻片段符合該預設切分規則時,使該本端通訊設備將該任一音頻片段即時切分並上傳至伺服器,以由該伺服器將該任一音頻片段預轉換為相應的文字片段,且所有音頻片段對應的文字片段由該伺服器依次拼接為該通訊訊息對應的文字內容。
- 一種音頻訊息的處理方法,其特徵在於,包括:當接收到任一通訊方針對任一音頻訊息的音頻轉換請求時,伺服器確定與該任一通訊方相關的未回應音頻訊息;該伺服器分別獲取該任一音頻訊息和該未回應音頻訊息對應的文字內容,並返回至該任一通訊方。
- 根據申請專利範圍第25項所述的方法,其中,該伺服器分別獲取該任一音頻訊息和該未回應音頻訊息對應的文字內容,包括:該伺服器分別將該任一音頻訊息和該未回應音頻訊息轉換為對應的文字內容;或者,該伺服器分別查找到該任一音頻訊息和該未回應音頻訊息對應的預轉換的文字內容。
- 一種音頻訊息的處理方法,其特徵在於,包括:當接收到用戶針對任一音頻訊息發出的音頻轉換命令時,本端通訊設備分別確定該任一音頻訊息對應的第一文字內容,以及該任一音頻訊息之外的未回應音頻訊息對應的第二文字內容;該本端通訊設備分別將該第一文字內容與該任一音頻 訊息、該第二文字內容與該未回應音頻訊息進行關聯展示。
- 根據申請專利範圍第27項所述的方法,其中,還包括:在接收到該音頻轉換命令之前,該本端通訊設備預獲取該第一文字內容和該第二文字內容;或者,在接收到該音頻轉換命令之後,該本端通訊設備即時獲取該第一文字內容和該第二文字內容。
- 根據申請專利範圍第27項所述的方法,其中,該本端通訊設備透過下述任一方式獲取該第一文字內容和該第二文字內容:該本端通訊設備主動將該任一音頻訊息和該未回應音頻訊息轉換為該第一文字內容和該第二文字內容;或者,該本端通訊設備向伺服器發起音頻轉換請求,以獲得該伺服器返回的該第一文字內容和該第二文字內容;其中,該第一文字內容和該第二文字內容由該伺服器根據該音頻轉換請求進行即時轉換得到,或者由該伺服器預轉換得到。
- 一種音頻訊息的處理裝置,其特徵在於,包括:確定單元,當接收到任一通訊方針對任一音頻訊息的音頻轉換請求時,使伺服器確定與該任一通訊方相關的未回應音頻訊息;返回單元,使該伺服器分別獲取該任一音頻訊息和該未回應音頻訊息對應的文字內容,並返回至該任一通訊 方。
- 根據申請專利範圍第30項所述的裝置,其中,該返回單元具體用於:使該伺服器分別將該任一音頻訊息和該未回應音頻訊息轉換為對應的文字內容;或者,使該伺服器分別查找到該任一音頻訊息和該未回應音頻訊息對應的預轉換的文字內容。
- 一種音頻訊息的處理裝置,其特徵在於,包括:確定單元,當接收到用戶針對任一音頻訊息發出的音頻轉換命令時,使本端通訊設備分別確定該任一音頻訊息對應的第一文字內容,以及該任一音頻訊息之外的未回應音頻訊息對應的第二文字內容;展示單元,使該本端通訊設備分別將該第一文字內容與該任一音頻訊息、該第二文字內容與該未回應音頻訊息進行關聯展示。
- 根據申請專利範圍第32項所述的裝置,其中,還包括:預獲取單元,在接收到該音頻轉換命令之前,使該本端通訊設備預獲取該第一文字內容和該第二文字內容;或者,即時獲取單元,在接收到該音頻轉換命令之後,使該本端通訊設備即時獲取該第一文字內容和該第二文字內容。
- 根據申請專利範圍第32項所述的裝置,其中,還包括: 主動轉換單元,使該本端通訊設備主動將該任一音頻訊息和該未回應音頻訊息轉換為該第一文字內容和該第二文字內容;或者,請求單元,使該本端通訊設備向伺服器發起音頻轉換請求,以獲得該伺服器返回的該第一文字內容和該第二文字內容;其中,該第一文字內容和該第二文字內容由該伺服器根據該音頻轉換請求進行即時轉換得到,或者由該伺服器預轉換得到。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610187534.9 | 2016-03-29 | ||
CN201610187534.9A CN105869654B (zh) | 2016-03-29 | 2016-03-29 | 音频消息的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201737117A TW201737117A (zh) | 2017-10-16 |
TWI808936B true TWI808936B (zh) | 2023-07-21 |
Family
ID=56625194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106105609A TWI808936B (zh) | 2016-03-29 | 2017-02-20 | 音頻訊息的處理方法及裝置 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11037568B2 (zh) |
CN (1) | CN105869654B (zh) |
TW (1) | TWI808936B (zh) |
WO (1) | WO2017167047A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869654B (zh) * | 2016-03-29 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 音频消息的处理方法及装置 |
CN108023941B (zh) * | 2017-11-23 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 语音控制方法及装置和电子设备 |
JP7037426B2 (ja) * | 2018-04-25 | 2022-03-16 | 京セラ株式会社 | 電子機器及び処理システム |
US11977849B2 (en) * | 2020-04-24 | 2024-05-07 | Rajiv Trehan | Artificial intelligence (AI) based automated conversation assistance system and method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US20110300833A1 (en) * | 2010-06-08 | 2011-12-08 | At&T Mobility Ii Llc | Intelligent text message-to-speech system and method for visual voice mail |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724410A (en) | 1995-12-18 | 1998-03-03 | Sony Corporation | Two-way voice messaging terminal having a speech to text converter |
US6353809B2 (en) * | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
US6198808B1 (en) * | 1997-12-31 | 2001-03-06 | Weblink Wireless, Inc. | Controller for use with communications systems for converting a voice message to a text message |
US6483899B2 (en) * | 1998-06-19 | 2002-11-19 | At&T Corp | Voice messaging system |
US6871179B1 (en) * | 1999-07-07 | 2005-03-22 | International Business Machines Corporation | Method and apparatus for executing voice commands having dictation as a parameter |
KR20020028501A (ko) * | 2000-10-10 | 2002-04-17 | 김철권 | 통신망에서의 음성 데이터와 문자 데이터간의 변환 방법및 그 장치 |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US20040176114A1 (en) | 2003-03-06 | 2004-09-09 | Northcutt John W. | Multimedia and text messaging with speech-to-text assistance |
US20040267527A1 (en) | 2003-06-25 | 2004-12-30 | International Business Machines Corporation | Voice-to-text reduction for real time IM/chat/SMS |
US7136462B2 (en) * | 2003-07-15 | 2006-11-14 | Lucent Technologies Inc. | Network speech-to-text conversion and store |
US7130401B2 (en) * | 2004-03-09 | 2006-10-31 | Discernix, Incorporated | Speech to text conversion system |
US20050266829A1 (en) | 2004-04-16 | 2005-12-01 | Lg Elcectronics, Inc. | Speech-to-text messaging system and method |
US7583974B2 (en) | 2004-05-27 | 2009-09-01 | Alcatel-Lucent Usa Inc. | SMS messaging with speech-to-text and text-to-speech conversion |
CN1798220A (zh) * | 2004-12-20 | 2006-07-05 | 英保达股份有限公司 | 语音处理系统及方法 |
US8009815B2 (en) * | 2005-08-25 | 2011-08-30 | Thomas James Newell | Message distribution system |
JP2007133033A (ja) * | 2005-11-08 | 2007-05-31 | Nec Corp | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム |
US7698140B2 (en) * | 2006-03-06 | 2010-04-13 | Foneweb, Inc. | Message transcription, voice query and query delivery system |
WO2009073768A1 (en) * | 2007-12-04 | 2009-06-11 | Vovision, Llc | Correcting transcribed audio files with an email-client interface |
US8204748B2 (en) | 2006-05-02 | 2012-06-19 | Xerox Corporation | System and method for providing a textual representation of an audio message to a mobile device |
US20090070109A1 (en) | 2007-09-12 | 2009-03-12 | Microsoft Corporation | Speech-to-Text Transcription for Personal Communication Devices |
US8958848B2 (en) * | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
FR2947688B1 (fr) * | 2009-07-02 | 2011-10-14 | Peugeot Citroen Automobiles Sa | Systeme telematique pour vehicule avec reconnaissance vocale et export vers un support externe au systeme |
US8358752B2 (en) * | 2009-11-19 | 2013-01-22 | At&T Mobility Ii Llc | User profile based speech to text conversion for visual voice mail |
EP2574220B1 (en) | 2010-05-17 | 2019-11-27 | Tata Consultancy Services Ltd. | Hand-held communication aid for individuals with auditory, speech and visual impairments |
US8543652B2 (en) | 2010-07-22 | 2013-09-24 | At&T Intellectual Property I, L.P. | System and method for efficient unified messaging system support for speech-to-text service |
US8489075B2 (en) * | 2011-11-16 | 2013-07-16 | At&T Intellectual Property I, L.P. | System and method for augmenting features of visual voice mail |
KR20160036104A (ko) * | 2011-12-07 | 2016-04-01 | 퀄컴 인코포레이티드 | 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로 |
US10334069B2 (en) * | 2013-05-10 | 2019-06-25 | Dropbox, Inc. | Managing a local cache for an online content-management system |
KR102149266B1 (ko) * | 2013-05-21 | 2020-08-28 | 삼성전자 주식회사 | 전자 기기의 오디오 데이터의 관리 방법 및 장치 |
CN103281683B (zh) * | 2013-06-08 | 2016-08-17 | 网易(杭州)网络有限公司 | 一种发送语音消息的方法及装置 |
CN103632670A (zh) * | 2013-11-30 | 2014-03-12 | 青岛英特沃克网络科技有限公司 | 语音和文本消息自动转换系统及其方法 |
CN104700836B (zh) * | 2013-12-10 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
US9401146B2 (en) * | 2014-04-01 | 2016-07-26 | Google Inc. | Identification of communication-related voice commands |
US10033864B2 (en) | 2015-05-18 | 2018-07-24 | Interactive Intelligence Group, Inc. | Dynamically switching communications to text interactions |
US9807045B2 (en) | 2015-06-10 | 2017-10-31 | Google Inc. | Contextually driven messaging system |
CN105162836B (zh) * | 2015-07-29 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 执行语音通信的方法及服务器 |
US20170085506A1 (en) | 2015-09-21 | 2017-03-23 | Beam Propulsion Lab Inc. | System and method of bidirectional transcripts for voice/text messaging |
US10223066B2 (en) * | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10121474B2 (en) * | 2016-02-17 | 2018-11-06 | Microsoft Technology Licensing, Llc | Contextual note taking |
CN105869654B (zh) * | 2016-03-29 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 音频消息的处理方法及装置 |
-
2016
- 2016-03-29 CN CN201610187534.9A patent/CN105869654B/zh active Active
-
2017
- 2017-02-20 TW TW106105609A patent/TWI808936B/zh active
- 2017-03-20 WO PCT/CN2017/077257 patent/WO2017167047A1/zh active Application Filing
-
2018
- 2018-09-26 US US16/143,372 patent/US11037568B2/en active Active
-
2021
- 2021-05-11 US US17/316,931 patent/US20210266280A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US20110300833A1 (en) * | 2010-06-08 | 2011-12-08 | At&T Mobility Ii Llc | Intelligent text message-to-speech system and method for visual voice mail |
Also Published As
Publication number | Publication date |
---|---|
CN105869654A (zh) | 2016-08-17 |
TW201737117A (zh) | 2017-10-16 |
WO2017167047A1 (zh) | 2017-10-05 |
US20190027150A1 (en) | 2019-01-24 |
CN105869654B (zh) | 2020-12-04 |
US20210266280A1 (en) | 2021-08-26 |
US11037568B2 (en) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI808936B (zh) | 音頻訊息的處理方法及裝置 | |
US20170230326A1 (en) | Integrated Messaging | |
US11182051B2 (en) | Instant communication message prompting method and instant communication client | |
US9686506B2 (en) | Method, apparatus, system, and storage medium for video call and video call control | |
US20090181702A1 (en) | Multi-mode communication | |
US20070129059A1 (en) | Method and apparatus for managing voicemail messages | |
US8990331B2 (en) | Method, apparatus and system for sharing a microblog message | |
US10474319B2 (en) | Methods and instant messaging client devices for performing IM using menu option | |
CA2862876A1 (en) | Systems and methods for sharing data among multiple end user devices | |
US20160277460A1 (en) | Method and apparatus for initiating network conference | |
CN110719220B (zh) | 消息撤回方法及装置 | |
KR20150032152A (ko) | 전자 장치 간의 편집 동작을 실행하는 방법 및 장치 | |
US10453160B2 (en) | Embeddable communications software module | |
US9992343B2 (en) | Text translation of an audio recording during recording capture | |
US11956531B2 (en) | Video sharing method and apparatus, electronic device, and storage medium | |
TW201924288A (zh) | 轉發聊天信息的方法、裝置和電子設備 | |
WO2017071356A1 (zh) | 一种基于客户端的网络数据同步的方法、装置以及系统 | |
CN104123129A (zh) | 一种快速选择文件的方法和装置 | |
CN103944806A (zh) | 一种基于微信平台的数据传输方法和系统 | |
JP2019527490A (ja) | メッセージデータを選択的に適合して送信するための方法、システム、およびコンピュータプログラム製品 | |
JP6170634B2 (ja) | 送信および受信された電子メッセージの相関 | |
US20220368667A1 (en) | Method and apparatus for forwarding content between different application programs | |
WO2017121267A1 (zh) | 一种资源传输方法及装置 | |
JP6731977B2 (ja) | 情報処理システム、情報処理システムの制御方法、及び、情報処理システムの制御プログラム | |
KR20120086090A (ko) | 사용자 단말기를 이용한 메시지 관리 시스템 및 방법 |