TW202236084A - 處理語音音頻流中斷的系統和方法 - Google Patents

處理語音音頻流中斷的系統和方法 Download PDF

Info

Publication number
TW202236084A
TW202236084A TW110146437A TW110146437A TW202236084A TW 202236084 A TW202236084 A TW 202236084A TW 110146437 A TW110146437 A TW 110146437A TW 110146437 A TW110146437 A TW 110146437A TW 202236084 A TW202236084 A TW 202236084A
Authority
TW
Taiwan
Prior art keywords
stream
speech
text
audio stream
user
Prior art date
Application number
TW110146437A
Other languages
English (en)
Inventor
費迪南德 奧利維里
瑞德 威斯特堡
仕瓦帕 山卡爾 薩格德
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW202236084A publication Critical patent/TW202236084A/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2088Call or conference reconnect, e.g. resulting from isdn terminal portability

Abstract

一種用於通信的設備包括一個或多個處理器,其被配置為在線上會議期間接收表示第一用戶的語音的語音音頻流。該一個或多個處理器還被配置為接收表示第一用戶的語音的文本流。該一個或多個處理器還被配置為響應於該語音音頻流中的中斷而選擇性地基於該文本流生成輸出。

Description

處理語音音頻流中斷的系統和方法
本公開一般涉及處理語音音頻流中斷的系統和方法。
由於技術的進步而產生了更小型和更強大的計算設備。例如,當前存在各種可攜式個人計算設備,包括諸如行動和智慧電話之類的無線電話、小型、輕量且易於由用戶攜帶的平板電腦和膝上型電腦。這些設備可以通過無線網路傳送語音和資料封包。此外,許多這樣的設備併入了附加功能,諸如數位靜態相機、數位視頻相機、數位記錄器和音頻文件播放器。此外,這樣的設備可以處理可運行指令,包括可以用於存取互聯網的軟體應用,諸如web瀏覽器應用。這樣,這些設備可以包括顯著的計算能力。
這種計算設備通常併入從一個或多個麥克風接收音頻信號的功能。例如,音頻信號可以表示由麥克風捕獲的用戶語音,由麥克風捕獲的外部聲音或其組合。這樣的設備可以包括用於線上會議或呼叫的通信設備。在第一用戶和第二用戶之間的線上會議期間的網路問題可導致幀丟失,使得由第一用戶的第一設備發送的一些音頻和視頻幀不被第二用戶的第二設備接收。網路問題導致的幀丟失可能導致線上會議期間不可恢復的資訊丟失。例如,第二用戶必須猜測錯過了什麼或者要求第一用戶重複錯過的內容,這帶來不好的用戶體驗。
根據本公開的一種實現方式,一種用於通信的設備包括一個或多個處理器,該一個或多個處理器被配置為在線上會議期間接收表示第一用戶的語音的語音音頻流。一個或多個處理器還被配置為接收表示第一用戶的語音的文本流。該一個或多個處理器還被配置為響應於該語音音頻流中的中斷而選擇性地基於該文本流生成輸出。
根據本公開的另一種實現方式,一種通信方法包括在線上會議期間在設備處接收表示第一用戶的語音的語音音頻流。該方法還包括在設備處接收表示第一用戶的語音的文本流。該方法還包括響應於該語音音頻流中的中斷而在該裝置處選擇性地基於該文本流生成輸出。
根據本公開的另一種實現方式,一種非暫態電腦可讀媒體包括指令,該指令在由一個或多個處理器運行時使該一個或多個處理器在線上會議期間接收表示第一用戶的語音的語音音頻流。當由該一個或多個處理器運行時,該指令還使該一個或多個處理器接收表示該第一用戶的語音的文本流。該指令在由該一個或多個處理器運行時還使該一個或多個處理器響應於該語音音頻流中的中斷而選擇性地基於該文本流生成輸出。
根據本公開的另一種實現方式,一種裝置包括用於在線上會議期間接收語音音頻流的構件,該語音音頻流表示第一用戶的語音。該裝置還包括用於接收表示第一用戶的語音的文本流的構件。該裝置還包括用於響應於該語音音頻流中的中斷而選擇性地基於該文本流生成輸出的構件。
本公開的其他方面、優點和特徵在閱讀整個申請(包括以下部分)後將變得顯而易見:圖式簡單說明、實施方式和發明申請專利範圍。
錯過線上會議或呼叫的一部分可能對用戶體驗造成不好的影響。例如,在第一用戶和第二用戶之間的線上會議期間,如果由第一用戶的第一設備發送的一些音頻幀未被第二用戶的第二設備接收到,則第二用戶可能錯過第一用戶的語音的一部分。第二用戶必須猜測第一用戶所說的內容或要求第一用戶重複錯過的內容。這可能導致通信錯誤、中斷對話流以及浪費時間。
公開了處理語音音頻流中斷的系統和方法。例如,每個設備包括會議管理器,該會議管理器被配置為在設備和一個或多個其他設備之間建立線上會議或呼叫。中斷管理器(在裝置處或在伺服器處)被配置為處理語音音頻流中斷。
在第一用戶的第一設備和第二用戶的第二設備之間的線上會議期間,第一設備的會議管理器向第二設備發送媒體流。該媒體流包括語音音頻流、視頻流或兩者。語音音頻流對應於會議期間第一用戶的語音。
流管理器(在第一設備處或在伺服器處)通過對語音音頻流執行語音到文本的轉換來生成文本流,並將該文本流轉發到第二設備。流管理器(例如,第一設備處或伺服器處的會議管理器)在第一操作模式(例如,發送字幕資料模式)下,在整個線上會議期間與媒體流併發地轉發文本流。在可替代示例中,在第二操作模式(例如,發送中斷資料模式)中,流管理器(例如,第一設備或伺服器處的中斷管理器)響應於檢測到向第二設備發送媒體流的網路問題(例如,低頻寬、封包丟失等)將文本流轉發到第二設備。
在一些示例中,網路問題導致在第二設備處接收媒體流的中斷,而沒有接收文本流的中斷。在一些示例中,處於第一操作模式(例如,顯示字幕資料模式)中的第二設備向顯示器提供文本流,而與檢測網路問題無關。在其他示例中,處於第二操作模式(例如,顯示中斷資料模式)的第二設備響應於檢測到媒體流中的中斷而顯示文本流。
在特定示例中,流管理器(例如,會議管理器或中斷管理器)除了文本資料之外還轉發元資料流。元資料指示第一用戶的語音的情感、語調、其他屬性。在特定示例中,第二設備除了顯示文本流之外還顯示元資料流。例如,基於元資料流注釋文本流。
在特定示例中,第二設備對文本流執行文本到語音的轉換以生成合成語音音頻流,且輸出合成語音音頻流(例如,以替換中斷的語音音頻流)。在特定示例中,文本到語音的轉換至少部分地基於元資料流。
在特定示例中,第二設備在合成語音音頻流的輸出期間顯示虛擬化身(avatar)(例如,以替換中斷的視頻流)。在特定示例中,文本到語音的轉換基於通用語音模型。例如,第一通用語音模型可以用於一個用戶,第二通用語音模型可以用於另一個用戶,以便聽眾能夠區分對應於不同用戶的語音。在另一特定示例中,文本到語音的轉換基於根據第一用戶的語音生成的用戶語音模型。在特定示例中,在線上會議之前生成用戶語音模型。在特定示例中,在線上會議期間生成(或更新)用戶語音模型。在特定示例中,用戶語音模型從通用語音模型初始化並基於第一用戶的語音更新。
在特定示例中,虛擬化身指示正在訓練語音模型。例如,虛擬化身被初始化為紅色以指示正在使用通用語音模型(或者用戶語音模型未準備好),並且虛擬化身隨著時間從紅色過渡到綠色以指示正在訓練語音模型。綠色虛擬化身表示用戶語音模型被訓練(或用戶語音模型準備就緒)。
線上會議可以在多於兩個用戶之間。在第一設備正在經歷網路問題但是線上會議中的第三用戶的第三設備沒有經歷網路問題的情形下,第二設備可以在輸出從第三設備接收的與第三用戶的語音、視頻或兩者對應的第二媒體流的同時輸出第一用戶的合成語音音頻流。
下面參考附圖描述本公開的特定方面。在說明書中,共同的特徵由共同的附圖標記表示。如本文所使用的,各種術語僅用於描述特定實現方式的目的,而不旨在限制實現方式。例如,單數形式“一個”、“一種”和“該”也旨在包括複數形式,除非上下文另外清楚地指出。此外,在本文描述的一些特徵在一些實現方式中是單數,並且在其他實現方式中是複數。為了說明,圖1描繪了包括一個或多個處理器(圖1的“處理器”160)的設備104,其指示在一些實現方式中,設備104包括單個處理器160,而在其他實現方式中,設備104包括多個處理器160。
如本文所使用的,術語“包括(comprise)”、“包括(comprises)”和“包括(comprising)”可與“包含(include)”、“包含(includes)”或“包含(including)”互換使用,另外,術語“其中”可與“在哪裡”互換使用。如本文所使用的,“示例性”指示示例、實現方式和/或方面,並且不應被解釋為限制或指示偏好或優選實現方式。如本文所使用的,用於修改諸如結構、組件、操作等元素的序數術語(例如,“第一”、“第二”、“第三”等)本身並不指示該元素相對於另一元素的任何優先級或順序,而是僅將該元素與具有相同名稱的另一元素區分開(但使用序數術語)。如本文所使用的,術語“集合”是指一個或多個特定元素,並且術語“多個”是指多個(例如,兩個或多個)特定元素。
如本文所使用的,“耦合”可以包括“通信地耦合”、“電耦合”或“實體地耦合”,並且還可以(或可替代地)包括其任何組合。兩個設備(或組件)可以經由一個或多個其他設備、組件、導線、匯流排、網路(例如,有線網路、無線網路或其組合)等直接或間接地耦合(例如,通信地耦合、電耦合或實體地耦合)。作為說明性的非限制性示例,電耦合的兩個設備(或組件)可以被包括在相同的設備中或不同的設備中,並且可以經由電子器件、一個或多個連接器或電感耦合來連接。在一些實現方式中,通信地耦合(諸如,電通信)的兩個設備(或組件)可以經由一個或多個導線、匯流排、網路等直接或間接地發送和接收信號(例如,數位信號或類比信號)。如本文所使用的,“直接耦合”可以包括在沒有中間組件的情況下耦合(例如,通信地耦合、電耦合或實體地耦合)的兩個設備。
在本公開中,諸如“確定”、“計算”、“估計”、“移位”、“調整”等術語可用於描述如何執行一個或多個操作。應當注意,這些術語不應被解釋為限制性的,並且可以利用其他技術來執行類似的操作。另外,如本文所提到的、“生成”、“計算”、“估計”、“使用”、“選擇”、“存取”和“確定”可以互換使用。例如,、“生成”、“計算”、“估計”或“確定”參數(或信號)可以指主動地生成、估計、計算或確定參數(或信號),或者可以指使用、選擇或存取已經生成的參數(或信號),諸如由另一組件或設備生成。
參考圖1,公開了被配置為處理語音音頻流中斷的系統的特定說明性方面,且將其大體指定為100。系統100包括經由網路106耦合到設備104的設備102。網路106包括有線網路、無線網路或兩者。設備102耦合到相機150、麥克風152或兩者。裝置104耦合到揚聲器154、顯示設備156或兩者。
設備104包括耦合到記憶體132的一個或多個處理器160。一個或多個處理器160包括耦合到中斷管理器164的會議管理器162。會議管理器162和中斷管理器164耦合到圖形用戶界面(GUI)生成器168。中斷管理器164包括文本到語音的轉換器166。設備102包括一個或多個處理器120,該處理器120包括耦合到中斷管理器124的會議管理器122。會議管理器122和會議管理器162被配置為建立線上會議(例如,音頻呼叫、視頻呼叫、會議呼叫等)。在特定示例中,會議管理器122和會議管理器162對應於通信應用(例如,線上會議應用)的客戶端。中斷管理器124和中斷管理器164被配置為處理語音音頻中斷。
在一些實現方式中,會議管理器122和會議管理器162無視(例如,未意識到)由中斷管理器124和中斷管理器164管理的任何語音音頻中斷。在一些實現方式中,會議管理器122和會議管理器162分別對應於設備102和設備104的網路協定堆疊(例如,開放系統互連(OSI)模型)的較高層(例如,應用層)。在一些實現方式中,中斷管理器124和中斷管理器164分別對應於設備102和設備104的網路協定堆疊的較低級別(例如,傳輸層)。
在一些實現方式中,設備102、設備104或兩者對應於各種類型的設備或被包括在各種類型的設備中。在說明性示例中,一個或多個處理器120、一個或多個處理器160或其組合被整合在頭戴式耳機設備中,如參考圖11進一步描述的。在其他示例中,一個或多個處理器120、一個或多個處理器160或其組合被整合在如參考圖10所描述的行動電話或平板電腦設備、如參考圖12所描述的可穿戴電子設備、如參考圖13所描述的聲控揚聲器系統、如參考圖14所描述的相機設備,或如參考圖15所描述的虛擬實境頭戴式耳機、擴增現境頭戴式耳機或混合實境頭戴式耳機中的至少一者中。在另一個說明性示例中,一個或多個處理器120、一個或多個處理器160或其組合被整合到交通工具中,如參考圖16和圖17進一步描述的。
在操作期間,會議管理器122和會議管理器162在設備102和設備104之間建立線上會議(例如,音頻呼叫、視頻呼叫、會議呼叫或其組合)。例如,線上會議在設備102的用戶142和設備104的用戶144之間。麥克風152在用戶142正在講話時捕獲用戶142的語音,並向設備102提供表示該語音的音頻輸入153。在特定方面,相機150(例如,靜態相機、視頻相機或兩者)捕獲用戶142的一個或多個圖像(例如,靜態圖像或視頻)且將表示該一個或多個圖像的視頻輸入151提供給設備102。在特定方面,相機150將視頻輸入151提供給設備102,同時麥克風152將音頻輸入153提供給設備102。
會議管理器122基於音頻輸入153、視頻輸入151或兩者生成媒體幀的媒體流109。例如,媒體流109包括語音音頻流111、視頻流113或兩者。在特定方面,會議管理器122經由網路106即時地向設備104發送媒體流109。例如,會議管理器122在接收到視頻輸入151、音頻輸入153或兩者時生成媒體流109的媒體幀,並且在生成媒體幀時發送(例如,啟動發送)媒體幀的媒體流109。
在特定實現方式中,在設備102的第一操作模式(例如,發送字幕資料模式)期間,會議管理器122基於音頻輸入153生成文本流121、元資料流123或兩者。例如,會議管理器122對音頻輸入153執行語音到文本的轉換以生成文本流121。文本流121指示對應於在音頻輸入153中檢測到的語音的文本。在特定方面,會議管理器122對音頻輸入153執行語音語調分析以生成元資料流123。例如,元資料流123指示在音頻輸入153中檢測到的語音的語調(例如,情感、音高、音調或其組合)。在設備102的第一操作模式(例如,發送字幕資料模式)中,會議管理器122將文本流121、元資料流123或兩者(例如,作為隱藏字幕資料)與媒體流109一起發送到設備104(例如,獨立於網路問題或語音音頻中斷)。可替代地,會議管理器122在設備102的第二操作模式(例如,發送中斷資料模式)期間,響應於確定沒有檢測到語音音頻中斷,避免生成文本流121和元資料流123。
設備104經由網路106從設備102接收媒體幀的媒體流109。在特定實現方式中,設備104接收媒體流109的媒體幀的集合(例如,突發)。在可替代實現方式中,設備104在媒體流109的時間接收一個媒體幀。會議管理器162播放媒體流109的媒體幀。例如,會議管理器162基於語音音頻流111生成音頻輸出143,並經由揚聲器154播放(例如,作為流音頻內容)音頻輸出143。在特定方面,GUI生成器168基於媒體流109生成GUI 145,如參考圖3A進一步描述的。例如,GUI生成器168生成(或更新)GUI 145以顯示視頻流113的視頻內容,並向顯示設備156提供GUI 145(例如,流式傳輸視頻內容)。用戶144可以在顯示設備156上觀看用戶142的圖像,同時經由揚聲器154收聽用戶142的音頻語音。
在特定實現方式中,會議管理器162在播放之前將媒體流109的媒體幀儲存在緩衝器中。例如,會議管理器162在接收媒體幀和在第一回放時間回放媒體幀之間添加延遲,以增加後續媒體幀在緩衝器中的相應回放時間(例如,第二回放時間)可用的可能性。在特定方面,會議管理器162即時播放媒體流109。例如,會議管理器162從緩衝器檢索媒體流109的媒體幀以播放音頻輸出143、GUI 145的視頻內容或兩者,同時媒體流109的後續媒體幀正被設備104接收(或預期被接收)。
在設備104的第一操作模式(例如,顯示字幕資料模式)中,會議管理器162與媒體流109一起播放文本流121(例如,獨立於檢測語音音頻流111中的中斷)。在特定方面,會議管理器162,例如,在設備102的第一操作模式(例如,發送字幕資料模式)期間與媒體流109一起接收文本流121、元資料流123或兩者。在可替代方面,會議管理器162,例如,在設備102的第二操作模式(例如,發送中斷資料模式)期間不接收文本流121、元資料流123或兩者,並且基於語音音頻流111、視頻流113或兩者來生成文本流121、元資料流123或兩者。例如,會議管理器162對語音音頻流111執行語音到文本的轉換以生成文本流121,並對語音音頻流111執行語調分析以生成元資料流123。
在設備104的第一操作模式(例如,顯示字幕資料模式)期間,會議管理器162將文本流121作為輸出提供給顯示設備156。例如,會議管理器162在顯示視頻流113的視頻內容,向揚聲器154提供音頻輸出143或兩者的同時使用GUI 145與顯示文本流121的文本內容(例如,作為隱藏字幕)。為了說明,會議管理器162將文本流121提供給GUI生成器168,同時將視頻流113提供給GUI生成器168。GUI生成器168更新GUI 145以顯示文本流121、視頻流113或兩者。GUI生成器168向顯示設備156提供GUI 145的更新,同時會議管理器162向揚聲器154提供語音音頻流111作為音頻輸出143。
在特定示例中,會議管理器162基於文本流121和元資料流123生成注釋文本流137。在特定方面,會議管理器162通過基於元資料流123向文本流121添加注釋來生成注釋文本流137。會議管理器162將注釋文本流137作為輸出提供給顯示設備156。例如,會議管理器162與媒體流109一起播放注釋文本流137。為了說明,會議管理器162在顯示視頻流113的視頻內容、向揚聲器154提供音頻輸出143或兩者的同時,使用GUI 145顯示注釋文本流137的注釋的文本內容(例如,作為具有語調指示的隱藏字幕)。
在特定實現方式中,會議管理器162在設備104的第二操作模式(例如,顯示中斷資料模式或隱藏字幕禁用模式)中避免播放文本流121(例如,注釋文本流137)。例如,會議管理器162不接收文本流121(例如,在設備102的第二操作模式期間),並且在第二操作模式(例如,顯示中斷資料模式或隱藏字幕禁用模式)下不生成文本流121。作為另一個示例,會議管理器162接收文本流121,並且響應於檢測到設備104的第二操作模式(例如,顯示中斷資料模式或隱藏字幕禁用模式),避免播放文本流121(例如,注釋文本流137)。在特定方面,中斷管理器164在設備104的第二操作模式(例如,顯示中斷資料模式)中,響應於確定在媒體流109中沒有檢測到中斷(例如,已經接收到媒體流109中對應於文本流121的部分),避免播放文本流121(例如,注釋文本流137)。
在特定方面,中斷管理器164在線上會議開始之前或開始附近基於通用語音模型初始化語音模型131,諸如人工神經網路。在特定方面,中斷管理器164基於確定通用語音模型與用戶142的人口統計資料(諸如,用戶的年齡、位置、性別或其組合)相匹配(例如,與之相關聯)來從多個通用語音模型中選擇通用語音模型。在特定方面,中斷管理器164基於用戶142的聯繫資訊(例如,姓名、位置、電話號碼、地址或其組合)來在線上會議(例如,排定的會議)之前預測人口統計資料。在特定方面,中斷管理器164在線上會議的開始部分期間基於語音音頻流111、視頻流113或兩者來估計人口統計資料。例如,中斷管理器164分析語音音頻流111、視頻流113或兩者,以估計用戶142的年齡、區域性口音、性別或其組合。在特定方面,中斷管理器164檢索與用戶142相關聯(例如,匹配用戶142的用戶識別符)的語音模型131(例如,先前生成的)。
在特定方面,中斷管理器164基於線上會議期間在語音音頻流111中(例如,在語音音頻流111中的中斷之前)檢測到的語音來訓練(例如,生成或更新)語音模型131。為了說明,文本到語音的轉換器166被配置為使用語音模型131來執行文本到語音的轉換。在特定方面,中斷管理器164接收(例如,在設備102的第一操作模式期間)或生成(例如,在設備102的第二操作模式期間)對應於語音音頻流111的文本流121、元資料流123或兩者。文本到語音的轉換器166使用語音模型131通過對文本流121、元資料流123或兩者執行文本到語音的轉換來生成合成語音音頻流133。中斷管理器164基於語音音頻流111和合成語音音頻流133的比較使用訓練技術來更新語音模型131。在語音模型131包括人工神經網路的說明性示例中,中斷管理器164使用反向傳播來更新語音模型131的權重和偏置。根據一些方面,語音模型131被更新,使得使用語音模型131的後續文本到語音的轉換更可能生成與用戶142的語音特性更緊密匹配的合成語音。
在特定方面,中斷管理器164生成用戶142的虛擬化身135(例如,視覺表示)。在特定方面,虛擬化身135包括或對應於指示語音模型131的訓練級別的訓練指示符,如參考圖3A-3C進一步描述的。例如,響應於確定不滿足第一訓練標準,中斷管理器164將虛擬化身135初始化為指示語音模型131未被訓練的第一視覺表示。在線上會議期間,中斷管理器164響應於確定滿足第一訓練標準但是不滿足第二訓練標準,將虛擬化身135從第一視覺表示更新為第二視覺表示,以指示語音模型131的訓練正在進行中。中斷管理器164響應於確定滿足第二訓練標準,將虛擬化身135更新為第三視覺表示以指示語音模型131的訓練完成。
訓練標準可基於用於訓練語音模型131的音頻試樣的計數、用於訓練語音模型131的音頻試樣的回放持續時間、用於訓練語音模型131的音頻試樣的覆蓋、語音模型131的成功度量或其組合。在特定方面,用於訓練語音模型131的音頻試樣的覆蓋對應於由音頻試樣表示的不同聲音(例如,元音、輔音等)。在特定方面,成功度量是基於用於訓練語音模型131的音頻試樣與基於語音模型131生成的合成語音的比較(例如,它們之間的匹配)。
根據一些實現方式,虛擬化身135的第一顏色、第一陰影、第一大小、第一動畫或其組合指示語音模型131未被訓練。虛擬化身135的第二顏色、第二陰影、第二大小、第二動畫或其組合指示語音模型131被部分訓練。虛擬化身135的第三顏色、第三陰影、第三大小、第三動畫或其組合指示語音模型131的訓練完成。在特定方面,GUI生成器168生成(或更新)GUI 145以指示虛擬化身135的視覺表示。
在特定方面,中斷管理器124檢測到設備104的通信鏈路中的網路問題(例如,減小的頻寬)。響應於檢測到網路問題,中斷管理器124將指示語音音頻流111中的中斷的中斷通知119發送到設備104,避免將媒體流109的後續媒體幀發送(例如,停止發送)到設備104,直到檢測到網路問題得到解決或兩者。例如,中斷管理器124響應於檢測到網路問題,避免向設備104發送(例如,停止發送)語音音頻流111、視頻流113或兩者,直到中斷結束。
中斷管理器124發送對應於後續媒體幀的文本流121、元資料流123或兩者。例如,在設備102的第一操作模式(例如,發送字幕資料模式)中,中斷管理器124繼續發送對應於後續媒體幀的文本流121、元資料流123或兩者。為了說明,在第一操作模式(例如,發送字幕資料模式)中,會議管理器122生成媒體流109、文本流121、元資料流123或其組合。中斷管理器124響應於在第一操作模式(例如,發送字幕資料模式)中檢測到網路問題,停止媒體流109的後續媒體幀的發送,並且繼續向設備104發送與後續媒體幀相對應的文本流121、元資料流123或兩者。可替代地,響應於在設備102的第二操作模式(例如,發送中斷資料模式)中檢測到網路問題,中斷管理器124基於與後續媒體幀相對應的音頻輸入153來生成文本流121、元資料流123或兩者。為了說明,在第二操作模式(例如,發送中斷資料模式)中,會議管理器122生成媒體流109而不生成文本流121、元資料流123或兩者。中斷管理器124響應於在設備102的第二操作模式(例如,發送中斷資料模式)中檢測到網路問題,停止媒體流109的後續媒體幀的發送,並啟動對應於後續媒體幀的文本流121、元資料流123或兩者到設備104的發送。在特定方面,在設備102的第二操作模式(例如,發送中斷資料模式)中,將文本流121、元資料流123或兩者發送到設備104對應於將中斷通知119發送到設備104。
在特定方面,中斷管理器164響應於從設備102接收到中斷通知119而檢測到語音音頻流111中的中斷。在特定方面,當設備102以第二操作模式(例如,發送中斷資料模式)操作時,中斷管理器164響應於接收文本流121、元資料流123或兩者而檢測到語音音頻流111中的中斷。
在特定方面,中斷管理器164響應於確定在語音音頻流111的最後接收的音頻幀的閾值持續時間內未接收到語音音頻流111的音頻幀而檢測到語音音頻流111中的中斷。例如,語音音頻流111的最後接收的音頻幀在設備104的第一接收時間被接收。中斷管理器164響應於確定在第一接收時間的閾值持續時間內沒有接收到語音音頻流111的音頻幀而檢測到中斷。在特定方面,中斷管理器164向設備102發送中斷通知。在特定方面,中斷管理器124響應於從設備104接收到中斷通知而檢測到網路問題。如上所述,中斷管理器124響應於檢測到網路問題,向設備104發送文本流121、元資料流123或兩者(例如,而不是發送媒體流109的後續媒體幀)。
響應於檢測到中斷,中斷管理器164選擇性地基於文本流121生成輸出。例如,響應於中斷,中斷管理器164向文本到語音的轉換器166提供文本流121、元資料流123、注釋文本流137或其組合。文本到語音的轉換器166通過使用語音模型131基於文本流121、元資料流123、注釋文本流137或其組合執行文本到語音的轉換來生成合成語音音頻流133。例如,基於文本流121並且獨立於元資料流123的合成語音音頻流133對應於由文本流121指示的語音,該語音具有由語音模型131表示的用戶142的中性語音特性。作為另一個示例,基於注釋文本流137(例如,文本流121和元資料流123)的合成語音音頻流133對應於由文本流121指示的語音,該語音具有由語音模型131表示的用戶142的語音特性,該語音特性具有由元資料流123指示的語調。使用至少部分地在用戶142的語音(例如,語音音頻流111)上訓練的語音模型131來執行文本到語音的轉換使得合成語音音頻流133能夠更接近地匹配用戶142的語音特性。響應於中斷,中斷管理器164將合成語音音頻流133作為音頻輸出143提供給揚聲器154、停止語音音頻流111的回放、停止視頻流113的回放,或其組合。
在特定方面,中斷管理器164在將合成語音音頻流133作為音頻輸出143提供給揚聲器154的同時選擇性地顯示虛擬化身135。例如,當將語音音頻流111作為音頻輸出143提供給揚聲器154時,中斷管理器164避免顯示虛擬化身135。作為另一個示例,中斷管理器164在將合成語音音頻流133作為音頻輸出143提供給揚聲器154的同時顯示虛擬化身135。為了說明,GUI生成器168更新GUI 145以顯示虛擬化身135而不是視頻流113,同時合成語音音頻流133作為音頻輸出143被輸出以供揚聲器154播放。在特定方面,中斷管理器164在將語音音頻流111作為音頻輸出143提供給揚聲器154的同時顯示虛擬化身135的第一表示,並且在將合成語音音頻流133作為音頻輸出143提供給揚聲器154的同時顯示虛擬化身135的第二表示。例如,第一表示指示虛擬化身135正在或已經被訓練(例如,語音模型131的訓練指示符),並且第二表示指示虛擬化身135正在說話(例如,語音模型131正被用於生成合成語音),如參考圖3C進一步描述的。
在特定實現方式中,中斷管理器164選擇性地提供文本流121、注釋文本流137或兩者作為到顯示設備156的輸出。例如,響應於設備104的第二操作模式(例如,顯示中斷資料模式)期間的中斷,中斷管理器164向GUI生成器168提供文本流121、注釋文本流137或兩者,以更新GUI 145來顯示文本流121、注釋文本流137或兩者。在可替代實現方式中,在設備104的第一操作模式(例如,顯示字幕資料模式)期間,中斷管理器164繼續(例如,獨立於中斷)向顯示設備156提供文本流121、注釋文本流137或兩者作為輸出。在特定方面,中斷管理器164在將合成語音音頻流133作為音頻輸出143提供給揚聲器154的同時將文本流121、注釋文本流137、兩者提供給顯示設備156。
在特定實現方式中,中斷管理器164基於中斷配置設置並響應於該中斷,輸出合成語音音頻流133、文本流121或注釋文本流137中的一者或多者。例如,響應於中斷並確定中斷配置設置具有第一值(例如,0或“音頻和文本”),中斷管理器164將文本流121、注釋文本流137或兩者提供給顯示設備156,同時將合成語音音頻流133作為音頻輸出143提供給揚聲器154。中斷管理器164響應於中斷並確定中斷配置設置具有第二值(例如,1或“僅文本”),向顯示設備156提供文本流121、注釋文本流137或兩者,並避免向揚聲器154提供音頻輸出143。中斷管理器164響應於中斷並確定中斷配置設置具有第三值(例如,2或“僅音頻”),避免將文本流121、注釋文本流137或兩者提供給顯示設備156,並將合成語音音頻流133作為音頻輸出143提供給揚聲器154。在特定方面,中斷配置設置基於默認資料、用戶輸入或兩者。
在特定方面,中斷管理器124檢測到中斷已經結束並將中斷結束通知發送到設備104。例如,響應於確定與設備104的通信鏈路的可用通信頻寬大於閾值,中斷管理器124檢測到中斷已經結束。在特定方面,響應於從設備102接收到中斷結束通知,中斷管理器164檢測到中斷已經結束。
在另一特定方面,中斷管理器164檢測到中斷已經結束並將中斷結束通知發送到設備102。例如,響應於確定與設備102的通信鏈路的可用通信頻寬大於閾值,中斷管理器164檢測到中斷已經結束。在特定方面,響應於從設備104接收到中斷結束通知,中斷管理器124檢測到中斷已經結束。
響應於檢測到中斷已經結束,會議管理器122恢復向設備104發送語音音頻流111、視頻流113或兩者。在特定方面,語音音頻流111、視頻流113或兩者的發送對應於中斷結束通知的發送。響應於檢測到在設備102的第二操作模式(例如,發送中斷資料模式)期間中斷已經結束,中斷管理器124避免向設備104發送文本流121、元資料流123或兩者。
會議管理器162響應於檢測到中斷已經結束,避免基於文本流121生成合成語音音頻流133,避免將合成語音音頻流133作為音頻輸出143(例如,停止)提供給揚聲器154,並且恢復語音音頻流111作為音頻輸出143(例如,提供)給揚聲器154的回放。響應於檢測到中斷已經結束,會議管理器162恢復向顯示設備156提供視頻流113。例如,會議管理器162將視頻流113提供給GUI生成器168以更新GUI 145來顯示視頻流113。
在特定方面,響應於檢測到中斷已經結束,中斷管理器164向GUI生成器168發送第一請求以更新GUI 145,從而指示語音模型131未被用於輸出合成語音音頻(例如,虛擬化身135未說話)。GUI生成器168響應於接收到第一請求,更新GUI 145以顯示虛擬化身135的第一表示,該第一表示指示語音模型131正在或已經被訓練並且語音模型131未被用於輸出合成語音音頻(例如,虛擬化身135未說話)。在可替代的方面,響應於檢測到中斷已經結束,中斷管理器164向GUI生成器168發送第二請求,以停止顯示虛擬化身135。例如,GUI生成器168響應於接收到第二請求,更新GUI 145以避免顯示虛擬化身135。
在特定方面,中斷管理器164響應於檢測到中斷已在第二操作模式(例如,更多地顯示中斷資料或無字幕資料模式)期間結束,避免向顯示設備156提供文本流121、注釋文本流137或兩者。例如,GUI生成器168更新GUI 145以避免顯示文本流121、注釋文本流137或兩者。
系統100因此減少(例如,消除)線上會議期間語音音頻流111的中斷期間的資訊損失。例如,在文本可以被設備104接收的情況下,儘管網路問題阻止語音音頻流111被設備104接收,但是用戶144繼續接收對應於用戶142的語音的音頻(例如,合成語音音頻流133)、文本(例如,文本流121、注釋文本流137或兩者)或其組合。
雖然相機150和麥克風152被圖示為耦合到設備102,但是在其他實現方式中,相機150、麥克風152或兩者可以整合在設備102中。雖然揚聲器154和顯示設備156被圖示為耦合到設備104,但是在其他實現方式中,揚聲器154、顯示設備156或兩者可以整合在設備104中。儘管圖示了一個麥克風和一個揚聲器,但是在其他實現方式中,可以包括被配置為捕獲用戶語音的一個或多個附加麥克風、被配置為輸出語音音頻的一個或多個附加揚聲器,或其組合。
應當理解,為了便於說明,將設備102描述為發送設備,將設備104描述為接收設備。在呼叫期間,設備102和設備104的角色可以在用戶144開始說話時切換。例如,設備104可以是發送設備,而設備102可以是接收設備。為了說明,設備104可以包括麥克風和相機以捕獲用戶144的音頻和視頻,並且設備102可以包括或耦合到揚聲器和顯示器以向用戶142播放音頻和視頻。在特定方面,例如,當用戶142和用戶144兩者同時或在重疊時間說話時,設備102和設備104中的每一者可為發送設備和接收設備。
在特定方面,會議管理器122還被配置為執行參考會議管理器162描述的一個或多個操作,反之亦然。在特定方面,中斷管理器124還被配置為執行參考中斷管理器164描述的一個或多個操作,反之亦然。儘管GUI生成器168被描述為不同於會議管理器162和中斷管理器164,但是在其他實現方式中,GUI生成器168被整合到會議管理器162、中斷管理器164或兩者中。為了說明,在一些示例中,會議管理器162、中斷管理器164或兩者被配置為執行參考GUI生成器168描述的一些操作。
參考圖2,示出了可操作來處理語音音頻流中斷的系統,且其一般指定為200。在特定方面,圖1的系統100包括系統200的一個或多個組件。
系統200包括經由網路106耦合到設備102和設備104的伺服器204。伺服器204包括會議管理器122和中斷管理器124。伺服器204被配置為將線上會議資料從設備102轉發到設備104,反之亦然。例如,會議管理器122被配置為在設備102和設備104之間建立線上會議。
設備102包括會議管理器222。在線上會議期間,會議管理器222將媒體流109(例如,語音音頻流111、視頻流113或兩者)發送到伺服器204。伺服器204的會議管理器122從設備102接收媒體流109(例如,語音音頻流111、視頻流113或兩者)。在特定實現方式中,設備102在向伺服器204發送媒體流109的同時發送文本流121、元資料流123或兩者。
在特定方面,如參考圖1所描述的,用伺服器204代替設備102來執行後續操作。例如,會議管理器122(在伺服器204而不是圖1中的設備102處操作)以與參考圖1所描述的方式類似的方式將媒體流109、文本流121、元資料流123或其組合發送到設備104。例如,在伺服器204的第一操作模式(例如,發送字幕資料模式)期間,會議管理器122發送文本流121、元資料流123或兩者。在特定實現方式中,會議管理器122將從設備102接收的文本流121、元資料流123或兩者轉發到設備104。在一些實現方式中,會議管理器122基於文本流121、媒體流109或其組合來生成元資料流123。在這些實現方式中,會議管理器122將從設備102接收到的文本流121轉發到設備104,將在伺服器204處生成的元資料流123發送到設備104或兩者。在一些實現方式中,會議管理器122基於媒體流109生成文本流121、元資料流123或兩者,並將文本流121、元資料流123或兩者轉發到設備104。可替代地,在伺服器204的第二操作模式(例如,發送中斷資料模式)期間,會議管理器122響應於確定未檢測到中斷而避免發送文本流121、元資料流123或兩者。設備104經由網路106從伺服器204接收媒體流109、文本流121、注釋文本流137或其組合。會議管理器162播放媒體流109、文本流121、注釋文本流137或其組合的媒體幀,如參考圖1所描述的。中斷管理器164訓練語音模型131、顯示虛擬化身135或兩者,如參考圖1所描述的。
在特定方面,中斷管理器124響應於檢測到網路問題而將指示語音音頻流111中的中斷的中斷通知119發送到設備104,避免將媒體流109的後續媒體幀發送(例如,停止發送)到設備104,直到檢測到網路問題得到解決(例如,中斷已經結束)或兩者。中斷管理器124將對應於後續媒體幀的文本流121、元資料流123或兩者發送到設備104,如參考圖1所描述的。例如,中斷管理器124將從設備102接收的文本流121、元資料流123或兩者轉發到設備104。在一些示例中,中斷管理器124將在伺服器204處生成的元資料流123、文本流121或兩者發送到設備104。在特定方面,中斷管理器124在伺服器204的第二操作模式(例如,發送中斷資料模式)期間響應於檢測到語音音頻流111中的中斷而選擇性地生成元資料流123、文本流121或兩者。
在特定方面,中斷管理器164以與參考圖1所描述的方式類似的方式,響應於從(例如,在伺服器204處)中斷管理器124接收到中斷通知119,當伺服器204在第二操作模式(例如,發送中斷資料模式)中操作時接收到文本流121、元資料流123或兩者,確定在語音音頻流111的最後接收的音頻幀的閾值持續時間內未接收到語音音頻流111的音頻幀,或其組合,而檢測到語音音頻流111中的中斷。在特定方面,中斷管理器164向伺服器204發送中斷通知。在特定方面,中斷管理器124響應於從設備104接收到中斷通知而檢測到網路問題。中斷管理器124將對應於後續媒體幀的文本流121、元資料流123或兩者發送到設備104,如參考圖1所描述的。
響應於檢測到中斷,中斷管理器164向文本到語音的轉換器166提供文本流121、元資料流123、注釋文本流137或其組合。文本到語音的轉換器166通過使用語音模型131基於文本流121、元資料流123、注釋文本流137或其組合執行文本到語音的轉換來生成合成語音音頻流133,如參考圖1所描述的。中斷管理器164響應於中斷而將合成語音音頻流133作為音頻輸出143提供給揚聲器154、停止語音音頻流111的回放、停止視頻流113的回放、顯示虛擬化身135、顯示虛擬化身135的特定表示、顯示文本流121、顯示注釋文本流137或其組合,如參考圖1所描述的。
響應於檢測到中斷已經結束,會議管理器122恢復向設備104發送語音音頻流111、視頻流113或兩者。在特定方面,響應於檢測到在伺服器204的第二操作模式(例如,發送中斷資料模式)期間中斷已經結束,中斷管理器124避免向設備104發送(例如,停止發送)文本流121、元資料流123或兩者。
會議管理器162響應於檢測到中斷已經結束,避免基於文本流121生成合成語音音頻流133、避免將合成語音音頻流133作為音頻輸出143(例如,停止)提供給揚聲器154、恢復語音音頻流111作為音頻輸出143給揚聲器154的回放、恢復將視頻流113提供給顯示設備156、停止或調整虛擬化身135的顯示、避免將文本流121提供給顯示設備156、避免將注釋文本流137提供給顯示設備156或其組合。
因此,系統200在與傳統設備(例如,不包括中斷管理器的設備102)的線上會議期間減少了(例如,消除)語音音頻流111的中斷期間的資訊損失。例如,在文本可以被設備104接收的情況下,儘管網路問題阻止語音音頻流111被設備104接收,但是用戶144繼續接收對應於用戶142的語音的音頻(例如,合成語音音頻流133)、文本(例如,文本流121、注釋文本流137或兩者)或其組合。
在特定方面,伺服器204還可以與設備104更接近(例如,更少的網路跳),並且從伺服器204(例如,而不是從設備102)發送文本流121、元資料流123或兩者可以節省全部網路資源。在特定方面,伺服器204可具有對網路資訊的存取,該網路資訊可用於將文本流121、元資料流123或兩者成功地發送到設備104。例如,伺服器204最初經由第一網路鏈路發送媒體流109。伺服器204檢測網路問題,並且至少部分地基於確定第一網路鏈路不可用或不起作用,使用看起來可用於容納文本發送的第二網路鏈路來發送文本流121、元資料流123或兩者。
參考圖3A,示出了GUI 145的示例。在特定方面,GUI 145由圖1的系統100、圖2的系統200或兩者生成。
GUI 145包括視頻顯示306、虛擬化身135和訓練指示符(TI)304。例如,GUI生成器168在線上會議開始期間生成GUI 145。經由視頻顯示306顯示視頻流113(例如,用戶142的圖像(例如,Jill Pratt))。
訓練指示符304指示語音模型131的訓練級別(例如,0%或未訓練)。例如,訓練指示符304指示語音模型131尚未被客製訓練。在特定方面,虛擬化身135的表示(例如,純色)還指示訓練級別。在特定方面,虛擬化身135的表示指示合成語音未被輸出。例如,GUI 145不包括合成語音指示符,如參考圖3C進一步描述的。
在特定實現方式中,如果在客製訓練語音模型131之前生成中斷,並且文本到語音的轉換器166使用語音模型131(例如,非客製通用語音模型)生成合成語音音頻流133,則合成語音音頻流133對應於具有可能與用戶142的語音特性不同的通用語音特性的音頻語音。在特定方面,使用與用戶142的人口統計資料相關聯的通用語音模型來初始化語音模型131。在此方面,合成語音音頻流133對應於與用戶142的人口統計資料(例如,年齡、性別、地區性口音等)匹配的通用語音特徵。
參考圖3B,示出了GUI 145的示例。在特定方面,GUI 145由圖1的系統100、圖2的系統200或兩者生成。
在特定示例中,GUI生成器168在線上會議期間更新GUI 145。訓練指示符304指示語音模型131的第二訓練級別(例如,20%或部分訓練的)。例如,訓練指示符304指示語音模型131正被客製訓練或已被部分客製訓練。在特定方面,虛擬化身135的表示(例如,部分著色的)還指示第二訓練級別。在特定方面,虛擬化身135的表示指示合成語音未被輸出。例如,GUI 145不包括合成語音指示符。
在特定實現方式中,如果在語音模型131的部分客製訓練之後生成中斷並且文本到語音的轉換器166使用語音模型131(例如,部分客製語音模型)生成合成語音音頻流133,則合成語音音頻流133對應於具有與用戶142的語音特性具有一些相似性的語音特性的音頻語音。
參考圖3C,示出了GUI 145的示例。在特定方面,GUI 145由圖1的系統100、圖2的系統200或兩者生成。
在特定示例中,GUI生成器168響應於中斷而更新GUI 145。訓練指示符304指示語音模型131的第三訓練級別(例如,100%或訓練完成)。例如,訓練指示符304指示語音模型131是客製訓練的或客製訓練已經完成(例如,達到閾值級別)。在特定方面,虛擬化身135的表示(例如,完全著色)還指示第三訓練級別。在特定方面,虛擬化身135的表示指示正在輸出合成語音。例如,GUI 145包括作為虛擬化身135的一部分或與虛擬化身135一起顯示的合成語音指示符398,以指示正在播放的語音是合成語音。
由於在圖3C的示例中,中斷在對語音模型131進行客製訓練之後出現,並且文本到語音的轉換器166使用語音模型131(例如,客製語音模型)來生成合成語音音頻流133,所以合成語音音頻流133對應於具有與用戶142的語音特性相似的語音特性的音頻語音。
響應於中斷,中斷管理器164停止視頻流113的輸出。例如,視頻顯示306指示視頻流113的輸出已經由於中斷(例如,網路問題)而停止。GUI 145包括文本顯示396。例如,中斷管理器164響應於中斷經由文本顯示396輸出文本流121。
在特定方面,文本流121被即時顯示,使得用戶144可以繼續參與會話。例如,用戶144可以在讀入用戶142所說的文本顯示396之後向用戶142說出回復。在特定方面,如果網路問題阻止對應於用戶144的語音的語音音頻流被設備102接收,則中斷管理器124可在設備102處顯示對應於用戶144的語音的文本流。線上會議的一個或多個參與者因此可以接收對應於其他參與者的語音的文本流或語音音頻流。
參考圖4A,示出了圖1的系統100或圖2的系統200的操作的說明性方面的示圖,並且總體上用400表示。圖4A所示的定時和操作是用於說明而不是限制。在其他方面,可執行額外或較少的操作且定時可不同。
圖400圖示了來自設備102的媒體流109的媒體幀的發送定時。在特定方面,媒體流109的媒體幀從設備102發送到設備104,如參考圖1所描述的。在可替代的方面,媒體流109的媒體幀從設備102發送到伺服器204以及從伺服器204發送到設備102,如參考圖2所描述的。
設備102在第一發送時間發送媒體流109的媒體幀(FR)410。設備104在第一接收時間接收媒體幀410,並在第一回放時間提供用於回放的媒體幀410。在特定示例中,會議管理器162在第一接收時間和第一回放時間之間的第一緩衝間隔期間將媒體幀410儲存在緩衝器中。在特定方面,媒體幀410包括視頻流113的第一部分和語音音頻流111的第一部分。在第一回放時間,會議管理器162將語音音頻流111的第一部分作為音頻輸出143的第一部分輸出到揚聲器154,並將視頻流113的第一部分輸出到顯示設備156。
預期設備102(或伺服器204)在第二預期發送時間發送媒體幀411。預期設備104在第二預期接收時間接收媒體幀411。響應於確定在第一接收時間的接收閾值持續時間內沒有接收到媒體流109的媒體幀,設備104的中斷管理器164檢測語音音頻流111中的中斷。例如,中斷管理器164基於第一接收時間和接收閾值持續時間來確定第二時間(例如,第二時間=第一接收時間+接收閾值持續時間)。響應於確定在第一接收時間和第二時間之間沒有接收到媒體流109的媒體幀,中斷管理器164檢測到語音音頻流111中的中斷。第二時間在媒體幀411的第二預期接收時間之後並且在媒體幀411的預期回放時間之前。例如,第二時間在媒體幀411的預期緩衝間隔期間。
設備102(或伺服器204)檢測語音音頻流111中的中斷,如參考圖1-2所描述的。響應於語音音頻流111中的中斷,(設備102或伺服器204的)中斷管理器124將對應於後續媒體幀(例如,一組媒體幀491)的文本流121發送到設備104,直到中斷結束。在特定方面,媒體幀411包括視頻流113的第二部分和語音音頻流111的第二部分。中斷管理器124(或會議管理器122)通過對語音音頻流111的第二部分執行語音到文本的轉換來生成文本流121的文本451,並將文本451發送到設備104。
設備104從設備102或伺服器204接收文本流121的文本451,如參考圖1-2所描述的。響應於中斷,中斷管理器164啟動對應於後續媒體幀的文本流121的回放,直到中斷結束。例如,中斷管理器164在第二回放時間向顯示設備156提供文本451。在特定方面,第二回放時間基於(例如,與之相同)媒體幀411的預期回放時間。
在特定方面,圖2的會議管理器222不知道中斷,並將媒體流109的媒體幀413發送到伺服器204。在特定方面,(圖1中的設備102或圖2中的伺服器204的)中斷管理器124響應於該中斷而停止媒體幀413到設備104的發送。在特定方面,媒體幀413包括視頻流113的第三部分和語音音頻流111的第三部分。中斷管理器124基於語音音頻流111的第三部分生成文本453。中斷管理器124將文本453發送到設備104。
設備104接收文本453。響應於中斷,中斷管理器164在第三回放時間向顯示設備156提供文本453。在特定方面,第三回放時間基於(例如,與之相同)媒體幀413的預期回放時間。
(設備102或伺服器204的)中斷管理器124響應於中斷結束,恢復媒體流109的後續媒體幀(例如,下一媒體幀493)到設備104的發送,如參考圖1-2所述。例如,會議管理器122向設備104發送媒體幀415。響應於中斷結束,中斷管理器164恢復媒體流109的回放並停止文本流121的回放。在特定方面,媒體幀415包括視頻流113的第四部分和語音音頻流111的第四部分。在第四回放時間,會議管理器162將語音音頻流111的第四部分作為音頻輸出143的一部分輸出到揚聲器154,並將視頻流113的第四部分輸出到顯示設備156。
作為另一個示例,會議管理器122向設備104發送媒體幀417。在特定方面,媒體幀417包括視頻流113的第五部分和語音音頻流111的第五部分。在第五回放時間,會議管理器162將語音音頻流111的第五部分作為音頻輸出143的一部分輸出到揚聲器154,並將視頻流113的第五部分輸出到顯示設備156。
因此,設備104通過在媒體流109中的中斷期間回放文本流121來防止資訊丟失。當中斷結束時,恢復媒體流109的回放。
參考圖4B,示出了圖1的系統100或圖2的系統200的操作的說明性方面的示圖,並且總體上表示為490。圖4B所示的定時和操作是用於說明而不是限制。在其他方面,可執行額外或較少的操作且定時可不同。
圖490圖示了來自設備102的媒體流109的媒體幀的發送定時。圖1的GUI生成器168生成指示虛擬化身135的訓練級別的GUI 145。例如,GUI 145指示虛擬化身135(例如,語音模型131)是未訓練的或部分訓練的。設備104接收包括視頻流113的第一部分和語音音頻流111的第一部分的媒體幀410。會議管理器162在第一回放時間將語音音頻流111的第一部分作為音頻輸出143的第一部分輸出到揚聲器154,並將視頻流113的第一部分輸出到顯示設備156,如參考圖4A所描述的。中斷管理器164基於媒體幀410(例如,語音音頻流111的第一部分)訓練語音模型131,如參考圖1所描述的。GUI生成器168更新指示虛擬化身135的更新的訓練級別(例如,部分訓練或完全訓練的)的GUI 145。
設備104從設備102或伺服器204接收文本流121的文本451,如參考圖4A所描述的。中斷管理器164響應於該中斷,停止媒體流109的回放,停止語音模型131的訓練,並啟動合成語音音頻流133的回放。例如,中斷管理器164基於文本451生成合成語音音頻流133的合成語音幀471。為了說明,中斷管理器164將文本451提供給文本到語音的轉換器166。文本到語音的轉換器166使用語音模型131對文本451執行文本到語音的轉換以生成合成語音幀(SFR)471。中斷管理器164在第二回放時間提供合成語音幀471作為音頻輸出143的第二部分。GUI生成器168更新GUI 145以包括指示正在輸出合成語音的合成語音指示符398。例如,GUI 145指示虛擬化身135正在說話。
設備104接收文本453,如參考圖4A所描述的。中斷管理器164響應於該中斷,基於文本453生成合成語音音頻流133的合成語音幀473。中斷管理器164在第三回放時間提供合成語音幀473作為音頻輸出143的第三部分。
(設備102或伺服器204的)中斷管理器124響應於中斷結束,恢復媒體流109的後續媒體幀(例如,下一媒體幀493)到設備104的發送,如參考圖4A所述的。例如,會議管理器122將媒體幀415發送到設備104。響應於中斷結束,中斷管理器164恢復媒體流109的回放、停止合成語音音頻流133的回放,並恢復語音模型131的訓練。GUI生成器168更新GUI 145以去除合成語音指示符398,從而指示合成語音未被正在輸出。
在特定示例中,會議管理器162播放媒體幀415和媒體幀417。為了說明,媒體幀415包括視頻流113的第四部分和語音音頻流111的第四部分。在第四回放時間,會議管理器162將語音音頻流111的第四部分作為音頻輸出143的第四部分輸出到揚聲器154,並將視頻流113的第四部分輸出到顯示設備156。在特定方面,會議管理器162在第五回放時間將語音音頻流111的第五部分作為音頻輸出143的第五部分輸出到揚聲器154,並將視頻流113的第五部分輸出到顯示設備156。
因此,設備104通過在媒體流109中斷期間回放合成語音音頻流133來防止資訊丟失。當中斷結束時,媒體流109的回放恢復。
參考圖5,示出了可操作來處理語音音頻流中斷的系統,且其一般指定為500。在特定方面,圖1的系統100包括系統500的一個或多個組件。
系統500包括經由網路106耦合到設備104的設備502。在操作期間,會議管理器162建立與多個設備(例如,設備102和設備502)的線上會議。例如,會議管理器162建立用戶144與設備102的用戶142和設備502的用戶542的線上會議。設備104從設備102或伺服器204接收表示用戶142的語音、圖像或兩者的媒體流109(例如,語音音頻流111、視頻流113或兩者),如參考圖1-2所描述的。類似地,設備104從設備502或伺服器(例如,伺服器204或另一伺服器)接收表示用戶542的語音、圖像或兩者的媒體流509(例如,第二語音音頻流511、第二視頻流513或兩者)。
如參考圖6A進一步描述的,會議管理器162在播放媒體流509的同時播放媒體流109。例如,會議管理器162將視頻流113提供給顯示設備156,同時將第二視頻流513提供給顯示設備156。為了說明,用戶144可以在線上會議期間同時觀看用戶142的圖像和觀看用戶542的圖像。作為另一個示例,會議管理器162將語音音頻流111、第二語音音頻流511或兩者作為音頻輸出143提供給揚聲器154。為了說明,用戶144可以聽到用戶142的語音、用戶542的語音或兩者。在特定方面,中斷管理器164基於語音音頻流111訓練語音模型131,如參考圖1所描述的。類似地,中斷管理器164基於第二語音音頻流511訓練用戶542的第二語音模型。
在特定示例中,設備104在語音音頻流111的中斷期間繼續接收媒體流509。中斷管理器164在播放合成語音音頻流133、文本流121、注釋文本流137或其組合的同時播放媒體流509,如參考圖6C進一步描述的。例如,中斷管理器164在生成合成語音音頻流133並將合成語音音頻流133提供給揚聲器154的同時提供第二語音音頻流511。作為另一個示例,中斷管理器164在生成對包括文本流121或注釋文本流137的GUI 145的更新並將GUI 145的更新提供給顯示設備156的同時,將第二視頻流513提供給顯示設備156。用戶144因此可以在語音音頻流111的中斷期間跟隨用戶142和用戶542之間的對話。
在特定方面,媒體流509中的中斷與語音音頻流111的中斷重疊。中斷管理器164接收對應於第二語音音頻流511的第二文本流、第二元資料流或兩者。在特定方面,中斷管理器164基於第二文本流、第二元資料流或兩者生成第二注釋文本流。中斷管理器164通過使用第二語音模型基於第二文本流、第二元資料流、第二注釋文本流或其組合執行文本到語音的轉換來生成第二合成語音音頻流。中斷管理器164在播放合成語音音頻流133的同時向揚聲器154播放第二語音音頻流511。在特定方面,中斷管理器164在向顯示設備156播放第二文本流、第二注釋文本流或兩者的同時播放文本流121、注釋文本流137或兩者。因此,在語音音頻流111和第二語音音頻流511的中斷期間,用戶144可以跟隨用戶142和用戶542之間的對話。
因此,系統500減少了(例如,消除)在與多個用戶的線上會議期間一個或多個語音音頻流(例如,語音音頻流111、第二語音音頻流511或兩者)的中斷期間的資訊損失。例如,在文本可以被設備104接收的情況下,儘管網路問題阻止一個或多個語音音頻流被設備104接收,但是用戶144繼續接收對應於用戶142的語音和用戶542的語音的音頻、文本或其組合。
參考圖6A,示出了GUI 145的示例。在特定方面,GUI 145由圖5的系統500生成。
GUI 145包括用於線上會議的多個參與者的視頻顯示、虛擬化身、訓練指示符或其組合。例如,GUI 145包括用於用戶142的視頻顯示306、虛擬化身135、訓練指示符304或其組合,如參考圖3A所描述的。GUI 145還包括用於用戶542的視頻顯示606、虛擬化身635、訓練指示符(TI)604或其組合。例如,GUI生成器168在線上會議開始期間生成GUI 145。媒體流509的第二視頻流513(例如,用戶542的圖像(例如,Emily F.))經由視頻顯示606顯示,同時視頻流113(例如,用戶142的圖像(例如,Jill P.))經由視頻顯示306顯示。
訓練指示符304指示語音模型131的訓練級別(例如,0%或未訓練的),訓練指示符604指示第二語音模型的訓練級別(例如,10%或部分訓練的)。如果一個用戶比另一個用戶說話更多,或者如果一個用戶的語音包括更多種類的聲音(例如,模型覆蓋更高),則語音模型的訓練級別可能不同。
在特定方面,虛擬化身135的表示(例如,純色)和虛擬化身635的表示(例如,部分著色)還指示相應語音模型的訓練級別。在特定方面,虛擬化身135的表示和虛擬化身635的表示指示合成語音未被輸出。例如,GUI 145不包括任何合成語音指示符。
在特定實現方式中,如果在接收媒體流109時生成中斷,則文本到語音的轉換器166使用語音模型131(例如,非客製通用語音模型)來生成合成語音音頻流133。如果在接收媒體流509中生成中斷,則文本到語音的轉換器166使用第二語音模型(例如,部分客製語音模型)生成第二合成語音音頻流。在特定方面,中斷管理器164基於與用於初始化語音模型131的第一通用語音模型不同的第二通用語音模型來初始化第二語音模型,使得如果在語音模型131和第二語音模型的訓練(或完全訓練)之前發生中斷,則用戶142的合成語音可與用戶542的合成語音區分開。在特定方面,使用與用戶142的人口統計資料相關聯的第一通用語音模型來初始化語音模型131,且使用與用戶542的人口統計資料相關聯的第二通用語音模型來初始化第二語音模型。
參考圖6B,示出了GUI 145的示例。在特定方面,GUI 145由圖5的系統500生成。
在特定示例中,GUI生成器168在線上會議期間更新GUI 145。例如,訓練指示符304指示語音模型131的第二訓練級別(例如,20%或部分訓練的)和第二語音模型的第二訓練級別(例如,100%或完全訓練的)。
參考圖6C,示出了GUI 145的示例。在特定方面,GUI 145由圖5的系統500生成。
在特定示例中,GUI生成器168響應於接收媒體流109中的中斷而更新GUI 145。訓練指示符304指示語音模型131的第三訓練級別(例如,55%或部分訓練的),且訓練指示符604指示第二語音模型的第三訓練級別(例如,100%或完全訓練的)。在特定方面,虛擬化身135的表示指示正在輸出合成語音。例如,GUI 145包括合成語音指示符398。虛擬化身635的表示指示合成語音未被輸出給用戶542。例如,GUI 145不包括與虛擬化身635相關聯的合成語音指示符。
響應於中斷,中斷管理器164停止視頻流113的輸出。例如,視頻顯示306指示視頻流113的輸出已經由於中斷(例如,網路問題)而停止。中斷管理器164響應於該中斷經由文本顯示396輸出文本流121。
在特定方面,文本流121被即時顯示,使得用戶144可以繼續跟隨和參與會話。例如,用戶144可以從合成語音音頻流133聽到、在文本顯示396上閱讀或兩者,用戶142作出第一陳述(例如,“我希望你也有類似的事情慶祝”)。用戶144可以在揚聲器154輸出的媒體流509的第二語音音頻流中聽到來自用戶542的回復。用戶144可從合成語音音頻流133聽到,在文本顯示396上閱讀或兩者,用戶142作出第二陳述(例如,“那太有趣了!我很高興你玩得開心”)。用戶144因此可以在接收線上會議的一個或多個其他參與者的媒體流的同時,為線上會議的一個或多個參與者收聽來自合成語音音頻流的音頻、閱讀文本流的文本或兩者。
參考圖7A,示出了圖5的系統500的操作的說明性方面的示圖,並且總體上用700表示。圖7A所示的定時和操作是用於說明而不是限制。在其他方面,可執行額外或較少的操作且定時可不同。
圖700圖示了來自設備102的媒體流109和來自設備502的媒體流509的媒體幀的發送定時。在特定方面,媒體流109的媒體幀從設備102或伺服器204發送到設備104,如參考圖1-2所描述的。類似地,媒體流509的媒體幀從設備502或伺服器(例如,伺服器204或另一伺服器)發送到設備104。
設備104接收媒體流109的媒體幀410和媒體流509的媒體幀710,並提供媒體幀410和媒體幀710以供回放。例如,會議管理器162將語音音頻流111的第一部分(例如,由媒體幀410指示)和第二語音音頻流的第一部分(例如,由媒體幀710指示)作為音頻輸出143輸出到揚聲器154,經由視頻顯示306輸出視頻流113的第一部分(例如,由媒體幀410指示),並且經由視頻顯示606輸出第二視頻流的第一部分(例如,由媒體幀710指示),如參考圖6A所描述的。
設備104在媒體流109的中斷期間接收文本流121的文本451(對應於媒體幀411),如參考圖4A所描述的。設備104接收媒體流509的媒體幀711。中斷管理器164響應於該中斷,在媒體流509的回放的同時啟動對應於媒體流109的後續媒體幀的文本流121的回放,直到該中斷結束。例如,中斷管理器164在提供用於回放的媒體幀711的同時向顯示設備156提供文本451(例如,由媒體幀411指示)。
設備104在媒體流109的中斷期間接收文本流121的文本453(對應於媒體幀413),如參考圖4A所描述的。設備104接收媒體流509的媒體幀713。中斷管理器164在提供用於回放的媒體幀713的同時向顯示設備156提供文本453。
中斷管理器164響應於中斷結束,恢復媒體流109的回放並停止文本流121的回放,如參考圖4A所述。會議管理器162接收並回放媒體幀415和媒體幀715。類似地,會議管理器162接收並回放媒體幀417和媒體幀717。
因此,設備104通過在媒體流109中的中斷期間,在媒體流509的回放的同時回放文本流121來防止資訊丟失。當中斷結束時,媒體流109的回放恢復。
參考圖7B,示出了圖5的系統500的操作的說明性方面的示圖,並且通常將其指定為790。圖7B所示的定時和操作是用於說明而不是限制。在其他方面,可執行額外或較少的操作且定時可不同。
圖790圖示了來自設備102的媒體流109和來自設備502的媒體流509的媒體幀的發送定時。圖1的GUI生成器168生成指示虛擬化身135的訓練級別和虛擬化身635的訓練級別的GUI 145。例如,GUI 145指示虛擬化身135(例如,語音模型131)未被訓練,而虛擬化身635(例如,第二語音模型)被部分訓練。設備104接收並回放媒體幀410和媒體幀710。中斷管理器164基於媒體幀410訓練語音模型131,如參考圖4B所述;並基於媒體幀710訓練第二語音模型。GUI生成器168更新指示虛擬化身135的更新的訓練級別(例如,部分訓練的)和虛擬化身635的更新的訓練級別(例如,完全訓練的)的GUI 145。
設備104接收文本流121的文本451和媒體幀711。中斷管理器164基於文本451生成合成語音幀471,如參考圖4B所述。中斷管理器164回放合成語音幀471和媒體幀711。GUI生成器168更新GUI 145以包括指示正在為用戶142輸出合成語音的合成語音指示符398。例如,GUI 145指示虛擬化身135正在說話。GUI 145不包括用於用戶542的合成語音指示符(例如,虛擬化身635未被指示為說話)。
設備104接收文本453和媒體幀713。中斷管理器164基於文本453生成合成語音幀473,如參考圖4B所述。中斷管理器164回放合成語音幀473和媒體幀417。
中斷管理器164響應於中斷結束,恢復媒體流109的回放、停止合成語音音頻流133的回放並恢復語音模型131的訓練,如參考圖4B所述。GUI生成器168更新GUI 145以去除合成語音指示符398,從而指示合成語音未被輸出。
在特定示例中,會議管理器162接收並播放媒體幀415和媒體幀715。作為另一個示例,會議管理器162接收並播放媒體幀417和媒體幀717。
因此,設備104通過在媒體流109中的中斷期間,在播放媒體流509的同時回放合成語音音頻流133來防止資訊丟失。當中斷結束時,媒體流109的回放恢復。
參考圖8,示出了處理語音音頻流中斷的方法800的特定實現方式。在特定方面,方法800的一個或多個操作由會議管理器162、中斷管理器164、一個或多個處理器160、設備104、圖1的系統100或其組合來執行。
方法800包括,在802處,在線上會議期間接收表示第一用戶的語音的語音音頻流。例如,圖1的設備104在線上會議期間接收表示用戶142的語音的語音音頻流111,如參考圖1所描述的。
方法800還包括在804處,接收表示第一用戶的語音的文本流。例如,圖1的設備104接收表示用戶142的語音的文本流121,如參考圖1所描述的。
方法800還包括在806處,響應於語音音頻流中的中斷而選擇性地基於文本流生成輸出。例如,圖1的中斷管理器164響應於語音音頻流111中的中斷,選擇性地基於文本流121生成合成語音音頻流133,如參考圖1所描述的。在特定實現方式中,中斷管理器164響應於語音音頻流111中的中斷而選擇性地輸出文本流121、注釋文本流137或兩者,如參考圖1所描述的。
因此,方法800改進了在線上會議期間在語音音頻流111的中斷期間減少(例如,消除)資訊損失。例如,在文本可以被設備104接收的情況下,儘管網路問題阻止語音音頻流111被設備104接收,但是用戶144繼續接收對應於用戶142的語音的音頻(例如,合成語音音頻流133)、文本(例如,文本流121、注釋文本流137或兩者)或其組合。
圖8的方法800可以由現場可程式閘陣列(FPGA)設備、專用積體電路(ASIC),諸如中央處理單元(CPU)的處理單元、DSP、控制器、另一硬體設備、韌體設備或其任意組合來實現。作為示例,圖8的方法800可以由運行指令的處理器來執行,諸如參考圖18所描述的。
圖9將設備104的實現方式900描繪為包括一個或多個處理器160的積體電路902。積體電路902還包括輸入904(例如,一個或多個匯流排介面),以使得能夠接收輸入資料928(例如,語音音頻流111、視頻流113,媒體流109、中斷通知119、文本流121、元資料流123、媒體流509或其組合)以供處理。積體電路902還包括輸出906(例如,匯流排介面),以使得能夠發送輸出信號(例如,語音音頻流111、合成語音音頻流133、音頻輸出143、視頻流113、文本流121、注釋文本流137、GUI 145或其組合)。積體電路902使得能夠將處理語音音頻流中斷的實現方式作為系統中的組件,該系統諸如圖10中描繪的行動電話或平板電腦、圖11中描繪的頭戴式耳機、圖12中描繪的可穿戴電子設備、圖13中描繪的聲控揚聲器系統、圖14中描繪的相機、圖15中描繪的虛擬實境頭戴式耳機或擴增實境頭戴式耳機或圖16或圖17中描繪的交通工具。
圖10描繪了實現方式1000,其中設備104包括作為說明性的非限制性示例的行動設備1002,諸如電話或平板電腦。行動設備1002包括麥克風1010、揚聲器154和顯示屏1004。一個或多個處理器160的組件,包括會議管理器162、中斷管理器164、GUI生成器168或其組合,被整合在行動設備1002中,並且使用虛線來示出以指示對行動設備1002的用戶一般不可見的內部組件。在特定示例中,會議管理器162輸出語音音頻流111或中斷管理器164輸出合成語音音頻流133,其然後被處理以在行動設備1002處執行一個或多個操作,諸如啟動圖形用戶界面或以其他方式(例如,經由整合的“智慧型助理”應用)在顯示屏1004處顯示與用戶的語音相關聯的其他資訊。
圖11描繪了其中設備104包括頭戴式耳機設備1102的實現方式1100。頭戴式耳機設備1102包括揚聲器154、麥克風1110或兩者。一個或多個處理器160的組件(包括會議管理器162、中斷管理器164或兩者)被整合在頭戴式耳機設備1102中。在特定示例中,會議管理器162輸出語音音頻流111或中斷管理器164輸出合成語音音頻流133,這可使頭戴式耳機設備1102在頭戴式耳機設備1102處執行一個或多個操作以將對應於用戶語音的音頻資料發送到第二設備(未圖示)以供進一步處理。
圖12描繪了其中設備104包括被圖示為“智慧型手錶”的可穿戴電子設備1202的實現方式1200。會議管理器162、中斷管理器164、GUI生成器168、揚聲器154、麥克風1210或其組合被整合到可穿戴電子設備1202中。在特定示例中,會議管理器162輸出語音音頻流111,或者中斷管理器164輸出合成語音音頻流133,該合成語音音頻流133然後被處理以在可穿戴電子設備1202處執行一個或多個操作,諸如啟動GUI 145或者以其他方式在可佩戴電子設備1202的顯示屏1204處顯示與用戶的語音相關聯的其他資訊。為了說明,可穿戴電子設備1202可以包括顯示屏,該顯示屏被配置為基於由可穿戴電子設備1202檢測到的用戶語音來顯示通知。在特定示例中,可穿戴電子設備1202包括觸覺設備,其響應於檢測到用戶語音而提供觸覺通知(例如,振動)。例如,觸覺通知可以使用戶查看可穿戴電子設備1202以查看指示檢測到用戶說出的關鍵字的所顯示的通知。可穿戴電子設備1202因此可以向聽力受損的用戶或佩戴頭戴式耳機的用戶提示檢測到用戶的語音。
圖13是設備104包括無線揚聲器和語音啟動設備1302的實現方式1300。無線揚聲器和語音啟動設備1302可具有無線網路連接性且被配置為運行輔助操作。包括會議管理器162、中斷管理器164或兩者、揚聲器154、麥克風1310或其組合的一個或多個處理器160被包括在無線揚聲器和語音啟動設備1302中。在操作期間,響應於在會議管理器162輸出的語音音頻流111中或中斷管理器164輸出的合成語音音頻流133中接收到被識別為用戶語音的口頭命令,無線揚聲器和語音啟動的設備1302可以諸如經由語音啟動系統(例如,整合助理應用)的運行來運行助理操作。輔助操作可以包括創建行事曆事件、調整溫度、播放音樂、打開燈等。例如,響應於在關鍵字或關鍵短語(例如,“你好助理”)之後接收到命令,執行助理操作。
圖14描繪了實現方式1400,其中設備104包括對應於相機設備1402的可攜式電子設備。會議管理器162、中斷管理器164、GUI生成器168、揚聲器154、麥克風1410或其組合被包括在相機設備1402中。在操作期間,作為說明性示例,響應於在會議管理器162輸出的語音音頻流111中或中斷管理器164輸出的合成語音音頻流133中接收到被識別為用戶語音的口頭命令,相機設備1402可以運行響應於口頭用戶命令的操作,諸如調整圖像或視頻捕捉設置、圖像或視頻回放設置或圖像或視頻捕捉指令。
圖15描繪了實現方式1500,其中設備104包括對應於虛擬實境、擴增現境或混合實境頭戴式耳機1502的可攜式電子設備。會議管理器162、中斷管理器164、GUI生成器168、揚聲器154、麥克風1510或其組合被整合到頭戴式耳機1502中。可以基於會議管理器162輸出的語音音頻流111或中斷管理器164輸出的合成語音音頻流133來執行用戶語音檢測。視覺介面設備位於用戶眼前,以便在佩戴頭戴式耳機1502時能夠向用戶顯示擴增實境或虛擬實境圖像或場景。在特定示例中,視覺介面設備被配置為顯示指示在音頻流中檢測到的用戶語音的通知。在另一個示例中,視覺介面設備被配置為顯示GUI 145。
圖16描繪了實現方式1600,其中設備104對應於或被整合在被圖示為有人操縱的或無人操縱的航空設備(例如,包裹遞送無人機)的交通工具1602內。會議管理器162、中斷管理器164、GUI生成器168、揚聲器154、麥克風1610或其組合被整合到交通工具1602中。可以基於會議管理器162輸出的語音音頻流111或中斷管理器164輸出的合成語音音頻流133,諸如針對來自交通工具1602的授權用戶的遞送指令,來執行用戶語音檢測。
圖17描繪了另一實現方式1700,其中設備104對應於被圖示為汽車的交通工具1702或被整合在交通工具1702內。交通工具1702包括一個或多個處理器160,該處理器160包括會議管理器162、中斷管理器164、GUI生成器168或其組合。交通工具1702還包括揚聲器154、麥克風1710或兩者。可以基於會議管理器162輸出的語音音頻流111或中斷管理器164輸出的合成語音音頻流133來執行用戶語音檢測。例如,用戶語音檢測可以用於檢測來自交通工具1702的授權用戶的語音命令(例如,啟動發動機或加熱)。在特定實現方式中,響應於在會議管理器162輸出的語音音頻流111中或中斷管理器164輸出的合成語音音頻流133中接收到被識別為用戶語音的口頭命令,交通工具1702的語音啟動系統基於在語音音頻流111或合成語音音頻流133中檢測到的一個或多個關鍵字(例如,“解鎖”、“啟動引擎”、“播放音樂”、“顯示天氣預報”或另一語音命令)來發起交通工具1702的一個或多個操作,諸如通過經由顯示器1720或一個或多個揚聲器(例如,揚聲器154)提供反饋或資訊。在特定實現方式中,GUI生成器168向顯示器1720提供關於線上會議(例如,呼叫)的資訊。例如,GUI生成器168向顯示器1720提供GUI 145。
參考圖18,描繪設備的特定說明性實現方式的方塊圖且將其大體指定為1800。在各種實現方式中,設備1800可以具有比圖18所示更多或更少的組件。在說明性實現方式中,設備1800可以對應於設備104。在說明性實現方式中,設備1800可以執行參考圖1-17描述的一個或多個操作。
在特定實現方式中,設備1800包括處理器1806(例如,中央處理單元(CPU))。設備1800可以包括一個或多個附加處理器1810(例如,一個或多個DSP)。在特定方面,圖1的一個或多個處理器160對應於處理器1806、處理器1810或其組合。處理器1810可以包括語音和音樂編碼器-解碼器(CODEC,編解碼器)1808,其包括語音編解碼器(“聲碼器”(vocoder))編碼器1836、聲碼器解碼器1838、會議管理器162、中斷管理器164、GUI生成器168或其組合。在特定方面,圖1的一個或多個處理器160包括處理器1806、處理器1810或其組合。
設備1800可以包括記憶體1886和CODEC 1334。記憶體1886可包括可由一個或多個附加處理器1810(或處理器1806)運行以實現參考會議管理器162、中斷管理器164、GUI生成器168或其組合描述的功能的指令1856。在特定方面,記憶體1886儲存由會議管理器162、中斷管理器164、GUI生成器168或其組合使用或生成的程式資料1858。在特定方面,記憶體1886包括圖1的記憶體132。設備1800可以包括經由收發器1850耦合到天線1842的數據機1840。
設備1800可以包括耦合到顯示控制器1826的顯示設備156。揚聲器154和一個或多個麥克風1832可耦合到CODEC 1834。CODEC 1834可包括數位類比轉換器(DAC)1802、類比數位轉換器(ADC)1804或兩者。在特定實現方式中,CODEC 1834可從一個或多個麥克風1832接收類比信號、使用類比數位轉換器1804將類比信號轉換為數位信號,且將數位信號提供給語音和音樂編解碼器1808。語音和音樂編解碼器1808可以處理數位信號,並且數位信號還可以由會議管理器162、中斷管理器164或兩者來處理。在特定實現方式中,語音和音樂編解碼器1808可向CODEC 1834提供數位信號。CODEC 1834可以使用數位類比轉換器1802將數位信號轉換為類比信號,並且可以將類比信號提供給揚聲器154。
在特定實現方式中,設備1800可以被包括在系統級封裝或單晶片系統設備1822中。在特定實現方式中,記憶體1886、處理器1806、處理器1810、顯示控制器1826、CODEC 1834、數據機1840和收發器1850包括在系統級封裝或單晶片系統設備1822中。在特定實現方式中,輸入設備1830和電源1844耦合到單晶片系統設備1822。此外,在特定實現方式中,如圖18中所圖示,顯示設備156、輸入設備1830、揚聲器154、一個或多個麥克風1832、天線1842和電源1844在單晶片系統設備1822的外部。在特定實現方式中,顯示設備156、輸入設備1830、揚聲器154、一個或多個麥克風1832、天線1842及電源1844中的每一者可耦合到單晶片系統設備1822的組件,諸如介面或控制器。
設備1800可包括虛擬助理、家用電器、智慧型設備、物聯網(IoT)設備、通信設備、頭戴式耳機、交通工具、電腦、顯示設備、電視機、遊戲控制台、音樂播放器、無線電、視頻播放器、娛樂單元、個人媒體播放器、數位視頻播放器、相機、導航設備、智慧型揚聲器、揚聲器棒、行動通信設備、智慧型電話、蜂巢式電話、膝上型電腦、平板電腦、個人數位助理、數位視頻碟(DVD)播放器、調諧器、擴增實境頭戴式耳機、虛擬實境頭戴式耳機、飛行器、家庭自動化系統、語音啟動的設備、無線揚聲器和語音啟動的設備、可攜式電子設備、汽車、計算設備、虛擬實境(VR)設備、基站、行動設備、或其任何組合。
結合所描述的實現方式,裝置包括用於在線上會議期間接收語音音頻流的構件,該語音音頻流表示第一用戶的語音。例如,用於接收語音音頻流的構件可以對應於會議管理器162、中斷管理器164、一個或多個處理器160、設備104、圖1的系統100、會議管理器122、伺服器204、圖2的系統200、一個或多個處理器1810、處理器1806、語音和音樂編解碼器1808、數據機1840、收發器1850、天線1842、設備1800、被配置為在線上會議期間接收語音音頻流的一個或多個其他電路或組件或者其任意組合。
該裝置還包括用於接收表示第一用戶的語音的文本流的構件。例如,用於接收文本流的構件可以對應於會議管理器162、中斷管理器164、文本到語音的轉換器166、一個或多個處理器160、設備104、圖1的系統100、會議管理器122、中斷管理器124、伺服器204、圖2的系統200、一個或多個處理器1810、處理器1806、語音和音樂編解碼器1808、數據機1840、收發器1850、天線1842、設備1800、被配置為接收文本流的一個或多個其他電路或組件或其任意組合。
該裝置還包括用於響應於該語音音頻流中的中斷而選擇性地基於文本流生成輸出的構件。例如,用於選擇性地生成輸出的構件可以對應於中斷管理器164、文本到語音的轉換器166、GUI生成器168、一個或多個處理器160、設備104、圖1的系統100、中斷管理器124、伺服器204、圖2的系統200、一個或多個處理器1810、處理器1806、語音和音樂編解碼器1808、設備1800、被配置為選擇性地生成輸出的一個或多個其他電路或組件或其任何組合。
在一些實現方式中,非暫態電腦可讀媒體(例如,電腦可讀儲存設備,諸如記憶體1886)包括指令(例如,指令1856),當由一個或多個處理器(例如,一個或多個處理器1810或處理器1806)運行時,該指令使一個或多個處理器在線上會議期間接收表示第一用戶(例如,用戶142)的語音音頻流(例如,語音音頻流111)。當由一個或多個處理器運行時,這些指令還使一個或多個處理器接收表示第一用戶(例如,用戶142)的語音的文本流(例如,文本流121)。該指令在由該一個或多個處理器運行時還使該一個或多個處理器響應於語音音頻流中的中斷而選擇性地基於文本流生成輸出(例如,合成語音音頻流133、注釋文本流137或兩者)。
以下在第一組相關條款中描述了本公開的特定方面:
根據條款1,一種用於通信的設備包括:一個或多個處理器,其被配置為:在線上會議期間接收表示第一用戶的語音的語音音頻流;接收表示第一用戶的語音的文本流;和響應於該語音音頻流中的中斷,選擇性地基於該文本流生成輸出。
條款2包括條款1的設備,其中,該一個或多個處理器被配置為響應於確定在該語音音頻流的最後接收的音頻幀的閾值持續時間內沒有接收到該語音音頻流的音頻幀而檢測該中斷。
條款3包括條款1的設備,其中,該一個或多個處理器被配置為響應於接收到該文本流而檢測該中斷。
條款4包括條款1的設備,其中,該一個或多個處理器被配置為響應於接收到中斷通知而檢測該中斷。
條款5包括如條款1至4中任一項的設備,其中,該一個或多個處理器被配置為將該文本流作為輸出提供給顯示器。
條款6包括條款1至5中任一項的設備,其中,該一個或多個處理器還被配置為:接收指示該第一用戶的語音的語調的元資料流;和基於該元資料流注釋該文本流。
條款7包括條款1至6中任一項的設備,其中,該一個或多個處理器還被配置為:對該文本流執行文本到語音的轉換以生成合成語音音頻流;將合成語音音頻流作為輸出提供給揚聲器。
條款8包括條款7的設備,其中,該一個或多個處理器還被配置為接收指示該第一用戶的語音的語調的元資料流,其中,該文本到語音的轉換基於該元資料流。
條款9包括條款7的設備,其中,該一個或多個處理器還被配置為在向揚聲器提供該合成語音音頻流的同時地顯示虛擬化身。
條款10包括條款9的設備,其中,該一個或多個處理器被配置為在線上會議期間接收媒體流,該媒體流包括第一用戶的語音音頻流和視頻流。
條款11包括條款10的設備,其中,該一個或多個處理器被配置為,響應於該中斷:停止該語音音頻流的回放;和停止該視頻流的回放。
條款12包括條款10的設備,其中,該一個或多個處理器被配置為,響應於該中斷結束:避免向該揚聲器提供該合成語音音頻流;避免顯示虛擬化身;恢復視頻流的回放;和恢復該語音音頻流的回放。
條款13包括條款7的設備,其中,文本到語音的轉換是基於語音模型執行的。
條款14包括條款13的設備,其中,語音模型對應於通用語音模型。
條款15包括條款13或條款14的設備,其中,該一個或多個處理器被配置為在該中斷之前基於該語音音頻流更新該語音模型。
條款16包括條款1至15中任一項的設備,其中,該一個或多個處理器被配置為:在該線上會議期間接收表示第二用戶的語音的第二語音音頻流;和在生成該輸出的同時向揚聲器提供該第二語音音頻流。
條款17包括條款1至16中任一項的設備,其中,該一個或多個處理器被配置為:響應於該語音音頻流中的中斷而停止該語音音頻流的回放;並且響應於中斷結束:避免基於該文本流生成該輸出;和恢復該語音音頻流的回放。
以下在第二組相關條款中描述了本公開的特定方面:
根據條款18,一種通信方法包括:在線上會議期間在設備處接收表示第一用戶的語音的語音音頻流;在該設備處接收表示該第一用戶的語音的文本流;和響應於該語音音頻流中的中斷,在該設備處選擇性地基於該文本流生成輸出。
條款19包括條款18的方法,還包括響應於確定在語音音頻流的最後接收的音頻幀的閾值持續時間內沒有接收到語音音頻流的音頻幀而檢測中斷。
條款20包括如條款18的方法,還包括響應於接收到該文本流而檢測中斷。
條款21包括條款18的方法,還包括響應於接收到中斷通知而檢測中斷。
條款22包括如條款18至21中任一條款的方法,還包括將該文本流作為輸出提供給顯示器。
條款23包括條款18至22中任一條款的方法,還包括:接收指示該第一用戶的語音的語調的元資料流;和基於該元資料流注釋該文本流。
以下在第三組相關條款中描述了本公開的特定方面:
根據條款24,一種儲存指令的非暫態電腦可讀儲存媒體,該指令在由一個或多個處理器運行時使該一個或多個處理器:在線上會議期間接收表示第一用戶的語音的語音音頻流;接收表示該第一用戶的該語音的文本流;和響應於該語音音頻流中的中斷,選擇性地基於文本流生成輸出。
條款25包括條款24的非暫態電腦可讀儲存媒體,其中,該指令在由一個或多個處理器運行時使一個或多個處理器:對該文本流執行文本到語音的轉換以生成合成語音音頻流;和將合成語音音頻流作為輸出提供給揚聲器。
條款26包括條款25的非暫態電腦可讀儲存媒體,其中,該指令在由一個或多個處理器運行時使一個或多個處理器接收指示第一用戶的語音的語調的元資料流,其中,文本到語音的轉換基於元資料流。
條款27包括條款25或條款26的非暫態電腦可讀儲存媒體,其中,該指令在由一個或多個處理器運行時使一個或多個處理器在向揚聲器提供合成語音音頻流的同時地顯示虛擬化身。
條款28包括條款25至27中任一條款的非暫態電腦可讀儲存媒體,其中,該指令在由一個或多個處理器運行時使一個或多個處理器在中斷之前基於語音音頻流更新語音模型,並且其中,文本至語音的轉換是基於語音模型執行的。
下面在第四組相關條款中描述本公開的特定方面:
根據條款29,一種裝置包括:用於在線上會議期間接收語音音頻流的構件,該語音音頻流表示第一用戶的語音;用於接收表示該第一用戶的該語音的文本流的構件;和用於響應於該語音音頻流中的中斷而選擇性地基於該文本流生成輸出的構件。
條款30包括條款29的裝置,其中,用於接收語音音頻流的構件、用於接收文本流的構件以及用於選擇性地生成輸出的構件被整合到虛擬助理、家用電器、智慧型設備、物聯網(IoT)設備、通信設備、頭戴式耳機、交通工具、電腦、顯示設備、電視機、遊戲控制台、音樂播放器、收音機、視頻播放器、娛樂單元、個人媒體播放器、數位視頻播放器、相機或導航設備中的至少一者中。
所屬領域的技術人員將進一步瞭解,結合本文所公開的實現方案而描述的各種說明性邏輯區塊、配置、模組、電路和演算法步驟可實現為電子硬體、由處理器運行的電腦軟體或兩者的組合。上文已大體上在功能性方面描述了各種說明性組件、區塊、配置、模組、電路和步驟。將此功能性實現為硬體還是處理器可運行指令取決於特定應用和強加於整個系統的設計約束。所屬領域的技術人員可針對每一特定應用以不同方式實現所描述的功能性,此些實現方式決策不應被解釋為導致脫離本公開的範圍。
結合本文所公開的實現方式而描述的方法或演算法的步驟可直接以硬體、以由處理器運行的軟體模組或以所述兩者的組合來實現。軟體模組可以駐留在隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式唯讀記憶體(PROM)、可抹除可程式唯讀記憶體(EPROM)、電可抹除可程式唯讀記憶體(EEPROM)、寄存器、硬碟、可移磁碟、光碟唯讀記憶體(CD-ROM)或本領域已知的任何其他形式的非暫態儲存媒體中。示例性儲存媒體耦合到處理器,使該處理器可從儲存媒體讀取資訊且將資訊寫入到儲存媒體。在可替代方案中,儲存媒體可與處理器整合。處理器和儲存媒體可以駐留在專用積體電路(ASIC)中。ASIC可以駐留在計算設備或用戶終端中。在可替代方案中,處理器和儲存媒體可作為離散組件駐存在計算裝置或用戶終端中。
提供對所公開方面的先前描述以使得所屬領域的技術人員能夠製作或使用所公開方面。所屬領域的技術人員將容易明白對這些方面的各種修改,且在不脫離本發明的範圍的情況下,本文所界定的原理可應用於其他方面。因此,本公開並不旨在限於本文所展示的方面,而是應被賦予與如由所附申請專利範圍限定的原理和新穎特徵一致的可能的最廣範圍。
100:系統 102:設備 104:設備 106:網路 109:媒體流 111:語音音頻流 113:視頻流 119:中斷通知 120:處理器 121:文本流 122:會議管理器 123:元資料流 124:中斷管理器 131:語音模型 132:記憶體 133:合成語音音頻流 135:虛擬化身 137:注釋文本流 142:用戶 143:音頻輸出 144:用戶 145:GUI 150:相機 151:視頻輸入 152:麥克風 153:音頻輸入 154:揚聲器 156:顯示設備/顯示器 160:處理器 162:會議管理器 164:中斷管理器 166:文本到語音的轉換器 168:GUI生成器 200:系統 204:伺服器 304:訓練指示符(TI) 306:視頻顯示 396:文本顯示 398:合成語音指示符 410、411、413、415、417:媒體幀 451:文本 453:文本 491:一組媒體幀 493:下一媒體幀 500:系統 502:設備 509:媒體流 511:第二語音音頻流 513:第二視頻流 542:用戶 604:訓練指示符(TI) 606:視頻顯示 635:虛擬化身 圖7A-圖7B 102:設備 104:設備 109:媒體流 133:合成語音音頻流 135:虛擬化身 502:設備 509:播放媒體流 635:虛擬化身 710、711、713、715、717:媒體幀 410、411、413、415、417:媒體幀 451、453:文本 圖8 800:處理語音音頻流中斷的方法 802:在線上會議期間接收表示第一用戶的語音的語音音頻流 804:接收表示第一用戶的語音的文本流 806:應於語音音頻流中中斷而選擇性地基於文本流生成輸出 圖9 900:實現方式 902:集成電路 904:輸入 906:輸出 928:輸入資料 943:輸出資料 1000:實現方式 1002:移動設備 1004:顯示屏 1010:麥克風 1100:實現方式 1102:頭戴式耳機設備 1110:麥克風 1200:實現方式 1202:可穿戴電子設備 1204:顯示屏 1210:麥克風 1300:實現方式 1302:無線揚聲器和語音啟動的設備 1310:麥克風 1400:實現方式 1402:相機設備 1410:麥克風 1500:實現方式 1502:頭戴式耳機 1510:麥克風 1600:實現方式 1602:交通工具 1610:麥克風 1700:另一實現方式 1702:交通工具 1710:麥克風 1720:顯示器 1800:設備 1802:數位類比轉換器(DAC) 1804:類比數位轉換器(ADC) 1806:處理器 1808:編碼器-解碼器 1810:處理器 1826:顯示控制器 1832:麥克風 1834:CODEC 1836:聲碼器編碼器 1838:聲碼器解碼器 1840:數據機 1844:電源 1830:輸入設備 1822:單晶片系統設備 1886:記憶體 1856:指令 1858:程式資料 1850:收發器 1842:天線
圖1是根據本公開的一些示例的可操作來處理語音音頻流中斷的系統的特定說明性方面的方塊圖。
圖2是根據本公開的一些示例的可操作來處理語音音頻流中斷的系統的說明性方面的示圖。
圖3A是根據本公開的一些示例的由圖1的系統或圖2的系統生成的說明性圖形用戶界面(GUI)的示圖。
圖3B是根據本公開的一些示例的由圖1的系統或圖2的系統生成的說明性GUI的示圖。
圖3C是根據本公開的一些示例的由圖1的系統或圖2的系統生成的說明性GUI的示圖。
圖4A是根據本公開的一些示例的圖1的系統或圖2的系統的操作的說明性方面的示圖。
圖4B是根據本公開的一些示例的圖1的系統或圖2的系統的操作的說明性方面的示圖。
圖5是根據本公開的一些示例的可操作來處理語音音頻流中斷的系統的說明性方面的示圖。
圖6A是根據本公開的一些示例的由圖5的系統生成的說明性圖形用戶界面(GUI)的示圖。
圖6B是根據本公開的一些示例的由圖5的系統生成的說明性GUI的示圖。
圖6C是根據本公開的一些示例的由圖5的系統生成的說明性GUI的示圖。
圖7A是根據本公開的一些示例的圖5的系統的操作的說明性方面的示圖。
圖7B是根據本公開的一些示例的圖5的系統的操作的說明性方面的示圖。
圖8是根據本公開的一些示例的可由圖1、圖2或圖5的系統中的任一者執行的處理語音音頻流中斷的方法的特定實現方式的示圖。
圖9圖示了根據本公開的一些示例的可操作來處理語音音頻流中斷的積體電路的示例。
圖10是根據本公開的一些示例的可操作來處理語音音頻流中斷的行動設備的示圖。
圖11是根據本公開的一些示例的可操作來處理語音音頻流中斷的頭戴式耳機的示圖。
圖12是根據本公開的一些示例的可用於處理語音音頻流中斷的可穿戴電子設備的示圖。
圖13是根據本公開的一些示例的可操作來處理語音音頻流中斷的聲控揚聲器系統的示圖。
圖14是根據本公開的一些示例的可操作來處理語音音頻流中斷的相機的示圖。
圖15是根據本公開的一些示例的可操作來處理語音音頻流中斷的頭戴式耳機(諸如虛擬實境或擴增實境頭戴式耳機)的示圖。
圖16是根據本公開的一些示例的可操作來處理語音音頻流中斷的交通工具的第一示例的示圖。
圖17是根據本公開的一些示例的可操作來處理語音音頻流中斷的交通工具的第二示例的示圖。
圖18是根據本公開的一些示例的可操作來處理語音音頻流中斷的設備的特定說明性示例的方塊圖。
100:系統
102:設備
104:設備
106:網路
109:媒體流
111:語音音頻流
113:視頻流
119:中斷通知
120:處理器
121:文本流
122:會議管理器
123:元資料流
124:中斷管理器
131:語音模型
132:記憶體
133:合成語音音頻流
135:虛擬化身
137:注釋文本流
142:用戶
143:音頻輸出
144:用戶
145:GUI
150:相機
151:視頻輸入
152:麥克風
153:音頻輸入
154:揚聲器
156:顯示設備/顯示器
160:處理器
162:會議管理器
164:中斷管理器
166:文本到語音的轉換器
168:GUI生成器

Claims (30)

  1. 一種用於通信的設備,包括: 一個或多個處理器,被配置為: 在線上會議期間接收表示第一用戶的語音的語音音頻流; 接收表示所述第一用戶的所述語音的文本流;和 響應於所述語音音頻流中的中斷,選擇性地基於所述文本流生成輸出。
  2. 根據請求項1所述的設備,其中,所述一個或多個處理器被配置為響應於確定在所述語音音頻流的最後接收的音頻幀的閾值持續時間內未接收到所述語音音頻流的音頻幀而檢測所述中斷。
  3. 根據請求項1所述的設備,其中,所述一個或多個處理器被配置為響應於接收到所述文本流而檢測所述中斷。
  4. 根據請求項1所述的設備,其中,所述一個或多個處理器被配置為響應於接收到中斷通知而檢測所述中斷。
  5. 根據請求項1所述的設備,其中,所述一個或多個處理器被配置為將所述文本流作為所述輸出提供給顯示器。
  6. 根據請求項1所述的設備,其中,所述一個或多個處理器還被配置為: 接收指示所述第一用戶的語音的語調的元資料流;和 基於所述元資料流注釋所述文本流。
  7. 根據請求項1所述的設備,其中,所述一個或多個處理器還被配置為: 對所述文本流執行文本到語音的轉換以生成合成語音音頻流;和 將所述合成語音音頻流作為輸出提供給揚聲器。
  8. 根據請求項7所述的設備,其中,所述一個或多個處理器還被配置為接收指示所述第一用戶的所述語音的語調的元資料流,其中,所述文本到語音的轉換基於所述元資料流。
  9. 根據請求項7所述的設備,其中,所述一個或多個處理器還被配置為在將所述合成語音音頻流提供給所述揚聲器的同時顯示虛擬化身。
  10. 根據請求項9所述的設備,其中,所述一個或多個處理器被配置為在所述線上會議期間接收媒體流,所述媒體流包括所述第一用戶的語音音頻流和視頻流。
  11. 根據請求項10所述的設備,其中,所述一個或多個處理器被配置為響應於所述中斷: 停止所述語音音頻流的回放;和 停止所述視頻流的回放。
  12. 根據請求項10所述的設備,其中,所述一個或多個處理器被配置為響應於所述中斷結束: 避免向所述揚聲器提供所述合成語音音頻流; 避免顯示所述虛擬化身; 恢復所述視頻流的回放;和 恢復所述語音音頻流的回放。
  13. 根據請求項7所述的設備,其中,所述文本到語音的轉換是基於語音模型來執行的。
  14. 根據請求項13所述的設備,其中,所述語音模型對應於通用語音模型。
  15. 根據請求項13所述的設備,其中,所述一個或多個處理器被配置為在所述中斷之前基於所述語音音頻流更新所述語音模型。
  16. 根據請求項1所述的設備,其中,所述一個或多個處理器被配置為: 在所述線上會議期間接收表示第二用戶的語音的第二語音音頻流;和 在生成所述輸出的同時向揚聲器提供所述第二語音音頻流。
  17. 根據請求項1所述的設備,其中,所述一個或多個處理器被配置為: 響應於所述語音音頻流中的中斷而停止所述語音音頻流的回放;和 響應於所述中斷結束: 避免基於所述文本流生成所述輸出;和 恢復所述語音音頻流的回放。
  18. 一種通信方法,包括: 在線上會議期間在設備處接收表示第一用戶的語音的語音音頻流; 在所述設備處接收表示所述第一用戶的所述語音的文本流;和 響應於所述語音音頻流中的中斷而在所述設備處選擇性地基於所述文本流生成輸出。
  19. 根據請求項18所述的方法,還包括響應於確定在所述語音音頻流的最後接收的音頻幀的閾值持續時間內未接收到所述語音音頻流的音頻幀而檢測所述中斷。
  20. 根據請求項18所述的方法,還包括響應於接收到所述文本流而檢測所述中斷。
  21. 根據請求項18所述的方法,還包括響應於接收到中斷通知而檢測所述中斷。
  22. 根據請求項18所述的方法,還包括將所述文本流作為所述輸出提供給顯示器。
  23. 根據請求項18所述的方法,還包括: 接收指示所述第一用戶的語音的語調的元資料流;和 基於所述元資料流注釋所述文本流。
  24. 一種儲存指令的非暫態電腦可讀儲存媒體,所述指令在由一個或多個處理器運行時使所述一個或多個處理器: 在線上會議期間接收表示第一用戶的語音的語音音頻流; 接收表示所述第一用戶的所述語音的文本流;和 響應於所述語音音頻流中的中斷,選擇性地基於所述文本流生成輸出。
  25. 根據請求項24所述的非暫態電腦可讀儲存媒體,其中,所述指令在由所述一個或多個處理器運行時使所述一個或多個處理器: 對所述文本流執行文本到語音的轉換以生成合成語音音頻流;和 將所述合成語音音頻流作為輸出提供給揚聲器。
  26. 根據請求項25所述的非暫態電腦可讀儲存媒體,其中,所述指令在由所述一個或多個處理器運行時使所述一個或多個處理器接收指示所述第一用戶的所述語音的語調的元資料流,其中,所述文本到語音的轉換基於所述元資料流。
  27. 根據請求項25所述的非暫態電腦可讀儲存媒體,其中,所述指令在由所述一個或多個處理器運行時使所述一個或多個處理器在將所述合成語音音頻流提供給所述揚聲器的同時顯示虛擬化身。
  28. 根據請求項25所述的非暫態電腦可讀儲存媒體,其中,所述指令在由所述一個或多個處理器運行時使所述一個或多個處理器在所述中斷之前基於所述語音音頻流更新語音模型,且其中,所述文本到語音的轉換是基於語音模型來執行的。
  29. 一種裝置,包括: 用於在線上會議期間接收語音音頻流的構件,所述語音音頻流表示第一用戶的語音; 用於接收表示所述第一用戶的語音的文本流的構件;和 用於響應於所述語音音頻流中的中斷而選擇性地基於所述文本流生成輸出的構件。
  30. 根據請求項29所述的裝置,其中,所述用於接收語音音頻流的構件、所述用於接收文本流的構件以及所述用於選擇性地生成輸出的構件被整合到虛擬助理、家用電器、智慧型設備、物聯網(IoT)設備、通信設備、頭戴式耳機、交通工具、電腦、顯示設備、電視機、遊戲控制台、音樂播放器、收音機、視頻播放器、娛樂單元、個人媒體播放器、數位視頻播放器、相機或導航設備中的至少一者中。
TW110146437A 2021-02-03 2021-12-10 處理語音音頻流中斷的系統和方法 TW202236084A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/166,250 2021-02-03
US17/166,250 US11580954B2 (en) 2021-02-03 2021-02-03 Systems and methods of handling speech audio stream interruptions

Publications (1)

Publication Number Publication Date
TW202236084A true TW202236084A (zh) 2022-09-16

Family

ID=79283143

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110146437A TW202236084A (zh) 2021-02-03 2021-12-10 處理語音音頻流中斷的系統和方法

Country Status (8)

Country Link
US (1) US11580954B2 (zh)
EP (1) EP4289129A1 (zh)
JP (1) JP2024505944A (zh)
KR (1) KR20230133864A (zh)
CN (1) CN116830559A (zh)
BR (1) BR112023014966A2 (zh)
TW (1) TW202236084A (zh)
WO (1) WO2022169534A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220303152A1 (en) * 2021-03-18 2022-09-22 Lenovo (Singapore) Pte. Ltd. Recordation of video conference based on bandwidth issue(s)
US11895263B2 (en) * 2021-05-25 2024-02-06 International Business Machines Corporation Interpreting conference call interruptions

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10187433B2 (en) * 2013-03-15 2019-01-22 Swyme Ip Bv Methods and systems for dynamic adjustment of session parameters for effective video collaboration among heterogenous devices
US9712666B2 (en) 2013-08-29 2017-07-18 Unify Gmbh & Co. Kg Maintaining audio communication in a congested communication channel
DE102014018205A1 (de) * 2014-12-09 2016-06-09 Unify Gmbh & Co. Kg Konferenzsystem und Verfahren zum Steuern des Konferenzsystems
US9883144B2 (en) * 2016-05-12 2018-01-30 Fuji Xerox Co., Ltd. System and method for replacing user media streams with animated avatars in live videoconferences
US9843673B1 (en) 2016-11-14 2017-12-12 Motorola Mobility Llc Managing calls
US10147415B2 (en) * 2017-02-02 2018-12-04 Microsoft Technology Licensing, Llc Artificially generated speech for a communication session
US20180358003A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Methods and apparatus for improving speech communication and speech interface quality using neural networks
CN107393544B (zh) 2017-06-19 2019-03-05 维沃移动通信有限公司 一种语音信号修复方法及移动终端
US20200090648A1 (en) 2018-09-14 2020-03-19 International Business Machines Corporation Maintaining voice conversation continuity
US10971161B1 (en) * 2018-12-12 2021-04-06 Amazon Technologies, Inc. Techniques for loss mitigation of audio streams
KR20190104941A (ko) * 2019-08-22 2019-09-11 엘지전자 주식회사 감정 정보 기반의 음성 합성 방법 및 장치
US11889128B2 (en) * 2021-01-05 2024-01-30 Qualcomm Incorporated Call audio playback speed adjustment

Also Published As

Publication number Publication date
CN116830559A (zh) 2023-09-29
US20220246133A1 (en) 2022-08-04
KR20230133864A (ko) 2023-09-19
BR112023014966A2 (pt) 2024-01-23
WO2022169534A1 (en) 2022-08-11
EP4289129A1 (en) 2023-12-13
JP2024505944A (ja) 2024-02-08
US11580954B2 (en) 2023-02-14

Similar Documents

Publication Publication Date Title
EP2663064B1 (en) Method and system for operating communication service
US10228899B2 (en) Monitoring environmental noise and data packets to display a transcription of call audio
TW202236084A (zh) 處理語音音頻流中斷的系統和方法
US11650790B2 (en) Centrally controlling communication at a venue
US11889128B2 (en) Call audio playback speed adjustment
US11595462B2 (en) In-call feedback to far end device of near end device constraints
CN108281145B (zh) 语音处理方法、语音处理装置和电子设备
US20240121342A1 (en) Conference calls
US20240029755A1 (en) Intelligent speech or dialogue enhancement
US20240087597A1 (en) Source speech modification based on an input speech characteristic
WO2020177483A1 (zh) 音视频处理方法、装置、电子设备及存储介质
US20230039812A1 (en) Pairing a target device with a source device and pairing the target device with a partner device
JP2008005028A (ja) 映像音声会議システムおよび端末装置