TW202341703A - 用於改進的群通訊通信期的系統和方法 - Google Patents
用於改進的群通訊通信期的系統和方法 Download PDFInfo
- Publication number
- TW202341703A TW202341703A TW112105823A TW112105823A TW202341703A TW 202341703 A TW202341703 A TW 202341703A TW 112105823 A TW112105823 A TW 112105823A TW 112105823 A TW112105823 A TW 112105823A TW 202341703 A TW202341703 A TW 202341703A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio data
- conversation
- participants
- participant
- private
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000004891 communication Methods 0.000 title claims abstract description 102
- 230000001976 improved effect Effects 0.000 title description 2
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims description 72
- 238000001514 detection method Methods 0.000 claims description 61
- 230000033001 locomotion Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 abstract description 27
- 238000013519 translation Methods 0.000 description 36
- 230000014616 translation Effects 0.000 description 36
- 230000000007 visual effect Effects 0.000 description 32
- 238000013518 transcription Methods 0.000 description 25
- 230000035897 transcription Effects 0.000 description 25
- 239000000463 material Substances 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 230000008054 signal transmission Effects 0.000 description 19
- 230000004044 response Effects 0.000 description 18
- 238000001914 filtration Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 11
- 239000004984 smart glass Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 239000011521 glass Substances 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001310793 Podium Species 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920002239 polyacrylonitrile Polymers 0.000 description 1
- 201000006292 polyarteritis nodosa Diseases 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/401—Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/563—User guidance or feature selection
- H04M3/564—User guidance or feature selection whereby the feature is a sub-conference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本案提供了用於處理音訊資料的系統和技術。例如,程序可以包括偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料。第一音訊資料可以基於與第一音訊資料相關聯的一或多個提示而被辨識為私人的。第二音訊資料可以在該兩個或兩個以上現場參與者之間被辨識。第二音訊資料可以基於與第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示。第二音訊資料可以基於將第二音訊資料辨識為非私人的來輸出。
Description
本案整體上係關於向遠端和現場參與者提供通訊通信期。例如,本案的各態樣包括偵測私人談話及/或為通訊通信期中的一或多個參與者移除背景雜訊。
混合會議可以是具有一或多個現場參與者和一或多個遠端參與者的會議。例如,現場參與者可以一起位於一或多個實體空間中,諸如辦公室、會議廳或會議室。在一些情況下,遠端參與者可以位於不同於與現場參與者相關聯的實體空間的一或多個位置中。例如,遠端參與者可以在家中工作並從他們的家庭辦公室或臥室參加混合會議。遠端參與者可以使用個人計算設備參加或參與混合會議,個人計算設備可以包括但不限於桌上型電腦、膝上型電腦、平板電腦、智慧型電話或其他行動計算裝置等。
由於組織和個人兩者皆期望看到增加的在家工作機會,混合會議的普及性增加。儘管現有的混合會議方法可以允許來自現場和遠端參與者的參與,但是這些解決方案通常未考慮遠端參與者來設計,並且可能導致遠端參與者感覺不利或者具有比他們的現場同事更低品質的體驗。
在一些實例中,描述了用於決定現場及/或遠端參與者之間的混合會議的一或多個偵測到的談話的私人或非私人狀態的系統和技術。根據至少一個說明性實例,提供一種用於處理音訊資料的方法,該方法包括:偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料;基於與第一音訊資料相關聯的一或多個提示來將第一音訊資料辨識為私人的;辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中第二音訊資料基於與第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示;及基於將第二音訊資料辨識為非私人的來輸出第二音訊資料。
在另一實例中,提供了一種用於處理音訊資料的裝置,其包括記憶體(例如,被配置為儲存資料,諸如虛擬內容資料、一或多個影像等)以及耦合到記憶體的一或多個處理器(例如,以電路形式實現)。該一或多個處理器被配置為且可以:偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料;基於與第一音訊資料相關聯的一或多個提示來將第一音訊資料辨識為私人的;辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中第二音訊資料基於與第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示;及基於將第二音訊資料辨識為非私人的來輸出第二音訊資料。
在另一實例中,提供了一種非暫時性電腦可讀取媒體,其上儲存有指令,該等指令在由一或多個處理器執行時使該一或多個處理器:偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料;基於與第一音訊資料相關聯的一或多個提示來將第一音訊資料辨識為私人的;辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中第二音訊資料基於與第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示;及基於將第二音訊資料辨識為非私人的來輸出第二音訊資料。
在另一實例中,提供了一種用於處理音訊資料的裝置。裝置包括:用於偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料的部件;用於基於與第一音訊資料相關聯的一或多個提示來將第一音訊資料辨識為私人的的部件;用於辨識該兩個或兩個以上現場參與者之間的第二音訊資料的部件,其中第二音訊資料基於與第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示;及用於基於將第二音訊資料辨識為非私人的來輸出第二音訊資料的部件。
在一些態樣,上述裝置中的一或多個是以下設備或以下設備的一部分:照相機、行動設備(例如,行動電話或所謂的「智慧型電話」或其他行動設備)、可佩戴設備、擴展現實設備(例如,虛擬實境(VR)設備、增強現實(AR)設備或混合現實(MR)設備)、個人電腦、膝上型電腦、伺服器電腦或其他設備。在一些態樣,裝置包括用於擷取一或多個影像的一或多個照相機。在一些態樣,裝置進一步包括用於顯示一或多個影像、通知及/或其他可顯示資料的顯示器。在一些態樣,裝置可包括一或多個感測器,其可用於決定裝置的位置及/或姿勢、裝置的狀態及/或用於其他目的。
本概述並非意欲標識所要求保護的主題的關鍵或必要特徵,亦並非意欲孤立地用於決定所要求保護的主題的範疇。應當經由參考本專利的整個說明書的適當部分、任何或所有附圖以及每個請求項來理解主題。
在參考以下說明書、申請專利範圍和附圖後,前述連同其他特徵和實施例將變得更加顯而易見。
以下提供本案的某些態樣和實施例。這些態樣和實施例中的一些可以獨立地應用,並且它們中的一些可以組合應用,這對於本發明所屬領域中具有通常知識者是顯而易見的。在以下描述中,出於解釋的目的,闡述了具體細節以便提供對本案的實施例的透徹理解。然而,顯而易見的是,可以在沒有這些具體細節的情況下實踐各種實施例。附圖和描述並非意欲為限制性的。
隨後的描述僅提供實例實施例,並非意欲限制本案的範疇、適用性或配置。相反,示例性實施例的隨後描述將向本發明所屬領域中具有通常知識者提供用於實現示例性實施例的使能描述。應當理解,在不脫離所附請求項中闡述的本案的精神和範疇的情況下,可以對元件的功能和佈置作出各種改變。
如前述,混合會議可以包括一或多個現場參與者和一或多個遠端參與者。現場參與者可以一起位於一或多個實體空間(例如,辦公室、會議廳、會議室等)中,並且遠端參與者可以位於不同於與現場參與者相關聯的實體空間的一或多個位置中。例如,遠端參與者可以在家中工作並可以從他們的家庭辦公室或臥室參加混合會議。遠端參與者可以使用個人計算設備參加或參與混合會議,個人計算設備可以包括但不限於桌上型電腦、膝上型電腦、平板電腦、智慧型電話或其他行動計算裝置等。
在一些實例中,現場參與者可以使用在現場參與者所在的會議廳或其他實體空間中所提供的一或多個計算設備來參加或參與混合會議。例如,會議廳可包括一或多個攝像機、麥克風、感測器等,其輸入及/或輸出被提供給用於提供混合會議的會議系統或會議服務。在一些情況下,一或多個現場參與者可以使用與遠端參與者所使用的計算設備相同或相似類型的一或多個計算設備來參加或參與混合會議。例如,現場參與者可以將膝上型電腦、智慧型電話、行動計算裝置等攜帶到配備有攝像機和麥克風的會議廳中。視訊資料、音訊資料、感測器資料及/或其他資料可以從與現場參與者相關聯的計算設備獲得,並且可以從與會議廳相關聯的攝像機、麥克風、感測器及/或計算設備獲得。
隨著為組織和個人提供增加的在家工作機會,混合會議可能會成為更頻繁的會議類型形式。儘管現有的混合會議方法可以允許來自現場和遠端參與者的參與,但是這些解決方案通常未考慮遠端參與者來設計,並且可能導致遠端參與者感覺不利或者具有比他們的現場同事更低品質的體驗。在一些情況下,混合會議的現場參與者在與一或多個遠端參與者互動(或試圖與之互動)時可能面臨挑戰。例如,在混合會議中,現場參與者可能難以快速決定混合會議中的遠端參與者的身份,並且可能由於這種不決定性而選擇不與遠端參與者互動。在一些實例中,混合會議中的現場參與者可能不知道及/或無法容易地參與在混合會議期間在遠端參與者之間發生的基於本文的談話。
混合會議中的遠端參與者可能面臨不同的挑戰,其中許多挑戰隨著會議規模的增加(例如,隨著現場和遠端參與者的總數的增加)而變得更加明顯。在一些情況下,這些挑戰可能出現,因為遠端參與者通常被提供有進入實體會議室的固定視圖,並且經常被提供固定的機會來講話或互動。例如,許多不同的談話可能會在混合會議期間經常以同時的方式發生。現場參與者可以能夠選擇性地參與次要談話,同時仍然收聽主要談話,但是遠端參與者通常不能。
例如,遠端參與者對混合會議的體驗可限於可用的視訊或音訊饋送。在一些實例中,遠端參與者可能不知道任何正在進行的次要談話的存在,並且因此無法參與次要談話。在一些實例中,遠端參與者可能知道正在進行的次要談話的存在,但是只能收聽主要談話,而幾乎沒有能力聽到或參與次要談話。
次要談話通常可以與主要談話及/或某些會議參與者相關。次要談話可以與遠端參與者相關,在這種情況下,遠端參與者的體驗可能由於不知道或無法參與次要談話而受損害。在一些情況下,正在進行的次要談話可能干擾遠端參與者聽到主要談話的能力(例如,當次要談話在比較接近用於向遠端參與者提供音訊的麥克風處發生時,次要談話可能會蓋過亦使用同一麥克風偵測到的主要談話的音訊)。
需要系統和技術來更有效地為現場和遠端參與者中的任一者或兩者提供混合會議,例如經由自動偵測次要談話、決定次要談話的私人或非私人狀態、以及向遠端參與者提供主要談話與非私人次要談話之間的選擇性焦點。
在一些實例中,遠端參與者的音訊資料中存在背景雜訊可干擾其他會議參與者聽到和理解該遠端參與者的能力(例如,使得遠端參與者重複自己及/或使得遠端參與者對會議的問題和貢獻被忽略)。在一些實例中,當遠端參與者位於嘈雜環境中或在背景雜音源附近時,遠端參與者可能猶豫講話或參與混合會議。需要系統和技術來從與混合會議中的參與者相關聯的一或多個音訊串流中準確且有效地過濾(filter)或移除背景雜訊。
本文描述了用於處理與混合會議相關聯的音訊資料、視訊資料及/或感測器資料的系統、裝置、程序(亦被稱為方法)和電腦可讀取媒體(被統稱為「系統和技術」)。如前述,混合會議可以是包括複數個現場參與者和至少一個遠端參與者的會議。在一些實例中,本文所描述的系統和技術可用於偵測多個同時的談話,並從偵測到的談話中辨識主要談話和一或多個次要談話。基於與次要談話相關聯的一或多個提示及/或手勢,次要談話可被辨識為私人的或非私人的。在一些情況下,該一或多個提示可以基於音訊資料、視訊或影像資料、及/或感測器資料。在一些實例中,本文所描述的系統和技術可用於從與混合會議中的參與者相關聯的一或多個音訊串流中過濾或移除背景雜訊。
在一些情況下,主要談話可被偵測為源自正在參與混合會議的主講話者。在一些實例中,可以基於當前正在混合會議中講話的參與者的辨識來偵測主要談話。參與者的辨識可以即時執行,可以基於預定資訊,或者可以基於這兩者的某種組合。主要談話可包括來自單個參與者(諸如主持人或演講人)的語音 。主要談話可包括來自多個參與者的語音,諸如在參與者輪流講話的群會議中,在主持人自由提問或論述的演講中等等。
在一些情況下,次要談話(亦被稱為「側面談話」)可被辨識為在發生主要談話時在兩個或兩個以上現場參與者之間發生。在一些實例中,次要談話可以與主要談話同時發生。在一些情況下,次要談話可以與主要談話不同時發生。例如,次要談話可以在主講話者的語音(例如,主要談話)的暫停期間發生。可以偵測和分析不同的談話及/或語音,以決定主要談話或次要談話辨識符是否合適。在次要談話的情況下,亦可以決定語音是否屬於現有的(或恢復的)次要談話或者它是否表示新的次要談話。另外,被辨識為分別屬於主要談話或講話者的談話或語音可以在會議程序中改變(例如,向演講人提問的人可以被認為是主要談話的一部分,人們可能基於議程而輪流成為主講話者,等等)。
在一些實例中,次要談話可被辨識為在發生主要談話時在至少一個現場參與者與至少一個遠端參與者之間發生。例如,次要談話可以在參加同一混合會議的現場參與者與遠端參與者之間發生。在一些情況下,次要談話可被辨識為發生在混合會議的至少一個現場參與者與不是混合會議參與者的至少一個遠端個人之間。在一些實例中,混合會議的現場參與者與遠端非參與者之間的次要談話可以經由輔助通道(例如,經由電話、經由用於提供混合會議的網路連接會議應用程式等)發生。
本文所描述的系統和技術可以用於提供遠端參與者介面,該遠端參與者介面包括在主要談話與被辨識為非私人的一或多個次要談話之間的可選選項。在一些實例中,可選選項可以向遠端參與者提供主要談話與任何非私人次要談話之間的選擇性焦點。選擇性焦點可包括忽略、靜音、過濾、移除或以其他方式去加重未選擇的談話。
在一些實例中,次要談話可基於由次要談話中的參與者執行或以其他方式與次要談話中的參與者相關聯的一或多個偵測到的手勢及/或提示而被辨識為非私人的或私人的。偵測到的手勢及/或提示可包括次要談話中的參與者的身體位置或身體取向。例如,若次要談話參與者將他的面部或身體轉向為背對著主要談話的方向,或用他的手捂住他的嘴,則次要談話可被辨識為私人的。在一些情況下,可以從與次要談話相關聯的一或多個音訊訊號(例如,由次要談話中的參與者說出的關鍵字、所使用的語言或語言變化、次要談話的音量級或音量級變化、講話節奏的變化等)來決定偵測到的提示。
在一個說明性實例中,基於決定與次要談話相關聯的至少一個偵測到的手勢或提示與先前分配給次要談話的私人狀態不一致,可以將次要談話辨識為非私人的。例如,在一些情況下,可以經由對照早期的手勢或提示(例如,早期的手勢或提示是觸發先前將次要談話辨識為私人的手勢或提示)分析隨後的手勢或提示來將次要談話辨識為已經從私人的轉變為非私人的。例如,若次要談話參與者傾斜並捂住她的嘴,則次要談話最初可被辨識為私人的。若隨後次要談話參與者被偵測為不再傾斜及/或移開捂住她嘴的手,則此類動作可被辨識為與早期的手勢不一致,並且次要談話可被辨識為已經從私人狀態轉變到非私人狀態。
在一些情況下,被辨識為已經從私人狀態轉變到非私人狀態的次要談話可以與新的非私人狀態相關聯,直到經過預定的時間量。例如,次要談話可以在恢復到其先前的私人狀態之前與新的非私人狀態相關聯一分鐘。在一些情況下,可以從執行不一致的手勢或提示(例如,與先前被分配給次要談話的私人狀態不一致的偵測到的手勢或提示)的時間點量測預定時間量。在一些實例中,被辨識為已經從私人狀態轉變到非私人狀態的次要談話可以保持與新的非私人狀態相關聯,直到偵測到或辨識到後續觸發為止。在一些情況下,後續觸發可包括與非私人狀態不一致的至少一個偵測到的手勢或提示。
在一些實例中,遠端參與者可以使用在遠端參與者介面中提供的可選選項來選擇性地聚焦於主要談話和被辨識為非私人的一或多個次要談話中的期望的一個。在一些情況下,次要談話的音訊及/或視訊資料可以基於將次要談話辨識為私人的而被自動靜音或從與混合會議相關聯的輸出中排除。在一些情況下,次要談話的音訊及/或視訊資料可以基於將次要談話辨識為非私人的而被自動包括在與混合會議相關聯的輸出中。
本文所描述的用於處理與混合會議相關聯的音訊資料、視訊資料及/或感測器資料的系統和技術可用於從與混合會議中的參與者相關聯的一或多個音訊串流中過濾或移除背景雜訊。例如,可以從與混合會議中的遠端參與者相關聯的麥克風所擷取的音訊串流中過濾或移除背景雜訊。在一些情況下,第一麥克風擷取遠端參與者講話的音訊資料,並將所擷取的音訊資料作為輸入提供給混合會議。第一麥克風可以被包括在遠端參與者用來加入混合會議的使用者計算設備(例如,臺式或膝上型電腦、平板電腦、智慧型電話等)上或附接到該使用者計算設備。
在一個說明性實例中,在遠端參與者及/或遠端參與者的計算設備上的第一麥克風的聽覺範圍內辨識至少一個第二麥克風。在一些情況下,第二麥克風可被包括在位於遠端參與者的周圍環境中的額外計算設備上或附接到該額外計算設備。例如,遠端參與者的計算設備和額外計算設備可以位於同一房間(例如,遠端參與者從其加入混合會議的房間)。在一些實例中,遠端參與者的計算設備及/或第一麥克風可以與混合會議相關聯,而額外計算設備及/或第二麥克風可以不與混合會議相關聯。
在一個說明性實例中,該一或多個額外計算設備可以與遠端參與者的計算設備相關聯,但不與混合會議相關聯。例如,遠端參與者的計算設備可以偵測位於距遠端參與者的計算設備預定範圍或距離內的一或多個額外計算設備或以其他方式與該一或多個額外計算設備通訊。在一些情況下,遠端參與者的計算設備可以自動執行發現程序以定位位於遠端參與者的計算設備的範圍內的一或多個額外計算設備及/或與該一或多個額外計算設備通訊。在一些實例中,遠端參與者的計算設備可以位於與一或多個額外計算設備相同的區域中或位於一或多個額外計算設備附近。例如,遠端參與者可以在駕車送他的子代上學時使用他的行動電話來參加混合會議。若遠端參與者的子代在汽車中使用平板電腦,則遠端參與者的行動電話(例如,遠端參與者的計算設備)可以偵測、發現平板電腦或者以其他方式與平板電腦通訊。在該實例中,遠端參與者的行動電話(例如,遠端參與者的計算設備)可以與混合會議相關聯,而子代的平板電腦(例如,額外的計算設備)可以與遠端參與者的行動電話相關聯,但不與混合會議相關聯。
在一些情況下,可經由對照由額外計算設備擷取的背景聲音的參考音訊資料分析由遠端參與者的計算設備擷取的主要音訊訊號來對主要音訊訊號執行背景雜訊過濾及/或移除。
例如,基於遠端參與者的計算設備與額外計算設備之間的聽覺範圍或聽覺接近度,由遠端參與者的計算設備上的第一麥克風部分地偵測到的背景聲音亦可以由額外計算設備上的第二麥克風偵測到,反之亦然。與背景聲音的參考音訊資料的部分相匹配或以其他方式作為背景聲音的參考音訊資料的類似部分的主要音訊訊號的部分可能表示背景雜訊,並且可以從主要音訊訊號中濾除或移除。在一些情況下,背景聲音移除可以至少部分地基於來自額外計算設備的參考音訊資料的最響亮部分。例如,在額外計算設備處偵測到的背景聲音可大於在遠端參與者的計算設備處偵測到的背景聲音,因為額外計算設備可能比遠端參與者的計算設備更接近背景聲音的源。
在另一說明性實例中,背景雜訊可由額外計算設備產生。例如,若額外計算設備是與遠端參與者在同一房間中的平板電腦或智慧型電話,則由額外計算設備播放的鈴聲或通知可以是在遠端參與者的主要音訊中被部分地偵測到的背景雜訊。在一些情況下,由額外計算設備產生的背景雜訊可包括與在額外計算設備上輸出的遊戲、電影或其他音訊及/或視聽內容相關聯的音樂或聲音效果。在一些實例中,額外計算設備可以向遠端參與者的計算設備提供由額外計算設備正在輸出或即將輸出的任何聲音的參考音訊資料。例如,由遠端參與者的計算設備接收的參考音訊資料可包括亦由額外計算設備的揚聲器正在輸出的音訊資料檔案的副本或指示。基於從額外計算設備接收的音訊資料檔案或其他參考音訊資料,遠端參與者的計算設備可以濾除或移除由遠端參與者的計算設備的聽覺範圍內的一或多個額外計算設備產生的背景雜訊。
下文將參考附圖論述本文所描述的系統和技術的各個態樣。圖1是示出混合會議系統100的實例的方塊圖。如圖1所示,混合會議系統100包括實體上位於地點110中的複數個現場會議參與者112a-112e。如在下文將更深入地解釋,地點110可以是現場會議參與者112a-112e聚集以參加由混合會議系統100提供的混合會議的會議廳、會議室或其他實體空間或位置。儘管在圖1中圖示了單個地點110,但是應當注意,在不脫離本案的範疇的情況下,可以利用更多數量的地點或其他實體空間來為現場參與者提供混合會議。圖1中亦圖示一或多個遠端會議參與者172a-172c,其中的每一個或一些可以位於不同的相應位置。應當注意,在不脫離本案的範疇的情況下,比三個遠端參與者172a-c更多或更少數量的遠端參與者可以參加由混合會議系統100提供的混合會議。遠端參與者172a-c可以經由與網路150的通訊鏈路參加混合會議,網路150可包括或提供混合會議會議服務140。網路150可以是任何有線或無線網路,包括但不限於:WiFi網路;蜂巢網路,諸如5G或長期進化(LTE)網路;網內網路;無線區域網路(WLAN);藍芽網路或其他個人區域網(PAN);其任何組合及/或其他通訊網路。
地點110可以是現場參與者112a-e聚集並參加由混合會議系統100提供的混合會議的會議廳、會議室或其他實體空間。在一些情況下,地點110可包括一或多個照相機或其他視訊擷取裝置。例如,如圖1所示,地點110可包括攝像機122a、122b、122c和122d(被稱為122a-122d),其被佈置在地點110周圍以擷取現場參與者112a-e以及其間的主要及/或次要談話的不同視圖。出於說明和實例的目的,圖示四個攝像機122a-d,但是應當注意,亦可以使用更多或更少數量的攝像機或其他視訊和影像擷取裝置。在一些實例中,攝像機122a-d中的一或多個可經調整以擷取地點110及/或現場參與者112a-e中的一或多個的不同視圖。如在下文將更深入地解釋,在一些態樣,攝像機122a-d中的一或多個可以被自動地搖攝、傾斜、縮放或以其他方式調整以擷取與現場參與者112a-e之間偵測到的主要或次要談話相關聯的視場。
現場參與者112a-e被顯示位於地點110內的不同位置中。例如,地點110可包括桌子120,現場參與者中的一或多個在混合會議期間坐在桌子120周圍。在一些情況下,現場參與者112a-e中的一或多個可以在地點110內及/或相對於其他現場參與者自動地定位。例如,現場參與者112a-e的定位可以至少部分地基於由攝像機122a-d擷取的視訊或影像資料,使用例如視訊或影像資料作為到一或多個電腦視覺系統、物件偵測或追蹤系統等的輸入。在一些實例中,可以即時地定位現場參與者112a-e。
除了攝像機122a-d之外,地點110亦可以配備有一或多個麥克風126a-d。在一些實例中,麥克風126a-d中的一或多個可以被包括在電話會議設備或基地台中,該電話會議設備或基地台包括用於提供混合會議並實現本文所描述的系統和技術的額外感測器及/或處理器。例如,在圖1中被顯示為位於桌子120上的麥克風126b-d中的一些或全部可以被整合到桌面電話會議設備或基地台中。在一些實例中,麥克風126a-d中的一或多個可以是通訊地耦合到與混合會議系統100相關聯的計算設備或其他接收器的獨立麥克風。
如下文將更深入地解釋,麥克風126a-d中的一或多個可用於將現場參與者112a-e定位在地點110內。在一些實例中,現場參與者112a-e的定位可以基於來自麥克風126a-d的音訊資料和來自照相機122a-d的視覺資料的組合。來自麥克風126a-d的音訊資料亦可用於例如基於語音辨識、語音指紋辨識、關鍵字偵測和分析、自然語言處理(NLP)等來決定現場參與者112a-e的身份。
在一些實例中,麥克風126a-d和攝像機122a-d可以永久或半永久方式與地點110相關聯。例如,麥克風126a-d及/或攝像機122a-d中的一或多個可安裝或以其他方式佈置在地點110內的固定位置中。固定位置可以向混合會議系統100註冊或以其他方式由混合會議系統100儲存。如前述,現場參與者112a-e可以相對於麥克風126a-d及/或攝像機122a-d定位。在一些實例中,混合會議系統100可以使用麥克風126a-d及/或攝像機122a-d的對應固定位置來隨後將現場參與者112a-e定位在地點110內。
如圖1所示,一或多個計算設備可以與現場參與者112a-e中的至少一些相關聯。例如,現場參與者112a-c被圖示為分別與智慧型電話102a-c相關聯。現場參與者112c另外被圖示為與膝上型電腦104相關聯。在一些情況下,與現場參與者112a-e相關聯的計算設備中的一或多個可以是現場參與者擁有或使用的個人計算設備、智慧型電話等。在一些情況下,與現場參與者112a-e相關聯的計算設備中的一或多個可以是現場參與者的雇主擁有或提供的計算設備。
儘管未在圖1中示出,但是與現場參與者112a-e相關聯的智慧型電話102a-c、膝上型電腦104及/或各種其他計算設備(例如,平板電腦、智慧手錶、智慧眼鏡、智慧戒指/珠寶等)可另外包括麥克風、攝像機、以及亦可以用於擷取對應於地點110、現場參與者112a-e及/或現場參與者之間的主要和次要談話的資料的其他感測器。在一些情況下,本文中對麥克風(諸如麥克風126a-d)、攝像機(諸如攝像機122a-d)及/或與地點110相關聯的其他感測器的參考可同等地應用於與現場參與者112a-e相關聯的計算設備上所提供的相同或類似麥克風、攝像機及/或其他感測器。
在一些實例中,混合會議系統100可以在註冊程序期間自動偵測給定的現場參與者的計算設備上可用的任何麥克風、攝像機或感測器。註冊程序可以作為混合會議建立或初始化的一部分自動執行。在一些實例中,可以基於被配置為與混合會議系統100一起使用的會議室(諸如地點110)內的計算設備的存在來自動執行現場參與者計算設備的註冊。例如,混合會議系統100可以在一或多個WiFi網路、藍芽網路或其他PAN、近場通訊(NFC)網路等上執行自動設備發現程序。在一些情況下,可以連續地執行與混合會議系統100及/或地點110相關聯的設備發現程序,使得即使沒有安排會議,亦可以偵測地點110內的任何計算設備。在一些實例中,可以基於預定會議的日歷來執行設備發現,例如針對預定會議的持續時間加上會議的預定開始和結束時間之前及/或之後的預定義間隔(例如,15分鐘)來執行。在一些實例中,可以在與混合會議相關聯的開始時間之前執行註冊程序。例如,可以對與混合會議系統100相關聯的一或多個先前的混合會議執行註冊程序,並且其中產生的註冊資訊中的一些或全部可以由混合會議系統100儲存或存取以供將來使用。在一些情況下,註冊程序可包括向混合會議系統100的使用者登記(例如,經由使用者計算設備、到混合會議系統100的網路化或線上使用者介面等來執行)。
遠端參與者172a-c可以經由網路150參與由混合會議系統100提供的混合會議,在一些實例中,網路150可包括或以其他方式提供到混合會議會議服務140的通訊鏈路。如圖所示,遠端參與者172a-c被顯示為與一或多個計算設備相關聯,該一或多個計算設備可以是與以上關於現場參與者112a-e所描述的該一或多個計算設備相同或相似的類型。例如,遠端參與者172a被顯示為使用膝上型電腦164a和智慧型電話162a參與混合會議;遠端參與者172b被顯示為使用智慧型電話162b參與混合會議;並且遠端參與者172c被顯示為使用膝上型電腦164c參與混合會議。
與遠端參與者172a-c相關聯的計算設備可包括一或多個麥克風、攝像機及/或其他感測器,如以上關於現場參與者計算設備所描述。在由混合會議系統100提供的混合會議的上下文中,遠端參與者計算設備可以擷取遠端參與者172a-c的音訊、視覺及/或感測器資料並將其發送到網路化混合會議會議服務140。網路化混合會議會議服務140可以將遠端參與者172a-c的擷取資料分發到或提供給現場參與者112a-e以及遠端參與者172a-c中剩餘參與者中的一或多個。在一些實例中,遠端參與者172a-c的擷取資料可被發送到位於地點110中的重播設備(例如,電視機或視訊螢幕、揚聲器、現場參與者112a-e的計算設備等)。如下文將更深入地描述,網路化混合會議會議服務140可以向遠端參與者172a-c提供對應於混合會議、地點110、現場參與者112a-e中的一或多個、及/或現場參與者112a-e之間的一或多個主要或次要談話的所擷取及/或處理的資料。在一些實例中,由混合會議會議服務140提供給遠端參與者172a-c的所擷取或處理的混合會議資料可以由與遠端參與者計算設備相關聯的螢幕及/或麥克風輸出。
在一些實例中,網路化混合會議會議服務140可向遠端參與者(例如,遠端參與者172a-c)中的一或多個提供由與現場參與者(例如,現場參與者112a-e)中的一或多個相關聯的可佩戴設備或其他照相機擷取的音訊及/或視覺資料。在一個說明性實例中,音訊及/或視覺資料可以由現場參與者112a-e中的一或多個佩戴的智慧眼鏡擷取。在一些情況下,音訊及/或視覺資料可對應於地點110中舉行的混合會議。在一些實例中,遠端參與者172a-c中的一或多個可以請求、查看或以其他方式被提供有由現場參與者112a-e中的一或多個佩戴的智慧眼鏡擷取的音訊及/或視覺資料。例如,遠端參與者172a-c可以從由室內參與者112a-e中的特定參與者佩戴的智慧眼鏡擷取的可用視聽資料串流的列表中進行選擇。在一些情況下,遠端參與者可以被提供有與佩戴智慧眼鏡的室內參與者的視點(POV)相匹配或相對應的視聽資料,使得遠端參與者可以從實體上位於地點110內的室內參與者的POV體驗混合會議。
在一個說明性實例中,本文所描述的系統和技術可用於偵測混合會議(例如,諸如由混合會議系統100提供的混合會議)中的多個同時的談話。可以將每個偵測到的談話辨識為主要談話或次要談話。可以進一步分析被辨識為次要談話的談話以將次要談話辨識為私人的或非私人的。在一些實例中,可以向遠端參與者172a-c自動地提供在所辨識的主要談話與被辨識為非私人的任何次要談話之間的可選選項。在一些情況下,可選選項可用於實現選擇性聚焦於主要談話和非私人次要談話中的期望談話,如在下文將更深入地描述。
圖2是示出具有遠端參與者介面280的混合會議系統200的實例的方塊圖,遠端參與者介面280包括對應於偵測到的主要談話232的主要談話選項282。如圖所示,可以在混合會議的環境中偵測主要談話232,該混合會議包括實體上位於地點110中的現場參與者112a-e(例如,如上文參照圖1所述)。儘管未在圖2中示出,但是諸如遠端參與者(例如,圖1的172a-c)之類的一或多個遠端參與者可以使用遠端參與者介面280來參加混合會議或與混合會議互動。在一些實例中,網路化混合會議會議服務140可以向關於圖1的遠端參與者172a-c所描述的遠端參與者計算設備162a、162b、164a、164c中的一或多個提供遠端參與者介面280。
在一些實例中,可以基於當前正在混合會議中講話的參與者的辨識來偵測主要談話232。參與者的辨識可以即時執行,可以基於預定資訊,或者可以基於這兩者的某種組合。主要談話可包括來自單個參與者(諸如主持人或演講人)的語音。主要談話可包括來自多個參與者的語音,諸如在參與者輪流講話的群會議中,在主持人自由提問或論述的演講中等等。
在一些情況下,可以回應於偵測到指定講話者的語音來辨識主要談話232。例如,與主要談話232相關聯的指定講話者可以是混合會議的主持人或主講話者。指定講話者可基於時間、會議邀請、日曆邀請、與電話會議或會議應用程式的整合等來決定。在一些實例中,來自指定講話者的語音可用於偵測主要談話232並將特定身份與現場參與者112a-e中的給定參與者相關聯。麥克風126a-d中的一或多個(及/或包括在現場參與者計算設備102a-c和104中的一或多個麥克風)可用於偵測和辨識與混合會議相關聯的語音、講話的個人及/或談話。
例如,混合會議系統200可以決定講話者A-D被安排分別在10:00、10:15、10:30和10:45講話(例如,根據議程、會議邀請等)。若偵測到現場參與者112a在10:00(或在大約10:00)開始講話,則出於混合會議的目的,可將現場參與者112a辨識為人A。在一些情況下,基於決定現場參與者112a在所有現場參與者112a-e中講話最多及/或講話最突出,可以將現場參與者112a偵測為主要談話232的當前講話者或主講話者。在一些實例中,可以至少部分地基於日程資訊和偵測到現場參與者112a講話最多(例如,在10:00或大約10:00開始的時段的前幾分鐘內)而將現場參與者112a辨識為講話者A。在一些實例中,可以至少部分地基於日程資訊和偵測到現場參與者112a講話高於音量閾值(例如,在10:00或大約10:00開始的時段的前幾分鐘內)而將現場參與者辨識為講話者A。在一些實例中,音量閾值可以是絕對的及/或可以相對於其他現場參與者的音量。在一些實例中,可以至少部分地基於日程資訊和至少第一視覺手勢或提示而將現場參與者112a辨識為講話者A。例如,基於現場參與者112a被偵測為在10:00或接近10:00時站起來或位於會議室的前方,可以將現場參與者112a辨識為講話者A。隨後,若偵測到現場參與者112b在10:15或大約在10:15開始講話,則出於混合會議等的目的,可將現場參與者112b辨識為人B。
在一些實例中,混合會議系統200可以回應於偵測到的語音中的變化而將新的現場參與者辨識為主要談話232中的當前講話者。繼續上面的實例,若現場參與者112a在他們的指定時槽內進行並繼續說話直到10:17,則混合會議系統200可以維持現場參與者112a作為人A的早期辨識,因為在偵測到的語音中沒有變化。當現場參與者112b稍後開始講話時,混合會議系統200隨後可以基於偵測到不同於現場參與者112a/人A的語音來將現場參與者112b辨識為人B。在一些實例中,可以在滿足持續時間、音量等的閾值之後觸發與主要談話232相關聯的所偵測到的語音中的變化(例如,以避免由於諸如受眾成員提出問題之類的臨時中斷而導致的誤報)。
在一個說明性實例中,混合會議系統200可以決定對先前決定的講話者辨識的一或多個更新或校正。例如,繼續上述實例,若混合會議系統200將現場參與者112d錯誤地辨識為講話者A(例如,因為偵測到現場參與者112d在與講話者A相關聯的預定時間10:00講話最多、最響亮等),則混合會議系統200隨後可以基於混合會議系統200接收額外資訊來決定對講話者A的辨識的更新或校正。例如,若現場參與者112a(例如,被安排在大約10:00講話的實際‘講話者A’)在10:02開始講話,則混合會議系統200可以將現場參與者112a講話的量與先前被辨識為講話者A的參與者(例如,現場參與者112d)講話的量進行比較。在一些情況下,至少部分地基於隨後的現場參與者112a講話的量(例如,在10:02開始)超過現場參與者112d講話的量(例如,在10:00開始並在大約10:02結束),混合會議系統200可以決定講話者A應該被正確地辨識為現場參與者112a而不是現場參與者112d。
在一些情況下,麥克風126a-d中的一或多個及/或包括在現場參與者計算設備102a-c和104中的麥克風可以被指定為屬於主要談話232的主講話者。例如,從講臺麥克風126a獲得的音訊可被辨識為屬於主要談話232的講話者112a。類似地,可以建立地點110內的一或多個指定位置,預期或已知主要談話232的主講話者將位於該一或多個指定位置。可以對照偵測到的語音的計算位置來分析指定位置,使得來自指定位置的偵測到的語音可以被辨識為屬於主講話者及/或屬於主要談話232。在一些實例中,可以基於位於地點110中的不同麥克風或感測器之間的三角量測來獲得偵測到的語音的計算位置。
在一些實例中,可以經由在混合會議之前或期間提示每個(或至少一些)現場參與者陳述或以其他方式輸入他們的姓名來辨識現場參與者112a-e中的一或多個。例如,現場參與者可以陳述或以其他方式口頭輸入他們的姓名(例如,如由與混合會議系統200相關聯的一或多個麥克風擷取)。在一些情況下,現場參與者可以使用鍵盤或其他本文輸入設備及/或本文輸入使用者介面(例如,使用與混合會議系統200相關聯的個人計算設備及/或其他計算設備)來輸入他們的姓名。例如,現場參與者可以在進入地點110時、在混合會議開始時、在混合會議期間第一次講話時等由混合會議系統200提示以陳述他們的姓名。可以使用一或多個NLP系統及/或演算法來辨識由現場參與者說出的姓名,並且混合會議系統200可以使用所辨識的姓名來在其中可以聽到或看到特定現場參與者的任何音訊及/或視覺資料中產生特定現場參與者並用適當的辨識符來標記該特定現場參與者。
在一些情況下,利用混合會議系統200進行的來自先前混合會議等的先前辨識亦可以用於辨識正在參加當前混合會議的現場參與者112a-e。可以從與當前混合會議相同的會議系列中的先前會議及/或從無關的先前會議獲得先前辨識。在一些情況下,可以從引導程序獲得先前辨識,在該引導程序中給定現場參與者已經用混合會議系統200建立了使用者簡檔。
在一個說明性實例中,可以基於當前出現在混合會議上的計算設備的身份來辨識與主要談話232相關聯的主講話者。例如,若混合會議系統200決定智慧型電話102a正被用於呈現幻燈片,則混合會議系統200可進一步決定主要談話232的當前主講話者可能是現場參與者112(例如,智慧型電話102a的已知/註冊的所有者或使用者)。在一些實例中,自動現場參與者辨識可以基於偵測特定現場參與者的已知關聯設備的存在。例如,混合會議系統200可以知道或學習參與者身份與該參與者的膝上型電腦MAC位址或其他唯一辨識碼之間的相關性,在這種情況下,會議中MAC位址的存在可以用於決定對應的參與者存在。亦可以使用手動辨識,包括自辨識和登錄要求。
在一些實例中,每個室內參與者的電話、膝上型電腦或其他計算設備可以與混合會議系統200共享室內參與者的聲紋(連同對應的參與者身份),使得可以分析偵測到的語音並將其與聲紋和參與者身份對進行匹配。在一些情況下,室內參與者的設備可以收集或學習在先前會議中已經辨識的其他室內參與者的聲紋。來自先前會議的所收集的聲紋可以與混合會議系統200及/或針對當前混合會議存在的參與者計算設備中的一或多個共享。
例如,在先前的會議中,參與者A的設備可以共享參與者A的聲紋並將該聲紋辨識為屬於人A,而參與者B的設備同樣可以共享參與者B的聲紋並將該聲紋辨識為屬於參與者B。在未來的混合會議中,參與者A的設備可以共享參與者A的聲紋並將其辨識為屬於參與者A,並且亦可以共享所儲存/收集的參與者B的聲紋並將該聲紋辨識為屬於參與者B。在一些情況下,現場參與者的計算設備可以共享先前用於參與者辨識的其他資訊。例如,若在先前會議中,具有ID XYZ123的參與者B的設備被辨識為屬於參與者B,則參與者A的設備可以共享該資訊,以在存在設備ID XYZ123時在後續會議中辨識參與者B。在一些實例中,混合會議系統200本身可以收集或學習來自先前會議的現場參與者的聲紋和對應身份,隨後使用所收集的聲紋-身份對來自動辨識後續會議中的現場參與者。例如,在先前會議中,參與者A的設備可以共享參與者A的聲紋並將該聲紋辨識為屬於參與者A;參與者B的設備同樣共享參與者B的聲紋,將其辨識為屬於參與者B。在一些實例中,這些聲紋及其對應的辨識可以儲存在資料庫等中,使得在將來的會議中,被決定為與參與者B的所儲存的聲紋相匹配的語音可以被自動辨識為屬於參與者B。
在一個說明性實例中,在辨識室內參與者112a-e中的一或多個之後,混合會議系統200可以在提供給遠端參與者的混合會議的音訊及/或視覺資料中用他們的姓名或其他辨識符來自動標記所辨識的室內參與者。在一些實例中,可以結合辨識和區分主要談話與次要談話來提供自動的現場參與者辨識,儘管亦可以以獨立的方式提供自動的參與者辨識。
在一些實例中,混合會議系統200可以使用一或多個視覺提示來辨識或區分主要談話232與一或多個次要談話,如下文將論述的。主要談話的視覺提示可包括(但不限於)站著的現場參與者、面向其餘現場參與者的現場參與者、由其餘現場參與者觀看的現場參與者、位於地點110前面或諸如白板之類的某一其他相關區域中的現場參與者等。
在一些實例中,由地點110中的麥克風記錄或偵測的語音音訊的一或多個特徵可用於辨識主要談話232。麥克風可包括麥克風126a-d及/或由現場參與者計算設備102a-c和104提供的一或多個麥克風。用於辨識主要談話232的語音音訊的特徵可包括偵測到的語音的突出(例如,在音量、字/語音的數量/量、持續時間等態樣)。在一些實例中,可以將語音音訊的一或多個特徵與一或多個音量閾值進行比較(例如,將高於閾值的語音辨識為主要談話,將低於閾值的語音辨識為次要談話)。
在一些實例中,可以使用一或多個即時NLP(自然語言處理)系統或演算法來辨識其中個人將其自己辨識為主要談話232的主講話者的語音。在一個說明性實例中,關鍵字偵測可用於辨識主講話者及/或主要談話232。例如,若現場參與者112a已經被辨識為主要談話232的當前主講話者並且說「任何人是否有任何問題?」,則講話超過某一音量閾值的下一個現場參與者可以在他們提出他們的問題時暫時成為主要談話232的主講話者(例如,現場參與者112b可以在向現場參與者112a提出問題時被辨識為臨時主講話者)。至少部分地基於將現場參與者112b辨識為臨時主講話者,來自現場參與者112b的語音音訊可被包括在主要談話232中而不是次要談話中。若或當現場參與者112a對來自現場參與者112b的問題作出回應時,現場參與者112a可以恢復為被辨識為主要談話232的當前主講話者。若改為不同的參與者(例如,現場參與者112c)對該問題作出回應,則現場參與者112c可成為主要談話232的新的臨時主講話者。在一些情況下,作為主要談話232的原始主講話者,現場參與者112a可以一直被認為是主要談話232的一部分,即使當其他人正在講話時。
在一些實例中,混合會議系統200可以利用NLP及/或關鍵字偵測來決定正在混合會議中講話的特定個人的姓名或身份,無論是在主要談話232中,在次要談話中,及/或在主要和次要談話的組合中。例如,若當前主講話者說「Bill,您是否有問題?」,則混合會議系統200可以決定下一個講話者可以被辨識為「Bill」(並且在該實例中,他的語音應當被辨識為屬於主要談話232)。在一些態樣,如前述,混合會議系統200亦可以經由對照使用NLP或關鍵字偵測偵測到的口述姓名分析會議參與者姓名(例如,基於會議邀請、接受的會議邀請等)來決定(或確認)一或多個會議參與者的姓名資訊及/或身份資訊。例如,回應於偵測到當前主講話者說「Bill,您是否有問題?」,混合會議系統200可以針對相同或相似的姓名(例如,「Bill」、「William」等)分析會議參與者姓名的列表。在一些實例中,可以顯示模糊的結果。例如,若混合會議系統200決定「Bill Smith」和「Bill Jones」皆在參加混合會議,則混合會議系統200可以將下一個講話者辨識為「Bill Smith或Bill Jones」。在一些實例中,混合會議系統200可以顯示模糊的結果或姓名辨識,直到接收到額外資訊,使得混合會議系統200可以解決模糊性並單獨地辨識「Bill Smith」及/或「Bill Jones」。
在一些態樣,主要談話選項282可以由遠端參與者中的一或多個選擇。例如,如圖2所示,主要談話選項282可包括允許遠端參與者加入主要談話232的‘加入’選項292和允許遠端參與者查看與主要談話232相關聯的資訊(例如,講話者身份、出席者資訊、會議概要等)的‘資訊’選項294。在一些情況下,‘加入’選項392可以使混合會議系統200及/或混合會議會議服務140將主要談話232的音訊及/或視覺資料發送到遠端參與者。例如,‘加入’選項392可以使混合會議系統200及/或混合會議會議服務140向遠端參與者發送由與現場參與者112a-e中的一或多個相關聯的智慧眼鏡或其他可佩戴計算設備擷取的音訊及/或視覺資料。在一些情況下,除了由與地點110相關聯的該一或多個照相機122a-d及/或該一或多個麥克風126a-d擷取的音訊及/或視覺資料之外,亦可將由智慧眼鏡或其他可佩戴計算設備擷取的音訊及/或視覺資料發送到遠端參與者。‘加入’選項292可另外使混合會議系統200及/或混合會議會議服務140從遠端參與者接收音訊及/或視覺資料以包括在主要談話232中。
在一些實例中,可以使用一或多個手勢及/或提示來決定或推斷在混合會議中的現場參與者112a-e之間存在一或多個次要談話。例如,圖3圖示混合會議系統300,其中在現場參與者112a與112b之間偵測到主要談話332並且在現場參與者112c與112d之間偵測到次要談話334。在一些態樣,偵測到的次要談話334可大致即時地發生及/或與主要談話332同時發生。在一些實例中,混合會議系統300可包括被顯示以供選擇的一或多個過去的或完成的次要談話(例如,作為次要談話334)。應當注意,在該實例中,沒有將現場參與者112e圖示為包括在主要談話332或次要談話334中——在一些情況下,這可以在現場參與者112e正在被動地收聽但對任一談話沒有貢獻時及/或在混合會議系統200尚未能夠決定現場參與者112e正在聚焦於這兩個談話332、334中的哪一個時發生。
在一個說明性實例中,混合會議系統300(諸如經由攝像機122a-d中的一或多個及/或地點110中提供的感測器)可用於偵測指示次要談話334的手勢或提示。在一些情況下,混合會議系統300可以補充地或可替代地利用現場參與者計算設備102a-c和104上所提供的一或多個照相機及/或感測器來偵測指示次要談話334的手勢或提示。例如,混合會議系統300可以偵測可朝彼此傾斜以便融入次要談話的兩個現場參與者之間的距離變化。在圖3的實例的上下文中,混合會議系統300可以基於偵測現場參與者112c與現場參與者112d之間的距離變化來辨識次要談話334。儘管圖3圖示其中次要談話334發生在桌子120周圍的相鄰位置處就坐的現場參與者之間的實例,但是應當注意,當次要談話發生在不相鄰的現場參與者之間及/或包括一或多個遠端參與者時,亦可以偵測到次要談話。
在一些實例中,用於辨識諸如次要談話334之類的次要談話的所偵測到的手勢或提示可包括室內參與者的嘴唇移動,尤其是尚未被辨識為主講話者或尚未被辨識為當前參與主要談話332的參與者的嘴唇移動。類似地,用於辨識次要談話的所偵測到的手勢及/或提示可包括一或多個現場參與者的頭部或身體取向的變化。例如,可以基於偵測到現場參與者112c及/或現場參與者112d轉身面對彼此而不是面向地點110的前方(例如,轉身離開主要談話332和主講話者112a)來辨識次要談話334。在一些實例中,混合會議系統300可以基於用手捂住他們的嘴、降低他們的頭等的現場參與者來辨識次要談話。
亦可以基於與現場參與者112a-e在地點110的實體空間內及/或相對於會議桌120的位置或定位相關的手勢和提示來偵測次要談話。例如,可以基於現場參與者的不同群集的形成(諸如當混合會議涉及具有論述不同主題的三個參與者的組的封包通信期時可能發生)來偵測次要談話。在一些實例中,可以使用對現場參與者112a-e的姿勢偵測和分析來辨識次要談話。
在一些實例中,可以基於本質上是非視覺的手勢及/或提示來偵測次要談話。例如,可以從麥克風126a-d所擷取的音訊資料、與地點110相關聯的感測器所擷取的感測器資料、及/或自現場參與者計算設備102a-c和104獲得的麥克風和感測器資料中偵測一或多個手勢或提示。在一些情況下,可以經由偵測與主講話者或其他指定/預期講話者的語音不匹配的語音的音訊資料來辨識次要談話334。例如,在圖3的上下文中,可以經由偵測現場參與者112c及/或112d的語音的音訊資料並決定這些語音與主講話者112a或主要談話332中的其他參與者112b的語音不匹配來辨識次要談話334。
亦可以基於以下來辨識次要談話334:偵測源自不同於主講話者112a及/或主要談話332的位置的語音;偵測具有不同音量的語音,諸如低語或低於某個閾值的降低的語音音量;偵測與主講話者112a不同語言的語音;偵測與主講話者112a不同節奏的語音;偵測與不同於主要談話332的主題或關鍵字有關的語音;及諸如此類。在一些情況下,亦可以利用一或多個生物統計感測器,以及基於現有感測器和照相機資料的生物統計決定及/或計算。例如,作為主要談話332中的主講話者的現場參與者112a的所偵測到的心率及/或呼吸率可以不同於參與次要談話334的現場參與者112c和112d的所偵測到的心率及/或呼吸率。在一些實例中,用於將談話辨識為主要談話的任何特徵可用於將另一談話辨識為次要談話,反之亦然。
在辨識主要談話332和任何次要談話(諸如次要談話334)之後,混合會議系統300可以向混合會議的遠端參與者呈現一或多個選項,以選擇性地聚焦於及/或查看對應於當前正在進行的談話中的一或多個的資訊。選擇性焦點可包括忽略、靜音、過濾或以其他方式去加重任何未選擇的談話,以便根據需要將所聚焦的談話呈現給遠端參與者。如圖3所示,混合會議系統300可包括具有可選主要談話選項382(對應於偵測到的主要談話332)和可選側面談話選項384(對應於偵測到的次要談話334)的遠端參與者介面380。
可選主要談話選項382可包括允許遠端參與者加入主要談話332的‘加入’選項392和允許遠端參與者查看與主要談話332相關聯的資訊(例如,講話者身份、出席者資訊、會議概要等)的‘資訊’選項394。例如,‘加入’選項392可以使混合會議系統300及/或混合會議會議服務140將主要談話332的音訊及/或視覺資料發送到遠端參與者。例如,‘加入’選項392可以使混合會議系統200及/或混合會議會議服務140向遠端參與者發送由與現場參與者112a-e中的一或多個相關聯的智慧眼鏡或其他可佩戴計算設備擷取的音訊及/或視覺資料。在一些情況下,除了由與地點110相關聯的該一或多個照相機122a-d及/或該一或多個麥克風126a-d擷取的音訊及/或視覺資料之外,亦可將由智慧眼鏡或其他可佩戴計算設備擷取的音訊及/或視覺資料發送到遠端參與者。‘加入’選項392可另外使混合會議系統300及/或混合會議會議服務140從遠端參與者接收音訊及/或視覺資料以包括在主要談話232中。
「資訊」選項394可以向遠端使用者提供與主要談話332相關聯的資訊。例如,與主要談話332相關聯的資訊可包括但不限於主要談話332中的參與者/已辨識個人的列表、主要談話332的過去內容的即時抄本(transcript)或概要、向主要談話332中的一或多個參與者發送私人訊息的選項、發起或請求與主要談話332中的一或多個參與者的次要談話的選項等。
在一個說明性實例中,本文所描述的系統和技術可包括一或多個翻譯選項及/或一或多個轉錄選項。在一些情況下,可以即時執行翻譯及/或轉錄(例如,當發生主要或次要談話時)。在一些實例中,與混合會議中的一組參與者或已辨識個人相關聯的資訊可用於改進由混合會議系統300執行的翻譯及/或轉錄。例如,可以回應於「資訊」選項394(例如,如前述)的選擇而呈現的參與者或已辨識個人的列表可以與可用於改進混合會議的翻譯和轉錄的參與者身份資訊相同或相似。
在一些實例中,參與者身份資訊可用於獲得一或多個使用者偏好,其可包括翻譯及/或轉錄偏好。如前述,參與者身份資訊可以與現場參與者、遠端參與者或這兩者的組合相關聯。在一些實例中,參與者身份資訊可用於獲得指示與混合會議系統(例如,混合會議系統300)所提供的翻譯及/或轉錄選項相關聯的優選或請求語言的使用者偏好。在一些情況下,用於翻譯/轉錄的優選或請求語言可以不同於混合會議中正在使用或將要使用的語言。
在一些實例中,所辨識的參與者(例如,現場參與者、遠端參與者或其組合)可以與先前決定的使用者簡檔相關聯,使用者簡檔可包括與給定參與者相關聯的一或多個語音模型、語音簡檔及/或聲紋。在一些情況下,所儲存的或先前決定的語音資訊可用於增強特定會議參與者的語音的翻譯及/或轉錄(例如,使用所儲存的語音資訊來更準確地決定與所儲存的語音資訊相關聯的會議參與者說出的字)。
在一些情況下,經由辨識主要和次要談話(例如,主要談話332、次要談話334),混合會議系統300可以更準確地執行所辨識的談話中的一些或全部的口述內容的翻譯及/或轉錄。例如,經由辨識主要談話332和次要談話334以及每個談話中相關聯的會議參與者,混合會議系統300可以防止來自第一談話的口述內容被不正確地分配(例如,在轉錄或翻譯之後)到第二談話的自動產生的本文記錄。在一些情況下,混合會議系統300可以辨識主要和次要談話(例如,主要談話332和次要談話334),以從不是給定轉錄或翻譯的主題的其他談話中濾除字及/或口述內容。
在一些實例中,至少部分地基於辨識正在發生的主要及/或次要談話,混合會議系統300可以執行複數個同時發生的談話中的一些或全部的同時或並行的轉錄及/或翻譯。在一些態樣,可以回應於對相關聯的使用者介面選項(例如,「資訊」選項394、「資訊」選項398等)的選擇來呈現給定談話的自動產生的即時轉錄或翻譯。在一些情況下,混合會議系統300及/或遠端參與者介面380可包括專用翻譯或轉錄列表,使用者(例如,現場或遠端會議參與者)可以基於此從相關聯談話的列表中選擇翻譯或轉錄。由混合會議系統300為其提供翻譯或轉錄的相關聯談話的列表可包括正在進行的談話、已完成的(例如,早期的)談話等。在一些實例中,可以將單獨的執行緒用於每個所辨識的談話的轉錄及/或翻譯,其中每個所辨識的談話屬於至少一個執行緒。
在一個說明性實例中,混合會議系統300可包括針對已經與過去或正在進行的混合會議相關聯地辨識的談話中的一些或全部的一或多個翻譯及/或轉錄。例如,混合會議系統300可呈現允許選擇特定談話(例如,主要談話332、次要談話334等)的可選列表或使用者介面。在一些情況下,談話的選擇可自動觸發針對所選談話產生的抄本或翻譯的呈現。對於正在進行的談話(例如,正在被即時轉錄或翻譯的談話),混合會議系統300可以自動呈現翻譯或抄本的最近產生的部分。在一些情況下,混合會議系統300最初可以呈現與正在進行的談話相關聯的翻譯或抄本,在翻譯或抄本開始時開始。
在一些實例中,混合會議系統300可包括列表或使用者介面,該列表或使用者介面包括用於與混合會議相關聯的一或多個所辨識的談話的複數個可選選項。例如,所選談話可以與至少一個抄本(例如,以所選談話的原始或本端語言)以及所選談話到不同語言的一或多個翻譯相關聯。在一些實例中,可以基於翻譯所選談話的抄本來產生翻譯。在一些情況下,可以直接從談話的音訊資料或語音內容產生翻譯(例如,在翻譯談話之前沒有首先轉錄談話的中間步驟)。在一些態樣,所選談話可以與複數個不同的翻譯相關聯,這些翻譯可以呈現在可選列表或介面中。在一些實例中,混合會議系統300可以自動產生到一或多個預定語言的翻譯。在一些情況下,混合會議系統300可以基於與會議參與者相關聯的單獨請求及/或單獨使用者偏好來產生翻譯。
在一些實例中,混合會議系統300可以呈現與當相關聯談話發生時被呈現的媒體或其他呈現材料同步的翻譯或轉錄。例如,混合會議系統300可以將與翻譯/轉錄相關聯的時間戳記和與來自混合會議的媒體或呈現材料相關聯的時間戳記進行匹配或關聯。在一些情況下,混合會議系統300可以將與翻譯/轉錄相關聯的時間戳記和與混合會議的視訊記錄相關聯的時間戳記進行匹配或關聯。在另一實例中,混合會議系統300可以將與翻譯/轉錄相關聯的時間戳記和與混合會議系統300所儲存或記錄的一或多個感測器資料輸出相關聯的一或多個時間戳記進行匹配或關聯。例如,混合會議系統300可以將談話的翻譯或轉錄與在談話期間呈現的某些幻燈片同步。
在一些實例中,混合會議系統300可以將與談話的翻譯/轉錄相關聯的時間戳記與在談話期間由參與者產生或呈現的動態內容(例如,在白板上繪製的內容)進行匹配或關聯。在一些情況下,混合會議系統300可以將談話翻譯/轉錄與白板的視訊饋送或視訊資料同步。在一些實例中,視訊饋送或視訊資料可被分析並自動轉錄(例如,其本文內容被提取並添加到抄本)或翻譯(例如,所提取的本文內容可從其本端或原始語言翻譯為會議參與者的使用者簡檔所指定的期望語言)。
在一些態樣,系統和技術可基於談話的本文或音訊來概括一或多個談話(例如,主要談話及/或一或多個次要談話)。例如,系統和技術可以產生概括該一或多個談話之每一者談話的概要(例如,描述、簡化、一組關鍵字等)。在一個說明性實例中,一或多個談話的概要可以是將談話提取為許多字或句子(例如,一個、兩個、三個等字或句子)的精華版本,其可以幫助一或多個使用者(例如,遠端使用者)高水平地理解談話的主題。
在一些情況下,系統和技術可以在產生談話的概要時對談話的本文及/或音訊執行關鍵字偵測。例如,若陳述短語「假日聚會」(以及在一些情況下,任何相關的術語/短語或同義詞,諸如「耶誕節聚會」)超過閾值次數(例如,絕對次數、相對於談話中的字數的百分比/相對次數等),則系統和技術可以使用短語「假日聚會」作為在概要中描述談話的關鍵字。
如前述,在一些情況下,可以在一或多個談話的概要中呈現多個關鍵字。在這種情況下,可以以任何合適的方式呈現各種關鍵字。例如,關鍵字可以與特定字被使用的次數的指示一起顯示(例如,假日聚會:7次,並購交易:5次,假期:4次等)。在另一實例中,可以基於使用量以增加的大小來顯示關鍵字。
在一些態樣,轉錄、概要及/或關鍵字可以是可搜尋的,諸如由遠端使用者搜尋。例如,遠端使用者可以利用該系統(例如,經由與圖形化使用者介面互動)來搜尋涉及短語「並購交易」或「M&A交易」的任何次要或側面談話。在一些情況下,使用者(例如,遠端使用者)可以利用該系統(例如,經由與圖形化使用者介面互動)來標記一或多個術語或短語,使得當所標記的術語或短語被陳述或以其他方式變得可用(例如,在該一或多個談話的轉錄中)時,該系統將輸出通知(例如,作為音訊輸出、觸覺輸出、所顯示的通知、經由突出顯示術語/短語等),以向使用者指示該術語/短語已被陳述。在這種情況下,使用者可以在接收到通知時決定收聽或重放/回顧談話。在一個說明性實例中,在會議的早期,使用者可以向圖形化使用者介面提供輸入以標記短語「M&A交易」,使得在會議中涉及該短語的任何談話將被突出顯示或以其他方式輸出作為使用者注意的通知。在一些情況下,使用者可以向圖形化使用者介面提供使系統靜音或濾除主要談話中的標記術語的輸入(例如,因為術語/短語可能導致太多的查詢結果或假定使用者照常聽得見)。
在一些情況下,遠端參與者介面380可以為每個可用的或可選的談話(例如,諸如可選主要談話選項382和可選次要談話選項384)提供特定資訊。例如,遠端參與者介面380可以顯示具有描述性姓名或標籤的可選談話選項,諸如「Tom Patterson(主講話者)的主要談話」、「Jane Smith與Bob Jones之間的次要談話1」、「Jane Williams與Susan Wallace之間的次要談話2」等。
在一些實例中,如前述,遠端參與者可以使用遠端參與者介面380來在可選主要談話選項382與可選次要談話選項384的所顯示的談話選項之間進行選擇。在一些情況下,所選談話可被自動決定並提供給遠端參與者(例如,基於地點110中或現場參與者112a-e之間的視覺或其他提示,使用者偏好,偵測到的字/短語等)。遠端參與者亦可以選擇優先考慮某些講話者(例如,主講話者、特定現場參與者或遠程參與者),使得當被優先考慮的講話者在偵測到的主要或次要談話中講話時,被優先考慮的講話者的談話優先並且被自動聚焦並經由遠端參與者介面380呈現給遠端參與者,而未被優先考慮的語音或談話被忽略、過濾或去加重。
如圖3所示,可選次要談話選項384可包括允許遠端參與者加入次要談話334的‘加入’選項396和允許遠端參與者查看與次要談話334相關聯的資訊的‘資訊’選項398。在一些實例中,次要談話‘加入’選項396可以與上述主要談話‘加入’選項392相同或相似。在一些實例中,次要談話‘資訊’選項398可以與上述主要談話‘資訊’選項394相同或相似。例如,次要談話‘加入’選項396可以向遠端參與者提供獲得次要談話的視聽資料的選項及/或使遠端參與者加入或參與所選次要談話的選項。在一些情況下,次要談話的視聽資料可以對應於由遠端參與者選擇的次要談話中的現場參與者中的至少一個的視點(POV)。例如,遠端參與者可以使用‘加入’選項396來獲得由參與所選次要談話的現場參與者中的一個所佩戴的智慧眼鏡擷取的次要談話的音訊饋送及/或視訊饋送。在一些實例中,可以回應於偵測到佩戴智慧眼鏡的現場參與者參加或正參與私人次要談話而使從現場參與者佩戴的智慧眼鏡獲得的音訊及/或視覺資料成為私人的,如下文將更深入地描述。
在一些實例中,混合會議系統300可以回應於接收到對於主要談話332而不是次要談話334的選擇性焦點選擇或者反之亦然(例如,回應於從遠端使用者接收到對可選主要談話選項382或可選次要談話選項384的選擇)而執行一或多個額外動作。例如,當遠端參與者使用遠端參與者介面380來選擇與可選次要談話選項384相關聯的‘加入’選項396時,混合會議系統300可以將該選擇解釋為來自遠端參與者的聚焦於次要談話334並忽略或去加重主要談話332的請求。在一個說明性實例中,可控制地點110中的一或多個定向麥克風以獲得(或更好地獲得)所請求的次要談話334的音訊資料。在一些情況下,定向麥克風可包括在麥克風126a-d中。在一些實例中,除了麥克風126a-d之外,亦可以提供定向麥克風。
回應於遠端參與者選擇與可選次要談話選項384相關聯的‘加入’選項396,混合會議系統300可以選擇及/或調整次要談話334的位置附近的麥克風,以便向遠端參與者提供次要談話334的最佳化音訊。在一個說明性實例中,混合會議系統300可以選擇被決定為更接近所選次要談話334的一或多個麥克風及/或可以根據需要改變麥克風的強度/靈敏度。例如,混合會議系統可以向遠端參與者提供使用麥克風126d獲得的次要談話334的音訊,麥克風126d是四個麥克風126a-d中最接近次要談話334的麥克風。
在一些實例中,混合會議系統300可以動態地使麥克風126a-d中的一或多個及/或包括在現場參與者112a-e的計算設備中的麥克風靜音和解除靜音。在一些情況下,可以使用與不參與次要談話334的現場參與者相關聯的計算設備及/或麥克風來獲得次要談話334的音訊。在一些實例中,混合會議系統300可回應於在地點110中偵測到的動態變化而在不同麥克風之間選擇以獲得次要談話334的音訊資料。例如,若次要談話334中的語音在自麥克風126d獲得的音訊資料中是弱的或壓低的,則混合會議系統300可以自動切換到包括在膝上型電腦104或智慧型電話102c上的麥克風。在一些情況下,混合會議系統300可以調整麥克風126d的靈敏度,或者對得自麥克風126d的音訊資料應用濾波器或其他後處理技術。
在一些實例中,混合會議系統可以向遠端參與者提供用於在不同麥克風或音訊源之間進行選擇以獲得次要談話334的音訊資料的選項(例如,用於在來自麥克風126d的音訊資料、來自膝上型電腦104的麥克風的音訊資料與來自智慧型電話102c的麥克風的音訊資料之間進行選擇的選項)。可基於地點110中存在的麥克風和計算設備的註冊資訊來自動決定用於次要談話334的可用音訊源。在一些情況下,可用音訊源可以基於次要談話334及/或對應現場參與者112c和112d的定位資訊來決定,對照可用音訊源的註冊資訊或定位資訊來分析。在一個說明性實例中,混合會議系統300可自動分析遠端參與者在遠端參與者介面380中所選擇的主要或次要談話的每個可用音訊源,並選擇被決定為提供所選談話的最高品質音訊表示的音訊源。例如,混合會議系統300可以分析次要談話334的每個可用的或潛在的音訊源,並且選擇具有最大音量的音訊源及/或可以選擇具有最大清晰度(例如,最小失真、背景雜訊等)的音訊源。
在一些實例中,混合會議系統300可以選擇或調整用於向遠端參與者提供次要談話334的視覺(或視聽)資料的一或多個攝像機。如前述,該一或多個攝像機可包括攝像機122a-d及/或在現場參與者計算設備102a-c和104上提供的攝像機。在一些情況下,混合會議系統300可以選擇或調整該一或多個攝像機以擷取視場,該視場包括與遠端參與者所選擇的談話相關聯的所有現場參與者。在圖3的實例的上下文中,混合會議系統300可以選擇或調整該一或多個攝像機以擷取包括現場參與者112c和現場參與者112d的視場。在一個說明性實例中,當遠端參與者選擇選擇性地聚焦於主要談話332時,混合會議系統可在主要談話332的當前講話者改變時在多個攝像機之間進行選擇或調整該多個攝像機。例如,當現場參與者112a正在主要談話332中講話時,可使用攝像機122c來向遠端參與者提供視訊資料,而若現場參與者112b在主要談話332中提出問題或以其他方式開始講話,則可使用攝像機122d。在一些情況下,面向現場參與者112b的膝上型電腦上的照相機(未圖示)可用於向遠端參與者提供現場參與者112b在主要談話332中講話時的最佳視訊資料。
在一些實例中,手勢或關鍵文書處理可用於辨識在主要談話332或次要談話334中作出的對某些物件(諸如白板)或地點110的實體空間內的其他位置的參考。基於所辨識的參考,混合會議系統300隨後可以自動地向所參考的物件或位置提供選擇性焦點。例如,站起來在白板上書寫的室內參與者可以使攝像機122a-d中的一個移動其視角或視場,及/或攝像機122a-d中不同的一個可被選擇來更好地觀看白板。在一些實例中,若一定數量或百分比的室內參與者112a-e(或一定數量或百分比的與特定談話相關聯的室內參與者)移動以面對新的位置或物件,則混合會議系統300可以自動控制攝像機122a-d中的一或多個以聚焦於新的位置或物件。
如前述,在一些實例中,本文所描述的系統和技術可用於偵測在混合會議中的現場參與者(諸如現場參與者112a-e)之間發生的主要和次要談話。在一些實例中,本文所描述的系統和技術亦可用於將偵測到的次要談話辨識為私人的或非私人的。在一些實例中,本文所描述的系統和技術可用於將次要談話辨識為從私人狀態轉變(或已轉變)到非私人狀態,反之亦然。被辨識為非私人的次要談話可以與混合會議的遠端參與者共享或可供混合會議的遠端參與者使用,例如如上面關於圖3的次要談話334所述。在一些實例中,至少部分地基於混合會議系統300將圖3的次要談話334辨識為非私人的,次要談話334可以與可選次要談話選項384相關聯,並且可經由遠端參與者介面38供遠端參與者使用。
圖4圖示實例混合會議系統400,在一些實例中,在次要談話334(先前被辨識為非私人的)已經轉變為被辨識為私人次要談話434之後,實例混合會議系統400可以與圖3的實例混合會議系統300相同。在一些實例中,基於由次要談話中的至少一個現場參與者執行的或以其他方式與次要談話中的至少一個現場參與者相關聯的一或多個偵測到的手勢及/或提示,次要談話可被辨識為私人的及/或已從私人狀態轉變到非私人狀態,反之亦然。偵測到的手勢及/或提示可以由當前揭示的混合會議系統400基於音訊資料、照相機資料、感測器資料或其任何組合中的一或多個來偵測。在一些實例中,偵測到的手勢及/或提示可包括次要談話中的參與者的身體位置或身體取向。例如,若次要談話參與者將他的面部或身體轉向為背對著主要談話的方向,或用他的手捂住他的嘴,則次要談話可被辨識為私人的。
在一些實例中,一或多個預定手勢或提示(例如,由現場參與者112a-e中的一或多個執行)可用於將次要談話辨識為具有私人狀態及/或從非私人狀態轉變為私人狀態。例如,預定手勢可包括但不限於次要談話參與者(例如,現場參與者及/或遠端參與者)將他的手或手掌舉起到照相機,使用他的手來捂住他的嘴等。在一些情況下,預定手勢可用作混合會議系統400的指示符,指示次要談話中的至少一個參與者自此以後需要隱私。在一些實例中,次要談話參與者可以使用預定口頭提示或口述短語及/或命令來指示他們希望自此以後對於次要談話進行隱私保護。例如,次要談話參與者可以說出諸如「這是私人的」、「私人模式」、「請保護隱私」等之類的短語,其中所說的短語是指示次要談話的期望私人狀態的預定短語。在一些實例中,混合會議系統400可包括允許次要談話參與者請求或將其次要談話設置為私人狀態或私人決定的一或多個使用者介面元素。例如,使用者介面元素可包括但不限於靜音按鈕、「私人」按鈕等。
在一些情況下,混合會議系統400可包括一或多個自動隱私觸發,其中自動隱私觸發的存在或偵測使混合會議系統400將次要談話自動辨識為私人的(例如,即使其他手勢及/或提示尚未指示應當將次要談話視為私人的)。例如,自動隱私觸發可包括會議參與者(例如,現場或遠端)在混合會議期間接聽他或她的電話。一旦偵測到參與次要談話的會議參與者開始在電話上講話(或者以其他方式偵測到會議參與者開始在電話上應答/講話的程序),混合會議系統可以自動地將給定會議參與者所參與的任何次要談話設置為私人狀態。在一些情況下,混合會議系統400可以自動排除包括會議參與者的電話撥叫的音訊及/或視覺資料,而以其他方式維持具有非私人(或部分非私人)狀態的次要談話。
在一個說明性實例中,由混合會議系統400用來將次要談話辨識為私人(及/或已經從私人狀態轉變到非私人狀態,反之亦然)的手勢或提示中的一或多個可以與如前述用於執行現場參與者112a-e之間的次要談話的初始偵測的手勢或提示相同或相似。例如,若偵測到的手勢或提示前進超過或以其他方式超過第一閾值,則該手勢或提示可用於將談話辨識為次要談話;若偵測到的同一手勢或提示前進超過或以其他方式超過大於第一閾值的第二閾值,則該手勢或提示可用於將次要談話辨識為私人的。在上述實例(其中偵測到的手勢或提示與遠離主要談話並朝向另一個現場參與者轉身的現場參與者相關聯)的上下文中,輕微或適度的轉身可以指示該現場參與者與次要談話相關聯,但是該次要談話保持為非私人的。若現場參與者繼續轉身,或者稍後實現高度的轉身,則混合會議系統400可以決定現場參與者改為與意欲是私人的次要談話相關聯。
在另一實例中,若現場參與者用他們的手部分地捂住他們的嘴,則混合會議系統400可以決定現場參與者與次要談話相關聯,但是次要談話是非私人的。若現場參與者完全捂住他們的嘴(或捂住他們的嘴超過某一第二閾值,諸如75%),則混合會議系統400可以改為決定現場參與者與意欲是私人的次要談話相關聯。
在一個說明性實例中,混合會議系統400可以決定次要談話334(先前被辨識為非私人的)在本質上已轉變為私人的。混合會議系統400因此可以將私人次要談話434辨識為發生於現場參與者112c與112d之間。如圖4所示,在將次要談話434辨識為私人談話時,混合會議系統400可以偵測至少部分地基於現場參與者112c與112d之間的距離或間隔的手勢或提示。例如,在一些情況下,混合會議系統400可以基於現場參與者112c與112d之間的距離或間隔低於與私人談話相關聯的閾值(例如,用於將次要談話辨識為私人的閾值可以用絕對術語來定義)來將次要談話434辨識為已經轉變到私人狀態。在一些情況下,基於現場參與者112c和112d之間的距離或間隔降到先前當這兩個現場參與者的談話被辨識為非私人次要談話334時在他們之間所建立的基線間隔距離(例如,用於將次要談話辨識為私人的閾值可以用相對術語來定義)以下或者以其他方式相對於該基線間隔距離改變,混合會議系統400可以將次要談話434辨識為已經轉變到私人狀態。
在一些情況下,由混合會議系統400用來將次要談話辨識為已經從私人狀態轉變到非私人狀態(反之亦然)的一或多個偵測到的手勢或提示可以根據與次要談話相關聯的一或多個音訊訊號來決定。例如,聽覺提示可包括但不限於偵測由次要談話中的現場參與者說出的一或多個關鍵字、由次要談話中的一或多個現場參與者使用的語言或語言變化、次要談話中的一或多個現場參與者的音量級或音量級變化等。在一些實例中,由混合會議系統400偵測到的聽覺提示可包括與次要談話中的至少一個現場參與者的語音相關聯的節奏及/或節奏變化。
在一個說明性實例中,基於決定與次要談話相關聯的至少一個偵測到的手勢或提示與先前分配給次要談話的私人狀態不一致,隨後可以將先前辨識的私人次要談話辨識為非私人次要談話。例如,在一些情況下,可以經由對照早期的手勢或提示(例如,早期的手勢或提示是觸發先前將次要談話辨識為私人的手勢或提示)分析隨後的手勢或提示來將次要談話辨識為已經從私人的轉變為非私人的。例如,若次要談話參與者傾斜並捂住她的嘴,則次要談話最初可被辨識為私人的。若隨後偵測到次要談話參與者不再傾斜及/或移開捂住她嘴的手,則這種動作可被辨識為與導致混合會議系統400將次要談話辨識為私人的早期手勢不一致。回應於偵測到與分配給次要談話的先前私人狀態不一致的手勢,混合會議系統400可以自動地將次要談話辨識(或重新辨識)為現在是非私人次要談話。
如圖4所示,當混合會議系統400將次要談話(諸如次要談話434)辨識為私人的時,混合會議系統400可以自動地靜音、過濾、忽略或移除由遠端參與者介面480提供的可選次要談話選項484的至少一部分。在一些實例中,混合會議系統400可以不提供已被辨識為私人的次要談話的視覺指示及/或使用者介面元素。在一些情況下,混合會議系統400可以為已被辨識為私人的次要談話提供簡化的一組互動選項。例如,可選次要談話選項484可以變灰或以其他方式與次要談話434的私人狀態的視覺指示相關聯。如圖所示,遠端參與者介面480可被配置為禁用或移除與私人次要談話434相關聯的‘加入’選項496(例如,防止遠端參與者使用遠端參與者介面480加入私人次要談話434、接收私人次要談話434的音訊或視覺資料等)。在一些情況下,即使在混合會議系統400將對應的次要談話434辨識為私人的之後,可選次要談話選項484仍可包括在遠端參與者介面480中。
在一些情況下,‘加入’選項496可以被禁用,而‘資訊’選項498保持啟動,例如防止遠端參與者收聽或觀看私人次要談話434的視聽資料,但是允許遠端參與者觀看諸如參與私人次要談話434的現場參與者112c和112d的身份之類的資訊。在一些情況下,私人次要談話434的資訊可包括在遠端參與者介面480中以向遠端參與者提供真實體驗。當私人次要談話434的資訊可用時,遠端參與者的體驗或感知可以與剩餘現場參與者112a、112b和112e的體驗或感知相同或相似。例如,剩餘的現場參與者112a、112b、112e仍然可以能夠在視覺上觀察到現場參與者112c和112d參與了私人次要談話434,即使剩餘的現場參與者無法聽到在私人次要談話434中說出的字。在一些實例中,混合會議系統400可被配置為使得回應於將次要談話434辨識為私人的而完全禁用可選次要談話選項484或將其從遠端參與者介面480完全移除。
圖5是示出在與遠端會議參與者512相關聯的計算設備502處應用於主要音訊訊號的背景雜訊移除程序的實例的方塊圖500。遠端參與者計算設備502可包括一或多個麥克風506或者以其他方式與一或多個麥克風506相關聯,該一或多個麥克風506可以用於偵測遠端會議參與者512的口語語音輸出(例如,遠端會議參與者512在參與混合或線上會議時說出的字)。在一些情況下,遠端參與者計算設備502可以與先前參考圖1-4中的一或多個描述的遠端參與者計算設備中的一或多個相同或相似。在一些實例中,遠端會議參與者可以與先前參考圖1-4描述的遠端參與者中的一或多個相同或相似。如圖5所示,由該一或多個麥克風506獲得的主要音訊訊號可包括遠端參與者512的口語語音輸出和部分偵測到的背景聲音兩者。部分偵測到的背景聲音可以表示不期望的背景雜訊,其可干擾或降低作為遠端參與者512對與混合會議會議服務540相關聯的混合會議的口頭貢獻而發送的主要音訊訊號的品質。
如將在下文更深入地解釋,圖5圖示其中由額外計算設備504輸出或以其他方式產生背景聲音的場景,額外計算設備504例如可以與遠端會議參與者512和主要計算設備502位於同一房間或位置(例如,在同一車輛內)。在一些實例中,額外計算設備504可以是與遠端會議參與者512相關聯的智慧型電話或其他個人計算設備。在一些情況下,額外計算設備504可包括(但不限於)由位於與遠端參與者計算設備502相關聯的該一或多個麥克風506的聽覺範圍內的親屬、室友等擁有或與該親屬、室友等相關聯的智慧型電話、膝上型電腦、桌上型電腦、平板電腦、遊戲系統、電視機、智慧揚聲器等。如前述,在一些實例中,額外計算設備504可以與遠端參與者計算設備502相關聯,但不與混合會議相關聯。
如圖5所示,額外計算設備504可向遠端參與者計算設備502提供由額外計算設備504正在產生(或將產生)的背景聲音的參考音訊資料。基於背景聲音的參考音訊資料,遠端參與者計算設備502可以從自該一或多個麥克風506獲得的主要音訊訊號中濾除或移除部分偵測到的背景聲音,從而產生可以被發送到網路化混合會議會議服務540的經過濾的主要音訊訊號。
在一些實例中,遠端會議參與者512可包括在以上在圖1-4的上下文中描述的遠端參與者中的一或多個中。在一些情況下,遠端會議參與者512可包括在圖1的遠端參與者172a-c中。在一些實例中,遠端參與者計算設備502及/或額外計算設備504可以與以上參考圖1-4所描述的現場參與者計算設備及/或遠端參與者計算設備中的一或多個相同或相似。如圖所示,圖5包括網路化會議服務540,其在一些實例中可以與以上參照圖1-4所描述的網路化混合會議會議服務140相同或相似。
在一個說明性實例中,背景雜訊消除可以在遠端參與者計算設備502的處理器處本端執行。在一些實例中,背景雜訊消除可以至少部分地在遠離計算設備502的伺服器或其他計算設備處執行。如圖5所示,額外計算設備504在與遠端參與者的計算設備502相關聯的該一或多個麥克風506的聽覺範圍內產生背景聲音輸出。例如,背景聲音輸出可以由額外計算設備504上提供的或與額外計算設備504相關聯的揚聲器或其他音訊輸出設備產生。在一些情況下,額外計算設備504可以是與遠端參與者512位於同一房間中的平板電腦或智慧型電話。在來自與遠端參與者計算設備502相關聯的該一或多個麥克風506的主要音訊訊號中至少部分地偵測到的背景雜訊輸出可包括由額外計算設備504播放的鈴聲或通知。在一些情況下,由額外計算設備504產生的背景雜訊輸出可包括與正在額外計算設備504上輸出的遊戲、電影或其他音訊及/或視聽內容相關聯的音樂或聲音效果。
在一些態樣,額外計算設備504可自動抑制被安排由額外計算設備504輸出的聲音及/或音訊中的一些或全部。例如,額外計算設備504可自動抑制被提供用於由與額外計算設備504相關聯的揚聲器輸出的聲音及/或音訊中的一些或全部。在一些情況下,額外計算設備504可基於額外計算設備504與遠端參與者計算設備502之間的關聯來執行自動聲音抑制。例如,額外計算設備504可以回應於遠端參與者計算設備502參加混合會議、回應於遠端參與者計算設備502的麥克風或照相機在混合會議期間被啟動等來執行自動聲音抑制。在一些情況下,額外計算設備504處的自動聲音抑制可以至少部分地基於遠端參與者計算設備502正被用於參加混合會議以及額外計算設備504位於遠端參與者計算設備502的預定範圍內的決定。在一些情況下,預定範圍可包括聽覺閾值(例如,由額外計算設備504輸出的聲音可以被與遠端參與者計算設備502相關聯的麥克風拾取的距離)。
由於額外計算設備504位於與遠端參與者的主要計算設備502相關聯的該一或多個麥克風506的聽覺範圍內,因此該一或多個麥克風506可以輸出主要音訊訊號,該主要音訊訊號包括遠端參與者512的口語語音以及由額外計算設備504產生的背景聲音輸出的至少部分偵測二者。
在一些實例中,可以採用自動及/或連續的方式在遠端參與者計算設備502與額外計算設備504之間執行發現。在一個說明性實例中,回應於在遠端參與者計算設備502處對混合會議進行初始化(例如,作為音訊初始化步驟的一部分,該音訊初始化步驟決定遠端參與者512周圍的或以其他方式與其相關聯的音訊環境及/或與遠端參與者計算設備502相關聯的該一或多個麥克風506的一或多個特徵),可以在遠端參與者計算設備502與額外計算設備504之間執行發現。在另一說明性實例中,回應於在由該一或多個麥克風506擷取並提供給遠端參與者計算設備502及/或網路化混合會議會議服務540的主要音訊訊號中偵測到背景雜訊,可以在遠端參與者計算設備502與額外計算設備504之間執行發現。在一些實例中,遠端參與者計算設備502與額外計算設備504之間的發現可以由網路化會議服務540觸發或以其他方式介導(mediated),網路化會議服務540可以與遠端參與者計算設備502和額外計算設備504中的一或多個通訊。
發現程序可用於在遠端參與者計算設備502與額外計算設備504之間建立通訊通信期或鏈路(例如,在圖5中表示為計算設備502與504之間的虛線)。在一些實例中,一旦建立,額外計算設備504就可以使用通訊通信期或鏈路來向遠端參與者計算設備502提供正在由額外計算設備504輸出或即將由額外計算設備504輸出的任何聲音的參考音訊資料(例如,在圖5中表示為‘背景聲音的參考音訊資料’)。例如,由遠端參與者計算設備502接收的參考音訊資料可包括亦由額外計算設備504的揚聲器正在輸出的音訊資料檔案的副本或指示。基於所接收的音訊資料檔案或從額外計算設備502接收的其他參考音訊資料,遠端參與者計算設備502可以從主要音訊訊號中濾除或移除由額外計算設備502產生的背景聲音輸出的表示或部分偵測。
在一些實例中,遠端參與者計算設備502可以使用(從額外計算設備504接收的)背景聲音的參考音訊資料來主動地辨識和濾除包括在使用該一或多個麥克風506獲得的主要音訊訊號中的相同背景聲音輸出的表示。在一些實例中,包括在主要音訊訊號中的背景聲音輸出的表示可被辨識並濾除到背景聲音輸出的表示被包括在主要音訊訊號中的程度。例如,基於額外計算設備504(背景聲音輸出的源)與該一或多個麥克風506(其接收背景聲音輸出)之間的距離,可在由該一或多個麥克風輸出的主要音訊訊號中僅部分地偵測或部分地表示背景聲音輸出。
在一個說明性實例中,遠端參與者計算設備502可包括及/或應用一或多個自我調整濾波器,以從自該一或多個麥克風506得到的主要音訊訊號中移除部分偵測到的背景聲音輸出。該一或多個自我調整濾波器可以從主要音訊訊號中移除部分偵測到的背景聲音輸出,使得只有遠端參與者的語音輸出的本端偵測到的聲音保留在所得到的經過濾的主要音訊訊號中。如前述,可以由遠端參與者計算設備502使用從額外計算設備504接收的背景聲音的對應參考音訊資料來執行背景聲音或雜訊過濾。在一些實例中,背景聲音或雜訊過濾可以至少部分地由遠離遠端參與者計算設備502但經由網路550通訊地耦合的一或多個伺服器或雲計算設備來執行。
儘管圖5僅圖示單個遠端參與者計算設備502和單個額外計算設備504,但是在一些實例中,上述背景雜訊過濾和消除可以擴展到具有多個額外計算設備的共享聲學空間,每個額外計算設備充當背景聲音輸出的源。在一個說明性實例中,可以由遠端參與者計算設備502執行發現以偵測位於該一或多個麥克風506的聽覺範圍內的一或多個額外計算設備,並且可以為遠端參與者計算設備502和額外計算設備504中的一者的每個組合形成如前述的類似的背景雜訊消除配置。
圖6是示出在計算設備602處應用於主要音訊訊號的背景雜訊移除程序的實例的方塊圖600,計算設備602與經由網路650參與由混合會議會議服務640提供的會議的遠端會議參與者612相關聯。在一些實例中,計算設備602及/或遠端會議參與者612中的一或多個可以與以上參考圖5所描述的計算設備502和遠端會議參與者512相同或相似。如圖所示,遠端參與者計算設備602可包括一或多個麥克風606a或以其他方式與一或多個麥克風606a相關聯,該一或多個麥克風606a在一些情況下可以與該一或多個麥克風506相同(例如,用於偵測遠端參與者的口語語音輸出,該口語語音輸出隨後可以被提供給混合會議)。
如圖6所示,由該一或多個麥克風606a獲得的主要音訊訊號可包括遠端參與者612的口語語音輸出和部分偵測到的背景聲音兩者。儘管圖5圖示其中由額外設備504產生背景聲音輸出的場景,但是圖6圖示其中由與額外計算設備604分離及/或不同的背景聲源630產生背景聲音輸出的場景。在一些實例中,額外計算設備604可以與參考圖5所描述的額外計算設備504相同或相似。
例如,額外計算設備604可以與遠端會議參與者612和主要計算設備602位於同一房間或聽覺環境中。在一些實例中,額外計算設備604可以是與遠端會議參與者612相關聯的智慧型電話或其他個人計算設備。在一些情況下,額外計算設備604可以是由位於與遠端參與者計算設備602相關聯的該一或多個麥克風606a的聽覺範圍內的親屬、室友等擁有或與該親屬、室友等相關聯的智慧型電話、膝上型電腦、桌上型電腦、平板電腦、遊戲系統、電視機等。
類似於以上關於圖5的額外計算設備504所述,圖6的額外計算設備604可以向遠端參與者計算設備602提供背景聲音的參考音訊資料。遠端參與者計算設備602隨後可以使用背景聲音的參考音訊資料(如從額外計算設備604接收到的)來濾除包括在主要音訊訊號中(由與遠端參與者計算設備602相關聯的該一或多個麥克風606a獲得)的相同的部分偵測到的背景聲音的表示。如圖所示,遠端參與者計算設備602可以經由濾除包括在主要音訊訊號中的部分偵測到的背景聲音來產生經過濾的主要音訊訊號。經過濾的主要音訊訊號隨後可以被發送到網路化混合會議會議服務,其可以與網路化混合會議會議服務140及/或540相同,如前述。
在圖6的上下文中,額外計算設備604可包括一或多個麥克風606b或者以其他方式與一或多個麥克風606b相關聯,該一或多個麥克風606b用於偵測由背景聲源630產生的背景聲音輸出。在一些實例中,額外計算設備604可以是智慧型電話或其他個人計算設備或行動計算裝置,並且該一或多個麥克風606b可包括在額外計算設備604中。
在一些實例中,基於遠端參與者計算設備602、額外計算設備604與背景聲源630之間的聽覺範圍或聽覺接近度,可以由該一或多個麥克風606a和該一或多個麥克風606b來偵測由背景聲源630產生的背景聲音輸出。與遠端參與者計算設備602相關聯的該一或多個麥克風606a所獲得的主要音訊訊號可包括遠端參與者612的口語語音輸出和由背景聲源630產生的背景聲音輸出的至少部分偵測。與背景聲音的參考音訊資料的部分相匹配或以其他方式作為背景聲音的參考音訊資料的類似部分的主要音訊訊號的部分可能表示背景雜訊,並且可以從主要音訊訊號中濾除或移除。如關於參照圖5所論述的背景雜訊過濾程序所述的,在一些實例中,從額外設備604接收的背景聲音的參考音訊資料可用於在本端(例如,在處理器遠端參與者計算設備602處或由處理器遠端參與者計算設備602)對主要音訊訊號進行過濾。在一些實例中,從額外設備604接收的背景聲音的參考音訊資料可用於遠端地(例如,在遠離遠端參與者計算設備602的伺服器或雲計算設備處)對主要音訊訊號進行過濾。
在一些情況下,本文所描述的背景聲音過濾或移除可以至少部分地基於從額外計算設備604接收的參考音訊資料的最響亮部分。例如,在與額外計算設備604相關聯的該一或多個麥克風606b處偵測到的背景聲音可大於在與遠端參與者計算設備604相關聯的該一或多個麥克風606a處偵測到的背景聲音(例如,因為額外計算設備可能比遠端參與者的計算設備更接近背景聲音的源)。在一些實例中,背景聲音的參考音訊資料的最響亮部分可以從自該一或多個麥克風606a獲得的主要音訊訊號中濾除或移除。在一些情況下,背景聲音的參考音訊資料的超過預定響度閾值的部分可以從自該一或多個麥克風606a獲得的主要音訊訊號中濾除或移除。在一些實例中,遠端參與者計算設備602包括及/或應用一或多個自我調整濾波器,以濾除或移除在自該一或多個麥克風606a獲得的主要音訊訊號中偵測到或包括的背景聲音輸出的表示(例如,如以上關於圖5所述)。
圖7是示出處理音訊資料的程序700的實例的流程圖。儘管實例程序700圖示了特定的操作順序,但是在不脫離本案的範疇的情況下可以改變該順序。例如,所圖示的一些操作可以並行或以實質上不影響程序700的功能的不同順序來執行。在一些實例中,實現程序700的實例設備或系統的不同部件可以基本上同時或以特定循序執行功能。
在方塊702處,程序700包括偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料。在一些實例中,偵測第一音訊資料可包括偵測混合會議的複數個現場參與者中的兩個或兩個以上現場參與者之間的次要談話。例如,分別在圖1、圖2、圖3和圖4中示出的混合會議系統100、200、300和400中的該一或多個可以偵測群通訊通信期(例如,混合會議)的兩個或兩個以上現場參與者之間的第一音訊資料。在一些實例中,圖1-4所示的混合會議會議服務140可用於偵測群通訊通信期的該兩個或兩個以上現場參與者之間的第一音訊資料。
在一些實例中,程序700亦可包括偵測包括群通訊通信期的第一現場參與者的主要談話。在一些情況下,包括在主要談話中的第一現場參與者可以不同於包括在第一音訊資料(例如,次要談話)中的該兩個或兩個以上現場參與者。在一些實例中,第一音訊資料可被偵測為包括群通訊通信期(例如,混合會議)中的至少一個遠端參與者的次要談話。在一個說明性實例中,第一音訊資料可被偵測為次要談話,其中在該至少一個遠端參與者的位置處偵測到次要談話。例如,偵測第一音訊資料可包括偵測第一遠端參與者與第二遠端參與者之間的次要談話,其中第一與第二遠端參與者位於同一位置(例如,位於同一房間、位置等)。在一些情況下,第一音訊資料可被偵測為群通訊通信期的至少一個遠端參與者與未參與、參加群通訊通信期或以其他方式與群通訊通信期相關聯的個人之間的次要談話。例如,可以偵測遠端參與者與他或她的子代或配偶之間的次要談話。
在方塊704處,程序700包括基於與第一音訊資料相關聯的一或多個提示來將第一音訊資料辨識為私人的。例如,分別在圖1-4中示出的混合會議系統100-400中的一或多個及/或圖1-4中示出的混合會議會議服務140可用於基於一或多個提示而將第一音訊資料辨識為私人的。在一些實例中,與第一音訊資料相關聯的該一或多個提示可基於以下中的一或多個:關鍵字偵測、對自與群通訊通信期相關聯的一或多個麥克風獲得的音訊訊號的分析、群通訊通信期的一或多個參與者的姿勢、群通訊通信期的一或多個參與者的一或多個手勢及/或群通訊通信期的一或多個參與者的一或多個移動。在一些實例中,程序700可進一步包括輸出主要談話的音訊以及基於將第一音訊資料辨識為私人的來排除第一音訊資料被輸出。例如,圖4所示的遠端參與者介面480可用於使用可選主要談話選項382來輸出主要談話332的音訊。在一些實例中,圖4所示的遠端參與者介面480可用於例如經由禁用或移除與可選次要談話選項484相關聯的‘加入’選項496來排除私人次要談話434的音訊(例如,第一音訊資料)被輸出。
在方塊706處,程序700包括辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中第二音訊資料基於與第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示。在一些情況下,辨識第二音訊資料可包括基於與次要談話相關聯的一或多個額外提示而將次要談話辨識為轉變到非私人狀態,其中該一或多個額外提示不同於該一或多個提示。在一個說明性實例中,分別在圖1-4中示出的混合會議系統100-400中的一或多個及/或圖1-4中示出的混合會議會議服務140可用於基於與第二音訊資料相關聯的該一或多個額外提示來將第二音訊資料辨識為非私人的。在一些實例中,與第二音訊資料相關聯的該一或多個額外提示不同於與第一音訊資料相關聯的該一或多個提示。
在一些實例中,與第二音訊資料相關聯的該一或多個額外提示和與第一音訊資料相關聯的該一或多個提示不一致,其中該一或多個提示先前被用於將第一音訊資料辨識為私人的。在一些實例中,可以基於從該一或多個提示及/或該一或多個額外提示決定的非隱私指示來將次要談話(例如,至少包括第一音訊資料)辨識為轉變為非私人的。在一些實例中,可以基於從該一或多個提示及/或該一或多個額外提示決定的隱私指示來將次要談話辨識為轉變為私人的。
在方塊708處,程序700包括基於將第二音訊資料辨識為非私人的來輸出第二音訊資料。例如,分別在圖1-4中示出的混合會議系統100-400中的一或多個及/或圖1-4中示出的混合會議會議服務140可以用於將第二音訊資料辨識為非私人的。在一些實例中,所輸出的第二音訊資料包括在將第二音訊資料辨識為非私人的之後獲得的次要談話的音訊。在一些實例中,第一音訊資料和第二音訊資料可以是同一個次要談話的一部分。在一些實例中,輸出第二音訊資料包括提供用於主要談話的第一可選選項和用於次要談話的至少一部分的第二可選選項,其中對於同一群通訊通信期偵測主要談話和次要談話。在一些實例中,輸出第二音訊資料包括將第二音訊資料與主要談話的音訊合併。
圖8是示出處理音訊資料的程序800的實例的流程圖。儘管實例程序800圖示了特定的操作順序,但是在不脫離本案的範疇的情況下可以改變該順序。例如,所圖示的一些操作可以並行或以實質上不影響程序800的功能的不同順序來執行。在一些實例中,實現程序800的實例設備或系統的不同部件可以基本上同時或以特定循序執行功能。
在方塊802處,該程序包括從使用者計算設備獲得主要音訊訊號。在一些實例中,可以使用與使用者計算設備相關聯的一或多個麥克風來獲得主要音訊訊號。例如,可以從與圖5所示的遠端參與者計算設備502相關聯的該一或多個麥克風506獲得主要音訊訊號。在一些實例中,可以從與圖6所示的遠端參與者計算設備602相關聯的該一或多個麥克風606a獲得主要音訊訊號。在一些實例中,主要音訊訊號可包括諸如圖5所示的遠端參與者512及/或圖6所示的遠程參與者612之類的遠端參與者的口語語音輸出。在一些實例中,主要音訊訊號亦可包括部分偵測到的背景聲音輸出。
在方塊804處,程序800包括在使用者計算設備的聽覺範圍內從額外計算設備獲得第一音訊資料。在一些實例中,第一音訊資料可以由使用者計算設備從額外計算設備獲得。在一些實例中,第一音訊資料可包括背景聲音的參考音訊資料。在一些實例中,第一音訊資料可以從諸如圖5所示的額外計算設備504及/或圖6所示的額外計算設備604之類的額外計算設備獲得。例如,額外計算設備可包括智慧型電話、膝上型電腦、桌上型電腦、膝上型電腦、遊戲系統或設備等。可以決定第一聽覺範圍,使得由額外設備產生的背景聲音輸出可由與使用者計算設備相關聯的該一或多個麥克風至少部分地偵測(例如,如圖5所示)。在一些實例中,可以決定第一聽覺範圍,使得由單獨背景聲源(諸如圖6所示的背景聲源630)產生的背景聲音輸出可由與使用者計算設備602相關聯的該一或多個麥克風606a偵測到並且可由與額外計算設備604相關聯的該一或多個麥克風606b偵測到(例如,如圖6所示)。
在一些實例中,使用者計算設備可以在第一音訊資料被用於在額外計算設備處產生音訊輸出之前接收第一音訊資料。例如,圖5所示的使用者計算設備502可以在第一音訊資料被用於在額外設備504處產生背景聲音輸出之前接收第一音訊資料(作為背景聲音的參考音訊資料),同樣如圖5所示。在一些實例中,第一音訊資料包括由與額外計算設備相關聯的一或多個麥克風偵測到的第一背景聲音。例如,第一音訊資料可包括由與額外計算設備604相關聯的該一或多個麥克風606b偵測到的第一背景聲音輸出的參考音訊資料,如圖6所示。
在方塊806處,程序800包括對主要音訊訊號進行過濾以產生經過濾的主要音訊訊號,其中過濾包括從主要音訊訊號中移除第一音訊資料的表示。例如,圖5所示的遠端參與者計算設備502及/或圖6所示的遠端參與者計算設備602中的一或多個可用於對主要音訊訊號進行過濾以產生經過濾的主要音訊訊號。在一些實例中,第一音訊資料的表示可包括在主要音訊訊號中。在一些實例中,第一音訊資料的表示包括由與使用者計算設備相關聯的該一或多個麥克風偵測到的在額外計算設備處產生的音訊輸出。例如,第一音訊資料的表示可包括用於在額外設備504處產生背景聲音輸出的音訊資料檔案,如圖5所示。在一些實例中,在額外計算設備504處產生的音訊輸出的表示可以由與主要計算設備502相關聯的該一或多個麥克風506來偵測,如圖5所示。在一些實例中,第一音訊資料的表示包括由與使用者計算設備602相關聯的該一或多個麥克風606a偵測到的由背景聲源630產生的第一背景聲音輸出的至少部分偵測,如圖6所示。
在方塊808處,程序800包括將經過濾的主要音訊訊號輸出到基於網路的會議。例如,圖5所示的遠端參與者計算設備502及/或圖6所示的遠端參與者計算設備602中的一或多個可以向基於網路的會議輸出經過濾的主要音訊訊號。在一些實例中,基於網路的會議可以是混合會議。混合會議可以分別由圖5和圖6所示的網路化混合會議會議服務540及/或640提供。在一些實例中,混合會議可以分別由圖1-4所示的混合會議系統100-400中的一或多個及/或由圖1-4所示的混合會議會議服務140來提供 。
在一些實例中,程序800亦包括經由使用第二音訊訊號及/或背景聲音的參考音訊資料來至少部分地對主要音訊訊號進行過濾,以衰減在主要音訊訊號中偵測到的背景聲音的表示。例如,參考音訊資料可包括由額外計算設備504發送到遠端參與者計算設備502的背景聲音的參考音訊資料,如圖5所示,及/或可包括由額外計算設備604發送到遠端參與者計算設備602的背景聲音的參考音訊資料,如圖6所示。在一些實例中,衰減在主要音訊訊號中偵測到的第二音訊訊號的表示包括將縮放因數應用於第二音訊訊號以產生經縮放的第二音訊訊號,以及從主要音訊訊號中減去經縮放的第二音訊訊號。在一些實例中,衰減在主要音訊訊號中偵測到的第二音訊訊號的表示包括辨識第二音訊訊號的幅度大於預定閾值的一或多個部分。在一些實例中,第二音訊訊號的幅度可以是第二音訊訊號的響度。在一些實例中,可以從主要音訊訊號中減去第二音訊訊號的所辨識的部分中的一或多個,以產生由圖5所示的遠端參與者計算設備502及/或圖6所示的遠端參與者計算設備602中的一或多個輸出的經過濾的主要音訊訊號。
在一些實例中,本文所描述的程序(例如,程序700、程序800及/或本文所描述的其他程序)可以由計算設備或裝置來執行。在一個實例中,程序中的一或多個可以分別由圖1、圖2、圖3和圖4所示的混合會議系統100、200、300和400來執行。在另一實例中,程序中的一或多個可由圖9所示的計算設備900執行。在另一實例中,程序中的一或多個可由圖10所示的計算系統1000執行。例如,具有圖10所示的計算系統1000的計算設備可包括混合會議系統100-400的部件,並且可以實現圖7的程序700的操作、圖8的程序800的操作及/或本文所描述的其他程序。
計算設備可包括任何合適的設備,諸如車輛或車輛的計算設備(例如,車輛的駕駛員監測系統(DMS))、行動設備(例如,行動電話)、臺式計算設備、平板計算設備、可佩戴設備(例如、VR頭戴式耳機、AR頭戴式耳機、AR眼鏡、網路連接的手錶或智慧手錶、或其他可佩戴設備)、伺服器電腦、機器人設備、電視機及/或具有執行本文所述程序(包括程序700、程序800及/或本文所描述的其他程序)的資源能力的任何其他計算設備。在一些情況下,計算設備或裝置可包括各種部件,諸如一或多個輸入設備、一或多個輸出設備、一或多個處理器、一或多個微處理器、一或多個微型電腦、一或多個照相機、一或多個感測器及/或被配置為執行本文所述程序的步驟的其他部件。在一些實例中,計算設備可包括顯示器、被配置為傳送及/或接收資料的網路介面、其任何組合、及/或其他部件。網路介面可被配置為傳送及/或接收基於網際網路協定(IP)的資料或其他類型的資料。
計算設備的部件可以在電路中實現。例如,部件可包括電子電路或其他電子硬體及/或可使用電子電路或其他電子硬體來實現,及/或可包括電腦軟體、韌體或其任何組合及/或可使用電腦軟體、韌體或其任何組合來實現,以執行本文所描述的各種操作,該電子電路或其他電子硬體可包括一或多個可程式設計電子電路(例如,微處理器、圖形處理單元(GPU)、數位訊號處理器(DSP)、中央處理單元(CPU)及/或其他合適的電子電路)。
程序700和程序800被顯示為邏輯流程圖,其動作表示可在硬體、電腦指令或其組合中實現的一系列操作。在電腦指令的上下文中,動作表示儲存在一或多個電腦可讀取儲存媒體上的電腦可執行指令,這些電腦可執行指令在由一或多個處理器執行時執行該操作。通常,電腦可執行指令包括執行特定功能或實現特定資料類型的常式、程式、物件、部件、資料結構等。描述操作的順序並非意欲被解釋為限制,並且可以以任何順序及/或並行地組合任何數量的所描述的操作來實現這些程序。
另外,本文所描述的程序700、程序800及/或其他程序可以在配置有可執行指令的一或多個電腦系統的控制下執行,並且可以由硬體實現為在一或多個處理器上共同執行的代碼(例如,可執行指令、一或多個電腦程式、或一或多個應用程式),或其組合。如前述,代碼可以例如以包括可由一或多個處理器執行的複數個指令的電腦程式的形式儲存在電腦可讀或機器可讀儲存媒體上。電腦可讀或機器可讀儲存媒體可以是非暫時性的。
圖9是示出可用於提供當前描述的混合會議系統和技術的一或多個態樣的計算設備900的實例架構的方塊圖。在一些實例中,計算設備900可以表示如前述的與現場參與者112a-e相關聯的計算設備102a-102c和104中的一或多個,及/或可以表示亦如前述的與遠端參與者172a-c相關聯的計算設備162a、162b、164a和164c中的一或多個。在一些實例中,計算設備900可以表示與地點110相關聯的一或多個計算設備,或者以其他方式用於提供如本文所述的混合會議及/或混合會議系統。在一些情況下,計算設備900可以表示與實例混合會議系統100、200、300、400相關聯的一或多個計算設備或其一或多個部件或部分。在一些情況下,計算設備900可以表示計算設備502、504、602和604中的一或多個。
計算設備900可包括各種個人計算設備及/或行動計算裝置。例如,計算設備900可包括智慧型電話、智慧可佩戴設備(例如,智慧手錶、智慧耳塞)、擴展現實(XR)系統或設備(例如,智慧眼鏡、頭戴式顯示器(HMD)等)、虛擬實境(VR)系統或設備、增強現實(AR)系統或設備、智慧電視機、遊戲系統、平板電腦、膝上型電腦、桌上型電腦、IP電話、臺式電話、IoT設備等。
在圖9所示的實例中,計算設備900可包括一或多個通訊部件902、一或多個計算部件904、一或多個輸入設備906、一或多個輸出設備908、一或多個感測器910、記憶體912、談話監測系統950、語音處理系統960、NLP分析和關鍵字偵測系統962、主動講話者偵測系統964、視覺處理系統970、手勢偵測系統972、主動講話者偵測系統974、及/或參與者定位和偵測系統976。
儘管計算設備900被顯示為包括某些部件,但是本發明所屬領域中具有通常知識者將理解,計算設備900可包括比圖9所示的部件更多或更少的(及/或不同的)部件。例如,在一些情況下,計算設備900可包括一或多個存放裝置(例如,RAM、ROM、快取記憶體等)、一或多個照相機、及/或圖9中未圖示的任何其他硬體或處理設備。以下參考圖10描述了可以用計算設備900實現的計算設備和硬體部件的說明性實例。
在一些實例中,該一或多個通訊部件902可包括用於在蜂巢網路上通訊的蜂巢天線、用於在無線區域網路(WLAN)上通訊的WiFi天線、用於將計算設備900連接到資料網路(例如,有線及/或無線網路)的網路介面、及/或用於將計算設備900連接到電話陸上線路的介面部件。在一些情況下,該一或多個通訊部件902亦可包括其他天線或通訊介面,諸如例如藍芽天線、GPS天線及/或用於發送及/或接收有線及/或無線訊號的任何其他合適的硬體部件。計算設備900可以使用該一或多個通訊部件902來建立和參與混合會議。計算設備900亦可以使用該一或多個通訊部件902來發送資料和從其他設備接收資料。
該一或多個計算部件904可包括中央處理單元(CPU)、圖形處理單元(GPU)、數位訊號處理器(DSP)、影像訊號處理器(ISP)、特殊應用積體電路(ASIC)、控制器設備及/或任何其他處理設備。該一或多個計算部件902可以執行各種操作,並且可以管理/控制計算設備900上的其他部件,包括該一或多個通訊部件902、該一或多個輸入設備906、該一或多個輸出設備908、該一或多個感測器910和記憶體912。此外,計算部件904可以實現談話監測系統950、語音處理系統960、NLP分析和關鍵字偵測系統962、主動講話者偵測系統964、視覺處理系統970、手勢偵測系統972、主動講話者偵測系統974及/或參與者定位和偵測系統976中的一或多個。在一些實例中,計算部件904亦可以實現一或多個其他處理引擎。
該一或多個輸入設備906可包括小鍵盤、觸控式螢幕、麥克風、影像感測器、控制器、鍵盤、定點設備及/或能夠以任何輸入形式(例如,機械運動、音訊、視覺等)接收使用者輸入的任何其他輸入設備。使用者可以使用該一或多個輸入設備906來管理混合會議或與混合會議互動或以其他方式參與混合會議,與計算設備900互動,提供輸入,以及啟動及/或管理一或多個特徵及/或控制,諸如保持監測特徵、靜音功能、記錄功能、音量控制、混合會議設置、撥叫設置等。
該一或多個輸出設備908可包括揚聲器。在一些實例中,該一或多個輸出設備908亦可包括能夠輸出資料的顯示器及/或部件。例如,在一些情況下,該一或多個輸出設備908可包括能夠顯示內容和接收使用者輸入的觸控式螢幕。
該一或多個感測器910可包括例如慣性量測單元(IMU)、影像感測器(例如,照相機感測器)、加速度計、陀螺儀、磁力計、高度計、傾斜感測器、運動偵測感測器、光感測器、音訊感測器、光偵測和測距(LIDAR)設備、接近度感測器、方位感測器及/或任何其他感測器。該一或多個感測器910可用於偵測物件、偵測物件的位置、偵測一或多個條件(例如,光、運動等)、擷取資料(例如,影像資料、音訊等)、量測物件或環境的一或多個特徵(例如,取向、形狀、大小、狀態等)、收集特定類型的量測等。
記憶體912可以是用於儲存諸如影像資料、檔、軟體、視訊、本文資料、訊息、設備/部件簡檔、使用者簡檔、音訊簡檔、設置、使用者輸入、網路資料等之類的資料的任何存放裝置。此外,記憶體912可以儲存來自計算設備900的任何部件的資料。例如,記憶體912可以儲存來自該一或多個通訊部件902、該一或多個計算部件904、該一或多個輸入設備906、該一或多個輸出設備908、該一或多個感測器910、談話監測系統950、語音處理系統960、NLP分析和關鍵字偵測系統962、主動講話者偵測系統964、視覺處理系統970、手勢偵測系統972、主動講話者偵測系統974、及/或參與者定位和偵測系統976的資料。
在一些實例中,語音處理系統960可包括自動語音辨識引擎,其可以分析語音輸入並辨識語音輸入中的語音及/或語音的語義。在一些情況下,自動語音辨識引擎可以實現一或多個語法來辨識語音話語。該一或多個語法可以特定於一個語音域或者可以覆蓋多個語音域。例如,自動語音辨識引擎可以實現特定於口語、方言、用例場景(例如,商業組織、教育設置、個人或娛樂設置等)的語法。
在一些情況下,語音處理系統960可實現特徵正規化或自我調整演算法以解決講話者及/或聲學可變性。例如,聲學可變性在移動環境與辦公室環境中可以不同,在辦公室環境中背景雜訊可以被更好地控制和最小化。因此,語音處理系統960可實現特徵正規化或自我調整以解決某些域中的聲學可變性。
在一些實例中,語音處理系統960可實現口語對話引擎。口語對話引擎可意欲辨識以自然語言表達的使用者意圖,並基於所辨識的意圖來採取特定動作。這種自然語言口語對話引擎可包括先前描述的自動語音辨識引擎,以及諸如口語理解引擎、對話管理引擎、合成引擎等之類的其他部件。
口語理解引擎可以使用自然語言理解模型來分析語音輸入中的字以從語音輸入中匯出含義。對話管理引擎可以採用自然的方式與使用者互動,並幫助使用者實現某些任務。例如,對話管理引擎可以從口語理解引擎接收語音輸入的含義,並決定諸如例如向使用者提供提示或回應之類的動作。合成引擎可以是任何類型的語音輸出引擎。例如,合成引擎可以是選擇預先錄製的語音段並將該預先錄製的語音段輸出給使用者的引擎。
這樣,語音處理系統960及/或由語音處理系統960實現的口語對話引擎可以辨識語音輸入(諸如語音話語),辨識(或理解)語音的含義,並決定對語音輸入的回應,該回應可以被輸出給使用者。以這種方式,使用者可以與計算設備900及/或當前描述的混合會議系統進行自然語言對話。例如,使用者可以向計算設備900提供語音命令,諸如語音命令,語音處理系統960可以辨識並使用該語音命令來回應該語音命令,向使用者提供提示或語音輸出(例如,確認、訊息、通知等),及/或與使用者進行自然語言對話。
如前述,語音處理系統960可以實現關鍵字偵測系統962,用於偵測在混合會議的環境中(例如,在主要談話及/或次要談話中)說出的某些關鍵字。如前述,關鍵字偵測系統962可以針對任何預定義關鍵字連續地監測混合會議和相關聯的談話。因此,關鍵字偵測系統962可以維持這種關鍵字的語法,以偵測在混合會議或相關聯談話中發出/發送這種關鍵字的任何時間。語音處理系統960亦可以實現主動講話者偵測系統964以偵測語音轉變。語音轉變可包括從第一語音/語音到靜音的轉變、從第一語音/語音到第二語音/語音的轉變、從第二語音/語音到靜音的轉變,反之亦然。
在一些情況下,主動講話者偵測系統964可以學習及/或保存一或多個使用者或混合會議參與者的語音特徵。例如,若與計算設備900相關聯的使用者參與先前的混合會議或在先前的混合會議中講話,則主動講話者偵測系統964可以在先前的混合會議期間擷取及/或學習混合會議參與者的語音的特徵。當混合會議參與者在稍後進行的混合會議中出席或講話時,主動講話者偵測系統964可監測混合會議及/或一或多個相關聯的談話,並檢查任何通訊/資料是否與混合會議參與者的先前保存的語音特徵相匹配。若主動講話者偵測系統964偵測到與混合會議參與者的先前保存的語音特徵相匹配,則主動講話者偵測系統964可以偵測並辨識混合會議參與者存在於當前混合會議的一或多個談話中。
圖10是示出用於實現本技術的某些態樣的系統的實例的示圖。具體地,圖10圖示計算系統1000的實例,其可以是例如構成內部計算系統、遠端計算系統、照相機或其任何部件的任何計算設備,其中系統的部件使用連接1005彼此通訊。連接1005可以是使用匯流排的實體連接,或到處理器1010中的直接連接,諸如在晶片組架構中。連接1005亦可以是虛擬連接,網路化連接或邏輯連接。
在一些實施例中,計算系統1000是分散式系統,其中本案中所描述的功能可以分佈在資料中心、多個資料中心、對等網路等內。在一些實施例中,所描述的系統部件中的一或多個表示許多此類部件,每個部件執行描述該部件所針對的功能中的一些或全部。在一些實施例中,部件可以是實體或虛擬裝置。
實例系統1000包括至少一個處理單元(CPU或處理器)1010和將包括系統記憶體1015(諸如唯讀記憶體(ROM)1020和隨機存取記憶體(RAM)1025)的各種系統部件耦合到處理器1010的連接1005。計算系統1000可包括與處理器1010直接連接、緊鄰處理器1010或作為處理器1010的一部分整合的高速記憶體的快取記憶體1012。
處理器1010可包括任何通用處理器和硬體服務或軟體服務,諸如儲存在存放裝置1030中的服務1032、1034和1036,其被配置為控制處理器1010以及專用處理器,其中軟體指令被結合到實際的處理器設計中。處理器1010實質上可以是包含多個核或處理器、匯流排、記憶體控制器、快取記憶體等的完全獨立的計算系統。多核處理器可以是對稱的或非對稱的。
為了實現使用者互動,計算系統1000包括輸入設備1045,其可以表示任何數量的輸入機制,諸如用於語音的麥克風、用於手勢或圖形輸入的觸敏螢幕、鍵盤、滑鼠、運動輸入、語音等。計算系統1000亦可包括輸出設備1035,其可以是許多輸出機制中的一或多個。在一些情況下,多模式系統可使使用者能夠提供多種類型的輸入/輸出以與計算系統1000通訊。計算系統1000可包括通訊介面1040,其通常可以支配和管理使用者輸入和系統輸出。通訊介面可以使用有線及/或無線收發器來執行或促進接收及/或傳輸有線或無線通訊,這些收發器包括利用以下各項的收發器:音訊插孔/插頭、麥克風插孔/插頭、通用序列匯流排(USB)埠/插頭、蘋果®閃電®埠/插頭、乙太網路埠/插頭、光纖埠/插頭、專有有線埠/插頭、藍芽®無線訊號傳輸、藍芽®低能量(BLE)無線訊號傳輸、IBEACON®無線訊號傳輸、射頻辨識(RFID)無線訊號傳輸、近場通訊(NFC)無線訊號傳輸、專用短程通訊(DSRC)無線訊號傳輸、802.11 Wi-Fi無線訊號傳輸、無線區域網路(WLAN)訊號傳輸、可見光通訊(VLC)、全球微波互聯存取(WiMAX)、紅外(IR)通訊無線訊號傳輸、公用交換電話網(PSTN)訊號傳輸、整合式服務數位網路(ISDN)訊號傳輸、3G/4G/5G/LTE蜂巢資料網路無線訊號傳輸、自組織網路訊號傳輸、無線電波訊號傳輸、微波訊號傳輸、紅外訊號傳輸、可見光訊號傳輸、紫外光訊號傳輸、沿電磁頻譜的無線訊號傳輸、或其一些組合。通訊介面1040亦可包括一或多個全球導航衛星系統(GNSS)接收器或收發器,其用於基於從與一或多個GNSS系統相關聯的一或多個衛星接收一或多個訊號來決定計算系統1000的位置。GNSS系統包括但不限於基於美國的全球定位系統(GPS)、基於俄羅斯的全球導航衛星系統(GLONASS)、基於中國的北斗導航衛星系統(BDS)和基於歐洲的伽利略GNSS。對任何特定硬體佈置的操作沒有限制,因此這裡的基本特徵可以容易地替代所開發的改進的硬體或韌體佈置。
存放裝置1030可以是非揮發性及/或非暫時性及/或電腦可讀存放裝置,並且可以是硬碟或可以儲存可由電腦存取的資料的其他類型的電腦可讀取媒體,諸如盒式磁帶、快閃記憶卡、固態存放裝置、數位多功能光碟、卡式磁帶、軟碟、柔性盤、硬碟、磁帶、磁條/條帶、任何其他磁儲存媒體、快閃記憶體、憶阻器記憶體、任何其他固態記憶體、光碟唯讀記憶體(CD-ROM)光碟、可重寫光碟(CD)光碟、數位視訊光碟(DVD)光碟、藍光光碟(BDD)光碟、全息光碟、另一種光學媒體、安全數位(SD)卡、微型安全數位(microSD)卡、記憶棒®卡、智慧卡晶片、EMV片、用戶身份模組(SIM)卡、迷你/微/納/皮SIM卡、另一種積體電路(IC)晶片/卡、隨機存取記憶體(RAM)、靜態RAM(SRAM)、動態RAM(DRAM)、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃EPROM(FLASHEPROM)、高速緩衝記憶體(L1/L2/L3/L4/L5/L#)、電阻式隨機存取記憶體(RRAM/ReRAM)、相變記憶體(PCM)、自旋轉移力矩RAM(STT-RAM)、另一種記憶體晶片或盒、及/或其組合。
存放裝置1030可包括軟體服務、伺服器、服務等,其在處理器1010執行定義這種軟體的代碼時它使系統執行功能。在一些實施例中,執行特定功能的硬體服務可包括儲存在結合必要的硬體部件(諸如處理器1010、連接1005、輸出設備1035等)的電腦可讀取媒體中以執行功能的軟體部件。術語「電腦可讀取媒體」包括但不限於可攜式或非可攜式存放裝置、光學存放裝置以及能夠儲存、包含或攜帶指令及/或資料的各種其他媒體。電腦可讀取媒體可包括非暫時性媒體,資料可以儲存在非暫時性媒體中,並且非暫時性媒體不包括無線傳播的或經由有線連接傳播的載波及/或瞬態電子訊號。非暫時性媒體的實例可包括但不限於磁碟或磁帶、諸如壓縮磁碟(CD)或數位多功能光碟(DVD)之類的光學儲存媒體、快閃記憶體、記憶體或存放裝置。電腦可讀取媒體上可以儲存有代碼及/或機器可執行指令,其可以表示程序、函數、副程式、程式、常式、子常式、模組、套裝軟體、軟體組件、或者指令、資料結構或程式語句的任意組合。程式碼片段可經由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而耦合到另一程式碼片段或硬體電路。資訊、引數、參數、資料等可以經由包括記憶體共享、訊息傳遞、符記傳遞、網路傳輸等的任何合適的手段來傳遞、轉發或發送。
在一些實施例中,電腦可讀存放裝置、媒體和記憶體可包括包含位元串流等的電纜或無線訊號。然而,當提及時,非暫時性電腦可讀取儲存媒體明確地排除了諸如能量、載波訊號、電磁波和訊號本身之類的媒體。
在以上描述中提供了具體細節以提供對本文所提供的實施例和實例的透徹理解。然而,本發明所屬領域中具有通常知識者將理解,可以在沒有這些具體細節的情況下實踐這些實施例。為了清楚地解釋,在一些情況下,本技術可以被呈現為包括單獨的功能方塊,這些功能方塊包括以軟體或硬體與軟體的組合實現的方法中的設備、設備部件、步驟或常式。除了在附圖中示出及/或在本文中所描述的那些之外,可以使用另外的部件。例如,可以將電路、系統、網路、程序和其他部件顯示為方塊圖形式的部件,以免在不必要的細節上混淆實施例。在其他情況下,為了避免混淆實施例,可以在沒有不必要的細節的情況下示出公知的電路、程序、演算法、結構和技術。
上面可以將各個實施例描述為被圖示為作業圖、流程圖、資料流圖、結構圖或方塊圖的程序或方法。儘管作業圖可將操作描述為順序程序,但許多操作可並行或同時執行。另外,可以重新安排操作的順序。當程序的操作完成時,該程序終止,但可能具有未包括在圖中的額外步驟。程序可以對應於方法、函數、程序、子常式、副程式等。當程序對應於函數時,其終止可以對應於函數返回到調用函數或主函數。
可以使用儲存在電腦可讀取媒體中或以其他方式可從電腦可讀取媒體獲得的電腦可執行指令來實現根據上述實例的程序和方法。此類指令可包括,例如,使或以其他方式配置通用電腦、專用電腦或處理設備執行某一功能或功能組的指令和資料。所使用的電腦資源的部分可以經由網路存取。電腦可執行指令可以是例如二進位元、中間格式指令(諸如組合語言)、韌體、原始程式碼。可用於儲存指令、所使用的資訊及/或在根據該實例的方法期間建立的資訊的電腦可讀取媒體的實例包括磁碟或光碟、快閃記憶體、具有非揮發性記憶體的USB設備、網路化存放裝置等。
實現根據這些揭示的程序和方法的設備可包括硬體、軟體、韌體、中介軟體、微代碼、硬體描述語言或其任何組合,並且可以採用各種形狀因數中的任何一種。當以軟體、韌體、中介軟體或微代碼實現時,用於執行必要任務的程式碼或程式碼片段(例如,電腦程式產品)可以儲存在電腦可讀或機器可讀取媒體中。處理器可以執行必要的任務。形狀因素的典型實例包括膝上型電腦、智慧型電話、行動電話、平板設備或其他小形狀因素個人電腦、個人數位助理、機架式設備、獨立設備等。本文所描述的功能亦可以在周邊設備或內插卡中實現。作為另一實例,這種功能亦可以在電路板上在不同晶片或在單個設備中執行的不同程序之間實現。
指令、用於傳送這些指令的媒體、用於執行這些指令的計算資源以及用於支援這些計算資源的其他結構是用於提供本案中所描述的功能的實例部件。
在前面的描述中,參考本案的特定實施例描述了本案的各態樣,但是本發明所屬領域中具有通常知識者將認識到本案不限於此。因此,儘管在本文中已經詳細描述了本案的說明性實施例,但是應當理解,本發明的概念可以另外以各種方式體現和採用,並且所附請求項意欲被解釋為包括除了由現有技術限制之外的這些變化。上述申請的各種特徵和態樣可以單獨或聯合使用。進一步,在不脫離本說明書的更寬的精神和範疇的情況下,實施例可以用於在本文描述的那些之外的任何數量的環境和應用中。因此,說明書和附圖被認為是說明性的而不是限制性的。為了說明的目的,以特定的順序描述了方法。應當理解,在替代實施例中,該等方法可以按照與所描述的順序不同的循序執行。
本發明所屬領域中具有通常知識者將理解,在不脫離本說明書的範疇的情況下,本文使用的小於(「<」)和大於(「>」)符號或術語可以分別用小於或等於(「≦」)和大於或等於(「≧」)符號代替。
在部件被描述為「被配置為」執行某些操作的情況下,可例如經由設計電子電路或其他硬體以執行操作、經由對可程式設計電子電路(例如,微處理器或其他合適的電子電路)進行程式設計以執行操作或其任何組合來實現這種配置。
短語「耦合到」是指直接或間接地實體連接到另一部件的任何部件,及/或直接或間接地與另一部件通訊(例如,經由有線或無線連接及/或其他合適的通訊介面連接到另一部件)的任何部件。
表述一組中的「至少一個」及/或一組中的「一或多個」的請求項語言或其他語言表示該組中的一個成員或該組中的多個成員(以任何組合)滿足該請求項。例如,表述「A和B中的至少一個」或「A或B中的至少一個」的請求項語言意指A、B、或A和B。在另一實例中,表述「A、B和C中的至少一個」或「A、B或C中的至少一個」的請求項語言意指A、B、C、或A和B、或A和C、或B和C、或A和B和C。一組中的 「至少一個」及/或一組中的「一或多個」 語言並非將該組限制為該組中所列出的項目。例如,表述「A和B中的至少一個」或「A或B中的至少一個」的請求項語言可以指A、B、或A和B,並且可另外包括未在A和B的組中列出的項目。
結合本文所揭示的實例而描述的各種說明性邏輯區塊、模組、電路和演算法步驟可被實現為電子硬體、電腦軟體、韌體或其組合。為了清楚地說明硬體與軟體的這種可互換性,上文已就其功能性大體描述了各種說明性部件、方塊、模組、電路和步驟。這種功能是被實現為硬體還是軟體取決於特定應用和施加於整個系統上的設計約束。本發明所屬領域中具有通常知識者可針對每一特定應用以不同方式實現所描述的功能,但這些實現決策不應被解釋為導致脫離本案的範疇。
本文所描述的技術亦可以電子硬體、電腦軟體、韌體或其任何組合來實現。這些技術可在多種設備中的任一者中實現,諸如通用電腦、無線通訊設備手持機、或具有包括無線通訊設備手持機和其他設備中的應用在內的多種用途的積體電路設備。被描述為模組或部件的任何特徵可一起實現於整合邏輯裝置中或單獨實現為個別但可交交交互動操作的邏輯裝置。若以軟體來實現,則該等技術可至少部分地由包含程式碼的電腦可讀取資料儲存媒體實現,程式碼包括在被執行時執行上文所描述的方法、演算法及/或操作中的一或多個的指令。電腦可讀取資料儲存媒體可以形成電腦程式產品的一部分,該電腦程式產品可包括包裝材料。電腦可讀取媒體可包括記憶體或資料儲存媒體,諸如隨機存取記憶體(RAM)(諸如同步動態隨機存取記憶體(SDRAM))、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體等。補充地或可替代地,該等技術可以至少部分地由電腦可讀通訊媒體來實現,電腦可讀通訊媒體承載或傳送指令或資料結構形式的程式碼並且可以由電腦存取、讀取及/或執行,諸如傳播訊號或波。
程式碼可由處理器執行,處理器可包括一或多個處理器,諸如一或多個數位訊號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、現場可程式設計邏輯陣列(FPGA)或其他等效整合或個別邏輯電路。這種處理器可被配置為執行本案中所描述的技術中的任一者。通用處理器可以是微處理器;但在替代方案中,處理器可以是任何一般處理器、控制器、微控制器或狀態機。處理器亦可被實現為計算設備的組合,例如DSP與微處理器的組合、複數個微處理器的組合、一或多個微處理器與DSP核心的組合、或任何其他此類配置。因此,如本文中所使用的術語「處理器」可指前述結構中的任一者、前述結構的任何組合、或適合於實現本文所描述的技術的任何其他結構或裝置。
本案的說明性態樣包括:
態樣1:一種處理音訊資料的方法,該方法包括:偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料;基於與該第一音訊資料相關聯的一或多個提示來將該第一音訊資料辨識為私人的;辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中該第二音訊資料基於與該第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與該第二音訊資料相關聯的該一或多個額外提示不同於與該第一音訊資料相關聯的該一或多個提示;及基於將該第二音訊資料辨識為非私人的來輸出該第二音訊資料。
態樣2:根據態樣1之方法,進一步包括:偵測主要談話,其中該主要談話包括該群通訊通信期的第一現場參與者,並且其中該群通訊通信期的該第一現場參與者不同於該群通訊通信期的該兩個或兩個以上現場參與者。
態樣3:根據態樣2之方法,進一步包括:輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
態樣4:根據態樣2至3中任一項所述的方法,其中:該第一音訊資料和該第二音訊資料包括在次要談話中,其中該次要談話不同於該主要談話;並且辨識該第二音訊資料包括基於該一或多個額外提示來將該次要談話辨識為轉變到非私人狀態。
態樣5:根據態樣1至4中任一項所述的方法,其中與該第二音訊資料相關聯的該一或多個額外提示和與該第一音訊資料相關聯的該一或多個提示不一致。
態樣6:根據態樣1至5中任一項所述的方法,進一步包括:分析與該第一音訊資料相關聯的該一或多個提示以決定隱私指示,其中該第一音訊資料基於該隱私指示而被辨識為私人的;及分析與該第二音訊資料相關聯的該一或多個額外提示以決定非隱私指示,其中該第二音訊資料基於該非隱私指示而被辨識為轉變為非私人的。
態樣7:根據態樣2至6中任一項所述的方法,其中輸出該第二音訊資料包括將該第二音訊資料與該主要談話的該音訊合併。
態樣8:根據態樣1至7中任一項所述的方法,其中輸出該第二音訊資料包括提供用於主要談話的第一可選選項和用於該第二音訊資料的至少一部分的第二可選選項。
態樣9:根據態樣1至8中任一項所述的方法,其中與該第一音訊資料相關聯的該一或多個提示以及與該第二音訊資料相關聯的該一或多個額外提示中的至少一者是基於以下各項中的至少一者:關鍵字偵測、對自與該群通訊通信期相關聯的一或多個麥克風獲得的音訊訊號的分析、該群通訊通信期的一或多個參與者的姿勢、該群通訊通信期的一或多個參與者的一或多個手勢以及該群通訊通信期的一或多個參與者的一或多個移動。
態樣10:一種用於處理音訊資料的裝置,包括:記憶體;及耦合到該記憶體的一或多個處理器,該一或多個處理器被配置為:偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料;基於與該第一音訊資料相關聯的一或多個提示來將該第一音訊資料辨識為私人的;辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中該第二音訊資料基於與該第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與該第二音訊資料相關聯的該一或多個額外提示不同於與該第一音訊資料相關聯的該一或多個提示;及基於將該第二音訊資料辨識為非私人的來輸出該第二音訊資料。
態樣11:根據態樣10之裝置,其中該一或多個處理器被進一步配置為:偵測主要談話,其中該主要談話包括該群通訊通信期的第一現場參與者,並且其中該群通訊通信期的該第一現場參與者不同於該群通訊通信期的該兩個或兩個以上現場參與者。
態樣12:根據態樣11之裝置,其中該一或多個處理器被進一步配置為:輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
態樣13:根據態樣11至12中任一項所述的裝置,其中:該第一音訊資料和該第二音訊資料包括在次要談話中,其中該次要談話不同於該主要談話;並且該一或多個處理器被進一步配置為基於該一或多個額外提示來將該次要談話辨識為轉變到非私人狀態。
態樣14:根據態樣10至13中任一項所述的裝置,其中與該第二音訊資料相關聯的該一或多個額外提示和與該第一音訊資料相關聯的該一或多個提示不一致。
態樣15:根據態樣10至14中任一項所述的裝置,其中該一或多個處理器被進一步配置為:分析與該第一音訊資料相關聯的該一或多個提示以決定隱私指示,其中該第一音訊資料基於該隱私指示而被辨識為私人的;及分析與該第二音訊資料相關聯的該一或多個額外提示以決定非隱私指示,其中該第二音訊資料基於該非隱私指示而被辨識為轉變為非私人的。
態樣16:根據態樣11至15中任一項所述的裝置,其中為了輸出該第二音訊資料,該一或多個處理器被進一步配置為將該第二音訊資料與該主要談話的該音訊合併。
態樣17:根據態樣10至16中任一項所述的裝置,其中為了輸出該第二音訊資料,該一或多個處理器被進一步配置為提供用於主要談話的第一可選選項和用於該第二音訊資料的至少一部分的第二可選選項。
態樣18:根據態樣10至17中任一項所述的裝置,其中與該第一音訊資料相關聯的該一或多個提示以及與該第二音訊資料相關聯的該一或多個額外提示中的至少一者是基於以下各項中的至少一者:關鍵字偵測、對自與該群通訊通信期相關聯的一或多個麥克風獲得的音訊訊號的分析、該群通訊通信期的一或多個參與者的姿勢、該群通訊通信期的一或多個參與者的一或多個手勢以及該群通訊通信期的一或多個參與者的一或多個移動。
態樣19:一種非暫時性電腦可讀取媒體,其上儲存有指令,該等指令在由一或多個處理器執行時使該一或多個處理器:偵測群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的第一音訊資料;基於與該第一音訊資料相關聯的一或多個提示來將該第一音訊資料辨識為私人的;辨識該兩個或兩個以上現場參與者之間的第二音訊資料,其中該第二音訊資料基於與該第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與該第二音訊資料相關聯的該一或多個額外提示不同於與該第一音訊資料相關聯的該一或多個提示;及基於將該第二音訊資料辨識為非私人的來輸出該第二音訊資料。
態樣20:根據態樣19之非暫時性電腦可讀取媒體,其中該等指令進一步使該一或多個處理器:偵測主要談話,其中該主要談話包括該群通訊通信期的第一現場參與者,並且其中該群通訊通信期的該第一現場參與者不同於該群通訊通信期的該兩個或兩個以上現場參與者;及輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
態樣21:一種非暫時性電腦可讀取儲存媒體,其上儲存有指令,該等指令在由一或多個處理器執行時使該一或多個處理器執行態樣1至20之操作中的任一個。
態樣22:一種裝置,包括用於執行態樣1至20之操作中的任一個的部件。
100:混合會議系統
102a:智慧型電話
102b:智慧型電話
102c:智慧型電話
104:膝上型電腦
110:地點
112a:現場會議參與者
112b:現場會議參與者
112c:現場會議參與者
112d:現場會議參與者
112e:現場會議參與者
120:桌子
122a:照相機
122b:照相機
122c:照相機
122d:照相機
126a:麥克風
126b:麥克風
126c:麥克風
126d:麥克風
140:混合會議會議服務
150:網路
162a:智慧型電話
162b:智慧型電話
164a:膝上型電腦
164c:膝上型電腦
172a:遠端參與者
172b:遠端參與者
172c:遠端參與者
200:混合會議系統
232:主要談話
280:遠端參與者介面
282:主要談話選項
292:選項
294:選項
300:混合會議系統
332:主要談話
334:次要談話
380:次要談話
382:選項
384:選項
392:選項
394:選項
396:選項
398:選項
400:實例混合會議系統
434:私人次要談話
480:遠端參與者介面
484:選項
496:選項
498:選項
500:方塊圖
502:計算設備
504:計算設備
506:麥克風
512:遠端會議參與者
540:網路化混合會議會議服務
550:網路
600:方塊圖
602:計算設備
604:計算設備
606a:麥克風
606b:麥克風
612:遠端參與者
630:背景聲源
640:混合會議會議服務
650:網路
700:程序
702:方塊
704:方塊
706:方塊
708:方塊
800:程序
802:方塊
804:方塊
806:方塊
808:方塊
900:計算設備
902:通訊部件
904:計算部件
906:輸入裝置
908:輸出設備
910:感測器
912:記憶體
950:談話監測系統
960:語音處理系統
962:NLP分析和關鍵字偵測系統
964:主動講話者偵測系統
970:視覺處理系統
972:手勢偵測系統
974:主動講話者偵測系統
976:參與者定位和偵測系統
1000:計算系統
1005:連接
1010:處理器
1012:快取記憶體
1015:系統記憶體
1020:唯讀記憶體(ROM)
1025:隨機存取記憶體(RAM)
1030:存放裝置
1032:服務
1034:服務
1035:輸出設備
1036:服務
1040:通訊介面
1045:輸入設備
下文參考以下附圖詳細描述本案的說明性實施例:
圖1是示出根據本案的一些實例的混合會議系統的實例的方塊圖;
圖2是示出根據本案的一些實例的具有顯示主談話的遠端參與者介面的混合會議系統的實例的方塊圖;
圖3是示出根據本案的一些實例的具有顯示主談話和非私人側面談話的遠端參與者介面的混合會議系統的實例的方塊圖;
圖4是示出根據本案的一些實例的具有顯示主談話和私人側面談話的遠端參與者介面的混合會議系統的實例的方塊圖;
圖5是示出根據本案的一些實例的從參與者音訊流中移除背景雜訊的實例的方塊圖;
圖6是示出根據本案的一些實例的從參與者音訊流中移除背景雜訊的另一實例的方塊圖;
圖7是示出根據本案的一些實例的用於處理音訊資料的程序的實例的流程圖;
圖8是示出根據本案的一些實例的用於處理音訊資料的程序的另一實例的流程圖;及
圖9是示出根據本案的一些實例的可用於提供談話監測系統的計算設備的實例架構的方塊圖;及
圖10是示出用於實現本文所描述的某些態樣的計算系統的實例的方塊圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
100:混合會議系統
102a:智慧型電話
102b:智慧型電話
102c:智慧型電話
104:膝上型電腦
110:地點
112a:現場會議參與者
112b:現場會議參與者
112c:現場會議參與者
112d:現場會議參與者
112e:現場會議參與者
120:桌子
122a:照相機
122b:照相機
122c:照相機
122d:照相機
126a:麥克風
126b:麥克風
126c:麥克風
126d:麥克風
140:混合會議會議服務
150:網路
162a:智慧型電話
162b:智慧型電話
164a:膝上型電腦
164c:膝上型電腦
172a:遠端參與者
172b:遠端參與者
172c:遠端參與者
Claims (27)
- 一種處理音訊資料的方法,該方法包括以下步驟: 偵測一群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的一第一音訊資料; 基於與該第一音訊資料相關聯的一或多個提示來將該第一音訊資料辨識為私人的; 辨識該兩個或兩個以上現場參與者之間的一第二音訊資料,其中該第二音訊資料基於與該第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與該第二音訊資料相關聯的該一或多個額外提示不同於與該第一音訊資料相關聯的該一或多個提示;及 基於將該第二音訊資料辨識為非私人的來輸出該第二音訊資料。
- 根據請求項1之方法,進一步包括以下步驟: 偵測一主要談話,其中該主要談話包括該群通訊通信期的一第一現場參與者,並且其中該群通訊通信期的該第一現場參與者不同於該群通訊通信期的該兩個或兩個以上現場參與者。
- 根據請求項2之方法,進一步包括以下步驟: 輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
- 根據請求項2之方法,其中: 該第一音訊資料和該第二音訊資料包括在一次要談話中,其中該次要談話不同於該主要談話;並且 辨識該第二音訊資料包括基於該一或多個額外提示來將該次要談話辨識為轉變到一非私人狀態。
- 根據請求項2之方法,其中輸出該第二音訊資料包括將該第二音訊資料與該主要談話的該音訊合併。
- 根據請求項1之方法,其中與該第二音訊資料相關聯的該一或多個額外提示和與該第一音訊資料相關聯的該一或多個提示不一致。
- 根據請求項1之方法,進一步包括以下步驟: 分析與該第一音訊資料相關聯的該一或多個提示以決定一隱私指示,其中該第一音訊資料基於該隱私指示而被辨識為私人的;及 分析與該第二音訊資料相關聯的該一或多個額外提示以決定一非隱私指示,其中該第二音訊資料基於該非隱私指示而被辨識為轉變為非私人的。
- 根據請求項1之方法,其中輸出該第二音訊資料包括提供用於一主要談話的一第一可選選項和用於該第二音訊資料的至少一部分的一第二可選選項。
- 根據請求項1之方法,其中與該第一音訊資料相關聯的該一或多個提示以及與該第二音訊資料相關聯的該一或多個額外提示中的至少一者是基於以下各項中的至少一者: 關鍵字偵測、對自與該群通訊通信期相關聯的一或多個麥克風獲得的音訊訊號的一分析、該群通訊通信期的一或多個參與者的姿勢、該群通訊通信期的一或多個參與者的一或多個手勢以及該群通訊通信期的一或多個參與者的一或多個移動。
- 一種用於處理音訊資料的裝置,包括: 一記憶體;及 耦合到該記憶體的一或多個處理器,該一或多個處理器被配置為: 偵測一群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的一第一音訊資料; 基於與該第一音訊資料相關聯的一或多個提示來將該第一音訊資料辨識為私人的; 辨識該兩個或兩個以上現場參與者之間的一第二音訊資料,其中該第二音訊資料基於與該第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與該第二音訊資料相關聯的該一或多個額外提示不同於與該第一音訊資料相關聯的該一或多個提示;及 基於將該第二音訊資料辨識為非私人的來輸出該第二音訊資料。
- 根據請求項10之裝置,其中該一或多個處理器被進一步配置為: 偵測一主要談話,其中該主要談話包括該群通訊通信期的一第一現場參與者,並且其中該群通訊通信期的該第一現場參與者不同於該群通訊通信期的該兩個或兩個以上現場參與者。
- 根據請求項11之裝置,其中該一或多個處理器被進一步配置為: 輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
- 根據請求項11之裝置,其中: 該第一音訊資料和該第二音訊資料包括在一次要談話中,其中該次要談話不同於該主要談話;並且 該一或多個處理器被進一步配置為基於該一或多個額外提示來將該次要談話辨識為轉變到一非私人狀態。
- 根據請求項11之裝置,其中為了輸出該第二音訊資料,該一或多個處理器被進一步配置為將該第二音訊資料與該主要談話的該音訊合併。
- 根據請求項10之裝置,其中與該第二音訊資料相關聯的該一或多個額外提示和與該第一音訊資料相關聯的該一或多個提示不一致。
- 根據請求項10之裝置,其中該一或多個處理器被進一步配置為: 分析與該第一音訊資料相關聯的該一或多個提示以決定一隱私指示,其中該第一音訊資料基於該隱私指示而被辨識為私人的;及 分析與該第二音訊資料相關聯的該一或多個額外提示以決定一非隱私指示,其中該第二音訊資料基於該非隱私指示而被辨識為轉變為非私人的。
- 根據請求項10之裝置,其中為了輸出該第二音訊資料,該一或多個處理器被進一步配置為提供用於一主要談話的一第一可選選項和用於該第二音訊資料的至少一部分的一第二可選選項。
- 根據請求項10之裝置,其中與該第一音訊資料相關聯的該一或多個提示以及與該第二音訊資料相關聯的該一或多個額外提示中的至少一者是基於以下各項中的至少一者: 關鍵字偵測、對自與該群通訊通信期相關聯的一或多個麥克風獲得的音訊訊號的一分析、該群通訊通信期的一或多個參與者的姿勢、該群通訊通信期的一或多個參與者的一或多個手勢以及該群通訊通信期的一或多個參與者的一或多個移動。
- 一種非暫時性電腦可讀取媒體,其上儲存有指令,該等指令在由一或多個處理器執行時使該一或多個處理器: 偵測一群通訊通信期的複數個現場參與者中的兩個或兩個以上現場參與者之間的一第一音訊資料; 基於與該第一音訊資料相關聯的一或多個提示來將該第一音訊資料辨識為私人的; 辨識該兩個或兩個以上現場參與者之間的一第二音訊資料,其中該第二音訊資料基於與該第二音訊資料相關聯的一或多個額外提示而被辨識為非私人的,其中與該第二音訊資料相關聯的該一或多個額外提示不同於與該第一音訊資料相關聯的該一或多個提示;及 基於將該第二音訊資料辨識為非私人的來輸出該第二音訊資料。
- 根據請求項19之非暫時性電腦可讀取媒體,其中該等指令進一步使該一或多個處理器: 偵測一主要談話,其中該主要談話包括該群通訊通信期的一第一現場參與者,並且其中該群通訊通信期的該第一現場參與者不同於該群通訊通信期的該兩個或兩個以上現場參與者;及 輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
- 根據請求項20之非暫時性電腦可讀取媒體,其中該等指令進一步使該一或多個處理器: 輸出該主要談話的音訊以及基於將該第一音訊資料辨識為私人的來排除該第一音訊資料被輸出。
- 根據請求項20之非暫時性電腦可讀取媒體,其中: 該第一音訊資料和該第二音訊資料包括在一次要談話中,其中該次要談話不同於該主要談話;並且 該等指令進一步使該一或多個處理器基於該一或多個額外提示來將該次要談話辨識為轉變到一非私人狀態。
- 根據請求項20之非暫時性電腦可讀取媒體,其中為了輸出該第二音訊資料,該等指令使該一或多個處理器將該第二音訊資料與該主要談話的該音訊合併。
- 根據請求項19之非暫時性電腦可讀取媒體,其中與該第二音訊資料相關聯的該一或多個額外提示和與該第一音訊資料相關聯的該一或多個提示不一致。
- 根據請求項19之非暫時性電腦可讀取媒體,其中該等指令進一步使該一或多個處理器: 分析與該第一音訊資料相關聯的該一或多個提示以決定一隱私指示,其中該第一音訊資料基於該隱私指示而被辨識為私人的;及 分析與該第二音訊資料相關聯的該一或多個額外提示以決定非隱私指示,其中該第二音訊資料基於該非隱私指示而被辨識為轉變為一非私人的。
- 根據請求項19之非暫時性電腦可讀取媒體,其中為了輸出該第二音訊資料,該等指令進一步使該一或多個處理器提供用於一主要談話的一第一可選選項和用於該第二音訊資料的至少一部分的一第二可選選項。
- 根據請求項19之非暫時性電腦可讀取媒體,其中與該第一音訊資料相關聯的該一或多個提示以及與該第二音訊資料相關聯的該一或多個額外提示中的至少一者是基於以下各項中的至少一者: 關鍵字偵測、對自與該群通訊通信期相關聯的一或多個麥克風獲得的音訊訊號的一分析、該群通訊通信期的一或多個參與者的姿勢、該群通訊通信期的一或多個參與者的一或多個手勢以及該群通訊通信期的一或多個參與者的一或多個移動。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/678,860 | 2022-02-23 | ||
US17/678,873 | 2022-02-23 | ||
US17/678,860 US11909786B2 (en) | 2022-02-23 | 2022-02-23 | Systems and methods for improved group communication sessions |
US17/678,873 US20230282224A1 (en) | 2022-02-23 | 2022-02-23 | Systems and methods for improved group communication sessions |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202341703A true TW202341703A (zh) | 2023-10-16 |
Family
ID=85640705
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112105768A TW202343438A (zh) | 2022-02-23 | 2023-02-17 | 用於改進的群通訊通信期的系統和方法 |
TW112105823A TW202341703A (zh) | 2022-02-23 | 2023-02-17 | 用於改進的群通訊通信期的系統和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112105768A TW202343438A (zh) | 2022-02-23 | 2023-02-17 | 用於改進的群通訊通信期的系統和方法 |
Country Status (2)
Country | Link |
---|---|
TW (2) | TW202343438A (zh) |
WO (2) | WO2023163895A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7480259B2 (en) * | 2003-10-09 | 2009-01-20 | Hewlett-Packard Development Company, L.P. | System and method for establishing a parallel conversation thread during a remote collaboration |
US7679638B2 (en) * | 2005-01-27 | 2010-03-16 | Polycom, Inc. | Method and system for allowing video-conference to choose between various associated video conferences |
WO2016130459A1 (en) * | 2015-02-09 | 2016-08-18 | Dolby Laboratories Licensing Corporation | Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants |
US9973561B2 (en) * | 2015-04-17 | 2018-05-15 | International Business Machines Corporation | Conferencing based on portable multifunction devices |
US20180139413A1 (en) * | 2016-11-17 | 2018-05-17 | Jie Diao | Method and system to accommodate concurrent private sessions in a virtual conference |
EP4016996A1 (en) * | 2020-12-16 | 2022-06-22 | Nokia Technologies Oy | Enabling communications actions in a conference session |
CN112735462B (zh) * | 2020-12-30 | 2024-05-31 | 科大讯飞股份有限公司 | 分布式麦克风阵列的降噪方法和语音交互方法 |
-
2023
- 2023-02-16 WO PCT/US2023/013235 patent/WO2023163895A1/en unknown
- 2023-02-16 WO PCT/US2023/013236 patent/WO2023163896A1/en unknown
- 2023-02-17 TW TW112105768A patent/TW202343438A/zh unknown
- 2023-02-17 TW TW112105823A patent/TW202341703A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023163896A1 (en) | 2023-08-31 |
TW202343438A (zh) | 2023-11-01 |
WO2023163895A1 (en) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11893995B2 (en) | Generating additional synthesized voice output based on prior utterance and synthesized voice output provided in response to the prior utterance | |
US10176808B1 (en) | Utilizing spoken cues to influence response rendering for virtual assistants | |
US10019989B2 (en) | Text transcript generation from a communication session | |
US11909786B2 (en) | Systems and methods for improved group communication sessions | |
US20130024196A1 (en) | Systems and methods for using a mobile device to deliver speech with speaker identification | |
US10732924B2 (en) | Teleconference recording management system | |
KR20170012333A (ko) | 통화 중 번역 | |
US20230282224A1 (en) | Systems and methods for improved group communication sessions | |
US11650790B2 (en) | Centrally controlling communication at a venue | |
US20220131979A1 (en) | Methods and systems for automatic queuing in conference calls | |
US11115444B2 (en) | Private communications in virtual meetings | |
TW201543902A (zh) | 視訊會議靜音技術 | |
TW202341703A (zh) | 用於改進的群通訊通信期的系統和方法 | |
US11089164B2 (en) | Teleconference recording management system | |
JP7292343B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム |