TWI790718B - 會議終端及用於會議的回音消除方法 - Google Patents
會議終端及用於會議的回音消除方法 Download PDFInfo
- Publication number
- TWI790718B TWI790718B TW110130678A TW110130678A TWI790718B TW I790718 B TWI790718 B TW I790718B TW 110130678 A TW110130678 A TW 110130678A TW 110130678 A TW110130678 A TW 110130678A TW I790718 B TWI790718 B TW I790718B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- delay time
- conference
- conference terminal
- echo
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims description 18
- 230000003111 delayed effect Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 238000007726 management method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004049 embossing Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/002—Applications of echo suppressors or cancellers in telephonic connections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本發明實施例提供一種會議終端及用於會議的回音消除方法。在方法中,接收合成語音訊號。這合成語音訊號包括那些會議終端中的第一會議終端對應的發話者的使用者語音訊號、以及第一會議終端對應的聲音浮水印訊號。偵測收音訊號中聲音浮水印訊號所對應的一個或更多個延遲時間。這收音訊號是透過那些會議終端中的第二會議終端的收音器所錄製。依據延遲時間消除收音訊號中的回音。藉此,可減少回音消除的收斂時間。
Description
本發明是有關於一種語音會議,且特別是有關於一種會議終端及用於會議的回音消除方法。
遠端會議可讓不同位置或空間中的人進行對話,且會議相關設備、協定及/或應用程式也發展相當成熟。值得注意的是,在實際情況中,可能有多人各自使用自己的通話裝置處於同一空間中參與電話或視訊會議。當這些通話裝置共同通話時,裝置上的麥克風會收到許多其他裝置的喇叭所播出聲音,形成許多不穩定的迴授機制,更造成明顯的囂叫聲,進而影響通話會議的進行。雖然現今已有消除回音(echo cancellation)的相關演算法,但實際情況中的通話裝置彼此間的位置可能會改變,進而影響消除回音的延遲時間。此外,通話的語音訊號不斷地變化,在電話會議中消除回音將難以立即達到收斂效果。
有鑑於此,本發明實施例提供一種會議終端及用於會議的回音消除方法,利用浮水印訊號加快收斂速度。
本發明實施例的用於會議的回音消除方法適用於多台會議終端,且各會議終端包括收音器及揚聲器。回音消除方法包括(但不僅限於)下列步驟:接收合成語音訊號。這合成語音訊號包括那些會議終端中的第一會議終端對應的發話者的使用者語音訊號、以及第一會議終端對應的聲音浮水印訊號。偵測收音訊號中聲音浮水印訊號所對應的一個或更多個延遲時間。這收音訊號是透過那些會議終端中的第二會議終端的收音器所錄製。依據延遲時間消除收音訊號中的回音。
本發明實施例的會議終端包括(但不僅限於)收音器、揚聲器、通訊收發器及處理器。收音器用以收音以取得輸入聲音訊號。揚聲器用以播放聲音。通訊收發器用以傳送或接收資料。處理器耦接收音器、揚聲器及通訊收發器。處理器經配置用以接收合成語音訊號,偵測收音訊號中聲音浮水印訊號所對應的一個或更多個延遲時間,並依據延遲時間消除收音訊號中的回音。這合成語音訊號包括那些會議終端中的第一會議終端對應的發話者的使用者語音訊號、以及第一會議終端對應的聲音浮水印訊號。這收音訊號是透過那些會議終端中的第二會議終端所錄製。
基於上述,依據本發明實施例的會議終端及用於會議的回音消除方法,使用已知且固定的聲音浮水印訊號來進行回音消除,並藉以降低回音消除所需的收斂時間。此外,聲音浮水印訊號可能不會被使用者聽到,並使會議能順利進行。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例的會議系統1的示意圖。請參照圖1,會議系統1包括(但不僅限於)多台會議終端10a,10c、多台本地訊號管理裝置30及分配伺服器50。
各會議終端10a,10c可以是有線電話、行動電話、平板電腦、桌上型電腦、筆記型電腦或智慧型喇叭。各會議終端10a,10c包括(但不僅限於)收音器11、揚聲器13、通訊收發器15、記憶體17及處理器19。
收音器11可以是動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風,收音器11也可以是其他可接收聲波(例如,人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器之組合。在一實施例中,收音器11用以對發話者收音/錄音,以取得收音訊號。這收音訊號可能包括發話者的聲音、揚聲器13所發出的聲音及/或其他環境音。
揚聲器13可以是喇叭或擴音器。在一實施例中,揚聲器13用以播放聲音。
通訊收發器15例如是支援乙太網路(Ethernet)、光纖網路、或電纜等有線網路的收發器(其可能包括(但不僅限於)連接介面、訊號轉換器、通訊協定處理晶片等元件),也可能是支援Wi-Fi、第四代(4G)、第五代(5G)或更後世代行動網路等無線網路的收發器(其可能包括(但不僅限於)天線、數位至類比/類比至數位轉換器、通訊協定處理晶片等元件)。在一實施例中,通訊收發器15用以傳送或接收資料。
記憶體17可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory,RAM)、唯讀記憶體(Read Only Memory,ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid-State Drive,SSD)或類似元件。在一實施例中,記憶體17用以記錄程式碼、軟體模組、組態配置、資料(例如,聲音訊號、或延遲時間等)或檔案。
處理器19耦接收音器11、揚聲器13、通訊收發器15及記憶體17。處理器19可以是中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphic Processing unit,GPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array,FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。在一實施例中,處理器19用以執行所屬會議終端10a, 10c的所有或部份作業,且可載入並執行記憶體17所記錄的各軟體模組、檔案及資料。
本地訊號管理裝置30分別經由網路連接會議終端10a, 10c。本地訊號管理裝置30可以是電腦系統、伺服器或訊號處理裝置。在一實施例中,會議終端10a, 10c可作為本地訊號管理裝置30。在另一實施例中,本地訊號管理裝置30可作為不同於會議終端10a, 10c的獨立中繼裝置。在一些實施例中,本地訊號管理裝置30包括(但不僅限於)相同或相似的通訊收發器15、記憶體17及處理器19,且元件的實施態樣及功能將不再贅述。
此外,在一實施例中,假設連接相同本地訊號管理裝置30的會議終端處於相同區域(例如,特定空間、範圍、隔間或樓層)。而圖1中的會議終端10a, 10c分處於不同區域。然而,任一台本地訊號管理裝置30所連接的會議終端的數量不限於一台。
分配伺服器50經由網路連接本地訊號管理裝置30。分配伺服器50可以是電腦系統、伺服器或訊號處理裝置。在一實施例中,會議終端10a, 10c或本地訊號管理裝置30可作為分配伺服器50。在另一實施例中,分配伺服器50可作為不同於會議終端10a, 10c或本地訊號管理裝置30的獨立雲端伺服器。在一些實施例中,分配伺服器50包括(但不僅限於)相同或相似的通訊收發器15、記憶體17及處理器19,且元件的實施態樣及功能將不再贅述。
下文中,將搭配會議系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
另需說明的是,為了方便說明,相同元件可實現相同或相似的操作,且將不再贅述。例如,由於會議終端10a, 10c可作為本地訊號管理裝置30或分配伺服器50,且本地訊號管理裝置30也可作為分配伺服器50,因此在一些實施例中會議終端10a, 10c、本地訊號管理裝置30及分配伺服器50的處理器19皆可實現本發明實施例相同或相似的方法。
圖2是依據本發明一實施例的用於會議的回音消除方法的流程圖。請參照圖1及圖2,假設會議終端10a, 10c建立通話會議。例如,透過視訊軟體、語音通話軟體或撥打電話等方式建立會議,發話者即可開始說話。會議終端10a的處理器19可透過通訊收發器15接收合成語音訊號C
W(步驟S210)。具體而言,這合成語音訊號C
W包括會議終端10c對應的發話者的使用者語音訊號C’、以及會議終端10c對應的聲音浮水印訊號M
C。
舉例而言,圖3是依據本發明一實施例說明合成語音訊號C
W之產生的示意圖。請參照圖3,使用者語音訊號C’是會議終端10c透過其收音器11錄製所產生。使用者語音訊號C’可能包括發話者的聲音、揚聲器13所播放的聲音及/或其他環境聲音。分配伺服器50可在時域透過展頻(Spread spectrum)、回音隱藏(Echo hiding)、相位編碼(Phase encoding)等方式在會議終端10a對應的發話者的使用者語音訊號C’中加入聲音浮水印訊號M
C,以形成合成語音訊號C
W。或者,分配伺服器50可在頻域透過調變載波(Modulated carries)、扣除頻帶(Subtracting frequency bands)等方式在會議終端10a對應的發話者的使用者語音訊號C’中加入聲音浮水印訊號M
C,以形成合成語音訊號C
W。須說明的是,本發明實施例不加以限制浮水印嵌入的演算法。
在一實施例中,聲音浮水印訊號M
C的頻率高於16千赫茲(kHz),從而避免人類聽到。在另一實施例中,聲音浮水印訊號M
C的頻率也可能低於16 kHz。
在一實施例中,聲音浮水印訊號M
C用於識別會議終端10c。例如,聲音浮水印訊號M
C為記錄會議終端10c的識別碼的聲音、圖片或編碼。然而,在一些實施例中,本發明不加以限制聲音浮水印訊號M
C的內容。此外,聲音浮水印訊號M
A及合成語音訊號A
W甚至是其他會議裝置的聲音浮水印訊號及合成語音訊號之產生可參酌前述說明,且於此不再贅述。
分配伺服器50將合成語音訊號C
W傳送給本地訊號管理裝置30。本地訊號管理裝置30將合成語音訊號C
W作為預期會議終端10a播放的輸出聲音訊號A”,並據以傳送給會議終端10a,使會議終端10a接收到合成語音訊號C
W。
會議終端10a的處理器19可透過揚聲器13播放輸出聲音訊號A”(在本實施例為合成語音訊號C
W)。另一方面,會議終端10a的處理器19可透過收音器11錄音/收音/錄製以取得的收音訊號A。
會議終端10a的處理器19可偵測收音訊號A中聲音浮水印訊號M
C所對應的一個或更多個延遲時間(步驟S230)。具體而言,假設會議終端10a已知其他會議終端(例如,會議終端10c)對應的聲音浮水印訊號。值得注意的是,會議終端10a的處理器19可依據所屬區域中的所有或部分會議終端(例如,本實施例是會議終端10a)自身的揚聲器13所播放的輸出聲音訊號A”消除自身收音器11所收到的收音訊號A中的回音。
而輸出聲音訊號A”包括合成語音訊號C
W。在一實施例中,若欲偵測收音器訊號A中的合成語音訊號C
W對應的延遲時間,則會議終端10a的處理器19可依據收音訊號A與聲音浮水印訊號M
C之間的相關性決定初始延遲時間τ
1 CA, τ
2 CA(假設對應到兩個時間,但不以此為限)。這些初始延遲時間τ
1 CA, τ
2 CA為相關性越高者所對應的時間。例如,處理器19可依據收音訊號A與聲音浮水印訊號M
C的交叉相關(cross-correlation)中的峰值(即,相關性最高者)估測聲音浮水印訊號M
C經揚聲器13傳遞至收音器11的初始延遲時間。由於峰值可能不指一個,因此初始延遲時間τ
1 CA, τ
2 CA的數量可能超過一個。須說明的是,估測延遲時間的演算法還有很多種,且本發明實施例不加以限制。
在一實施例中,處理器19可依據那些初始延遲時間τ
1 CA, τ
2 CA產生對應於使用者語音訊號C’的一個或更多個初始延遲訊號C
W(
n-τ
1 CA ), C
W(
n-τ
2 CA )。這些初始延遲訊號C
W(
n-τ
1 CA ), C
W(
n-τ
2 CA )相對於使用者語音訊號C’的延遲時間為初始延遲時間τ
1 CA, τ
2 CA。值得注意的是,在時變系統下,整個傳遞系統的延遲時間將跟隨空間的變化而有所不同。因此,處理器19可將合成語音訊號C
W或聲音浮水印訊號M
C的延遲時間定義成未知的延遲時間
Δt
C 。收音訊號A即包括發話者的聲音訊號a(
n)及屬於會議終端10c的合成語音訊號C
W(
n-Δt
C )。而回音消除的目的即是找出正確的延遲時間
Δt
C ,並據以將多餘的聲音(例如,合成語音訊號C
W(
n-Δt
C ))消除,讓使用者語音訊號A’僅留下發話者的聲音訊號a(
n)。
處理器19可依據初始延遲訊號C
W(
n-τ
1 CA ), C
W(
n-τ
2 CA )估測回音路徑。具體而言,聲音浮水印訊號M
C經這回音路徑後延遲那經收斂的延遲時間,且回音路徑是收音器11及揚聲器13之間的通道。處理器19可將初始延遲訊號C
W(
n-τ
1 CA ), C
W(
n-τ
2 CA )帶入各類型自適性濾波器(例如,最小均方誤差(Least Mean Square,LMS)、次帶自適性濾波器(Sub-band Adaptive Filter,SAF)或正規化最小均方誤差(Normalized Least Mean Square,NLMS)),並據以估測回音路徑的脈衝響應且使濾波器收斂。當濾波器收斂至穩態時,處理器19使用穩態下的濾波器係數來估測經回音路徑延遲的合成語音訊號C
W(
n-Δt
C ),並據以得出延遲時間
Δt
C 。
會議終端10a的處理器19可依據延遲時間
Δt
C 消除收音訊號A中的回音(步驟S250)。具體而言,假設收音訊號A中的回音是合成語音訊號C
W(
n-Δt
C )。由於合成語音訊號C
W及
Δt
C 皆已知,因此處理器19可產生合成語音訊號C
W(
n-Δt
C ),並對收音訊號A消除合成語音訊號C
W(
n-Δt
C ),即達成回音消除。
須說明的是,本發明實施例不限於圖1所示的一對一的會議。以下再舉一實施例說明:
圖4是依據本發明一實施例的會議系統1’的示意圖。請參照圖4,會議系統1’包括(但不僅限於)多台會議終端10a~10e、多台本地訊號管理裝置30及分配伺服器50。
會議終端10b, 10c, 10d, 10e、本地訊號管理裝置30及分配伺服器50的實施態樣及其功能可分別參酌圖1~圖3針對前述會議終端10a、本地訊號管理裝置30及分配伺服器50的說明,於此不再贅述。
在本實施例中,依據不同本地訊號管理裝置30來分區,會議終端10a,10b在第一區域,會議終端10c在第二區域,且會議終端10d, 10e在第三區域。分配伺服器50可分別在會議終端10a~10e對應的發話者的使用者語音訊號A’~E’中加入聲音浮水印訊號M
A~M
E,以形成合成語音訊號A
W~E
W。分配伺服器50將來自第二區域及第三區域的合成語音訊號C
W~E
W傳送給第一區域的本地訊號管理裝置30,將來自第一區域及第三區域的合成語音訊號A
W, B
W, D
W, E
W傳送給第二區域的本地訊號管理裝置30,並將來自第一區域及第二區域的合成語音訊號A
W~C
W傳送給第三區域的本地訊號管理裝置30。
值得注意的是,與圖1不同之處在於,圖4的會議終端10a的輸出聲音訊號A”可包括合成語音訊號C
W~E
W。因此,除了聲音浮水印訊號M
C,會議終端10a的處理器19進一步偵測收音訊號A中聲音浮水印訊號M
D, M
E所對應的一個或更多個延遲時間。
具體而言,圖5是依據本發明一實施例的用於會議的回音消除方法的流程圖。請參照圖5,會議終端10a的處理器19取得聲音浮水印訊號M
C~M
E(步驟S510)。這些聲音浮水印訊號M
C~M
E可能已事先儲存、經使用者輸入或自網路下載。處理器19偵測聲音浮水印訊號M
C~M
E在收音器11所錄製的收音訊號A中的初始延遲時間τ
1 CA, τ
2 CA, τ
1 DA, τ
2 DA, τ
1 EA, τ
2 EA(步驟S530)(假設各聲音浮水印訊號分別對應到兩個延遲時間)。處理器19依據這些初始延遲時間τ
1 CA, τ
2 CA, τ
1 DA, τ
2 DA, τ
1 EA, τ
2 EA決定聲音浮水印訊號M
C~M
E的初始延遲訊號C
W(
n-τ
1 CA), C
W(
n-τ
2 CA), D
W(
n-τ
1 DA), D
W(
n-τ
2 DA), E
W(
n-τ
1 EA), E
W(
n-τ
2 EA)(步驟S550)。處理器19自收音訊號A中分別消除初始延遲訊號C
W(
n-τ
1 CA), C
W(
n-τ
2 CA), D
W(
n-τ
1 DA), D
W(
n-τ
2 DA), E
W(
n-τ
1 EA), E
W(
n-τ
2 EA),以加快回音消除的收斂時間,進而消除收音訊號A中屬於合成語音訊號C
W~E
W的成分(步驟S570)。
綜上所述,在本發明實施例的會議裝置及用於會議的回音消除方法中,利用已知的聲音浮水印訊號估計所欲消除合成語音訊號的延遲時間,並據以消除這些其他會議裝置的合成語音訊號。其中,本發明實施例先得出聲音浮水印訊號對應的初始延遲時間,可減少回音消除的收斂時間。即便會議裝置之間的位置關係不斷地變動,仍可達到預期的收斂效果。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1、1’:會議系統
10a~10e:會議終端
30:本地訊號管理裝置
50:分配伺服器
11:收音器
13:揚聲器
15:通訊收發器
17:記憶體
19:處理器
A~E:收音訊號
A’~E’:使用者語音訊號
A”~E”:輸出聲音訊號
M
A~M
E:聲音浮水印訊號
A
W~ E
W:合成語音訊號
τ
1 CA、τ
2 CA、τ
1 DA、τ
2 DA、τ
1 EA、τ
2 EA:初始延遲時間
C
W(
n-τ
1 CA)、C
W(
n-τ
2 CA)、D
W(
n-τ
1 DA)、D
W(
n-τ
2 DA)、E
W(
n-τ
1 EA)、E
W(
n-τ
2 EA):初始延遲訊號
S210~S250、S510~S570:步驟
圖1是依據本發明一實施例的會議系統的示意圖。
圖2是依據本發明一實施例的用於會議的回音消除方法的流程圖。
圖3是依據本發明一實施例說明合成語音訊號之產生的示意圖。
圖4是依據本發明一實施例的會議系統的示意圖。
圖5是依據本發明一實施例的用於會議的回音消除方法的流程圖。
S210~S250:步驟
Claims (8)
- 一種用於會議的回音消除方法,適用於多個會議終端,每一該會議終端包括一收音器及一揚聲器,且該回音消除方法包括:接收一合成語音訊號,其中該合成語音訊號包括該些會議終端中的一第一會議終端對應的發話者的一使用者語音訊號、該第一會議終端對應的一聲音浮水印訊號、該些會議終端中的一第二會議終端對應的發話者的一第二使用者語音訊號、以及該第二會議終端對應的一第二聲音浮水印訊號;偵測在一時變系統下的一收音訊號中的該聲音浮水印訊號及該第二聲音浮水印訊號相對於該合成語音訊號的至少一延遲時間,其中該收音訊號是透過該些會議終端中的一第三會議終端的該收音器所錄製,且偵測該至少一延遲時間包括:將至少一初始延遲訊號帶入一自適性濾波器並使該自適性濾波器收斂以估測一回音路徑的脈衝響應,其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該收音訊號中的該聲音浮水印訊號與該合成音訊號中的該聲音浮水印訊號之間的至少一初始延遲時間,該聲音浮水印訊號經該時變系統下的該回音路徑而延遲該至少一延遲時間,該回音路徑是該收音器及該揚聲器之間的通道,當該自適性濾波器至一穩態時,以該穩態下的該自適性濾波器的濾波器係數估測經該回音路徑延遲的該合成語音訊號,且將該經該回音路徑延遲的該合成語音訊號的延遲時間 作為該至少一延遲時間;以及依據該至少一延遲時間消除該收音訊號中的一回音,其中將經該至少一延遲時間的該合成語音訊號作為該回音。
- 如請求項1所述的用於會議的回音消除方法,其中偵測該收音訊號中該聲音浮水印訊號所對應的該至少一延遲時間的步驟包括:依據該收音訊號與該聲音浮水印訊號的交叉相關性中的至少一峰值決定該至少一初始延遲時間。
- 如請求項2所述的用於會議的回音消除方法,其中偵測該收音訊號中該聲音浮水印訊號所對應的該至少一延遲時間的步驟包括:依據該至少一初始延遲時間產生對應於該使用者語音訊號的至少一初始延遲訊號,其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該至少一初始延遲時間;以及依據該至少一初始延遲訊號估測一回音路徑,其中該聲音浮水印訊號經該回音路徑後延遲該至少一延遲時間,且該回音路徑是該收音器及該揚聲器之間的通道。
- 如請求項1所述的用於會議的回音消除方法,其中該聲音浮水印訊號的頻率高於16千赫茲(kHz)。
- 一種會議終端,包括:一收音器,用以錄音以取得對應的發話者的一收音訊號;一揚聲器,用以播放聲音; 一通訊收發器,用以傳送或接收資料;一處理器,耦接該收音器、該揚聲器及該通訊收發器,並經配置用以:透過該通訊收發器接收一合成語音訊號,其中該合成語音訊號包括一第二會議終端對應的發話者的一使用者語音訊號、該第二會議終端對應的一聲音浮水印訊號、該些會議終端中的一第三會議終端對應的發話者的一第二使用者語音訊號、以及該第三會議終端對應的一第二聲音浮水印訊號;偵測在一時變系統下的該收音訊號中的該聲音浮水印訊號及該第二聲音浮水印訊號相對於該合成語音訊號的至少一延遲時間,且偵測該至少一延遲時間包括:將至少一初始延遲訊號帶入一自適性濾波器並使該自適性濾波器收斂以估測一回音路徑的脈衝響應,其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該收音訊號中的該聲音浮水印訊號與該合成音訊號中的該聲音浮水印訊號之間的至少一初始延遲時間,該聲音浮水印訊號經該回音路徑而延遲該至少一延遲時間,該回音路徑是該收音器及該揚聲器之間的通道,當該自適性濾波器至一穩態時,以該穩態下的該自適性濾波器的濾波器係數估測經該回音路徑延遲的該合成語音訊號,且將該經該回音路徑延遲的該合成語音訊號的延遲時間作為該至少一延遲時間;以及依據該至少一延遲時間消除該收音訊號中的一回音,其 中將經該至少一延遲時間的該合成語音訊號作為該回音。
- 如請求項5所述的會議終端,其中該處理器更經配置用以:依據該收音訊號與該聲音浮水印訊號的交叉相關中的至少一峰值決定該至少一初始延遲時間。
- 如請求項6所述的會議終端,其中該處理器更經配置用以:依據該至少一初始延遲時間產生對應於該使用者語音訊號的至少一初始延遲訊號,其中該至少一初始延遲訊號相對於該使用者語音訊號的延遲時間為該至少一初始延遲時間;以及依據該至少一初始延遲訊號估測一回音路徑,其中該聲音浮水印訊號經該回音路徑後延遲該至少一延遲時間,且該回音路徑是該收音器及該揚聲器之間的通道。
- 如請求項5所述的會議終端,其中該聲音浮水印訊號的頻率高於16kHz。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110130678A TWI790718B (zh) | 2021-08-19 | 2021-08-19 | 會議終端及用於會議的回音消除方法 |
US17/474,077 US11804237B2 (en) | 2021-08-19 | 2021-09-14 | Conference terminal and echo cancellation method for conference |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110130678A TWI790718B (zh) | 2021-08-19 | 2021-08-19 | 會議終端及用於會議的回音消除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI790718B true TWI790718B (zh) | 2023-01-21 |
TW202309878A TW202309878A (zh) | 2023-03-01 |
Family
ID=85228509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110130678A TWI790718B (zh) | 2021-08-19 | 2021-08-19 | 會議終端及用於會議的回音消除方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11804237B2 (zh) |
TW (1) | TWI790718B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI790718B (zh) * | 2021-08-19 | 2023-01-21 | 宏碁股份有限公司 | 會議終端及用於會議的回音消除方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100157990A1 (en) * | 2008-12-19 | 2010-06-24 | Openpeak, Inc. | Systems for providing telephony and digital media services |
US20120213380A1 (en) * | 2009-10-29 | 2012-08-23 | Universite Paris Descartes | Method and Device for Cancelling Acoustic Echo by Audio Watermarking |
TW201448589A (zh) * | 2013-03-04 | 2014-12-16 | Janus Technologies Inc | 用於保全電腦視訊及音訊子系統之方法及設備 |
CN106716527A (zh) * | 2014-07-31 | 2017-05-24 | 皇家Kpn公司 | 噪声抑制系统和方法 |
CN112400158A (zh) * | 2018-07-09 | 2021-02-23 | 皇家飞利浦有限公司 | 音频装置、音频分配系统和操作其的方法 |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991385A (en) * | 1997-07-16 | 1999-11-23 | International Business Machines Corporation | Enhanced audio teleconferencing with sound field effect |
US8812319B2 (en) * | 2001-01-31 | 2014-08-19 | Ibiometrics, Inc. | Dynamic pass phrase security system (DPSS) |
US8976712B2 (en) * | 2001-05-10 | 2015-03-10 | Polycom, Inc. | Speakerphone and conference bridge which request and perform polling operations |
WO2004002028A2 (en) * | 2002-06-19 | 2003-12-31 | Koninklijke Philips Electronics N.V. | Audio signal processing apparatus and method |
US20040059571A1 (en) * | 2002-09-24 | 2004-03-25 | Marantz Japan, Inc. | System for inputting speech, radio receiver and communication system |
US7617094B2 (en) * | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
JP3812848B2 (ja) * | 2004-06-04 | 2006-08-23 | 松下電器産業株式会社 | 音声合成装置 |
US20060227968A1 (en) * | 2005-04-08 | 2006-10-12 | Chen Oscal T | Speech watermark system |
US20090253418A1 (en) * | 2005-06-30 | 2009-10-08 | Jorma Makinen | System for conference call and corresponding devices, method and program products |
WO2007109531A2 (en) * | 2006-03-17 | 2007-09-27 | University Of Rochester | Watermark synchronization system and method for embedding in features tolerant to errors in feature estimates at receiver |
US20070291108A1 (en) * | 2006-06-16 | 2007-12-20 | Ericsson, Inc. | Conference layout control and control protocol |
EP1885111B1 (en) | 2006-08-01 | 2011-03-02 | Alcatel Lucent | Conference server |
US8396206B2 (en) * | 2007-02-15 | 2013-03-12 | Infineon Technologies Ag | Multi-channel communication device and methods for reducing echoes by inserting a training sequence under a spectral mask |
US8391472B2 (en) * | 2007-06-06 | 2013-03-05 | Dreamworks Animation Llc | Acoustic echo cancellation solution for video conferencing |
WO2009047858A1 (ja) * | 2007-10-12 | 2009-04-16 | Fujitsu Limited | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体 |
US8516533B2 (en) * | 2008-11-07 | 2013-08-20 | Digimarc Corporation | Second screen methods and arrangements |
WO2010071521A1 (en) * | 2008-12-19 | 2010-06-24 | Telefonaktiebolaget L M Ericsson (Publ) | Systems and methods for improving the intelligibility of speech in a noisy environment |
US9154730B2 (en) * | 2009-10-16 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | System and method for determining the active talkers in a video conference |
US9210503B2 (en) * | 2009-12-02 | 2015-12-08 | Audience, Inc. | Audio zoom |
JP5422754B2 (ja) * | 2010-01-04 | 2014-02-19 | 株式会社東芝 | 音声合成装置及び方法 |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
US9767823B2 (en) * | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and detecting a watermarked signal |
US9270807B2 (en) * | 2011-02-23 | 2016-02-23 | Digimarc Corporation | Audio localization using audio signal encoding and recognition |
US9037458B2 (en) * | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
US8930182B2 (en) * | 2011-03-17 | 2015-01-06 | International Business Machines Corporation | Voice transformation with encoded information |
FR2976111B1 (fr) * | 2011-06-01 | 2013-07-05 | Parrot | Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" |
US8958571B2 (en) * | 2011-06-03 | 2015-02-17 | Cirrus Logic, Inc. | MIC covering detection in personal audio devices |
RU2616534C2 (ru) * | 2011-10-24 | 2017-04-17 | Конинклейке Филипс Н.В. | Ослабление шума при передаче аудиосигналов |
US8890925B2 (en) * | 2011-12-07 | 2014-11-18 | Positron Telecommunication Systems, Inc. | Systems and methods for mapping a URI to a plurality of endpoints for a SIP communication |
CN103179296B (zh) * | 2011-12-26 | 2017-02-15 | 中兴通讯股份有限公司 | 一种回波抵消器及回波抵消方法 |
US9378752B2 (en) * | 2012-09-05 | 2016-06-28 | Honda Motor Co., Ltd. | Sound processing device, sound processing method, and sound processing program |
US9460729B2 (en) * | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US9210270B2 (en) * | 2012-11-15 | 2015-12-08 | Qualcomm Incorporated | Echo cancellation for ultrasound |
JP6017591B2 (ja) * | 2013-01-18 | 2016-11-02 | 株式会社東芝 | 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム |
EP2887350B1 (en) * | 2013-12-19 | 2016-10-05 | Dolby Laboratories Licensing Corporation | Adaptive quantization noise filtering of decoded audio data |
WO2015108535A1 (en) | 2014-01-17 | 2015-07-23 | Intel Corporation | Mechanism for facilitating watermarking-based management of echoes for content transmission at communication devices |
GB201406574D0 (en) * | 2014-04-11 | 2014-05-28 | Microsoft Corp | Audio Signal Processing |
US9390725B2 (en) * | 2014-08-26 | 2016-07-12 | ClearOne Inc. | Systems and methods for noise reduction using speech recognition and speech synthesis |
US9715873B2 (en) * | 2014-08-26 | 2017-07-25 | Clearone, Inc. | Method for adding realism to synthetic speech |
KR20170071585A (ko) * | 2014-10-20 | 2017-06-23 | 아우디맥스, 엘엘씨 | 지능형 음성 인식 및 처리를 위한 시스템, 방법 및 디바이스 |
JP2016167678A (ja) * | 2015-03-09 | 2016-09-15 | 株式会社リコー | 通信装置、通信システム、ログデータ蓄積方法、及びプログラム |
JP6690309B2 (ja) * | 2016-03-09 | 2020-04-28 | ヤマハ株式会社 | エコー低減装置、及び音声通信装置 |
US10122863B2 (en) * | 2016-09-13 | 2018-11-06 | Microsemi Semiconductor (U.S.) Inc. | Full duplex voice communication system and method |
US20180146370A1 (en) * | 2016-11-22 | 2018-05-24 | Ashok Krishnaswamy | Method and apparatus for secured authentication using voice biometrics and watermarking |
US9928847B1 (en) * | 2017-08-04 | 2018-03-27 | Revolabs, Inc. | System and method for acoustic echo cancellation |
US10755694B2 (en) * | 2018-03-15 | 2020-08-25 | Motorola Mobility Llc | Electronic device with voice-synthesis and acoustic watermark capabilities |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
CN112425146B (zh) * | 2018-06-15 | 2023-04-14 | 舒尔获得控股公司 | 集成会议平台的系统及方法 |
US10978081B2 (en) * | 2018-09-25 | 2021-04-13 | Amazon Technologies, Inc. | Audio watermark encoding/decoding |
US11120423B2 (en) * | 2019-03-18 | 2021-09-14 | Amazon Technologies, Inc. | Secure data submission via audio transmission |
US11269976B2 (en) * | 2019-03-20 | 2022-03-08 | Saudi Arabian Oil Company | Apparatus and method for watermarking a call signal |
US11172001B1 (en) * | 2019-03-26 | 2021-11-09 | Amazon Technologies, Inc. | Announcement in a communications session |
US11848023B2 (en) * | 2019-06-10 | 2023-12-19 | Google Llc | Audio noise reduction |
US20210050024A1 (en) * | 2019-08-12 | 2021-02-18 | Nuance Communications, Inc. | Watermarking of Synthetic Speech |
US11538485B2 (en) * | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US11138964B2 (en) * | 2019-10-21 | 2021-10-05 | Baidu Usa Llc | Inaudible watermark enabled text-to-speech framework |
US11430424B2 (en) * | 2019-11-13 | 2022-08-30 | Meta Platforms Technologies, Llc | Generating a voice model for a user |
US20210304783A1 (en) * | 2020-03-31 | 2021-09-30 | International Business Machines Corporation | Voice conversion and verification |
US11443401B2 (en) * | 2020-05-21 | 2022-09-13 | At&T Intellectual Property I, L.P. | Digital watermarking |
US11122160B1 (en) * | 2020-07-08 | 2021-09-14 | Lenovo (Singapore) Pte. Ltd. | Detecting and correcting audio echo |
TWI757954B (zh) * | 2020-11-05 | 2022-03-11 | 宏碁股份有限公司 | 會議終端及用於會議的多裝置協調方法 |
US20220206884A1 (en) * | 2020-12-30 | 2022-06-30 | Genesys Telecommunications Laboratories, Inc. | Systems and methods for conducting an automated dialogue |
TWI790718B (zh) * | 2021-08-19 | 2023-01-21 | 宏碁股份有限公司 | 會議終端及用於會議的回音消除方法 |
-
2021
- 2021-08-19 TW TW110130678A patent/TWI790718B/zh active
- 2021-09-14 US US17/474,077 patent/US11804237B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100157990A1 (en) * | 2008-12-19 | 2010-06-24 | Openpeak, Inc. | Systems for providing telephony and digital media services |
US20120213380A1 (en) * | 2009-10-29 | 2012-08-23 | Universite Paris Descartes | Method and Device for Cancelling Acoustic Echo by Audio Watermarking |
TW201448589A (zh) * | 2013-03-04 | 2014-12-16 | Janus Technologies Inc | 用於保全電腦視訊及音訊子系統之方法及設備 |
CN106716527A (zh) * | 2014-07-31 | 2017-05-24 | 皇家Kpn公司 | 噪声抑制系统和方法 |
CN112400158A (zh) * | 2018-07-09 | 2021-02-23 | 皇家飞利浦有限公司 | 音频装置、音频分配系统和操作其的方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230058981A1 (en) | 2023-02-23 |
TW202309878A (zh) | 2023-03-01 |
US11804237B2 (en) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8842851B2 (en) | Audio source localization system and method | |
JP5911955B2 (ja) | 電子デバイス上でのマスキング信号の生成 | |
KR101255404B1 (ko) | 컴퓨터 시스템에서 에코 소거를 적용할지를 판정하는 방법,컴퓨터 시스템에서 에코 소거 알고리즘을 구성하는 방법및 에코 소거 알고리즘을 구성하는 컴퓨터 시스템 | |
US20090253418A1 (en) | System for conference call and corresponding devices, method and program products | |
US7889872B2 (en) | Device and method for integrating sound effect processing and active noise control | |
US9749474B2 (en) | Matching reverberation in teleconferencing environments | |
US20110181452A1 (en) | Usage of Speaker Microphone for Sound Enhancement | |
CN108141502A (zh) | 音频信号处理 | |
EP3791565A1 (en) | Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters | |
EP2772070A1 (en) | Processing audio signals | |
US9491545B2 (en) | Methods and devices for reverberation suppression | |
USRE49462E1 (en) | Adaptive noise cancellation for multiple audio endpoints in a shared space | |
US9491306B2 (en) | Signal processing control in an audio device | |
US20190221226A1 (en) | Electronic apparatus and echo cancellation method applied to electronic apparatus | |
TWI790718B (zh) | 會議終端及用於會議的回音消除方法 | |
CN103370741B (zh) | 处理音频信号 | |
JPH09233198A (ja) | 全二重音声会議電話のためのソフトウエアベースのブリッジ方法及び装置 | |
CN115798495A (zh) | 会议终端及用于会议的回声消除方法 | |
Härmä | Ambient telephony: scenarios and research challenges. | |
TWI784594B (zh) | 會議終端及聲音浮水印的嵌入方法 | |
TWI790694B (zh) | 聲音浮水印的處理方法及聲音浮水印產生裝置 | |
TWI806299B (zh) | 聲音浮水印的處理方法及聲音浮水印產生裝置 | |
US10796708B2 (en) | Method for eliminating sound and electronic device performing the same | |
CN115700881A (zh) | 会议终端及声音水印的嵌入方法 | |
CN115705847A (zh) | 声音水印的处理方法及声音水印生成装置 |