JPWO2020110808A1 - 翻訳装置及び翻訳方法 - Google Patents
翻訳装置及び翻訳方法 Download PDFInfo
- Publication number
- JPWO2020110808A1 JPWO2020110808A1 JP2020558387A JP2020558387A JPWO2020110808A1 JP WO2020110808 A1 JPWO2020110808 A1 JP WO2020110808A1 JP 2020558387 A JP2020558387 A JP 2020558387A JP 2020558387 A JP2020558387 A JP 2020558387A JP WO2020110808 A1 JPWO2020110808 A1 JP WO2020110808A1
- Authority
- JP
- Japan
- Prior art keywords
- circuit
- voice
- echo
- speaker
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 356
- 238000000034 method Methods 0.000 title claims description 47
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 216
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 216
- 230000005540 biological transmission Effects 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims description 549
- 238000012546 transfer Methods 0.000 claims description 398
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 description 43
- 238000012545 processing Methods 0.000 description 42
- 230000005534 acoustic noise Effects 0.000 description 31
- 238000012886 linear function Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 10
- 238000012880 independent component analysis Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/58—Details of telephonic subscriber devices including a multilanguage function
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Machine Translation (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
Description
以下、図1及び図2を用いて、実施の形態1を説明する。
図1は、実施の形態1における翻訳装置20の適用例を示す図である。ここでは、翻訳装置20をカウンター10をはさんで向かい合う第1話者11と第2話者12との会話を翻訳して拡声する装置として適用した例が示されている。
図2は、図1に示された実施の形態1における翻訳装置20の構成を示すブロック図である。この翻訳装置20は、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1表示回路25、第2表示回路26、第1言語選択回路27、第2言語選択回路28、第1エコーキャンセラ40、第2エコーキャンセラ50、第3エコーキャンセラ60、第4エコーキャンセラ70、第1クロストークキャンセラ80、第2クロストークキャンセラ90、第1音声認識回路31、第2音声認識回路32、第1翻訳回路33、第2翻訳回路34、第1音声合成回路35、第2音声合成回路36、制御回路37及び映像信号発生回路38を備える。また、翻訳装置20は、図示しないが、バスを介して相互に接続されるCPU(Central Processing Unit)、ROM(Read Only Memory)、及びRAM(Random Access Memory)を備えていてもよい。また、図1に示した処理装置201には、第1エコーキャンセラ40、第2エコーキャンセラ50、第3エコーキャンセラ60、第4エコーキャンセラ70、第1クロストークキャンセラ80、第2クロストークキャンセラ90、第1音声認識回路31、第2音声認識回路32、第1翻訳回路33、第2翻訳回路34、第1音声合成回路35、第2音声合成回路36、制御回路37及び映像信号発生回路38が含まれる。なお、翻訳装置20の各構成要素は、それぞれが有線又は無線で接続されている。
第1エコーキャンセラ40は、第1スピーカ22から拡声された第1翻訳音声が第2マイク23に入力される現象を第1エコー13としたとき、第1翻訳音声と第1エコー13に対応する第1伝達関数とを用いて、第1エコー13を示す第1エコー信号を推定し、第1エコー信号を、第2マイク23の出力信号から除去する回路である。ここで、第1エコー信号とは、第1エコー13の程度を示す信号である。
e1t=y1t−y1’t・・・(式2)
H1(j)t+1=H1(j)t+α1×φ1(e1t)×x1(t−j)・・・(式3)
第2エコーキャンセラ50は、第2スピーカ24から拡声された第2翻訳音声が第1マイク21に入力される現象を第2エコー14としたとき、第2翻訳音声と第2エコー14に対応する第2伝達関数とを用いて、第2エコー14を示す第2エコー信号を推定し、第2エコー信号を、第1マイク21の出力信号から除去する回路である。ここで、第2エコー信号とは、第2エコー14の程度を示す信号である。
e2t=y2t−y2’t・・・(式5)
H2(j)t+1=H2(j)t+α2×φ2(e2t)×x2(t−j)・・・(式6)
第3エコーキャンセラ60は、第1スピーカ22から出力された第1翻訳音声が第1マイク21に入力される現象を第3エコー15としたとき、第1翻訳音声と第3エコー15に対応する第3伝達関数とを用いて、第3エコー15を示す第3エコー信号を推定し、第3エコー信号を、第1マイク21の出力信号から除去する回路である。ここで、第3エコー信号とは、第3エコー15の程度を示す信号である。
e3t=y3t−y3’t・・・(式8)
H3(j)t+1=H3(j)t+α3×φ3(e3t)×x3(t−j)・・・(式9)
第4エコーキャンセラ70は、第2スピーカ24から拡声された第2翻訳音声が第2マイク23に入力される現象を第4エコー16としたとき、第2翻訳音声と第4エコー16に対応する第4伝達関数とを用いて、第4エコー16を示す第4エコー信号を推定し、第4エコー信号を、第2マイク23の出力信号から除去する回路である。ここで、第4エコー信号とは、第4エコー16の程度を示す信号である。
e4t=y4t−y4’t・・・(式11)
H4(j)t+1=H4(j)t+α4×φ4(e4t)×x4(t−j)・・・(式12)
第1クロストークキャンセラ80は、第1音声が第2マイク23に入力される現象を第1クロストーク17としたとき、第1音声を用いて、第1クロストーク17を示す第1クロストーク信号を推定し、第1クロストーク信号を、第2マイク23の出力信号から除去する回路である。すなわち、第1音声に基づいた第2クロストークキャンセラ90の出力信号を用いて、第1クロストーク17の程度を示す第5妨害信号(すなわち第1クロストーク信号)を推定し、第5妨害信号を、第2マイク23の出力信号に基づく第4エコーキャンセラ70の出力信号から除去する回路である。
e5t=y5t−y5’t・・・(式14)
H5(j)t+1=H5(j)t+α5×φ5(e5t)×x5(t−j)・・・(式15)
第2クロストークキャンセラ90は、第2音声が第1マイク21に入力される現象を第2クロストーク18としたとき、第2音声を用いて、第2クロストーク18を示す第2クロストーク信号を推定し、第2クロストーク信号を、第1マイク21の出力信号から除去する回路である。すなわち、第2音声に基づいた第1クロストークキャンセラ80の出力信号を用いて、第2クロストーク18の程度を示す第6妨害信号(すなわち第2クロストーク信号)を推定し、第6妨害信号を、第1マイク21の出力信号に基づく第3エコーキャンセラ60の出力信号から除去する回路である。
e6t=y6t−y6’t・・・(式17)
H6(j)t+1=H6(j)t+α6×φ6(e6t)×x6(t−j)・・・(式18)
以上のように構成された本実施の形態における翻訳装置20は、次のように動作する。
以上説明したように、翻訳装置20は、第1話者11と第2話者12とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、第1話者11の第1音声を入力するための第1マイク21と、第1音声を音声認識して第1文字列を出力するための第1音声認識回路31と、第1音声認識回路31から出力された第1文字列を第2話者12の言語に翻訳して第3文字列を出力するための第1翻訳回路33と、第1翻訳回路33から出力された第3文字列を第1翻訳音声に変換するための第1音声合成回路35と、第1翻訳音声を拡声するための第1スピーカ22と、第2話者12の第2音声を入力するための第2マイク23と、第2音声を音声認識して第2文字列を出力するための第2音声認識回路32と、第2音声認識回路32から出力された第2文字列を第1話者11の言語に翻訳して第4文字列を出力するための第2翻訳回路34と、第2翻訳回路34から出力された第4文字列を第2翻訳音声に変換するための第2音声合成回路36と、第2翻訳音声を拡声するための第2スピーカ24と、第1スピーカ22から拡声された第1翻訳音声が第2マイク23に入力される現象を第1エコー13としたとき、第1翻訳音声と第1エコー13に対応する第1伝達関数とを用いて、第1エコー13を示す第1エコー信号を推定し、第1エコー信号を、第2マイク23の出力信号から除去する第1エコーキャンセラ40と、第2スピーカ24から拡声された第2翻訳音声が第1マイク21に入力される現象を第2エコー14としたとき、第2翻訳音声と第2エコー14に対応する第2伝達関数とを用いて、第2エコー14を示す第2エコー信号を推定し、第2エコー信号を、第1マイク21の出力信号から除去する第2エコーキャンセラ50と、制御回路37とを備え、制御回路37は、第1音声合成回路35が第1翻訳音声を出力している期間に、第1エコーキャンセラ40に、第1エコー信号を推定する第1伝達関数を更新させ、第2音声合成回路36が第2翻訳音声を出力している期間に、第2エコーキャンセラ50に、第2エコー信号を推定する第2伝達関数を更新させる。
上記実施の形態では、第1伝達関数更新回路45は、上記式3に従って伝達関数を更新したが、以下の式19又は式20に示されるように、正規化された式に従って伝達関数を更新してもよい。
実施の形態1では、第1話者11の第1言語と第2話者12の第2言語とが異なる場合を示した。一方で、実施の形態2では、第1話者11の第1言語と第2話者12の第2言語とが同一である場合に適した構成を示す。
図5は、実施の形態2における翻訳装置20aの構成を示すブロック図である。すなわち、図5は、第1言語選択回路27で設定された第1話者11の第1言語と第2言語選択回路28で設定された第2話者12の第2言語とが同一である場合の構成を示すブロック図である。なお、実施の形態2では、実施の形態1と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。
第1ハウリングキャンセラ60aは、第1スピーカ22から出力された音声が第1マイク21に帰還して入力される現象を第1ハウリング15aとしたとき、第1ハウリング15aの程度を示す第1ハウリング信号を推定し、第1ハウリング信号を、第1マイク21の出力信号から除去する回路である。本実施の形態では、第1ハウリングキャンセラ60aは、第1マイク21の出力信号から第1ハウリング信号を除去し、除去後の信号を後述する第2エコー/第2クロストークキャンセラ90aに出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
e7t=y7t−y7’t・・・(式22)
H7(j)t+1=H7(j)t+α7×φ7(e7t)×x7(t−j−τ1)
・・・(式23)
第2ハウリングキャンセラ70aは、第2スピーカ24から出力された音声が第2マイク23に帰還して入力される現象を第2ハウリング16aとしたとき、第2ハウリング16aの程度を示す第2ハウリング信号を推定し、第2ハウリング信号を、第2マイク23の出力信号から除去する回路である。本実施の形態では、第2ハウリングキャンセラ70aは、第2マイク23の出力信号から第2ハウリング信号を除去し、除去後の信号を後述する第1エコー/第1クロストークキャンセラ80aに出力する回路であり、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
e8t=y8t−y8’t・・・(式25)
H8(j)t+1=H8(j)t+α8×φ8(e8t)×x8(t−j−τ2)
・・・(式26)
第1エコー/第1クロストークキャンセラ80aは、第2エコー/第2クロストークキャンセラ90aの出力信号を用いて、第1スピーカ22から出力された音声が第2マイク23に回り込んで入力される第1エコー13a、及び、第1話者11の音声が第2マイク23に入力される第1クロストーク17aの程度を示す第9妨害信号(すなわち第1エコー/第1クロストーク信号)を推定し、第9妨害信号を、第2ハウリングキャンセラ70aの出力信号から除去する回路である。
e9t=y9t−y9’t・・・(式28)
H9(j)t+1=H9(j)t+α9×φ9(e9t)×x9(t−j)・・・(式29)
第2エコー/第2クロストークキャンセラ90aは、第1エコー/第1クロストークキャンセラ80aの出力信号を用いて、第2スピーカ24から出力された音声が第1マイク21に回り込んで入力される第2エコー14a、及び、第2話者12の音声が第1マイク21に入力される第2クロストーク18aの程度を示す第10妨害信号(すなわち第2エコー/第2クロストーク信号)を推定し、第10妨害信号を、第1ハウリングキャンセラ60aの出力信号から除去する回路である。
e10t=y10t−y10’t・・・(式31)
H10(j)t+1=H10(j)t+α10×φ10(e10t)×x10(t−j)
・・・(式32)
以上のように構成された本実施の形態における翻訳装置20aは、次のように動作する。ここでは、実施の形態1で示した翻訳装置20と異なる点を中心に記述する。
以上説明したように、翻訳装置20aは、第1言語選択回路27が受け付けた第1言語と、第2言語選択回路28が受け付けた第2言語とが同一の場合、制御回路37は、第1エコーキャンセラ40と、第2エコーキャンセラ50と、第1翻訳回路33と、第2翻訳回路34と、第1音声合成回路35と、第2音声合成回路36とに、機能を停止させる。
実施の形態2では、第1話者11の第1言語と第2話者12の第2言語とが同一で、拡声が必要な場合を示した。一方で、実施の形態3では、第1話者11の第1言語と第2話者12の第2言語が同一であり、拡声が不要な場合に適した構成を示す。
図6は、実施の形態3における翻訳装置20bの構成を示すブロック図である。なお、実施の形態3では、実施の形態1と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。
以上のように構成された本実施の形態における翻訳装置20bは、次のように動作する。ここでは、実施の形態1で示した翻訳装置20と異なる点を中心に記述する。
このような翻訳装置20bは、第1言語と第2言語とが同一、かつ拡声が不要な場合、第1エコーキャンセラ40と、第2エコーキャンセラ50と、第3エコーキャンセラ60と、第4エコーキャンセラ70と、第1翻訳回路33と、第2翻訳回路34と、第1音声合成回路35と、第2音声合成回路36と、第1スピーカ22と第2スピーカ24とに機能を停止させ、処理速度を上げることができる。
これまで、実施の形態1〜3において、翻訳の要不要、拡声の要不要によって判断される構成を示した。
実施の形態1では、第1言語選択回路27と第2言語選択回路28とによって、第1話者11と第2話者12とが用いる言語を選択する。一方で、実施の形態4では、新たに、第1話者11の音声と第2話者12の音声とによって、第1話者11と第2話者12とが用いる言語を識別する機能を付与した構成を示す。
図8は、実施の形態4における翻訳装置20cの構成を示すブロック図である。なお、実施の形態4では、実施の形態1と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。
以上のように構成された本実施の形態における翻訳装置20cは、次のように動作する。ここでは、実施の形態1で示した翻訳装置20と異なる点を中心に記述する。
以上説明したように、翻訳装置20cは、さらに、第1音声に基づいて第1言語を識別して制御回路37に通知する第1言語識別回路311と、第2音声に基づいて第2言語を識別して制御回路37に通知する第2言語識別回路321とを備え、制御回路37は、第1言語識別回路311が識別した第1言語と、第2言語識別回路321が識別した第2言語と、に基づいて、第1音声認識回路31に、第1言語で音声認識させ、第2音声認識回路32に、第2言語で音声認識させ、第1翻訳回路33に、第1言語から第2言語に翻訳させ、第2翻訳回路34に、第2言語から第1言語に翻訳させ、第1音声合成回路35に、第2言語で音声合成させ、第2音声合成回路36に、第1言語で音声合成させる。
実施の形態2では、第1話者11と第2話者12とが用いる言語を選択し、第1話者11の第1言語と第2話者12の第2言語が同一である場合に適した構成を示した。さらに、実施の形態4においては、第1話者11の音声と第2話者12の音声によって、第1話者11と第2話者12とが用いる言語を識別する機能を付与した構成を示した。
図9は、実施の形態5における翻訳装置20dの構成を示すブロック図である。なお、実施の形態5では、実施の形態2及び実施の形態4と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。
以上のように構成された本実施の形態における翻訳装置20dは、次のように動作する。ここでは、実施の形態2で示した翻訳装置20aと異なる点を中心に記述する。
以上説明したように、翻訳装置20dは、第1言語識別回路311が識別した第1言語と、第2言語識別回路321が識別した第2言語とが同一の場合、制御回路37は、第1エコーキャンセラ40と、第2エコーキャンセラ50と、第1翻訳回路33と、第2翻訳回路34と、第1音声合成回路35と、第2音声合成回路36とに、機能を停止させる。
実施の形態3では、第1話者11と第2話者12とが用いる言語を選択し、第1話者11の第1言語と第2話者12の第2言語とが同一であり、拡声が不要な場合に適した構成を示した。さらに、実施の形態4においては、第1話者11の音声と第2話者12の音声によって、第1話者11と第2話者12とが用いる言語を識別する機能を付与した構成を示した。
図10は、実施の形態6における翻訳装置20eの構成を示すブロック図である。なお、実施の形態6では、実施の形態3と実施の形態4と共通の構成要素については同一の符号を付し、その詳細な説明を省略する。
以上のように構成された本実施の形態における翻訳装置20eで次のように動作する。ここでは、実施の形態3で示した翻訳装置20bと異なる点を中心に記述する。
このような翻訳装置20eは、話者が言語選択回路を使用する必要がなく、より簡便に翻訳できるようになる。第1言語と第2言語とが同一、かつ拡声が不要な場合、第1エコーキャンセラ40と、第2エコーキャンセラ50と、第3エコーキャンセラ60と、第4エコーキャンセラ70と、第1翻訳回路33と、第2翻訳回路34と、第1音声合成回路35と、第2音声合成回路36と、第1スピーカ22と第2スピーカ24とに機能を停止させ、処理速度を上げることができる。
以上のように、本出願において開示する技術の例示として、実施の形態1〜6を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施の形態にも適用できる。また、上記実施の形態1〜6で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
11 第1話者
12 第2話者
13、13a 第1エコー
14、14a 第2エコー
15 第3エコー
15a 第1ハウリング
16 第4エコー
16a 第2ハウリング
17、17a 第1クロストーク
18、18a 第2クロストーク
20、20a、20b、20c、20d、20e 翻訳装置
21 第1マイク
22 第1スピーカ
23 第2マイク
24 第2スピーカ
25 第1表示回路
26 第2表示回路
27 第1言語選択回路
28 第2言語選択回路
31 第1音声認識回路
32 第2音声認識回路
33 第1翻訳回路
34 第2翻訳回路
35 第1音声合成回路
36 第2音声合成回路
37 制御回路
38 映像信号発生回路
40 第1エコーキャンセラ
41 第1減算器
42 第1記憶回路
43 第1畳み込み演算器
44 第1伝達関数記憶回路
45 第1伝達関数更新回路
50 第2エコーキャンセラ
51 第2減算器
52 第2記憶回路
53 第2畳み込み演算器
54 第2伝達関数記憶回路
55 第2伝達関数更新回路
60 第3エコーキャンセラ
60a 第1ハウリングキャンセラ
61 第3減算器
62 第3記憶回路
63 第3畳み込み演算器
64 第3伝達関数記憶回路
65 第3伝達関数更新回路
66 第1遅延器
70 第4エコーキャンセラ
70a 第2ハウリングキャンセラ
71 第4減算器
72 第4記憶回路
73 第4畳み込み演算器
74 第4伝達関数記憶回路
75 第4伝達関数更新回路
76 第2遅延器
80 第1クロストークキャンセラ
80a 第1エコー/第1クロストークキャンセラ
81 第5減算器
82 第5記憶回路
83 第5畳み込み演算器
84 第5伝達関数記憶回路
85 第5伝達関数更新回路
90 第2クロストークキャンセラ
90a 第2エコー/第2クロストークキャンセラ
91 第6減算器
92 第6記憶回路
93 第6畳み込み演算器
94 第6伝達関数記憶回路
95 第6伝達関数更新回路
201 処理装置
291 第1カメラ
292 第2カメラ
311 第1言語識別回路
321 第2言語識別回路
Claims (15)
- 第1話者と第2話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、
前記第1話者の第1音声を入力するための第1マイクと、
前記第1音声を音声認識して第1文字列を出力するための第1音声認識回路と、
前記第1音声認識回路から出力された前記第1文字列を前記第2話者の言語に翻訳して第3文字列を出力するための第1翻訳回路と、
前記第1翻訳回路から出力された前記第3文字列を第1翻訳音声に変換するための第1音声合成回路と、
前記第1翻訳音声を拡声するための第1スピーカと、
前記第2話者の第2音声を入力するための第2マイクと、
前記第2音声を音声認識して第2文字列を出力するための第2音声認識回路と、
前記第2音声認識回路から出力された前記第2文字列を前記第1話者の言語に翻訳して第4文字列を出力するための第2翻訳回路と、
前記第2翻訳回路から出力された前記第4文字列を第2翻訳音声に変換するための第2音声合成回路と、
前記第2翻訳音声を拡声するための第2スピーカと、
前記第1スピーカから拡声された前記第1翻訳音声が前記第2マイクに入力される現象を第1エコーとしたとき、前記第1翻訳音声と前記第1エコーに対応する前記第1伝達関数とを用いて、前記第1エコーを示す第1エコー信号を推定し、前記第1エコー信号を、前記第2マイクの出力信号から除去する第1エコーキャンセラと、
前記第2スピーカから拡声された前記第2翻訳音声が前記第1マイクに入力される現象を第2エコーとしたとき、前記第2翻訳音声と前記第2エコーに対応する前記第2伝達関数とを用いて、前記第2エコーを示す第2エコー信号を推定し、前記第2エコー信号を、前記第1マイクの出力信号から除去する第2エコーキャンセラと、
制御回路とを備え、
前記制御回路は、
前記第1音声合成回路が前記第1翻訳音声を出力している期間に、前記第1エコーキャンセラに、前記第1エコー信号を推定する伝達関数を更新させ、
前記第2音声合成回路が前記第2翻訳音声を出力している期間に、前記第2エコーキャンセラに、前記第2エコー信号を推定する伝達関数を更新させる
翻訳装置。 - さらに、
前記第1スピーカから拡声された前記第1翻訳音声が前記第1マイクに入力される現象を第3エコーとしたとき、前記第1翻訳音声と前記第3エコーに対応する第3伝達関数を用いて、前記第3エコーを示す第3エコー信号を推定し、前記第3エコー信号を、前記第1マイクの前記出力信号から除去する第3エコーキャンセラと、
前記第2スピーカから拡声された前記第2翻訳音声が前記第2マイクに入力される現象を第4エコーとしたとき、前記第2翻訳音声と前記第4エコーに対応する第4伝達関数を用いて、前記第4エコーを示す第4エコー信号を推定し、前記第4エコー信号を、前記第2マイクの前記出力信号から除去する第4エコーキャンセラとを備え、
前記制御回路は、
前記第1音声合成回路が前記第1翻訳音声を出力している期間に、前記第3エコーキャンセラに、前記第3エコー信号を推定する前記第3伝達関数を更新させ、
前記第2音声合成回路が前記第2翻訳音声を出力している期間に、前記第4エコーキャンセラに、前記第4エコー信号を推定する前記第4伝達関数を更新させる
請求項1記載の翻訳装置。 - 第1話者と第2話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、
前記第1話者の第1音声を入力するための第1マイクと、
前記第1音声を音声認識して第1文字列を出力するための第1音声認識回路と、
前記第1音声認識回路から出力された前記第1文字列を前記第2話者の言語に翻訳して第3文字列を出力するための第1翻訳回路と、
前記第1翻訳回路から出力された前記第3文字列を第1翻訳音声に変換するための第1音声合成回路と、
前記第1翻訳音声を拡声するための第1スピーカと、
前記第2話者の第2音声を入力するための第2マイクと、
前記第2音声を音声認識して第2文字列を出力するための第2音声認識回路と、
前記第2音声認識回路から出力された前記第2文字列を前記第1話者の言語に翻訳して第4文字列を出力するための第2翻訳回路と、
前記第2翻訳回路から出力された前記第4文字列を第2翻訳音声に変換するための第2音声合成回路と、
前記第2翻訳音声を拡声するための第2スピーカと、
前記第1スピーカから拡声された前記第1翻訳音声が前記第1マイクに入力される現象を第3エコーとしたとき、前記第1翻訳音声と前記第3エコーに対応する第3伝達関数を用いて、前記第3エコーを示す第3エコー信号を推定し、前記第3エコー信号を、前記第1マイクの前記出力信号から除去する第3エコーキャンセラと、
前記第2スピーカから拡声された前記第2翻訳音声が前記第2マイクに入力される現象を第4エコーとしたとき、前記第2翻訳音声と前記第4エコーに対応する第4伝達関数を用いて、前記第4エコーを示す第4エコー信号を推定し、前記第4エコー信号を、前記第2マイクの前記出力信号から除去する第4エコーキャンセラとを備え、
制御回路とを備え、
前記制御回路は、
前記第1音声合成回路が前記第1翻訳音声を出力している期間に、前記第3エコーキャンセラに、前記第3エコー信号を推定する前記第3伝達関数を更新させ、
前記第2音声合成回路が前記第2翻訳音声を出力している期間に、前記第4エコーキャンセラに、前記第4エコー信号を推定する前記第4伝達関数を更新させる
翻訳装置。 - さらに、
前記第1音声が前記第2マイクに入力される現象を第1クロストークとしたとき、前記第1音声を用いて、前記第1クロストークを示す第1クロストーク信号を推定し、前記第1クロストーク信号を、前記第2マイクの前記出力信号から除去する第1クロストークキャンセラと、
前記第2音声が前記第1マイクに入力される現象を第2クロストークとしたとき、前記第2音声を用いて、前記第2クロストークを示す第2クロストーク信号を推定し、前記第2クロストーク信号を、前記第1マイクの前記出力信号から除去する第2クロストークキャンセラとを備える
請求項1から3のいずれか1項に記載の翻訳装置。 - さらに、
前記第1話者から前記第1話者が用いる第1言語の選択を受け付け、前記制御回路に通知する第1言語選択回路と、
前記第2話者から前記第2話者が用いる第2言語の選択を受け付け、前記制御回路に通知する第2言語選択回路とを備え、
前記制御回路は、
前記第1言語選択回路から通知された第1言語と、前記第2言語選択回路から通知された第2言語と、に基づいて、
前記第1音声認識回路に、前記第1言語で音声認識させ、
前記第2音声認識回路に、前記第2言語で音声認識させ、
前記第1翻訳回路に、前記第1言語から前記第2言語に翻訳させ、
前記第2翻訳回路に、前記第2言語から前記第1言語に翻訳させ、
前記第1音声合成回路に、前記第2言語で音声合成させ、
前記第2音声合成回路に、前記第1言語で音声合成させる
請求項1又は2記載の翻訳装置。 - さらに、
前記第1音声に基づいて第1言語を識別して前記制御回路に通知する第1言語識別回路と、
前記第2音声に基づいて第2言語を識別して前記制御回路に通知する第2言語識別回路とを備え、
前記制御回路は、
前記第1言語識別回路が識別した前記第1言語と、前記第2言語識別回路が識別した前記第2言語と、に基づいて、
前記第1音声認識回路に、前記第1言語で音声認識させ、
前記第2音声認識回路に、前記第2言語で音声認識させ、
前記第1翻訳回路に、前記第1言語から前記第2言語に翻訳させ、
前記第2翻訳回路に、前記第2言語から前記第1言語に翻訳させ、
前記第1音声合成回路に、前記第2言語で音声合成させ、
前記第2音声合成回路に、前記第1言語で音声合成させる
請求項1又は2又は5記載の翻訳装置。 - 前記第1言語選択回路が受け付けた前記第1言語と、前記第2言語選択回路が受け付けた前記第2言語と、が同一の場合、
前記制御回路は、
前記第1エコーキャンセラと、前記第2エコーキャンセラと、前記第1翻訳回路と、前記第2翻訳回路と、前記第1音声合成回路と、前記第2音声合成回路とに、機能を停止させる
請求項5記載の翻訳装置。 - 前記第1言語識別回路が識別した前記第1言語と、前記第2言語識別回路が識別した前記第2言語と、が同一の場合、
前記制御回路は、
前記第1エコーキャンセラと、前記第2エコーキャンセラと、前記第1翻訳回路と、前記第2翻訳回路と、前記第1音声合成回路と、前記第2音声合成回路とに、機能を停止させる
請求項6記載の翻訳装置。 - さらに、
第1音声に基づいて、前記第1話者の性別判定を行う第1音声性別判定回路と、
第2音声に基づいて、前記第2話者の性別判定を行う第2音声性別判定回路とを備え、
前記制御回路は、
前記第1音声合成回路に、前記第1音声性別判定回路の判定結果と同じ性別の合成音声を、出力させ、
前記第2音声合成回路に、前記第2音声性別判定回路の判定結果と同じ性別の合成音声を、出力させる
請求項1から8のいずれか1項に記載の翻訳装置。 - さらに、
前記第1話者の顔を撮影する第1カメラと、
前記第1カメラから出力された第1映像信号に基づいて、前記第1話者を特定する第1顔認識回路と、
前記第2話者の顔を撮影する第2カメラと、
前記第2カメラから出力された第2映像信号に基づいて、前記第2話者を特定する第2顔認識回路と、
話者と前記話者が用いる言語との対を記憶しているデータベースとを備え、
前記制御回路は、
前記第1顔認識回路が特定した前記第1話者の言語が前記データベースに登録されている場合には、前記第1音声認識回路と前記第1翻訳回路と前記第2翻訳回路と前記第1音声合成回路とに、第1話者の第1言語を通知し、
前記第2顔認識回路が特定した前記第2話者の言語が前記データベースに登録されている場合には、前記第2音声認識回路と前記第1翻訳回路と前記第2翻訳回路と前記第2音声合成回路とに、第2話者の第2言語を通知する
請求項1から9のいずれか1項に記載の翻訳装置。 - さらに、
前記第1カメラから出力された前記第1映像信号に基づいて、前記第1話者の性別判定を行う第1映像性別判定回路と、
前記第2カメラから出力された前記第2映像信号に基づいて、前記第2話者の性別判定を行う第2映像性別判定回路とを備え、
前記制御回路は、
前記第1音声合成回路に、前記第1映像性別判定回路の判定結果と同じ性別の合成音声を出力させ
前記第2音声合成回路に、前記第2映像性別判定回路の判定結果と同じ性別の合成音声を出力させる
請求項10記載の翻訳装置。 - 第1話者と第2話者とによる会話において、一方の話者の言語を他方の話者の言語に翻訳して合成音声を拡声する翻訳装置であって、
前記第1話者の第1音声を入力するための第1マイクと、
前記第1音声を音声認識して第1文字列を出力するための第1音声認識回路と、
前記第1音声認識回路から出力された前記第1文字列を前記第2話者の言語に翻訳して第3文字列を出力するための第1翻訳回路と、
前記第1翻訳回路から出力された前記第3文字列を第1翻訳音声に変換するための第1音声合成回路と、
前記第2話者の第2音声を入力するための第2マイクと、
前記第2音声を音声認識して第2文字列を出力するための第2音声認識回路と、
前記第2音声認識回路から出力された前記第2文字列を前記第1話者の言語に翻訳して第4文字列を出力するための第2翻訳回路と、
前記第2翻訳回路から出力された前記第4文字列を第2翻訳音声に変換するための第2音声合成回路と、
前記第1音声合成回路が出力する前記第1翻訳音声と前記第2音声合成回路が出力する前記第2翻訳音声とを加算して加算翻訳音声を出力する加算回路と、
前記加算回路が出力する加算翻訳音声を拡声するためのスピーカと、
前記スピーカから拡声された前記加算翻訳音声が前記第2マイクに入力される現象を第5エコーとしたとき、前記加算翻訳音声と前記第5エコーに対応する前記第5伝達関数とを用いて、前記第5エコーを示す第5エコー信号を推定し、前記第5エコー信号を、前記第2マイクの出力信号から除去する第5エコーキャンセラと、
前記スピーカから拡声された前記加算翻訳音声が前記第1マイクに入力される現象を第6エコーとしたとき、前記加算翻訳音声と前記第6エコーに対応する前記第6伝達関数とを用いて、前記第6エコーを示す第6エコー信号を推定し、前記第6エコー信号を、前記第1マイクの出力信号から除去する第6エコーキャンセラと、
制御回路とを備え、
前記制御回路は、前記第1音声合成回路が前記第1翻訳音声を出力し、又は前記第2音声合成回路が前記第2翻訳音声を出力している期間に、前記第5エコーキャンセラに、前記第5エコー信号を推定する伝達関数を更新させ、
前記第1音声合成回路が前記第1翻訳音声を出力し、又は前記第2音声合成回路が前記第2翻訳音声を出力している期間に、前記第6エコーキャンセラに、前記第6エコー信号を推定する伝達関数を更新させる
翻訳装置。 - さらに、
前記第1音声が前記第2マイクに入力される現象を第1クロストークとしたとき、前記第1音声を用いて、前記第1クロストークを示す第1クロストーク信号を推定し、前記第1クロストーク信号を、前記第2マイクの前記出力信号から除去する第1クロストークキャンセラと、
前記第2音声が前記第1マイクに入力される現象を第2クロストークとしたとき、前記第2音声を用いて、前記第2クロストークを示す第2クロストーク信号を推定し、前記第2クロストーク信号を、前記第1マイクの前記出力信号から除去する第2クロストークキャンセラとを備える
請求項12記載の翻訳装置。 - 第1話者と第2話者とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、
前記第1話者の第1音声を入力するための第1入力ステップと、
前記第1音声を音声認識して第1文字列を出力するための第1音声認識ステップと、
前記第1音声認識ステップから出力された前記第1文字列を前記第2話者の言語に翻訳して第3文字列を出力するための第1翻訳ステップと、
前記第1翻訳ステップから出力された前記第3文字列を第1翻訳音声に変換するための第1音声合成ステップと、
前記第1翻訳音声を拡声するための第1拡声ステップと、
前記第2話者の第2音声を入力するための第2入力ステップと、
前記第2音声を音声認識して第2文字列を出力するための第2音声認識ステップと、
前記第2音声認識ステップから出力された前記第2文字列を前記第1話者の言語に翻訳して第4文字列を出力するための第2翻訳ステップと、
前記第2翻訳ステップから出力された前記第4文字列を第2翻訳音声に変換するための第2音声合成ステップと、
前記第2翻訳音声を拡声するための第2拡声ステップと、
前記第1拡声ステップにて拡声された前記第1翻訳音声が前記第2入力ステップにて入力される現象を第1エコーとしたとき、前記第1翻訳音声と前記第1エコーに対応する第1伝達関数とを用いて、前記第1エコーを示す第1エコー信号を推定し、前記第1エコー信号を、前記第2入力ステップの出力信号から除去する第1エコーキャンセラステップと、
前記第2拡声ステップにて拡声された前記第2翻訳音声が前記第1入力ステップにて入力される現象を第2エコーとしたとき、前記第2翻訳音声と前記第2エコーに対応する第2伝達関数とを用いて、前記第2エコーを示す第2エコー信号を推定し、前記第2エコー信号を、前記第1入力ステップの出力信号から除去する第2エコーキャンセラステップと、
前記第1音声合成ステップにて前記第1翻訳音声を出力している期間に、前記第1エコーキャンセラステップにおいて、前記第1エコー信号を推定する前記第1伝達関数を更新し、前記第2音声合成ステップにて前記第2翻訳音声を出力している期間に、前記第2エコーキャンセラステップにおいて、前記第2エコー信号を推定する前記第2伝達関数を更新するように指示を与える制御ステップとを含む
翻訳方法。 - 第1話者と第2話者とによる会話において、自分の言語を相手の言語に翻訳して合成音声を拡声する翻訳方法であって、
前記第1話者の第1音声を入力するための第1入力ステップと、
前記第1音声を音声認識して第1文字列を出力するための第1音声認識ステップと、
前記第1音声認識ステップから出力された前記第1文字列を前記第2話者の言語に翻訳して第3文字列を出力するための第1翻訳ステップと、
前記第1翻訳ステップから出力された前記第3文字列を第1翻訳音声に変換するための第1音声合成ステップと、
前記第1翻訳音声を拡声するための第1拡声ステップと、
前記第2話者の第2音声を入力するための第2入力ステップと、
前記第2音声を音声認識して第2文字列を出力するための第2音声認識ステップと、
前記第2音声認識ステップから出力された前記第2文字列を前記第1話者の言語に翻訳して第4文字列を出力するための第2翻訳ステップと、
前記第2翻訳ステップから出力された前記第4文字列を第2翻訳音声に変換するための第2音声合成ステップと、
前記第2翻訳音声を拡声するための第2拡声ステップと、
前記第1拡声ステップにて出力された前記第1翻訳音声が前記第1入力ステップにて入力される現象を第3エコーとしたとき、前記第1翻訳音声と前記第3エコーに対応する第3伝達関数とを用いて、前記第3エコーを示す第3エコー信号を推定し、前記第3エコー信号を、前記第1入力ステップの出力信号から除去する第3エコーキャンセラステップと、
前記第2拡声ステップにて出力された前記第2翻訳音声が前記第2入力ステップにて入力される現象を第4エコーとしたとき、前記第2翻訳音声と前記第4エコーに対応する第4伝達関数とを用いて、前記第4エコーを示す第4エコー信号を推定し、前記第4エコー信号を、前記第2入力ステップの出力信号から除去する第4エコーキャンセラステップと、
前記第1音声合成ステップにて前記第1翻訳音声を出力している期間に、前記第3エコーキャンセラステップにおいて、前記第3エコー信号を推定する前記第3伝達関数を更新し、前記第2音声合成ステップから前記第2翻訳音声を出力している期間に、前記第4エコーキャンセラステップにおいて、前記第4エコー信号を推定する前記第4伝達関数を更新するように指示を与える制御ステップとを含む
翻訳方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018225215 | 2018-11-30 | ||
JP2018225215 | 2018-11-30 | ||
PCT/JP2019/045118 WO2020110808A1 (ja) | 2018-11-30 | 2019-11-18 | 翻訳装置及び翻訳方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020110808A1 true JPWO2020110808A1 (ja) | 2021-10-21 |
JP7194900B2 JP7194900B2 (ja) | 2022-12-23 |
Family
ID=70852073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020558387A Active JP7194900B2 (ja) | 2018-11-30 | 2019-11-18 | 翻訳装置及び翻訳方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220027579A1 (ja) |
EP (1) | EP3890288A4 (ja) |
JP (1) | JP7194900B2 (ja) |
CN (1) | CN113168840A (ja) |
WO (1) | WO2020110808A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021252039A1 (en) * | 2020-06-10 | 2021-12-16 | Google Llc | Textual echo cancelation |
US11887579B1 (en) * | 2022-09-28 | 2024-01-30 | Intuit Inc. | Synthetic utterance generation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012093641A (ja) * | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
JP6311136B2 (ja) * | 2015-10-16 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 双方向会話補助装置及び双方向会話補助方法 |
JP2018173652A (ja) * | 2016-07-08 | 2018-11-08 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5655247A (en) | 1979-10-12 | 1981-05-15 | Dainippon Ink & Chemicals | Manufacture of carbon fiber reinforcing plastic |
JP3228963B2 (ja) * | 1991-09-18 | 2001-11-12 | 株式会社東芝 | エコーキャンセラ |
JP2001075590A (ja) * | 1999-09-07 | 2001-03-23 | Fujitsu Ltd | 音声入出力装置及び方法 |
US7039197B1 (en) * | 2000-10-19 | 2006-05-02 | Lear Corporation | User interface for communication system |
CA2510663A1 (en) * | 2001-12-17 | 2003-06-26 | Neville Jayaratne | A real time translator and method of performing real time translation of a plurality of spoken word languages |
JP2005006243A (ja) * | 2003-06-16 | 2005-01-06 | Matsushita Electric Ind Co Ltd | 回線エコーキャンセル装置、回線エコーキャンセル方法および記録媒体 |
JP4566078B2 (ja) * | 2005-07-04 | 2010-10-20 | アルパイン株式会社 | 車載用ハンズフリー通話装置 |
WO2007055181A1 (ja) * | 2005-11-11 | 2007-05-18 | Matsushita Electric Industrial Co., Ltd. | 対話支援装置 |
CN101426058B (zh) * | 2008-06-17 | 2011-08-03 | 上海华平信息技术股份有限公司 | 一种改善多通道音频通话质量的系统及方法 |
JP4991649B2 (ja) * | 2008-07-02 | 2012-08-01 | パナソニック株式会社 | 音声信号処理装置 |
JP5545467B2 (ja) * | 2009-10-21 | 2014-07-09 | 独立行政法人情報通信研究機構 | 音声翻訳システム、制御装置、および情報処理方法 |
KR101204239B1 (ko) * | 2011-03-31 | 2012-11-26 | 김철희 | 실시간 하울링 제거장치 및 그 방법 |
JP5887535B2 (ja) * | 2012-02-17 | 2016-03-16 | パナソニックIpマネジメント株式会社 | エコー消去装置、エコー消去方法、及び、通話装置 |
KR20150031896A (ko) * | 2013-09-17 | 2015-03-25 | 한국전자통신연구원 | 음성인식장치 및 그 동작방법 |
JP6670224B2 (ja) * | 2016-11-14 | 2020-03-18 | 株式会社日立製作所 | 音声信号処理システム |
US10090000B1 (en) * | 2017-11-01 | 2018-10-02 | GM Global Technology Operations LLC | Efficient echo cancellation using transfer function estimation |
-
2019
- 2019-11-18 JP JP2020558387A patent/JP7194900B2/ja active Active
- 2019-11-18 EP EP19890338.7A patent/EP3890288A4/en not_active Withdrawn
- 2019-11-18 US US17/296,825 patent/US20220027579A1/en not_active Abandoned
- 2019-11-18 CN CN201980077382.9A patent/CN113168840A/zh active Pending
- 2019-11-18 WO PCT/JP2019/045118 patent/WO2020110808A1/ja unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012093641A (ja) * | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
JP6311136B2 (ja) * | 2015-10-16 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 双方向会話補助装置及び双方向会話補助方法 |
JP2018173652A (ja) * | 2016-07-08 | 2018-11-08 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020110808A1 (ja) | 2020-06-04 |
US20220027579A1 (en) | 2022-01-27 |
EP3890288A4 (en) | 2022-05-18 |
JP7194900B2 (ja) | 2022-12-23 |
CN113168840A (zh) | 2021-07-23 |
EP3890288A1 (en) | 2021-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6311136B2 (ja) | 双方向会話補助装置及び双方向会話補助方法 | |
JP6318376B2 (ja) | 音源分離装置および音源分離方法 | |
Hänsler et al. | Acoustic echo and noise control: a practical approach | |
US9672821B2 (en) | Robust speech recognition in the presence of echo and noise using multiple signals for discrimination | |
JP5075042B2 (ja) | エコー消去装置、エコー消去方法、そのプログラム、記録媒体 | |
JP7194900B2 (ja) | 翻訳装置及び翻訳方法 | |
KR20210114518A (ko) | 종단간 음성 변환 | |
JP5045751B2 (ja) | 音声ミキシング装置およびその雑音抑圧方法、ならびにプログラム | |
JP4536020B2 (ja) | 雑音除去機能を有する音声入力装置および方法 | |
WO2018167960A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および音声処理プログラム | |
KR100200635B1 (ko) | 화상회의 시스템에서의 반향제어 장치 및 제어방법 | |
JP4345208B2 (ja) | 反響及び雑音除去装置 | |
JP2006303721A (ja) | 通話内容隠蔽システム、通話装置、通話内容隠蔽方法およびプログラム | |
CN113489855B (zh) | 声音处理方法、装置、电子设备和存储介质 | |
JP4527654B2 (ja) | 音声通信装置 | |
JP2021184587A (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
EP3667662A1 (en) | Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program | |
CN113421579B (zh) | 声音处理方法、装置、电子设备和存储介质 | |
JP5925149B2 (ja) | 音響結合量推定装置、エコー消去装置、その方法及びプログラム | |
TWI840775B (zh) | 執行聲學回聲消除的設備及方法 | |
EP4383255A1 (en) | Acoustic interference suppression through speaker-aware processing | |
JP2933035B2 (ja) | エコーキャンセラ装置 | |
WO2022195955A1 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
JP6922551B2 (ja) | 音声処理装置、音声処理プログラム、及び音声処理方法 | |
WO2023212441A1 (en) | Systems and methods for reducing echo using speech decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221129 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7194900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |