KR102088216B1 - 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 - Google Patents
자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 Download PDFInfo
- Publication number
- KR102088216B1 KR102088216B1 KR1020180132328A KR20180132328A KR102088216B1 KR 102088216 B1 KR102088216 B1 KR 102088216B1 KR 1020180132328 A KR1020180132328 A KR 1020180132328A KR 20180132328 A KR20180132328 A KR 20180132328A KR 102088216 B1 KR102088216 B1 KR 102088216B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- voice
- input
- signal
- users
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013519 translation Methods 0.000 title claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키는 방법, 장치, 컴퓨터 판독가능 매체가 개시된다. 크로스토크를 감소시키는 방법은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계; 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계를 포함한다.
Description
본 발명은 크로스토크를 감소시키는 방법 및 장치에 관한 것이다. 구체적으로는, 자동 통역 시스템에서 본인의 음성 이외의 음성 신호에 의한 크로스토크를 감소시키는 방법 및 장치에 관한 것이다.
교통, 통신수단이 발달함에 따라 각국 간의 인적, 물적 교류가 활발해지고, 서로 다른 언어를 사용하는 개인이나 집단 간에 번역 및 통역에 대한 요구는 점차적으로 증가해 왔다. 그러나, 전문 통역사에 대한 수요가 증가하는 데 반해, 통역사의 공급의 부족 및 비용 문제로 인해 일반인이 활용하기는 어려운 점이 있다.
1990년대부터는 여러 기초 기술이 진화함에 따라 이를 기반으로 자동 통역을 위한 연구가 활발해져 왔다.
자동 통역은 언어 A로 된 사람의 발화를 음성인식, 자동번역 등의 과정을 거쳐서 다른 언어 B로 변환하고, 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려주는 과정 및 기술을 의미한다. 다시 말해, 자동 통역은 음성인식, 자동번역 및 음성합성의 세 가지 요소기술로 구성된다.
이중, 자동 통역을 위한 음성인식은, 여러 해결해야 할 요소들이 있다. 먼저, 음성인식의 정확도가 매우 높아야 한다는 점이다. 음성인식 모듈의 출력이 자동번역 모듈의 입력이 되는데, 자동번역 모듈이 음성인식 오류에 대해 검색 등의 언어처리 모듈보다 더 민감하기 때문이다. 또한, 자동통역이 처리대상으로 하는 음성들이 대체로 대화체의 음성이라는 점도 자동 통역을 위한 음성인식의 난이도를 높이는 요소이다.
또한, 자동 통역은 항상 조용한 곳에서만 사용되는 것이 아니라는 점이다. 자동 통역은 다른 사람들의 소리가 입력될 수 있는 길거리, 여러 명이 회의하고 있는 회의실, 등 다양한 잡음, 특히 다른 화자의 목소리가 존재하는 상황에서 사용될 수 있다. 따라서, 자동 통역에 사용되는 음성인식은 다른 응용 분야에 사용되는 음성인식보다 잡음 제거 면에서 더 고도의 기술을 요한다.
방송뉴스 통역과 같이 언어 A에서 언어 B로의 통역만이 이루어지는 형태의 자동통역을 단방향(one-way) 자동통역이라고 한다. 회의실 내에서 또는 컨퍼런스 콜에서 서로 다른 언어를 사용하는 2인 이상이 대화화는 경우 A→B, B→A의 방향으로 자동통역이 이루어지게 된다. 이런 형태를 양방향(two-way) 자동통역이라고 한다.
양방향 자동통역에서는, 다른 사람의 목소리로 인한 잡음과 사람 이외의 환경에 의한 잡음이 혼재한다. 본 명세서에서는 잡음의 종류를 다른 사람의 목소리로 인한 잡음과 사람 이외의 환경에 의한 잡음으로 구분하고, 전자를 크로스토크, 후자를 환경 잡음이라고 칭한다.
음성인식 과정에서는 환경 잡음이 크로스토크보다 영향이 훨씬 크고 제거하기에 어렵다고 인식되어 왔다. 음성(크로스토크)과 환경 잡음의 주파수 영역이 크게 차이가 나므로, 환경 잡음을 음성으로부터 분리하는 것은 비교적 용이하다. 그러나, 화자 A의 음성과 화자 B의 음성이 혼재하는 경우, 두 음성은 주파수 영역이 유사하여, 이를 서로 분리하는 것이 대단히 어렵다.
상기한 문제점으로 인해 서로 다른 언어를 사용하는 두 명 이상의 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시킬 개선된 방법이 필요하다.
본원 발명의 목적은 자동 통역 시스템의 음성인식 과정에서 통역의 대상이 되는 화자 A의 음성 이외의 음성 신호에 의한 크로스토크를 감소시키는 방법 및 장치를 제공하는 것이다.
본 발명의 제1 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키는 방법을 제공한다. 상기 방법은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계, 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계, 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계를 포함한다.
본 발명의 제2 실시예에서, 상기 방법은 상기 제거하는 단계 이전에, 음성 활동 감지(voice activity detection: VAD) 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계를 더 포함할 수 있고, 상기 제거하는 단계는 상기 음성 구간에 대해서만 실행될 수 있다.
본 발명의 제3 실시예에서, 상기 제거하는 단계가, 음성 패턴 매칭(voice pattern matching) 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 단계, 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거하는 단계를 포함할 수 있다.
본 발명의 제4 실시예에서, 상기 방법은 상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 단계, 및 상기 번역된 문장을 음성으로 합성하여 출력하는 단계를 더 포함할 수 있다.
본 발명의 제5 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키기 위한 장치로서, 적어도 하나의 프로세서 및 상기 적어도 하나의 프로세서에 결합된 메모리를 포함한다.
상기 적어도 하나의 프로세서는 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하고; 그리고 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록 구성된다.
본 발명의 제5 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체를 제공한다. 상기 프로그램은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금: 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하게 하고; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하게 하고; 그리고 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하게 한다.
본원 발명의 실시예들에 따르면, 아웃이어 마이크의 고주파 성분으로 이루어진 음성신호를 기초로, 상대방의 음성 신호에 따른 크로스토크를 상대방의 인이어 마이크에 입력되는 노이즈 적은 신호를 이용하여 제거할 수 있다. 따라서, 상대방 음성에 의한 크로스토크가 현저하게 감소되는 동시에 고주파 성분이 포함된 음성 신호를 획득할 수 있고 이를 자동번역을 위해 사용할 수 있다.
도 1은 본원 발명의 일 실시예에 따른 자동통역 장치의 구성 모듈들을 도시한다.
도 2는 본원 발명의 일 실시예에 따른 인이어 마이크를 구비한 헤드셋을 도시한다.
도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.
도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈을 포함하는 음성인식 모듈을 도시한다.
도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
도 2는 본원 발명의 일 실시예에 따른 인이어 마이크를 구비한 헤드셋을 도시한다.
도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.
도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈을 포함하는 음성인식 모듈을 도시한다.
도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
다양한 양상들이 도면을 참조하여 설명되는데, 동일한 도면부호는 도면 전체에서 동일한 요소들을 나타내는데 사용된다. 이하의 설명에서, 설명의 목적을 위해, 다양한 구체적 사항들이 하나 이상의 양상들의 전체적인 이해를 제공하기 위해 설명된다. 그러나, 이러한 양상은 이러한 구체적 사항들 없이도 실행될 수 있음이 당업자에게 명백할 것이다.
도 1을 참조하면, 본원 발명의 일 실시예에 따른 자동통역 장치(100)는 음성인식 모듈(101), 자동번역 모듈(103) 및 음성합성 모듈(105)을 포함한다.
음성 인식 모듈(101)은 언어 A로 된 제 1 사용자의 발화를 음성인식한다. 음성 인식은 ASR(Automatic Speech Recognition) 또는 STT(Speech-to-Text)라고도 알려져 있다. 음성 인식 모듈의 출력물은 문자열이다.
자동번역 모듈(103)은 언어 A로 된 문자열을 언어 B의 문자열로 번역한다.
음성합성 모듈(105)은 번역된 문장을 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려준다. 음성 합성은 TTS(Text-to-Speech)라고도 알려져 있다.
도 2를 참조하면, 본 발명의 자동통역을 위해 사용자가 착용하는 헤드셋(200)이 도시된다.
헤드셋(200)은 종래의 헤드셋과 유사하게 사용자가 착용할 경우 귀의 내부에 위치하게 되는 스피커(230)와, 귀의 외부로 노출되어 사용자의 음성을 입력받는 아웃이어 마이크(out ear microphone: 210)를 포함한다.
또한, 헤드셋(200)은 사용자가 헤드셋을 착용할 경우 귀의 내부에 위치되며, 사용자의 음성 진동을 수신하도록 구성된 인이어 마이크(in ear microphone: 220)를 더 포함한다.
따라서, 본 발명의 자동통역을 위해 사용자가 착용하는 헤드셋(200)은 인이어 마이크(220) 및 아웃이어 마이크(210)의 두 개의 마이크를 포함한다.
아웃이어 마이크(210)에 입력되는 신호는 노이즈가 많지만 음질이 우수한 특성이 있다. 반면, 인이어 마이크(220)는 귀 내부에 위치하여 외부에 덜 노출되므로, 인이어 마이크(220)에 입력되는 신호는 노이즈가 상당히 감소되지만, 사람 음성의 고주파 대역 성분을 충분히 담고 있지 않기 때문에 프로그램 또는 프로세서에 의한 인식 및 처리가 어렵다.
본원 발명의 일 실시예에 따르면, 도 3을 참조하여 후술하는 것처럼 인이어 마이크(220b)는 아웃이어 마이크(210)를 통해 입력된 사용자의 음성 신호로부터 크로스토크를 감소시키기 위해 사용될 수 있다.
헤드셋(200)은 입력된 음성 신호를 송신하거나 다른 신호를 수신하도록 유선 또는 무선으로 자동 통역 장치에 연결될 수 있다. 또한 헤드셋(200)은 본원 발명의 일 실시예에 따른 모듈들, 특히 크로스토크 감소 모듈을 헤드셋 내부에 실장하도록 구성될 수 있다. 또한, 도 2에 도시된 헤드셋(200)은 일 예시에 불과하고, 헤드셋이 인이어 마이크, 아웃이어 마이크, 및 스피커를 포함하기만 하면 그 형상 또는 기능에 제한되지 않고 사용될 수 있다. 예를 들어, 아웃이어 마이크(210)는 사용자의 음성을 수신할 수 있다면 도 2에 도시된 것처럼 헤드셋의 헤드부로부터 길게 연장될 필요가 없이 다양한 구조와 형상을 가져도 좋다.
도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.
본원 발명의 일 실시예에 따른 자동통역 장치(300)는 음성인식 모듈(302) 및 자동번역 모듈(304)을 포함한다. 음성인식 모듈(302)은 크로스토크 감소 모듈(408)을 포함할 수 있다. 본 실시예에 따르면, 자동통역 장치(300)는 헤드셋과는 별도의 장치에 탑재되어 있다. 그러나, 자동통역 장치(300)는 각각의 헤드셋(200)에 내장될 수도 있다. 자동통역 장치(300)는 휴대폰과 같은 데이터 송수신이 가능한 휴대용 전자장치에 프로그램의 형태로 내장될 수도 있다. 자동통역 장치(300)는 어느 경우에나, 제 1 사용자 및 제 2 사용자의 헤드셋과 신호를 송수신할 수 있도록 통신가능하여야 한다.
제 1 사용자가 통역을 원하는 음성 신호를 발화하는 경우, 제 1 사용자의 헤드셋 중 아웃이어 마이크(210)에는 제 1 사용자의 음성 신호 A가 입력된다. 또한, 제 1 사용자의 헤드셋 중 인이어 마이크(220)에는 음성 신호 Ainear가 입력된다. 도 3에는 설명 및 도시의 편의를 위해 아웃이어 마이크(210, 210b)가 사용자의 헤드셋과 분리된 별도의 디바이스로 도시되어 있다. 그러나, 아웃이어 마이크(210, 210b)가 사용자의 헤드셋과 일체형으로 이루어지는 것이 바람직하다.
한편, 제 1 사용자가 음성 신호를 발화하는 동시에, 제 2 사용자도 음성 신호를 발화할 수 있다. 제 2 사용자의 음성 신호는 통역을 원하는 언어일 수도 있고 단지 잡음일 수도 있다. 제 2 사용자의 헤드셋 중 아웃이어 마이크(210b)에는 제 2 사용자의 음성 신호 B가 입력된다. 또한, 제 2 사용자의 헤드셋 중 인이어 마이크(220b)에는 음성 신호 Binear가 입력된다. 또한, 제 2 사용자의 음성 신호 b는 제 1 사용자의 아웃이어 마이크(210)에도 입력되게 된다. 상기 음성 신호 b는 제 1 사용자의 아웃이어 마이크(210)에서는 크로스토크에 해당한다.
결국, 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 제 1 사용자의 음성 신호 A 및 제 2 사용자의 음성 신호 b를 포함한다. 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 환경 잡음 N을 더 포함할 수 있다.
이하에서는 도 4를 도 3과 함께 참조하여 음성 인식 모듈(302)에 대해 더 설명한다. 도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈(408)을 포함하는 음성인식 모듈(302)을 도시한다.
음성인식 모듈(302)은 음성 활동 감지(voice activity detection: VAD) 모듈(404)을 더 포함할 수 있다. 음성 활동 감지 모듈(404)은 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 여부를 결정할 수 있도록 구성된다. 본 발명의 일 실시예에 따르면, 음성 구간이라고 결정된 구간에서 수신된 신호만이 크로스토크 감소모듈(408)에서의 처리를 통해 자동번역 모듈(304)로 전송될 수 있다.
제 1 사용자의 아웃이어 마이크(210)에 입력된 신호(A+b+환경잡음)는 이제 음성인식 모듈(302)에서, 특히 수신 모듈(402)에 의해 수신된다. 음성인식 모듈(302), 특히 수신 모듈(402)은 또한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신한다.
크로스토크 감소 모듈(408)은 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제 2 사용자의 음성 신호(b)를 제거한다.
보다 구체적으로는, 음성인식 모듈(302)은 음성 패턴 매칭(voice pattern matching) 모듈(406)을 더 포함하고, 이 음성 패턴 매칭 모듈(406)은 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출한다.
크로스토크 감소 모듈(408)은 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거한다. 이상에서는 음성 패턴 매칭 모듈(406) 및 크로스토크 감소 모듈(408)을 별개의 모듈로 설명하였지만, 이들 모두가 다른 실시예에서는 크로스토크 감소 모듈로 지칭될 수 있다.
전술한 바와 같이, 인이어 마이크(220)에 입력되는 신호는 노이즈가 상당히 감소되지만, 사람 음성의 고주파 대역 성분을 충분히 담고 있지 않기 때문에 프로그램 또는 프로세서에 의해 음성을 인식하고, 인식된 음성을 번역을 위해 이용하기 어렵다. 본원 발명의 일 실시예에 따르면, 아웃이어 마이크(210)의 고주파 성분을 이용하되, 상대방의 음성 신호에 따른 크로스토크를 상대방의 인이어 마이크(220)에 입력되는 노이즈 적은 신호를 이용하여 제거하였다.
전술한 바에 따르면, 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 환경 잡음 N을 더 포함할 수 있다. 음성인식 모듈(302)은 환경 잡음 N을 더 제거하도록 구성될 수 있다. 예를 들어, 음성 활동 감지 모듈이 사용자의 음성이 입력되는 음성 구간과, 사용자의 음성이 입력되지 않는 비음성 구간을 구분한다. 비음성 구간의 신호는 환경 잡음 N에 해당하므로, 비음성 구간의 신호를 노이즈 게이팅(noise gating)을 통해 제거할 수 있다. 또한, 음성 구간에서는 주파수 대역이 음성 대역인 부분만 필터링 하는 방식으로 환경 잡음 N을 제거할 수 있다.
이제, 이와 같이 크로스토크 및 환경 잡음이 제거된 신호, 즉 제 1 사용자의 음성 신호 A 또는 제 2 사용자의 음성 신호 B는 자동번역 모듈(304)로 보내진다. 자동번역 모듈(304)은 음성 신호 A 또는 음성 신호 B를 다른 언어로 번역하고, 상기 번역된 문장은 음성합성 모듈(106)을 통해 음성으로 합성하여 출력된다.
도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법(500)의 흐름도이다.
크로스토크 감소를 위한 방법(500)은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호를 수신하는 단계(502)를 포함한다. 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함하고 있다.
크로스토크 감소를 위한 방법(500)은 또한 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계(504)를 포함한다.
크로스토크 감소를 위한 방법(500)은 또한 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계(506)를 포함한다.
도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법(600)의 흐름도이다.
크로스토크 감소를 위한 방법(600)은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호를 수신하는 단계(602)를 포함한다. 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함하고 있다.
크로스토크 감소를 위한 방법(600)은 또한 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계(604)를 포함한다.
크로스토크 감소를 위한 방법(600)은 또한 음성 활동 감지 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계(606)를 포함한다.
크로스토크 감소를 위한 방법(600)은 또한 음성 패턴 매칭 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 단계(608)를 포함한다.
크로스토크 감소를 위한 방법(600)은 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계(610)를 포함한다.
본 명세서에 기재된 실시예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 또는 이들의 임의의 조합으로 구현될 수 있음이 이해되어야 한다. 하드웨어 구현을 위하여, 처리 유닛들은 하나 이상의 주문형 반도체(ASICs), 디지털 신호 프로세서(DSPs), 디지털 신호 처리 디바이스(DSPDs), 프로그래머블 로직 디바이스(PLDs), 필드 프로그래머블 게이트 어레이(FPGAs), 프로세서, 제어기, 마이크로 제어기, 마이크로프로세서, 본원에 기재된 기능들을 수행하도록 고안된 다른 전자 유닛들, 또는 이들의 조합에 의해 구현될 수 있다.
소프트웨어 구현을 위해서, 본원에 기재된 기술들이 본원에 기재된 기능들을 수행하는 모듈들(예, 프로시져, 함수 등)로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛들에 저장되고 프로세서들에 의해 실행될 수 있다. 메모리 유닛은 프로세서 내부에서 또는 프로세서 외부에서 구현될 수 있고, 후자의 경우 기술분야에서 공지된 대로 다양한 수단을 통해 프로세서에 통신가능하게 결합될 수 있다.
본원에 기재된 메모리는 휘발성 메모리 또는 비휘발성 메모리 중 하나일 수 있거나, 휘발성 및 비휘발성 메모리 모두를 포함할 수 있음이 인식될 것이다. 비휘발성 메모리는 리드 온리 메모리(ROM), 프로그래머블 ROM (PROM), 전기적 프로그래머블 ROM (EPROM), 전기적 소거가능 PROM (EEPROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 외부 캐시 메모리로써 동작하는 랜덤 액세스 메모리(RAM)를 포함할 수 있다. RAM은 동기 RAM (SRAM), 다이나믹 RAM (DRAM), 동기 DRAM (SDRAM), 더블 데이터 레이트 SDRAM (DDR SDRAM), 인핸스드 SDRAM (ESDRAM), 싱크링크 DRAM (SLDRAM), 및 디렉트 램버스 RAM (DRRAM)과 같은 많은 형태로 이용가능하다. 본원 발명의 메모리는 이들 및 다른 적절한 형태의 메모리를 포함하나 이에 제한되지 않는다.
위에서 기재된 것은 하나 이상의 실시예들을 포함한다. 물론, 전술한 실시예들을 기재하는 목적을 위한 모듈들 또는 방법들의 모든 도출가능한 조합을 기재하는 것은 가능하지 않지만, 당업자라면 다양한 실시예들의 많은 추가적인 조합이 가능함을 인식할 수 있을 것이다. 따라서, 기재된 실시예들은 첨부된 청구범위의 사상과 범위내에 드는 모든 변경을 포함하기 위한 의도이다. 또한, 본 발명은 본원에 개시된 실시예들로 한정되는 것이 아니라, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위를 부여받아야 할 것이다.
100, 300 : 자동통역 장치
102, 302 : 음성인식 모듈
104, 304 : 자동번역 모듈
106 : 음성합성 모듈
200 : 헤드셋
210, 210b : 아웃이어 마이크
220, 220b : 인이어 마이크
230 : 스피커
408 : 크로스토크 감소 모듈
102, 302 : 음성인식 모듈
104, 304 : 자동번역 모듈
106 : 음성합성 모듈
200 : 헤드셋
210, 210b : 아웃이어 마이크
220, 220b : 인이어 마이크
230 : 스피커
408 : 크로스토크 감소 모듈
Claims (10)
- 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법으로서,
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계;
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계; 및
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계
를 포함하는, 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법. - 제 1 항에 있어서,
상기 제거하는 단계 이전에,
음성 활동 감지(voice activity detection: VAD) 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계를 더 포함하고,
상기 제거하는 단계는 상기 음성 구간에 대해서만 실행되는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법. - 제 1 항에 있어서,
상기 제거하는 단계는,
음성 패턴 매칭(voice pattern matching) 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 단계; 및
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거하는 단계
를 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법. - 제 1 항에 있어서,
상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 단계; 및
상기 번역된 문장을 음성으로 합성하여 출력하는 단계를 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법. - 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치로서,
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고; 그리고
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하도록 구성된
수신 모듈; 및
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록 구성된 크로스토크 감소 모듈
을 포함하는, 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치. - 제 5 항에 있어서,
사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 음성 활동 감지(voice activity detection: VAD) 모듈을 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치. - 제 5 항에 있어서,
상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 음성 패턴 매칭(voice pattern matching) 모듈을 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치. - 제 5 항에 있어서,
상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 자동 번역 모듈; 및
상기 번역된 문장을 음성으로 합성하여 출력하는 음성 합성 모듈
을 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치. - 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치로서,
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고;
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하고; 그리고
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록
구성된 적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 결합된 메모리
를 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치. - 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금:
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하게 하고;
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하게 하고; 그리고
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하게 하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180132328A KR102088216B1 (ko) | 2018-10-31 | 2018-10-31 | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 |
US17/290,047 US11763833B2 (en) | 2018-10-31 | 2019-10-31 | Method and device for reducing crosstalk in automatic speech translation system |
PCT/KR2019/014645 WO2020091482A1 (ko) | 2018-10-31 | 2019-10-31 | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180132328A KR102088216B1 (ko) | 2018-10-31 | 2018-10-31 | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102088216B1 true KR102088216B1 (ko) | 2020-03-12 |
Family
ID=69803150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180132328A KR102088216B1 (ko) | 2018-10-31 | 2018-10-31 | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11763833B2 (ko) |
KR (1) | KR102088216B1 (ko) |
WO (1) | WO2020091482A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102088216B1 (ko) * | 2018-10-31 | 2020-03-12 | 김정근 | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 |
CN112435659B (zh) * | 2021-01-28 | 2021-04-30 | 北京威泰视信科技有限公司 | 一种信号处理方法、装置、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001251429A (ja) | 2000-03-03 | 2001-09-14 | Net Teimento:Kk | 携帯電話を使用した音声翻訳システムおよび携帯電話 |
US20140355775A1 (en) * | 2012-06-18 | 2014-12-04 | Jacob G. Appelbaum | Wired and wireless microphone arrays |
KR20160062666A (ko) * | 2014-11-25 | 2016-06-02 | 한국전자통신연구원 | 자동 통역 시스템 |
WO2016093974A1 (en) * | 2014-12-12 | 2016-06-16 | Qualcomm Incorporated | Feedback cancelation for enhanced conversational communications in shared acoustic space |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100725435B1 (ko) | 2005-12-30 | 2007-06-07 | 이비덴 가부시키가이샤 | 허니컴 구조체 |
US7773759B2 (en) * | 2006-08-10 | 2010-08-10 | Cambridge Silicon Radio, Ltd. | Dual microphone noise reduction for headset application |
US10194032B2 (en) * | 2007-05-04 | 2019-01-29 | Staton Techiya, Llc | Method and apparatus for in-ear canal sound suppression |
EP2482566B1 (en) * | 2011-01-28 | 2014-07-16 | Sony Ericsson Mobile Communications AB | Method for generating an audio signal |
KR20150045203A (ko) | 2013-10-18 | 2015-04-28 | (주)제이유디지탈 | 잡음 제거 장치 |
KR101598400B1 (ko) * | 2014-09-17 | 2016-02-29 | 해보라 주식회사 | 이어셋 및 그 제어 방법 |
US20160104501A1 (en) * | 2014-10-10 | 2016-04-14 | Christine Weingold | Method and Apparatus for Facilitating Conversation in a Noisy Environment |
KR101731714B1 (ko) * | 2015-08-13 | 2017-04-28 | 중소기업은행 | 음질 개선을 위한 방법 및 헤드셋 |
US10819953B1 (en) * | 2018-10-26 | 2020-10-27 | Facebook Technologies, Llc | Systems and methods for processing mixed media streams |
KR102088216B1 (ko) * | 2018-10-31 | 2020-03-12 | 김정근 | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 |
-
2018
- 2018-10-31 KR KR1020180132328A patent/KR102088216B1/ko active IP Right Grant
-
2019
- 2019-10-31 US US17/290,047 patent/US11763833B2/en active Active
- 2019-10-31 WO PCT/KR2019/014645 patent/WO2020091482A1/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001251429A (ja) | 2000-03-03 | 2001-09-14 | Net Teimento:Kk | 携帯電話を使用した音声翻訳システムおよび携帯電話 |
US20140355775A1 (en) * | 2012-06-18 | 2014-12-04 | Jacob G. Appelbaum | Wired and wireless microphone arrays |
KR20160062666A (ko) * | 2014-11-25 | 2016-06-02 | 한국전자통신연구원 | 자동 통역 시스템 |
WO2016093974A1 (en) * | 2014-12-12 | 2016-06-16 | Qualcomm Incorporated | Feedback cancelation for enhanced conversational communications in shared acoustic space |
Also Published As
Publication number | Publication date |
---|---|
WO2020091482A1 (ko) | 2020-05-07 |
US11763833B2 (en) | 2023-09-19 |
US20210407530A1 (en) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3711306B1 (en) | Interactive system for hearing devices | |
US10643606B2 (en) | Pre-wakeword speech processing | |
US9864745B2 (en) | Universal language translator | |
JP7244665B2 (ja) | エンドツーエンドの音声変換 | |
KR102158739B1 (ko) | 자동통역 시스템, 디바이스 및 방법 | |
US9293134B1 (en) | Source-specific speech interactions | |
US10558763B2 (en) | Automatic translation system, device, and method | |
US20190138603A1 (en) | Coordinating Translation Request Metadata between Devices | |
JP2015060332A (ja) | 音声翻訳装置、音声翻訳方法およびプログラム | |
US20040148172A1 (en) | Prosodic mimic method and apparatus | |
JP2004527006A (ja) | 分散型音声認識システムにおける音声アクティブな状態を送信するためのシステム及び方法 | |
WO2010146857A1 (ja) | 補聴装置 | |
US11290802B1 (en) | Voice detection using hearable devices | |
KR102088216B1 (ko) | 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
US20160210982A1 (en) | Method and Apparatus to Enhance Speech Understanding | |
JP6599828B2 (ja) | 音処理方法、音処理装置、及びプログラム | |
JP4752516B2 (ja) | 音声対話装置および音声対話方法 | |
CN113921026A (zh) | 语音增强方法和装置 | |
US10623843B1 (en) | Using bandwidth-limited audio devices | |
US20110208516A1 (en) | Information processing apparatus and operation method thereof | |
TWI503814B (zh) | 使用時間上及/或頻譜上緊密音訊命令之控制 | |
US11699438B2 (en) | Open smart speaker | |
TWI664627B (zh) | 可優化外部的語音信號裝置 | |
JP2019110447A (ja) | 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |