KR102088216B1 - 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 - Google Patents

자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 Download PDF

Info

Publication number
KR102088216B1
KR102088216B1 KR1020180132328A KR20180132328A KR102088216B1 KR 102088216 B1 KR102088216 B1 KR 102088216B1 KR 1020180132328 A KR1020180132328 A KR 1020180132328A KR 20180132328 A KR20180132328 A KR 20180132328A KR 102088216 B1 KR102088216 B1 KR 102088216B1
Authority
KR
South Korea
Prior art keywords
user
voice
input
signal
users
Prior art date
Application number
KR1020180132328A
Other languages
English (en)
Inventor
김정근
Original Assignee
김정근
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김정근 filed Critical 김정근
Priority to KR1020180132328A priority Critical patent/KR102088216B1/ko
Priority to PCT/KR2019/014645 priority patent/WO2020091482A1/ko
Priority to US17/290,047 priority patent/US11763833B2/en
Application granted granted Critical
Publication of KR102088216B1 publication Critical patent/KR102088216B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키는 방법, 장치, 컴퓨터 판독가능 매체가 개시된다. 크로스토크를 감소시키는 방법은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계; 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계를 포함한다.

Description

자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치{METHOD AND DEVICE FOR REDUCING CROSSTALK IN AUTOMATIC SPEECH TRANSLATION SYSTEM}
본 발명은 크로스토크를 감소시키는 방법 및 장치에 관한 것이다. 구체적으로는, 자동 통역 시스템에서 본인의 음성 이외의 음성 신호에 의한 크로스토크를 감소시키는 방법 및 장치에 관한 것이다.
교통, 통신수단이 발달함에 따라 각국 간의 인적, 물적 교류가 활발해지고, 서로 다른 언어를 사용하는 개인이나 집단 간에 번역 및 통역에 대한 요구는 점차적으로 증가해 왔다. 그러나, 전문 통역사에 대한 수요가 증가하는 데 반해, 통역사의 공급의 부족 및 비용 문제로 인해 일반인이 활용하기는 어려운 점이 있다.
1990년대부터는 여러 기초 기술이 진화함에 따라 이를 기반으로 자동 통역을 위한 연구가 활발해져 왔다.
자동 통역은 언어 A로 된 사람의 발화를 음성인식, 자동번역 등의 과정을 거쳐서 다른 언어 B로 변환하고, 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려주는 과정 및 기술을 의미한다. 다시 말해, 자동 통역은 음성인식, 자동번역 및 음성합성의 세 가지 요소기술로 구성된다.
이중, 자동 통역을 위한 음성인식은, 여러 해결해야 할 요소들이 있다. 먼저, 음성인식의 정확도가 매우 높아야 한다는 점이다. 음성인식 모듈의 출력이 자동번역 모듈의 입력이 되는데, 자동번역 모듈이 음성인식 오류에 대해 검색 등의 언어처리 모듈보다 더 민감하기 때문이다. 또한, 자동통역이 처리대상으로 하는 음성들이 대체로 대화체의 음성이라는 점도 자동 통역을 위한 음성인식의 난이도를 높이는 요소이다.
또한, 자동 통역은 항상 조용한 곳에서만 사용되는 것이 아니라는 점이다. 자동 통역은 다른 사람들의 소리가 입력될 수 있는 길거리, 여러 명이 회의하고 있는 회의실, 등 다양한 잡음, 특히 다른 화자의 목소리가 존재하는 상황에서 사용될 수 있다. 따라서, 자동 통역에 사용되는 음성인식은 다른 응용 분야에 사용되는 음성인식보다 잡음 제거 면에서 더 고도의 기술을 요한다.
방송뉴스 통역과 같이 언어 A에서 언어 B로의 통역만이 이루어지는 형태의 자동통역을 단방향(one-way) 자동통역이라고 한다. 회의실 내에서 또는 컨퍼런스 콜에서 서로 다른 언어를 사용하는 2인 이상이 대화화는 경우 A→B, B→A의 방향으로 자동통역이 이루어지게 된다. 이런 형태를 양방향(two-way) 자동통역이라고 한다.
양방향 자동통역에서는, 다른 사람의 목소리로 인한 잡음과 사람 이외의 환경에 의한 잡음이 혼재한다. 본 명세서에서는 잡음의 종류를 다른 사람의 목소리로 인한 잡음과 사람 이외의 환경에 의한 잡음으로 구분하고, 전자를 크로스토크, 후자를 환경 잡음이라고 칭한다.
음성인식 과정에서는 환경 잡음이 크로스토크보다 영향이 훨씬 크고 제거하기에 어렵다고 인식되어 왔다. 음성(크로스토크)과 환경 잡음의 주파수 영역이 크게 차이가 나므로, 환경 잡음을 음성으로부터 분리하는 것은 비교적 용이하다. 그러나, 화자 A의 음성과 화자 B의 음성이 혼재하는 경우, 두 음성은 주파수 영역이 유사하여, 이를 서로 분리하는 것이 대단히 어렵다.
상기한 문제점으로 인해 서로 다른 언어를 사용하는 두 명 이상의 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시킬 개선된 방법이 필요하다.
일본 공개특허공보 2001-251429 A (2001.09.14)
본원 발명의 목적은 자동 통역 시스템의 음성인식 과정에서 통역의 대상이 되는 화자 A의 음성 이외의 음성 신호에 의한 크로스토크를 감소시키는 방법 및 장치를 제공하는 것이다.
본 발명의 제1 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키는 방법을 제공한다. 상기 방법은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계, 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계, 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계를 포함한다.
본 발명의 제2 실시예에서, 상기 방법은 상기 제거하는 단계 이전에, 음성 활동 감지(voice activity detection: VAD) 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계를 더 포함할 수 있고, 상기 제거하는 단계는 상기 음성 구간에 대해서만 실행될 수 있다.
본 발명의 제3 실시예에서, 상기 제거하는 단계가, 음성 패턴 매칭(voice pattern matching) 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 단계, 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거하는 단계를 포함할 수 있다.
본 발명의 제4 실시예에서, 상기 방법은 상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 단계, 및 상기 번역된 문장을 음성으로 합성하여 출력하는 단계를 더 포함할 수 있다.
본 발명의 제5 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키기 위한 장치로서, 적어도 하나의 프로세서 및 상기 적어도 하나의 프로세서에 결합된 메모리를 포함한다.
상기 적어도 하나의 프로세서는 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하고; 그리고 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록 구성된다.
본 발명의 제5 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체를 제공한다. 상기 프로그램은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금: 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하게 하고; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하게 하고; 그리고 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하게 한다.
본원 발명의 실시예들에 따르면, 아웃이어 마이크의 고주파 성분으로 이루어진 음성신호를 기초로, 상대방의 음성 신호에 따른 크로스토크를 상대방의 인이어 마이크에 입력되는 노이즈 적은 신호를 이용하여 제거할 수 있다. 따라서, 상대방 음성에 의한 크로스토크가 현저하게 감소되는 동시에 고주파 성분이 포함된 음성 신호를 획득할 수 있고 이를 자동번역을 위해 사용할 수 있다.
도 1은 본원 발명의 일 실시예에 따른 자동통역 장치의 구성 모듈들을 도시한다.
도 2는 본원 발명의 일 실시예에 따른 인이어 마이크를 구비한 헤드셋을 도시한다.
도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.
도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈을 포함하는 음성인식 모듈을 도시한다.
도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
다양한 양상들이 도면을 참조하여 설명되는데, 동일한 도면부호는 도면 전체에서 동일한 요소들을 나타내는데 사용된다. 이하의 설명에서, 설명의 목적을 위해, 다양한 구체적 사항들이 하나 이상의 양상들의 전체적인 이해를 제공하기 위해 설명된다. 그러나, 이러한 양상은 이러한 구체적 사항들 없이도 실행될 수 있음이 당업자에게 명백할 것이다.
도 1을 참조하면, 본원 발명의 일 실시예에 따른 자동통역 장치(100)는 음성인식 모듈(101), 자동번역 모듈(103) 및 음성합성 모듈(105)을 포함한다.
음성 인식 모듈(101)은 언어 A로 된 제 1 사용자의 발화를 음성인식한다. 음성 인식은 ASR(Automatic Speech Recognition) 또는 STT(Speech-to-Text)라고도 알려져 있다. 음성 인식 모듈의 출력물은 문자열이다.
자동번역 모듈(103)은 언어 A로 된 문자열을 언어 B의 문자열로 번역한다.
음성합성 모듈(105)은 번역된 문장을 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려준다. 음성 합성은 TTS(Text-to-Speech)라고도 알려져 있다.
도 2를 참조하면, 본 발명의 자동통역을 위해 사용자가 착용하는 헤드셋(200)이 도시된다.
헤드셋(200)은 종래의 헤드셋과 유사하게 사용자가 착용할 경우 귀의 내부에 위치하게 되는 스피커(230)와, 귀의 외부로 노출되어 사용자의 음성을 입력받는 아웃이어 마이크(out ear microphone: 210)를 포함한다.
또한, 헤드셋(200)은 사용자가 헤드셋을 착용할 경우 귀의 내부에 위치되며, 사용자의 음성 진동을 수신하도록 구성된 인이어 마이크(in ear microphone: 220)를 더 포함한다.
따라서, 본 발명의 자동통역을 위해 사용자가 착용하는 헤드셋(200)은 인이어 마이크(220) 및 아웃이어 마이크(210)의 두 개의 마이크를 포함한다.
아웃이어 마이크(210)에 입력되는 신호는 노이즈가 많지만 음질이 우수한 특성이 있다. 반면, 인이어 마이크(220)는 귀 내부에 위치하여 외부에 덜 노출되므로, 인이어 마이크(220)에 입력되는 신호는 노이즈가 상당히 감소되지만, 사람 음성의 고주파 대역 성분을 충분히 담고 있지 않기 때문에 프로그램 또는 프로세서에 의한 인식 및 처리가 어렵다.
본원 발명의 일 실시예에 따르면, 도 3을 참조하여 후술하는 것처럼 인이어 마이크(220b)는 아웃이어 마이크(210)를 통해 입력된 사용자의 음성 신호로부터 크로스토크를 감소시키기 위해 사용될 수 있다.
헤드셋(200)은 입력된 음성 신호를 송신하거나 다른 신호를 수신하도록 유선 또는 무선으로 자동 통역 장치에 연결될 수 있다. 또한 헤드셋(200)은 본원 발명의 일 실시예에 따른 모듈들, 특히 크로스토크 감소 모듈을 헤드셋 내부에 실장하도록 구성될 수 있다. 또한, 도 2에 도시된 헤드셋(200)은 일 예시에 불과하고, 헤드셋이 인이어 마이크, 아웃이어 마이크, 및 스피커를 포함하기만 하면 그 형상 또는 기능에 제한되지 않고 사용될 수 있다. 예를 들어, 아웃이어 마이크(210)는 사용자의 음성을 수신할 수 있다면 도 2에 도시된 것처럼 헤드셋의 헤드부로부터 길게 연장될 필요가 없이 다양한 구조와 형상을 가져도 좋다.
도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.
본원 발명의 일 실시예에 따른 자동통역 장치(300)는 음성인식 모듈(302) 및 자동번역 모듈(304)을 포함한다. 음성인식 모듈(302)은 크로스토크 감소 모듈(408)을 포함할 수 있다. 본 실시예에 따르면, 자동통역 장치(300)는 헤드셋과는 별도의 장치에 탑재되어 있다. 그러나, 자동통역 장치(300)는 각각의 헤드셋(200)에 내장될 수도 있다. 자동통역 장치(300)는 휴대폰과 같은 데이터 송수신이 가능한 휴대용 전자장치에 프로그램의 형태로 내장될 수도 있다. 자동통역 장치(300)는 어느 경우에나, 제 1 사용자 및 제 2 사용자의 헤드셋과 신호를 송수신할 수 있도록 통신가능하여야 한다.
제 1 사용자가 통역을 원하는 음성 신호를 발화하는 경우, 제 1 사용자의 헤드셋 중 아웃이어 마이크(210)에는 제 1 사용자의 음성 신호 A가 입력된다. 또한, 제 1 사용자의 헤드셋 중 인이어 마이크(220)에는 음성 신호 Ainear가 입력된다. 도 3에는 설명 및 도시의 편의를 위해 아웃이어 마이크(210, 210b)가 사용자의 헤드셋과 분리된 별도의 디바이스로 도시되어 있다. 그러나, 아웃이어 마이크(210, 210b)가 사용자의 헤드셋과 일체형으로 이루어지는 것이 바람직하다.
한편, 제 1 사용자가 음성 신호를 발화하는 동시에, 제 2 사용자도 음성 신호를 발화할 수 있다. 제 2 사용자의 음성 신호는 통역을 원하는 언어일 수도 있고 단지 잡음일 수도 있다. 제 2 사용자의 헤드셋 중 아웃이어 마이크(210b)에는 제 2 사용자의 음성 신호 B가 입력된다. 또한, 제 2 사용자의 헤드셋 중 인이어 마이크(220b)에는 음성 신호 Binear가 입력된다. 또한, 제 2 사용자의 음성 신호 b는 제 1 사용자의 아웃이어 마이크(210)에도 입력되게 된다. 상기 음성 신호 b는 제 1 사용자의 아웃이어 마이크(210)에서는 크로스토크에 해당한다.
결국, 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 제 1 사용자의 음성 신호 A 및 제 2 사용자의 음성 신호 b를 포함한다. 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 환경 잡음 N을 더 포함할 수 있다.
이하에서는 도 4를 도 3과 함께 참조하여 음성 인식 모듈(302)에 대해 더 설명한다. 도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈(408)을 포함하는 음성인식 모듈(302)을 도시한다.
음성인식 모듈(302)은 음성 활동 감지(voice activity detection: VAD) 모듈(404)을 더 포함할 수 있다. 음성 활동 감지 모듈(404)은 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 여부를 결정할 수 있도록 구성된다. 본 발명의 일 실시예에 따르면, 음성 구간이라고 결정된 구간에서 수신된 신호만이 크로스토크 감소모듈(408)에서의 처리를 통해 자동번역 모듈(304)로 전송될 수 있다.
제 1 사용자의 아웃이어 마이크(210)에 입력된 신호(A+b+환경잡음)는 이제 음성인식 모듈(302)에서, 특히 수신 모듈(402)에 의해 수신된다. 음성인식 모듈(302), 특히 수신 모듈(402)은 또한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신한다.
크로스토크 감소 모듈(408)은 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제 2 사용자의 음성 신호(b)를 제거한다.
보다 구체적으로는, 음성인식 모듈(302)은 음성 패턴 매칭(voice pattern matching) 모듈(406)을 더 포함하고, 이 음성 패턴 매칭 모듈(406)은 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출한다.
크로스토크 감소 모듈(408)은 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거한다. 이상에서는 음성 패턴 매칭 모듈(406) 및 크로스토크 감소 모듈(408)을 별개의 모듈로 설명하였지만, 이들 모두가 다른 실시예에서는 크로스토크 감소 모듈로 지칭될 수 있다.
전술한 바와 같이, 인이어 마이크(220)에 입력되는 신호는 노이즈가 상당히 감소되지만, 사람 음성의 고주파 대역 성분을 충분히 담고 있지 않기 때문에 프로그램 또는 프로세서에 의해 음성을 인식하고, 인식된 음성을 번역을 위해 이용하기 어렵다. 본원 발명의 일 실시예에 따르면, 아웃이어 마이크(210)의 고주파 성분을 이용하되, 상대방의 음성 신호에 따른 크로스토크를 상대방의 인이어 마이크(220)에 입력되는 노이즈 적은 신호를 이용하여 제거하였다.
전술한 바에 따르면, 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 환경 잡음 N을 더 포함할 수 있다. 음성인식 모듈(302)은 환경 잡음 N을 더 제거하도록 구성될 수 있다. 예를 들어, 음성 활동 감지 모듈이 사용자의 음성이 입력되는 음성 구간과, 사용자의 음성이 입력되지 않는 비음성 구간을 구분한다. 비음성 구간의 신호는 환경 잡음 N에 해당하므로, 비음성 구간의 신호를 노이즈 게이팅(noise gating)을 통해 제거할 수 있다. 또한, 음성 구간에서는 주파수 대역이 음성 대역인 부분만 필터링 하는 방식으로 환경 잡음 N을 제거할 수 있다.
이제, 이와 같이 크로스토크 및 환경 잡음이 제거된 신호, 즉 제 1 사용자의 음성 신호 A 또는 제 2 사용자의 음성 신호 B는 자동번역 모듈(304)로 보내진다. 자동번역 모듈(304)은 음성 신호 A 또는 음성 신호 B를 다른 언어로 번역하고, 상기 번역된 문장은 음성합성 모듈(106)을 통해 음성으로 합성하여 출력된다.
도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법(500)의 흐름도이다.
크로스토크 감소를 위한 방법(500)은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호를 수신하는 단계(502)를 포함한다. 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함하고 있다.
크로스토크 감소를 위한 방법(500)은 또한 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계(504)를 포함한다.
크로스토크 감소를 위한 방법(500)은 또한 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계(506)를 포함한다.
도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법(600)의 흐름도이다.
크로스토크 감소를 위한 방법(600)은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호를 수신하는 단계(602)를 포함한다. 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함하고 있다.
크로스토크 감소를 위한 방법(600)은 또한 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계(604)를 포함한다.
크로스토크 감소를 위한 방법(600)은 또한 음성 활동 감지 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계(606)를 포함한다.
크로스토크 감소를 위한 방법(600)은 또한 음성 패턴 매칭 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 단계(608)를 포함한다.
크로스토크 감소를 위한 방법(600)은 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계(610)를 포함한다.
본 명세서에 기재된 실시예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 또는 이들의 임의의 조합으로 구현될 수 있음이 이해되어야 한다. 하드웨어 구현을 위하여, 처리 유닛들은 하나 이상의 주문형 반도체(ASICs), 디지털 신호 프로세서(DSPs), 디지털 신호 처리 디바이스(DSPDs), 프로그래머블 로직 디바이스(PLDs), 필드 프로그래머블 게이트 어레이(FPGAs), 프로세서, 제어기, 마이크로 제어기, 마이크로프로세서, 본원에 기재된 기능들을 수행하도록 고안된 다른 전자 유닛들, 또는 이들의 조합에 의해 구현될 수 있다.
소프트웨어 구현을 위해서, 본원에 기재된 기술들이 본원에 기재된 기능들을 수행하는 모듈들(예, 프로시져, 함수 등)로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛들에 저장되고 프로세서들에 의해 실행될 수 있다. 메모리 유닛은 프로세서 내부에서 또는 프로세서 외부에서 구현될 수 있고, 후자의 경우 기술분야에서 공지된 대로 다양한 수단을 통해 프로세서에 통신가능하게 결합될 수 있다.
본원에 기재된 메모리는 휘발성 메모리 또는 비휘발성 메모리 중 하나일 수 있거나, 휘발성 및 비휘발성 메모리 모두를 포함할 수 있음이 인식될 것이다. 비휘발성 메모리는 리드 온리 메모리(ROM), 프로그래머블 ROM (PROM), 전기적 프로그래머블 ROM (EPROM), 전기적 소거가능 PROM (EEPROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 외부 캐시 메모리로써 동작하는 랜덤 액세스 메모리(RAM)를 포함할 수 있다. RAM은 동기 RAM (SRAM), 다이나믹 RAM (DRAM), 동기 DRAM (SDRAM), 더블 데이터 레이트 SDRAM (DDR SDRAM), 인핸스드 SDRAM (ESDRAM), 싱크링크 DRAM (SLDRAM), 및 디렉트 램버스 RAM (DRRAM)과 같은 많은 형태로 이용가능하다. 본원 발명의 메모리는 이들 및 다른 적절한 형태의 메모리를 포함하나 이에 제한되지 않는다.
위에서 기재된 것은 하나 이상의 실시예들을 포함한다. 물론, 전술한 실시예들을 기재하는 목적을 위한 모듈들 또는 방법들의 모든 도출가능한 조합을 기재하는 것은 가능하지 않지만, 당업자라면 다양한 실시예들의 많은 추가적인 조합이 가능함을 인식할 수 있을 것이다. 따라서, 기재된 실시예들은 첨부된 청구범위의 사상과 범위내에 드는 모든 변경을 포함하기 위한 의도이다. 또한, 본 발명은 본원에 개시된 실시예들로 한정되는 것이 아니라, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위를 부여받아야 할 것이다.
100, 300 : 자동통역 장치
102, 302 : 음성인식 모듈
104, 304 : 자동번역 모듈
106 : 음성합성 모듈
200 : 헤드셋
210, 210b : 아웃이어 마이크
220, 220b : 인이어 마이크
230 : 스피커
408 : 크로스토크 감소 모듈

Claims (10)

  1. 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법으로서,
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계;
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하는 단계; 및
    상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계
    를 포함하는, 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
  2. 제 1 항에 있어서,
    상기 제거하는 단계 이전에,
    음성 활동 감지(voice activity detection: VAD) 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계를 더 포함하고,
    상기 제거하는 단계는 상기 음성 구간에 대해서만 실행되는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
  3. 제 1 항에 있어서,
    상기 제거하는 단계는,
    음성 패턴 매칭(voice pattern matching) 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 단계; 및
    상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거하는 단계
    를 포함하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
  4. 제 1 항에 있어서,
    상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 단계; 및
    상기 번역된 문장을 음성으로 합성하여 출력하는 단계를 더 포함하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
  5. 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치로서,
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고; 그리고
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하도록 구성된
    수신 모듈; 및
    상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록 구성된 크로스토크 감소 모듈
    을 포함하는, 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
  6. 제 5 항에 있어서,
    사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 음성 활동 감지(voice activity detection: VAD) 모듈을 더 포함하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
  7. 제 5 항에 있어서,
    상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)와 매칭되는 신호 성분을 추출하는 음성 패턴 매칭(voice pattern matching) 모듈을 더 포함하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
  8. 제 5 항에 있어서,
    상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 자동 번역 모듈; 및
    상기 번역된 문장을 음성으로 합성하여 출력하는 음성 합성 모듈
    을 더 포함하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
  9. 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치로서,
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고;
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하고; 그리고
    상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록
    구성된 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 결합된 메모리
    를 포함하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
  10. 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금:
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하게 하고;
    인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 수신하게 하고; 그리고
    상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(Binear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하게 하는,
    적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체.
KR1020180132328A 2018-10-31 2018-10-31 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치 KR102088216B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020180132328A KR102088216B1 (ko) 2018-10-31 2018-10-31 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치
PCT/KR2019/014645 WO2020091482A1 (ko) 2018-10-31 2019-10-31 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치
US17/290,047 US11763833B2 (en) 2018-10-31 2019-10-31 Method and device for reducing crosstalk in automatic speech translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180132328A KR102088216B1 (ko) 2018-10-31 2018-10-31 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102088216B1 true KR102088216B1 (ko) 2020-03-12

Family

ID=69803150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180132328A KR102088216B1 (ko) 2018-10-31 2018-10-31 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치

Country Status (3)

Country Link
US (1) US11763833B2 (ko)
KR (1) KR102088216B1 (ko)
WO (1) WO2020091482A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102088216B1 (ko) * 2018-10-31 2020-03-12 김정근 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치
CN112435659B (zh) * 2021-01-28 2021-04-30 北京威泰视信科技有限公司 一种信号处理方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251429A (ja) 2000-03-03 2001-09-14 Net Teimento:Kk 携帯電話を使用した音声翻訳システムおよび携帯電話
US20140355775A1 (en) * 2012-06-18 2014-12-04 Jacob G. Appelbaum Wired and wireless microphone arrays
KR20160062666A (ko) * 2014-11-25 2016-06-02 한국전자통신연구원 자동 통역 시스템
WO2016093974A1 (en) * 2014-12-12 2016-06-16 Qualcomm Incorporated Feedback cancelation for enhanced conversational communications in shared acoustic space

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100725435B1 (ko) 2005-12-30 2007-06-07 이비덴 가부시키가이샤 허니컴 구조체
US7773759B2 (en) * 2006-08-10 2010-08-10 Cambridge Silicon Radio, Ltd. Dual microphone noise reduction for headset application
US10194032B2 (en) * 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
EP2482566B1 (en) * 2011-01-28 2014-07-16 Sony Ericsson Mobile Communications AB Method for generating an audio signal
KR20150045203A (ko) * 2013-10-18 2015-04-28 (주)제이유디지탈 잡음 제거 장치
KR101598400B1 (ko) * 2014-09-17 2016-02-29 해보라 주식회사 이어셋 및 그 제어 방법
US20160104501A1 (en) * 2014-10-10 2016-04-14 Christine Weingold Method and Apparatus for Facilitating Conversation in a Noisy Environment
KR101731714B1 (ko) * 2015-08-13 2017-04-28 중소기업은행 음질 개선을 위한 방법 및 헤드셋
US10819953B1 (en) * 2018-10-26 2020-10-27 Facebook Technologies, Llc Systems and methods for processing mixed media streams
KR102088216B1 (ko) * 2018-10-31 2020-03-12 김정근 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251429A (ja) 2000-03-03 2001-09-14 Net Teimento:Kk 携帯電話を使用した音声翻訳システムおよび携帯電話
US20140355775A1 (en) * 2012-06-18 2014-12-04 Jacob G. Appelbaum Wired and wireless microphone arrays
KR20160062666A (ko) * 2014-11-25 2016-06-02 한국전자통신연구원 자동 통역 시스템
WO2016093974A1 (en) * 2014-12-12 2016-06-16 Qualcomm Incorporated Feedback cancelation for enhanced conversational communications in shared acoustic space

Also Published As

Publication number Publication date
WO2020091482A1 (ko) 2020-05-07
US20210407530A1 (en) 2021-12-30
US11763833B2 (en) 2023-09-19

Similar Documents

Publication Publication Date Title
EP3711306B1 (en) Interactive system for hearing devices
US10643606B2 (en) Pre-wakeword speech processing
US9864745B2 (en) Universal language translator
JP7244665B2 (ja) エンドツーエンドの音声変換
US9293134B1 (en) Source-specific speech interactions
KR102158739B1 (ko) 자동통역 시스템, 디바이스 및 방법
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
US8768701B2 (en) Prosodic mimic method and apparatus
JP2015060332A (ja) 音声翻訳装置、音声翻訳方法およびプログラム
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US10558763B2 (en) Automatic translation system, device, and method
KR102088216B1 (ko) 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US20160210982A1 (en) Method and Apparatus to Enhance Speech Understanding
US11290802B1 (en) Voice detection using hearable devices
JP6599828B2 (ja) 音処理方法、音処理装置、及びプログラム
JP4752516B2 (ja) 音声対話装置および音声対話方法
CN113921026A (zh) 语音增强方法和装置
US10623843B1 (en) Using bandwidth-limited audio devices
US20110208516A1 (en) Information processing apparatus and operation method thereof
TWI503814B (zh) 使用時間上及/或頻譜上緊密音訊命令之控制
US11699438B2 (en) Open smart speaker
TWI664627B (zh) 可優化外部的語音信號裝置
JP2019110447A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
KR102000282B1 (ko) 청각 기능 보조용 대화 지원 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant