KR20220056593A - 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 - Google Patents
음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 Download PDFInfo
- Publication number
- KR20220056593A KR20220056593A KR1020200141311A KR20200141311A KR20220056593A KR 20220056593 A KR20220056593 A KR 20220056593A KR 1020200141311 A KR1020200141311 A KR 1020200141311A KR 20200141311 A KR20200141311 A KR 20200141311A KR 20220056593 A KR20220056593 A KR 20220056593A
- Authority
- KR
- South Korea
- Prior art keywords
- mobile terminal
- voice
- voices
- language
- voice signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000012545 processing Methods 0.000 title description 10
- 238000013519 translation Methods 0.000 claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims description 14
- 101100043388 Arabidopsis thaliana SRK2D gene Proteins 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000011017 operating method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Telephone Function (AREA)
Abstract
모바일 단말기가 개시된다. 상기 모바일 단말기는 화자들의 음성들에 응답하여 음성 신호를 생성하도록 구성되는 마이크, 음성 신호를 음성들 각각의 음원 위치에 기초하여 음원 분리함으로써, 음성들 각각과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호에 기초하여 음성들 각각에 대한 번역 결과를 출력하도록 구성되는 프로세서 및 화자들의 음성들의 발화된 언어인 출발 언어를 나타내는 출발 언어 정보를 저장하도록 구성되는 메모리를 포함하고, 프로세서는, 출발 언어 정보와 분리 음성 신호에 기초하여, 화자들의 음성의 언어가 출발 언어로부터 도착 언어로 번역된 번역 결과를 출력한다.
Description
본 발명의 실시 예들은 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법에 관한 것이다.
마이크(microphone)는 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다.
한편, 복수의 화자들이 동시에 발화하는 경우, 상기 복수의 화자들의 음성들이 모두 혼합될 수 있다. 이 때, 복수의 화자들의 음성들 중에서 특정 화자의 음성을 나타내는 음성 신호를 분리하는 것이 필요하다.
본 발명이 해결하고자 하는 과제는 화자들의 음성들에 응답하여, 화자들의 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있는 모바일 단말기를 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 화자들의 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들 각각의 음성에 대한 번역 결과를 생성하고, 생성된 번역 결과를 출력할 수 있는 모바일 단말기를 제공하는 것에 있다.
본 발명의 실시 예들에 따른 모바일 단말기는 화자들의 음성들에 응답하여 음성 신호를 생성하도록 구성되는 마이크, 음성 신호를 음성들 각각의 음원 위치에 기초하여 음원 분리함으로써, 음성들 각각과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호에 기초하여 음성들 각각에 대한 번역 결과를 출력하도록 구성되는 프로세서 및 화자들의 음성들의 발화된 언어인 출발 언어를 나타내는 출발 언어 정보를 저장하도록 구성되는 메모리를 포함하고, 프로세서는, 출발 언어 정보와 분리 음성 신호에 기초하여, 화자들의 음성의 언어가 출발 언어로부터 도착 언어로 번역된 번역 결과를 출력한다.
본 발명의 실시 예들에 따른 모바일 단말기는 음성의 음원 위치에 기초하여 특정 음원 위치로부터의 음성과 연관된 분리 음성 신호를 생성할 수 있으므로, 주변 소음의 영향을 최소화된 음성 신호를 생성할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 모바일 단말기는 전송된 음성 신호로부터 화자들 각각의 음성을 추출할 수 있을 뿐만 아니라, 음성들의 음원 위치에 기초하여 음성들의 번역 전 언어인 출발 언어를 판단하고, 판단된 출발 언어에 기초하여 해당 음성을 번역하여 번역 결과를 제공할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 환경을 나타내는 도면이다.
도 2는 본 발명의 실시 예들에 따른 모바일 단말기를 나타낸다.
도 3 내지 도 5는 본 발명의 실시 예들에 따른 모바일 단말기의 동작을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 모바일 단말기의 작동 방법을 나타내는 플로우 차트이다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 8은 본 발명의 실시 예들에 따른 모바일 단말기의 번역 기능을 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예들에 따른 모바일 단말기의 작동 방법을 나타내는 플로우 차트이다.
도 2는 본 발명의 실시 예들에 따른 모바일 단말기를 나타낸다.
도 3 내지 도 5는 본 발명의 실시 예들에 따른 모바일 단말기의 동작을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 모바일 단말기의 작동 방법을 나타내는 플로우 차트이다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 8은 본 발명의 실시 예들에 따른 모바일 단말기의 번역 기능을 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예들에 따른 모바일 단말기의 작동 방법을 나타내는 플로우 차트이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 환경을 나타내는 도면이다. 도 1을 참조하면, 화자들(SPK1~SPK4)은 공간(예컨대, 회의실, 차량, 강의실 등)에 위치하여 음성을 발화(pronounce)할 수 있다. 실시 예들에 따라, 제1화자(SPK1)는 제1위치(P1)에서 음성을 발화할 수 있고, 제2화자(SPK2)는 제2위치(P2)에 위치에서 음성을 발화할 수 있고, 제3화자(SPK3)는 제3위치(P3)에 위치에서 음성을 발화할 수 있고, 제4화자(SPK4)는 제4위치(P4)에서 음성을 발화 위치할 수 있다.
모바일 단말기(100)는 휴대 가능한 전자 장치로서, 통신 기능 및 연산 처리 기능을 갖는 전자 장치일 수 있다. 예컨대, 모바일 단말기(100)는 스마트폰(smartphone), 노트북(laptop), PDA(personal digital assistance), 웨어러블 디바이스(wearable device), 스마트 워치(smart watch) 또는 태블릿 컴퓨터(tablet computer)일 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 처리함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 음성 처리를 수행할 수 있다.
모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성에 응답하여, 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성할 수 있다. 상기 음성 신호는 특정 시간동안 발화된 음성들과 연관된 신호로서, 복수의 화자들의 음성을 나타내는 신호일 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 음성들 각각의 음원 위치를 판단하고, 음원 위치에 기초하여 음원 분리를 수행함으로써, 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.
즉, 모바일 단말기(100)는 음성 신호들에 대응하는 음성들의 음원 위치에 기초하여, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 모바일 단말기(100)는 음성 신호에 기초하여, 제1위치(P1)에서 발화한 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다. 이 때, 제1분리 음성 신호는 화자들(SPK1~SPK4)의 음성들 중 제1화자(SPK1)의 음성과 가장 높은 연관도를 가지는 음성 신호일 수 있다. 다시 말하면, 제1분리 음성 신호에 포함된 음성 성분 중에서 제1화자(SPK1)의 음성 성분의 비중이 가장 높을 수 있다.
또한, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 제공할 수 있다. 예컨대, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어(source language; 번역 대상 언어)와 도착 언어(target language; 번역 후 언어)를 결정하고, 분리 음성 신호를 이용하여 화자들 각각의 언어에 대한 번역을 제공할 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 음성들 각각에 대한 번역 결과를 출력할 수 있다. 상기 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호일 수 있다.
즉, 본 발명의 실시 예들에 따른 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성 각각의 음원 위치에 따라 출발 언어와 도착 언어를 결정하므로, 화자의 음성의 언어가 무엇인지 식별할 필요없이 적은 시간과 적은 리소스로 화자의 음성에 대한 번역을 제공할 수 있는 효과가 있다.
도 2는 본 발명의 실시 예들에 따른 모바일 단말기를 나타낸다. 도 2를 참조하면, 모바일 단말기(100)는 마이크(110), 통신 장치(120), 프로세서(130), 메모리(140) 및 디스플레이(150)를 포함할 수 있다. 실시 예들에 따라, 모바일 단말기(100)는 스피커(160)를 더 포함할 수 있다.
마이크(110)는 발생한 음성에 응답하여 음성 신호를 생성할 수 있다. 실시 예들에 따라, 마이크(110)는 음성으로 인한 공기의 진동을 검출하고, 검출 결과에 따라 진동에 대응하는 전기적인 신호인 음성 신호를 생성할 수 있다.
실시 예들에 따라, 마이크(110)는 복수일 수 있고, 복수의 마이크들(110) 각각은 음성에 응답하여 음성 신호를 생성할 수 있다. 이 때, 복수의 마이크들(110) 각각이 배치된 위치는 서로 다를 수 있으므로, 마이크들(110) 각각으로부터 생성된 음성 신호들은 서로 위상 차(또는 시간 지연)을 가질 수 있다.
통신 장치(120)는 무선 통신 방식에 따라 외부 장치와 데이터를 주고받을 수 있다. 실시 예들에 따라, 통신 장치(120)는 다양한 주파수의 전파를 이용하여, 외부 장치와 데이터를 주고받을 수 있다. 예컨대, 통신 장치(120)는 근거리 무선 통신, 중거리 무선 통신 및 장거리 무선 통신 중 적어도 하나의 무선 통신 방식에 따라, 외부 장치와 데이터를 주고받을 수 있다.
프로세서(130)는 모바일 단말기(100)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(130)은 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 예컨대, 프로세서(130)는 CPU(central processing unit), MCU(micro controller unit), GPU(graphics processing unit), DSP(digital signal processor), ADC 컨버터(analog to digital converter) 또는 DAC 컨버터(digital to analog converter)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
프로세서(130)는 마이크(110)에 의해 생성된 음성 신호들을 처리할 수 있다. 예컨대, 프로세서(130)는 마이크(110)에 의해 생성된 아날로그 타입의 음성 신호를 디지털 타입의 음성 신호로 변환하고, 변환된 디지털 타입의 음성 신호를 처리할 수 있다. 이 경우, 신호의 타입(아날로그 또는 디지털)이 바뀌는 것이므로, 본 발명의 실시 예들에 대한 설명에 있어서, 디지털 타입의 음성 신호와 아날로그 타입의 음성 신호를 혼용하여 설명하도록 한다.
실시 예들에 따라, 프로세서(130)는 마이크(110)에 의해 생성된 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다. 실시 예들에 따라, 프로세서(130)는 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
프로세서(130)는 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성들의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 프로세서(130)는 모바일 단말기(100)에 대한 음원(즉, 화자들(SPK1~SPK4))의 상대적인 위치를 결정할 수 있다.
프로세서(130)는 결정된 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 프로세서(130)는 음성들의 음원 위치에 기초하여, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.
실시 예들에 따라, 프로세서(130)는 결정된 음원 위치를 나타내는 음원 위치 정보를 분리 음성 신호와 매칭하여 저장할 수 있다. 예컨대, 프로세서(130)는 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호 및 제1화자(SPK1)의 음성의 음원 위치를 나타내는 제1음원 위치 정보를 매칭하여 메모리(140)에 저장할 수 있다.
본 명세서에서 설명되는 프로세서(130) 또는 모바일 단말기(100)의 동작은 컴퓨팅 장치에 의해 실행 가능한 프로그램의 형태로 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.
메모리(140)는 모바일 단말기(100)의 동작에 필요한 데이터를 저장할 수 있다. 예컨대, 메모리(140)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.
실시 예들에 따라, 메모리(140)는 공간 상의 각 위치(P1~P4)에 대응하는 식별자를 저장할 수 있다. 상기 식별자는 위치(P1~P4)를 구별하기 위한 데이터일 수 있다. 위치들(P1~P4) 각각에는 화자들(SPK1~SPK4) 각각이 위치하므로, 위치(P1~P4)에 대응하는 식별자를 이용하여 화자(SPK1~SPK4)들 각각을 구별할 수 있다. 예컨대, 제1위치(P1)를 나타내는 제1식별자는, 곧, 제1화자(SPK1)를 나타낼 수 있다.
상기 식별자는 모바일 단말기(100)의 입력 장치(예컨대, 터치 패드)를 통해 입력될 수 있다.
실시 예들에 따라, 메모리(140)는 화자들(SPK1~SPK4) 각각의 위치와 관련됨 음원 위치 정보 및 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 저장할 수 있다.
디스플레이(150)는 프로세서(130)의 제어에 따라, 데이터를 시각적으로 표시할 수 있다. 실시 예들에 따라, 디스플레이(150)는 발광 소자들을 포함하고, 발광 소자들은 전기적인 신호에 따라 특정 파장의 빛을 방출할 수 있다. 예컨대, 디스플레이(150)는 LCD(liquid crystal display), OLED(organic lighting emitting diode) 디스플레이, 플렉서블(flexible) 디스플레이, 마이크로 LED 디스플레이 또는 퀀텀닷(quantum dot) 디스플레이일 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
스피커(160)는 프로세서(130)의 제어에 따라 진동할 수 있고, 상기 진동에 따라 음성이 생성될 수 있다. 실시 예들에 따라, 스피커(160)는 음성 신호에 대응하는 진동을 형성함으로써, 상기 음성 신호와 연관된 음성을 재생할 수 있다.
도 3 내지 도 5는 본 발명의 실시 예들에 따른 모바일 단말기의 동작을 설명하기 위한 도면이다. 도 3 내지 도 5를 참조하면, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4) 각각이 발화할 수 있다.
본 발명의 실시 예들에 따른 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성들로부터 각 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있고, 분리 음성 신호와 화자들(SPK1~SPK4) 각각의 위치를 나타내는 위치 정보를 저장할 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성들의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 모바일 단말기(100)는 모바일 단말기(100)에 대한 음원(즉, 화자들(SPK1~SPK4))의 상대적인 위치를 결정할 수 있다.
모바일 단말기(100)는 결정된 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
도 3에 도시된 바와 같이, 제1화자(SPK1)가 음성 “AAA”을 발화한다. 음성 “AAA”가 발화되면, 모바일 단말기(100)는 음성 “AAA”에 응답하여, 음성 “AAA”와 연관된 음성 신호를 생성할 수 있다. 실시 예들에 따라, 음성 “AAA”와 연관된 음성 신호에는 음성 “AAA”이외의 소음들과 관련된 성분도 포함될 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 생성된 음성 신호를 이용하여, 제1화자(SPK1)의 음성 “AAA”과 연관된 분리 음성 신호를 생성할 수 있다. 이 때, 모바일 단말기(100)는 제1화자(SPK1)의 음성 “AAA”와 연관된 제1분리 음성 신호와 제1화자(SPK1)의 위치인 제1위치(P1)를 나타내는 제1음원 위치 정보를 메모리(140)에 저장할 수 있다. 예컨대, 도 3에 도시된 바와 같이, 제1분리 음성 신호와 제1음원 위치 정보는 서로 매칭되어 저장될 수 있다.
도 4에 도시된 바와 같이, 제2화자(SPK2)가 음성 “BBB”를 발화한다. 음성 “BBB”가 발화되면, 모바일 단말기(100)는 음성 “BBB”에 응답하여, 음성 “BBB”와 연관된 음성 신호를 생성할 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 생성된 음성 신호를 이용하여, 제2화자(SPK2)의 음성 “BBB”와 연관된 제2분리 음성 신호를 생성할 수 있다. 이 때, 모바일 단말기(100)는 제2화자(SPK2)의 음성 “BBB”와 연관된 제2분리 음성 신호와 제2화자(SPK2)의 위치인 제2위치(P2)를 나타내는 제2음원 위치 정보를 메모리(140)에 저장할 수 있다. 예컨대, 도 4에 도시된 바와 같이, 제2분리 음성 신호와 제2음원 위치 정보는 서로 매칭되어 저장될 수 있다.
도 5에 도시된 바와 같이, 제3화자(SPK3)가 음성 “CCC”를 발화하고, 제4화자(SPK4)가 음성 “DDD”를 발화한다. 모바일 단말기(100)는 음성 “CCC” 및 음성 “DDD”에 응답하여, 음성 “CCC” 및 음성 “DDD”와 연관된 음성 신호를 생성할 수 있다. 즉, 상기 음성 신호는 음성 “CCC” 및 음성 “DDD”과 연관된 성분을 포함하는 음성 신호이다.
실시 예들에 따라, 모바일 단말기(100)는 생성된 음성 신호를 이용하여, 제3화자(SPK3)의 음성 “CCC”와 연관된 제3분리 음성 신호 및 제4화자(SPK4)의 음성 “DDD”와 연관된 제4분리 음성 신호를 생성할 수 있다.
이 때, 모바일 단말기(100)는 제3화자(SPK3)의 음성 “CCC”와 연관된 제3분리 음성 신호와 제3화자(SPK3)의 위치인 제3위치(P3)를 나타내는 제3위치 정보를 메모리(140)에 저장할 수 있다. 또한, 모바일 단말기(100)는 제4화자(SPK4)의 음성 “DDD”와 연관된 제4분리 음성 신호와 제4화자(SPK4)의 위치인 제4위치(P4)를 나타내는 제4위치 정보를 메모리(140)에 저장할 수 있다.
예컨대, 도 4에 도시된 바와 같이, 제3분리 음성 신호와 제3음원 위치 정보는 서로 매칭되어 저장될 수 있고, 제4분리 음성 신호와 제4음원 위치 정보는 서로 매칭되어 저장될 수 있다.
즉, 본 발명의 실시 예들에 따른 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성들로부터 각 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있고, 분리 음성 신호와 화자들(SPK1~SPK4) 각각의 위치를 나타내는 위치 정보를 저장할 수 있다.
도 6은 본 발명의 실시 예들에 따른 모바일 단말기에 의한 음성 분리 방법을 나타내는 플로우 차트이다. 도 6을 참조하여 설명될 모바일 단말기의 작동 방법은 비일시적인 저장 매체에 저장되어, 컴퓨팅 장치에 의해 실행 가능한 애플리케이션(예컨대, 음성 분리 애플리케이션)으로서 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.
도 6을 참조하면, 모바일 단말기(100)는 음성에 응답하여, 음성 신호를 생성할 수 있다(S110). 실시 예들에 따라, 모바일 단말기(100)는 공간에서 감지되는 음성을 전기적인 신호인 음성 신호로 변환할 수 있다.
모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 이용하여, 음성들 각각에 대한 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 판단할 수 있다(S120). 실시 예들에 따라, 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성들 각각에 대한 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 나타내는 음원 위치 정보를 생성할 수 있다.
모바일 단말기(100)는 음성들 각각에 대한 음원 위치에 기초하여, 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다(S130). 실시 예들에 따라, 모바일 단말기(100)는 생성된 음성 신호를, 음성들 각각에 대한 음원 위치에 기초하여 분리함으로써 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 모바일 단말기(100)는 음성 신호에 포함된 성분들을 음원 위치에 기초하여 분리함으로써 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다.
모바일 단말기(100)는 음원의 위치를 나타내는 음원 위치 정보와 분리 음성 신호를 저장할 수 있다(S140). 실시 예들에 따라, 모바일 단말기(100)는 음원의 위치를 나타내는 음원 위치 정보와, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 매칭하여 저장할 수 있다. 예컨대, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호에 해당하는 데이터와 음원 위치 정보를 매칭하여 저장할 수 있다.
실시 예들에 따라, 본 발명의 실시 예들에 따른 모바일 단말기(100)(또는 프로세서(130))는 메모리(140)에 저장된 애플리케이션(예컨대, 음성 분리 애플리케이션)을 실행함으로써 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성(또는 분리)할 수 있다.
일반적으로, 음성 신호에 대한 처리를 수행하기 위해서는 마이크 및 음성 신호를 처리하도록 구성되는 프로세서 등의 하드웨어가 필요하다. 한편, 스마트폰과 같은 모바일 단말기는 스피커 및 프로세서를 기본적으로 포함하므로, 사용자들은 모바일 단말기(100)를 이용하여 본 발명의 실시 예들에 따른 방법을 수행함으로써, 별도의 하드웨어를 구비하지 않더라도 화자들의 음성을 분리할 수 있는 효과가 있다. 예컨대, 모바일 단말기(100)의 프로세서(130)는 음성 분리 애플리케이션을 실행하고, 모바일 단말기(100)에 포함된 하드웨어(예컨대, 스피커)를 이용하여 음성 분리를 수행할 수 있다.도 7은 본 발명의 실시 예들에 따른 모바일 단말기의 번역 기능을 설명하기 위한 도면이다. 도 7을 참조하면, 제1화자(SPK1)는 음성 “AAA”를 한국어(KR)로 발화하고, 제2화자(SPK2)는 음성 “BBB”를 영어(EN)로 발화하고, 제3화자(SPK3)는 음성 “CCC”를 중국어(CN)로 발화하고, 제4화자(SPK4)는 음성 “DDD”를 일본어(JP)로 발화한다.
본 발명의 실시 예들에 따른 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성들로부터 각 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있고, 분리 음성 신호를 이용하여 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 제공할 수 있다. 이 때, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 위치와 대응하는 출발 언어 정보를 이용하여, 화자들(SPK1~SPK4)의 음성의 출발 언어를 결정하여, 음성에 대한 번역을 제공할 수 있다.
도 7에 도시된 바와 같이, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호, 화자들(SPK1~SPK4)의 위치를 나타내는 음원 위치 정보 및 화자들(SPK1~SPK4)의 음성의 출발 언어를 나타내는 출발 언어 정보를 저장할 수 있다. 이 때, 출발 언어는 음원 위치 별로 미리 결정되어 저장될 될 수 있다.
예컨대, 모바일 단말기(100)는 제1위치(P1)에 대응하는 출발 언어가 “KR”임을 나타내는 제1출발 언어 정보를 메모리(140)에 저장할 수 있다. 또한, 모바일 단말기(100)는 제1화자(SPK1)의 음성 “AAA”와 연관된 제1분리 음성 신호, 제1화자(SPK1)의 위치인 제1위치(P1)를 나타내는 제1음원 위치 정보 및 제1화자(SPK1)의 음성 “AAA (KR)”의 출발 언어인 “KR”을 나타내는 제1출발 언어 정보를 메모리(140)에 저장할 수 있다.
실시 예들에 따라, 화자들(SPK1~SPK4)이 음성을 발화하면, 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성에 응답하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호 및 화자들(SPK1~SPK4)의 위치를 나타내는 음원 위치 정보를 생성할 수 있다.
모바일 단말기(100)는 출발 언어 정보들을 이용하여, 각 분리 음성 신호에 대응하는 출발 언어를 결정하고, 결정된 출발 언어에 기초하여 화자들(SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 모바일 단말기(100)는 각 분리 음성 신호에 대응하는 음원 위치 정보를 이용하여, 각 음성의 음원 위치와 대응하는 출발 언어를 결정하고, 결정된 출발 언어에 기초하여 분리 음성 신호에 대한 번역 결과를 생성할 수 있다.
예컨대, 모바일 단말기(100)는 분리 음성 신호를 텍스트 데이터로 변환하고(예컨대, STT(Speech-To-Text) 변환), 변환된 텍스트 데이터에 대해서 출발 언어로부터 도착 언어로의 번역 결과를 생성하고, 번역 결과를 음성 신호로서 변환(예컨대, TTS(Text-to-Speech) 변환)할 수 있다. 즉, 본 명세서에서 언급되는 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호를 모두 의미할 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 생성된 번역 결과를 출력할 수 있다. 예컨대, 모바일 단말기(100)는 생성된 번역 결과를 디스플레이(150)를 통해 출력하거나, 또는, 스피커(160)를 통해 출력하거나, 또는 다른 외부 장치로 전송할 수 있다.
도 8은 본 발명의 실시 예들에 따른 모바일 단말기의 번역 기능을 설명하기 위한 도면이다. 도 8을 참조하면, 모바일 단말기(100)는 화자들(SPK1~SPK4)의 각각의 음성과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호들을 이용하여 화자들(SPK1~SPK4)의 각각의 음성에 대한 번역 결과를 출력할 수 있다. 이 때, 번역 결과는 화자들(SPK1~SPK4)의 음성들의 언어가 출발 언어로부터 다른 언어(예컨대, 도착 언어)로 변환된 결과를 나타낸다.
도 8에 도시된 바와 같이, 제1화자(SPK1)는 음성 “AAA”를 한국어(KR)로 발화하고, 제2화자(SPK2)는 음성 “BBB”를 영어(EN)로 발화한다. 이 경우, 1화자(SPK1)의 음성 “AAA”의 출발 언어는 한국어(KR)이고, 제2화자(SPK2)의 음성 “BBB”의 출발 언어는 영어(EN)가 된다.
모바일 단말기(100)는 제1화자(SPK1)의 음성 “AAA(KR)”에 응답하여, 제1화자(SPK1)의 음원 위치(예컨대, P1)를 결정하고, 음원 위치에 기초하여 제1화자(SPK1)의 음성 “AAA(KR)”과 연관된 제1분리 음성 신호를 생성할 수 있다. 마찬가지로, 모바일 단말기(100)는 제2화자(SPK2)의 음성 “BBB(EN)”에 응답하여, 제2화자(SPK2)의 음원 위치(예컨대, P2)를 결정하고, 음원 위치에 기초하여 제2화자(SPK2)의 음성 “BBB(EN)”과 연관된 제2분리 음성 신호를 생성할 수 있다.
모바일 단말기(100)는 생성된 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 음성의 언어에 대한 출발 언어로부터 도착 언어로의 번역을 제공할 수 있다. 실시 예들에 따라, 모바일 단말기(100)는 메모리(140)에 저장된 출발 언어 정보를 이용하여, 화자들(SPK1~SPK4)의 음성의 음원 위치에 따라 결정되는 출발 언어를 결정하고, 결정된 출발 언어에 따라 화자들(SPK1~SPK4) 각각의 음성의 언어에 대한 출발 언어로부터 도착 언어로의 번역 결과를 출력할 수 있다.
실시 예들에 따라, 모바일 단말기(100)는 각 위치에 대한 도착 언어를 나타내는 도착 언어 정보를 저장할 수 있고, 저장된 도착 언어 정보를 이용하여 화자들(SPK1~SPK4) 각각의 음성의 음원 위치에 대응하는 도착 언어를 결정할 수 있다. 또한, 실시 예들에 따라, 모바일 단말기(100)는 사용자로부터의 입력에 기초하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 도착 언어를 결정할 수 있다.
예컨대, 모바일 단말기(100)는 제1화자(SPK1)의 음성 “AAA(KR)”의 음원 위치인 제1위치(P1)를 나타내는 제1음원 위치 정보를 이용하여, 메모리(140)로부터 제1위치(P1)에 대응하는 제1출발 언어 정보를 리드할 수 있다. 리드 된 제1출발 언어 정보는 제1화자(SPK1)의 음성 “AAA'의 출발 언어가 한국어(KR)임을 지시할 수 있다.
상기 번역 결과는 디스플레이(150) 또는 스피커(160)를 통해 출력되거나, 메모리(140)에 저장되거나, 또는, 통신 장치(120)를 통해 외부 장치로 전송될 수 있다.
본 명세서에서, 모바일 단말기(100)에 의해 출력되는 번역 결과는 도착 언어로 표현된 텍스트 데이터이거나 혹은 도착 언어로 발화된 음성과 연관된 음성 신호일 수 있으나, 이에 한정되는 것은 아니다.
본 명세서에서, 모바일 단말기(100)가 번역 결과를 생성한다는 것은, 모바일 단말기(100)의 프로세서(130) 자체의 연산을 통해 언어를 번역함으로써 번역 결과를 생성하는 것뿐만 아니라, 모바일 단말기(100)가 번역 기능을 갖는 서버와의 통신을 통해, 상기 서버로부터 번역 결과를 수신함으로써 번역 결과를 생성하는 것을 포함한다.
예컨대, 프로세서(130)는 메모리(140)에 저장된 번역 애플리케이션을 실행함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다.
예컨대, 모바일 단말기(100)는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 번역기(translator)로 전송하고, 번역기로부터 분리 음성 신호에 대한 번역 결과를 수신할 수 있다. 번역기는 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역기는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 출력할 수 있다.
예컨대, 도 8에 도시된 바와 같이, 모바일 단말기(100)는 제1화자(SPK1)의 음성 “AAA(KR)”에 대한 출발 언어(즉, 한국어(KR)) 및 도착 언어(즉, 영어(EN))를 결정하고, 결정된 출발 언어 및 도착 언어에 따라, 제1화자(SPK1)의 음성 “AAA(KR)”에 대한 번역 결과를 출력할 수 있다. 예컨대, 음성 “AAA(KR)”에 대한 번역 결과는 영어(EN)로 표현된 음성 “AAA(EN)”과 연관된 데이터(예컨대, 음성 데이터 또는 텍스트 데이터 등)일 수 있다. 한편, 비록 도 8에서는 음성 “AAA(KR)”에 대한 도착 언어가 영어(EN)인 것으로 설명되어 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
상술한 바와 같이, 모바일 단말기(100)는 화자들(SPK1~SPK4) 음성과 연관된 분리 음성 신호에 기초하여 번역을 제공하므로, 모바일 단말기(100)는 특정 화자의 음성에 대한 번역 결과를 출력할 수 있는 효과가 있다.
마찬가지로, 모바일 단말기(100)는 제2화자(SPK2)의 음성 “BBB(EN)”에 대한 출발 언어(즉, 영어(EN)) 및 도착 언어(즉, 한국어(KR))를 결정하고, 결정된 출발 언어 및 도착 언어에 따라, 제2화자(SPK2)의 음성 “BBB(EN)”에 대한 번역 결과를 출력할 수 있다. 또한, 모바일 단말기(100)는 제3화자(SPK3)의 음성 “CCC(CN)” 및 제4화자(SPK4)의 음성 “DDD(CN)”에 대한 번역 결과 또한 출력할 수 있다.
도 9는 본 발명의 실시 예들에 따른 모바일 단말기에 의한 번역 결과의 제공 방법을 나타내는 플로우 차트이다. 도 9를 참조하여 설명될 모바일 단말기의 작동 방법은 비일시적인 저장 매체에 저장되어, 컴퓨팅 장치에 의해 실행 가능한 애플리케이션(예컨대, 번역 애플리케이션)으로서 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.
도 9를 참조하면, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다(S210). 실시 예들에 따라, 모바일 단말기(100)는 음성에 응답하여 생성된 음성 신호를 음성들 각각의 음원 위치에 기초하여 분리함으로써, 분리 음성 신호를 생성할 수 있다.
모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어를 결정할 수 있다(S220). 실시 예들에 따라, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성의 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어를 결정할 수 있다. 또한, 모바일 단말기(100)는 화자들(SPK1~SPK4) 각각의 음성의 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성이 번역될 도착 언어를 결정할 수 있다.
모바일 단말기(100)는 분리 음성 신호를 이용하여, 출발 언어에 따라 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 출력할 수 있다(S230). 실시 예들에 따라, 모바일 단말기(100)는 결정된 출발 언어(및 도착 언어)에 기초하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 출발 언어로부터의 도착 언어로의 번역 결과를 출력할 수 있다.
본 발명의 실시 예들에 따른 모바일 단말기(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성하고, 음성 신호들을 처리함으로써 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
또한, 본 발명의 실시 예들에 따른 모바일 단말기(100)는 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 음성을 번역하고, 번역 결과를 출력할 수 있다. 이에 따라, 화자들(SPK1~SPK4)의 사용 언어가 다르더라도, 화자들(SPK1~SPK4) 각각은 자신이 사용하는 언어로 발화할 수 있고, 다른 언어를 사용하는 화자들의 음성을 자신이 사용하는 언어로 번역하여 들을 수 있는 효과가 있다.
일반적으로, 음성 신호에 대한 처리를 수행하기 위해서는 마이크 및 음성 신호를 처리하도록 구성되는 프로세서 등의 하드웨어가 필요하다. 한편, 스마트폰과 같은 모바일 단말기는 스피커 및 프로세서를 기본적으로 포함하므로, 사용자들은 모바일 단말기(100)를 이용하여 본 발명의 실시 예들에 따른 방법을 수행함으로써, 별도의 하드웨어를 구비하지 않더라도 화자들의 음성을 분리할 수 있고, 이들을 이용하여 음성에 대한 번역을 제공할 수 있는 효과가 있다.
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 모바일 단말기
110: 마이크
120: 통신 장치 130: 프로세서
140: 메모리 150: 디스플레이
160: 스피커
120: 통신 장치 130: 프로세서
140: 메모리 150: 디스플레이
160: 스피커
Claims (7)
- 화자들의 음성들에 응답하여 음성 신호를 생성하도록 구성되는 마이크;
상기 음성 신호를 상기 음성들 각각의 음원 위치에 기초하여 음원 분리함으로써, 상기 음성들 각각과 연관된 분리 음성 신호를 생성하고, 상기 분리 음성 신호에 기초하여 상기 음성들 각각에 대한 번역 결과를 출력하도록 구성되는 프로세서; 및
상기 화자들의 음성들의 발화된 언어인 출발 언어를 나타내는 출발 언어 정보를 저장하도록 구성되는 메모리를 포함하고,
상기 프로세서는,
상기 출발 언어 정보와 상기 분리 음성 신호에 기초하여, 상기 화자들의 음성의 언어가 상기 출발 언어로부터 번역될 언어인 도착 언어로 번역된 번역 결과를 출력하는,
모바일 단말기. - 제1항에 있어서, 상기 모바일 단말기는,
상기 번역 결과를 시각적으로 출력하도록 구성되는 디스플레이를 더 포함하는,
모바일 단말기. - 제1항에 있어서,
상기 마이크는 어레이를 이루도록 배치된 복수의 마이크들을 포함하고,
상기 복수의 마이크들은 상기 음성들에 응답하여 상기 음성 신호를 생성하도록 구성되는,
모바일 단말기. - 제3항에 있어서, 상기 프로세서는,
상기 복수의 마이크들로부터 생성된 복수의 음성 신호들 사이의 시간 지연에 기초하여, 상기 음성들 각각의 음원 위치를 판단하고,
판단된 음원 위치에 기초하여, 상기 분리 음성 신호를 생성하는,
모바일 단말기. - 제3항에 있어서, 상기 프로세서는,
상기 복수의 마이크로부터 생성된 복수의 음성 신호들 사이의 시간 지연에 기초하여, 상기 음성들 각각의 음원 위치를 나타내는 음원 위치 정보를 생성하고, 상기 음성에 대한 음원 위치 정보와 상기 음성에 대한 분리 음성 신호를 서로 매칭하여 상기 메모리에 저장하는,
모바일 단말기. - 제1항에 있어서, 상기 프로세서는,
상기 출발 언어 정보에 기초하여, 상기 음성들 각각의 음원 위치에 따라 상기 음성들의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어에 따라 상기 음성들 각각에 대한 번역 결과를 출력하는,
모바일 단말기. - 제1항에 있어서, 상기 모바일 단말기는,
외부 장치와 통신하도록 구성되는 통신 장치를 더 포함하고,
상기 통신 장치는,
상기 프로세서에 의해 출력된 번역 결과를 상기 외부 장치로 전송하는,
모바일 단말기.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200141311A KR20220056593A (ko) | 2020-10-28 | 2020-10-28 | 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 |
US18/015,472 US20230290355A1 (en) | 2020-07-10 | 2021-07-09 | Device for processing voice and operation method thereof |
JP2023501279A JP2023533047A (ja) | 2020-07-10 | 2021-07-09 | 音声処理装置 |
PCT/KR2021/008826 WO2022010320A1 (ko) | 2020-07-10 | 2021-07-09 | 음성을 처리하기 위한 장치 및 이의 작동 방법 |
US18/034,626 US20230377594A1 (en) | 2020-10-28 | 2021-10-27 | Mobile terminal capable of processing voice and operation method therefor |
CN202180080633.6A CN116569174A (zh) | 2020-10-28 | 2021-10-27 | 能处理语音的移动终端及其操作方法 |
PCT/KR2021/015161 WO2022092790A1 (ko) | 2020-10-28 | 2021-10-27 | 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200141311A KR20220056593A (ko) | 2020-10-28 | 2020-10-28 | 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220056593A true KR20220056593A (ko) | 2022-05-06 |
Family
ID=81382857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200141311A KR20220056593A (ko) | 2020-07-10 | 2020-10-28 | 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230377594A1 (ko) |
KR (1) | KR20220056593A (ko) |
CN (1) | CN116569174A (ko) |
WO (1) | WO2022092790A1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170112713A (ko) | 2016-04-01 | 2017-10-12 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101989127B1 (ko) * | 2017-05-31 | 2019-09-30 | 네이버랩스 주식회사 | 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램 |
KR102528466B1 (ko) * | 2017-12-19 | 2023-05-03 | 삼성전자주식회사 | 복수 화자의 음성 신호 처리 방법 및 그에 따른 전자 장치 |
KR102124808B1 (ko) * | 2018-06-12 | 2020-07-23 | (주)메타콤 | 쌍방향 통역 기능을 제공하는 휴대용 Wi-Fi 중계 장치 |
KR20200033707A (ko) * | 2018-09-20 | 2020-03-30 | 삼성전자주식회사 | 전자 장치, 및 이의 학습 데이터 제공 또는 획득 방법 |
KR20200083685A (ko) * | 2018-12-19 | 2020-07-09 | 주식회사 엘지유플러스 | 실시간 화자 판단 방법 |
-
2020
- 2020-10-28 KR KR1020200141311A patent/KR20220056593A/ko unknown
-
2021
- 2021-10-27 US US18/034,626 patent/US20230377594A1/en active Pending
- 2021-10-27 CN CN202180080633.6A patent/CN116569174A/zh active Pending
- 2021-10-27 WO PCT/KR2021/015161 patent/WO2022092790A1/ko active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170112713A (ko) | 2016-04-01 | 2017-10-12 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN116569174A (zh) | 2023-08-08 |
US20230377594A1 (en) | 2023-11-23 |
WO2022092790A1 (ko) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
KR101989127B1 (ko) | 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램 | |
KR20210044509A (ko) | 음성 인식의 향상을 지원하는 전자 장치 | |
KR20220056593A (ko) | 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 | |
KR20220042009A (ko) | 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 | |
KR102575293B1 (ko) | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 | |
US20200175988A1 (en) | Information providing method and information providing apparatus | |
KR20230013473A (ko) | 화자들의 음성을 처리하기 위한 장치 및 방법 | |
US20230290355A1 (en) | Device for processing voice and operation method thereof | |
KR20220118818A (ko) | 전자 장치 및 전자 장치의 동작 방법 | |
JP2011150657A (ja) | 翻訳音声再生装置およびその再生方法 | |
KR20200101103A (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 | |
KR20220059207A (ko) | 음성을 처리하기 위한 장치 및 이의 작동 방법 | |
WO2019103340A1 (ko) | 전자장치 및 그 제어방법 | |
KR20210044606A (ko) | 웨이크업 모델 생성 방법 및 이를 위한 전자 장치 | |
KR20220042509A (ko) | 음성 처리 장치 및 이의 작동 방법 | |
JP2020119043A (ja) | 音声翻訳システムおよび音声翻訳方法 | |
KR20220042010A (ko) | 음성 처리 장치와 단말기를 포함하는 음성 처리 시스템 | |
KR20220043279A (ko) | 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 | |
KR20220059211A (ko) | 음성을 처리하기 위한 장치 및 이의 작동 방법 | |
KR101592114B1 (ko) | 골전도 스피커와 마이크를 이용한 실시간 통역 | |
KR20200003529A (ko) | 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법 | |
US20230377592A1 (en) | Voice processing device and operating method therefor | |
US20230325608A1 (en) | Voice processing device for processing voice signal and voice processing system comprising same |