KR20220042009A - 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 - Google Patents

차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 Download PDF

Info

Publication number
KR20220042009A
KR20220042009A KR1020200125022A KR20200125022A KR20220042009A KR 20220042009 A KR20220042009 A KR 20220042009A KR 1020200125022 A KR1020200125022 A KR 1020200125022A KR 20200125022 A KR20200125022 A KR 20200125022A KR 20220042009 A KR20220042009 A KR 20220042009A
Authority
KR
South Korea
Prior art keywords
voice
language
speech
sound source
vehicle
Prior art date
Application number
KR1020200125022A
Other languages
English (en)
Inventor
김정민
Original Assignee
주식회사 아모센스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아모센스 filed Critical 주식회사 아모센스
Priority to KR1020200125022A priority Critical patent/KR20220042009A/ko
Priority to PCT/KR2021/012991 priority patent/WO2022065891A1/ko
Priority to US18/028,175 priority patent/US20230377592A1/en
Publication of KR20220042009A publication Critical patent/KR20220042009A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Mechanical Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

음성 처리 장치가 개시된다. 음성 처리 장치는 차량 내의 복수의 음원 위치에서 발화된 음성들과 연관된 음성 신호를 수신하도록 구성되는 음성 수신 회로, 음성 신호를 음성들 각각의 음원 위치에 기초하여 음원 분리함으로써, 음성들 각각과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호에 기초하여 음성들 각각에 대한 번역 결과를 출력하도록 구성되는 음성 처리 회로, 분리 음성 신호와 연관된 음성을 번역하기 위한 출발 언어를 나타내는 출발 언어 정보 및 도착 언어를 나타내는 도착 언어 정보를 저장하도록 구성되는 메모리 및 번역 결과를 차량으로 전송하도록 구성되는 통신 회로를 포함하고, 음성 처리 회로는, 메모리를 참조하여, 분리 음성 신호에 대응하는 음성의 언어가 출발 언어로부터 도착 언어로 번역된 번역 결과를 생성한다.

Description

차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법{VOICE PROCESSING DEVICE CAPABLE OF COMMUNICATING WITH VEHICLE AND OPERATING METHOD OF THE SAME}
본 발명의 실시 예들은 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법에 관한 것이다.
마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다.
복수의 화자들이 동시에 발화하는 경우, 개별 화자들의 음성만을 나타내는 음성 신호를 분리하는 것이 필요하다. 또한, 복수의 화자들이 서로 다른 언어로 발화하는 경우, 복수의 화자들의 음성을 쉽게 번역하기 위해서는, 복수의 화자들의 음성의 원래 언어(즉, 출발 언어)를 파악해야 하는데, 음성 자체의 특징만으로 해당 음성의 언어를 파악하는 것은 시간이 많이 소요되고, 많은 리소스가 소요되는 문제가 있다.
한국공개특허공보 제10-2017-0112713호 (2017.10.12.)
본 발명이 해결하고자 하는 과제는 차량 내의 화자들의 음성으로부터 화자들의 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있는 음성 처리 시스템을 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 차량 내의 화자들 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들 각각의 음성의 음원 위치에 대응하는 출발 언어와 도착 언어를 결정하여, 상기 음성에 대한 번역을 제공할 수 있는 음성 처리 시스템을 제공하는 것에 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는 차량 내의 복수의 음원 위치에서 발화된 음성들과 연관된 음성 신호를 수신하도록 구성되는 음성 수신 회로, 음성 신호를 음성들 각각의 음원 위치에 기초하여 음원 분리함으로써, 음성들 각각과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호에 기초하여 음성들 각각에 대한 번역 결과를 출력하도록 구성되는 음성 처리 회로, 분리 음성 신호와 연관된 음성을 번역하기 위한 출발 언어를 나타내는 출발 언어 정보 및 도착 언어를 나타내는 도착 언어 정보를 저장하도록 구성되는 메모리 및 번역 결과를 차량으로 전송하도록 구성되는 통신 회로를 포함하고, 음성 처리 회로는, 메모리를 참조하여, 분리 음성 신호에 대응하는 음성의 언어가 출발 언어로부터 도착 언어로 번역된 번역 결과를 생성한다.
본 발명의 실시 예들에 따른 음성 처리 장치는 차량 내의 화자들의 음성과 연관된 음성 신호로부터 화자들의 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는 차량 내의 화자들의 음성들 각각의 음원 위치에 따라, 상기 음성을 번역하기 위한 출발 언어와 도착 언어를 결정할 수 있고, 이에 따라 화자의 음성의 언어가 무엇인지 식별할 필요없이 적은 시간과 적은 리소스로 화자의 음성에 대한 번역을 제공할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 장치와 차량을 나타내는 도면이다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 4 및 도 5는 본 발명의 실시 예들에 따른 단말기에 의한 음성 처리 장치의 제어를 설명하기 위한 도면이다.
도 6 내지 도 8은 본 발명의 실시 예들에 따른 음성 처리 시스템의 번역 기능을 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예들에 따른 음성 처리 장치와 차량을 나타낸다.
도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 플로우 차트이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 장치와 차량을 나타내는 도면이다. 도 1을 참조하면, 음성 처리 장치(100)는 차량(200) 내에 배치될 수 있고, 차량(200) 내의 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 수신하고, 음성 신호를 처리함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 음성 처리를 수행할 수 있다.
차량(200)은 자동차, 기차, 오토바이, 선박, 항공기 등 도로, 해로, 선로 및 항로 상을 주행하는 수송 또는 운송 수단으로서 정의될 수 있다. 실시 예들에 따라, 차량(200)은 동력원으로서 엔진을 구비하는 내연기관 차량, 동력원으로서 엔진과 전기 모터를 구비하는 하이브리드 차량, 동력원으로서 전기 모터를 구비하는 전기 차량등을 모두 포함하는 개념일 수 있다.
화자들(SPK1~SPK4) 각각은 차량(200) 내에 위치하고, 특정 음성을 발화(pronounce)할 수 있다. 예컨대, 제1화자(SPK1)는 차량(200)의 전행(front row) 왼쪽 영역(FL)에 위치할 수 있고, 제2화자(SPK2)는 차량(200)의 전행 오른쪽 영역(FR)에 위치할 수 있고, 제3화자(SPK3)는 차량(200)의 후행 왼쪽 영역(BL)에 위치할 수 있고, 제4화자(SPK4)는 차량(200)의 후행 오른쪽 영역(BR)에 위치할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
음성 처리 장치(100)는 화자들(SPK1~SPK4)에 의해 발화된 음성과 연관된 음성 신호를 수신할 수 있다. 음성 신호는 특정 시간동안 발화된 음성들과 연관된 신호로서, 복수의 화자들의 음성을 나타내는 신호일 수 있다.
음성 처리 장치(100)는 음원 분리를 수행함으로써 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.
예컨대, 제1분리 음성 신호는 화자들 중 제1화자의 음성과 연관될 수 있다. 이 때, 예컨대, 제1분리 음성 신호는 화자들의 음성들 중 제1화자의 음성과 가장 높은 연관도를 가질 수 있다. 다시 말하면, 제1분리 음성 신호에 포함된 음성 성분 중에서 제1화자의 음성 성분의 비중이 가장 높을 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여, 화자들(SPK1~SPK4) 각각의 음성의 음원 위치를 결정하고, 특정 위치의 음원에만 대응하는 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 특정 위치(또는 방향)에서 발화된 음성과 연관된 분리 음성 신호를 생성할 수 있다. 이에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 제공할 수 있다. 예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어(source language; 번역 대상 언어)와 도착 언어(target language; 번역 후 언어)를 결정하고, 분리 음성 신호를 이용하여 화자들 각각의 언어에 대한 번역을 제공할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 음성들 각각에 대한 번역 결과를 출력할 수 있다. 상기 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호일 수 있다.
즉, 본 발명의 실시 예들에 따른 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성 각각의 음원 위치에 따라 출발 언어와 도착 언어를 결정하므로, 화자의 음성의 언어가 무엇인지 식별할 필요없이 적은 시간과 적은 리소스로 화자의 음성에 대한 번역을 제공할 수 있는 효과가 있다.
예컨대, 음성 처리 장치(100)는 수신되는 음성들 각각의 음원 위치에 기초하여, 특정 화자의 음성과 대응하는 분리 음성 신호를 생성할 수 있다. 예컨대, 차량(200) 내의 제1화자(SPK1) 및 제2화자(SPK2)가 함께 발화하는 경우, 음성 처리 장치(100)는 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호 제2화자(SPK2)의 음성과 연관된 제2분리 음성 신호를 생성할 수 있다.
음성 처리 장치(100)는 차량(200)과 통신할 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 차량(200)으로 음성 신호를 전송할 수 있다.
또한, 음성 처리 장치(100)는 발화된 음성으로부터 기동어를 인식하고, 인식된 기동어에 대응하는 동작 명령을 차량(200)으로 전송할 수 있다.
차량(200)은 음성 처리 장치(100)로부터 음성 신호를 수신할 수 있고, 음성 신호를 출력(또는 재생)할 수 있다. 또한, 차량(200)은 음성 처리 장치(100)로부터 전송된 동작 명령에 따라 특정 동작을 수행할 수 있다.
차량(200)은 단말기(210) 및 스피커들(S1~S4)을 포함할 수 있다.
단말기(210)는 연산 처리 기능을 갖는 장치일 수 있다. 실시 예들에 따라, 단말기(210)는 데이터를 입력받고, 입력된 데이터를 처리하고, 처리된 데이터를 출력할 수 있다. 예컨대, 단말기(210)는 인카 엔터테인먼트(in-car entertainment) 장치, 네비게이션 단말기, 스마트폰, PDA(personal digital assistance), PC(personal computer), 노트북, 웨어러블 장치 또는 스마트 워치(smart watch)일 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
단말기(210)는 터치 패널, 버튼 또는 마이크와 같은 입력 장치, 연산 처리 기능을 갖는 프로세서 및 디스플레이 또는 스피커와 같은 출력 장치를 포함할 수 있다.
단말기(210)는 단말기(210)에 저장된 적어도 하나의 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 동작을 수행할 수 있다.
예컨대, 단말기(210)는 AI(artificial intelligent) 스피커 애플리케이션을 로딩하고, AI 스피커 애플리케이션의 실행에 따라, 분리 음성 신호에 포함된 적어도 하나의 단어를 인식하고, 인식된 단어에 해당하는 동작을 수행할 수 있다. 예컨대, 단말기(210)는 분리 음성 신호에 “날씨”라는 단어가 포함된 경우, 현재 날씨에 대한 정보를 생성하거나, 또는, 클라우드 서버(미도시)로부터 날씨에 대한 정보를 수신할 수 있다.
예컨대, 단말기(210)는 차량 제어 애플리케이션을 로딩하고, 차량 제어 애플리케이션의 실행에 따라, 분리 음성 신호에 포함된 적어도 하나의 단어를 인식하고, 인식된 단어에 대응하는 제어 명령을 생성할 수 있다. 생성된 제어 명령은 차량(200)(또는 차량(200)의 컨트롤러)으로 전송될 수 있다.
단말기(210)는 음성 처리 장치(100)와 데이터 통신을 수행할 수 있다. 실시 예들에 따라, 단말기(210)는 무선 통신 방식 또는 유선 통신 방식에 따라, 음성 처리 장치(100)로부터 분리 음성 신호를 수신할 수 있다.
예컨대, 단말기(210)는 분리 음성 신호로부터 기동어를 인식하고, 기동어에 대응하는 동작 명령을 차량(200)으로 전송할 수 있다.
예컨대, 단말기(210)는 음성 처리 장치(100)를 제어하기 위한 제어 화면을 표시할 수 있고, 사용자의 입력에 따라 음성 처리 장치(100)를 제어하기 위한 제어 값들을 생성하고, 제어 값들을 음성 처리 장치(100)로 전송할 수 있다.
예컨대, 단말기(210)는 음성 처리 장치(100)로부터 출력된 번역 결과를 시각적(예컨대, 디스플레이를 통해) 또는 청각적(예컨대, 스피커를 통해) 방식으로 출력할 수 있다.
스피커들(S1~S4)은 음성 신호를 수신하고, 음성 신호에 해당하는 음성을 출력할 수 있다. 실시 예들에 따라, 스피커들(S1~S4)은 음성 신호에 기초하여 진동을 발생할 수 있고, 스피커들(S1~S4)의 진동에 따라 음성이 재생될 수 있다.
실시 예들에 따라, 스피커들(S1~S4)은 화자들(SPK1~SPK4) 각각의 위치에 배치될 수 있다. 예컨대, 스피커들(S1~S4) 각각은 화자들(SPK1~SPK4)이 위치한 좌석(seat)의 머리 받침(headrest)에 배치된 스피커일 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 1 내지 도 2를 참조하면, 음성 처리 장치(100)는 음성 신호 수신 회로(110), 음성 처리 회로(120), 메모리(130) 및 통신 회로(140)를 포함할 수 있다.
음성 신호 수신 회로(110)는 화자들(SPK1~SPK4)의 음성들에 대응하는 음성 신호를 수신할 수 있다. 실시 예들에 따라, 음성 신호 수신 회로(110)는 유선 통신 방식 또는 무선 통신 방식에 따라 음성 신호를 수신할 수 있다.
실시 예들에 따라, 음성 신호 수신 회로(110)에 의해 수신되는 음성 신호는 복수의 화자들의 음성들과 연관된 신호일 수 있다. 예컨대, 제1화자(SPK1)와 제2화자(SPK2)가 시간적으로 중첩해서 발화하는 경우, 제1화자(SPK1)와 제2화자(SPK2)의 음성은 중첩되므로, 마이크들(115)에 의해 생성된 음성 신호들 각각은 제1화자(SPK1)와 제2화자(SPK2)의 중첩된 음성과 대응한다.
음성 처리 장치(100)는 마이크(115)를 더 포함할 수 있으나, 실시 예들에 따라, 마이크(115)는 음성 처리 장치(100)와 별도로(예컨대, 다른 장치로서) 구현될 수 있고, 음성 처리 장치(100)는 마이크(115)로부터 음성 신호를 수신할 수 있다.
마이크(115)는 화자들(SPK1~SPK4)의 음성을 수신하고, 화자들(SPK1~SPK4)의 음성들과 연관된 (결합) 음성 신호를 생성할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 어레이 형태로 배열된 복수 개의 마이크들(115)을 포함할 수 있고, 복수의 마이크들(115)은 각각은 음성에 의한 매질(예컨대, 공기)의 압력 변화를 측정하고, 측정된 매질의 압력 변화를 전기적인 신호인 음성 신호로 변환하고, 음성 신호를 출력할 수 있다. 이하, 본 명세서에서는 마이크(115)가 복수임을 가정하고 설명한다.
마이크들(115) 각각에 의해 생성된 음성 신호는 적어도 하나 이상의 화자(SPK1~SPK4)의 음성에 대응할 수 있다. 예컨대, 화자들(SPK1~SPK4)이 동시에 발화하는 경우, 마이크들(115)에 각각에 의해 생성된 음성 신호들 각각은 화자들(SPK1~SPK4) 모두의 음성을 나타내는 신호일 수 있다.
마이크들(115)은 빔포밍(beamforming) 마이크로 구성되어, 다방향(multi-direction)으로부터 음성을 입력받을 수 있다. 실시 예들에 따라, 마이크들(115) 은 서로 이격되어 배치되어, 하나의 마이크 어레이를 구성할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
음성 처리 회로(120)는 음성 신호를 처리할 수 있다. 실시 예들에 따라, 음성 처리 회로(120)는 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 예컨대, 음성 처리 회로(120)는 음성 수신 회로(110)에 의해 수신된 음성 신호를 아날로그 ? 디지털 변환을 수행하고, 디지털 변환된 음성 신호를 처리할 수 있다.
음성 처리 회로(120)는 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.
음성 처리 회로(120)는 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성 신호들 각각의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 음성 처리 회로(120)는 음성 신호들 각각의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 나타내는 음원 위치 정보를 생성할 수 있다.
음성 처리 회로(120)는 결정된 음원 위치에 기초하여, 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 회로(120)는 특정 위치(또는 방향)에서 발화된 음성과 연관된 분리 음성 신호를 생성할 수 있다.
이 때, 음성 처리 회로(120)는 음성 신호를 이용하여 제1화자(SPK1) 및 제2화자(SPK2) 각각의 음성의 음원 위치를 파악하고, 음원 위치에 기초하여 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호와 제2화자(SPK2)의 음성을 나타내는 제2분리 음성 신호를 생성할 수 있다.
실시 예들에 따라, 음성 처리 회로(120)는 분리 음성 신호 및 음원 위치 정보를 매칭하여 저장할 수 있다. 예컨대, 음성 처리 회로(120)는 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호 및 제1화자(SPK1)의 음성의 음원 위치를 나타내는 제1음원 위치 정보를 매칭하여 저장할 수 있다.
메모리(130)는 음성 처리 장치(100)의 동작에 필요한 데이터를 저장할 수 있다. 실시 예들에 따라, 메모리(130)는 분리 음성 신호 및 음원 위치 정보를 저장할 수 있다.
통신 회로(140)는 차량(200)(예컨대, 단말기(210))으로 데이터를 전송하거나, 또는, 차량(200)으로부터 데이터를 수신할 수 있다. 실시 예들에 따라, 통신 회로(140)는 무선 통신 방식에 따라 데이터를 통신할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다. 예컨대, 통신 회로(140)는 WiFi, Bluetooth, Zigbee, NFC, Wibro, WCDMA, 3G, LTE, 5G 등의 통신 방식을 지원할 수 있다.
통신 회로(140)는 음성 처리 회로(120)의 제어에 따라, 분리 음성 신호를 차량(200)으로 전송할 수 있다. 실시 예들에 따라, 통신 회로(140)는 분리 음성 신호와 함께 음원 위치 정보를 함께 전송할 수 있다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 도 1 내지 도 3을 참조하면, 차량(200) 내에 위치한 화자들(SPK1~SPK4) 각각이 발화할 수 있다. 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성을 수신하고, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
도 3에 도시된 바와 같이, 제1화자(SPK1)는 음성 “AAA”를 발화하고, 제2화자(SPK2)는 음성 “BBB”를 발화하고, 제3화자(SPK3)는 음성 “CCC”를 발화하고, 제4화자(SPK4)는 음성 “DDD”를 발화한다.
음성 처리 장치(100)는 음성들 “AAA”, “BBB”, “CCC” 및 “DDD”에 응답하여 음성 신호를 생성할 수 있다. 또한, 음성 처리 장치(100)는 음성 신호를 이용하여, 각 화자(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
예컨대, 음성 처리 장치(100)는 음성 신호를 음원의 위치에 따라 분리함으로써, 제1화자(SPK1)의 음성 “AAA”와 연관된 제1분리 음성 신호를 생성할 수 있다. 또한, 음성 처리 장치(100)는 음성 “AAA”의 음원 위치(즉, 제1화자(SPK1)의 위치)인 전행 왼쪽(FL)을 나타내는 제1음원 위치 정보를 저장할 수 있다. 마찬가지로, 음성 처리 장치(100)는 제2화자(SPK2)의 음성 “BBB”와 연관된 제2분리 음성 신호 및 음성 “BBB”의 위치(즉, 제2화자(SPK2)의 위치)인 전행 오른쪽(FR)을 나타내는 제2음원 위치 정보를 저장할 수 있다.
도 4 및 도 5는 본 발명의 실시 예들에 따른 단말기에 의한 음성 처리 장치의 제어를 설명하기 위한 도면이다. 도 1 내지 도 5를 참조하면, 단말기(210)는 음성 처리 장치(100)의 작동을 제어할 수 있다. 실시 예들에 따라, 단말기(210)는 음성 처리 장치(100)에 의해 추출(또는 분리)될 음성의 음원 위치를 설정할 수 있다. 예컨대, 단말기(210)는 음성 처리 장치(100)에 의해 수행되는 음성 분리 기능을 차량(200) 내의 위치들(FL, FR, BL 및 BR) 각각 마다 활성화 또는 비활성화할 수 있다.
예컨대, 도 4에 도시된 바와 같이, 사용자는 단말기(210)에 표시된 화면을 터치함으로써 후행 오른쪽(BR)에 대한 음성 분리 기능을 비활성화할 수 있다. 단말기(210)는 음원 위치가 후행 오른쪽(BR)인 음성에 대한 음성 분리 기능의 비활성화를 지시하는 제어 데이터를 음성 처리 장치(100)로 전송할 수 있다.
음성 처리 장치(100)는 단말기(210)로부터의 제어에 따라, 음성 신호로부터 후행 오른쪽(BR)의 음원 위치를 갖는 음성의 음성 신호를 분리하는 것을 비활성화할 수 있다. 즉, 다시 말하면, 음성 처리 장치(100)는 후행 오른쪽(BR)에 위치한 제4화자(SPK4)의 음성의 음성 신호를 분리하는 것을 비활성화할 수 있다.
예컨대, 도 5에 도시된 바와 같이, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들 “AAA”, “BBB”, “CCC’” 및 “DDD”에 대응하는 음성 신호로부터, 제1화자(SPK1)의 음성 “AAA”와 연관된 제1분리 음성 신호, 제2화자(SPK2)의 음성 “BBB”와 연관된 제2분리 음성 신호 및 제3화자(SPK3)의 음성 “CCC”와 연관된 제3분리 음성 신호를 생성하되, 제4화자(SPK4)의 음성 “DDD”와 연관된 제4분리 음성 신호는 생성하지 않을 수 있다.
즉, 단말기(210)로부터의 제어에 따라, 음성 신호로부터 후행 오른쪽(BR)의 음원 위치를 갖는 음성의 음성 신호를 분리하는 것을 비활성화하면, 음성 처리 장치(100)는 음성 신호로부터 제4화자(SPK4)의 음성에 대응하는 분리 음성 신호를 생성하지 않을 수 있다.
도 6 내지 도 8은 본 발명의 실시 예들에 따른 음성 처리 시스템의 번역 기능을 설명하기 위한 도면이다. 도 6 내지 도 8을 참조하면, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 각각의 음성과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호들을 이용하여 화자들(SPK1~SPK4)의 각각의 음성에 대한 번역 결과를 출력할 수 있다.
도 6에 도시된 바와 같이, 제1화자(SPK1)는 음성 “AAA”를 한국어(KR)로 발화하고, 제2화자(SPK2)는 음성 “BBB”를 영어(EN)로 발화하고, 제3화자(SPK3)는 음성 “CCC”를 중국어(CN)로 발화하고, 제4화자(SPK4)는 음성 “DDD”를 일본어(JP)로 발화한다. 이 경우, 제1화자(SPK1)의 음성 “AAA”의 출발 언어는 한국어(KR)이고, 제2화자(SPK2)의 음성 “BBB”의 출발 언어는 영어(EN)이고, 제3화자(SPK3)의 음성 “CCC”의 출발 언어는 중국어(CN)이고, 제4화자(SPK4)의 음성 “DDD”의 출발 언어는 일본어(JP)이다.
상술한 바와 같이, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성에 대응하는 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 ”AAA(KR)”과 연관된 제1분리 음성 신호를 생성할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(100)는 화자들(SPK1~SPK4)각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 제공할 수 있다. 예컨대, 음성 처리 장치(100)는 제1화자(SPK1)에 의해 발화된 음성 “AAA(KR)”에 대한 번역을 제공할 수 있다.
도 7을 참조하면, 음성 처리 장치(100)는 음원 위치에 따라 결정된 출발 언어(SL)와 도착 언어(TL)에 기초하여, 화자들(SPK1~SPK4) 각각의 음성의 언어에 대한 출발 언어로부터 도착 언어로의 번역을 제공할 수 있다.
출발 언어(SL)와 도착 언어(TL)는 단말기(210)의 조작에 따라 설정될 수 있다. 실시 예들에 따라, 단말기(210)는 화자들(SPK1~SPK4)의 음성의 번역에 필요한 출발 언어(SL) 및 도착 언어(TL)를 설정하기 위한 값들을 생성할 수 있다.
예컨대, 도 7에 도시된 바와 같이, 단말기(210)는 차량(200)의 각 위치(또는 각 화자)에 대응하는 출발 언어(SL) 및 도착 언어(TL)를 설정하고, 설정과 관련된 값들을 음성 처리 장치(100)로 전송할 수 있다.
예컨대, 사용자는 단말기(210)의 입력부(예컨대, 터치 패널)을 이용하여 전행 오른쪽 위치(즉, 제1화자(SPK1))에 대한 출발 언어를 한국어(KR)로 설정하고, 도착 언어를 영어(EN)로 설정할 수 있다. 단말기(210)는 사용자의 입력에 응답하여, 전행 오른쪽 위치(즉, 제1화자(SPK1))에 대한 출발 언어가 한국어(KR)임을 지시하는 제1출발 언어 정보 및 전행 오른쪽 위치(즉, 제1화자(SPK1))에 대한 도착 언어가 영어(EN)임을 지시하는 제1도착 언어 정보를 생성 및 저장할 수 있다. 마찬가지로, 단말기(210)는 차량(200) 내 나머지 위치에 대한 출발 언어 정보 및 도착 언어 정보를 저장할 수 있다.
단말기(210)는 생성된 출발 언어 정보 및 도착 언어 정보를 음성 처리 장치(100)로 전송할 수 있다.
한편, 실시 예들에 따라, 출발 언어 정보 및 도착 언어 정보는 사전에 음성 처리 장치(100)에 저장되어 있을 수도 있다.
도 8에 도시된 바와 같이, 음성 처리 장치(100)는 음원 위치에 대응하는 출발 언어 정보 및 도착 언어 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 출력할 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성에 대응하는 분리 음성 신호와, 각 음성의 음원 위치를 나타내는 음원 위치 정보를 생성 및 저장할 수 있다. 예컨대, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 “AAA(KR)”와 제2화자(SPK2)의 음성 “BBB(EN)”에 응답하여, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 “AAA (KR)”와 연관된 분리 음성 신호와 음성 “AAA”의 음원 위치인 “FL”를 나타내는 음원 위치 정보를 저장할 수 있다. 마찬가지로, 음성 처리 장치(100)는 제2화자(SPK2)의 음성 “BBB”와 연관된 분리 음성 신호와 음원 “BBB”의 음원 위치인 “FR”를 나타내는 음원 위치 정보를 저장할 수 있다.
음성 처리 장치(100)는 분리 음성 신호들 각각의 음원 위치에 대응하는 음원 위치 정보에 기초하여, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어 및 도착 언어를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 음원 위치 정보를 이용하여, 각 음원 위치에 대응하는 출발 언어 정보와 도착 언어 정보를 리드함으로써, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어 및 도착 언어를 결정할 수 있다.
예컨대, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 “AAA (KR)”의 음원 위치인 전행 왼쪽 위치(FL)를 나타내는 제1음원 위치 정보를 수신한다. 단말기(210)는 제1음원 위치 정보를 이용하여, 메모리(130)로부터 전행 왼쪽 위치(FL)에 대응하는 출발 언어 정보와 도착 언어 정보를 리드할 수 있다. 리드 된 출발 언어 정보는 출발 언어가 한국어(KR)임을 지시하고, 도착 언어 정보는 도착 언어가 영어(EN)임을 지시한다.
음성 처리 장치(100)는 결정된 출발 언어 및 도착 언어에 기초하여, 화자들(SPK1~SPK4)의 음성들에 대한 번역을 제공할 수 있다. 예컨대, 음성 처리 장치(100)는 한국어(KR)로 표현되는 제1화자(SPK1)의 음성 “AAA (KR)”과 연관된 분리 음성 신호를 이용하여, 영어(EN)로 표현되는 제1화자(SPK1)의 음성에 대한 번역 결과 “AAA (EN)”를 생성할 수 있다. 이 때, 음성 처리 장치(100)는 번역 결과를 차량(200) 또는 단말기(210)로 출력할 수 있다.
또한, 예컨대, 음성 처리 장치(100)는 영어(EN)로 표현되는 제2화자(SPK2)의 음성 “BBB (EN)”과 연관된 분리 음성 신호를 이용하여, 한국어(KR)로 표현되는 제2화자(SPK2)의 음성에 대한 번역 결과 “BBB (KR)”를 생성할 수 있다.
마찬가지로, 음성 처리 장치(100)는 제3화자(SPK3)의 음성 “CCC (CN)” 및 제4화자(SPK4)의 음성 “DDD (JP)”에 대한 번역 결과를 생성할 수 있다.
본 명세서에서, 음성 처리 장치(100)에 의해 출력되는 번역 결과는 도착 언어로 표현된 텍스트 데이터이거나 혹은 도착 언어로 발화된 음성과 연관된 음성 신호일 수 있으나, 이에 한정되는 것은 아니다.
음성 처리 장치(100)는 분리 음성 신호를 이용하여 화자들(SPK1~SPK4) 각각의 음성의 언어가 도착 언어로부터 출발 언어로 번역된 번역 결과를 생성하고, 번역 결과를 출력할 수 있다.
본 명세서에서, 음성 처리 장치(100)가 번역 결과를 생성한다는 것은, 음성 처리 장치(100)의 음성 처리 회로(120) 자체의 연산을 통해 언어를 번역함으로써 번역 결과를 생성하는 것뿐만 아니라, 음성 처리 장치(100)가 번역 기능을 갖는 서버와의 통신을 통해, 상기 서버로부터 번역 결과를 수신함으로써 번역 결과를 생성하는 것을 포함한다.
예컨대, 음성 처리 회로(120)는 메모리(130)에 저장된 번역 애플리케이션을 실행함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다.
예컨대, 음성 처리 장치(100)는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 번역기(translator)로 전송하고, 번역기로부터 분리 음성 신호에 대한 번역 결과를 수신할 수 있다. 번역기는 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역기는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 출력할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(100)는 차량(200) 내의 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있으며, 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 음성의 음원 위치에 따라 출발 언어와 도착 언어를 결정하고, 화자들(SPK1~SPK4)의 음성을 번역할 수 있다. 또한, 음성 처리 장치(100)는 번역 결과를 차량(200)으로 전송할 수 있다.
도 9는 본 발명의 실시 예들에 따른 음성 처리 장치와 차량을 나타낸다. 도 9를 참조하면, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성을 번역하고, 번역 결과를 차량(200)으로 전송할 수 있다.
차량(200)은 차량(200)을 제어하기 위한 전자 제어 유닛(electronic controller unit (ECU))을 포함할 수 있다. 전자 제어 유닛은 차량(200)의 전반적인 동작을 제어할 수 있다. 예컨대, 전자 제어 유닛은 스피커들(S1~S4)의 작동을 제어할 수 있다.
화자들(SPK1~SPK4) 각각의 음성의 번역 결과는 차량(200) 내의 스피커들(S1~S4)을 통해 출력될 수 있다. 실시 예들에 따라, 화자들(SPK1~SPK4) 각각의 음성의 번역 결과는 스피커들(S1~S4) 중 특정 스피커를 통해 출력될 수 있다.
예컨대, 차량(200)은 음성 처리 장치(100)로부터 전송된 화자들(SPK1~SPK4) 각각의 번역된 음성과 연관된 음성 신호들을 스피커들(S1~S4)로 전송함으로써, 번역된 음성을 재생할 수 있다. 또한, 예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 번역된 음성과 연관된 음성 신호들 스피커들(S1~S4)로 전송할 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과가 출력될 스피커들(S1~S4)의 위치를 결정할 수 있다. 실시 예들에 따라, 음원 처리 장치(100)는 번역 결과가 출력될 스피커의 위치를 나타내는 출력 위치 정보를 생성할 수 있다.
예컨대, 차량(300)의 제1행(예컨대, 전행)에 위치한 화자의 음성의 번역 결과는 동일한 행인, 제1행(예컨대, 전행)에 배치된 스피커로부터 출력될 수 있다.
예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성의 음원 위치들에 대한 출발 언어 정보 및 도착 언어 정보에 기초하여, 번역될 음성의 음원 위치의 도착 언어와, 출력될 스피커의 위치에 대응하는 출발 언어가 동일하도록 출력 위치 정보를 생성할 수 있다.
다만, 번역 결과가 출력될 스피커의 위치를 정하는 방법은 위 방법에 한정된 것은 아니다.
출력 위치 정보에 따라, 화자들(SPK1~SPK4) 각각의 음성의 번역 결과는 스피커들(S1~S4) 중 해당하는 스피커로부터 출력될 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 번역 결과와 함께, 해당 번역 결과가 출력될 스피커의 위치를 나타내는 출력 위치 정보를 함께 차량(200)으로 전송할 수 있고, 차량(200)은 출력 위치 정보를 이용하여, 스피커들(S1~S4) 중에서 해당 음성의 번역 결과를 출력할 스피커를 결정하고, 결정된 스피커로 출력될 번역된 음성과 연관된 음성 신호를 전송할 수 있다.
또한, 실시 예들에 따라, 음성 처리 장치(100)는 출력 위치 정보를 이용하여, 스피커들(S1~S4) 중에서 해당 음성의 번역 결과를 출력할 스피커를 결정하고, 결정된 스피커로 출력될 번역된 음성과 연관된 음성 신호를 전송할 수 있다.
예컨대, 도 8 및 도 9의 경우, 전행 왼쪽 위치의 도착 언어와 전행 오른쪽 위치의 출발 언어는 영어(EN) 이므로, 전행 왼쪽 위치에서의 음성의 번역 결과 “AAA (EN)”는 전행 오른쪽에 위치한 스피커(S2)에서 출력될 수 있다. 마찬가지로, 음성의 번역 결과 “BBB (KR)”은 전행 왼쪽에 위치한 스피커(S1)에서 출력될 수 있다.
도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 플로우 차트이다. 도 1 내지 도 10을 참조하면, 음성 처리 장치(100)는 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다(S110). 실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 수신하고, 음성 신호로부터 분리 음성 신호를 추출 또는 분리할 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성에 대한 출발 언어와 도착 언어를 결정할 수 있다(S120). 실시 예들에 따라, 음성 처리 장치(100)는 메모리(130)를 참조하여, 분리 음원 신호와 연관된 음성의 음원 위치에 대응하는 출발 언어 정보와 도착 언어 정보를 리드하여, 분리 음원 신호 각각에 대한 출발 언어와 도착 언어를 결정할 수 있다.
음성 처리 장치(100)는 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다(S130). 실시 예들에 따라, 음성 처리 장치(100)는 음성 처리 장치(100) 내에 저장된 자체 번역 알고리즘을 통해 번역 결과를 생성하거나, 또는, 통신 가능한 번역기로 분리 음성 신호, 도착 언어 및 출발 언어 정보를 전송하고, 번역기로부터 번역 결과를 수신할 수 있다.
음성 처리 장치(100)는 번역 결과를 출력할 수 있다(S140). 실시 예들에 따라, 음성 처리 장치(100)에 의해 생성된 번역 결과는 차량(200) 내의 스피커들(S1~S4)을 통해 출력될 수 있다.
예컨대, 음성 처리 장치(100)는 번역 결과를 차량(200)으로 전송하고, 차량(200)은 번역 결과를 스피커(S1~S4)를 통해 출력할 수 있다.
예컨대, 음성 처리 장치(100)는 번역 결과를 차량(200) 내의 스피커들(S1~S4) 각각으로 전송함으로써, 번역 결과를 스피커(S1~S4)를 통해 출력할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성의 번역 결과 각각에 대해, 스피커들(S1~S4) 중에서 번역 결과가 출력될 스피커를 결정할 수 있다. 예컨대, 제1화자(SPK1)의 음성의 번역 결과는 제2화자(SPK2)와 인접한 스피커를 통해 출력될 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
본 발명의 실시 예들에 따른 음성 처리 시스템은 차량(200) 내의 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있으며, 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 음성의 음원 위치에 따라 출발 언어와 도착 언어를 결정하고, 화자들(SPK1~SPK4)의 음성을 번역할 수 있다. 또한, 화자들(SPK1~SPK4)의 번역된 음성을 차량(200) 내의 원하는 위치의 스피커를 통해 출력할 수 있다.
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 음성 처리 장치 200: 단말기
300: 차량

Claims (9)

  1. 음성 처리 장치에 있어서,
    차량 내의 복수의 음원 위치에서 발화된 음성들과 연관된 음성 신호를 수신하도록 구성되는 음성 수신 회로;
    상기 음성 신호를 상기 음성들 각각의 음원 위치에 기초하여 음원 분리함으로써, 상기 음성들 각각과 연관된 분리 음성 신호를 생성하고, 상기 분리 음성 신호에 기초하여 상기 음성들 각각에 대한 번역 결과를 출력하도록 구성되는 음성 처리 회로;
    상기 분리 음성 신호와 연관된 음성을 번역하기 위한 출발 언어를 나타내는 출발 언어 정보 및 도착 언어를 나타내는 도착 언어 정보를 저장하도록 구성되는 메모리; 및
    상기 번역 결과를 상기 차량으로 전송하도록 구성되는 통신 회로를 포함하고,
    상기 음성 처리 회로는,
    상기 메모리를 참조하여, 상기 분리 음성 신호에 대응하는 음성의 언어가 상기 출발 언어로부터 상기 도착 언어로 번역된 상기 번역 결과를 생성하는,
    음성 처리 회로.
  2. 제1항에 있어서, 상기 음성 처리 장치는,
    어레이를 이루도록 배치된 복수의 마이크들을 포함하고,
    상기 복수의 마이크들은 상기 음성들에 응답하여 상기 음성 신호를 생성하도록 구성되는,
    음성 처리 장치.
  3. 제2항에 있어서, 상기 음성 처리 회로는,
    상기 복수의 마이크로부터 생성된 복수의 음성 신호들 사이의 시간 지연에 기초하여, 상기 음성들 각각의 음원 위치를 판단하고,
    판단된 음원 위치에 기초하여, 상기 분리 음성 신호를 생성하는,
    음성 처리 장치.
  4. 제2항에 있어서, 상기 음성 처리 회로는,
    상기 복수의 마이크로부터 생성된 복수의 음성 신호들 사이의 시간 지연에 기초하여, 상기 음성들 각각의 음원 위치를 나타내는 음원 위치 정보를 생성하고, 상기 음성에 대한 음원 위치 정보와 상기 음성에 대한 분리 음성 신호를 서로 매칭하여 상기 메모리에 저장하는,
    음성 처리 장치.
  5. 제1항에 있어서, 상기 음성 처리 회로는,
    상기 메모리에 저장된 상기 분리 음성 신호의 음원 위치와 대응하는 출발 언어 정보 및 도착 언어 정보를 참조하여, 상기 분리 음성 신호와 연관된 음성을 번역하기 위한 출발 언어 및 도착 언어를 결정하는,
    음성 처리 장치.
  6. 제1항에 있어서,
    상기 통신 회로는, 상기 음성 처리 회로의 제어에 따라, 상기 번역 결과를 상기 차량으로 전송하고,
    전송된 상기 번역 결과는 상기 차량의 스피커를 통해 음성으로서 출력되는,
    음성 처리 장치.
  7. 제1항에 있어서,
    상기 번역 결과는 상기 도착 언어로 표현된 텍스트 데이터 또는 상기 도착 언어로 발화된 음성과 연관된 음성 신호인,
    음성 처리 장치.
  8. 제6항에 있어서, 상기 음성 처리 회로는,
    상기 번역 결과가 출력될 상기 차량 내의 스피커의 위치를 나타내는 출력 위치 정보를 생성하고, 생성된 출력 위치 정보를 상기 차량으로 전송하는,
    음성 처리 장치.
  9. 제8항에 있어서, 상기 음성 처리 회로는,
    상기 분리 음성 신호와 연관된 음성의 음원 위치에 대응하는 도착 언어와, 출력될 스피커의 위치에 대응하는 출발 언어가 동일하도록 상기 출력 위치 정보를 생성하는,
    음성 처리 장치.
KR1020200125022A 2020-09-25 2020-09-25 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 KR20220042009A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200125022A KR20220042009A (ko) 2020-09-25 2020-09-25 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법
PCT/KR2021/012991 WO2022065891A1 (ko) 2020-09-25 2021-09-24 음성 처리 장치 및 이의 작동 방법
US18/028,175 US20230377592A1 (en) 2020-09-25 2021-09-24 Voice processing device and operating method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200125022A KR20220042009A (ko) 2020-09-25 2020-09-25 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법

Publications (1)

Publication Number Publication Date
KR20220042009A true KR20220042009A (ko) 2022-04-04

Family

ID=81182625

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200125022A KR20220042009A (ko) 2020-09-25 2020-09-25 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법

Country Status (1)

Country Link
KR (1) KR20220042009A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195732A1 (ko) 2022-04-05 2023-10-12 주식회사 엘지에너지솔루션 각형 이차전지

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170112713A (ko) 2016-04-01 2017-10-12 삼성전자주식회사 음성 번역을 위한 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170112713A (ko) 2016-04-01 2017-10-12 삼성전자주식회사 음성 번역을 위한 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195732A1 (ko) 2022-04-05 2023-10-12 주식회사 엘지에너지솔루션 각형 이차전지

Similar Documents

Publication Publication Date Title
KR102388992B1 (ko) 단일 음향 모델 및 자동 악센트 검출로 텍스트 규칙 기반 멀티-악센트 음성 인식
JP6440513B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
US20150006147A1 (en) Speech Recognition Systems Having Diverse Language Support
JP2015521404A (ja) 即時翻訳システム
US9293142B2 (en) Voice recognition system
KR20220042009A (ko) 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법
US20220270617A1 (en) Electronic device for supporting artificial intelligence agent services to talk to users
CN110737422B (zh) 一种声音信号采集方法及装置
US20230377592A1 (en) Voice processing device and operating method therefor
KR20220042010A (ko) 음성 처리 장치와 단말기를 포함하는 음성 처리 시스템
JP2019056913A (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
JP2007286376A (ja) 音声案内システム
KR20220042509A (ko) 음성 처리 장치 및 이의 작동 방법
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
KR102575293B1 (ko) 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법
KR20220045741A (ko) 연속 상황을 판단하여 음성 인식 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램
KR20230013473A (ko) 화자들의 음성을 처리하기 위한 장치 및 방법
US20230377594A1 (en) Mobile terminal capable of processing voice and operation method therefor
KR20210044606A (ko) 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
KR20220022674A (ko) 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법
KR20200101103A (ko) 사용자 입력을 처리하는 전자 장치 및 방법
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
KR20220043279A (ko) 음성 처리 장치 및 이를 포함하는 음성 처리 시스템
JP2019212168A (ja) 音声認識システムおよび情報処理装置
US20240233716A1 (en) Electronic device and method of processing response to user of electronic device