WO2022039486A1 - 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 - Google Patents

음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 Download PDF

Info

Publication number
WO2022039486A1
WO2022039486A1 PCT/KR2021/010939 KR2021010939W WO2022039486A1 WO 2022039486 A1 WO2022039486 A1 WO 2022039486A1 KR 2021010939 W KR2021010939 W KR 2021010939W WO 2022039486 A1 WO2022039486 A1 WO 2022039486A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
data
speaker
language
speakers
Prior art date
Application number
PCT/KR2021/010939
Other languages
English (en)
French (fr)
Inventor
김정민
Original Assignee
주식회사 아모센스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200103909A external-priority patent/KR20220022674A/ko
Priority claimed from KR1020200126504A external-priority patent/KR20220043279A/ko
Application filed by 주식회사 아모센스 filed Critical 주식회사 아모센스
Priority to US18/022,255 priority Critical patent/US20230325608A1/en
Publication of WO2022039486A1 publication Critical patent/WO2022039486A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Definitions

  • a voice processing system includes a plurality of cordless earphones and a voice processing device, each of the plurality of cordless earphones is a microphone unit configured to generate a voice signal associated with voices uttered by speakers , a communication unit configured to transmit a voice signal, and a speaker unit configured to reproduce a voice
  • the voice processing device includes: a communication circuit configured to receive voice signals transmitted from a plurality of cordless earphones; a plurality of cordless earphones; to generate a first separated voice signal related to the voice of the first speaker among the speakers from the first voice signals transmitted from the first cordless earphone, and to generate a first translated voice signal by translating the first separated voice signal and a communication circuit configured to transmit the configured voice processing circuit, the memory, and the first translated voice signal to the remaining cordless earphones except for the first cordless earphone among the plurality of cordless earphones.
  • 9 and 10 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention.
  • the voice processing system 10 determines the starting language of the voices of the speakers SPK1 to SPK4 according to the positions of the speakers SPK1 to SPK4, the speech of the speakers SPK1 to SPK4 is Since the voices of the speakers SPK1 to SPK4 can be translated without separately recognizing the language, there is an effect of reducing time and resources required for translation.
  • the voice processing system 10 may include a plurality of microphones 100 , a voice processing device 200 , and a translation environment 300 configured to receive voices of the speakers SPK1 to SPK4 .
  • the first output voice data may be voice data having the highest correlation with the voice of the first speaker SPK1 among the voices of the speakers SPK1 to SPK4.
  • the proportion of the voice component of the first speaker SPK1 among the voice components included in the first output voice data may be the highest.
  • the voice receiving circuit 210 includes an analog to digital (ADC) converter, receives analog type voice signals VS1 to VSn from the plurality of microphones 100 , and receives the voice signals VS1 . ⁇ VSn) may be converted into digital type input voice data, and the converted input voice data may be stored.
  • ADC analog to digital
  • the processor 230 may be implemented as an integrated circuit having an arithmetic processing function.
  • the processor 230 may include a central processing unit (CPU), a micro controller unit (MCU), a digital signal processor (DSP), a graphics processing unit (GPU), an application specific integrated circuit (ASIC), or a field programmable gate array (FPGA).
  • CPU central processing unit
  • MCU micro controller unit
  • DSP digital signal processor
  • GPU graphics processing unit
  • ASIC application specific integrated circuit
  • FPGA field programmable gate array
  • the processor 230 may generate a control command for transmitting the output voice data to the translation environment 300 for translating the starting language of the voices of the speakers SPK1 to SPK4.
  • the voice processing device 200 may transmit the second output voice data OVD2 to an English translation device capable of performing English translation.
  • the voice processing apparatus 200 may transmit the second output voice data OVD2 to a terminal (eg, a speaker) that provides voice to a translator capable of performing English translation.
  • the speech processing apparatus 200 determines the starting language of the voices of the speakers SPK1 to SPK4 according to the positions of the speakers SPK1 to SPK4, and serves as a translation environment for translating the determined starting language. It is possible to transmit voice data related to the voices of (SPK1 to SPK4). Accordingly, the voice processing apparatus 200 performs the speech processing apparatus 200 according to the positions of the speakers SPK1 to SPK4 without a separate analysis operation (eg, pitch analysis, etc.) or a learning operation for the voices of the speakers SPK1 to SPK4. It is possible to determine the starting language of the voice of SPK4), thereby reducing the time and resources required for translation.
  • a separate analysis operation eg, pitch analysis, etc.
  • the voice processing system 10A may include the voice processing device 100 and cordless earphones 300 - 1 to 300 - 4 .
  • the voice processing system 10A of FIG. 11 is different in that it includes cordless earphones 300-1 to 300-4.
  • the control unit 330 may control the overall operation of the cordless earphone 300 .
  • the control unit 330 may include a processor having an arithmetic processing function.
  • the control unit 330 may include a central processing unit (CPU), a micro controller unit (MCU), a digital signal processor (DSP), an analog to digital converter, or a digital to analog converter.
  • CPU central processing unit
  • MCU micro controller unit
  • DSP digital signal processor
  • an analog to digital converter or a digital to analog converter.
  • the present invention is not limited thereto.
  • the communication unit 340 may transmit and receive data to and from the voice processing apparatus 200A according to a wireless communication method. According to embodiments, the communication unit 340 may send and receive signals to and from the voice processing device 200A according to a wireless communication method such as WiFi, ZigBee, RFID, NFC, etc.
  • the communication circuit 210A may correspond to the voice data receiving circuit 210 and the voice data output circuit 240 described with reference to FIG. 2
  • the voice processing circuit 220A is the processor 230 described with reference to FIG. 2 .
  • the memory 230A may correspond to the memory 220 described with reference to FIG. 2 .
  • each of the speakers SPK1 to SPK4 positioned at each position P1 to P4 may speak.
  • the first speaker SPK1 may utter the voice “AAA”
  • the second speaker SPK2 may utter the voice “BBB”
  • the third speaker SPK3 may utter the voice “CCC”.
  • the fourth speaker SPK4 may utter the voice “DDD”.
  • the voice processing apparatus 200A may generate a separate voice signal associated with the voices of each of the speakers SPK1 to SPK4 based on the sound source location information. For example, the voice processing apparatus 200A may generate separate voice signals associated with voice “AAA”, “BBB”, “CCC” and “DDD” from the received voice signals VS1 to VS4 .
  • the voice processing apparatus 200A may generate and store sound source location information indicating the sound source location of each of the speakers SPK1 to SPK4.
  • the voice processing apparatus 200A uses the identifiers of the cordless earphones 300-1 to 300-4 to obtain departure language information corresponding to each of the cordless earphones 300-1 to 300-4. By reading, it is possible to determine a starting language for translating the speech of each of the speakers SPK1 to SPK4. For example, the voice processing device 200A reads first start language information corresponding to the first identifier EID1 from the memory 230A by using the first identifier EID1 of the first cordless earphone 300-1. can do.
  • the read first start language information indicates that the start language of the voice “AAA” of the first speaker SPK1 (ie, the wearer of the first cordless earphone 300-1) is Korean (KR).
  • the translation result output by the voice processing apparatus 200A may be text data expressed in the arrival language or a voice signal related to a voice uttered in the arrival language, but is not limited thereto.
  • the voice processing apparatus 200A may transmit the separated voice signal, the departure language information, and the arrival language information to a translator, and may receive a translation result for the separated voice signal from the translator.
  • a translator may refer to an environment or system that provides translation for a language.
  • the translator may output a translation result for each of the voices of the speakers SPK1 to SPK4 by using the separated voice signal, the departure language information, and the arrival language information.

Abstract

음성 처리 장치가 개시된다. 음성 처리 장치는, 화자들의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로, 출발 언어 데이터를 저장하도록 구성되는 메모리, 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로 및 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고, 프로세서는, 입력 음성 데이터를 이용하여, 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고, 메모리를 참조하여 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고, 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 제1출력 음성 데이터를 출력하기 위한 제어 명령을 음성 데이터 출력 회로로 전송한다.

Description

음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템
본 발명의 실시 예들은 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템에 관한 것이다.
마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다.
복수의 화자들이 동시에 발화하는 경우, 개별 화자들의 음성만을 나타내는 음성 신호를 분리하는 것이 필요하다. 또한, 복수의 화자들이 서로 다른 언어로 발화하는 경우, 복수의 화자들의 음성을 쉽게 번역하기 위해서는, 복수의 화자들의 음성의 원래 언어(즉, 출발 언어)를 파악해야 하는데, 음성 자체의 특징만으로 해당 음성의 언어를 파악하는 것은 시간이 많이 소요되고, 많은 리소스가 소요되는 문제가 있다.
본 발명이 해결하고자 하는 과제는 입력 음성 신호를 이용하여 화자의 위치를 판단하고, 입력 음성 신호를 이용하여 각 화자의 음성을 나타내는 출력 음성 신호를 생성할 수 있는 음성 처리 장치 및 이를 포함하는 음성 처리 시스템을 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 음성 신호를 이용하여 화자의 위치를 판단하고, 화자의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 음성 신호를 전송할 수 있는 음성 처리 장치 및 이를 포함하는 음성 처리 시스템을 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 화자들의 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들 각각의 음성에 대한 번역 결과를 생성하고, 생성된 번역 결과를 해당하는 코드리스 이어폰으로 전송할 수 있는 음성 처리 장치 및 이를 포함하는 음성 처리 시스템을 제공하는 것에 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는, 화자들의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로, 출발 언어 데이터를 저장하도록 구성되는 메모리, 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로 및 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고, 프로세서는, 입력 음성 데이터를 이용하여, 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고, 메모리를 참조하여 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고, 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 제1출력 음성 데이터를 출력하기 위한 제어 명령을 음성 데이터 출력 회로로 전송한다.
본 발명의 실시 예들에 따른 음성 처리 시스템은 복수의 코드리스 이어폰들 및 음성 처리 장치를 포함하고, 복수의 코드리스 이어폰들 각각은, 화자들로부터 발화된 음성들과 연관된 음성 신호를 생성하도록 구성되는 마이크 유닛, 음성 신호를 전송하도록 구성되는 통신 유닛 및 음성을 재생하도록 구성되는 스피커 유닛을 포함하고, 음성 처리 장치는, 복수의 코드리스 이어폰들로부터 전송된 음성 신호들을 수신하도록 구성되는 통신 회로, 복수의 코드리스 이어폰들 중 제1코드리스 이어폰으로부터 전송된 제1음성 신호들로부터 화자들 중 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고, 제1분리 음성 신호를 번역하여 제1번역 음성 신호를 생성하도록 구성되는 음성 처리 회로, 메모리 및 제1번역 음성 신호를 복수의 코드리스 이어폰들 중 제1코드리스 이어폰을 제외한 나머지 코드리스 이어폰으로 전송하도록 구성되는 통신 회로를 포함한다.
본 발명의 실시 예들에 따른 음성 처리 장치는 음성 신호를 이용하여 화자 위치를 파악할 수 있고, 화자 위치를 통해 음성 신호가 어떤 화자의 음성에 대응하는 것인지 구별할 수 있다. 이에 따라, 다수의 화자가 동시에 음성을 발화하더라도, 음성 분리 장치는 음성을 화자 별로 구분하여 분리할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는 음성의 음원 위치에 기초하여 특정 음원 위치로부터의 음성과 연관된 분리 음성 신호를 생성할 수 있으므로, 주변 소음의 영향을 최소화된 음성 신호를 생성할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는 전송된 음성 신호로부터 화자들 각각의 음성을 추출할 수 있을 뿐만 아니라, 음성들의 음원 위치에 기초하여 음성들의 번역 전 언어인 출발 언어를 판단하고, 판단된 출발 언어에 기초하여 해당 음성을 번역하여 번역 결과를 제공할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는 화자들의 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들 각각의 음성에 대한 번역 결과를 생성하고, 생성된 번역 결과를 해당하는 코드리스 이어폰으로 전송할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다.
도 9 및 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다.
도 11은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다.
도 12는 본 발명의 실시 예들에 따른 코드리스 이어폰을 나타낸다.
도 13은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 14는 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 15 내지 도 18은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 19는 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 나타내는 플로우 차트이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다. 도 1을 참조하면, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 화자(speaker; SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다. 화자(SPK1~SPK4)는 각 위치(P1~P4)에 위치할 수 있다. 실시 예들에 따라, 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)는 화자(SPK1~SPK4)의 언어로 음성을 발화(pronounce)할 수 있다. 예컨대, 제1위치(P1)에 위치한 제1화자(SPK1)는 제1언어(예컨대, 한국어(KR))로 음성을 발화할 수 있고, 제2위치(P2)에 위치한 제2화자(SPK2)는 제2언어(예컨대, 영어(EN))로 음성을 발화할 수 있고, 제3위치(P3)에 위치한 제3화자(SPK3)는 제3언어(예컨대, 일본어(JP))로 음성을 발화할 수 있고, 제4위치(P4)에 위치한 제4화자(SPK4)는 제4언어(예컨대, 중국어(CN))로 음성을 발화할 수 있다.
실시 예들에 따라, 음성 처리 시스템(10)은 화자(SPK1~SPK4)의 음성에 기초하여 화자(SPK1~SPK4)의 위치를 결정하고, 화자(SPK1~SPK4)의 음성을 결정된 위치에 대응하는 언어(즉, 출발 언어(source language)에서 다른 언어(즉, 도착 언어(target language))로 번역할 수 있다.
즉, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 화자(SPK1~SPK4)의 위치에 기초하여 화자(SPK1~SPK4)의 음성의 언어(즉, 출발 언어)를 결정하므로, 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이 화자(SPK1~SPK4)의 음성을 번역할 수 있으므로, 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.
음성 처리 시스템(10)은 화자(SPK1~SPK4)의 음성을 수신하도록 구성되는 복수의 마이크로폰(100), 음성 처리 장치(200) 및 번역 환경(300)을 포함할 수 있다.
화자(SPK1~SPK4)의 음성은 복수의 마이크로폰(100)에 의해 수신될 수 있다.
복수의 마이크로폰(100)은 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성과 연관된 음성 신호(VS1~VSn)를 생성할 수 있다. 예컨대, 제1마이크로폰(100-1)은 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성과 연관된 제1음성 신호(VS1)를 생성할 수 있다. 제1마이크로폰(100-1)에 의해 생성된 제1음성 신호(VS1)는 적어도 하나 이상의 화자(SPK1~SPK4)의 음성에 대응할 수 있다.
한편, 본 명세서에서 설명되는 음성 신호는 아날로그 타입의 신호 또는 디지털 타입의 데이터일 수 있다. 실시 예들에 따라, 아날로그 타입의 신호와 디지털 타입의 데이터는 상호 변환될 수 있고, 신호의 타입(아날로그 또는 디지털)이 바뀌더라도 포함된 정보는 실질적으로 동일하므로, 본 발명의 실시 예들에 대한 설명에 있어서, 디지털 타입의 음성 신호와 아날로그 타입의 음성 신호를 혼용하여 설명하도록 한다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다. 도 1을 참조하면, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 화자(speaker; SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 음성 처리 시스템(10)은 화자(SPK1~SPK4)의 음성에 기초하여 화자(SPK1~SPK4)의 위치를 결정하고, 화자(SPK1~SPK4)의 음성을 결정된 위치에 대응하는 언어(즉, 출발 언어(source language)에서 다른 언어(즉, 도착 언어(target language))로 번역할 수 있다.
즉, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하므로, 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이 화자(SPK1~SPK4)의 음성을 번역할 수 있으므로, 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.
음성 처리 시스템(10)은 화자(SPK1~SPK4)의 음성을 수신하도록 구성되는 복수의 마이크로폰(100), 음성 처리 장치(200) 및 번역 환경(300)을 포함할 수 있다.
복수의 마이크로폰(100)은 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성을 전기적인 신호인 음성 신호(VS1~VSn)로 변환할 수 있다. 예컨대, 제1마이크로폰(100-1)은 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성과 연관된 제1음성 신호(VS1)를 생성할 수 있다. 제1마이크로폰(100-1)에 의해 생성된 제1음성 신호(VS1)는 적어도 하나 이상의 화자(SPK1~SPK4)의 음성에 대응할 수 있다.
복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 출력할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다. 예컨대, 복수의 마이크로폰(100)은 유선 방식 또는 무선 방식에 따라 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다.
복수의 마이크로폰(100)은 빔포밍(beamforming) 마이크로 구성되어, 다방향(multi-direction)으로부터 음성을 입력받을 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 서로 이격되어 배치되어, 하나의 마이크 어레이를 구성할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
복수의 마이크로폰(100) 각각은 임의의 특정 방향의 음성을 수신하도록 구성되는 지향성 마이크이거나, 또는, 모든 방향의 음성을 수신하도록 구성되는 무지향성 마이크일 수 있다.
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신하고, 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성하고, 출력 음성 데이터를 번역 환경(300)으로 전송할 수 있다.
실시 예들에 따라, 입력 음성 데이터는 음성 신호들(VS1~VSn)일 수 있다. 예컨대, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로 부터 전송되는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득할 수 있다.
한편, 본 명세서에서는 음성 처리 장치(200)가 복수의 마이크로폰(100)으로부터 음성 신호들(VS1~VSn)을 수신하여 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득하는 것을 가정하고 설명하나, 실시 예들에 따라, 복수의 마이크로폰(100)은 음성 처리 장치(200)내에 포함될 수 있다.
음성 처리 장치(200)는 연산 처리 기능을 갖는 컴퓨팅 장치일 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 컴퓨터, 노트북, 모바일 디바이스, 스마트폰 또는 웨어러블 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니다. 예컨대, 음성 처리 장치(200)는 연산 처리 기능을 갖는 적어도 하나의 집적 회로를 포함할 수 있다.
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치(즉, 음원의 위치)를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점(time)들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.
음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터를 결정된 화자의 위치 별로 그룹핑할 수 있다.
예컨대, 제1화자(SPK1)와 제2화자(SPK2)가 시간적으로 중첩해서 발화하는 경우, 제1화자(SPK1)와 제2화자(SPK2)의 음성은 중첩되므로, 입력 음성 데이터 또한 제1화자(SPK1)의 음성과 연관된 음성 데이터와 제2화자(SPK2)의 음성관 연관된 음성 데이터를 포함할 수 있다. 상술한 바와 같이, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 입력 음성 데이터로부터 제1화자(SPK1)의 음성을 나타내는 제1출력 음성 데이터와, 제2화자(SPK2)의 음성을 나타내는 제2출력 음성 데이터를 생성할 수 있다. 이 때, 제1출력 음성 데이터는 화자들(SPK1~SPK4)의 음성들 중 제1화자(SPK1)의 음성과 가장 높은 연관도를 가지는 음성 데이터일 수 있다. 다시 말하면, 제1출력 음성 데이터에 포함된 음성 성분 중에서 제1화자(SPK1)의 음성 성분의 비중이 가장 높을 수 있다.
음성 처리 장치(200)는 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 도착 언어로 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터에 기초하여 결정된 화자의 위치가 제1위치(P1)인 경우, 제1위치(P1)에 대응하는 출발 언어(예컨대, 한국어(KR))를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 출발 언어를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다.
따라서, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이도, 화자(SPK1~SPK4)의 음성의 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 효과가 있다.
실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 처리할 수 있다. 음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 텍스트를 포함하는 텍스트 데이터를 생성하고, 생성된 텍스트 데이터를 화자 위치 데이터와 매칭하여 저장할 수 있다.
또한, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터를 번역 환경(300)으로 전송할 수도 있다.
번역 환경(300)은 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역 환경(300)은 음성 처리 장치(200)로부터 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 수신할 수 있고, 다른 언어로 번역된 화자(SPK1~SPK4)의 음성과 연관된 데이터를 출력할 수 있다. 예컨대, 번역 환경(300)은 화자(SPK1~SPK4)의 언어에 대응하는 한국어, 영어, 일본어 및 중국어에 대한 번역을 제공할 수 있다.
번역 환경(300)은 번역기들(310~340)을 포함할 수 있다. 번역기들(310)은 출발 언어로 표현된 데이터를 도착 언어로 표현된 데이터로 변환할 수 있는 장치, 또는, 언어 번역을 수행하는 번역가에게 음성을 제공하도록 구성되는 단말기를 의미할 수 있다.
실시 예들에 따라, 번역 환경(300)은 언어 번역 기능을 지원하는 장치를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성 데이터를 수신하고, 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터의 언어를 다른 언어로 변환할 수 있는 장치를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성에 대응하는 텍스트 데이터를 수신하고, 텍스트 데이터의 언어를 다른 언어로 변환할 수 있는 장치를 포함할 수 있다.
실시 예들에 따라, 번역 환경(300)은 언어 번역을 수행하는 번역자에게 화자(SPK1~SPK4)의 음성을 제공하도록 구성되는 단말기를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성 데이터를 이용하여 번역자에게 음성 데이터에 대응하는 음성을 재생할 수 있는 단말기를 포함할 수 있다. 상기 단말기는, 예를 들면, 스피커 또는 이어폰일 수 있다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 2를 참조하면, 음성 처리 장치(200)는 음성 데이터 수신 회로(210), 메모리(220), 프로세서(230) 및 음성 데이터 출력 회로(240)를 포함할 수 있다.
음성 수신 회로(210)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다. 실시 예들에 따라, 음성 수신 회로(210)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다.
실시 예들에 따라, 음성 수신 회로(210)는 ADC(analog to digital) 컨버터를 포함하고, 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)을 디지털 타입의 입력 음성 데이터로 변환하고, 변환된 입력 음성 데이터를 저장할 수 있다.
실시 예들에 따라, 음성 수신 회로(210)는 무선 통신 방식에 따라 통신 가능한 통신 회로를 포함하고, 통신 회로를 통해 입력 음성 데이터를 수신할 수 있다.
메모리(220)는 음성 처리 장치(200)의 작동에 필요한 데이터를 저장할 수 있다. 실시 예들에 따라, 메모리(220)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.
메모리(220)는 등록 위치를 나타내는 위치 데이터와, 위치 데이터에 대응하는 출발 언어 데이터를 저장할 수 있다. 실시 예들에 따라, 위치 데이터와 출발 언어 데이터는 메모리(220)에 매칭되어 저장될 수 있다.
출발 언어 데이터는 위치 데이터에 대응하는 위치에 위치하는 화자의 음성(또는 입력 음성 데이터)의 출발 언어를 나타낼 수 있다. 예컨대, 도 1에 도시된 바와 같이, 제1위치(P1)를 나타내는 위치 데이터와 대응하는 출발 언어 데이터는 제1위치(P1)에서 발화된 음성의 출발 언어(예컨대, 한국어)를 나타낼 수 있다. 즉, 출발 언어 데이터는 위치 데이터에 대응하는 위치에서 발화된 음성(또는 입력 음성 데이터)의 출발 언어를 나타낼 수 있다.
프로세서(230)는 음성 처리 장치(200)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(230)는 음성 데이터 수신 회로(210), 메모리(220) 및 음성 데이터 출력 회로(240)의 동작을 제어하기 위한 제어 명령을 생성하고, 제어 명령을 음성 데이터 수신 회로(210), 메모리(220) 및 음성 데이터 출력 회로(240) 각각으로 전송할 수 있다.
프로세서(230)는 연산 처리 기능을 갖는 집적회로로 구현될 수 있다. 예컨대, 프로세서(230)는 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), GPU(graphics processing unit), ASIC(application specific integrated circuit) 또는 FPGA(field programmable gate array)를 포함할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
프로세서(230)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK)의 위치(즉, 음성의 음원 위치)를 판단하고, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다. 예컨대, 프로세서(230)는 화자 위치 데이터를 메모리(220)에 저장할 수 있다.
프로세서(230)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.
프로세서(230)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 예컨대, 음성 처리 장치(200)는 위치에 따라 분리된 음성 데이터와 해당하는 화자 위치 데이터를 매칭하여 저장할 수 있다.
실시 예들에 따라, 프로세서(230)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 입력 음성 데이터로부터 제1화자(SPK1)의 음성과 연관된 제1출력 음성 데이터와 제2화자(SPK2)의 음성과 연관된 제2출력 음성 데이터를 생성할 수 있다. 예컨대, 프로세서(230)는 제1출력 음성 데이터와 제1화자 위치 데이터를 매칭하여 저장하고, 제2출력 음성 데이터와 제2화자 위치 데이터를 매칭하여 저장할 수 있다.
프로세서(230)는 화자 위치 데이터를 이용하여, 화자(SPK1~SPK4)의 음성의 출발 언어를 결정할 수 있다. 실시 예들에 따라, 프로세서(230)는 메모리(220)를 참조하여, 화자(SPK1~SPK4)의 화자 위치 데이터에 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 매칭된 출발 언어 데이터를 결정하고, 결정된 출발 언어 데이터에 의해 지시되는 언어를 화자(SPK1~SPK4)의 음성의 출발 언어로서 결정할 수 있다. 예컨대, 프로세서(230)는 화자(SPK1~SPK4)의 음성과 연관된 (출력 또는 입력) 음성 데이터와 상기 음성의 출발 언어를 나타내는 출발 언어 데이터를 매칭하여 저장할 수 있다.
실시 예들에 따라, 프로세서(230)는 화자(SPK1~SPK4)의 음성의 출발 언어를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송하기 위한 제어 명령을 생성할 수 있다.
음성 데이터 출력 회로(240)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다. 실시 예들에 따라, 음성 데이터 출력 회로(240)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다.
실시 예들에 따라, 음성 신호 출력 회로(250)는 통신 회로를 포함하고, 출력 음성 데이터를 외부 장치로 전송할 수 있다.
음성 데이터 출력 회로(240)는 제어 명령에 응답하여, 화자(SPK1~SPK4)의 위치에 대응하는 출발 언어를 도착 언어로 번역하기 위한 번역 환경(300)으로 음성 데이터를 전송할 수 있다.
도 3 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 3을 참조하면, 제1화자(SPK1)는 제1위치(P1)에서 한국어(KR)로 된 음성을 발화하고, 제2화자(SPK2)는 제2위치(P2)에서 영어(EN)로 된 음성을 발화하고, 제3화자(SPK3)는 제3위치(P3)에서 일본어(JP)로 된 음성을 발화하고, 제4화자(SPK4)는 제4위치(P4)에서 중국어(CN)로 된 음성을 발화할 수 있다. 즉, 제1화자(SPK1)의 음성의 출발 언어는 한국어(KR)이고, 제2화자(SPK2)의 음성의 출발 언어는 영어(EN)이고, 제3화자(SPK3)의 음성의 출발 언어는 일본어(JP)이고, 제4화자(SPK4)의 음성의 출발 언어는 중국어(CN)가 된다.
음성 처리 장치(200)는 위치 데이터(PD1~PD4) 및 위치 데이터(PD1~PD4)에 대응하는 출발 언어 데이터(SLD1~SLD4)를 저장할 수 있다. 위치 데이터(PD1~PD4)는 사전에 정의된 화자의 위치를 나타낼 수 있고, 출발 언어 데이터(SLD1~SLD4)는 해당 위치에 위치한 화자의 출발 언어를 나타낼 수 있다. 예컨대, 도 3의 경우, 제1위치 데이터(PD1)는 제1위치(P1)를 나타내고, 제1출발 언어 데이터(SLD1)는 한국어(KR)를 나타낼 수 있고, 제2위치 데이터(PD2)는 제2위치(P2)를 나타내고, 제2출발 언어 데이터(SLD2)는 영어(EN)를 나타낼 수 있다.
도 4를 참조하면, 제2화자(SPK2)가 음성 "☆☆☆"를 영어(EN)로 발화하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 입력 음성 데이터를 수신할 수 있다. 예컨대, 복수의 마이크로폰(100)은 음성 "☆☆☆"에 대응하는 음성 신호들(VS1~VSn)을 생성할 수 있고, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 입력 음성 데이터를 생성할 수 있다.
음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 입력 음성 데이터를 이용하여, 음성 "☆☆☆"의 음원의 위치, 즉, 제2화자(SPK2)의 위치를 나타내는 제2화자 위치 데이터(SPD2)를 생성할 수 있다.
음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 입력 음성 데이터를 이용하여, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)와 제2화자 위치 데이터(SPD2)를 매칭하여 저장할 수 있다.
도 5를 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 제2화자 위치 데이터(SPD2)에 기초하여, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 나타내는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드(read)할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 메모리(220)에 저장된 위치 데이터(PD1~PD4) 중에서 제2화자 위치 데이터(SPD2)에 대응하는 제2위치 데이터(PD2)를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 위치 데이터(PD1~PD4) 중에서, 제2화자 위치 데이터(SPD2)와 동일 또는 유사한 위치를 나타내는 위치 데이터(예컨대, 제2위치 데이터(PD2))를 결정할 수 있다. 이후, 음성 처리 장치(200)는 제2위치 데이터(PD2)와 대응하는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드할 수 있다.
이에 따라, 음성 처리 장치(200)는 제2출발 언어 데이터(SLD2)에 기초하여 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 결정할 수 있다.
도 6을 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 번역하기 위한 번역 환경(300)으로 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))로 표현되는 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 번역 환경(300)으로 전송할 수 있다.
예컨대, 음성 처리 장치(200)는 영어 번역을 수행할 수 있는 영어 번역 장치로 제2출력 음성 데이터(OVD2)를 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 영어 번역을 수행할 수 있는 번역가로 음성을 제공하는 단말기(예컨대, 스피커)로 제2출력 음성 데이터(OVD2)를 전송할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다. 이에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 대한 별도의 분석 작업(예컨대, 피치 분석 등) 또는 학습 작업 없이도, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 판단할 수 있어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다. 도 7을 참조하면, 음성 처리 장치(200)는 위치 데이터와 출발 언어 데이터를 저장할 수 있다(S110). 실시 예들에 따라, 음성 처리 장치(200)는 메모리(220)에 위치 데이터와 상기 위치 데이터에 대응하는 출발 언어 데이터를 저장할 수 있다. 예컨대, 출발 언어 데이터는 위치 데이터에 대응하는 위치에 위치하는 화자의 음성(또는 음성 데이터)의 출발 언어를 나타낼 수 있다.
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 관련된 입력 음성 데이터를 수신할 수 있다(S120). 음성 처리 장치(200)는 수신된 입력 음성 데이터를 저장할 수 있다.
예컨대, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들을 수신하고, 음성 신호들로부터 입력 음성 데이터를 획득할 수 있다. 예컨대, 음성 처리 장치(200)는 무선 통신 방식에 따라 입력 음성 데이터를 수신할 수 있다.
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다(S130).
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 입력 음성 데이터와 연관된 음성의 음원의 위치를 계산할 수 있다. 음원의 위치가 곧 화자(SPK1~SPK4)의 위치이므로, 음성 처리 장치(200)는 계산된 음원의 위치를 화자(SPK1~SPK4)의 화자 위치 데이터로서 생성할 수 있다.
음성 처리 장치(200)는 입력 언어 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터에 기초하여, 계산된 화자의 위치에서 발화된 음성들과만 연관된 출력 음성 데이터를 생성할 수 있다.
음성 처리 장치(200)는 화자 위치 데이터와 위치 데이터를 비교하고, 화자 위치 데이터에 대응하는 출발 언어 데이터를 리드할 수 있다(S140).
실시 예들에 따라, 음성 처리 장치(200)는 저장된 위치 데이터 중에서 화자 위치 데이터와 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 대응하는 출발 언어 데이터를 메모리(220)로부터 리드할 수 있다. 상술한 바와 같이, 메모리(220)에는 위치 데이터와 대응하는 출발 언어 데이터가 매칭되어 저장되어 있으므로, 음성 처리 장치(200)는 화자 위치 데이터를 이용하여, 화자(SPK1~SPK4)의 위치와 대응하는 출발 언어를 나타내는 출발 언어 데이터를 결정할 수 있다.
음성 처리 장치(200)는 출발 언어 데이터를 이용하여, 출발 언어를 번역하기 위한 번역 환경으로 출력 음성 데이터를 전송할 수 있다(S150).
실시 예들에 따라, 음성 처리 장치(200)는 출발 언어 데이터가 나타내는 출발 언어를 번역하기 위한 번역 환경으로 출력 음성 데이터를 전송할 수 있다.
예컨대, 음성 처리 장치(200)는 각각이 여러 출발 언어를 번역하도록 구성되는 복수의 번역 장치들 중에서, 리드된 출발 언어 데이터에 의해 지시되는 출발 언어를 번역하도록 구성되는 번역 장치로 출력 음성 데이터를 전송할 수 있다.
예컨대, 도 3 내지 도 6에 도시된 예시의 경우, 음성 처리 장치(200)는 한국어, 영어, 일본어 및 중국어를 번역하도록 구성되는 복수의 번역 장치들 중에서, 제2화자(SPK2)의 언어의 출발 언어에 대응하는 영어를 번역하도록 구성되는 번역 장치로 출력 음성 데이터를 전송할 수 있다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 8을 참조하면, 음성 처리 장치(200)는 위치 데이터(PD1~PD4), 위치 데이터(PD1~PD4)에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 저장할 수 있다.
도착 언어 데이터(TLD1~TLD4)는 해당 위치에 위치한 화자의 음성의 도착 언어를 나타낼 수 있다. 예컨대, 도착 언어는 화자(SPK1~SPK4) 별로 다르게 설정될 수 있으나, 이에 한정되는 것은 아니다.
도 3 내지 도 6과 비교할 때, 도 8을 참조하여 설명되는 음성 처리 장치(200)는 화자 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 뿐만 아니라, 도착 언어 데이터(TLD1~TLD4)를 추가적으로 리드할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 화자 위치 데이터와 위치 데이터를 비교하고, 화자 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 리드할 수 있다. 예컨대, 음성 처리 장치(200)는 저장된 위치 데이터 중에서 화자 위치 데이터와 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 메모리(220)로부터 리드할 수 있다.
음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 도착 언어(예컨대, 한국어(KR))로 번역하기 위한 번역 환경(300)으로 전송할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어 및 도착 언어를 결정하고, 결정된 출발 언어를 도착 언어로 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다.
도 9 및 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 9를 참조하면, 제1화자(SPK1)가 음성 "◎◎◎"를 발화하고, 제2화자(SPK2)가 음성 "☆☆☆"를 영어(EN)로 발화하면, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"와 연관된 제1입력 음성 데이터와 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 입력 음성 데이터를 수신할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"과 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 입력 음성 데이터를 수신하고, 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터(SPD1 및 SPD2)를 생성하고, 화자 위치 데이터(SPD1 및 SPD2)에 기초하여 입력 음성 데이터로부터 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다.
예컨대, 음성 처리 장치(200)는 제1화자 위치 데이터(SPD1)와 제1출력 음성 데이터(OVD1)를 매칭하여 저장하고, 제2화자 위치 데이터(SPD2)와 제2출력 음성 데이터(OVD2)를 매칭하여 저장할 수 있다.
음성 처리 장치(200)는 제1화자(SPK1)의 제1화자 위치 데이터(SPD1)에 기초하여, 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어를 나타내는 제1출발 언어 데이터(SLD1)를 메모리(220)로부터 리드할 수 있다. 또한, 음성 처리 장치(200)는 제2화자(SPK2)의 제2화자 위치 데이터(SPD2)에 기초하여, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 나타내는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드할 수 있다. 예컨대, 상술한 바와 같이, 메모리(220)에 저장된 위치 데이터(PD1~PD4) 중에서 제1화자 위치 데이터(SPD1)와 동일 또는 유사한 위치를 나타내는 위치 데이터(예컨대, 제1위치 데이터(PD1))를 결정하고, 제1위치 데이터(PD1)와 대응하는 제1출발 언어 데이터(SLD1)를 메모리(220)로부터 리드할 수 있다.
이에 따라, 음성 처리 장치(200)는 출발 언어 데이터(SLD1 및 SLD2)에 기초하여 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어와 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제1출발 언어 데이터(SLD1)를 매칭하여 저장하고, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)와 제2출발 언어 데이터(SLD2)를 매칭하여 저장할 수 있다.
또한, 음성 처리 장치(200)는 출발 언어 데이터(SLD1 및 SLD2)에 기초하여 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어와 제2화자(SPK2)의 음성 "☆☆☆"의 도착 언어를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성의 도착 언어를, 화자(SPK1~SPK4) 자신을 제외한 나머지 화자의 출발 언어에 기초하여 결정할 수 있다.
예컨대, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"의 도착 언어를, 제2화자(SPK2) 자신을 제외한 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어(예컨대, 한국어)로 설정할 수 있다. 또한, 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"의 도착 언어를, 제1화자(SPK1) 자신을 제외한 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어)로 설정할 수 있다.
도 10을 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 도착 언어(예컨대, 한국어(KR))로 번역하기 위한 번역 환경(300)으로 전송할 수 있다.
음성 처리 장치(200)는 영어로 표현되는 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송하고, 번역 환경(300)으로부터 제2출력 음성 데이터(OVD2)의 번역 결과를 수신할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))로 표현되는 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 번역 환경(300)으로 전송할 수 있다. 또한, 음성 처리 장치(200)는 번역 환경(300)으로부터 음성 "☆☆☆"의 도착 언어(예컨대, 한국어(KR))로 표현되는 텍스트 데이터를 수신하고, 텍스트 데이터를 이용하여 음성 "☆☆☆"의 도착 언어(예컨대, 한국어(KR))로 표현되는 데이터(음성 데이터 또는 텍스트 데이터)를 제1화자(SPK1)로 제공할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다. 이에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 대한 별도의 분석 작업(예컨대, 피치 분석 등) 또는 학습 작업 없이도, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 판단할 수 있어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.
도 11은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다. 도 11을 참조하면, 음성 처리 시스템(10A)은 음성 처리 장치(100)와 코드리스 이어폰들(300-1~300-4)을 포함할 수 있다. 도 1와 비교할 때, 도 11의 음성 처리 시스템(10A)은 코드리스 이어폰들(300-1~300-4)을 포함하는 것이 차이가 있다.
코드리스 이어폰들(300-1~300-4)은 화자들의 음성을 수신하고, 화자들의 음성과 연관된 음성 신호를 음성 처리 장치(200)로 전송할 수 있다. 또한, 코드리스 이어폰들(300-1~300-4)은 음성 처리 장치(200)로부터 전송된 음성 신호를 재생할 수 있다.
코드리스 이어폰들(300-1~300-4)은 무선 방식의 이어폰(earphone)으로서, 음성 처리 장치(200)와 무선 방식으로 연동 또는 연결될 수 있다. 실시 예들에 따라, 코드리스 이어폰들(300-1~300-4)은 Bluetooth, WiFi, ZigBee, RFID, NFC 등과 같은 무선 통신 방식에 따라 음성 처리 장치(200)와 신호를 주고받을 수 있다. 예컨대, 코드리스 이어폰들(300-1~300-4)은 완전 무선(true wireless stereo (TWS)) 이어폰일 수 있다.
코드리스 이어폰들(300-1~300-4) 각각은 왼쪽 이어폰 및 오른쪽 이어폰을 포함할 수 있다.
실시 예들에 따라, 코드리스 이어폰들(300-1~300-4) 각각은 화자들(SPK1~SPK4)에 의해 착용된 장치일 수 있다. 예컨대, 제1코드리스 이어폰(300-1)은 제1화자(SPK1)에 의해 착용되고, 제2코드리스 이어폰(300-2)은 제2화자(SPK2)에 의해 착용되고, 제3코드리스 이어폰(300-3)은 제3화자(SPK3)에 의해 착용되고, 제4코드리스 이어폰(300-4)은 제4화자(SPK4)에 의해 착용될 수 있다.
한편, 도 1에는 코드리스 이어폰들(300-1~300-4)이 두 개의 이어폰 유닛으로 구성된 것으로 도시되어 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
코드리스 이어폰들(300-1~300-4)은 공간 내에서 발생한 음성에 응답하여, 음성 신호를 생성하며, 생성된 음성 신호를 음성 처리 장치(200)로 전송할 수 있다. 실시 예들에 따라, 코드리스 이어폰들(300-1~300-4)은 화자들(SPK1~SPK4)의 음성에 응답하여, 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성하고, 음성 신호를 음성 처리 장치(200)로 전송할 수 있다.
예컨대, 코드리스 이어폰들(300-1~300-4)은 복수의 마이크로폰(microphone)들을 포함할 수 있다.
코드리스 이어폰들(300-1~300-4)은 음성 처리 장치(200)로부터 전송된 음성 신호를 청각적인 방식에 따라 출력할 수 있다. 실시 예들에 따라, 코드리스 이어폰들(300-1~300-4)은 전송된 음성 신호에 해당하는 음성을 재생할 수 있다.
음성 처리 장치(200)는 코드리스 이어폰들(300-1~300-4)로부터 화자들(SPK1~SPK4)에 의해 발화된 음성과 연관된 음성 신호를 수신할 수 있다. 음성 신호는 특정 시간동안 발화된 음성들과 연관된 신호로서, 복수의 화자들의 음성을 나타내는 신호일 수 있다.
음성 처리 장치(200)는 코드리스 이어폰들(300-1~300-4)으로부터 전송된 음성 신호의 음원 위치를 판단하고, 음원 위치에 기초하여 음원 분리를 수행함으로써, 코드리스 이어폰들(300-1~300-4)으로부터 전송된 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다. 즉, 이하 본 명세서에서 설명되는 분리 음성 신호는 도 1 내지 도 10을 참조하여 설명된 출력 음성 데이터에 대응한다.
음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 코드리스 이어폰들(300-1~300-4) 각각으로 제공할 수 있다.
도 12는 본 발명의 실시 예들에 따른 코드리스 이어폰을 나타낸다. 도 12를 참조하면, 코드리스 이어폰(300)은 도 1에 도시된 코드리스 이어폰들(300-1~300-4)을 대표적으로 나타낸다.
코드리스 이어폰(300)은 마이크 유닛(310), 스피커 유닛(320), 제어 유닛(330), 통신 유닛(340) 및 배터리(350)를 포함할 수 있다.
마이크 유닛(310)은 음성을 수신하고, 음성에 응답하여 음성 신호를 생성할 수 있다. 실시 예들에 따라, 마이크 유닛(310)은 음성으로 인한 공기의 진동을 검출하고, 검출 결과에 따라 진동에 대응하는 전기적인 신호인 음성 신호를 생성할 수 있다.
실시 예들에 따라, 마이크 유닛(310)은 복수의 마이크들을 포함할 수 있고, 복수의 마이크들 각각은 음성에 응답하여 음성 신호를 생성할 수 있다. 예컨대, 코드리스 이어폰(300)은 하나의 음성에 응답하여 복수의 음성 신호를 생성할 수 있다. 이 때, 마이크들이 배치된 위치는 서로 다를 수 있으므로, 마이크들 각각에 의해 생성된 음성 신호들은 서로 위상 차(또는 시간 지연)을 가질 수 있다.
스피커 유닛(320)은 음성 신호에 해당하는 음성을 출력할 수 있다. 실시 예들에 따라, 스피커 유닛(320)은 음성 신호에 대응하는 진동을 형성함으로써, 상기 음성 신호와 연관된 음성을 재생할 수 있다.
제어 유닛(330)은 코드리스 이어폰(300)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 제어 유닛(330)은 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 예컨대, 제어 유닛(330)은 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), ADC 컨버터(analog to digital converter) 또는 DAC 컨버터(digital to analog converter)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
제어 유닛(330)은 마이크 유닛(120)에 의해 생성된 음성 신호들을 아날로그-디지털 변환할 수 있다. 디지털로 변환된 음성 신호는 통신 유닛(340)을 통해 출력될 수 있다. 또한, 제어 유닛(330)은 통신 유닛(340)에 의해 수신된 디지털 형태의 번역 음성 신호를 디지털-아날로그 변환하고, 아날로그로 변환된 번역 음성 신호를 스피커 유닛(320)으로 전송할 수 있다.
통신 유닛(340)은 무선 통신 방식에 따라 음성 처리 장치(200A)와 데이터를 주고받을 수 있다. 실시 예들에 따라, 통신 유닛(340)은 WiFi, ZigBee, RFID, NFC 등과 같은 무선 통신 방식에 따라 음성 처리 장치(200A)와 신호를 주고받을 수 있다
통신 유닛(340)은 음성 처리 장치(200A)로 음성 신호를 전송할 수 있고, 음성 처리 장치(200A)로부터 번역 음성 신호를 수신할 수 있다.
배터리(350)는 코드리스 이어폰(300)의 동작에 필요한 전력을 공급할 수 있다. 실시 예들에 따라, 배터리(350)는 코드리스 이어폰(300)에 포함된 마이크 유닛(310), 스피커 유닛(320), 제어 유닛(330) 및 통신 유닛(340)으로 전력을 공급할 수 있다.
도 13은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 13을 참조하여 설명되는 음성 처리 장치(200A)는 도 2를 참조하여 설명된 음성 처리 장치(200A)의 기능을 수행할 수 있다. 이하, 차이점에 대해서만 설명한다.
도 13을 참조하면, 음성 처리 장치(200A)는 통신 회로(210A), 음성 처리 회로(220A) 및 메모리(230A)를 포함할 수 있다.
통신 회로(210A)는 도 2를 참조하여 설명된 음성 데이터 수신 회로(210) 및 음성 데이터 출력 회로(240)에 대응할 수 있고, 음성 처리 회로(220A)는 도 2를 참조하여 설명된 프로세서(230)에 대응할 수 있고, 메모리(230A)는 도 2를 참조하여 설명된 메모리(220)에 대응할 수 있다.
통신 회로(210A)는 코드리스 이어폰들(300-1~300-4)로부터 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신할 수 있다. 실시 예들에 따라, 통신 회로(210A)는 복수의 통신 모듈들을 포함할 수 있고, 복수의 통신 모듈들 각각은 코드리스 이어폰들(300-1~300-4)와 페어링(pairing)을 수행할 수 있다.
통신 회로(210A)는 코드리스 이어폰들(300-1~300-4) 각각의 식별자를 수신할 수 있다. 상기 식별자는 코드리스 이어폰들(300-1~300-4)의 단말 ID 또는 MAC 주소일 수 있으나, 이에 한정되는 것은 아니다.
통신 회로(210A)는 코드리스 이어폰들(300-1~300-4)로 번역 결과를 전송할 수 있다. 이에 대해서는 후술한다.
음성 처리 회로(220A)는 음성 신호를 처리할 수 있다. 실시 예들에 따라, 음성 처리 회로(220A)는 코드리스 이어폰들(300-1~300-4)로부터 전송된 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.
음성 처리 회로(220A)는 코드리스 이어폰들(300-1~300-4) 각각에 대한 음원의 상대적인 위치를 결정하고, 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 회로(220A)는 음성들의 음원 위치에 기초하여, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.
또한, 실시 예들에 따라, 음성 처리 회로(220A)는 음원의 위치를 나타내는 음원 위치 정보를 분리 음성 신호와 매칭하여 저장할 수 있다. 음원 위치 정보는 도 1 내지 도 10을 참조하여 설명된 음원 위치 데이터를 의미할 수 있다.
음성 처리 회로(220A)는 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 수행하고, 번역 결과를 생성할 수 있다. 상기 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호일 수 있다.
메모리(230A)는 음성 처리 장치(200A)의 동작에 필요한 데이터를 저장할 수 있다.
도 14는 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 도 14를 참조하면, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4) 각각이 발화할 수 있다. 예컨대, 제1화자(SPK1)는 음성 “AAA”를 발화할 수 있고, 제2화자(SPK2)는 음성 “BBB”를 발화할 수 있고, 제3화자(SPK3)는 음성 “CCC”를 발화할 수 있고, 제4화자(SPK4)는 음성 “DDD”를 발화할 수 있다.
음성 처리 장치(200A)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호들(VS1~VS4)을 수신하고, 화자들(SPK1~SPK4) 각각의 음성의 음원 위치를 나타내는 음원 위치 정보를 생성할 수 있다. 예컨대, 음성 처리 장치(200A)는 제1화자(SPK1)의 음성의 제1음원 위치인 “P1”을 나타내는 제1음원 위치 정보를 생성 및 저장할 수 있다.
음성 처리 장치(200A)는 음원 위치 정보에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 장치(200A)는 수신된 음성 신호들(VS1~VS4)로부터 음성 “AAA”, “BBB”, “CCC” 및 “DDD”와 연관된 분리 음성 신호들을 생성할 수 있다.
음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호와, 상기 각 음성을 발화한 화자가 착용한 코드리스 이어폰(300-1~300-4)의 식별자를 매칭하여 저장할 수 있다. 예컨대, 음성 처리 장치(200A)는 제1코드리스 이어폰(300-1)로부터 전송된 제1음성 신호들(VS1)을 이용하여 제1화자(SPK1)의 음성 “AAA”과 연관된 제1분리 음성 신호를 생성하고, 제1분리 음성 신호와 제1코드리스 이어폰(300-1)의 식별자 “EID1”를 매칭하여 저장할 수 있다.
이를 통해, 특정 음성이 코드리스 이어폰들(300-1~300-4) 중 어느 코드리스 이어폰을 착용한 화자로부터 발화된 것인지 파악할 수 있게 한다. 예컨대, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호와 제1코드리스 이어폰(300-1)의 제1식별자가 매칭되어 저장되므로, 제1화자(SPK1)는 제1코드리스 이어폰(300-1)을 착용했음을 알 수 있다.
따라서, 결과적으로, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호는 코드리스 이어폰들(300-1~300-4)의 식별자에 의해 식별될 수 있다
도 15 내지 도 18은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 15를 참조하면, 제1화자(SPK1)는 음성 “AAA”를 한국어(KR)로 발화하고, 제2화자(SPK2)는 음성 “BBB”를 영어(EN)로 발화하고, 제3화자(SPK3)는 음성 “CCC”를 중국어(CN)로 발화하고, 제4화자(SPK4)는 음성 “DDD”를 일본어(JP)로 발화한다.
음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성에 대한 분리 음성 신호와, 상기 각 음성을 발화한 화자가 착용한 코드리스 이어폰(300-1~300-4)의 식별자를 매칭하여 저장할 수 있다.
실시 예들에 따라, 음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성의 음원 위치를 나타내는 음원 위치 정보를 생성 및 저장할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성의 언어에 대한 출발 언어로부터 도착 언어로의 번역을 제공할 수 있다.
실시 예들에 따라, 출발 언어와 도착 언어는 코드리스 이어폰들(300-1~300-4) 별로 결정될 수 있다. 즉, 코드리스 이어폰들(300-1~300-4)의 각각의 착용자의 음성에 대한 출발 언어와 도착 언어가 결정될 수 있다.
도 16을 참조하면, 코드리스 이어폰들(300-1~300-4) 각각에 대해서, 출발 언어가 설정될 수 있다. 예컨대, 음성 처리 장치(200A)와 연동 가능한 단말기를 이용하여, 각 코드리스 이어폰들(300-1~300-4)을 착용한 화자의 언어를 번역하기 위한 출발 언어를 설정할 수 있다. 설정된 값은 음성 처리 장치(200A)로 전송될 수 있다. 음성 처리 장치(200A)는 각 코드리스 이어폰들(300-1~300-4)을 착용한 화자의 언어를 번역하기 위한 출발 언어를 나타내는 출발 언어 정보를 저장할 수 있다.
단말기는 코드리스 이어폰들(300-1~300-4)들에 대한 출발 언어를 나타내는 출발 언어 정보를 음성 처리 장치(200A)로 전송할 수 있고, 음성 처리 장치는 출발 언어 정보를 코드리스 이어폰들(300-1~300-4)의 식별자와 매칭하여 저장할 수 있다.
또한, 실시 예들에 따라, 코드리스 이어폰들(300-1~300-4) 각각에 대한 출발 언어 정보는 음성 처리 장치(200A)에 미리 저장되어 있을 수 있다.
도 17을 참조하면, 음성 처리 장치(200A)는 분리 음성 신호들 각각에 대응하는 코드리스 이어폰들(300-1~300-4)의 식별자를 이용하여, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어와 도착 언어를 결정하고, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성하고, 번역 결과를 출력할 수 있다.
실시 예들에 따라, 음성 처리 장치(200A)는 코드리스 이어폰들(300-1~300-4)의 식별자를 이용하여, 각 코드리스 이어폰들(300-1~300-4)에 대응하는 출발 언어 정보를 리드함으로써, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200A)는 제1코드리스 이어폰(300-1)의 제1식별자(EID1)를 이용하여, 메모리(230A)로부터 제1식별자(EID1)에 대응하는 제1출발 언어 정보를 리드할 수 있다. 리드 된 제1출발 언어 정보는 제1화자(SPK1)(즉, 제1코드리스 이어폰(300-1)의 착용자)의 음성 “AAA'의 출발 언어가 한국어(KR)임을 지시한다.
실시 예들에 따라, 음성 처리 장치(200A)는 코드리스 이어폰들(300-1~300-4) 중 번역 대상이 아닌 나머지 코드리스 이어폰들에 대한 출발 언어에 기초하여, 번역 대상의 코드리스 이어폰에 대한 도착 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200A) 제1코드리스 이어폰(300-1)을 제외한 나머지 코드리스 이어폰들(100-2~100-4)의 출발 언어를 제1코드리스 이어폰(300-1)의 도착 언어로서 결정할 수 있다. 즉, 제1도착 언어 정보는 제1화자(SPK1)(즉, 제1코드리스 이어폰(300-1)의 착용자)의 음성 “AAA'의 도착 언어가 나머지 언어들인 영어(EN), 중국어(CN) 및 일본어(JP)임을 지시할 수 있다.
즉, 본 발명의 실시 예들에 따른 음성 처리 장치(200A)는 복수의 코드리스 이어폰들(300-1~300-4) 중 제1코드리스 이어폰(300-1)의 착용자(즉, 제1화자(SPK1))의 음성의 언어를, 나머지 코드리스 이어폰들(100-2~100-4)의 착용자들(즉, 제2화자(SPK2) 내지 제4화자(SPK4))의 언어로 번역할 수 있다.
음성 처리 장치(200A)는 결정된 출발 언어 및 도착 언어에 기초하여, 화자들(SPK1~SPK4)의 음성들에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 음성 처리 장치(200A)는 화자들(SPK1~SPK4)의 음성들 각각의 번역 결과를 생성할 수 있다.
본 명세서에서, 음성 처리 장치(200A)에 의해 출력되는 번역 결과는 도착 언어로 표현된 텍스트 데이터이거나 혹은 도착 언어로 발화된 음성과 연관된 음성 신호일 수 있으나, 이에 한정되는 것은 아니다.
본 명세서에서, 음성 처리 장치(200A)가 번역 결과를 생성한다는 것은, 음성 처리 장치(200A)의 음성 처리 회로(220A) 자체의 연산을 통해 언어를 번역함으로써 번역 결과를 생성하는 것뿐만 아니라, 음성 처리 장치(200A)가 번역 기능을 갖는 서버와의 통신을 통해, 상기 서버로부터 번역 결과를 수신함으로써 번역 결과를 생성하는 것을 포함한다.
예컨대, 음성 처리 회로(220A)는 메모리(230A)에 저장된 번역 애플리케이션을 실행함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다.
예컨대, 음성 처리 장치(200A)는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 번역기(translator)로 전송하고, 번역기로부터 분리 음성 신호에 대한 번역 결과를 수신할 수 있다. 번역기는 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역기는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 출력할 수 있다.
도 17에 도시된 바와 같이, 예컨대, 음성 처리 장치(200A)는 한국어(KR)로 표현되는 제1화자(SPK1)의 음성 “AAA (KR)”과 연관된 분리 음성 신호를 이용하여, 영어(EN)로 표현되는 제1화자(SPK1)의 음성에 대한 번역 결과 “AAA (EN)”를 생성할 수 있다. 또한, 예컨대, 음성 처리 장치(200A)는 중국어(CN) 및 일본어(JP)로 표현되는 제1화자(SPK1)의 음성에 대한 번역 결과 “AAA (CN)” 및 “AAA (JP)”를 생성할 수 있다.
음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 코드리스 이어폰들(300-1~300-4)로 전송할 수 있다. 실시 예들에 따라, 음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를, 번역된 언어(즉, 도착 언어)에 대응하는 코드리스 이어폰 각각으로 전송할 수 있다.
실시 예들에 따라, 음성 처리 장치(200A)는 메모리(230A)를 참조하여, 번역 결과의 도착 언어와 동일한 언어를 나타내는 출발 언어 정보와 매칭되는 코드리스 이어폰의 식별자를 리드하고, 리드된 식별자를 이용하여 해당하는 코드리스 이어폰으로 번역 결과를 전송할 수 있다.
예컨대, 도 17에 도시된 바와 같이, 음성 처리 장치(200A)는 제1화자(SPK1)의 음성에 대한 번역 결과를 코드리스 이어폰들(100-2~100-4)로 전송할 수 있다.
따라서, 본 발명의 실시 예들에 따른 음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성을 번역하여 번역 결과를 생성하고, 생성된 번역 결과를 화자들(SPK1~SPK4) 각각이 착용한 코드리스 이어폰들(300-1~300-4)로 전송할 수 있다. 이에 따라, 화자들(SPK1~SPK4)의 언어가 서로 다르더라도, 음성 처리 시스템(10A)을 통해 서로의 언어로 소통할 수 있는 효과가 있다.
예컨대, 또한, 도 18에 도시된 바와 같이, 음성 처리 장치(200A)는 제2화자(SPK2)의 음성에 대한 번역 결과를 코드리스 이어폰들(100-1, 100-3 및 100-4)로 전송할 수 있다.
도 19는 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 나타내는 플로우 차트이다. 도 19를 참조하면, 음성 처리 장치(200A)는 코드리스 이어폰들(300-1~300-4)로부터 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신할 수 있다(S210). 예컨대, 음성 처리 장치(200A)는 제1화자(SPK1)에 의해 착용된 제1코드리스 이어폰(300-1)로부터 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호들(VS1)을 수신할 수 있다.
음성 처리 장치(200A)는 코드리스 이어폰들(300-1~300-4)로부터 전송된 음성 신호들로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다(S220). 실시 예들에 따라, 음성 처리 장치(200A)는 코드리스 이어폰들(300-1~300-4)로부터 전송된 음성 신호들에 대응하는 음성들의 음원 위치에 기초하여, 코드리스 이어폰들(300-1~300-4) 각각을 착용한 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성의 번역을 위한 출발 언어와 도착 언어를 결정할 수 있다(S230). 실시 예들에 따라, 음성 처리 장치(200A)는 메모리(230A)를 참조하여, 코드리스 이어폰들(300-1~300-4) 각각의 식별자와 매칭되어 저장된 출발 언어 정보를 이용하여 출발 언어를 결정할 수 있고, 결정된 출발 언어에 따라 도착 언어 또한 결정할 수 있다.
음성 처리 장치(200A)는 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다(S240). 실시 예들에 따라, 음성 처리 장치(200A)는 음성 처리 장치(200A) 내에 저장된 자체 번역 알고리즘을 통해 번역 결과를 생성하거나, 또는, 통신 가능한 번역기로 분리 음성 신호, 도착 언어 및 출발 언어 정보를 전송하고, 번역기로부터 번역 결과를 수신할 수 있다.
음성 처리 장치(200A)는 생성된 번역 결과를 코드리스 이어폰들(300-1~300-4)로 전송할 수 있다(S250). 실시 예들에 따라, 음성 처리 장치(200A)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를, 번역된 언어(즉, 도착 언어)에 대응하는 코드리스 이어폰 각각으로 전송할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 시스템은 코드리스 이어폰들(300-1~300-4)을 이용하여 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성하고, 음성 신호들을 처리함으로써 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
또한, 음성 처리 시스템은 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 음성을 번역하고, 번역 결과를 해당하는 코드리스 이어폰들로 출력할 수 있다. 이에 따라, 화자들(SPK1~SPK4)의 사용 언어가 다르더라도, 화자들(SPK1~SPK4) 각각은 자신이 사용하는 언어로 발화할 수 있고, 다른 언어를 사용하는 화자들의 음성을 자신이 사용하는 언어로 번역하여 들을 수 있는 효과가 있다.
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
본 발명의 실시 예들은 음성을 처리하기 위한 장치 및 이의 작동 방법에 관한 것이다.

Claims (15)

  1. 화자들의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로;
    출발 언어 데이터를 저장하도록 구성되는 메모리;
    상기 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로; 및
    상기 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고,
    상기 프로세서는,
    상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 상기 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고,
    상기 메모리를 참조하여 상기 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고,
    상기 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
    음성 처리 장치.
  2. 제1항에 있어서,
    상기 입력 음성 데이터는 복수의 마이크로폰들에 의해 생성된 음성 신호들로부터 생성된 것인,
    음성 처리 장치.
  3. 제2항에 있어서, 상기 프로세서는,
    상기 복수의 마이크로폰들 사이의 거리 및 상기 음성 신호가 상기 복수의 마이크로폰에 의해 수신되는 시점에 기초하여, 상기 제1화자 위치 데이터를 생성하는,
    음성 처리 장치.
  4. 제1항에 있어서,
    상기 메모리는 상기 출발 언어 데이터와 대응하는 위치 데이터를 상기 출발 언어 데이터와 매칭하여 저장하고,
    상기 프로세서는 저장된 위치 데이터 중 상기 제1화자 위치 데이터와 대응하는 제1위치 데이터를 결정하고, 출발 언어 데이터 중 상기 제1위치 데이터와 매칭되어 저장된 상기 제1출발 언어 데이터를 결정하는,
    음성 처리 장치.
  5. 제1항에 있어서,
    상기 프로세서는, 상기 제1화자의 음성과 연관된 상기 제1출력 음성 데이터를 상기 제1출발 언어로 표현되는 텍스트 데이터로 변환하고,
    상기 음성 데이터 출력 회로는, 상기 프로세서의 제어에 따라 변환된 텍스트 데이터를 상기 번역 환경으로 전송하는,
    음성 처리 장치.
  6. 제1항에 있어서, 상기 프로세서는,
    상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제2화자의 위치를 나타내는 제2화자 위치 데이터를 생성하고,
    상기 메모리를 참조하여 상기 제2화자 위치 데이터에 대응하는 제2출발 언어 데이터를 리드하고,
    상기 제1출발 언어를 상기 제2출발 언어 데이터에 의해 지시되는 제2출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
    음성 처리 장치.
  7. 제6항에 있어서, 상기 프로세서는,
    상기 입력 음성 데이터를 이용하여, 상기 제2화자의 음성과 연관된 제2출력 음성 데이터를 생성하고,
    상기 제2출발 언어를 상기 제1출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
    음성 처리 장치.
  8. 복수의 코드리스 이어폰들 및 음성 처리 장치를 포함하는 음성 처리 시스템에 있어서,
    상기 복수의 코드리스 이어폰들 각각은,
    화자들로부터 발화된 음성들과 연관된 음성 신호를 생성하도록 구성되는 마이크 유닛, 음성 신호를 전송하도록 구성되는 통신 유닛 및 음성을 재생하도록 구성되는 스피커 유닛을 포함하고,
    상기 음성 처리 장치는,
    상기 복수의 코드리스 이어폰들로부터 전송된 음성 신호들을 수신하도록 구성되는 통신 회로;
    상기 복수의 코드리스 이어폰들 중 제1코드리스 이어폰으로부터 전송된 제1음성 신호들로부터 상기 화자들 중 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고, 상기 제1분리 음성 신호를 번역하여 제1번역 음성 신호를 생성하도록 구성되는 음성 처리 회로;
    메모리; 및
    상기 제1번역 음성 신호를 상기 복수의 코드리스 이어폰들 중 제1코드리스 이어폰을 제외한 나머지 코드리스 이어폰으로 전송하도록 구성되는 통신 회로를 포함하는,
    음성 처리 시스템.
  9. 제8항에 있어서,
    상기 제1번역 음성 신호는 상기 제1화자의 음성을 번역한 음성과 연관된 음성 신호인,
    음성 처리 시스템.
  10. 제8항에 있어서,
    상기 복수의 코드리스 이어폰들의 상기 마이크 유닛은 복수의 마이크들을 포함하고,
    상기 복수의 마이크들은 상기 화자들의 음성들에 응답하여 상기 음성 신호를 생성하도록 구성되는,
    음성 처리 시스템.
  11. 제8항에 있어서, 상기 음성 처리 회로는,
    상기 제1코드리스 이어폰으로부터 전송된 제1음성 신호들 사이의 시간 지연에 기초하여, 상기 화자들의 음성들 각각의 음원 위치를 판단하고,
    판단된 음원 위치에 기초하여 상기 제1화자의 음성과 연관된 상기 제1분리 음성 신호를 생성하는,
    음성 처리 시스템.
  12. 제11항에 있어서,
    상기 제1분리 음성 신호는 상기 화자들의 음성들 중에서 상기 제1코드리스 이어폰과 가장 가까운 위치의 음원 위치를 갖는 음성과 연관된 신호인,
    음성 처리 시스템.
  13. 제8항에 있어서,
    상기 통신 회로는 상기 복수의 코드리스 이어폰들로부터 상기 복수의 코드리스 이어폰들 각각의 식별자들을 수신하고,
    상기 음성 처리 회로는 상기 복수의 코드리스 이어폰들의 식별자들과 상기 코드리스 이어폰들을 착용한 화자의 음성의 언어를 나타내는 출발 언어 정보를 서로 매칭하여 상기 메모리에 저장하는,
    음성 처리 시스템.
  14. 제13항에 있어서, 상기 음성 처리 회로는,
    상기 식별자들 및 상기 출발 언어 정보를 이용하여, 상기 복수의 코드리스 이어폰들 중 제2코드리스 이어폰을 착용한 화자의 음성의 언어로 상기 제1분리 음성 신호의 언어를 번역하고, 상기 제1번역 음성 신호를 생성하는,
    음성 처리 시스템.
  15. 제14항에 있어서, 상기 음성 처리 회로는,
    상기 제1번역 음성 신호를 상기 제2코드리스 이어폰으로 전송하는,
    음성 처리 시스템.
PCT/KR2021/010939 2020-08-19 2021-08-18 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 WO2022039486A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/022,255 US20230325608A1 (en) 2020-08-19 2021-08-18 Voice processing device for processing voice signal and voice processing system comprising same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0103909 2020-08-19
KR1020200103909A KR20220022674A (ko) 2020-08-19 2020-08-19 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법
KR10-2020-0126504 2020-09-29
KR1020200126504A KR20220043279A (ko) 2020-09-29 2020-09-29 음성 처리 장치 및 이를 포함하는 음성 처리 시스템

Publications (1)

Publication Number Publication Date
WO2022039486A1 true WO2022039486A1 (ko) 2022-02-24

Family

ID=80323049

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/010939 WO2022039486A1 (ko) 2020-08-19 2021-08-18 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템

Country Status (2)

Country Link
US (1) US20230325608A1 (ko)
WO (1) WO2022039486A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154957A1 (en) * 2013-11-29 2015-06-04 Honda Motor Co., Ltd. Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
KR20190005617A (ko) * 2017-07-07 2019-01-16 윤성용 다중 화자용 통번역기
KR101989127B1 (ko) * 2017-05-31 2019-09-30 네이버랩스 주식회사 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
JP2019174786A (ja) * 2018-03-29 2019-10-10 パナソニック株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
WO2019208860A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154957A1 (en) * 2013-11-29 2015-06-04 Honda Motor Co., Ltd. Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus
KR101989127B1 (ko) * 2017-05-31 2019-09-30 네이버랩스 주식회사 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
KR20190005617A (ko) * 2017-07-07 2019-01-16 윤성용 다중 화자용 통번역기
JP2019174786A (ja) * 2018-03-29 2019-10-10 パナソニック株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
WO2019208860A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치

Also Published As

Publication number Publication date
US20230325608A1 (en) 2023-10-12

Similar Documents

Publication Publication Date Title
WO2020050509A1 (en) Voice synthesis device
WO2017047884A1 (en) Voice recognition server and control method thereof
WO2022010157A1 (ko) 인공지능 가상 비서 서비스에서의 화면 제공 방법 및 이를 지원하는 사용자 단말 장치 및 서버
WO2021060728A1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
WO2018097439A1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
WO2020032515A1 (ko) 복수의 마이크로폰들을 포함하는 전자 장치
WO2019223600A1 (zh) 蓝牙音频传输方法、装置及计算机可读存储介质
WO2021075716A1 (en) Electronic device supporting improved speech recognition
WO2022039486A1 (ko) 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템
WO2022163963A1 (ko) 전자 장치 및 전자 장치의 단축 명령어 수행 방법
WO2022039578A1 (ko) 화자들의 음성을 처리하기 위한 음성 처리 장치
WO2022124493A1 (ko) 전자 장치 및 전자 장치에서 기억 서비스를 제공하는 방법
WO2022010320A1 (ko) 음성을 처리하기 위한 장치 및 이의 작동 방법
WO2020075998A1 (ko) 전자 장치 및 그 제어 방법
WO2022065891A1 (ko) 음성 처리 장치 및 이의 작동 방법
WO2020009261A1 (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
WO2024014869A1 (ko) 번역 처리 방법 및 전자 장치
WO2024076015A1 (ko) 전자 장치 및 그 제어 방법
WO2022092790A1 (ko) 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법
WO2024071946A1 (ko) 음성 특성 기반 번역 방법 및 이를 위한 전자 장치
WO2022186471A1 (ko) 그룹 통화 서비스를 제공하기 위한 방법 및 이를 지원하는 전자 장치
WO2022065934A1 (ko) 음성 처리 장치 및 이의 작동 방법
WO2021020727A1 (ko) 대상의 언어 수준을 식별하는 전자 장치 및 방법
WO2022039310A1 (ko) 복수의 오디오 기기를 이용하여 다채널 오디오를 출력하는 단말기 및 그 방법
WO2023003271A1 (ko) 화자들의 음성을 처리하기 위한 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21858573

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21858573

Country of ref document: EP

Kind code of ref document: A1