KR20220022674A - Voice processing device for processing voice data and operating method of the same - Google Patents

Voice processing device for processing voice data and operating method of the same Download PDF

Info

Publication number
KR20220022674A
KR20220022674A KR1020200103909A KR20200103909A KR20220022674A KR 20220022674 A KR20220022674 A KR 20220022674A KR 1020200103909 A KR1020200103909 A KR 1020200103909A KR 20200103909 A KR20200103909 A KR 20200103909A KR 20220022674 A KR20220022674 A KR 20220022674A
Authority
KR
South Korea
Prior art keywords
data
voice
language
speaker
output
Prior art date
Application number
KR1020200103909A
Other languages
Korean (ko)
Inventor
김정민
Original Assignee
주식회사 아모센스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아모센스 filed Critical 주식회사 아모센스
Priority to KR1020200103909A priority Critical patent/KR20220022674A/en
Priority to PCT/KR2021/010939 priority patent/WO2022039486A1/en
Priority to US18/022,255 priority patent/US20230325608A1/en
Publication of KR20220022674A publication Critical patent/KR20220022674A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

Disclosed is a voice processing device to easily determine a language of a speaker's voice without recognizing the speaker's language. According to the present invention, the voice processing device comprises: a voice data receiving circuitry configured to receive input voice data associated with speakers' voices; a memory configured to store source language data; a voice data output circuit configured to output output voice data associated with the speakers' voices; and a processor configured to generate a control command for outputting the output voice data. The processor uses the input voice data to generate first speaker location data indicating the location of a first speaker among the speakers and first output audio data related to the voice of the first speaker; reads first starting language data corresponding to first speaker position data by referring to the memory; and transmits the control command for outputting the first output voice data to the voice data output circuit to a translation environment for translating the first source language indicated by the first source language data.

Description

음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법{VOICE PROCESSING DEVICE FOR PROCESSING VOICE DATA AND OPERATING METHOD OF THE SAME}A voice processing device for processing voice data and an operating method thereof

본 발명의 실시 예들은 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법에 관한 것이다.Embodiments of the present invention relate to a voice processing apparatus for processing voice data and a method of operating the same.

마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다. A microphone is a device for recognizing a voice and converting the recognized voice into an electrical signal, that is, a voice signal. When a microphone is disposed in a space in which a plurality of speakers are located, such as a conference room or a classroom, the microphone receives all voices from the plurality of speakers and generates voice signals related to the voices of the plurality of speakers.

복수의 화자들이 동시에 발화하는 경우, 개별 화자들의 음성만을 나타내는 음성 신호를 분리하는 것이 필요하다. 또한, 복수의 화자들이 서로 다른 언어로 발화하는 경우, 복수의 화자들의 음성을 쉽게 번역하기 위해서는, 복수의 화자들의 음성의 원래 언어(즉, 출발 언어)를 파악해야 하는데, 음성 자체의 특징만으로 해당 음성의 언어를 파악하는 것은 시간이 많이 소요되고, 많은 리소스가 소요되는 문제가 있다.When a plurality of speakers simultaneously speak, it is necessary to separate voice signals representing only the voices of individual speakers. In addition, when a plurality of speakers speak in different languages, in order to easily translate the voices of the plurality of speakers, it is necessary to identify the original language (ie, the starting language) of the voices of the plurality of speakers. Recognizing the language of speech takes a lot of time and requires a lot of resources.

한국공개특허공보 제10-2017-0112713호 (2017.10.12.)Korean Patent Publication No. 10-2017-0112713 (2017.10.12.)

본 발명이 해결하고자 하는 과제는 입력 음성 데이터를 이용하여 화자의 위치를 판단하고, 입력 음성 데이터를 이용하여 각 화자의 음성을 나타내는 출력 음성 데이터를 생성할 수 있는 음성 처리 장치 및 이의 작동 방법을 제공하는 것에 있다.An object of the present invention is to provide a voice processing apparatus capable of determining a speaker's location using input voice data and generating output voice data representing each speaker's voice using the input voice data, and a method of operating the same is in doing

본 발명이 해결하고자 하는 과제는 음성 데이터를 이용하여 화자의 위치를 판단하고, 화자의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 음성 처리 장치 및 방법을 제공하는 것에 있다.The problem to be solved by the present invention is a voice processing capable of transmitting voice data to a translation environment for determining a speaker's position using voice data, determining a starting language corresponding to the speaker's position, and translating the determined starting language To provide an apparatus and method.

본 발명의 실시 예들에 따른 음성 처리 장치는 화자들의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로, 출발 언어 데이터를 저장하도록 구성되는 메모리, 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로 및 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고, 프로세서는, 입력 음성 데이터를 이용하여, 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고, 메모리를 참조하여 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고, 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 제1출력 음성 데이터를 출력하기 위한 제어 명령을 음성 데이터 출력 회로로 전송한다.A voice processing apparatus according to embodiments of the present invention includes a voice data receiving circuit configured to receive input voice data related to the voices of speakers, a memory configured to store starting language data, and output voice data related to the voices of the speakers. a speech data output circuit configured and a processor configured to generate a control command for outputting output speech data, the processor configured to: use the input speech data, a first speaker location indicating a location of a first speaker among the speakers; generate first output voice data associated with the data and the voice of the first speaker, read the first starting language data corresponding to the first speaker position data with reference to the memory, and the first starting language data indicated by the first starting language data A control command for outputting the first output voice data to the translation environment for translating the starting language is transmitted to the voice data output circuit.

본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법은, 출발 언어 데이터를 저장하는 단계, 화자들의 음성과 연관된 입력 음성 데이터를 수신하는 단계, 입력 음성 데이터를 이용하여, 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하는 단계, 출발 언어 데이터 중 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하는 단계 및 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 제1출력 음성 데이터를 출력하는 단계를 포함한다.A method of operating a voice processing apparatus according to an embodiment of the present invention includes the steps of storing starting language data, receiving input voice data related to the voices of speakers, and using the input voice data, generating first speaker position data indicating a position and first output voice data associated with the voice of the first speaker, reading first starting language data corresponding to the first speaker position data among the starting language data; and outputting the first output speech data to a translation environment for translating the first starting language indicated by the starting language data.

본 발명의 실시 예들에 따른 음성 처리 장치 및 이의 작동 방법은 화자의 입력 음성 데이터를 이용하여 화자의 위치를 판단하고, 화자의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있다. 따라서, 음성 처리 장치는 화자의 음성의 특성을 파악하여 화자의 언어를 인식하는 작업 없이도, 화자의 음성의 언어를 쉽게 결정하여 해당 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 효과가 있다.A voice processing apparatus and a method of operating the same according to embodiments of the present invention determine a speaker's location using input voice data of the speaker, determine a starting language corresponding to the speaker's location, and translate for translating the determined starting language It can transmit voice data to the environment. Accordingly, the speech processing device can easily determine the language of the speaker's voice and transmit the voice data to a translation environment for translating the corresponding language without recognizing the speaker's language by recognizing the characteristics of the speaker's voice. .

도 1은 본 발명의 실시 예들에 따른 음성 번역 시스템을 나타낸다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다.
도 9 및 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다.
1 shows a voice translation system according to embodiments of the present invention.
2 illustrates a voice processing apparatus according to embodiments of the present invention.
3 to 6 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention.
7 is a flowchart illustrating a method of operating a voice processing apparatus according to an embodiment of the present invention.
8 is a diagram for explaining an operation of a voice processing apparatus according to embodiments of the present invention.
9 and 10 are diagrams for explaining the operation of a voice processing apparatus according to an embodiment of the present invention.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 실시 예들에 따른 음성 번역 시스템을 나타낸다. 도 1을 참조하면, 본 발명의 실시 예들에 따른 음성 번역 시스템(10)은 화자(speaker; SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 음성 번역 시스템(10)은 화자(SPK1~SPK4)의 음성에 기초하여 화자(SPK1~SPK4)의 위치를 결정하고, 화자(SPK1~SPK4)의 음성을 결정된 위치에 대응하는 언어(즉, 출발 언어(source language)에서 다른 언어(즉, 도착 언어(target language))로 번역할 수 있다.1 shows a voice translation system according to embodiments of the present invention. Referring to FIG. 1 , the voice translation system 10 according to embodiments of the present invention may provide a translation for the voices of speakers (SPK1 to SPK4). According to embodiments, the voice translation system 10 determines the positions of the speakers SPK1 to SPK4 based on the voices of the speakers SPK1 to SPK4, and sets the voices of the speakers SPK1 to SPK4 in a language corresponding to the determined positions. (ie, from a source language to another language (ie, a target language)).

즉, 본 발명의 실시 예들에 따른 음성 번역 시스템(10)은 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하므로, 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이 화자(SPK1~SPK4)의 음성을 번역할 수 있으므로, 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.That is, since the voice translation system 10 according to embodiments of the present invention determines the starting language of the voices of the speakers SPK1 to SPK4 according to the positions of the speakers SPK1 to SPK4, the speech of the speakers SPK1 to SPK4 is Since the voices of the speakers SPK1 to SPK4 can be translated without separately recognizing the language, there is an effect of reducing time and resources required for translation.

음성 번역 시스템(10)은 화자(SPK1~SPK4)의 음성을 수신하도록 구성되는 복수의 마이크로폰(100), 음성 처리 장치(200) 및 번역 환경(300)을 포함할 수 있다.The voice translation system 10 may include a plurality of microphones 100 , a voice processing device 200 , and a translation environment 300 configured to receive voices of the speakers SPK1 to SPK4 .

화자(SPK1~SPK4)는 각 위치(P1~P4)에 위치할 수 있다. 실시 예들에 따라, 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)는 화자(SPK1~SPK4)의 언어로 음성을 발화(pronounce)할 수 있다. 예컨대, 제1위치(P1)에 위치한 제1화자(SPK1)는 제1언어(예컨대, 한국어(KR))로 음성을 발화할 수 있고, 제2위치(P2)에 위치한 제2화자(SPK2)는 제2언어(예컨대, 영어(EN))로 음성을 발화할 수 있고, 제3위치(P3)에 위치한 제3화자(SPK3)는 제3언어(예컨대, 일본어(JP))로 음성을 발화할 수 있고, 제4위치(P4)에 위치한 제4화자(SPK4)는 제4언어(예컨대, 중국어(CN))로 음성을 발화할 수 있다. The speakers SPK1 to SPK4 may be located at respective positions P1 to P4. According to embodiments, the speakers SPK1 to SPK4 located at each of the positions P1 to P4 may utter a voice in the language of the speakers SPK1 to SPK4. For example, the first speaker SPK1 located at the first position P1 may utter a voice in the first language (eg, Korean (KR)), and the second speaker SPK2 located at the second position P2 may utter a voice in a second language (eg, English (EN)), and the third speaker SPK3 located at the third position P3 utters a voice in a third language (eg, Japanese (JP)) and the fourth speaker SPK4 located at the fourth position P4 may utter a voice in a fourth language (eg, Chinese (CN)).

한편, 본 발명의 실시 예들이 화자의 수 혹은 언어의 종류에 한정되는 것이 아니다.Meanwhile, embodiments of the present invention are not limited to the number of speakers or the type of language.

화자(SPK1~SPK4)의 음성은 복수의 마이크로폰(100)에 의해 수신될 수 있다.The voices of the speakers SPK1 to SPK4 may be received by the plurality of microphones 100 .

복수의 마이크로폰(100)은 음성과 연관된 음성 신호를 생성할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100) 각각은 음성에 의한 매질(예컨대, 공기)의 압력 변화를 측정하고, 측정된 매질의 압력 변화를 전기적인 신호인 음성 신호로 변환하고, 음성 신호를 출력할 수 있다.The plurality of microphones 100 may generate a voice signal related to voice. According to embodiments, each of the plurality of microphones 100 measures a pressure change of a medium (eg, air) due to a voice, converts the measured pressure change of the medium into a voice signal that is an electrical signal, and outputs a voice signal can do.

복수의 마이크로폰(100)은 화자(SPK1~SPK4)의 음성을 수신할 수 있는 공간에 배치될 수 있다.The plurality of microphones 100 may be disposed in a space capable of receiving the voices of the speakers SPK1 to SPK4.

복수의 마이크로폰(100)은 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성을 전기적인 신호인 음성 신호(VS1~VSn)로 변환할 수 있다. 예컨대, 제1마이크로폰(100-1)은 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성과 연관된 제1음성 신호(VS1)를 생성할 수 있다. 제1마이크로폰(100-1)에 의해 생성된 제1음성 신호(VS1)는 적어도 하나 이상의 화자(SPK1~SPK4)의 음성에 대응할 수 있다.The plurality of microphones 100 receive the voices of the speakers SPK1 to SPK4 located at the respective positions P1 to P4, and convert the voices of the speakers SPK1 to SPK4 into electrical signals VS1 to VSn. can do. For example, the first microphone 100-1 may receive the voices of the speakers SPK1 to SPK4 and generate a first voice signal VS1 related to the voices of the speakers SPK1 to SPK4. The first voice signal VS1 generated by the first microphone 100-1 may correspond to the voices of at least one or more speakers SPK1 to SPK4.

복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 출력할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다. 예컨대, 복수의 마이크로폰(100)은 유선 방식 또는 무선 방식에 따라 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다.The plurality of microphones 100 may output voice signals VS1 to VSn. According to embodiments, the plurality of microphones 100 may transmit the voice signals VS1 to VSn to the voice processing apparatus 200 . For example, the plurality of microphones 100 may transmit the voice signals VS1 to VSn to the voice processing apparatus 200 according to a wired method or a wireless method.

복수의 마이크로폰(100)은 빔포밍(beamforming) 마이크로 구성되어, 다방향(multi-direction)으로부터 음성을 입력받을 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 서로 이격되어 배치되어, 하나의 마이크 어레이를 구성할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.The plurality of microphones 100 are configured as beamforming microphones, and may receive voice input from a multi-direction. According to embodiments, the plurality of microphones 100 may be disposed to be spaced apart from each other to constitute one microphone array, but embodiments of the present invention are not limited thereto.

복수의 마이크로폰(100) 각각은 임의의 특정 방향의 음성을 수신하도록 구성되는 지향성 마이크이거나, 또는, 모든 방향의 음성을 수신하도록 구성되는 무지향성 마이크일 수 있다.Each of the plurality of microphones 100 may be a directional microphone configured to receive voices in any specific direction, or an omni-directional microphone configured to receive voices in all directions.

음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신하고, 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성하고, 출력 음성 데이터를 번역 환경(300)으로 전송할 수 있다.The voice processing apparatus 200 receives input voice data related to the voices of the speakers SPK1 to SPK4, and generates output voice data related to the voices of the speakers SPK1 to SPK4 by using the input voice data, and output voice data may be transmitted to the translation environment 300 .

실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로 부터 전송되는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득할 수 있다.According to embodiments, the voice processing apparatus 200 receives the voice signals VS1 to VSn transmitted from the plurality of microphones 100 , and receives the voice signals VS1 to VSn from the speaker SPK1 to SPK4 . It is possible to obtain input voice data related to the voice.

한편, 본 명세서에서는 음성 처리 장치(200)가 복수의 마이크로폰(100)으로부터 음성 신호들(VS1~VSn)을 수신하여 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득하는 것을 가정하고 설명하나, 실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 외부 장치로부터 수신하는 것도 가능하다.Meanwhile, in the present specification, it is assumed that the voice processing apparatus 200 receives the voice signals VS1 to VSn from the plurality of microphones 100 to obtain input voice data related to the voices of the speakers SPK1 to SPK4. However, according to embodiments, the voice processing apparatus 200 may receive input voice data related to the voices of the speakers SPK1 to SPK4 from an external device.

음성 처리 장치(200)는 연산 처리 기능을 갖는 컴퓨팅 장치일 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 컴퓨터, 노트북, 모바일 디바이스, 스마트폰 또는 웨어러블 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니다. 예컨대, 음성 처리 장치(200)는 연산 처리 기능을 갖는 적어도 하나의 집적 회로를 포함할 수 있다.The voice processing device 200 may be a computing device having an arithmetic processing function. According to embodiments, the voice processing apparatus 200 may be implemented as a computer, a notebook computer, a mobile device, a smart phone, or a wearable device, but is not limited thereto. For example, the voice processing apparatus 200 may include at least one integrated circuit having an arithmetic processing function.

음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치(즉, 음원의 위치)를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점(time)들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.The voice processing apparatus 200 may determine the positions of the speakers SPK1 to SPK4 (ie, the location of the sound source) by using input voice data related to the voices of the speakers SPK1 to SPK4 . According to embodiments, the voice processing apparatus 200 may measure a distance between the plurality of microphones 100, and a distance between the plurality of microphones 100, respectively, between time points at which the voices of the speakers SPK1 to SPK4 are received. Based on at least one of the difference and the loudness of the speakers SPK1 to SPK4, speaker position data indicating the positions of the speakers SPK1 to SPK4 may be generated from the input voice data associated with the voices of the speakers SPK1 to SPK4. there is.

음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 입력 음성 데이터에 대응하는 화자 위치 데이터를 매칭하여 저장할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터를 결정된 화자의 위치 별로 그룹핑할 수 있다. The voice processing apparatus 200 may separate the input voice data according to the position of the speaker (ie, the position of the sound source) based on the speaker position data indicating the positions of the speakers SPK1 to SPK4 . According to embodiments, the voice processing apparatus 200 may match and store speaker location data corresponding to the input voice data. For example, the voice processing apparatus 200 may group the input voice data according to the determined position of the speaker.

예컨대, 제1화자(SPK1)와 제2화자(SPK2)가 시간적으로 중첩해서 발화하는 경우, 제1화자(SPK1)와 제2화자(SPK2)의 음성은 중첩되므로, 복수의 마이크로폰(100)에 의해 생성된 음성 신호들(VS1~VSn) 각각은 제1화자(SPK1)와 제2화자(SPK2)의 중첩된 음성과 대응한다. 따라서, 음성 신호들(VS1~VSn)로부터 생성된 입력 음성 데이터 또한 제1화자(SPK1)의 음성과 연관된 음성 데이터와 제2화자(SPK2)의 음성관 연관된 음성 데이터를 포함한다. 상술한 바와 같이, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성을 나타내는 제1출력 음성 데이터와, 제2화자(SPK2)의 음성을 나타내는 제2출력 음성 데이터를 생성할 수 있다.For example, when the first speaker SPK1 and the second speaker SPK2 overlap in time, the voices of the first speaker SPK1 and the second speaker SPK2 overlap, so that the microphones 100 Each of the voice signals VS1 to VSn generated by the 'VS1' corresponds to the superimposed voice of the first speaker SPK1 and the second speaker SPK2. Accordingly, the input voice data generated from the voice signals VS1 to VSn also includes voice data related to the voice of the first speaker SPK1 and voice data related to the voice tube of the second speaker SPK2. As described above, the voice processing apparatus 200 performs the first speaker SPK1 and the second speaker SPK2 from the superimposed input voice data associated with the first speaker SPK1 voice and the second speaker SPK2 voice. The speaker position data indicating each position is generated, and the first output voice data indicating the voice of the first speaker SPK1 and the voice of the second speaker SPK2 are generated from the superimposed input voice data based on the speaker position data. It is possible to generate the second output voice data representing the.

음성 처리 장치(200)는 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 도착 언어로 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터에 기초하여 결정된 화자의 위치가 제1위치(P1)인 경우, 제1위치(P1)에 대응하는 출발 언어(예컨대, 한국어(KR))를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다.The voice processing device 200 determines a departure language corresponding to the positions of the speakers SPK1 to SPK4 using the input voice data, and transmits the output voice data to the translation environment 300 for translating the determined departure language into an arrival language. can be transmitted For example, when the speaker's position determined based on the input voice data is the first position P1, the voice processing apparatus 200 translates a starting language (eg, Korean (KR)) corresponding to the first position P1. output voice data may be transmitted to the translation environment 300 for

본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 출발 언어를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다.The voice processing apparatus 200 according to embodiments of the present invention generates speaker position data indicating the positions of the speakers SPK1 to SPK4 by using the input voice data of the speakers SPK1 to SPK4, and the speakers SPK1 to SPK4 The starting language of the voices of the speakers SPK1 to SPK4 may be determined according to the location of , and output voice data may be transmitted to the translation environment 300 for translating the starting language.

따라서, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이도, 화자(SPK1~SPK4)의 음성의 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 효과가 있다.Accordingly, the voice processing apparatus 200 can transmit voice data to a translation environment for translating the language of the voices of the speakers SPK1 to SPK4 without separately recognizing the language of the voices of the speakers SPK1 to SPK4. there is

실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 처리할 수 있다. 음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 텍스트를 포함하는 텍스트 데이터를 생성하고, 생성된 텍스트 데이터를 화자 위치 데이터와 매칭하여 저장할 수 있다.According to embodiments, the voice processing apparatus 200 may process input voice data related to the voices of the speakers SPK1 to SPK4. The voice processing apparatus 200 may generate text data including text related to the voices of the speakers SPK1 to SPK4 by using the input voice data, and match the generated text data with the speaker location data and store the generated text data.

또한, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터를 번역 환경(300)으로 전송할 수 도 있다.Also, the voice processing apparatus 200 may convert input voice data related to the voices of the speakers SPK1 to SPK4 into text data and transmit the text data to the translation environment 300 .

번역 환경(300)은 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역 환경(300)은 음성 처리 장치(200)로부터 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 수신할 수 있고, 다른 언어로 번역된 화자(SPK1~SPK4)의 음성과 연관된 데이터를 출력할 수 있다. 예컨대, 번역 환경(300)은 화자(SPK1~SPK4)의 언어에 대응하는 한국어, 영어, 일본어 및 중국어에 대한 번역을 제공할 수 있다.The translation environment 300 may refer to an environment or system that provides translation for a language. According to embodiments, the translation environment 300 may receive output voice data related to the voices of the speakers SPK1 to SPK4 from the voice processing device 200 , and the voices of the speakers SPK1 to SPK4 translated into other languages You can output related data. For example, the translation environment 300 may provide translations for Korean, English, Japanese, and Chinese corresponding to the languages of the speakers SPK1 to SPK4 .

번역 환경(300)은 번역기들(310~340)을 포함할 수 있다. 번역기들(310)은 출발 언어로 표현된 데이터를 도착 언어로 표현된 데이터로 변환할 수 있는 장치, 또는, 언어 번역을 수행하는 번역가에게 음성을 제공하도록 구성되는 단말기를 의미할 수 있다.The translation environment 300 may include translators 310 to 340 . The translators 310 may refer to a device capable of converting data expressed in a departure language into data expressed in a destination language, or a terminal configured to provide a voice to a translator who performs language translation.

실시 예들에 따라, 번역 환경(300)은 언어 번역 기능을 지원하는 장치를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성 데이터를 수신하고, 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터의 언어를 다른 언어로 변환할 수 있는 장치를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성에 대응하는 텍스트 데이터를 수신하고, 텍스트 데이터의 언어를 다른 언어로 변환할 수 있는 장치를 포함할 수 있다.According to embodiments, the translation environment 300 may include a device supporting a language translation function. For example, the translation environment 300 may include a device capable of receiving voice data, converting the voice data into text data, and converting the language of the text data into another language. For example, the translation environment 300 may include a device capable of receiving text data corresponding to voice and converting the language of the text data into another language.

실시 예들에 따라, 번역 환경(300)은 언어 번역을 수행하는 번역자에게 화자(SPK1~SPK4)의 음성을 제공하도록 구성되는 단말기를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성 데이터를 이용하여 번역자에게 음성 데이터에 대응하는 음성을 재생할 수 있는 단말기를 포함할 수 있다. 상기 단말기는, 예를 들면, 스피커 또는 이어폰일 수 있다.According to embodiments, the translation environment 300 may include a terminal configured to provide the voices of the speakers SPK1 to SPK4 to a translator who performs language translation. For example, the translation environment 300 may include a terminal capable of reproducing a voice corresponding to the voice data to the translator by using the voice data. The terminal may be, for example, a speaker or an earphone.

도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 1 및 도 2를 참조하면, 음성 처리 장치(200)는 음성 데이터 수신 회로(210), 메모리(220), 프로세서(230) 및 음성 데이터 출력 회로(240)를 포함할 수 있다.2 illustrates a voice processing apparatus according to embodiments of the present invention. 1 and 2 , the voice processing apparatus 200 may include a voice data receiving circuit 210 , a memory 220 , a processor 230 , and a voice data output circuit 240 .

음성 수신 회로(210)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다. 실시 예들에 따라, 음성 수신 회로(210)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다.The voice receiving circuit 210 may receive input voice data related to the voices of the speakers SPK1 to SPK4 . According to embodiments, the voice receiving circuit 210 may receive input voice data related to the voices of the speakers SPK1 to SPK4 according to a wired communication method or a wireless communication method.

실시 예들에 따라, 음성 수신 회로(210)는 ADC(analog to digital) 컨버터를 포함하고, 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)을 디지털 타입의 입력 음성 데이터로 변환하고, 변환된 입력 음성 데이터를 저장할 수 있다.According to some embodiments, the voice receiving circuit 210 includes an analog to digital (ADC) converter, receives analog type voice signals VS1 to VSn from the plurality of microphones 100 , and receives the voice signals VS1 . ~VSn) may be converted into digital type input voice data, and the converted input voice data may be stored.

실시 예들에 따라, 음성 수신 회로(210)는 무선 통신 방식에 따라 통신 가능한 통신 회로를 포함하고, 통신 회로를 통해 입력 음성 데이터를 수신할 수 있다.According to embodiments, the voice receiving circuit 210 may include a communication circuit capable of communicating according to a wireless communication method, and may receive input voice data through the communication circuit.

메모리(220)는 음성 처리 장치(200)의 작동에 필요한 데이터를 저장할 수 있다. 실시 예들에 따라, 메모리(220)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.The memory 220 may store data necessary for the operation of the voice processing apparatus 200 . In some embodiments, the memory 220 may include at least one of a non-volatile memory and a volatile memory.

메모리(220)는 등록 위치를 나타내는 위치 데이터와, 위치 데이터에 대응하는 출발 언어 데이터를 저장할 수 있다. 실시 예들에 따라, 위치 데이터와 출발 언어 데이터는 메모리(220)에 매칭되어 저장될 수 있다.The memory 220 may store location data indicating a registered location and departure language data corresponding to the location data. According to embodiments, the location data and the departure language data may be matched and stored in the memory 220 .

출발 언어 데이터는 위치 데이터에 대응하는 위치에 위치하는 화자의 음성(또는 입력 음성 데이터)의 출발 언어를 나타낼 수 있다. 예컨대, 도 1에 도시된 바와 같이, 제1위치(P1)를 나타내는 위치 데이터와 대응하는 출발 언어 데이터는 제1위치(P1)에서 발화된 음성의 출발 언어(예컨대, 한국어)를 나타낼 수 있다. 즉, 출발 언어 데이터는 위치 데이터에 대응하는 위치에서 발화된 음성(또는 입력 음성 데이터)의 출발 언어를 나타낼 수 있다.The departure language data may indicate a departure language of a speaker's voice (or input voice data) located at a position corresponding to the position data. For example, as shown in FIG. 1 , the location data indicating the first location P1 and the starting language data corresponding to the first location P1 may represent the starting language (eg, Korean) of the voice uttered at the first location P1 . That is, the departure language data may indicate the starting language of a voice (or input voice data) uttered at a position corresponding to the position data.

프로세서(230)는 음성 처리 장치(200)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(230)는 음성 데이터 수신 회로(210), 메모리(220) 및 음성 데이터 출력 회로(240)의 동작을 제어하기 위한 제어 명령을 생성하고, 제어 명령을 음성 데이터 수신 회로(210), 메모리(220) 및 음성 데이터 출력 회로(240) 각각으로 전송할 수 있다.The processor 230 may control the overall operation of the voice processing apparatus 200 . According to embodiments, the processor 230 generates a control command for controlling the operations of the voice data receiving circuit 210 , the memory 220 , and the voice data output circuit 240 , and sends the control command to the voice data receiving circuit ( 210), the memory 220, and the voice data output circuit 240, respectively.

프로세서(230)는 연산 처리 기능을 갖는 집적회로로 구현될 수 있다. 예컨대, 프로세서(230)는 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), GPU(graphics processing unit), ASIC(application specific integrated circuit) 또는 FPGA(field programmable gate array)를 포함할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.The processor 230 may be implemented as an integrated circuit having an arithmetic processing function. For example, the processor 230 may include a central processing unit (CPU), a micro controller unit (MCU), a digital signal processor (DSP), a graphics processing unit (GPU), an application specific integrated circuit (ASIC), or a field programmable gate array (FPGA). may include, but embodiments of the present invention are not limited thereto.

프로세서(230)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK)의 위치(즉, 음성의 음원 위치)를 판단하고, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다. 예컨대, 프로세서(230)는 화자 위치 데이터를 메모리(220)에 저장할 수 있다. The processor 230 determines the positions of the speakers SPK1 to SPK using input voice data related to the voices of the speakers SPK1 to SPK4 (that is, the position of the sound source of the voice), and determines the positions of the speakers SPK1 to SPK4. It is possible to generate speaker position data representing. For example, the processor 230 may store speaker location data in the memory 220 .

프로세서(230)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.The processor 230 calculates the distance between the plurality of microphones 100, the difference between the time points at which each of the plurality of microphones 100 receives the voice of the speakers SPK1 to SPK4, and the voice of the speakers SPK1 to SPK4. Speaker position data indicating the positions of the speakers SPK1 to SPK4 may be generated from the input voice data related to the voices of the speakers SPK1 to SPK4 based on at least one of the sizes of .

프로세서(230)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 예컨대, 음성 처리 장치(200)는 위치에 따라 분리된 음성 데이터와 해당하는 화자 위치 데이터를 매칭하여 저장할 수 있다.The processor 230 may separate the input voice data according to the speaker's position (ie, the position of the sound source) based on the speaker position data indicating the positions of the speakers SPK1 to SPK4 . For example, the voice processing apparatus 200 may match and store the voice data separated according to the position and the corresponding speaker position data.

실시 예들에 따라, 프로세서(230)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성과 연관된 제1출력 음성 데이터와 제2화자(SPK2)의 음성과 연관된 제2출력 음성 데이터를 생성할 수 있다. 예컨대, 프로세서(230)는 제1출력 음성 데이터와 제1화자 위치 데이터를 매칭하여 저장하고, 제2출력 음성 데이터와 제2화자 위치 데이터를 매칭하여 저장할 수 있다.According to exemplary embodiments, the processor 230 may be configured to perform each of the first and second speakers SPK1 and SPK2 from the superimposed input voice data associated with the voice of the first speaker SPK1 and the voice of the second speaker SPK2. Generate speaker location data indicating the location, and based on the speaker location data, based on the superimposed input speech data, first output speech data associated with the first speaker SPK1's voice and the second speaker location data associated with the second speaker's speech SPK2 Output audio data can be generated. For example, the processor 230 may match and store the first output voice data and the first speaker location data, and may match and store the second output voice data and the second speaker location data.

프로세서(230)는 화자 위치 데이터를 이용하여, 화자(SPK1~SPK4)의 음성의 출발 언어를 결정할 수 있다. 실시 예들에 따라, 프로세서(230)는 메모리(220)를 참조하여, 화자(SPK1~SPK4)의 화자 위치 데이터에 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 매칭된 출발 언어 데이터를 결정하고, 결정된 출발 언어 데이터에 의해 지시되는 언어를 화자(SPK1~SPK4)의 음성의 출발 언어로서 결정할 수 있다. 예컨대, 프로세서(230)는 화자(SPK1~SPK4)의 음성과 연관된 (출력 또는 입력) 음성 데이터와 상기 음성의 출발 언어를 나타내는 출발 언어 데이터를 매칭하여 저장할 수 있다.The processor 230 may determine the starting language of the voices of the speakers SPK1 to SPK4 by using the speaker location data. According to embodiments, the processor 230 determines the position data corresponding to the speaker position data of the speakers SPK1 to SPK4 with reference to the memory 220, and determines the starting language data matched to the determined position data, The language indicated by the determined starting language data can be determined as the starting language of the voices of the speakers SPK1 to SPK4. For example, the processor 230 may match and store (output or input) voice data related to the voices of the speakers SPK1 to SPK4 with the starting language data indicating the starting language of the voice.

실시 예들에 따라, 프로세서(230)는 화자(SPK1~SPK4)의 음성의 출발 언어를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송하기 위한 제어 명령을 생성할 수 있다.According to embodiments, the processor 230 may generate a control command for transmitting the output voice data to the translation environment 300 for translating the starting language of the voices of the speakers SPK1 to SPK4.

음성 데이터 출력 회로(240)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다. 실시 예들에 따라, 음성 데이터 출력 회로(240)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다.The voice data output circuit 240 may output output voice data related to the voices of the speakers SPK1 to SPK4 . According to embodiments, the voice data output circuit 240 may output output voice data related to the voices of the speakers SPK1 to SPK4 according to a wired communication method or a wireless communication method.

예컨대, 음성 데이터 출력 회로(240)는 프로세서(230)로부터 전송된 제어 명령에 기초하여, 출력 음성 데이터를 출력할 수 있다.For example, the voice data output circuit 240 may output the output voice data based on the control command transmitted from the processor 230 .

실시 예들에 따라, 음성 데이터 출력 회로(240)는 DAC(digital to analog) 컨버터를 포함하고, 디지털 타입의 출력 음성 데이터를 아날로그 타입의 음성 신호로 변환하고, 변환된 음성 신호를 외부 장치로 출력할 수 있다.According to some embodiments, the voice data output circuit 240 includes a digital to analog (DAC) converter, converts digital type output voice data into an analog type voice signal, and outputs the converted voice signal to an external device. can

실시 예들에 따라, 음성 신호 출력 회로(250)는 통신 회로를 포함하고, 출력 음성 데이터를 외부 장치로 전송할 수 있다.In some embodiments, the voice signal output circuit 250 may include a communication circuit and transmit output voice data to an external device.

음성 데이터 수신 회로(210)에 의해 수신된 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터와, 음성 데이터 출력 회로(240)에 의해 출력되는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터는 데이터 관점에서 상이할 수 있으나, 동일한 음성을 나타낼 수 있다.Input voice data related to the voices of the speakers SPK1 to SPK4 received by the voice data receiving circuit 210 and output voice data related to the voices of the speakers SPK1 to SPK4 output by the voice data output circuit 240 may be different in terms of data, but may represent the same voice.

음성 데이터 출력 회로(240)는 제어 명령에 응답하여, 화자(SPK1~SPK4)의 위치에 대응하는 출발 언어를 도착 언어로 번역하기 위한 번역 환경(300)으로 음성 데이터를 전송할 수 있다.The voice data output circuit 240 may transmit the voice data to the translation environment 300 for translating the departure language corresponding to the positions of the speakers SPK1 to SPK4 into the arrival language in response to the control command.

도 3 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.3 to 6 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention.

도 3을 참조하면, 제1화자(SPK1)는 제1위치(P1)에서 한국어(KR)로 된 음성을 발화하고, 제2화자(SPK2)는 제2위치(P2)에서 영어(EN)로 된 음성을 발화하고, 제3화자(SPK3)는 제3위치(P3)에서 일본어(JP)로 된 음성을 발화하고, 제4화자(SPK4)는 제4위치(P4)에서 중국어(CN)로 된 음성을 발화할 수 있다. 즉, 제1화자(SPK1)의 음성의 출발 언어는 한국어(KR)이고, 제2화자(SPK2)의 음성의 출발 언어는 영어(EN)이고, 제3화자(SPK3)의 음성의 출발 언어는 일본어(JP)이고, 제4화자(SPK4)의 음성의 출발 언어는 중국어(CN)가 된다.Referring to FIG. 3 , the first speaker SPK1 utters a voice in Korean (KR) at a first position P1, and the second speaker SPK2 speaks English (EN) at a second position P2. The third speaker (SPK3) utters a Japanese (JP) voice at the third position (P3), and the fourth speaker (SPK4) speaks Chinese (CN) at the fourth position (P4) can utter a voice. That is, the starting language of the voice of the first speaker SPK1 is Korean (KR), the starting language of the voice of the second speaker SPK2 is English (EN), and the starting language of the voice of the third speaker SPK3 is It is Japanese (JP), and the starting language of the voice of the fourth speaker (SPK4) is Chinese (CN).

음성 처리 장치(200)는 위치 데이터(PD1~PD4) 및 위치 데이터(PD1~PD4)에 대응하는 출발 언어 데이터(SLD1~SLD4)를 저장할 수 있다. 위치 데이터(PD1~PD4)는 사전에 정의된 화자의 위치를 나타낼 수 있고, 출발 언어 데이터(SLD1~SLD4)는 해당 위치에 위치한 화자의 출발 언어를 나타낼 수 있다. 예컨대, 도 3의 경우, 제1위치 데이터(PD1)는 제1위치(P1)를 나타내고, 제1출발 언어 데이터(SLD1)는 한국어(KR)를 나타낼 수 있고, 제2위치 데이터(PD2)는 제2위치(P2)를 나타내고, 제2출발 언어 데이터(SLD2)는 영어(EN)를 나타낼 수 있다.The voice processing apparatus 200 may store the location data PD1 to PD4 and the departure language data SLD1 to SLD4 corresponding to the location data PD1 to PD4. The location data PD1 to PD4 may indicate the speaker's predefined location, and the departure language data SLD1 to SLD4 may indicate the speaker's starting language located at the corresponding location. For example, in the case of FIG. 3 , the first location data PD1 may represent the first location P1 , the first start language data SLD1 may represent Korean KR, and the second location data PD2 may be The second location P2 may be indicated, and the second start language data SLD2 may indicate English EN.

도 4를 참조하면, 제2화자(SPK2)가 음성 "☆☆☆"를 영어(EN)로 발화하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 제2입력 음성 데이터를 수신할 수 있다. 예컨대, 복수의 마이크로폰(100)은 음성 "☆☆☆"에 대응하는 음성 신호들(VS1~VSn)을 생성할 수 있고, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 제2입력 음성 데이터를 생성할 수 있다.Referring to FIG. 4 , when the second speaker SPK2 utters the voice “☆☆☆” in English (EN), the voice processing device 200 corresponds to the voice “☆☆☆” of the second speaker SPK2. to receive the second input voice data. For example, the plurality of microphones 100 may generate voice signals VS1 to VSn corresponding to the voice “☆☆☆”, and the voice processing device 200 may generate the voice “☆☆ The voice signals VS1 to VSn corresponding to "☆" may be received, and second input voice data may be generated from the voice signals VS1 to VSn.

음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2입력 음성 데이터를 이용하여, 음성 "☆☆☆"의 음원의 위치, 즉, 제2화자(SPK2)의 위치를 나타내는 제2화자 위치 데이터(SPD2)를 생성할 수 있다. The voice processing apparatus 200 uses the second input voice data associated with the voice “☆☆☆” of the second speaker SPK2, and the location of the sound source of the voice “☆☆☆”, that is, the second speaker SPK2. Second speaker location data SPD2 indicating the location of may be generated.

음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2입력 음성 데이터를 이용하여, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)와 제2화자 위치 데이터(SPD2)를 매칭하여 저장할 수 있다.The voice processing apparatus 200 uses the second input voice data associated with the voice “☆☆☆” of the second speaker SPK2, and the second output voice associated with the voice “☆☆☆” of the second speaker SPK2 Data OVD2 can be generated. For example, the voice processing apparatus 200 may match and store the second output voice data OVD2 and the second speaker position data SPD2 .

도 5를 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 제2화자 위치 데이터(SPD2)에 기초하여, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 나타내는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드(read)할 수 있다. Referring to FIG. 5 , the voice processing device 200 indicates the starting language of the voice “☆☆☆” of the second speaker SPK2 based on the second speaker position data SPD2 of the second speaker SPK2. The second start language data SLD2 may be read from the memory 220 .

실시 예들에 따라, 음성 처리 장치(200)는 메모리(220)에 저장된 위치 데이터(PD1~PD4) 중에서 제2화자 위치 데이터(SPD2)에 대응하는 제2위치 데이터(PD2)를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 위치 데이터(PD1~PD4) 중에서, 제2화자 위치 데이터(SPD2)와 동일 또는 유사한 위치를 나타내는 위치 데이터(예컨대, 제2위치 데이터(PD2))를 결정할 수 있다. 이후, 음성 처리 장치(200)는 제2위치 데이터(PD2)와 대응하는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드할 수 있다. According to embodiments, the voice processing apparatus 200 may determine the second location data PD2 corresponding to the second speaker location data SPD2 from among the location data PD1 to PD4 stored in the memory 220 . For example, the voice processing apparatus 200 may determine position data (eg, second position data PD2) indicating the same or similar position to the second speaker position data SPD2 from among the position data PD1 to PD4. . Thereafter, the voice processing apparatus 200 may read the second start language data SLD2 corresponding to the second location data PD2 from the memory 220 .

이에 따라, 음성 처리 장치(200)는 제2출발 언어 데이터(SLD2)에 기초하여 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 결정할 수 있다.Accordingly, the voice processing apparatus 200 may determine the starting language of the voice “☆☆☆” of the second speaker SPK2 based on the second starting language data SLD2 .

도 6을 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송할 수 있다. Referring to FIG. 6 , the voice processing apparatus 200 may transmit the second output voice data OVD2 associated with the voice “☆☆☆” of the second speaker SPK2 to the translation environment 300 .

실시 예들에 따라, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 번역하기 위한 번역 환경(300)으로 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))로 표현되는 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 번역 환경(300)으로 전송할 수 있다.According to embodiments, the voice processing apparatus 200 may display the second output voice data OVD2 associated with the voice “☆☆☆” of the second speaker SPK2, and the voice “☆☆☆” of the second speaker SPK2. may be transmitted to the translation environment 300 for translating the starting language (eg, English (EN)). For example, the voice processing device 200 converts the second output voice data OVD2 into text data expressed in the starting language (eg, English (EN)) of the voice “☆☆☆” of the second speaker SPK2. and transmit the converted text data to the translation environment 300 .

예컨대, 음성 처리 장치(200)는 영어 번역을 수행할 수 있는 영어 번역 장치로 제2출력 음성 데이터(OVD2)를 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 영어 번역을 수행할 수 있는 번역가로 음성을 제공하는 단말기(예컨대, 스피커)로 제2출력 음성 데이터(OVD2)를 전송할 수 있다.For example, the voice processing device 200 may transmit the second output voice data OVD2 to an English translation device capable of performing English translation. For example, the voice processing apparatus 200 may transmit the second output voice data OVD2 to a terminal (eg, a speaker) that provides voice to a translator capable of performing English translation.

본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다. 이에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 대한 별도의 분석 작업(예컨대, 피치 분석 등) 또는 학습 작업 없이도, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 판단할 수 있어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.The speech processing apparatus 200 according to embodiments of the present invention determines the starting language of the voices of the speakers SPK1 to SPK4 according to the positions of the speakers SPK1 to SPK4, and serves as a translation environment for translating the determined starting language. It is possible to transmit voice data related to the voices of (SPK1 to SPK4). Accordingly, the voice processing apparatus 200 performs the speech processing apparatus 200 according to the positions of the speakers SPK1 to SPK4 without a separate analysis operation (eg, pitch analysis, etc.) or a learning operation for the voices of the speakers SPK1 to SPK4. It is possible to determine the starting language of the voice of SPK4), thereby reducing the time and resources required for translation.

도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다. 도 1 내지 도 7을 참조하면, 음성 처리 장치(200)는 위치 데이터와 출발 언어 데이터를 저장할 수 있다(S110). 실시 예들에 따라, 음성 처리 장치(200)는 메모리(220)에 위치 데이터와 상기 위치 데이터에 대응하는 출발 언어 데이터를 저장할 수 있다. 예컨대, 출발 언어 데이터는 위치 데이터에 대응하는 위치에 위치하는 화자의 음성(또는 음성 데이터)의 출발 언어를 나타낼 수 있다. 7 is a flowchart illustrating a method of operating a voice processing apparatus according to an embodiment of the present invention. 1 to 7 , the voice processing apparatus 200 may store location data and departure language data ( S110 ). According to embodiments, the voice processing apparatus 200 may store location data and departure language data corresponding to the location data in the memory 220 . For example, the departure language data may indicate the starting language of a voice (or voice data) of a speaker located at a position corresponding to the position data.

음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 관련된 입력 음성 데이터를 수신할 수 있다(S120). 음성 처리 장치(200)는 수신된 입력 음성 데이터를 저장할 수 있다.The voice processing apparatus 200 may receive input voice data related to the voices of the speakers SPK1 to SPK4 ( S120 ). The voice processing apparatus 200 may store the received input voice data.

예컨대, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들을 수신하고, 음성 신호들로부터 입력 음성 데이터를 획득할 수 있다. 예컨대, 음성 처리 장치(200)는 무선 통신 방식에 따라 입력 음성 데이터를 수신할 수 있다.For example, the voice processing apparatus 200 may receive analog-type voice signals from the plurality of microphones 100 and obtain input voice data from the voice signals. For example, the voice processing apparatus 200 may receive input voice data according to a wireless communication method.

음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다(S130).The voice processing apparatus 200 may generate speaker position data indicating the positions of the speakers SPK1 to SPK4 by using the input voice data ( S130 ).

음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 입력 음성 데이터와 연관된 음성의 음원의 위치를 계산할 수 있다. 음원의 위치가 곧 화자(SPK1~SPK4)의 위치이므로, 음성 처리 장치(200)는 계산된 음원의 위치를 화자(SPK1~SPK4)의 화자 위치 데이터로서 생성할 수 있다.The voice processing apparatus 200 may use the input voice data to calculate a location of a sound source of a voice related to the input voice data. Since the position of the sound source is the position of the speakers SPK1 to SPK4, the voice processing apparatus 200 may generate the calculated position of the sound source as speaker position data of the speakers SPK1 to SPK4.

음성 처리 장치(200)는 입력 언어 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터에 기초하여, 계산된 화자의 위치에서 발화된 음성들과만 연관된 출력 음성 데이터를 생성할 수 있다.The voice processing apparatus 200 may generate output voice data related to the voices of the speakers SPK1 to SPK4 by using the input language data. For example, the voice processing apparatus 200 may generate output voice data associated with only voices uttered at the calculated speaker's position, based on the input voice data.

음성 처리 장치(200)는 화자 위치 데이터와 위치 데이터를 비교하고, 화자 위치 데이터에 대응하는 출발 언어 데이터를 리드할 수 있다(S140). The voice processing apparatus 200 may compare the speaker location data with the location data, and read the starting language data corresponding to the speaker location data ( S140 ).

실시 예들에 따라, 음성 처리 장치(200)는 저장된 위치 데이터 중에서 화자 위치 데이터와 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 대응하는 출발 언어 데이터를 메모리(220)로부터 리드할 수 있다. 상술한 바와 같이, 메모리(220)에는 위치 데이터와 대응하는 출발 언어 데이터가 매칭되어 저장되어 있으므로, 음성 처리 장치(200)는 화자 위치 데이터를 이용하여, 화자(SPK1~SPK4)의 위치와 대응하는 출발 언어를 나타내는 출발 언어 데이터를 결정할 수 있다.According to embodiments, the voice processing apparatus 200 may determine location data corresponding to speaker location data from among the stored location data, and read the starting language data corresponding to the determined location data from the memory 220 . As described above, since the starting language data corresponding to the location data is matched and stored in the memory 220 , the voice processing apparatus 200 uses the speaker location data to correspond to the locations of the speakers SPK1 to SPK4. Departure language data representing a departure language may be determined.

음성 처리 장치(200)는 출발 언어 데이터를 이용하여, 출발 언어를 번역하기 위한 번역 환경으로 출력 음성 데이터를 전송할 수 있다(S150). The voice processing apparatus 200 may transmit the output voice data to a translation environment for translating the starting language by using the starting language data ( S150 ).

실시 예들에 따라, 음성 처리 장치(200)는 출발 언어 데이터가 나타내는 출발 언어를 번역하기 위한 번역 환경으로 출력 음성 데이터를 전송할 수 있다. According to embodiments, the voice processing device 200 may transmit the output voice data to a translation environment for translating the starting language indicated by the starting language data.

예컨대, 음성 처리 장치(200)는 각각이 여러 출발 언어를 번역하도록 구성되는 복수의 번역 장치들 중에서, 리드된 출발 언어 데이터에 의해 지시되는 출발 언어를 번역하도록 구성되는 번역 장치로 출력 음성 데이터를 전송할 수 있다. For example, the voice processing device 200 transmits the output voice data to a translation device configured to translate a starting language indicated by the read starting language data from among a plurality of translation devices each configured to translate several starting languages. can

예컨대, 도 3 내지 도 6에 도시된 예시의 경우, 음성 처리 장치(200)는 한국어, 영어, 일본어 및 중국어를 번역하도록 구성되는 복수의 번역 장치들 중에서, 제2화자(SPK2)의 언어의 출발 언어에 대응하는 영어를 번역하도록 구성되는 번역 장치로 출력 음성 데이터를 전송할 수 있다.For example, in the case of the examples shown in FIGS. 3 to 6 , the speech processing device 200 is configured to translate the language of the second speaker SPK2 from among a plurality of translation devices configured to translate Korean, English, Japanese, and Chinese. The output voice data may be transmitted to a translation device configured to translate English corresponding to the language.

도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 1 내지 도 8을 참조하면, 음성 처리 장치(200)는 위치 데이터(PD1~PD4), 위치 데이터(PD1~PD4)에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 저장할 수 있다.8 is a diagram for explaining an operation of a voice processing apparatus according to embodiments of the present invention. 1 to 8 , the voice processing device 200 includes location data PD1 to PD4, departure language data SLD1 to SLD4 corresponding to the location data PD1 to PD4, and arrival language data TLD1 to TLD4 ) can be stored.

도착 언어 데이터(TLD1~TLD4)는 해당 위치에 위치한 화자의 음성의 도착 언어를 나타낼 수 있다. 예컨대, 도착 언어는 화자(SPK1~SPK4) 별로 다르게 설정될 수 있으나, 이에 한정되는 것은 아니다.The arrival language data TLD1 to TLD4 may indicate the arrival language of a speaker's voice located at a corresponding position. For example, the arrival language may be set differently for each speaker SPK1 to SPK4, but is not limited thereto.

도 3 내지 도 6과 비교할 때, 도 8을 참조하여 설명되는 음성 처리 장치(200)는 화자 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 뿐만 아니라, 도착 언어 데이터(TLD1~TLD4)를 추가적으로 리드할 수 있다.3 to 6 , the speech processing apparatus 200 described with reference to FIG. 8 additionally adds the departure language data SLD1 to SLD4 corresponding to the speaker position data, as well as the arrival language data TLD1 to TLD4 can lead

실시 예들에 따라, 음성 처리 장치(200)는 화자 위치 데이터와 위치 데이터를 비교하고, 화자 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 리드할 수 있다. 예컨대, 음성 처리 장치(200)는 저장된 위치 데이터 중에서 화자 위치 데이터와 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 메모리(220)로부터 리드할 수 있다. According to embodiments, the voice processing apparatus 200 may compare the speaker location data with the location data, and read the departure language data SLD1 to SLD4 and the arrival language data TLD1 to TLD4 corresponding to the speaker location data. . For example, the voice processing device 200 determines position data corresponding to the speaker position data from among the stored position data, and stores departure language data SLD1 to SLD4 and arrival language data TLD1 to TLD4 corresponding to the determined position data in memory. It can be read from (220).

음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 도착 언어(예컨대, 한국어(KR))로 번역하기 위한 번역 환경(300)으로 전송할 수 있다.The voice processing device 200 transmits the second output voice data OVD2 associated with the voice “☆☆☆” of the second speaker SPK2, the starting language of the voice “☆☆☆” of the second speaker SPK2 (eg, , to the translation environment 300 for translating English (EN)) into the destination language (eg, Korean (KR)).

본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어 및 도착 언어를 결정하고, 결정된 출발 언어를 도착 언어로 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다.The speech processing apparatus 200 according to embodiments of the present invention determines the departure and arrival languages of the voices of the speakers SPK1 to SPK4 according to the positions of the speakers SPK1 to SPK4, and translates the determined departure language into the arrival language. Voice data related to the voices of the speakers SPK1 to SPK4 may be transmitted to a translation environment for

도 9 및 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 9를 참조하면, 제1화자(SPK1)가 음성 "◎◎◎"를 발화하고, 제2화자(SPK2)가 음성 "☆☆☆"를 영어(EN)로 발화하면, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"와 연관된 제1입력 음성 데이터와 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 제2입력 음성 데이터를 수신할 수 있다.9 and 10 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention. Referring to FIG. 9 , when the first speaker SPK1 utters the voice “◎◎◎” and the second speaker SPK2 utters the voice “☆☆☆” in English (EN), the voice processing device 200 ) may receive the first input voice data associated with the voice “◎◎◎” of the first speaker SPK1 and the second input voice data corresponding to the voice “☆☆☆” of the second speaker SPK2.

실시 예들에 따라, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"과 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 중첩된 입력 음성 데이터를 수신하고, 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터(SPD1 및 SPD2)를 생성하고, 화자 위치 데이터(SPD1 및 SPD2)에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다.According to embodiments, the voice processing device 200 receives the overlapping input voice data associated with the voice "◎◎ ◎" of the first speaker SPK1 and the voice "☆☆☆" of the second speaker SPK2, Speaker position data SPD1 and SPD2 indicating the positions of the first speakers SPK1 and the second speakers SPK2, respectively, are generated from the superimposed input voice data, and the superimposed input based on the speaker position data SPD1 and SPD2 From the voice data, the first output voice data OVD1 associated with the voice “◎◎ ◎” of the first speaker SPK1 and the second output voice data OVD2 associated with the voice “☆☆☆” of the second speaker SPK2 (OVD2) can create

예컨대, 음성 처리 장치(200)는 제1화자 위치 데이터(SPD1)와 제1출력 음성 데이터(OVD1)를 매칭하여 저장하고, 제2화자 위치 데이터(SPD2)와 제2출력 음성 데이터(OVD2)를 매칭하여 저장할 수 있다.For example, the voice processing apparatus 200 matches and stores the first speaker position data SPD1 and the first output voice data OVD1, and stores the second speaker position data SPD2 and the second output voice data OVD2. Matching can be saved.

음성 처리 장치(200)는 제1화자(SPK1)의 제1화자 위치 데이터(SPD1)에 기초하여, 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어를 나타내는 제1출발 언어 데이터(SLD1)를 메모리(220)로부터 리드할 수 있다. 또한, 음성 처리 장치(200)는 제2화자(SPK2)의 제2화자 위치 데이터(SPD2)에 기초하여, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 나타내는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드할 수 있다. 예컨대, 상술한 바와 같이, 메모리(220)에 저장된 위치 데이터(PD1~PD4) 중에서 제1화자 위치 데이터(SPD1)와 동일 또는 유사한 위치를 나타내는 위치 데이터(예컨대, 제1위치 데이터(PD1))를 결정하고, 제1위치 데이터(PD1)와 대응하는 제1출발 언어 데이터(SLD1)를 메모리(220)로부터 리드할 수 있다. The speech processing device 200 provides first start language data ( SLD1) may be read from the memory 220 . In addition, the speech processing device 200 is configured to provide a second start language indicating the starting language of the voice "☆☆☆" of the second speaker SPK2 based on the second speaker position data SPD2 of the second speaker SPK2. The data SLD2 may be read from the memory 220 . For example, as described above, among the location data PD1 to PD4 stored in the memory 220 , location data (eg, the first location data PD1 ) indicating the same or similar location to the first speaker location data SPD1 is selected. determined, and the first start language data SLD1 corresponding to the first location data PD1 may be read from the memory 220 .

이에 따라, 음성 처리 장치(200)는 출발 언어 데이터(SLD1 및 SLD2)에 기초하여 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어와 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제1출발 언어 데이터(SLD1)를 매칭하여 저장하고, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)와 제2출발 언어 데이터(SLD2)를 매칭하여 저장할 수 있다.Accordingly, the speech processing apparatus 200 determines the starting language of the first speaker SPK1's voice "◎◎◎" and the second speaker SPK2's voice "☆☆☆ based on the starting language data SLD1 and SLD2. You can decide the starting language of ". For example, the voice processing device 200 matches and stores the first output voice data OVD1 and the first start language data SLD1 associated with the voice “◎◎◎” of the first speaker SPK1, and stores the second speaker The second output voice data OVD2 associated with the voice “☆☆☆” of (SPK2) and the second start language data SLD2 may be matched and stored.

또한, 음성 처리 장치(200)는 출발 언어 데이터(SLD1 및 SLD2)에 기초하여 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어와 제2화자(SPK2)의 음성 "☆☆☆"의 도착 언어를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성의 도착 언어를, 화자(SPK1~SPK4) 자신을 제외한 나머지 화자의 출발 언어에 기초하여 결정할 수 있다. In addition, the speech processing device 200 provides the starting language of the first speaker SPK1's voice "◎◎◎" and the second speaker SPK2's voice "☆☆☆" based on the starting language data SLD1 and SLD2. can determine the language of arrival. According to embodiments, the voice processing apparatus 200 may determine the arrival language of the voices of the speakers SPK1 to SPK4 based on the departure languages of the other speakers except for the speakers SPK1 to SPK4 themselves.

예컨대, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"의 도착 언어를, 제2화자(SPK2) 자신을 제외한 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어(예컨대, 한국어)로 설정할 수 있다. 또한, 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"의 도착 언어를, 제1화자(SPK1) 자신을 제외한 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어)로 설정할 수 있다.For example, the speech processing device 200 may change the arrival language of the second speaker SPK2's voice "☆☆☆" to the first speaker SPK1's voice "◎◎◎" excluding the second speaker SPK2 itself. It can be set as the starting language (eg, Korean). Also, for example, the speech processing device 200 may change the arrival language of the first speaker SPK1 voice “◎◎◎” to the voice of the second speaker SPK2 excluding the first speaker SPK1 itself “☆☆☆ It can be set as the starting language of " (eg, English).

도 10을 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 도착 언어(예컨대, 한국어(KR))로 번역하기 위한 번역 환경(300)으로 전송할 수 있다. Referring to FIG. 10 , the voice processing apparatus 200 may transmit the second output voice data OVD2 associated with the voice “☆☆☆” of the second speaker SPK2 to the translation environment 300 . According to embodiments, the voice processing apparatus 200 may display the second output voice data OVD2 associated with the voice “☆☆☆” of the second speaker SPK2, and the voice “☆☆☆” of the second speaker SPK2. may be transmitted to the translation environment 300 for translating the departure language (eg, English (EN)) into the destination language (eg, Korean (KR)).

음성 처리 장치(200)는 영어로 표현되는 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송하고, 번역 환경(300)으로부터 제2출력 음성 데이터(OVD2)의 번역 결과를 수신할 수 있다.The voice processing device 200 transmits the second output voice data OVD2 associated with the voice “☆☆☆” expressed in English to the translation environment 300 , and the second output voice data OVD2 from the translation environment 300 . ) to receive the translation result.

실시 예들에 따라, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))로 표현되는 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 번역 환경(300)으로 전송할 수 있다. 또한, 음성 처리 장치(200)는 번역 환경(300)으로부터 음성 "☆☆☆"의 도착 언어(예컨대, 한국어(KR))로 표현되는 텍스트 데이터를 수신하고, 텍스트 데이터를 이용하여 음성 "☆☆☆"의 도착 언어(예컨대, 한국어(KR))로 표현되는 데이터(음성 데이터 또는 텍스트 데이터)를 제1화자(SPK1)로 제공할 수 있다.According to embodiments, the voice processing apparatus 200 transmits the second output voice data OVD2 to the text expressed in the starting language (eg, English (EN)) of the voice “☆☆☆” of the second speaker SPK2. It may be converted into data, and the converted text data may be transmitted to the translation environment 300 . In addition, the voice processing device 200 receives text data expressed in the destination language (eg, Korean (KR)) of the voice “☆☆☆” from the translation environment 300, and uses the text data to receive the voice “☆☆” Data (voice data or text data) expressed in the arrival language of "☆" (eg, Korean (KR)) may be provided to the first speaker SPK1.

본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다. 이에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 대한 별도의 분석 작업(예컨대, 피치 분석 등) 또는 학습 작업 없이도, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 판단할 수 있어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.The speech processing apparatus 200 according to embodiments of the present invention determines the starting language of the voices of the speakers SPK1 to SPK4 according to the positions of the speakers SPK1 to SPK4, and serves as a translation environment for translating the determined starting language. It is possible to transmit voice data related to the voices of (SPK1 to SPK4). Accordingly, the voice processing apparatus 200 performs the speech processing apparatus 200 according to the positions of the speakers SPK1 to SPK4 without a separate analysis operation (eg, pitch analysis, etc.) or a learning operation for the voices of the speakers SPK1 to SPK4. It is possible to determine the starting language of the voice of SPK4), thereby reducing the time and resources required for translation.

이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible by those skilled in the art from the above description. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

100: 마이크로폰들 200: 음성 처리 장치
300: 번역 환경 210: 음성 데이터 수신 회로
220: 메모리 230: 음성 데이터 출력 회로
240: 프로세서
100: microphones 200: voice processing device
300: translation environment 210: voice data receiving circuit
220: memory 230: audio data output circuit
240: processor

Claims (12)

화자들의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로;
출발 언어 데이터를 저장하도록 구성되는 메모리;
상기 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로; 및
상기 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고,
상기 프로세서는,
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 상기 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고,
상기 메모리를 참조하여 상기 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고,
상기 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
음성 처리 장치.
a voice data receiving circuit configured to receive input voice data associated with the voices of the speakers;
a memory configured to store departure language data;
a voice data output circuit configured to output output voice data associated with the voices of the speakers; and
a processor configured to generate a control command for outputting the output voice data;
The processor is
generating first speaker location data indicating a location of a first speaker among the speakers by using the input speech data and first output speech data related to the first speaker's voice;
reading first start language data corresponding to the first speaker position data with reference to the memory;
sending, to the voice data output circuit, a control command for outputting the first output voice data to a translation environment for translating a first starting language indicated by the first starting language data;
speech processing unit.
제1항에 있어서,
상기 입력 음성 데이터는 복수의 마이크로폰들에 의해 생성된 음성 신호들로부터 생성된 것인,
음성 처리 장치.
According to claim 1,
wherein the input voice data is generated from voice signals generated by a plurality of microphones;
speech processing unit.
제2항에 있어서, 상기 프로세서는,
상기 복수의 마이크로폰들 사이의 거리 및 상기 음성 신호가 상기 복수의 마이크로폰에 의해 수신되는 시점에 기초하여, 상기 제1화자 위치 데이터를 생성하는,
음성 처리 장치.
The method of claim 2, wherein the processor comprises:
generating the first speaker location data based on a distance between the plurality of microphones and a time point at which the voice signal is received by the plurality of microphones;
speech processing unit.
제1항에 있어서,
상기 메모리는 상기 출발 언어 데이터와 대응하는 위치 데이터를 상기 출발 언어 데이터와 매칭하여 저장하고,
상기 프로세서는 저장된 위치 데이터 중 상기 제1화자 위치 데이터와 대응하는 제1위치 데이터를 결정하고, 출발 언어 데이터 중 상기 제1위치 데이터와 매칭되어 저장된 상기 제1출발 언어 데이터를 결정하는,
음성 처리 장치.
According to claim 1,
The memory stores the location data corresponding to the departure language data by matching with the departure language data,
The processor determines first location data corresponding to the first speaker location data from among the stored location data, and determines the first start language data stored by matching the first location data among the starting language data,
speech processing unit.
제1항에 있어서,
상기 프로세서는, 상기 제1화자의 음성과 연관된 상기 제1출력 음성 데이터를 상기 제1출발 언어로 표현되는 텍스트 데이터로 변환하고,
상기 음성 데이터 출력 회로는, 상기 프로세서의 제어에 따라 변환된 텍스트 데이터를 상기 번역 환경으로 전송하는,
음성 처리 장치.
According to claim 1,
The processor converts the first output voice data related to the voice of the first speaker into text data expressed in the first starting language,
The voice data output circuit transmits the converted text data to the translation environment under the control of the processor.
speech processing unit.
제1항에 있어서, 상기 프로세서는,
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제2화자의 위치를 나타내는 제2화자 위치 데이터를 생성하고,
상기 메모리를 참조하여 상기 제2화자 위치 데이터에 대응하는 제2출발 언어 데이터를 리드하고,
상기 제1출발 언어를 상기 제2출발 언어 데이터에 의해 지시되는 제2출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
음성 처리 장치.
The method of claim 1, wherein the processor comprises:
generating second speaker location data indicating a location of a second speaker among the speakers by using the input voice data;
reading second start language data corresponding to the second speaker position data with reference to the memory;
sending, to the voice data output circuit, a control command for outputting the first output voice data to a translation environment for translating the first starting language into a second starting language indicated by the second starting language data;
speech processing unit.
제6항에 있어서, 상기 프로세서는,
상기 입력 음성 데이터를 이용하여, 상기 제2화자의 음성과 연관된 제2출력 음성 데이터를 생성하고,
상기 제2출발 언어를 상기 제1출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
음성 처리 장치.
The method of claim 6, wherein the processor comprises:
generating second output voice data related to the second speaker's voice by using the input voice data;
sending a control command for outputting the first output voice data to the voice data output circuit to a translation environment for translating the second starting language into the first starting language;
speech processing unit.
음성 처리 장치의 작동 방법에 있어서,
출발 언어 데이터를 저장하는 단계;
화자들의 음성과 연관된 입력 음성 데이터를 수신하는 단계;
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 상기 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하는 단계;
출발 언어 데이터 중 상기 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하는 단계; 및
상기 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하는 단계를 포함하는,
음성 처리 장치의 작동 방법.
A method of operating a speech processing device, comprising:
storing departure language data;
receiving input voice data associated with the voices of the speakers;
generating first speaker location data indicating a location of a first speaker among the speakers by using the input speech data, and first output speech data associated with the first speaker's voice;
reading first starting language data corresponding to the first speaker position data from among the starting language data; and
outputting the first output speech data to a translation environment for translating a first starting language indicated by the first starting language data;
How speech processing units work.
제8항에 있어서, 상기 입력 음성 데이터를 수신하는 단계는,
복수의 마이크로폰들로부터 음성 신호들을 수신하는 단계; 및
수신된 음성 신호들을 ADC(analog to digital) 변환하여, 상기 입력 음성 데이터를 획득하는 단계를 포함하는,
음성 처리 장치의 작동 방법.
The method of claim 8, wherein the receiving of the input voice data comprises:
receiving voice signals from a plurality of microphones; and
Converting the received voice signals to analog to digital (ADC) conversion, comprising the step of obtaining the input voice data,
How speech processing units work.
제8항에 있어서,
상기 음성 처리 장치의 작동 방법은,
상기 출발 언어 데이터와 대응하는 위치 데이터를 상기 출발 언어 데이터와 매칭하여 저장하는 단계를 더 포함하고,
상기 제1출발 언어 데이터를 리드하는 단계는,
저장된 위치 데이터 중 상기 제1화자 위치 데이터와 대응하는 제1위치 데이터를 결정하는 단계; 및
상기 출발 언어 데이터 중 상기 제1위치 데이터와 매칭되어 저장된 상기 제1출발 언어 데이터를 리드하는 단계를 포함하는,
음성 처리 장치의 작동 방법.
9. The method of claim 8,
The method of operation of the voice processing device,
The method further comprising the step of matching and storing the location data corresponding to the departure language data with the departure language data,
The step of reading the first starting language data includes:
determining first location data corresponding to the first speaker location data from among stored location data; and
and reading the first departure language data stored by matching the first location data among the departure language data,
How speech processing units work.
제8항에 있어서, 상기 음성 처리 장치의 작동 방법은,
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제2화자의 위치를 나타내는 제2화자 위치 데이터를 생성하는 단계;
상기 출발 언어 데이터 중 상기 제2화자 위치 데이터에 대응하는 제2출발 언어 데이터를 리드하는 단계; 및
상기 제1출발 언어를 상기 제2출발 언어 데이터에 의해 지시되는 제2출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하는 단계를 더 포함하는,
음성 처리 장치의 작동 방법.
The method of claim 8, wherein the method of operating the voice processing device comprises:
generating second speaker location data indicating a location of a second speaker among the speakers by using the input voice data;
reading second starting language data corresponding to the second speaker position data from among the starting language data; and
outputting the first output speech data to a translation environment for translating the first source language into a second source language indicated by the second source language data;
How speech processing units work.
제11항에 있어서, 상기 음성 처리 장치의 작동 방법은,
상기 입력 음성 데이터를 이용하여, 상기 제2화자의 음성과 연관된 제2출력 음성 데이터를 생성하는 단계; 및
상기 제2출발 언어를 상기 제1출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하는 단계를 더 포함하는,
음성 처리 장치의 작동 방법.
The method of claim 11 , wherein the method of operating the voice processing device comprises:
generating second output voice data related to the second speaker's voice by using the input voice data; and
outputting the first output speech data to a translation environment for translating the second source language into the first source language;
How speech processing units work.
KR1020200103909A 2020-08-19 2020-08-19 Voice processing device for processing voice data and operating method of the same KR20220022674A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200103909A KR20220022674A (en) 2020-08-19 2020-08-19 Voice processing device for processing voice data and operating method of the same
PCT/KR2021/010939 WO2022039486A1 (en) 2020-08-19 2021-08-18 Voice processing device for processing voice signal and voice processing system comprising same
US18/022,255 US20230325608A1 (en) 2020-08-19 2021-08-18 Voice processing device for processing voice signal and voice processing system comprising same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200103909A KR20220022674A (en) 2020-08-19 2020-08-19 Voice processing device for processing voice data and operating method of the same

Publications (1)

Publication Number Publication Date
KR20220022674A true KR20220022674A (en) 2022-02-28

Family

ID=80497435

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200103909A KR20220022674A (en) 2020-08-19 2020-08-19 Voice processing device for processing voice data and operating method of the same

Country Status (1)

Country Link
KR (1) KR20220022674A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170112713A (en) 2016-04-01 2017-10-12 삼성전자주식회사 Device and method for voice translation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170112713A (en) 2016-04-01 2017-10-12 삼성전자주식회사 Device and method for voice translation

Similar Documents

Publication Publication Date Title
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
US11182567B2 (en) Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
US20190304442A1 (en) Speech translation device, speech translation method, and recording medium therefor
JP2000207170A (en) Device and method for processing information
KR101989127B1 (en) Method, system and computer program for translation
KR101959439B1 (en) Method for interpreting
KR20220022674A (en) Voice processing device for processing voice data and operating method of the same
KR20150014235A (en) Apparatus and method for automatic interpretation
KR20220042009A (en) Voice processing device capable of communicating with vehicle and operating method of the same
Panek et al. Challenges in adopting speech control for assistive robots
US20230377594A1 (en) Mobile terminal capable of processing voice and operation method therefor
JP2011150657A (en) Translation voice reproduction apparatus and reproduction method thereof
JP2018018052A (en) Terminal device, translation method, and translation program
KR102575293B1 (en) Voice processing device, voice processing system and voice processing method for processing voice
US20230325608A1 (en) Voice processing device for processing voice signal and voice processing system comprising same
KR20220042509A (en) Voice processing device and operating method of the same
JP2016186646A (en) Voice translation apparatus, voice translation method and voice translation program
KR20220023511A (en) Voice processing device and operating method of the same
KR20230013473A (en) Device and method for processing voice of speakers
JP2020119043A (en) Voice translation system and voice translation method
KR20220043279A (en) Voice processing device and voice processing system including the same
JP2015187738A (en) Speech translation device, speech translation method, and speech translation program
KR20200003529A (en) Digital device for recognizing voice and method for controlling the same
KR20200041671A (en) Electronic apparatus and control method thereof
KR20220042010A (en) Voice processing system including voice processing device and terminal

Legal Events

Date Code Title Description
A201 Request for examination