KR20220022674A - Voice processing device for processing voice data and operating method of the same - Google Patents
Voice processing device for processing voice data and operating method of the same Download PDFInfo
- Publication number
- KR20220022674A KR20220022674A KR1020200103909A KR20200103909A KR20220022674A KR 20220022674 A KR20220022674 A KR 20220022674A KR 1020200103909 A KR1020200103909 A KR 1020200103909A KR 20200103909 A KR20200103909 A KR 20200103909A KR 20220022674 A KR20220022674 A KR 20220022674A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- voice
- language
- speaker
- output
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 134
- 238000011017 operating method Methods 0.000 title 1
- 238000013519 translation Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims 1
- 101100355601 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAD53 gene Proteins 0.000 description 112
- 101150087667 spk1 gene Proteins 0.000 description 112
- 230000014616 translation Effects 0.000 description 61
- 101100043388 Arabidopsis thaliana SRK2D gene Proteins 0.000 description 46
- 101150090425 SLD1 gene Proteins 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 101100533625 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) drc-4 gene Proteins 0.000 description 8
- 101150033482 SLD2 gene Proteins 0.000 description 8
- 101100533627 Schizosaccharomyces pombe (strain 972 / ATCC 24843) drc1 gene Proteins 0.000 description 8
- 101100059532 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CDC45 gene Proteins 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 101150028119 SPD1 gene Proteins 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명의 실시 예들은 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법에 관한 것이다.Embodiments of the present invention relate to a voice processing apparatus for processing voice data and a method of operating the same.
마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다. A microphone is a device for recognizing a voice and converting the recognized voice into an electrical signal, that is, a voice signal. When a microphone is disposed in a space in which a plurality of speakers are located, such as a conference room or a classroom, the microphone receives all voices from the plurality of speakers and generates voice signals related to the voices of the plurality of speakers.
복수의 화자들이 동시에 발화하는 경우, 개별 화자들의 음성만을 나타내는 음성 신호를 분리하는 것이 필요하다. 또한, 복수의 화자들이 서로 다른 언어로 발화하는 경우, 복수의 화자들의 음성을 쉽게 번역하기 위해서는, 복수의 화자들의 음성의 원래 언어(즉, 출발 언어)를 파악해야 하는데, 음성 자체의 특징만으로 해당 음성의 언어를 파악하는 것은 시간이 많이 소요되고, 많은 리소스가 소요되는 문제가 있다.When a plurality of speakers simultaneously speak, it is necessary to separate voice signals representing only the voices of individual speakers. In addition, when a plurality of speakers speak in different languages, in order to easily translate the voices of the plurality of speakers, it is necessary to identify the original language (ie, the starting language) of the voices of the plurality of speakers. Recognizing the language of speech takes a lot of time and requires a lot of resources.
본 발명이 해결하고자 하는 과제는 입력 음성 데이터를 이용하여 화자의 위치를 판단하고, 입력 음성 데이터를 이용하여 각 화자의 음성을 나타내는 출력 음성 데이터를 생성할 수 있는 음성 처리 장치 및 이의 작동 방법을 제공하는 것에 있다.An object of the present invention is to provide a voice processing apparatus capable of determining a speaker's location using input voice data and generating output voice data representing each speaker's voice using the input voice data, and a method of operating the same is in doing
본 발명이 해결하고자 하는 과제는 음성 데이터를 이용하여 화자의 위치를 판단하고, 화자의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 음성 처리 장치 및 방법을 제공하는 것에 있다.The problem to be solved by the present invention is a voice processing capable of transmitting voice data to a translation environment for determining a speaker's position using voice data, determining a starting language corresponding to the speaker's position, and translating the determined starting language To provide an apparatus and method.
본 발명의 실시 예들에 따른 음성 처리 장치는 화자들의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로, 출발 언어 데이터를 저장하도록 구성되는 메모리, 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로 및 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고, 프로세서는, 입력 음성 데이터를 이용하여, 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고, 메모리를 참조하여 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고, 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 제1출력 음성 데이터를 출력하기 위한 제어 명령을 음성 데이터 출력 회로로 전송한다.A voice processing apparatus according to embodiments of the present invention includes a voice data receiving circuit configured to receive input voice data related to the voices of speakers, a memory configured to store starting language data, and output voice data related to the voices of the speakers. a speech data output circuit configured and a processor configured to generate a control command for outputting output speech data, the processor configured to: use the input speech data, a first speaker location indicating a location of a first speaker among the speakers; generate first output voice data associated with the data and the voice of the first speaker, read the first starting language data corresponding to the first speaker position data with reference to the memory, and the first starting language data indicated by the first starting language data A control command for outputting the first output voice data to the translation environment for translating the starting language is transmitted to the voice data output circuit.
본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법은, 출발 언어 데이터를 저장하는 단계, 화자들의 음성과 연관된 입력 음성 데이터를 수신하는 단계, 입력 음성 데이터를 이용하여, 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하는 단계, 출발 언어 데이터 중 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하는 단계 및 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 제1출력 음성 데이터를 출력하는 단계를 포함한다.A method of operating a voice processing apparatus according to an embodiment of the present invention includes the steps of storing starting language data, receiving input voice data related to the voices of speakers, and using the input voice data, generating first speaker position data indicating a position and first output voice data associated with the voice of the first speaker, reading first starting language data corresponding to the first speaker position data among the starting language data; and outputting the first output speech data to a translation environment for translating the first starting language indicated by the starting language data.
본 발명의 실시 예들에 따른 음성 처리 장치 및 이의 작동 방법은 화자의 입력 음성 데이터를 이용하여 화자의 위치를 판단하고, 화자의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있다. 따라서, 음성 처리 장치는 화자의 음성의 특성을 파악하여 화자의 언어를 인식하는 작업 없이도, 화자의 음성의 언어를 쉽게 결정하여 해당 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 효과가 있다.A voice processing apparatus and a method of operating the same according to embodiments of the present invention determine a speaker's location using input voice data of the speaker, determine a starting language corresponding to the speaker's location, and translate for translating the determined starting language It can transmit voice data to the environment. Accordingly, the speech processing device can easily determine the language of the speaker's voice and transmit the voice data to a translation environment for translating the corresponding language without recognizing the speaker's language by recognizing the characteristics of the speaker's voice. .
도 1은 본 발명의 실시 예들에 따른 음성 번역 시스템을 나타낸다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다.
도 9 및 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 1 shows a voice translation system according to embodiments of the present invention.
2 illustrates a voice processing apparatus according to embodiments of the present invention.
3 to 6 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention.
7 is a flowchart illustrating a method of operating a voice processing apparatus according to an embodiment of the present invention.
8 is a diagram for explaining an operation of a voice processing apparatus according to embodiments of the present invention.
9 and 10 are diagrams for explaining the operation of a voice processing apparatus according to an embodiment of the present invention.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings.
도 1은 본 발명의 실시 예들에 따른 음성 번역 시스템을 나타낸다. 도 1을 참조하면, 본 발명의 실시 예들에 따른 음성 번역 시스템(10)은 화자(speaker; SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 음성 번역 시스템(10)은 화자(SPK1~SPK4)의 음성에 기초하여 화자(SPK1~SPK4)의 위치를 결정하고, 화자(SPK1~SPK4)의 음성을 결정된 위치에 대응하는 언어(즉, 출발 언어(source language)에서 다른 언어(즉, 도착 언어(target language))로 번역할 수 있다.1 shows a voice translation system according to embodiments of the present invention. Referring to FIG. 1 , the
즉, 본 발명의 실시 예들에 따른 음성 번역 시스템(10)은 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하므로, 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이 화자(SPK1~SPK4)의 음성을 번역할 수 있으므로, 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.That is, since the
음성 번역 시스템(10)은 화자(SPK1~SPK4)의 음성을 수신하도록 구성되는 복수의 마이크로폰(100), 음성 처리 장치(200) 및 번역 환경(300)을 포함할 수 있다.The
화자(SPK1~SPK4)는 각 위치(P1~P4)에 위치할 수 있다. 실시 예들에 따라, 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)는 화자(SPK1~SPK4)의 언어로 음성을 발화(pronounce)할 수 있다. 예컨대, 제1위치(P1)에 위치한 제1화자(SPK1)는 제1언어(예컨대, 한국어(KR))로 음성을 발화할 수 있고, 제2위치(P2)에 위치한 제2화자(SPK2)는 제2언어(예컨대, 영어(EN))로 음성을 발화할 수 있고, 제3위치(P3)에 위치한 제3화자(SPK3)는 제3언어(예컨대, 일본어(JP))로 음성을 발화할 수 있고, 제4위치(P4)에 위치한 제4화자(SPK4)는 제4언어(예컨대, 중국어(CN))로 음성을 발화할 수 있다. The speakers SPK1 to SPK4 may be located at respective positions P1 to P4. According to embodiments, the speakers SPK1 to SPK4 located at each of the positions P1 to P4 may utter a voice in the language of the speakers SPK1 to SPK4. For example, the first speaker SPK1 located at the first position P1 may utter a voice in the first language (eg, Korean (KR)), and the second speaker SPK2 located at the second position P2 may utter a voice in a second language (eg, English (EN)), and the third speaker SPK3 located at the third position P3 utters a voice in a third language (eg, Japanese (JP)) and the fourth speaker SPK4 located at the fourth position P4 may utter a voice in a fourth language (eg, Chinese (CN)).
한편, 본 발명의 실시 예들이 화자의 수 혹은 언어의 종류에 한정되는 것이 아니다.Meanwhile, embodiments of the present invention are not limited to the number of speakers or the type of language.
화자(SPK1~SPK4)의 음성은 복수의 마이크로폰(100)에 의해 수신될 수 있다.The voices of the speakers SPK1 to SPK4 may be received by the plurality of
복수의 마이크로폰(100)은 음성과 연관된 음성 신호를 생성할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100) 각각은 음성에 의한 매질(예컨대, 공기)의 압력 변화를 측정하고, 측정된 매질의 압력 변화를 전기적인 신호인 음성 신호로 변환하고, 음성 신호를 출력할 수 있다.The plurality of
복수의 마이크로폰(100)은 화자(SPK1~SPK4)의 음성을 수신할 수 있는 공간에 배치될 수 있다.The plurality of
복수의 마이크로폰(100)은 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성을 전기적인 신호인 음성 신호(VS1~VSn)로 변환할 수 있다. 예컨대, 제1마이크로폰(100-1)은 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성과 연관된 제1음성 신호(VS1)를 생성할 수 있다. 제1마이크로폰(100-1)에 의해 생성된 제1음성 신호(VS1)는 적어도 하나 이상의 화자(SPK1~SPK4)의 음성에 대응할 수 있다.The plurality of
복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 출력할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다. 예컨대, 복수의 마이크로폰(100)은 유선 방식 또는 무선 방식에 따라 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다.The plurality of
복수의 마이크로폰(100)은 빔포밍(beamforming) 마이크로 구성되어, 다방향(multi-direction)으로부터 음성을 입력받을 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 서로 이격되어 배치되어, 하나의 마이크 어레이를 구성할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.The plurality of
복수의 마이크로폰(100) 각각은 임의의 특정 방향의 음성을 수신하도록 구성되는 지향성 마이크이거나, 또는, 모든 방향의 음성을 수신하도록 구성되는 무지향성 마이크일 수 있다.Each of the plurality of
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신하고, 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성하고, 출력 음성 데이터를 번역 환경(300)으로 전송할 수 있다.The
실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로 부터 전송되는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득할 수 있다.According to embodiments, the
한편, 본 명세서에서는 음성 처리 장치(200)가 복수의 마이크로폰(100)으로부터 음성 신호들(VS1~VSn)을 수신하여 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득하는 것을 가정하고 설명하나, 실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 외부 장치로부터 수신하는 것도 가능하다.Meanwhile, in the present specification, it is assumed that the
음성 처리 장치(200)는 연산 처리 기능을 갖는 컴퓨팅 장치일 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 컴퓨터, 노트북, 모바일 디바이스, 스마트폰 또는 웨어러블 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니다. 예컨대, 음성 처리 장치(200)는 연산 처리 기능을 갖는 적어도 하나의 집적 회로를 포함할 수 있다.The
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치(즉, 음원의 위치)를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점(time)들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.The
음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 입력 음성 데이터에 대응하는 화자 위치 데이터를 매칭하여 저장할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터를 결정된 화자의 위치 별로 그룹핑할 수 있다. The
예컨대, 제1화자(SPK1)와 제2화자(SPK2)가 시간적으로 중첩해서 발화하는 경우, 제1화자(SPK1)와 제2화자(SPK2)의 음성은 중첩되므로, 복수의 마이크로폰(100)에 의해 생성된 음성 신호들(VS1~VSn) 각각은 제1화자(SPK1)와 제2화자(SPK2)의 중첩된 음성과 대응한다. 따라서, 음성 신호들(VS1~VSn)로부터 생성된 입력 음성 데이터 또한 제1화자(SPK1)의 음성과 연관된 음성 데이터와 제2화자(SPK2)의 음성관 연관된 음성 데이터를 포함한다. 상술한 바와 같이, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성을 나타내는 제1출력 음성 데이터와, 제2화자(SPK2)의 음성을 나타내는 제2출력 음성 데이터를 생성할 수 있다.For example, when the first speaker SPK1 and the second speaker SPK2 overlap in time, the voices of the first speaker SPK1 and the second speaker SPK2 overlap, so that the
음성 처리 장치(200)는 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치에 대응하는 출발 언어를 결정하고, 결정된 출발 언어를 도착 언어로 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터에 기초하여 결정된 화자의 위치가 제1위치(P1)인 경우, 제1위치(P1)에 대응하는 출발 언어(예컨대, 한국어(KR))를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다.The
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 출발 언어를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송할 수 있다.The
따라서, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성의 언어를 별도로 인식하는 작업 없이도, 화자(SPK1~SPK4)의 음성의 언어를 번역하기 위한 번역 환경으로 음성 데이터를 전송할 수 있는 효과가 있다.Accordingly, the
실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 처리할 수 있다. 음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 텍스트를 포함하는 텍스트 데이터를 생성하고, 생성된 텍스트 데이터를 화자 위치 데이터와 매칭하여 저장할 수 있다.According to embodiments, the
또한, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터를 번역 환경(300)으로 전송할 수 도 있다.Also, the
번역 환경(300)은 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역 환경(300)은 음성 처리 장치(200)로부터 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 수신할 수 있고, 다른 언어로 번역된 화자(SPK1~SPK4)의 음성과 연관된 데이터를 출력할 수 있다. 예컨대, 번역 환경(300)은 화자(SPK1~SPK4)의 언어에 대응하는 한국어, 영어, 일본어 및 중국어에 대한 번역을 제공할 수 있다.The
번역 환경(300)은 번역기들(310~340)을 포함할 수 있다. 번역기들(310)은 출발 언어로 표현된 데이터를 도착 언어로 표현된 데이터로 변환할 수 있는 장치, 또는, 언어 번역을 수행하는 번역가에게 음성을 제공하도록 구성되는 단말기를 의미할 수 있다.The
실시 예들에 따라, 번역 환경(300)은 언어 번역 기능을 지원하는 장치를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성 데이터를 수신하고, 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터의 언어를 다른 언어로 변환할 수 있는 장치를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성에 대응하는 텍스트 데이터를 수신하고, 텍스트 데이터의 언어를 다른 언어로 변환할 수 있는 장치를 포함할 수 있다.According to embodiments, the
실시 예들에 따라, 번역 환경(300)은 언어 번역을 수행하는 번역자에게 화자(SPK1~SPK4)의 음성을 제공하도록 구성되는 단말기를 포함할 수 있다. 예컨대, 번역 환경(300)은 음성 데이터를 이용하여 번역자에게 음성 데이터에 대응하는 음성을 재생할 수 있는 단말기를 포함할 수 있다. 상기 단말기는, 예를 들면, 스피커 또는 이어폰일 수 있다.According to embodiments, the
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 1 및 도 2를 참조하면, 음성 처리 장치(200)는 음성 데이터 수신 회로(210), 메모리(220), 프로세서(230) 및 음성 데이터 출력 회로(240)를 포함할 수 있다.2 illustrates a voice processing apparatus according to embodiments of the present invention. 1 and 2 , the
음성 수신 회로(210)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다. 실시 예들에 따라, 음성 수신 회로(210)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다.The
실시 예들에 따라, 음성 수신 회로(210)는 ADC(analog to digital) 컨버터를 포함하고, 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)을 디지털 타입의 입력 음성 데이터로 변환하고, 변환된 입력 음성 데이터를 저장할 수 있다.According to some embodiments, the
실시 예들에 따라, 음성 수신 회로(210)는 무선 통신 방식에 따라 통신 가능한 통신 회로를 포함하고, 통신 회로를 통해 입력 음성 데이터를 수신할 수 있다.According to embodiments, the
메모리(220)는 음성 처리 장치(200)의 작동에 필요한 데이터를 저장할 수 있다. 실시 예들에 따라, 메모리(220)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.The
메모리(220)는 등록 위치를 나타내는 위치 데이터와, 위치 데이터에 대응하는 출발 언어 데이터를 저장할 수 있다. 실시 예들에 따라, 위치 데이터와 출발 언어 데이터는 메모리(220)에 매칭되어 저장될 수 있다.The
출발 언어 데이터는 위치 데이터에 대응하는 위치에 위치하는 화자의 음성(또는 입력 음성 데이터)의 출발 언어를 나타낼 수 있다. 예컨대, 도 1에 도시된 바와 같이, 제1위치(P1)를 나타내는 위치 데이터와 대응하는 출발 언어 데이터는 제1위치(P1)에서 발화된 음성의 출발 언어(예컨대, 한국어)를 나타낼 수 있다. 즉, 출발 언어 데이터는 위치 데이터에 대응하는 위치에서 발화된 음성(또는 입력 음성 데이터)의 출발 언어를 나타낼 수 있다.The departure language data may indicate a departure language of a speaker's voice (or input voice data) located at a position corresponding to the position data. For example, as shown in FIG. 1 , the location data indicating the first location P1 and the starting language data corresponding to the first location P1 may represent the starting language (eg, Korean) of the voice uttered at the first location P1 . That is, the departure language data may indicate the starting language of a voice (or input voice data) uttered at a position corresponding to the position data.
프로세서(230)는 음성 처리 장치(200)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(230)는 음성 데이터 수신 회로(210), 메모리(220) 및 음성 데이터 출력 회로(240)의 동작을 제어하기 위한 제어 명령을 생성하고, 제어 명령을 음성 데이터 수신 회로(210), 메모리(220) 및 음성 데이터 출력 회로(240) 각각으로 전송할 수 있다.The
프로세서(230)는 연산 처리 기능을 갖는 집적회로로 구현될 수 있다. 예컨대, 프로세서(230)는 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), GPU(graphics processing unit), ASIC(application specific integrated circuit) 또는 FPGA(field programmable gate array)를 포함할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.The
프로세서(230)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK)의 위치(즉, 음성의 음원 위치)를 판단하고, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다. 예컨대, 프로세서(230)는 화자 위치 데이터를 메모리(220)에 저장할 수 있다. The
프로세서(230)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.The
프로세서(230)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 예컨대, 음성 처리 장치(200)는 위치에 따라 분리된 음성 데이터와 해당하는 화자 위치 데이터를 매칭하여 저장할 수 있다.The
실시 예들에 따라, 프로세서(230)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성과 연관된 제1출력 음성 데이터와 제2화자(SPK2)의 음성과 연관된 제2출력 음성 데이터를 생성할 수 있다. 예컨대, 프로세서(230)는 제1출력 음성 데이터와 제1화자 위치 데이터를 매칭하여 저장하고, 제2출력 음성 데이터와 제2화자 위치 데이터를 매칭하여 저장할 수 있다.According to exemplary embodiments, the
프로세서(230)는 화자 위치 데이터를 이용하여, 화자(SPK1~SPK4)의 음성의 출발 언어를 결정할 수 있다. 실시 예들에 따라, 프로세서(230)는 메모리(220)를 참조하여, 화자(SPK1~SPK4)의 화자 위치 데이터에 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 매칭된 출발 언어 데이터를 결정하고, 결정된 출발 언어 데이터에 의해 지시되는 언어를 화자(SPK1~SPK4)의 음성의 출발 언어로서 결정할 수 있다. 예컨대, 프로세서(230)는 화자(SPK1~SPK4)의 음성과 연관된 (출력 또는 입력) 음성 데이터와 상기 음성의 출발 언어를 나타내는 출발 언어 데이터를 매칭하여 저장할 수 있다.The
실시 예들에 따라, 프로세서(230)는 화자(SPK1~SPK4)의 음성의 출발 언어를 번역하기 위한 번역 환경(300)으로 출력 음성 데이터를 전송하기 위한 제어 명령을 생성할 수 있다.According to embodiments, the
음성 데이터 출력 회로(240)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다. 실시 예들에 따라, 음성 데이터 출력 회로(240)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다.The voice
예컨대, 음성 데이터 출력 회로(240)는 프로세서(230)로부터 전송된 제어 명령에 기초하여, 출력 음성 데이터를 출력할 수 있다.For example, the voice
실시 예들에 따라, 음성 데이터 출력 회로(240)는 DAC(digital to analog) 컨버터를 포함하고, 디지털 타입의 출력 음성 데이터를 아날로그 타입의 음성 신호로 변환하고, 변환된 음성 신호를 외부 장치로 출력할 수 있다.According to some embodiments, the voice
실시 예들에 따라, 음성 신호 출력 회로(250)는 통신 회로를 포함하고, 출력 음성 데이터를 외부 장치로 전송할 수 있다.In some embodiments, the voice signal output circuit 250 may include a communication circuit and transmit output voice data to an external device.
음성 데이터 수신 회로(210)에 의해 수신된 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터와, 음성 데이터 출력 회로(240)에 의해 출력되는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터는 데이터 관점에서 상이할 수 있으나, 동일한 음성을 나타낼 수 있다.Input voice data related to the voices of the speakers SPK1 to SPK4 received by the voice
음성 데이터 출력 회로(240)는 제어 명령에 응답하여, 화자(SPK1~SPK4)의 위치에 대응하는 출발 언어를 도착 언어로 번역하기 위한 번역 환경(300)으로 음성 데이터를 전송할 수 있다.The voice
도 3 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.3 to 6 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention.
도 3을 참조하면, 제1화자(SPK1)는 제1위치(P1)에서 한국어(KR)로 된 음성을 발화하고, 제2화자(SPK2)는 제2위치(P2)에서 영어(EN)로 된 음성을 발화하고, 제3화자(SPK3)는 제3위치(P3)에서 일본어(JP)로 된 음성을 발화하고, 제4화자(SPK4)는 제4위치(P4)에서 중국어(CN)로 된 음성을 발화할 수 있다. 즉, 제1화자(SPK1)의 음성의 출발 언어는 한국어(KR)이고, 제2화자(SPK2)의 음성의 출발 언어는 영어(EN)이고, 제3화자(SPK3)의 음성의 출발 언어는 일본어(JP)이고, 제4화자(SPK4)의 음성의 출발 언어는 중국어(CN)가 된다.Referring to FIG. 3 , the first speaker SPK1 utters a voice in Korean (KR) at a first position P1, and the second speaker SPK2 speaks English (EN) at a second position P2. The third speaker (SPK3) utters a Japanese (JP) voice at the third position (P3), and the fourth speaker (SPK4) speaks Chinese (CN) at the fourth position (P4) can utter a voice. That is, the starting language of the voice of the first speaker SPK1 is Korean (KR), the starting language of the voice of the second speaker SPK2 is English (EN), and the starting language of the voice of the third speaker SPK3 is It is Japanese (JP), and the starting language of the voice of the fourth speaker (SPK4) is Chinese (CN).
음성 처리 장치(200)는 위치 데이터(PD1~PD4) 및 위치 데이터(PD1~PD4)에 대응하는 출발 언어 데이터(SLD1~SLD4)를 저장할 수 있다. 위치 데이터(PD1~PD4)는 사전에 정의된 화자의 위치를 나타낼 수 있고, 출발 언어 데이터(SLD1~SLD4)는 해당 위치에 위치한 화자의 출발 언어를 나타낼 수 있다. 예컨대, 도 3의 경우, 제1위치 데이터(PD1)는 제1위치(P1)를 나타내고, 제1출발 언어 데이터(SLD1)는 한국어(KR)를 나타낼 수 있고, 제2위치 데이터(PD2)는 제2위치(P2)를 나타내고, 제2출발 언어 데이터(SLD2)는 영어(EN)를 나타낼 수 있다.The
도 4를 참조하면, 제2화자(SPK2)가 음성 "☆☆☆"를 영어(EN)로 발화하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 제2입력 음성 데이터를 수신할 수 있다. 예컨대, 복수의 마이크로폰(100)은 음성 "☆☆☆"에 대응하는 음성 신호들(VS1~VSn)을 생성할 수 있고, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 제2입력 음성 데이터를 생성할 수 있다.Referring to FIG. 4 , when the second speaker SPK2 utters the voice “☆☆☆” in English (EN), the
음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2입력 음성 데이터를 이용하여, 음성 "☆☆☆"의 음원의 위치, 즉, 제2화자(SPK2)의 위치를 나타내는 제2화자 위치 데이터(SPD2)를 생성할 수 있다. The
음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2입력 음성 데이터를 이용하여, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)와 제2화자 위치 데이터(SPD2)를 매칭하여 저장할 수 있다.The
도 5를 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 제2화자 위치 데이터(SPD2)에 기초하여, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 나타내는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드(read)할 수 있다. Referring to FIG. 5 , the
실시 예들에 따라, 음성 처리 장치(200)는 메모리(220)에 저장된 위치 데이터(PD1~PD4) 중에서 제2화자 위치 데이터(SPD2)에 대응하는 제2위치 데이터(PD2)를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 위치 데이터(PD1~PD4) 중에서, 제2화자 위치 데이터(SPD2)와 동일 또는 유사한 위치를 나타내는 위치 데이터(예컨대, 제2위치 데이터(PD2))를 결정할 수 있다. 이후, 음성 처리 장치(200)는 제2위치 데이터(PD2)와 대응하는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드할 수 있다. According to embodiments, the
이에 따라, 음성 처리 장치(200)는 제2출발 언어 데이터(SLD2)에 기초하여 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 결정할 수 있다.Accordingly, the
도 6을 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송할 수 있다. Referring to FIG. 6 , the
실시 예들에 따라, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 번역하기 위한 번역 환경(300)으로 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))로 표현되는 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 번역 환경(300)으로 전송할 수 있다.According to embodiments, the
예컨대, 음성 처리 장치(200)는 영어 번역을 수행할 수 있는 영어 번역 장치로 제2출력 음성 데이터(OVD2)를 전송할 수 있다. 예컨대, 음성 처리 장치(200)는 영어 번역을 수행할 수 있는 번역가로 음성을 제공하는 단말기(예컨대, 스피커)로 제2출력 음성 데이터(OVD2)를 전송할 수 있다.For example, the
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다. 이에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 대한 별도의 분석 작업(예컨대, 피치 분석 등) 또는 학습 작업 없이도, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 판단할 수 있어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.The
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다. 도 1 내지 도 7을 참조하면, 음성 처리 장치(200)는 위치 데이터와 출발 언어 데이터를 저장할 수 있다(S110). 실시 예들에 따라, 음성 처리 장치(200)는 메모리(220)에 위치 데이터와 상기 위치 데이터에 대응하는 출발 언어 데이터를 저장할 수 있다. 예컨대, 출발 언어 데이터는 위치 데이터에 대응하는 위치에 위치하는 화자의 음성(또는 음성 데이터)의 출발 언어를 나타낼 수 있다. 7 is a flowchart illustrating a method of operating a voice processing apparatus according to an embodiment of the present invention. 1 to 7 , the
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 관련된 입력 음성 데이터를 수신할 수 있다(S120). 음성 처리 장치(200)는 수신된 입력 음성 데이터를 저장할 수 있다.The
예컨대, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들을 수신하고, 음성 신호들로부터 입력 음성 데이터를 획득할 수 있다. 예컨대, 음성 처리 장치(200)는 무선 통신 방식에 따라 입력 음성 데이터를 수신할 수 있다.For example, the
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다(S130).The
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 입력 음성 데이터와 연관된 음성의 음원의 위치를 계산할 수 있다. 음원의 위치가 곧 화자(SPK1~SPK4)의 위치이므로, 음성 처리 장치(200)는 계산된 음원의 위치를 화자(SPK1~SPK4)의 화자 위치 데이터로서 생성할 수 있다.The
음성 처리 장치(200)는 입력 언어 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터에 기초하여, 계산된 화자의 위치에서 발화된 음성들과만 연관된 출력 음성 데이터를 생성할 수 있다.The
음성 처리 장치(200)는 화자 위치 데이터와 위치 데이터를 비교하고, 화자 위치 데이터에 대응하는 출발 언어 데이터를 리드할 수 있다(S140). The
실시 예들에 따라, 음성 처리 장치(200)는 저장된 위치 데이터 중에서 화자 위치 데이터와 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 대응하는 출발 언어 데이터를 메모리(220)로부터 리드할 수 있다. 상술한 바와 같이, 메모리(220)에는 위치 데이터와 대응하는 출발 언어 데이터가 매칭되어 저장되어 있으므로, 음성 처리 장치(200)는 화자 위치 데이터를 이용하여, 화자(SPK1~SPK4)의 위치와 대응하는 출발 언어를 나타내는 출발 언어 데이터를 결정할 수 있다.According to embodiments, the
음성 처리 장치(200)는 출발 언어 데이터를 이용하여, 출발 언어를 번역하기 위한 번역 환경으로 출력 음성 데이터를 전송할 수 있다(S150). The
실시 예들에 따라, 음성 처리 장치(200)는 출발 언어 데이터가 나타내는 출발 언어를 번역하기 위한 번역 환경으로 출력 음성 데이터를 전송할 수 있다. According to embodiments, the
예컨대, 음성 처리 장치(200)는 각각이 여러 출발 언어를 번역하도록 구성되는 복수의 번역 장치들 중에서, 리드된 출발 언어 데이터에 의해 지시되는 출발 언어를 번역하도록 구성되는 번역 장치로 출력 음성 데이터를 전송할 수 있다. For example, the
예컨대, 도 3 내지 도 6에 도시된 예시의 경우, 음성 처리 장치(200)는 한국어, 영어, 일본어 및 중국어를 번역하도록 구성되는 복수의 번역 장치들 중에서, 제2화자(SPK2)의 언어의 출발 언어에 대응하는 영어를 번역하도록 구성되는 번역 장치로 출력 음성 데이터를 전송할 수 있다.For example, in the case of the examples shown in FIGS. 3 to 6 , the
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 1 내지 도 8을 참조하면, 음성 처리 장치(200)는 위치 데이터(PD1~PD4), 위치 데이터(PD1~PD4)에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 저장할 수 있다.8 is a diagram for explaining an operation of a voice processing apparatus according to embodiments of the present invention. 1 to 8 , the
도착 언어 데이터(TLD1~TLD4)는 해당 위치에 위치한 화자의 음성의 도착 언어를 나타낼 수 있다. 예컨대, 도착 언어는 화자(SPK1~SPK4) 별로 다르게 설정될 수 있으나, 이에 한정되는 것은 아니다.The arrival language data TLD1 to TLD4 may indicate the arrival language of a speaker's voice located at a corresponding position. For example, the arrival language may be set differently for each speaker SPK1 to SPK4, but is not limited thereto.
도 3 내지 도 6과 비교할 때, 도 8을 참조하여 설명되는 음성 처리 장치(200)는 화자 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 뿐만 아니라, 도착 언어 데이터(TLD1~TLD4)를 추가적으로 리드할 수 있다.3 to 6 , the
실시 예들에 따라, 음성 처리 장치(200)는 화자 위치 데이터와 위치 데이터를 비교하고, 화자 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 리드할 수 있다. 예컨대, 음성 처리 장치(200)는 저장된 위치 데이터 중에서 화자 위치 데이터와 대응하는 위치 데이터를 결정하고, 결정된 위치 데이터에 대응하는 출발 언어 데이터(SLD1~SLD4) 및 도착 언어 데이터(TLD1~TLD4)를 메모리(220)로부터 리드할 수 있다. According to embodiments, the
음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 도착 언어(예컨대, 한국어(KR))로 번역하기 위한 번역 환경(300)으로 전송할 수 있다.The
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어 및 도착 언어를 결정하고, 결정된 출발 언어를 도착 언어로 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다.The
도 9 및 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 9를 참조하면, 제1화자(SPK1)가 음성 "◎◎◎"를 발화하고, 제2화자(SPK2)가 음성 "☆☆☆"를 영어(EN)로 발화하면, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"와 연관된 제1입력 음성 데이터와 제2화자(SPK2)의 음성 "☆☆☆"에 대응하는 제2입력 음성 데이터를 수신할 수 있다.9 and 10 are diagrams for explaining an operation of a voice processing apparatus according to an embodiment of the present invention. Referring to FIG. 9 , when the first speaker SPK1 utters the voice “◎◎◎” and the second speaker SPK2 utters the voice “☆☆☆” in English (EN), the voice processing device 200 ) may receive the first input voice data associated with the voice “◎◎◎” of the first speaker SPK1 and the second input voice data corresponding to the voice “☆☆☆” of the second speaker SPK2.
실시 예들에 따라, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"과 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 중첩된 입력 음성 데이터를 수신하고, 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터(SPD1 및 SPD2)를 생성하고, 화자 위치 데이터(SPD1 및 SPD2)에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다.According to embodiments, the
예컨대, 음성 처리 장치(200)는 제1화자 위치 데이터(SPD1)와 제1출력 음성 데이터(OVD1)를 매칭하여 저장하고, 제2화자 위치 데이터(SPD2)와 제2출력 음성 데이터(OVD2)를 매칭하여 저장할 수 있다.For example, the
음성 처리 장치(200)는 제1화자(SPK1)의 제1화자 위치 데이터(SPD1)에 기초하여, 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어를 나타내는 제1출발 언어 데이터(SLD1)를 메모리(220)로부터 리드할 수 있다. 또한, 음성 처리 장치(200)는 제2화자(SPK2)의 제2화자 위치 데이터(SPD2)에 기초하여, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 나타내는 제2출발 언어 데이터(SLD2)를 메모리(220)로부터 리드할 수 있다. 예컨대, 상술한 바와 같이, 메모리(220)에 저장된 위치 데이터(PD1~PD4) 중에서 제1화자 위치 데이터(SPD1)와 동일 또는 유사한 위치를 나타내는 위치 데이터(예컨대, 제1위치 데이터(PD1))를 결정하고, 제1위치 데이터(PD1)와 대응하는 제1출발 언어 데이터(SLD1)를 메모리(220)로부터 리드할 수 있다. The
이에 따라, 음성 처리 장치(200)는 출발 언어 데이터(SLD1 및 SLD2)에 기초하여 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어와 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제1출발 언어 데이터(SLD1)를 매칭하여 저장하고, 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)와 제2출발 언어 데이터(SLD2)를 매칭하여 저장할 수 있다.Accordingly, the
또한, 음성 처리 장치(200)는 출발 언어 데이터(SLD1 및 SLD2)에 기초하여 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어와 제2화자(SPK2)의 음성 "☆☆☆"의 도착 언어를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성의 도착 언어를, 화자(SPK1~SPK4) 자신을 제외한 나머지 화자의 출발 언어에 기초하여 결정할 수 있다. In addition, the
예컨대, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"의 도착 언어를, 제2화자(SPK2) 자신을 제외한 제1화자(SPK1)의 음성 "◎◎◎"의 출발 언어(예컨대, 한국어)로 설정할 수 있다. 또한, 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"의 도착 언어를, 제1화자(SPK1) 자신을 제외한 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어)로 설정할 수 있다.For example, the
도 10을 참조하면, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 제2화자(SPK2)의 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))를 도착 언어(예컨대, 한국어(KR))로 번역하기 위한 번역 환경(300)으로 전송할 수 있다. Referring to FIG. 10 , the
음성 처리 장치(200)는 영어로 표현되는 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 번역 환경(300)으로 전송하고, 번역 환경(300)으로부터 제2출력 음성 데이터(OVD2)의 번역 결과를 수신할 수 있다.The
실시 예들에 따라, 음성 처리 장치(200)는 제2출력 음성 데이터(OVD2)를, 제2화자(SPK2)의 음성 "☆☆☆"의 출발 언어(예컨대, 영어(EN))로 표현되는 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 번역 환경(300)으로 전송할 수 있다. 또한, 음성 처리 장치(200)는 번역 환경(300)으로부터 음성 "☆☆☆"의 도착 언어(예컨대, 한국어(KR))로 표현되는 텍스트 데이터를 수신하고, 텍스트 데이터를 이용하여 음성 "☆☆☆"의 도착 언어(예컨대, 한국어(KR))로 표현되는 데이터(음성 데이터 또는 텍스트 데이터)를 제1화자(SPK1)로 제공할 수 있다.According to embodiments, the
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 결정하고, 결정된 출발 언어를 번역하기 위한 번역 환경으로 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터를 전송할 수 있다. 이에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 대한 별도의 분석 작업(예컨대, 피치 분석 등) 또는 학습 작업 없이도, 화자(SPK1~SPK4)의 위치에 따라 화자(SPK1~SPK4)의 음성의 출발 언어를 판단할 수 있어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.The
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible by those skilled in the art from the above description. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.
100: 마이크로폰들
200: 음성 처리 장치
300: 번역 환경
210: 음성 데이터 수신 회로
220: 메모리
230: 음성 데이터 출력 회로
240: 프로세서100: microphones 200: voice processing device
300: translation environment 210: voice data receiving circuit
220: memory 230: audio data output circuit
240: processor
Claims (12)
출발 언어 데이터를 저장하도록 구성되는 메모리;
상기 화자들의 음성과 연관된 출력 음성 데이터를 출력하도록 구성되는 음성 데이터 출력 회로; 및
상기 출력 음성 데이터를 출력하기 위한 제어 명령을 생성하도록 구성되는 프로세서를 포함하고,
상기 프로세서는,
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 상기 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하고,
상기 메모리를 참조하여 상기 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하고,
상기 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
음성 처리 장치.a voice data receiving circuit configured to receive input voice data associated with the voices of the speakers;
a memory configured to store departure language data;
a voice data output circuit configured to output output voice data associated with the voices of the speakers; and
a processor configured to generate a control command for outputting the output voice data;
The processor is
generating first speaker location data indicating a location of a first speaker among the speakers by using the input speech data and first output speech data related to the first speaker's voice;
reading first start language data corresponding to the first speaker position data with reference to the memory;
sending, to the voice data output circuit, a control command for outputting the first output voice data to a translation environment for translating a first starting language indicated by the first starting language data;
speech processing unit.
상기 입력 음성 데이터는 복수의 마이크로폰들에 의해 생성된 음성 신호들로부터 생성된 것인,
음성 처리 장치.According to claim 1,
wherein the input voice data is generated from voice signals generated by a plurality of microphones;
speech processing unit.
상기 복수의 마이크로폰들 사이의 거리 및 상기 음성 신호가 상기 복수의 마이크로폰에 의해 수신되는 시점에 기초하여, 상기 제1화자 위치 데이터를 생성하는,
음성 처리 장치.The method of claim 2, wherein the processor comprises:
generating the first speaker location data based on a distance between the plurality of microphones and a time point at which the voice signal is received by the plurality of microphones;
speech processing unit.
상기 메모리는 상기 출발 언어 데이터와 대응하는 위치 데이터를 상기 출발 언어 데이터와 매칭하여 저장하고,
상기 프로세서는 저장된 위치 데이터 중 상기 제1화자 위치 데이터와 대응하는 제1위치 데이터를 결정하고, 출발 언어 데이터 중 상기 제1위치 데이터와 매칭되어 저장된 상기 제1출발 언어 데이터를 결정하는,
음성 처리 장치.According to claim 1,
The memory stores the location data corresponding to the departure language data by matching with the departure language data,
The processor determines first location data corresponding to the first speaker location data from among the stored location data, and determines the first start language data stored by matching the first location data among the starting language data,
speech processing unit.
상기 프로세서는, 상기 제1화자의 음성과 연관된 상기 제1출력 음성 데이터를 상기 제1출발 언어로 표현되는 텍스트 데이터로 변환하고,
상기 음성 데이터 출력 회로는, 상기 프로세서의 제어에 따라 변환된 텍스트 데이터를 상기 번역 환경으로 전송하는,
음성 처리 장치.According to claim 1,
The processor converts the first output voice data related to the voice of the first speaker into text data expressed in the first starting language,
The voice data output circuit transmits the converted text data to the translation environment under the control of the processor.
speech processing unit.
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제2화자의 위치를 나타내는 제2화자 위치 데이터를 생성하고,
상기 메모리를 참조하여 상기 제2화자 위치 데이터에 대응하는 제2출발 언어 데이터를 리드하고,
상기 제1출발 언어를 상기 제2출발 언어 데이터에 의해 지시되는 제2출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
음성 처리 장치.The method of claim 1, wherein the processor comprises:
generating second speaker location data indicating a location of a second speaker among the speakers by using the input voice data;
reading second start language data corresponding to the second speaker position data with reference to the memory;
sending, to the voice data output circuit, a control command for outputting the first output voice data to a translation environment for translating the first starting language into a second starting language indicated by the second starting language data;
speech processing unit.
상기 입력 음성 데이터를 이용하여, 상기 제2화자의 음성과 연관된 제2출력 음성 데이터를 생성하고,
상기 제2출발 언어를 상기 제1출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하기 위한 제어 명령을 상기 음성 데이터 출력 회로로 전송하는,
음성 처리 장치.The method of claim 6, wherein the processor comprises:
generating second output voice data related to the second speaker's voice by using the input voice data;
sending a control command for outputting the first output voice data to the voice data output circuit to a translation environment for translating the second starting language into the first starting language;
speech processing unit.
출발 언어 데이터를 저장하는 단계;
화자들의 음성과 연관된 입력 음성 데이터를 수신하는 단계;
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제1화자의 위치를 나타내는 제1화자 위치 데이터 및 상기 제1화자의 음성과 연관된 제1출력 음성 데이터를 생성하는 단계;
출발 언어 데이터 중 상기 제1화자 위치 데이터에 대응하는 제1출발 언어 데이터를 리드하는 단계; 및
상기 제1출발 언어 데이터에 의해 지시되는 제1출발 언어를 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하는 단계를 포함하는,
음성 처리 장치의 작동 방법.A method of operating a speech processing device, comprising:
storing departure language data;
receiving input voice data associated with the voices of the speakers;
generating first speaker location data indicating a location of a first speaker among the speakers by using the input speech data, and first output speech data associated with the first speaker's voice;
reading first starting language data corresponding to the first speaker position data from among the starting language data; and
outputting the first output speech data to a translation environment for translating a first starting language indicated by the first starting language data;
How speech processing units work.
복수의 마이크로폰들로부터 음성 신호들을 수신하는 단계; 및
수신된 음성 신호들을 ADC(analog to digital) 변환하여, 상기 입력 음성 데이터를 획득하는 단계를 포함하는,
음성 처리 장치의 작동 방법.The method of claim 8, wherein the receiving of the input voice data comprises:
receiving voice signals from a plurality of microphones; and
Converting the received voice signals to analog to digital (ADC) conversion, comprising the step of obtaining the input voice data,
How speech processing units work.
상기 음성 처리 장치의 작동 방법은,
상기 출발 언어 데이터와 대응하는 위치 데이터를 상기 출발 언어 데이터와 매칭하여 저장하는 단계를 더 포함하고,
상기 제1출발 언어 데이터를 리드하는 단계는,
저장된 위치 데이터 중 상기 제1화자 위치 데이터와 대응하는 제1위치 데이터를 결정하는 단계; 및
상기 출발 언어 데이터 중 상기 제1위치 데이터와 매칭되어 저장된 상기 제1출발 언어 데이터를 리드하는 단계를 포함하는,
음성 처리 장치의 작동 방법.9. The method of claim 8,
The method of operation of the voice processing device,
The method further comprising the step of matching and storing the location data corresponding to the departure language data with the departure language data,
The step of reading the first starting language data includes:
determining first location data corresponding to the first speaker location data from among stored location data; and
and reading the first departure language data stored by matching the first location data among the departure language data,
How speech processing units work.
상기 입력 음성 데이터를 이용하여, 상기 화자들 중 제2화자의 위치를 나타내는 제2화자 위치 데이터를 생성하는 단계;
상기 출발 언어 데이터 중 상기 제2화자 위치 데이터에 대응하는 제2출발 언어 데이터를 리드하는 단계; 및
상기 제1출발 언어를 상기 제2출발 언어 데이터에 의해 지시되는 제2출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하는 단계를 더 포함하는,
음성 처리 장치의 작동 방법.The method of claim 8, wherein the method of operating the voice processing device comprises:
generating second speaker location data indicating a location of a second speaker among the speakers by using the input voice data;
reading second starting language data corresponding to the second speaker position data from among the starting language data; and
outputting the first output speech data to a translation environment for translating the first source language into a second source language indicated by the second source language data;
How speech processing units work.
상기 입력 음성 데이터를 이용하여, 상기 제2화자의 음성과 연관된 제2출력 음성 데이터를 생성하는 단계; 및
상기 제2출발 언어를 상기 제1출발 언어로 번역하기 위한 번역 환경으로 상기 제1출력 음성 데이터를 출력하는 단계를 더 포함하는,
음성 처리 장치의 작동 방법.
The method of claim 11 , wherein the method of operating the voice processing device comprises:
generating second output voice data related to the second speaker's voice by using the input voice data; and
outputting the first output speech data to a translation environment for translating the second source language into the first source language;
How speech processing units work.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200103909A KR20220022674A (en) | 2020-08-19 | 2020-08-19 | Voice processing device for processing voice data and operating method of the same |
PCT/KR2021/010939 WO2022039486A1 (en) | 2020-08-19 | 2021-08-18 | Voice processing device for processing voice signal and voice processing system comprising same |
US18/022,255 US20230325608A1 (en) | 2020-08-19 | 2021-08-18 | Voice processing device for processing voice signal and voice processing system comprising same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200103909A KR20220022674A (en) | 2020-08-19 | 2020-08-19 | Voice processing device for processing voice data and operating method of the same |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220022674A true KR20220022674A (en) | 2022-02-28 |
Family
ID=80497435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200103909A KR20220022674A (en) | 2020-08-19 | 2020-08-19 | Voice processing device for processing voice data and operating method of the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220022674A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170112713A (en) | 2016-04-01 | 2017-10-12 | 삼성전자주식회사 | Device and method for voice translation |
-
2020
- 2020-08-19 KR KR1020200103909A patent/KR20220022674A/en active Search and Examination
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170112713A (en) | 2016-04-01 | 2017-10-12 | 삼성전자주식회사 | Device and method for voice translation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190138603A1 (en) | Coordinating Translation Request Metadata between Devices | |
US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
US20190304442A1 (en) | Speech translation device, speech translation method, and recording medium therefor | |
JP2000207170A (en) | Device and method for processing information | |
KR101989127B1 (en) | Method, system and computer program for translation | |
KR101959439B1 (en) | Method for interpreting | |
KR20220022674A (en) | Voice processing device for processing voice data and operating method of the same | |
KR20150014235A (en) | Apparatus and method for automatic interpretation | |
KR20220042009A (en) | Voice processing device capable of communicating with vehicle and operating method of the same | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
US20230377594A1 (en) | Mobile terminal capable of processing voice and operation method therefor | |
JP2011150657A (en) | Translation voice reproduction apparatus and reproduction method thereof | |
JP2018018052A (en) | Terminal device, translation method, and translation program | |
KR102575293B1 (en) | Voice processing device, voice processing system and voice processing method for processing voice | |
US20230325608A1 (en) | Voice processing device for processing voice signal and voice processing system comprising same | |
KR20220042509A (en) | Voice processing device and operating method of the same | |
JP2016186646A (en) | Voice translation apparatus, voice translation method and voice translation program | |
KR20220023511A (en) | Voice processing device and operating method of the same | |
KR20230013473A (en) | Device and method for processing voice of speakers | |
JP2020119043A (en) | Voice translation system and voice translation method | |
KR20220043279A (en) | Voice processing device and voice processing system including the same | |
JP2015187738A (en) | Speech translation device, speech translation method, and speech translation program | |
KR20200003529A (en) | Digital device for recognizing voice and method for controlling the same | |
KR20200041671A (en) | Electronic apparatus and control method thereof | |
KR20220042010A (en) | Voice processing system including voice processing device and terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |