KR102056330B1 - Apparatus for interpreting and method thereof - Google Patents
Apparatus for interpreting and method thereof Download PDFInfo
- Publication number
- KR102056330B1 KR102056330B1 KR1020170116567A KR20170116567A KR102056330B1 KR 102056330 B1 KR102056330 B1 KR 102056330B1 KR 1020170116567 A KR1020170116567 A KR 1020170116567A KR 20170116567 A KR20170116567 A KR 20170116567A KR 102056330 B1 KR102056330 B1 KR 102056330B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- module
- translation
- user terminal
- talker
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000013519 translation Methods 0.000 claims abstract description 86
- 230000006870 function Effects 0.000 claims abstract description 33
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 5
- 238000004891 communication Methods 0.000 claims description 39
- 238000012790 confirmation Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 238000007599 discharging Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G06F17/289—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 양방향의 번역을 수행하는 자체 내부에 포함된 번역 모듈; 및 음성인식 DB와 번역 DB가 저장된 저장 모듈을 포함하는 휴대용 서버로서 양방향의 동시통역을 수행하고, 동시통역의 당사자들의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 통역장치를 개시한다. 본 발명에 의하면, 휴대용 서버를 이용함으로써 인터넷에 연결되지 않은 환경에서도 양방향 동시통역이 가능하다.The present invention includes a translation module included therein for performing a bidirectional translation; And a portable server including a storage module in which a voice recognition DB and a translation DB are stored, which performs bidirectional simultaneous interpretation, and functions as an input device and / or an output device for at least one speaker in the relationship of the parties to the simultaneous interpretation. To start. According to the present invention, by using a portable server, simultaneous simultaneous interpretation is possible even in an environment not connected to the Internet.
Description
본 발명은 통역 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 인터넷 망의 연결 없이 오프라인에서 통역이 가능한 통역 장치 및 그 방법에 관한 것이다.The present invention relates to an interpreter and a method thereof, and more particularly to an interpreter and a method capable of interpreting offline without the connection of the Internet network.
교통, 통신수단의 발달에 따라 국가 간의 인적, 물적 교류가 활발해져 왔다. 이러한 인적, 물적 교류의 확대에도 불구하고 국가 사이의 이종 언어는 의사소통에 있어서 장벽으로 작용하고 있다.With the development of transportation and communication means, human and material exchanges between countries have been active. Despite this expansion of human and material exchanges, heterogeneous languages between countries are a barrier to communication.
이종 언어로 인한 불편함을 덜어 주기 위해 이종 언어로 된 문자 간의 변환을 번역이라 한다. 그리고 spoken language translation system은 이종 언어의 음성 간의 변환을 의미하는데, 방송뉴스 통역이 이에 해당한다.To reduce the discomfort of different languages, translation between characters in different languages is called translation. And the spoken language translation system means the conversion between voices of different languages, which is equivalent to broadcasting news interpretation.
특히 국가 간의 각종 컨퍼런스에서 이종 언어로 인한 대화자 사이의 불편함은 동시통역을 통해 해결되고 있다. 특히 자동통역은 양방향에서 제1 언어의 음성을 제2 언어의 음성으로 변환하는 것이다.In particular, the discomfort between the speakers due to different languages at various conferences between countries is solved through simultaneous interpretation. In particular, automatic interpretation is to convert the voice of the first language into the voice of the second language in both directions.
과거 동시 통역사들의 전유물이었던 동시통역이 음성인식, 자동번역 및 음성합성의 기술의 발전으로 인해 기계에 의한 자동통역이 이루어지고 있다.Simultaneous interpretation, which was the exclusive property of simultaneous interpreters in the past, has been automatically interpreted by machines due to the development of technology of speech recognition, automatic translation and speech synthesis.
자동통역은 제1 언어의 발화를 음성인식, 자동번역 등의 과정을 거쳐서 제2 언어로 변환하고, 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려주는 과정 및 기술을 의미한다.Automatic interpretation refers to a process and technology that converts a utterance of a first language into a second language through a process such as voice recognition and automatic translation, and outputs it as a subtitle or through a speaker after speech synthesis.
도 1은 번역 서버를 이용하는 종래의 기술에 따른 통역 시스템(10)에 관한 예시도이다.1 is an exemplary diagram of an
도 1을 참조하면, 종래의 기술에 따르면 동시통역 시스템(10)을 비롯하여 사용자 단말 형식의 통역장치(11)의 경우, 음성인식과 번역을 위해 유선 또는 무선의 통신망(14), 예를 들어 셀룰러 무선전화 통신망에 연결된 서버(12)와 데이터베이스(130)를 이용하고 있어서, 네트워크에 연결되지 않은 환경, 이를테면 상공을 운행 중인 항공기 기내 또는 외국 현지 광광지에서 네트워크에 연결되지 않은 통신장치로는 통역기능을 수행할 수 없어 문제가 발생한다.Referring to FIG. 1, according to the related art, in the case of an
또한, 종래의 기술에 따른 사용자 단말 형식의 단일의 통역장치를 이용하는 경우, 대화자 중에서 통역이 필요한 사람은 일방에 한정된 경우가 대부분이고 상대방은 사용자 단말을 가지고 있지 않아서, 하나의 통역장치를 이용하여 대화자 쌍방이 이를 입력/출력의 도구로 사용해야 해서 불편함이 존재한다.In addition, in the case of using a single interpreter in the form of a user terminal according to the prior art, most people who need an interpreter among the talkers are limited to one side and the other party does not have a user terminal. Discomfort exists because both parties use it as a tool for input / output.
도 2는 하나의 사용자 단말에 의한 종래의 기술에 따른 통역 상황의 예시도이다.Figure 2 is an illustration of an interpretation situation according to the prior art by one user terminal.
도 2를 참조하면, 양 대화자 사이에 번호 순서에 따라,①발화-②통역, ③발화-④통역이 이루어진다. 이 경우 양 대화자는 하나의 통역장치를 이용하여 번갈아 가면서 음성을 입력시키고 이를 출력해야 하는 번거로움이 있다. 그리고 동시 대화는 불가능하거나 처리가 어렵고, 일정 시간 간격을 두고 통역장치에 음성을 입력시켜야 한다.Referring to Figure 2, according to the number order between the dialogue, ① speech-② interpretation, ③ speech-④ interpretation is made. In this case, both talkers use a single interpreter to alternately input and output voices. Simultaneous conversation is impossible or difficult to process, and voices must be input to the interpreter at regular intervals.
먼저 선행기술 1, 한국등록특허 제10-1626109호(2016.05.25.)는 통역 장치 및 방법에 관한 기술을 개시한다.First,
상기 선행기술 1은, 음성 입력부, 제어부, 통신부, 디스플레이부, 및 사용자로부터 이전에 번역된 문장들에 대한 조작입력을 수신하는 사용자 입력부를 포함한다.The
또한, 선행기술 2, 한국등록특허 제10-1747874호(2017.06.09.)는 자동 통역 시스템을 개시하고 있다.In addition,
상기 선행기술 2는, PC, 또는 핸드폰, 스마트폰, PDA, Laptop 등 휴대가 가능한 기기와 통신하거나 직접 자동통역 단말기에 활용되는 자동 통역 시스템에 관한 것으로서, 상기 자동 통역 시스템은, 발화자의 음성 인식용 마이크신호, 골도 마이크 신호 및 발화자의 제스처 신호를 네트워크를 통해 전송하고, 네트워크를 통해 수신된 통역 결과신호를 출력하는 웨어러블 자동 통역 입출력 장치; 및 상기 웨어러블 자동 통역 입출력 장치로부터 네트워크를 통해 전송된 골도 마이크 신호 또는 제스처 신호를 이용하여 상기 음성 인식용 마이크 신호에서 음성 데이터 구간을 검출하고, 검출된 구간내의 음성 데이터의 음성 인식 및 통역을 수행한 후, 통역 결과신호를 네트워크를 통해 상기 웨어러블 자동 통역 입출력 장치로 전송하는 서버를 포함한다.The
또한, 선행기술 3, 한국등록특허 제10-1589433호(2016.01.22.)는 동시통역 시스템을 개시하고 있다.In addition,
상기 선행기술 3은, 동시통역 시스템에 있어서, 음성을 입력 및 출력시키는 적어도 둘 이상의 헤드셋 및 해당 헤드셋으로부터 출력된 피통역 음성 언어를 입력받아 상기 피통역 음성 언어가 통역된 통역 음성 언어를 지정된 타 헤드셋으로 출력하는 휴대용 단말기를 포함하는 동시통역 시스템을 사용함으로써, 하나의 휴대용 단말기를 매개로한 사용자들 간의 근거리 통신을 이용하여 동시통역을 수행하게 하여 보다 효율적이고 자유로운 대화를 가능하게 한다.In the
그런데 상기 선행기술 1은 제1 언어로 번역할 문장을 번역 서버로 전송하고, 번역 서버로부터 제2 언어의 번역된 문장을 수신하는 통신부를 포함하고 있는데, 이를 근거로 서버가 번역을 담당하고 있는 것을 알 수 있다.However, the
또한 상기 선행기술 2는 상기 음성 마이크로부터 제공되는 사용자 음성 신호와, 골도 마이크로부터 제공되는 사용자 골도 신호 및 모션 센서로부터 제공되는 사용자 행동(제스처) 감지 신호를 수신하여, 상기 제1 서버로 음성 인식을 위한 신호로서 전송하고, 상기 제1 서버로부터 전송되는 음성 인식 결과 정보를 상기 다수의 제2~n 서버로 전송하거나, 상기 제2~n 서버로부터 전송되는 통역 결과 정보를 출력 제어하는 통신 모듈을 포함하고 있는데, 이를 근거로 서버가 음성인식 및 통역을 수행함을 알 수 있다.In addition, the
또한, 선행기술 3의 제어부는 제1 언어의 음성을 제2 언어의 음성으로 변환하는 통역 서버를 이용하여, 제1 언어의 음성을 기반으로 변환된 제2 언어의 음성을 획득하는데, 이를 근거로 통역 서버를 이용함을 알 수 있다.In addition, the control unit of the
본 발명의 실시 예에 따른 통역장치 및 그 방법은, 운항중인 항공기 기내 및 외국 현지 여행지와 같이 인터넷 환경이 조성되어 있지 상황에서 네트워크상의 통역 서버의 이용 없이 동시통역이 가능하게 하는 기술에 관한 것으로 상기 살펴본 선행기술과 구별되는 기술로서 상기 문제점을 해결하기 위한 것이다.Interpreting device and method according to an embodiment of the present invention relates to a technology that enables simultaneous interpretation without the use of an interpretation server on the network in the situation that the Internet environment is established, such as onboard aircraft and foreign local destinations As a technique distinguished from the prior art described, it is to solve the above problem.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 휴대용 서버를 이용하는 통역장치 및 그 방법을 제공하는 것을 목적으로 한다.The present invention has been made to solve the above problems, and an object thereof is to provide an interpreter and a method using a portable server.
또한, 원격의 네트워크 환경이 조성되지 않은 환경에서 통역이 가능한 통역장치 및 그 방법을 제공하는 것을 목적으로 한다.In addition, an object of the present invention is to provide an interpreter and a method for interpreting in an environment where a remote network environment is not established.
또한, 사용자 단말이 구비되지 않은 발화자의 상대방에게 입력장치 및/또는 출력장치를 제공하여 불편을 줄일 수 있게 하는 통역장치 및 그 방법을 제공하는 하는 것을 목적으로 한다.In addition, an object of the present invention is to provide an interpreter and a method for providing an input device and / or an output device to a counterpart of a talker who does not have a user terminal to reduce inconvenience.
또한, 고용량의 메모리에 상대적으로 저용량의 음성인식 및 번역에 관한 데이터를 저장하는 휴대용 서버를 이용하여 신뢰도 높은 결과를 신속히 출력할 수 있는 통역장치 및 그 방법을 제공하는 것을 목적으로 한다.Another object of the present invention is to provide an interpreter and a method for rapidly outputting a reliable result by using a portable server that stores data on voice recognition and translation of a low capacity in a high capacity memory.
본 발명의 일 실시 예에 따른 통역장치는, 양방향의 번역을 수행하는 자체 내부에 포함된 번역 모듈; 및 음성인식 DB와 번역 DB가 저장된 저장 모듈을 포함하는 휴대용 서버로서 양방향의 동시통역을 수행하고, 동시통역의 당사자들의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 것을 특징으로 한다.An interpreter according to an embodiment of the present invention includes a translation module included therein for performing a bidirectional translation; And a portable server including a storage module in which a voice recognition DB and a translation DB are stored, which performs bidirectional simultaneous interpretation, and functions as an input device and / or an output device for at least one talker in relation to the parties of the simultaneous interpretation. It is done.
또한, 상기 통역장치는, 발화자의 음성을 녹음하고, 이 녹음 데이터 및/또는 사용자 단말에서 수신한 녹음 데이터를 이용하여 양방향의 음성인식을 수행하는 음성인식 모듈을 더 포함하는 것을 특징으로 한다.The interpreter may further include a voice recognition module for recording a voice of a talker and performing two-way voice recognition using the recording data and / or recording data received from the user terminal.
또한, 상기 음성인식 DB와 번역 DB는, 언어의 종류에 따라 출현 빈도수가 낮은 순으로 인식 범위를 축소시켜 결정된 데이터베이스에 해당하고, 상기 음성인식 모듈과 번역 모듈은, 소형화된 음성인식 DB와 번역 DB를 이용하는 엔진을 포함하는 것을 특징으로 한다.The speech recognition DB and the translation DB correspond to a database determined by reducing the recognition range in the order of appearance frequency according to the type of language. The speech recognition module and the translation module include a miniaturized speech recognition DB and a translation DB. It characterized in that it comprises an engine using.
또한, 상기 통역장치는, 상기 발화자 및/또는 상대방의 음성 입력 을 판단하기 위한 입력 버튼을 더 포함하는 것을 특징으로 한다.In addition, the interpreter, characterized in that it further comprises an input button for determining the voice input of the talker and / or counterpart.
또한, 상기 통역장치는, 사용자 단말과 유선 또는 무선으로 통신하는 통신부를 더 포함하고, 상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능하는 것을 특징으로 한다.In addition, the interpreter further comprises a communication unit for communicating with the user terminal in a wired or wireless manner, when the user terminal functions as an input device and / or output device for any one of the talkers, the input device to the other party And / or function as an output device.
또한, 상기 통역장치는, 완료된 동작을 확인시키기 위한 확인 메시지를 상기 사용자 단말에 전송하게 하기 위해 이를 생성하는 제어 모듈을 더 포함하는 것을 특징으로 한다.The interpreter may further include a control module for generating a confirmation message for confirming the completed operation to the user terminal.
또한, 상기 재생 모듈은, 상기 사용자 단말로부터 전송된 TTS 데이터를 재생하고 그 결과를 상기 스피커로 출력하는 것을 특징으로 한다.In addition, the playback module, characterized in that for reproducing the TTS data transmitted from the user terminal and outputs the result to the speaker.
또한, 상기 통역장치는, 상기 휴대용 서버를 제어하는 제어부가 구비된 상기 사용자 단말을 더 포함하는 것을 특징으로 한다.The interpreter may further include the user terminal having a control unit for controlling the portable server.
또한, 상기 제어부는, 상기 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 전송, 상기 확인 메시지 전송을 제어하는 것을 특징으로 한다.The controller may control driving of the portable server, voice recording, transmission of recording data, and transmission of the confirmation message.
또한, 상기 사용자 단말은 저장부를 더 포함하고, 상기 저장부는 상기 제어부와 상기 제어 모듈을 연동시키기 위해 인스톨된 서버 프로그램을 저장하고, 상기 저장 모듈은 상기 제어부와 상기 제어 모듈을 연동시키기 위해 인스톨된 클라이언트 프로그램을 저장하는 것을 특징으로 한다.The user terminal may further include a storage unit, wherein the storage unit stores a server program installed to link the control unit and the control module, and the storage module is a client installed to link the control unit and the control module. And storing the program.
또한, 상기 휴대용 서버는, 상기 사용자 단말과의 관계에서 Standby, Ready 및 Run 상태 사이를 전환하고, Power On 상태와 Power Off 상태 사이를 전환하기 위한 전원 버튼을 더 포함하는 것을 특징으로 한다.The portable server may further include a power button for switching between standby, ready, and run states in a relationship with the user terminal, and for switching between a power on state and a power off state.
또한, 상기 휴대용 서버는, 상기 Standby 상태에서, 상기 통신 모듈이 On 상태이고, 상기 제어 모듈이 슬립 상태이고, 상기 Ready 상태에서, 상기 제어 모듈이 On 상태로 전환되는 것을 특징으로 한다.The portable server may be characterized in that the communication module is in the on state, the control module is in the sleep state, and in the ready state, the control module is switched to the on state in the standby state.
또한, 상기 제어 모듈은, 발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 것을 특징으로 한다.The control module may be further configured to determine a tone using a sound spectrum of a talker's voice, and to distinguish a talker of a bilingual voice that is simultaneously uttered according to the determined tone.
또한, 상기 제어 모듈은, 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어의 종류를 구별하는 것을 특징으로 한다.In addition, the control module is characterized by distinguishing the type of heterogeneous language by using the scoring (scoring) according to the translation result of the sample speech for the speech of the heterologous language spoken simultaneously.
본 발명의 일 실시 예에 따른 통역방법은, 동시통역의 당사자들과의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 휴대용 서버가 동시통역을 수행하기 위해, 자체 내부에 포함하고 있는 음성인식 모듈 및 음성인식 DB를 이용하여 음성을 인식하는 단계; 및 자체 내부에 포함하고 있는 번역 모듈 및 번역 DB를 이용하여 상기 인식된 텍스트를 번역하는 단계를 포함하는 것을 특징으로 한다.Interpretation method according to an embodiment of the present invention, the portable server that functions as an input device and / or output device for at least one talker in the relationship with the parties of the simultaneous interpretation, to perform the simultaneous interpretation inside itself Recognizing a speech using a speech recognition module and a speech recognition DB comprising; And translating the recognized text using a translation module and a translation DB included therein.
또한, 상기 음성을 인식하는 단계는, 마이크로폰을 통해 상기 적어도 어느 한 발화자의 음성을 입력받고, 상기 음성인식 모듈을 통해 상기 음성을 녹음하고 녹음 데이터를 이용하여 음성인식을 수행하는 것을 특징으로 한다.The recognizing of the voice may include receiving a voice of the at least one talker through a microphone, recording the voice through the voice recognition module, and performing voice recognition using recorded data.
또한, 상기 통역방법은, 스피커가 구비된 재생 모듈을 통해 상기 번역 모듈의 번역에 따라 상기 어느 한 발화자의 음성에 대응하는 합성 음성을 출력하는 단계를 더 포함하는 것을 특징으로 한다.The interpretation method may further include outputting a synthesized voice corresponding to the voice of the one talker according to the translation of the translation module through a playback module equipped with a speaker.
또한, 상기 음성을 인식하는 단계는, 상기 사용자 및/또는 상대방의 음성 입력 시점을 판단하기 위해 입력 버튼이 사용되는 것을 특징으로 한다.In addition, the step of recognizing the voice, characterized in that the input button is used to determine the voice input time of the user and / or counterpart.
또한, 상기 통역방법은, 상기 휴대용 서버와 사용자 단말이 유선 또는 무선으로 통신하는 단계를 더 포함하고, 상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 상기 휴대용 서버는 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능하는 것을 특징으로 한다.In addition, the interpretation method, the portable server and the user terminal further comprises the step of communicating by wire or wireless, when the user terminal functions as an input device and / or output device for the one talker, the portable The server may function as an input device and / or an output device for the counterpart.
또한, 상기 통역방법은, 완료된 동작을 확인시키기 위한 확인 메시지를 상기 사용자 단말에 전송하게 하기 위해 제어 모듈이 메시지를 생성하는 단계를 더 포함하는 것을 특징으로 한다.In addition, the interpretation method, characterized in that it further comprises the step of generating a message by the control module to send a confirmation message to the user terminal for confirming the completed operation.
또한, 상기 합성 음성을 출력하는 단계는, 상기 사용자 단말로부터 전송된 TTS 데이터를 재생하고 그 결과를 상기 스피커로 출력하는 것을 특징으로 한다.The outputting of the synthesized voice may include reproducing the TTS data transmitted from the user terminal and outputting the result to the speaker.
또한, 상기 통역방법은, 제어부가 구비된 사용자 단말이 상기 휴대용 서버를 제어하는 단계를 더 포함하는 것을 특징으로 한다.The interpretation method may further include controlling the portable server by a user terminal provided with a control unit.
또한, 상기 제어하는 단계는, 상기 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 상기 휴대용 서버로의 전송, 상기 확인 메시지의 디스플레이를 제어하는 것을 특징으로 한다.The controlling may include controlling driving of the portable server, voice recording, transmission of recording data to the portable server, and display of the confirmation message.
또한, 상기 사용자 단말은 저장부를 더 포함하고, 상기 저장부는 상기 제어부와 상기 제어 모듈을 연동시키기 위해 인스톨된 서버 프로그램을 저장하고, 상기 저장부는 상기 제어부와 상기 제어 모듈을 연동시키기 위해 인스톨된 클라이언트 프로그램을 저장하는 것을 특징으로 한다.The user terminal may further include a storage unit, wherein the storage unit stores a server program installed to interwork the control unit and the control module, and the storage unit is a client program installed to interwork the control unit and the control module. Characterized in that for storing.
또한, 상기 휴대용 서버는, 상기 사용자 단말과의 관계에서 Standby, Ready 및 Run 상태 사이를 전환하고, 전원 버튼을 통해 Power On 상태와 Power Off 상태 사이를 전환하는 것을 특징으로 한다.The portable server may switch between standby, ready, and run states in relation to the user terminal, and switch between a power on state and a power off state through a power button.
또한, 상기 휴대용 서버는, 상기 Standby 상태에서, 상기 통신 모듈이 On 상태이고, 상기 제어 모듈이 슬립 상태이고, 상기 Ready 상태에서, 상기 제어 모듈이 On 상태로 전환되는 것을 특징으로 한다.The portable server may be characterized in that the communication module is in the on state, the control module is in the sleep state, and in the ready state, the control module is switched to the on state in the standby state.
또한, 상기 음성을 인식하는 단계는, 발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 단계를 더 포함하는 것을 특징으로 한다.In addition, the step of recognizing the voice, characterized in that it further comprises the step of determining the tone using the sound spectrum of the talker voice, and distinguishing the talker of the simultaneous speech heterologous speech according to the determined tone.
또한, 상기 음성을 인식하는 단계는, 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어 음성의 종류를 구별하는 단계를 더 포함하는 것을 특징으로 한다.In addition, the step of recognizing the voice, characterized in that it further comprises the step of distinguishing the type of heterogeneous speech by using a scoring (scoring) according to the translation result of the sample speech for the speech of the simultaneous spoken heterologous do.
본 발명에 의하면, 휴대용 서버를 이용함으로써 인터넷에 연결되지 않은 환경에서도 양방향 동시통역이 가능하다.According to the present invention, by using a portable server, simultaneous simultaneous interpretation is possible even in an environment not connected to the Internet.
또한, 단말기를 소지하지 않은 상대방에게도 통역에 관한 음성 입력 및/또는 출력이 가능한 단말을 제공할 수 있다.In addition, it is possible to provide a terminal capable of voice input and / or output related to the interpretation to the other party does not have a terminal.
또한, 음성인식 및 번역에 관한 DB가 저장된 고용량의 메모리를 포함하는 휴대용 서버를 이용하여 신뢰도 높은 결과를 신속히 출력할 수 있다.In addition, by using a portable server including a high-capacity memory in which the DB for voice recognition and translation is stored, it is possible to quickly output high-reliability results.
도 1은 번역 서버를 이용하는 종래의 기술에 따른 통역 시스템에 관한 예시도이다.
도 2는 하나의 사용자 단말에 의한 종래의 기술에 따른 통역 상황의 예시도이다.
도 3은 본 발명의 일 실시 예에 따른 통역장치의 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 저장 모듈의 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 통역장치의 정면도이다.
도 6은 본 발명의 일 실시 예에 따른 통역장치의 상태의 전환을 나타내는 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 휴대용 서버와 사용자 단말 간의 통신을 나타내는 예시도이다.
도 8은 본 발명의 일 실시 예에 따른 사용자 단말의 블록도이다.
도 9는 본 발명의 일 실시 예에 따른 통역방법의 흐름도이다.
도 10은 본 발명의 일 실시 예에 따른 통역방법에서 S130 단계의 흐름도이다.1 is an exemplary diagram of an interpretation system according to the related art using a translation server.
Figure 2 is an illustration of an interpretation situation according to the prior art by one user terminal.
3 is a block diagram of an interpreter according to an embodiment of the present invention.
4 is a block diagram of a storage module according to an embodiment of the present invention.
5 is a front view of the interpretation device according to an embodiment of the present invention.
6 is an exemplary view showing a state change of the interpreter according to an embodiment of the present invention.
7 is an exemplary view illustrating communication between a portable server and a user terminal according to an embodiment of the present invention.
8 is a block diagram of a user terminal according to an exemplary embodiment.
9 is a flow chart of the interpretation method according to an embodiment of the present invention.
10 is a flow chart of step S130 in the interpretation method according to an embodiment of the present invention.
이하, 첨부한 도면을 참조하여 본 발명의 통역장치 및 그 방법에 대한 바람직한 실시 예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.Hereinafter, with reference to the accompanying drawings will be described in detail a preferred embodiment of the interpretation device and method of the present invention. Like reference numerals in the drawings denote like elements. In addition, specific structural to functional descriptions of the embodiments of the present invention are only illustrated for the purpose of describing the embodiments according to the present invention, and unless otherwise defined, all terms used herein including technical or scientific terms These have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and are not construed in ideal or excessively formal meanings unless expressly defined herein. It is preferable not to.
이하 본 발명의 실시 예에 따른 통역장치에 대해 설명하기로 한다.Hereinafter, an interpreter according to an embodiment of the present invention will be described.
도 3은 본 발명의 일 실시 예에 따른 통역장치의 블록도이다.3 is a block diagram of an interpreter according to an embodiment of the present invention.
도 3에 도시된 구성요소를 갖는 본 발명의 일 실시 예에 따른 통역장치(100)는 휴대용 서버(Portable Server)에 해당하는 것을 특징으로 한다. 그리고 후술될 사용자 단말(200)을 포함하지 않는 통역장치(100)와 사용자 단말(200)을 포함하는 통역장치(100)를 구별하기 위해, 사용자 단말(200)을 포함하지 않는 통역장치(100)를 휴대용 서버(100)로 정의한다.An
도 3을 참조하면, 본 발명의 일 실시 예에 따른 통역장치(100)는 음성인식 모듈(110), 번역 모듈(120), 재생 모듈(130), 저장 모듈(140), 입력 모듈(150), 출력 모듈(160), 전원 모듈(170), 통신 모듈(180) 및 제어 모듈(190)을 포함한다. 그리고 추가적으로 통역장치(100)는 사용자 단말(200)을 포함할 수 있다. 즉, 통역장치(100)는 사용자 단말(200)과 유선/무선으로 결합되지 않은 독립(Stand-alone) 형태로 동작하고 그 기능을 수행하거나, 사용자 단말(200)과 유선/무선으로 결합되어 동작하고 그 기능을 수행할 수 있다. 다만 독립 형태로의 동작을 위해 TTS 엔진을 내부에 포함하고 있을 필요가 있다.Referring to FIG. 3, an
통역장치(100)는 음성인식 DB와 번역 DB가 저장된 저장 모듈(140)을 포함하는 휴대용 서버로서 통역을 수행하고, 동시통역의 당사자들의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능한다.The
여기서 '입력장치 및/또는 출력장치로 기능'이란, 동시통역이 양 당사자 사이에 이루어지는 경우를 포함하여, 출발어(Source Language)를 구사하는 측과, 도착어(Target Language)를 구사하는 측 각각이 복수인 경우에, 어느 한 측의 발화자 또는 발화자들 그리고 양측의 발화자 또는 발화자들은 자신의 음성을 입력시키고, 번역된 상대방의 음성 출력을 청취할 수 있음을 의미한다.The term 'function as an input device and / or an output device' means a source language source and a target language source, including simultaneous interpretation between both parties. In the case of the plural, it is meant that the talker or talkers on either side and the talker or talkers on both sides can input their own voice and listen to the translated party's voice output.
음성인식 모듈(110)은, 발화자의 음성을 녹음하고, 그 녹음된 데이터를 이용하여 음성인식을 수행한다. 음성인식 모듈(110)은 발화자의 입으로부터 나온 음성신호를 자동으로 인식하여 문자열로 변환해 주는 과정을 수행한다. 음서인식 모듈의 다른 명칭은 ASR(Automatic Speech Recognition), Voice Recognition 또는 STT(Speech-to-Text)이다.The
음성인식 모듈(110)은 확률통계 방식에 기반할 수 있다. 즉 음성인식 모듈(110)은 음성인식 과정에서 사용되는 음향모델(Acoustic Model, AM), 언어모델(Language Model, LM)로서 확률통계에 기반한 모델을 사용한다. 그리고 핵심 알고리즘인 HMM(Hidden Markov Model)도 역시 확률통계에 기반할 수 있다. 상기의 모델들은 예시에 해당되며, 본 발명을 한정하려는 것은 아니다.The
음향모델로서 GMM(Gaussian Mixture Model)이, 언어모델로서 N-gram이 사용될 수 있다. 더 나아가, GMM 대신에 딥 러닝(Deep Learning) 아키텍처 중의 하나인 DNN(Deep Neural Network)이 사용되는 것도 바람직하다. 그리고 음성인식의 성능을 높이기 위해 양질의 음성모델 및 언어모델이 설정되고, 설정된 모델들은 딥 러닝 알고리즘에 의해 학습될 수 있다. 학습에 필요한 학습 DB는 구어체, 대화체의 음성 및 언어 DB를 포함하고 있을 것이 바람직하다.The Gaussian Mixture Model (GMM) may be used as the acoustic model, and the N-gram may be used as the language model. Furthermore, it is also preferred to use Deep Neural Network (DNN), which is one of the deep learning architectures instead of GMM. In order to improve the performance of speech recognition, a high quality speech model and a language model are set, and the set models can be learned by a deep learning algorithm. It is preferable that the learning DB required for learning includes colloquial language, dialogue voice and language DB.
번역 모듈(120)은 음성인식 모듈(110)에 의해 인식된 출발어(Source Language)로 발화된 발화자의 음성이 텍스트로 출력되면, 출력된 텍스트를 도착어(Target Language)의 문자로 번역한다. 본 발명의 일 실시 예에 따른 통역장치(100)는 음성인식 모듈(110)과 함께 번역 모듈(120)도 자체 포함하고 있는 것을 특징으로 한다.When the voice of the speaker spoken in the source language recognized by the
번역 모듈(120)이 수행하는 번역의 방식은 규칙에 기반한 방법, 말뭉치에 기반한 방법 및 인공신경망번역(Neural Machine Translation, NMT) 중에서 적어도 하나를 포함한다. 규칙에 기반한 방법은 분석 깊이에 따라 다시 직접 번역방식이나 간접 변환방식, 중간 언어방식으로 나뉜다. 말뭉치에 기반한 방법으로 예제 기반 방법과 통계기반 방법이 있다.The translation method performed by the
통계 기반 자동번역(Stochastic Machine Translation, SMT) 기술은 통계적 분석을 통해 이중언어 말뭉치로부터 모델 파라미터를 학습하여 문장을 번역하는 기술이다. 문법이나 의미표상을 개발할 때 수작업으로 하지 않고 번역하고자 하는 언어 쌍에 대한 말뭉치로부터 번역에 필요한 모델을 만든다. 그래서 말뭉치만 확보할 수 있다면 비교적 용이하게 언어 확장을 할 수 있다.Statistical machine translation (SMT) technology is a technique that translates sentences by learning model parameters from bilingual corpus through statistical analysis. When developing a grammar or semantic representation, you build a model for translation from the corpus of the language pairs you want to translate without manual work. So if you only have a corpus, you can expand the language relatively easily.
통계 기반 자동번역 기술의 단점은, 대규모의 이중언어 말뭉치가 필요하고, 다수의 언어들을 연결하는 공통된 의미표상이 없다는 것이다.Disadvantages of statistics-based automatic translation techniques include the need for large bilingual corpus and the lack of a common semantic representation connecting multiple languages.
이러한 단점을 보완하기 위한 기술이 인공신경망 번역(Neural Machine Translation, NMT)이다.A technique to compensate for this drawback is Neural Machine Translation (NMT).
SMT는 문장을 단어 또는 몇 개의 단어가 모인 구 단위로 쪼갠 뒤 통계적 모델에 기반해 번역하는 방식이다. 방대한 학습 데이터를 바탕으로 통계적 번역 규칙을 모델링하는 게 핵심이다.SMT breaks up a sentence into words or phrases of several words and translates them based on statistical models. Modeling statistical translation rules based on extensive training data is key.
이와 달리 NMT는 인공지능(AI)이 문장을 통째로 번역한다. 문장 단위 번역이 가능한 이유는 인공신경망이 문장 정보를 가상공간의 특정 지점을 의미하는 벡터(좌표값)로 변환하기 때문이다.NMT, on the other hand, translates a sentence entirely by artificial intelligence (AI). The sentence-based translation is possible because the artificial neural network converts the sentence information into a vector (coordinate value) meaning a specific point in the virtual space.
가령 '사람'이란 단어를 '[a, b, c, …, x, z]' 형태로 인식한다. 벡터에는 단어, 구절, 어순 등의 정보가 전부 들어있기 때문에 문맥을 이해한 문장 단위 번역이 가능하다. 인공신경망은 비슷한 의미를 담은 문장들을 서로 가까운 공간에 배치한다.For example, the word "person" means "a, b, c,..." , x, z] '. Since the vector contains all the information such as words, phrases, word order, etc., it is possible to translate sentence by sentence. The neural network places sentences with similar meanings in close spaces.
NMT 기술에서 고차원의 벡터가 활용된다. 출발어의 문장과 도착어의 문장으로 이루어진 학습 데이터를 활용하여 인공신경망을 학습시키고, 학습된 인공신경망은 문장 정보를 벡터로 인식하게 된다.High-level vectors are used in NMT technology. The artificial neural network is trained using learning data consisting of the sentences of the source language and the sentence of the destination language, and the learned artificial neural network recognizes the sentence information as a vector.
재생 모듈(130)은 번역 모듈(110)의 번역에 따라 발화자의 음성에 대응하는 합성 음성을 출력한다. 이를 위해 사용자 단말(200)은 통역장치(100)로 TTS데이터를 전송한다. 이 경우 사용자 단말(200)이 음성합성 모듈을 포함하게 된다. 재생 모듈(130)은 사용자 단말(200)로부터 전송된 TTS 데이터를 재생하고, 그 결과는 스피커로 출력된다.The playback module 130 outputs a synthesized voice corresponding to the voice of the talker according to the translation of the
반대로 통역장치(100)가 음성합성 모듈을 포함하는 경우, 통역장치(100) 스스로 TTS데이터를 생성하고, 이를 재생한다.On the contrary, when the
음성합성은 TTS(Text-to-speech) 또는 Voice Synthesis라고 불린다. 음성합성의 방법으로 음편조합방식이 사용될 수 있다. 음편조합방식은, 문장 분석, 분석 결과에 따른 음편을 음편 DB에서 추출, 이를 이어 붙인다. 여러 후보들의 합성음이 생성되고, 운율 및 매끄러움을 고려하여 가장 적합한 것이 채택된다. 더욱이 발화자 음성의 사운드 스펙트럼을 이용하여 발화자의 음색을 결정하고, 합성음을 음색에 맞도록 후처리함으로써 원발화자의 음색에 가까운 합성음이 출력될 수 있다. 또한, 발화자의 감정이 인지되고, 인지된 감정이 합성음에 실릴 수도 있다.Speech synthesis is called TTS (Text-to-speech) or Voice Synthesis. The speech combination method may be used as a method of speech synthesis. In the music combination method, the sentence is extracted from the sound DB and concatenated according to the result of sentence analysis and analysis. A synthesized sound of several candidates is generated, and the most suitable one is adopted in consideration of rhythm and smoothness. Further, by determining the tone of the talker using the sound spectrum of the talker's voice and post-processing the synthesized sound to match the tone, the synthesized sound close to the tone of the original speaker can be output. In addition, the speaker's emotion may be recognized, and the recognized emotion may be carried in the synthesized sound.
도 4는 본 발명의 일 실시 예에 따른 저장 모듈의 블록도이다.4 is a block diagram of a storage module according to an embodiment of the present invention.
도 4를 참조하면, 저장 모듈(140)은 기본적으로 음성인식 DB 및 번역 DB를 저장하고 추가적으로 TTS 엔진을 저장할 수도 있고, 또한, 통역장치(100)와 사용자 단말(200)의 연동을 위해 사용자 단말(200)이 저장하고 있는 클라이언트 프로그램에 대응하는 서버 프로그램을 저장한다.Referring to FIG. 4, the
본 발명의 일 실시 예에 따른, 음성인식 DB(141)는, 딥 러닝의 알고리즘을 이용하여 다양한 발화로 인한 음성을 학습시키고 발화 내용의 빈도수에 따라 인식 범위를 축소 또는 확대시켜 구축된 DB인 것을 특징으로 한다. 즉 빈도수가 높은 발화 내용을 인식시키기 위해서는 DB 양을 상대적으로 늘리고, 빈도수가 낮은 발화 내용을 인식시키기 위해서는 DB 양을 대폭 줄이는 것이다.According to an embodiment of the present invention, the
완성도 높은 음성인식률을 얻기 위해서는 음성인식 DB(141)의 양이 많을수록 유리하나, 시간의 지연 및 과부하의 문제점이 있기 마련인데, 상기 방법에 따르면 DB 전체량을 줄임으로써 저용량의 DB를 구축하는 것이 가능하다.In order to obtain a high speech recognition rate, the larger the amount of the
또한, 번역 DB(142)에 대해서도, 상기 방법과 마찬가지로, 딥 러닝의 알고리즘을 이용하여 다양한 번역 예를 학습시키고, 번역 예의 빈도수에 따라 구어체 표현을 확대하고, 문어체 표현을 축소시켜 DB를 구축할 수 있다.In addition, for the translation DB 142, similarly to the above method, a deep learning algorithm can be used to learn a variety of translation examples, and the spoken language expression can be expanded according to the frequency of the translation examples, and the written language expression can be reduced to build the DB. have.
따라서 본 발명에 따른 음성인식 모듈(110)과 번역 모듈(120)은, 빈도수를 고려하지 않고 구축된 DB 대비, 저용량의 음성인식 DB 또는 번역 DB를 이용할 수 있다.Therefore, the
여기서, 저장 모듈(140)은 휘발성의 RAM 및 비휘발성의 ROM, 플래시 메모리를 포함하고, 그 기능에 따라 각종 디지털 파일을 저장한다.Here, the
입력 모듈(150)은, 마이크로폰(151), 음성입력버튼(152) 및 전원 버튼(153)을 포함한다.The input module 150 includes a
도 5는 본 발명의 일 실시 예에 따른 통역장치(100)의 정면도이다.5 is a front view of the
도 5를 참조하면, 마이크로폰(151)은 발화자의 음성을 입력받아 전기적인 신호로 변환한다. 그리고 전기적인 신호는 A/D 컨버터에 의해 디지털로 변환될 수 있다. 도 5에서 스피커(161)와 마이크로폰(151)의 위치는 도 5에 한정되는 것은 아니며, 하부의 USB 잭과 근접하게 놓이도록 설계될 수도 있다.Referring to FIG. 5, the
음성입력버튼(152)은 발화자의 음성 입력을 판단하기 위해 이용될 수 있다. 음성인식 모듈(110)은 단순히 입력된 음성에 대응하는 전사(Transcription)뿐만 아니라 문장 경계에 대한 정보도 제공해야 한다. 이를 위해 음성입력버튼(152)이 이용될 수 있다. The
즉 발화자는 음성입력버튼(152)을 누르거나 터치한 상태에서 발화하거나, 또는 음성입력버튼(152)의 누름 또는 터치를 발화의 처음과 끝에 각각 수행함으로써 자신이 입력하는 음성의 시작과 끝을 통역장치(100), 즉 음성인식 모듈(110)에게 인식시킬 수 있다. That is, the talker interprets the start and end of the voice that he or she inputs by pressing or touching the
문장 단위로 구분되지 않은 텍스트를 처리할 경우 번역 성능이 떨어질 수 있다. 이를 방지하기 위해서 음성인식의 이전 단계에서 문장 단위로 음성을 입력시키기 위해 음성입력버튼(152)이 이용될 수 있다.If you process text that is not separated by sentence, translation performance may be reduced. In order to prevent this, the
음성입력버튼(152)은 아래에 후술할 전원버튼(153)과 하나의 버튼으로 그 기능을 공유할 수 있다. 즉, 하나의 버튼을 사용하여 터치에 의해 음성입력의 On/Off이 전환되고, 누름 동작의 길고 짧음에 의해 전원의 On/Off이 전환될 수 있다. 이 경우, 음성입력버튼(152)의 동작을 위해서 터치 면에 콘덴서를 내장시켜 터치 여부를 감지하는 것이 바람직하다.The
전원버튼(153)은 누름 동작에 의해 짧게 또는 길게 눌려짐으로서 통역장치(100)에 파워를 인가함으로써 구동을 시작하게 하거나, 구동을 종료하게 할 수 있다. 그리고 통역장치(100)는 Power On 이후에 Ready 및 Standby라는 상태에 놓일 수 있다. 통역장치(100)는 상기 상태에 따라 전력을 다르게 소비할 수 있다. 이에 대한 자세한 설명은 후술하기로 한다.The power button 153 may be pressed short or long by a pressing operation to apply power to the
다시 도 5를 참조하면, 출력 모듈(160)은 스피커(161), 각종 LED 인디케이터(162, 163, 164)를 포함한다. LED 인디케이터(Indicator)는 배터리 상태 표시 LED(162), 전원 On/Off 상태 표시 LED 및 사용자 단말(200)과의 통신연결 표시 LED를 포함한다.Referring back to FIG. 5, the output module 160 includes a
전원 모듈(170)은 전력 소스 및 전력 소스의 충전 및/또는 방전을 위한 충방전 장치를 포함한다. 전력 소스로는 배터리가 사용될 수 있다. 그리고 배터리는 충방전 장치에 의해 충전 및 방전이 되고, 방전된 전력은 통역장치(100)의 구동에 에너지원으로 작용한다.The power supply module 170 includes a power source and a charge / discharge device for charging and / or discharging the power source. A battery may be used as the power source. The battery is charged and discharged by the charging / discharging device, and the discharged power serves as an energy source for driving the
통역장치(100)에 전원 인가는 전원버튼에 의해 이루어진다. 이하 전원버튼을 이용한 통역장치(100)의 상태 전환에 대하여 설명하기로 한다.The power is applied to the
도 6은 본 발명의 일 실시 예에 따른 통역장치의 상태의 전환을 나타내는 예시도이다.Figure 6 is an exemplary view showing the switching of the state of the interpreter according to an embodiment of the present invention.
도 6을 참조하면, 휴대용 서버인 통역장치(100)는 Power On 상태, Ready 상태, Standby 상태, Run 상태 및 Off 상태에 놓일 수 있으며, 전원버튼의 동작 및 통역장치의 수행 기능에 따라 상기 상태를 전환한다.Referring to FIG. 6, an
Standby 상태에서, 통신 모듈(180)은 On 상태이고, 제어 모듈(190)은 슬립 상태에 있다. 그리고 Ready 상태에서, 제어 모듈(190)이 Off에서 On 상태로 전환되는 것이 특징이다.In the standby state, the communication module 180 is in an on state and the
Power Off 상태에서 전원버튼이 눌려지면 통역장치(100)는 Ready 상태로 전환한다. 그리고 일정시간 대기후에 통신 모듈(180)이 On 되면서, 통역장치는 Standby 상태로 전환한다.When the power button is pressed in the power off state, the
다음으로 통역장치(100)의 제어 모듈(190)과 사용자 단말(200)의 제어부(270)가 연동되면, 즉 On 되면 통역장치(100)는 Ready 상태로 전환한다.Next, when the
다음으로 통역장치는 Ready 상태에서 지령에 따라 기능을 수행하는 Run 상태로 들어가게 된다. Ready 상태에서도 일정시간 대기후 통역장치(100)는 Standby 상태로 전환할 수 있다.The interpreter then enters the Run state, which executes the function from the Ready state. Even after waiting for a predetermined time in the ready state, the
그리고 동작 중의 대부분이 Ready 또는 Run 상태인데, 이들 상태에서 전원버튼이 길게 눌려지면 통역장치(100)는 Power Off 상태로 전환한다.And most of the operation is in the Ready or Run state, when the power button is pressed long in these states, the
통신 모듈(180)은 사용자 단말(200)과 유선 또는 무선으로 통신한다. 이 경우, 사용자 단말(200)이 대화자 양측 중에서 어느 한 측의 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 통역장치(100)는 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능함을 특징으로 한다. 즉, 상대방은 전용의 통역장치(200)에 자신의 음성을 입력할 수 있고, 발화자의 번역된 음성을 출력에 의해 청취할 수 있다.The communication module 180 communicates with the
도 7은 본 발명의 일 실시 예에 따른 휴대용 서버(100)와 사용자 단말(200) 간의 통신을 나타내는 예시도이다.7 is an exemplary view illustrating communication between the
도 7을 참조하면, 휴대용 서버에 해당하는 통역장치(100)와 사용자 단말(200)이 블루투스 페어링 상태에 있다. 도 7에 나타난 실시 예에 따라, 사용자 단말(200)의 클라이언트 프로그램의 UI를 이용하여 출발어가 한국어로 설정되고, 도착어가 영어로 설정될 수 있다. 그리고 한국어, 영어 명칭을 갖는 마이크 버튼을 터치하고 발화함으로써 통역장치(100)가 언어를 판별하는 부담을 덜어 줄 수 있다.Referring to FIG. 7, an
제어 모듈(190)은 통역장치(100)에 의해 수행된 동작, 예를 들면 음성인식 또는 번역이 완료되었음을 사용자 단말(200)에 확인시키기 위해, 확인 메시지를 생성한다. 생성된 확인 메시지는 통신부를 통해 사용자 단말(200)에 전송된다.The
종합적으로 제어 모듈은, 상기 통역장치(100)인 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 전송 및 확인 메시지 전송을 제어하는 것을 특징으로 한다.Overall, the control module is characterized in that the driving of the portable server, the
발화자 사이에서 어느 한 측의 발화가 끝나고 상대방의 발화가 있다는 보장은 없다. 따라서 동시에 발생할 수 있는 발화에 있어서, 동시에 입력되는 이종의 음성을 구별할 필요가 있다. 이를 해결하기 위해, 제어 모듈(190)은, 발화자 음성의 사운드 스펙트럼을 이용하여 음색의 특징을 결정하고, 결정된 음색의 특징을 이용하여 동시 발화된 이종 언어의 음성을 필터를 이용하여 필터링한다. 이에 따라 이종 언어 음성의 발화자가 구별되고, 필터링에 의해 이종 언어의 음성이 서로 분리 될 수 있다.There is no guarantee that one side of the talker will end and there is another. Therefore, in speech that can occur at the same time, it is necessary to distinguish different kinds of voices that are simultaneously input. To solve this problem, the
더 나아가, 제어 모듈(190)은, 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어들이 어느 나라의 언어에 해당하는지 구별하는 것을 특징으로 한다.Further, the
구체적으로 영어과 국어의 음성이 혼재되어 입력되는 경우에, 영어 발화자의 음색과 국어 발화자의 음색의 특징에 따른 필터링된 음성 신호에 대해 하나의 음성 신호에 대해 영어 및 국어로, 다른 하나의 음성 신호에 대해 국어 및 영어로 번역을 시도하여 이를 점수로 환산하여 가장 높은 점수를 획득한 번역을 채택함으로써 해당 언어가 어느 나라 언어인지를 결정한다.Specifically, in the case where English and Korean voices are mixed and input, the filtered voice signal according to the characteristics of the voice of the English speaker and the voice of the Korean speaker is inputted into one voice signal in English and Korean, and the other voice signal. The team then attempts to translate Korean and English, converts it into a score, and adopts the translation with the highest score.
도 8은 본 발명의 일 실시 예에 따른 사용자 단말의 블록도이다.8 is a block diagram of a user terminal according to an exemplary embodiment.
도 8을 참조하면, 본 발명의 일 실시 예에 따른 사용자 단말(200)은 통신부(210), 디스플레이(220), 저장부(230), 입력부(240), 출력부(250), 전원부(260) 및 제어부(270)를 포함한다.Referring to FIG. 8, the
사용자 단말(200)의 다양한 실시 예들은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 (gaming) 장치, 무선 통신 기능을 가지는 음악저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다.Various embodiments of the
통신부(210)는, 통신망(14)의 각종 통신망에 대응하는 통신 모듈, 예를 들어 블루투스 모듈, WiFi 모듈, 이더넷, USB 모듈, 셀룰러 무선통신 모듈을 포함할 수 있으나, 본 발명에 따른 실시 예에서는 USB 모듈과 같은 유선통신부와 블루투스 모듈, 지그비 모듈, NFC 모듈과 같은 근거리 통신 모듈을 포함하는 것이 가장 바람직하다.The communication unit 210 may include a communication module corresponding to various communication networks of the
디스플레이(220)는 LCD 디스플레이, LED 디스플레이와 같이 화소로 이루어진 화면을 보여주는 장치에 해당한다.The
저장부(230)는 제어부(207)와 제어 모듈(109)을 연동시키기 위한 클라이언트 프로그램을 저장한다. 여기서 저장부(230)는 휘발성의 RAM 및 비휘발성의 ROM, 플래시 메모리를 포함하고, 그 기능에 따라 각종 디지털 파일을 저장한다. 특히 저장부(230)는 TTS 엔진을 저장함으로써, 휴대형 서버(100) 측에 저장하지 않고 사용자 단말 측에 저장할 수도 있다.The storage unit 230 stores a client program for interworking the control unit 207 and the control module 109. The storage unit 230 includes a volatile RAM, a nonvolatile ROM, and a flash memory, and stores various digital files according to its function. In particular, by storing the TTS engine, the storage unit 230 may store the TTS engine on the user terminal side instead of the
입력부(240)는 각종 파라미터 설정을 위한 키보드, 터치스크린 및 마우스를 포함한다.The input unit 240 includes a keyboard, a touch screen, and a mouse for setting various parameters.
출력부(250)는 스피커, 헤드셋 및 이어셋을 포함한다. 특히 마이크로폰과 일체로 형성된 헤드셋과 이어셋은 핸즈프리 동시통역에 있어서 유용한 기능성을 갖는다.The output unit 250 includes a speaker, a headset and an earset. In particular, the headset and earset integrally formed with the microphone have useful functionality in hands-free simultaneous interpretation.
전원부(260)는 전력 소스 및 전력 소스의 충전 및/또는 방전을 위한 충방전 장치를 포함한다. 전력 소스로는 배터리가 사용될 수 있다. 그리고 배터리는 충방전 장치에 의해 충전 및 방전이 되고, 방전된 전력은 사용자 단말(200)의 구동에 에너지원으로 작용한다.The power supply unit 260 includes a power source and a charge / discharge device for charging and / or discharging the power source. A battery may be used as the power source. The battery is charged and discharged by the charging / discharging device, and the discharged power serves as an energy source for driving the
제어부(270)는 하드웨어적으로는 중앙처리장치에 해당하는 CPU(Central Processing Unit)로 구현될 수 있으며, 구체적으로는 통역장치(100)의 제어 모듈(190)과 연동을 위해 저장부(230)에 로딩된 클라이언트 프로그램 및 이 상태에서 연산 작용을 하는 상기 CPU를 통합하는 개념이다.The
제어부(270)는 제어 모듈(190)을 조작하여 통역장치(100)의 각종 기능을 수행하도록 할 수 있다.The
본 발명의 일 실시 예에 따라, 클라이언트 프로그램을 이용하여 통역장치(100)와 사용자 단말(200)이 담당하게 될 언어 설정이 자동으로 수행될 수 있다. 즉, 제어 모듈(109)을 포함하여, 제어부(207)는 사용자 단말(200)의 설정 언어를 참조하여 출발어를 한국어를 자동 설정할 수 있다.According to an embodiment of the present invention, the language setting to be in charge of the
추가적으로 이종 언어로 설정된 사용자 단말(200)이 일정 거리 내에 있는 경우, 각각의 사용자 단말의 언어 설정을 참조하여 출발어와 목적어가 자동 설정될 수 있다.In addition, when the
또한, 제어부(207)는 통역장치(100)를 통해 발화되는 음성의 샘플을 이용하여 번역의 완성도에 대한 점수를 매겨서 가장 높은 점수를 받은 언어를 도착어로 자동 설정한다.In addition, the control unit 207 uses the sample of the speech spoken by the
이하 본 발명의 일 실시 예에 따른 통역방법에 대해 설명하기로 한다.Hereinafter, an interpretation method according to an embodiment of the present invention will be described.
도 9는 본 발명의 일 실시 예에 따른 통역방법의 흐름도이다.9 is a flow chart of the interpretation method according to an embodiment of the present invention.
도 9를 참조하면, 본 발명의 일 실시 예에 따른 통역방법은, 동시통역의 당사자들과의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 휴대용 서버에 해당하는 통역장치(100)에 의해 수행됨을 특징으로 한다.Referring to Figure 9, the interpretation method according to an embodiment of the present invention, the interpretation device corresponding to a portable server that functions as an input device and / or output device for at least one talker in the relationship with the parties of simultaneous interpretation Characterized in that performed by (100).
상기 통역방법은, 상기 휴대용 서버와 사용자 단말이 유선 또는 무선으로 통신하는 단계(S110); 제어부가 구비된 사용자 단말(200)이 휴대용 서버를 제어하는 단계(S120); 자체 내부에 포함하고 있는 음성인식 모듈 및 음성인식 DB를 이용하여 음성을 인식하는 단계(S130); 및 자체 내부에 포함하고 있는 번역 모듈 및 번역 DB를 이용하여 상기 인식된 텍스트를 번역하는 단계(S140); 재생 모듈을 통해 상기 번역 모듈의 번역에 따라 상기 어느 한 발화자의 음성에 대응하는 합성 음성을 출력하는 단계(S150); 및 통역장치(100)에 의해 완료된 동작을 확인시키기 위한 확인 메시지를 사용자 단말(200)에 전송하게 하기 위해 제어 모듈이 메시지를 생성하고, 이를 사용자 단말(200)에 전송하는 단계(S160)를 포함한다.The interpretation method, the portable server and the user terminal to communicate by wire or wireless (S110); Controlling the portable server by the
여기서, 음성을 인식하는 단계(S130)는, 마이크로폰을 통해 상기 적어도 어느 한 발화자의 음성을 입력받고, 상기 음성인식 모듈을 통해 상기 음성을 녹음하고 녹음 데이터를 이용하여 음성인식을 수행하는 것을 특징으로 한다.Here, in step S130, the voice of the at least one talker is input through a microphone, and the voice is recorded through the voice recognition module and voice recognition is performed using the recorded data. do.
여기서, 상기 음성을 인식하는 단계는, 상기 사용자 및/또는 상대방의 음성 입력 시점을 판단하기 위해 음성입력버튼이 사용되는 것을 특징으로 한다.Here, in the recognizing the voice, a voice input button is used to determine the voice input time of the user and / or the counterpart.
또한, 상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 상기 휴대용 서버는 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능하는 것을 특징으로 한다.In addition, when the user terminal functions as an input device and / or an output device for one of the talkers, the portable server may function as an input device and / or an output device for the counterpart.
여기서, 합성 음성을 출력하는 단계(S150)는, 사용자 단말(200)로부터 전송된 TTS 데이터를 재생하고 합성 음성을 출력하는 것을 특징으로 한다.Here, the step (S150) of outputting the synthesized voice may be characterized by reproducing TTS data transmitted from the
여기서, 상기 제어하는 단계는, 휴대용 서버(100)의 구동, 음성 녹음, 녹음 데이터의 전송 및 상기 확인 메시지의 전송을 제어하는 것을 특징으로 한다.Here, the controlling may include controlling the driving of the
여기서, 상기 음성을 인식하는 단계는, 상기 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 단계를 더 포함하는 것을 특징으로 한다.The recognizing of the voice may further include determining a tone using the sound spectrum of the voice, and distinguishing a talker of a bilingual voice simultaneously uttered according to the determined tone.
여기서, 상기 음성을 인식하는 단계는, 동시 발화된 이종의 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어의 종류를 구별하는 단계를 포함하는 것을 특징으로 한다.In this case, the step of recognizing the speech, characterized in that it comprises the step of distinguishing the type of heterogeneous language with respect to the simultaneous speech of the heterogeneous language using the scoring (scoring) according to the translation result of the sample speech. .
도 10은 본 발명의 일 실시 예에 따른 통역방법에서 S130 단계의 흐름도이다.10 is a flow chart of step S130 in the interpretation method according to an embodiment of the present invention.
도 10을 참조하면, 음성을 인식하는 단계는, 발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 단계; 및 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어의 종류를 구별하는 단계를 포함하는 것을 특징으로 한다.Referring to FIG. 10, the step of recognizing a voice may include determining a tone using a sound spectrum of a talker's voice, and distinguishing a talker of a bilingual voice that is simultaneously uttered according to the determined tone; And distinguishing the types of heterogeneous languages by using a score according to a translation result of the sample speech for the speech of the heterogeneous languages uttered simultaneously.
통역장치(100) 및 사용자 단말(200)로 입력되는 소리, 예를 들어 발화자의 음성은 서로 구별되도록 하는 것이 바람직하다.Sound input to the
그러나 한국어를 사용하는 제1 발화자와 영어를 사용하는 제2 발화자가 동시에 발화하는 경우가 생길 수 있다. 이에 부가하여 제1 발화자와 근접한 사용자 단말(200)의 마이크로폰을 통해 입력되는 제1 발화자의 음성이, 공간의 울림이나 높은 데시벨 값으로 인해서 제2 발화와 근접한 휴대형 서버에 해당하는 통역장치(200)에 입력될 수 있다.However, there may be a case where the first speaker using Korean and the second speaker using English speak simultaneously. In addition, the
상기의 경우 제1 발화자의 음성과 제2 발화자의 음성이 혼재된 음성은 통역장치(100)를 통해서도 입력되고, 사용자 단말(200)을 통해서도 입력되게 된다. 따라서 음성을 인식해야 하는 통역장치(100)는 영어와 한국어가 혼합된 음성을 토대로 음성인식하기 이전에 이를 구별하고 분리할 필요가 있다.In this case, the voice in which the voice of the first speaker and the voice of the second speaker are mixed is also input through the
혼합된 음성을 분리하기 위해서는, 일단 혼합된 음성을 구성하는 부분 음성 중에서 어떤 부분 음성이 어떤 화자에 것인가를 구별할 필요가 있다. 이를 해결하기 위해서 일단 발화자를 구별하는 것이 필요하다. 더 나아가 언어의 종류까지 구별할 수 있다면 구별된 발화자와 구별된 언어의 종류를 매치시킬 수 있을 것이다.In order to separate the mixed voices, it is necessary to distinguish which partial voices are to which speakers among the partial voices that constitute the mixed voices once. To solve this, it is necessary to first distinguish the talker. Furthermore, if a language can be distinguished, it may be possible to match a distinct talker with a distinct language.
종합적으로, 본 발명의 일 실시 예에 따른 통역장치 및 그 방법은, 무선통신 환경이 조성되지 않은 상황에서 휴대용 서버를 이용하여 통역을 수행하고, 상대방을 위한 입력/출력 장치를 마련하고, 출발어와 도착어를 분리하여 입력함으로써 음성인식의 품질이 높일 수 있고, 만일을 대비해 동시에 발화된 이종 언어의 발화자를 사운드 스펙트럼을 이용하여 발화자의 음색에 따라 구별하고, 통역 품질에 해당하는 통역 만족도에 관한 점수를 이용하여 언어의 종류를 구별할 수 있는 통역장치 및 그 방법에 관한 것이다.Overall, the interpreter and the method according to an embodiment of the present invention, interpreting using a portable server in a situation where a wireless communication environment is not established, providing an input / output device for the counterpart, The quality of speech recognition can be improved by separating and inputting the destination words, and in case of emergency, the speakers of different languages spoken at the same time can be distinguished according to the tone of the speaker using the sound spectrum, and the score on the interpretation satisfaction corresponding to the interpretation quality The present invention relates to a translator and a method for distinguishing types of languages.
이상으로 본 발명은 도면에 도시된 실시 예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 판단되어야 할 것이다.Although the present invention has been described with reference to the embodiments illustrated in the drawings, this is merely exemplary, and various modifications and equivalent other embodiments are possible from those skilled in the art. I will understand the point. Therefore, the technical protection scope of the present invention will be determined by the claims below.
11, 200: 사용자 단말 12, 300: 통역 서버
13: 데이터베이스 14: 통신망
100: 통역장치 110: 음성인식 모듈
120: 번역 모듈 130: 재생 모듈
140: 저장 모듈 141: 음성인식 DB
142: 번역 DB 150: 입력 모듈
151: 마이크로폰 152: 음성인식버튼
153: 전원버튼 160: 출력 모듈
161: 스피커 162: 배터리 상태 표시 LED
163: 전원 On/Off 상툐 표시 LED
164: 블루투스 표시 LED 170: 전원 모듈
200: 사용자 단말 210: 통신부
220: 디스플레이부 230: 저장부
240: 입력부 250: 출력부
260: 전원부 270: 제어부11, 200:
13: Database 14: Network
100: interpreter 110: voice recognition module
120: translation module 130: playback module
140: storage module 141: speech recognition DB
142: translation DB 150: input module
151: microphone 152: voice recognition button
153: power button 160: output module
161: Speaker 162: Battery status indicator LED
163: Power On / Off Status Indicator LED
164: Bluetooth indicator LED 170: power module
200: user terminal 210: communication unit
220: display unit 230: storage unit
240: input unit 250: output unit
260: power supply unit 270: control unit
Claims (30)
발화자의 음성을 녹음하고, 이 녹음 데이터 및 사용자 단말에서 수신한 녹음 데이터를 이용하여 양방향의 음성인식을 수행하는 음성인식 모듈;
음성인식 DB와 번역 DB가 저장된 저장 모듈; 및
동시 발화된 이종 언어 음성의 발화자를 구별하고, 상기 발화자의 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어의 종류를 구별하는 제어 모듈을 포함하는 휴대용 서버로서 양방향의 동시통역을 수행하고, 동시통역의 당사자들의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및 출력장치로 기능하되,
상기 음성인식 DB는,
딥 러닝의 알고리즘을 이용하여 다양한 발화로 인한 음성을 학습시키고 발화 내용의 빈도수에 따라 인식 범위를 축소 또는 확대시켜 구축된 데이터베이스이고,
상기 번역 DB는,
딥 러닝의 알고리즘을 이용하여 다양한 번역 예를 학습시키고, 번역 예의 빈도수에 따라 구어체 표현을 확대하고, 문어체 표현을 축소시켜 구축된 데이터베이스이고,
상기 음성인식 모듈 또는 번역 모듈은,
상기 빈도수가 고려되지 않은 DB 대비 저용량의 음성인식 DB 또는 번역 DB를 이용하는 것을 특징으로 하는, 통역장치.A translation module included therein for performing bidirectional translation;
A voice recognition module for recording voice of a talker and performing two-way voice recognition using the recorded data and the recorded data received from the user terminal;
A storage module storing a voice recognition DB and a translation DB; And
A portable server including a control module for distinguishing a speaker of a heterogeneous speech that is simultaneously uttered and for distinguishing a type of heterogeneous language using a score according to a translation result of a sample voice for the speaker of the heterologous language. To perform bi-directional simultaneous interpretation, and function as an input device and an output device for at least one speaker in the relationship of the parties to the simultaneous interpretation,
The voice recognition DB,
It is a database built by learning the voices of various utterances using deep learning algorithms and reducing or expanding the recognition range according to the frequency of utterances.
The translation DB,
It is a database built by learning various translation examples using deep learning algorithms, expanding spoken expressions according to the frequency of translation examples, and reducing written expressions.
The speech recognition module or translation module,
Interpretation device, characterized in that using a low-volume speech recognition DB or translation DB compared to the DB is not considered the frequency.
상기 통역장치는,
상기 번역 모듈의 번역에 따라 발화자의 음성에 대응하는 합성 음성을 출력하는 재생 모듈을 더 포함하는 것을 특징으로 하는, 통역장치.The method according to claim 1,
The interpreter is,
And a reproducing module for outputting a synthesized voice corresponding to the voice of the talker according to the translation of the translation module.
상기 통역장치는,
상기 발화자 및 상대방의 음성 입력을 판단하기 위한 음성입력버튼을 더 포함하는 것을 특징으로 하는, 통역장치.The method according to claim 1,
The interpreter is,
And an audio input button for determining a voice input of the talker and the other party.
상기 통역장치는,
사용자 단말과 유선 또는 무선으로 통신하는 통신 모듈을 더 포함하고,
상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 또는 출력장치로 기능하는 경우, 그 상대방에 대해 출력장치 또는 입력장치로 기능하는 것을 특징으로 하는, 통역장치.The method according to claim 5,
The interpreter is,
Further comprising a communication module for communicating with a user terminal in a wired or wireless manner,
And when the user terminal functions as an input device or an output device for the one talker, functions as an output device or input device for the counterpart.
상기 통역장치는,
완료된 동작을 확인시키기 위한 확인 메시지를 상기 사용자 단말에 전송하게 하기 위해 이를 생성하는 제어 모듈을 더 포함하는 것을 특징으로 하는, 통역장치.The method according to claim 6,
The interpreter is,
And a control module for generating a confirmation message for confirming the completed operation to the user terminal.
상기 재생 모듈은,
상기 사용자 단말로부터 전송된 TTS 데이터를 재생하고 그 결과를 스피커로 출력하는 것을 특징으로 하는, 통역장치.The method according to claim 4,
The playback module,
And reproducing the TTS data transmitted from the user terminal and outputting the result to the speaker.
상기 통역장치는,
상기 휴대용 서버를 제어하는 제어부가 구비된 상기 사용자 단말을 더 포함하는 것을 특징으로 하는, 통역장치.The method according to claim 7,
The interpreter is,
And a user terminal equipped with a control unit for controlling the portable server.
상기 제어부는,
상기 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 전송 및 상기 확인 메시지 전송을 제어하는 것을 특징으로 하는, 통역장치.The method according to claim 9,
The control unit,
And controlling the driving of the portable server, voice recording, transmission of recorded data, and transmission of the confirmation message.
상기 사용자 단말은 저장부를 더 포함하고,
상기 저장부는 상기 제어부와 상기 제어 모듈을 연동시키기 위한 클라이언트 프로그램을 저장하고,
상기 저장 모듈은 상기 클라이언트 프로그램에 대한 서버 프로그램을 저장하는 것을 특징으로 하는, 통역장치.The method according to claim 10,
The user terminal further includes a storage unit,
The storage unit stores a client program for interworking the control unit and the control module,
And the storage module stores a server program for the client program.
상기 휴대용 서버는,
상기 사용자 단말과의 관계에서 Standby, Ready 및 Run 상태 사이를 전환하고, Power On 상태와 Power Off 상태 사이를 전환하기 위한 전원 버튼을 더 포함하는 것을 특징으로 하는, 통역장치The method according to claim 7,
The portable server,
Interpreting apparatus further comprises a power button for switching between Standby, Ready and Run states in the relationship with the user terminal, and switching between a Power On state and a Power Off state
상기 휴대용 서버는,
상기 Standby 상태에서, 상기 통신 모듈이 On 상태이고, 상기 제어 모듈이 슬립 상태이고,
상기 Ready 상태에서, 상기 제어 모듈이 On 상태로 전환되는 것을 특징으로 하는, 통역장치.In claim 12,
The portable server,
In the standby state, the communication module is in the on state, the control module is in the sleep state,
And, in the ready state, the control module is switched to the on state.
상기 제어 모듈은,
발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 것을 특징으로 하는, 통역장치.The method according to claim 7,
The control module,
An interpreter, characterized in that for determining the tone using the sound spectrum of the talker voice, and distinguishing the talker of the different-language voice simultaneously uttered according to the determined tone.
자체 내부에 포함하고 있는 음성인식 모듈과 저장 모듈에 저장된 음성인식 DB를 이용하여 음성을 인식하는 단계; 및
자체 내부에 포함하고 있는 번역 모듈 및 번역 DB를 이용하여 상기 인식된 텍스트를 번역하는 단계를 포함하되,
상기 음성을 인식하는 단계는,
동시 발화된 이종 언어 음성의 발화자를 구별하고,
상기 발화자의 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어 음성의 종류를 구별하는 단계를 포함하고,
상기 음성인식 DB는,
딥 러닝의 알고리즘을 이용하여 다양한 발화로 인한 음성을 학습시키고 발화 내용의 빈도수에 따라 인식 범위를 축소 또는 확대시켜 구축된 데이터베이스이고,
상기 번역 DB는,
딥 러닝의 알고리즘을 이용하여 다양한 번역 예를 학습시키고, 번역 예의 빈도수에 따라 구어체 표현을 확대하고, 문어체 표현을 축소시켜 구축된 데이터베이스이고,
상기 음성인식 모듈 또는 번역 모듈은,
상기 빈도수가 고려되지 않은 DB 대비 저용량의 음성인식 DB 또는 번역 DB를 이용하는 것을 특징으로 하는, 통역방법.In an interpreting method in which a portable server functioning as an input device and an output device for at least one talker in a relationship with the parties to the simultaneous interpretation performs simultaneous interpretation,
Recognizing a voice using a voice recognition DB stored in a voice recognition module and a storage module included therein; And
Translating the recognized text using a translation module and a translation DB included in its own,
Recognizing the voice,
Distinguishes the speaker of the simultaneous speech
Distinguishing different types of heterogeneous speech using a scoring according to a translation result of a sample speech, for the spoken heterologous speech;
The voice recognition DB,
It is a database built by learning the voices of various utterances using deep learning algorithms and reducing or expanding the recognition range according to the frequency of utterances.
The translation DB,
It is a database built by learning various translation examples using deep learning algorithms, expanding spoken expressions according to the frequency of translation examples, and reducing written expressions.
The speech recognition module or translation module,
Interpretation method, characterized in that using a low-volume speech recognition DB or translation DB compared to the DB, the frequency is not considered.
상기 음성을 인식하는 단계는,
마이크로폰을 통해 상기 적어도 어느 한 발화자의 음성을 입력받고,
상기 음성인식 모듈을 통해 상기 음성을 녹음하고 녹음 데이터를 이용하여 음성인식을 수행하는 것을 특징으로 하는, 통역방법.The method according to claim 16,
Recognizing the voice,
Receiving a voice of the at least one talker through a microphone;
And recording the voice through the voice recognition module and performing voice recognition using the recorded data.
상기 통역방법은,
재생 모듈을 통해 상기 번역 모듈의 번역에 따라 상기 어느 한 발화자의 음성에 대응하는 합성 음성을 출력하는 단계를 더 포함하는 것을 특징으로 하는, 통역방법.The method according to claim 16,
The interpretation method,
And outputting a synthesized voice corresponding to the voice of the one talker according to the translation of the translation module through a reproducing module.
상기 음성을 인식하는 단계는,
발화자의 음성 입력 시점을 판단하기 위해 음성입력버튼이 사용되는 것을 특징으로 하는, 통역방법.The method according to claim 16,
Recognizing the voice,
A voice input button is used to determine the voice input time of the talker.
상기 휴대용 서버는 사용자 단말과 유선 또는 무선으로 통신하는 통신 모듈을 포함하고,
상기 통역방법은,
상기 휴대용 서버와 사용자 단말이 유선 또는 무선으로 통신하는 단계를 더 포함하고,
상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 또는 출력장치로 기능하는 경우,
상기 휴대용 서버는 그 상대방에 대해 출력장치 또는 입력장치로 기능하는 것을 특징으로 하는, 통역방법.The method of claim 20,
The portable server includes a communication module for communicating with a user terminal in a wired or wireless manner,
The interpretation method,
The portable server and the user terminal further comprises the step of communicating by wire or wirelessly,
When the user terminal functions as an input device or an output device for the one talker,
And the portable server functions as an output device or an input device to the counterpart.
상기 통역방법은,
완료된 동작을 확인시키기 위한 확인 메시지를 상기 사용자 단말에 전송하게 하기 위해 제어 모듈이 메시지를 생성하는 단계를 더 포함하는 것을 특징으로 하는, 통역방법.The method according to claim 21,
The interpretation method,
Generating a message by the control module to cause the user terminal to send a confirmation message to confirm the completed operation.
상기 통역방법은,
재생 모듈을 통해 상기 번역 모듈의 번역에 따라 상기 사용자 단말로부터 전송된 TTS 데이터를 재생하고 합성 음성을 출력하는 단계를 더 포함하는 것을 특징으로 하는, 통역방법.The method according to claim 21,
The interpretation method,
And reproducing the TTS data transmitted from the user terminal according to the translation of the translation module through a reproducing module, and outputting a synthesized voice.
상기 통역방법은,
제어부가 구비된 사용자 단말이 상기 휴대용 서버를 제어하는 단계를 더 포함하는 것을 특징으로 하는, 통역방법.The method according to claim 22,
The interpretation method,
And a user terminal equipped with a control unit controlling the portable server.
상기 제어하는 단계는,
상기 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 전송 및 상기 확인 메시지의 전송을 제어하는 것을 특징으로 하는, 통역방법.The method of claim 24,
The controlling step,
And controlling the driving of the portable server, voice recording, transmission of recorded data, and transmission of the confirmation message.
상기 사용자 단말은 저장부를 더 포함하고,
상기 저장부는 상기 제어부와 상기 제어 모듈을 연동시키기 위한 클라이언트 프로그램을 저장하고,
상기 저장 모듈은 상기 클라이언트 프로그램에 대응하는 서버 프로그램을 더 저장하는 것을 특징으로 하는, 통역방법.The method according to claim 25,
The user terminal further includes a storage unit,
The storage unit stores a client program for interworking the control unit and the control module,
And the storage module further stores a server program corresponding to the client program.
상기 휴대용 서버는,
상기 사용자 단말과의 관계에서 Standby, Ready 및 Run 상태 사이를 전환하고, 전원 버튼을 통해 Power On 상태와 Power Off 상태 사이를 전환하는 것을 특징으로 하는, 통역방법The method according to claim 22,
The portable server,
Translating method, characterized in that switching between the Standby, Ready and Run state in the relationship with the user terminal, and between the Power On state and the Power Off state through the power button
상기 휴대용 서버는,
상기 Standby 상태에서, 상기 통신 모듈이 On 상태이고, 상기 제어 모듈이 슬립 상태이고,
상기 Ready 상태에서, 상기 제어 모듈이 On 상태로 전환되는 것을 특징으로 하는, 통역방법.The method of claim 27,
The portable server,
In the standby state, the communication module is in the on state, the control module is in the sleep state,
And in the ready state, the control module is switched to the on state.
상기 음성을 인식하는 단계는,
발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 단계를 포함하는 것을 특징으로 하는, 통역방법.The method according to claim 22,
Recognizing the voice,
Determining a tone using a sound spectrum of the talker voice, and distinguishing the talker of the simultaneous spoken heterologous voice according to the determined tone.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170116567A KR102056330B1 (en) | 2017-09-12 | 2017-09-12 | Apparatus for interpreting and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170116567A KR102056330B1 (en) | 2017-09-12 | 2017-09-12 | Apparatus for interpreting and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190029237A KR20190029237A (en) | 2019-03-20 |
KR102056330B1 true KR102056330B1 (en) | 2019-12-16 |
Family
ID=66036213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170116567A KR102056330B1 (en) | 2017-09-12 | 2017-09-12 | Apparatus for interpreting and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102056330B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220063715A (en) * | 2020-11-10 | 2022-05-17 | 한국전자통신연구원 | System and method for automatic speech translation based on zero user interface |
US11977855B2 (en) | 2020-11-10 | 2024-05-07 | Electronics And Telecommunications Research Institute | System and method for automatic speech translation based on zero user interface |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112435690B (en) * | 2019-08-08 | 2024-06-04 | 百度在线网络技术(北京)有限公司 | Duplex Bluetooth translation processing method, duplex Bluetooth translation processing device, computer equipment and storage medium |
US11776557B2 (en) | 2020-04-03 | 2023-10-03 | Electronics And Telecommunications Research Institute | Automatic interpretation server and method thereof |
KR102592613B1 (en) * | 2020-04-03 | 2023-10-23 | 한국전자통신연구원 | Automatic interpretation server and method thereof |
KR102168301B1 (en) * | 2020-04-16 | 2020-10-21 | 주식회사 넷브리지 | Hybrid management system for hotel room |
US20230377592A1 (en) * | 2020-09-25 | 2023-11-23 | Amosense Co., Ltd. | Voice processing device and operating method therefor |
DE102021130318A1 (en) | 2021-01-05 | 2022-07-07 | Electronics And Telecommunications Research Institute | System, user terminal and method for providing an automatic interpretation service based on speaker separation |
KR102584436B1 (en) * | 2021-01-05 | 2023-10-05 | 한국전자통신연구원 | System, user device and method for providing automatic interpretation service based on speaker separation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101421621B1 (en) | 2013-07-30 | 2014-07-22 | (주)블루랩스 | Smartphone terminal with language translation and language translation system comprising the same |
KR101589433B1 (en) * | 2009-03-11 | 2016-01-28 | 삼성전자주식회사 | Simultaneous Interpretation System |
WO2017052538A1 (en) * | 2015-09-22 | 2017-03-30 | Facebook, Inc. | Universal translation |
-
2017
- 2017-09-12 KR KR1020170116567A patent/KR102056330B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101589433B1 (en) * | 2009-03-11 | 2016-01-28 | 삼성전자주식회사 | Simultaneous Interpretation System |
KR101421621B1 (en) | 2013-07-30 | 2014-07-22 | (주)블루랩스 | Smartphone terminal with language translation and language translation system comprising the same |
WO2017052538A1 (en) * | 2015-09-22 | 2017-03-30 | Facebook, Inc. | Universal translation |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220063715A (en) * | 2020-11-10 | 2022-05-17 | 한국전자통신연구원 | System and method for automatic speech translation based on zero user interface |
KR102588212B1 (en) * | 2020-11-10 | 2023-10-13 | 한국전자통신연구원 | System and method for automatic speech translation based on zero user interface |
US11977855B2 (en) | 2020-11-10 | 2024-05-07 | Electronics And Telecommunications Research Institute | System and method for automatic speech translation based on zero user interface |
Also Published As
Publication number | Publication date |
---|---|
KR20190029237A (en) | 2019-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102056330B1 (en) | Apparatus for interpreting and method thereof | |
KR102108500B1 (en) | Supporting Method And System For communication Service, and Electronic Device supporting the same | |
JP6113302B2 (en) | Audio data transmission method and apparatus | |
CN111128126A (en) | Multi-language intelligent voice conversation method and system | |
KR101423258B1 (en) | Method for supplying consulting communication and apparatus using the method | |
KR20140120560A (en) | Interpretation apparatus controlling method, interpretation server controlling method, interpretation system controlling method and user terminal | |
US20110270601A1 (en) | Universal translator | |
JP2002125050A5 (en) | ||
CN102903361A (en) | Instant call translation system and instant call translation method | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
CN110493123B (en) | Instant messaging method, device, equipment and storage medium | |
JPWO2017200074A1 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
JP2011504624A (en) | Automatic simultaneous interpretation system | |
JP2014191029A (en) | Voice recognition system and method for controlling voice recognition system | |
KR101959439B1 (en) | Method for interpreting | |
US10143027B1 (en) | Device selection for routing of communications | |
WO2014020835A1 (en) | Agent control system, method, and program | |
KR102056329B1 (en) | Method for interpreting | |
KR20190032557A (en) | Voice-based communication | |
US11172527B2 (en) | Routing of communications to a device | |
KR102181583B1 (en) | System for voice recognition of interactive robot and the method therof | |
KR20200090580A (en) | System and method for interpreting and translating using smart clothes | |
KR101999779B1 (en) | Method for interpreting | |
JP6583193B2 (en) | Spoken dialogue system and spoken dialogue method | |
CN111667829A (en) | Information processing method and device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |