KR20110132960A - Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals - Google Patents

Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals Download PDF

Info

Publication number
KR20110132960A
KR20110132960A KR1020100119654A KR20100119654A KR20110132960A KR 20110132960 A KR20110132960 A KR 20110132960A KR 1020100119654 A KR1020100119654 A KR 1020100119654A KR 20100119654 A KR20100119654 A KR 20100119654A KR 20110132960 A KR20110132960 A KR 20110132960A
Authority
KR
South Korea
Prior art keywords
interpreter
voice
interpretation
language
terminal
Prior art date
Application number
KR1020100119654A
Other languages
Korean (ko)
Other versions
KR101412657B1 (en
Inventor
윤승
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US13/151,648 priority Critical patent/US8798985B2/en
Priority to JP2011125040A priority patent/JP5628749B2/en
Publication of KR20110132960A publication Critical patent/KR20110132960A/en
Application granted granted Critical
Publication of KR101412657B1 publication Critical patent/KR101412657B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

PURPOSE: An interpretation method using an interaction communication between two communication terminals and apparatus thereof are provided to improve a voice recognition performance by automatically establishing an interpretation target language. CONSTITUTION: A communication unit(200) transmits and receives data. A voice recognition unit(202) recognizes the voice input of a user. A interpretation unit(214) interprets a language requested by recognized voice. A voice composition unit(204) synchronizes a interpreted sentence with the voice. A control unit(206) establishes an interpretation target language and other interpretation terminal through the communication unit. The control unit controls the interpretation of the inputted voice and voice output.

Description

두 대 이상의 통역 단말기간 상호 통신을 이용한 통역 방법 및 장치{METHOD AND APPARATUS FOR IMPROVING AUTOMATIC INTERPRETATION FUNCTION BY USE OF MUTUAL COMMUNICATION BETWEEN PORTABLE INTERPRETATION TERMINALS}Interpretation method and device using mutual communication between two or more interpreting terminals

본 발명은 통역 단말기를 이용한 통역 방법에 관한 것으로, 특히 사용자 정보를 전달받아 여기에 포함되어 있는 사용자 언어 정보 및 통역 가능 언어 정보를 인식함으로써 통역 대상 언어를 자동 설정하여 자동 통역을 원활하게 수행할 수 있고, 통역 대상 영역 정보를 전달받아 사용자와 상대방간의 통역 대상 영역을 자동으로 동기화하여 사용자의 설정 없이도 해당 영역에 맞는 자동 통역이 이루어질 수 있도록 하며, 또한 잡음신호 정보 전달을 통한 음성 인식 성능 향상과 번역 결과 문장 전달을 통한 음성 언어 이해 과정을 거쳐 음성 인식 및 번역 성능을 향상시킬 수 있도록 하는 두 대 이상의 통역 단말기간 상호 통신을 이용한 통역 방법 및 그 장치에 관한 것이다.
The present invention relates to an interpreting method using an interpreting terminal. In particular, by receiving user information and recognizing user language information and interpretable language information included therein, automatic interpretation can be performed by automatically setting an interpreting target language. It receives the interpretation target area information and automatically synchronizes the interpretation target area between the user and the counterpart to enable automatic interpretation for the corresponding area without user's setting, and also improves speech recognition performance and translation through noise signal information transmission. The present invention relates to an interpretation method and apparatus using mutual communication between two or more interpreting terminals to improve speech recognition and translation performance through a speech language understanding process through sentence transmission.

종래에는 자동 통역이 주로 서버 및 워크스테이션 또는 PC에서 수행되어 왔다. 이는 자동 통역기술이 음성 인식, 기계 번역, 음성 합성의 세 가지 세부 기술로 이루어지는데 이들 기술 모두가 많은 계산량과 저장 장치를 필요로 하였기 때문이다. 그러나 스마트폰, PDA 등의 모바일 기기의 성능 향상이 이루어지고 이들이 자동 통역을 수행하기에 충분한 메모리를 가질 수 있게 되면서 자동 통역 기술을 휴대형 모바일 기기에 탑재하려는 시도가 다양하게 이루어지고 있다. 휴대형 모바일 기기에 자동 통역 기술이 탑재될 경우 사용자가 언제 어디서나 자동 통역 기능을 사용할 수 있게 되어 사용자의 편리성이 매우 높아진다는 장점이 있다.In the past, automatic interpretation has mainly been performed on servers and workstations or PCs. This is because the automatic interpretation technology consists of three detailed techniques: speech recognition, machine translation, and speech synthesis, all of which required a lot of computation and storage. However, as the performance of mobile devices such as smartphones and PDAs is improved and they have enough memory to perform automatic interpretations, various attempts have been made to incorporate automatic interpretation technology into portable mobile devices. When the portable mobile device is equipped with the automatic interpretation technology, the user can use the automatic interpretation function anytime and anywhere, and thus the user's convenience is very high.

그런데 종래의 휴대형 자동 통역 단말기를 이용한 자동 통역 기술은 자동 통역 결과를 음성 합성 또는 화면 디스플레이를 통해 통역 상대방에게만 전달할 뿐, 상대방이 소지하고 있는 휴대형 자동 통역 단말기와는 어떠한 정보도 교환하지 않음으로써 자동 통역 성능 향상에 도움을 줄 수 있는 여러 유용한 정보를 활용할 수 없게 된다는 문제를 지니고 있다.However, the conventional automatic interpretation technology using the portable automatic interpretation terminal only delivers the interpretation result to the interpreting party through voice synthesis or screen display, and does not exchange any information with the portable automatic interpretation terminal possessed by the other party. The problem is that you can't use a lot of useful information to help improve performance.

예를 들어 상대방이 어떤 언어를 사용하는 지에 대한 정보가 없는 경우 사용자가 어떠한 언어를 대상으로 자동 통역을 진행해야 할지 알 수 없다는 문제가 있다.For example, if there is no information about which language the other person speaks, there is a problem that the user cannot know which language should be automatically interpreted.

또한 자동 통역기의 성능에 따라서는 한번에 전체 영역을 대상으로 통역하는 것이 아니라 통역 대상 영역(식당, 쇼핑, 의료, 교통 등)을 미리 설정하고 이에 따라 범위를 제한하여 통역해야 하는 경우가 있을 수 있는데 사용자와 상대방 간에 이러한 정보가 일치되지 않은 상황에서는 상대방이 사용자에 맞추어 일일이 이를 수정해야 하는 불편함이 있다.
In addition, depending on the performance of the automatic interpreter, it may be necessary to set the interpretation target area (restaurant, shopping, medical care, transportation, etc.) in advance and limit the range accordingly rather than interpreting the entire area at once. In the situation where the information does not match between the other party and the other party, there is an inconvenience that the other party has to modify it manually.

자동 통역은 사람과 사람간의 대화이므로 자동 통역 과정에서 음성 언어 이해 과정을 통해 대화를 이해하고 이와 관련된 정보를 제공하면 음성 인식 및 번역 과정에 많은 도움을 줄 수 있다. 예를 들어 사용자가 이름을 묻고 있다면 다음 발화에서는 상대방이 이름을 대답할 것이 예상되므로 다음 음성 인식 과정에서 이름에 해당되는 정보에 가중치를 두거나 별도의 인명 사전을 검색하는 등 해당 정보가 제공되지 않는 경우와 비교할 때 효율적으로 대처할 수 있으며 번역 과정에서도 해당 정보는 이름의 경우 음역(Transliteration)을 하거나 또는 중의성이 있을 경우 이를 효율적으로 해소하는 데에 활용할 수 있는 보조 정보가 된다. 그런데 종래의 기술에서는 관련된 정보를 교환하지 않음으로 이러한 정보를 활용할 수 없다는 문제가 있다.Since the automatic interpretation is the conversation between people, understanding the dialogue through the speech language understanding process and providing the related information in the automatic interpretation process can greatly help the speech recognition and translation process. For example, if the user is asking for a name, the next speech is expected to be answered by the other party, so the next speech recognition process does not provide that information, such as weighting the information for the name or searching a separate life dictionary. Compared with, the information can be effectively coped with and in the process of translation, the information becomes a supplemental information that can be used to efficiently resolve the transliteration in case of a name or, if there is a neutrality. However, in the related art, there is a problem that such information cannot be utilized because the related information is not exchanged.

그리고 종래의 음성 인식 기술은 잡음에 매우 취약하여 잡음이 음성 신호와 함께 입력될 경우 음성 인식 성능이 매우 낮아진다는 문제가 있는데 휴대형 모바일 기기에서 자동 통역이 이루어지게 되면 지하철역, 쇼핑센터, 사람이 붐비는 식당 등 다양한 소음원에 노출된 곳에서 자동통역기가 사용될 것이 예상되므로 잡음으로 인한 음성 인식 성능 저하 문제에 필연적으로 노출될 것이 예상되는데 종래의 기술로는 이를 해소하기 어렵다.In addition, the conventional speech recognition technology is very vulnerable to noise, so when the noise is input with the voice signal, the speech recognition performance is very low. When the automatic translation is performed on the mobile mobile device, the subway station, the shopping center, and the crowd are crowded. It is expected that an automatic translator will be used in places exposed to various noise sources such as restaurants, so that it is inevitably exposed to the problem of deterioration of speech recognition performance due to noise, which is difficult to solve by conventional technology.

또한 조용한 경우와 이에 대비하여 소음이 심한 경우와 같이 상황에 따라 합성음의 크기를 다르게 조절할 필요가 있는데 종래의 기술로는 사용자가 수작업으로 조작하지 않고서는 이에 대처할 수 없다는 문제가 있다.In addition, there is a need to adjust the size of the synthesized sound differently depending on the situation, such as a quiet case and a case where the noise is severe, but there is a problem that the conventional technology cannot cope with it without the manual operation.

따라서, 두 대 이상의 휴대형 자동 통역 단말기간 통신을 통하여 자동 통역에 활용할 수 있는 정보를 교환함으로써 자동 통역 성능을 향상시키고자 한다. Therefore, it is intended to improve automatic interpretation performance by exchanging information that can be utilized for automatic interpretation through communication between two or more portable automatic interpretation terminals.

또한, 본 발명은 자동 통역 과정에서 사용자 언어 정보를 제공받아 통역 대상 언어를 자동 설정하고, 통역 대상 영역 정보를 전달받아 통역 대상 영역을 동기화 시키며, 전달받은 잡음 신호 정보를 이용해 음성 인식 성능을 향상시키고 합성음의 크기를 자동으로 설정하며 통역 결과 문장을 제공받아 이를 분석하고 이해하는 과정을 거쳐 추출한 대화 정보를 음성 인식 및 번역 과정에 활용하도록 한다.
In addition, the present invention is provided with the user language information in the automatic interpretation process automatically set the language of the interpretation target, receiving the interpretation target area information to synchronize the interpretation target region, using the received noise signal information to improve the speech recognition performance It automatically sets the size of the synthesized sound, receives the interpretation result sentence, analyzes and understands it, and uses the extracted dialogue information for speech recognition and translation process.

상술한 본 발명은 두 대 이상의 통역 단말기간 상호 통신을 이용한 통역 장치로서, 통역 단말기간 통역을 위해 필요한 데이터의 송/수신을 수행하는 통신부와, 사용자의 음성 입력을 음성 인식하는 음성인식부와, 상기 음성인식부를 통해 음성 인식된 음성을 통역 요청된 언어로 번역하는 번역부와, 상기 번역부를 통해 번역된 문장을 음성으로 합성하여 출력시키는 음성합성부와, 상기 통역 단말기를 이용한 통역 수행 요청이 있는 경우, 상기 통신부를 통해 상대방 통역 단말기와 통역 대상 언어를 설정하고, 상기 사용자로부터 입력되는 음성을 상기 언어로 번역하여 음성으로 출력시키는 제어부를 포함한다.The above-described present invention is an interpreter using mutual communication between two or more interpreting terminals, comprising: a communication unit for transmitting / receiving data required for interpretation between interpreting terminals, a speech recognition unit for recognizing a user's voice input; A translation unit for translating the voice recognized voice through the voice recognition unit into the language requested for interpretation, a voice synthesis unit for synthesizing and outputting the sentences translated through the translation unit, and an interpreter execution request using the interpretation terminal; In this case, the communication unit may be configured to set an interpreter target language with a counterpart interpreter terminal, and convert a voice input from the user into the language and output the voice.

또한, 상기 통신부는, 근거리 통신망, 이동통신망 또는 무선 통신망을 통해 상대방 통역 단말기와 통신을 수행하는 것을 특징으로 한다.In addition, the communication unit is characterized in that for performing communication with the other interpretation terminal via a local area network, a mobile communication network or a wireless communication network.

또한, 상기 근거리 통신망은, 블루투스 또는 WiFi 인 것을 특징으로 한다.In addition, the local area network, characterized in that the Bluetooth or WiFi.

또한, 상기 제어부는, 상기 통역 요청 시 통역 프로그램을 실행하여 상대방 통역 단말기로 연결을 요청하고, 상기 상대방 통역 단말기의 수락이 있는 경우, 상기 통신부를 통해 상기 상대방 통역 단말기와 통신 채널을 설정하여 상기 통역에 필요되는 정보를 송/수신하는 것을 특징으로 한다.In addition, the control unit, when the interpreter is requested to execute an interpreter program to request a connection to the other interpreter terminal, if the acceptance of the counterpart interpreter terminal, and establishes a communication channel with the counterpart interpreter terminal through the communication unit to the interpreter It is characterized in that for transmitting and receiving information required for.

또한, 상기 제어부는, 상기 상대방 통역 단말기와의 통역 수행이 종료되는 경우, 상기 통신 채널의 연결을 해제하는 것을 특징으로 한다.The controller may release the connection of the communication channel when the interpretation of the interpreter with the counterpart interpreter terminal is terminated.

또한, 상기 제어부는, 상기 상대방 통역 단말기와 통신 채널이 설정되는 경우, 통역을 수행할 사용자 언어 정보 및 통역 가능 언어 정보를 교환한 후 통역 대상 언어를 설정하는 것을 특징으로 한다.The controller may be further configured to set an interpretation target language after exchanging user language information and interpretable language information to be interpreted when a communication channel is established with the counterpart interpreter terminal.

또한, 상기 제어부는, 상기 상대방 통역 단말기와 통역이 가능한 언어가 존재하지 않는 경우, 통역 불가능 메시지를 사용자에게 표시하는 것을 특징으로 한다.In addition, the controller, if there is no language that can be interpreted with the counterpart interpreter terminal, it is characterized in that for displaying a non-interpretation message to the user.

또한, 상기 제어부는, 상기 상대방 통역 단말기와 통역이 가능한 언어가 존재하지 않는 경우, 상기 통신 채널의 연결을 해제한 후, 통역 프로그램을 종료하는 것을 특징으로 한다.The controller may terminate the interpreter program after releasing the connection of the communication channel when there is no language that can be interpreted with the counterpart interpreter terminal.

또한, 상기 제어부는, 상기 상대방 통역 단말기와 통역이 가능한 언어가 존재하는 경우, 상기 상대방 통역 단말기로 통역 대상 영역 정보를 전송하여 통역 대상 영역을 동기화시키는 것을 특징으로 한다.The controller may be further configured to synchronize an interpreter target area by transmitting interpreter target area information to the counterpart interpreter terminal when there is a language that can be interpreted with the counterpart interpreter terminal.

또한, 상기 통역 대상 영역 정보는, 상기 통역이 수행되는 장소 또는 상황 정보인 것을 특징으로 한다.In addition, the interpretation target area information, characterized in that the location or situation information that the interpretation is performed.

또한, 상기 제어부는, 상기 음성 인식 시, 상대방 통역 단말기로부터 잡음 신호를 전달받아 상기 사용자의 통역 단말기의 잡음 신호를 포함한 음성 신호와 동기화 시킨 후, 잡음 신호를 제거하고 음성신호만을 분리시키는 것을 특징으로 한다.The control unit may receive a noise signal from a counterpart interpreter terminal and synchronize it with a voice signal including a noise signal of the user's interpreter terminal to remove the noise signal and separate the voice signal. do.

또한, 상기 제어부는, 상기 전달받은 잡음 신호와 상기 사용자의 음성신호로부터 신호대잡음비(SNR)를 계산하고, 상기 신호대잡음비를 참조하여 상기 음성 합성되어 출력되는 음성의 크기를 조절하는 것을 특징으로 한다.The control unit may calculate a signal-to-noise ratio (SNR) from the received noise signal and the voice signal of the user, and adjust the size of the voice synthesized and output by referring to the signal-to-noise ratio.

또한, 상기 제어부는, 상기 상대방 통역 단말기로부터 상기 통역 언어로 번역된 문장을 수신받는 경우, 상기 번역된 문장으로부터 음성 언어 이해 과정을 거쳐 대화 정보를 추출하고, 상기 추출된 대화 정보를 이용하여 상기 사용자의 다음 음성 인식을 수행하는 것을 특징으로 한다.The controller may be further configured to, when receiving a sentence translated into the interpreting language from the counterpart interpreter terminal, extracts conversation information from the translated sentence through a speech language understanding process, and uses the extracted conversation information to the user. Next, the speech recognition is performed.

또한, 본 발명은 두 대 이상의 통역 단말기간 통역을 수행하는 방법으로서, 통역 요청에 따라 상기 통역 단말기간 통신 채널을 설정하는 단계와, 상기 통신 채널을 설정하는 경우, 상기 통역 단말기간 통역 대상 언어와 통역 대상 영역 정보를 교환하는 단계와, 상기 정보의 교환을 통해 상기 통역을 수행할 통역 대상 언어를 설정하고, 하나의 통역 단말기에서 사용자의 음성을 입력받는 단계와, 상기 음성을 인식하여 상기 음성을 상기 통역 대상 언어로 번역하는 단계와, 상기 번역된 문장을 음성 합성하여 출력시키는 단계를 포함한다.In addition, the present invention provides a method for performing an interpretation between two or more interpreting terminals, the method comprising the steps of setting a communication channel between the interpreter terminal in accordance with the request for interpretation, and, when setting the communication channel, Exchanging interpretation target area information, setting an interpretation target language through the exchange of information, receiving a user's voice at one interpreter terminal, and recognizing the voice to recognize the voice; Translating the interpreted language into a target language, and synthesizing and outputting the translated sentence.

또한, 상기 음성 합성하여 출력시키는 단계이후, 상기 통역 대상 언어로 번역된 문장을 상대방 통역 단말기로 전송하는 단계를 더 포함하는 것을 특징으로 한다.The method may further include transmitting a sentence translated into the interpreting target language to a counterpart interpreter terminal after outputting the synthesized speech.

또한, 상기 통신 채널은, 근거리 통신망, 이동통신망 또는 무선 통신망을 통해 상기 통역 단말기간 설정되는 것을 특징으로 한다.The communication channel may be set between the interpreter terminals through a local area network, a mobile communication network, or a wireless communication network.

또한, 상기 음성 인식 시, 상대방 통역 단말기로부터 잡음 신호를 전달받아 상기 사용자의 통역 단말기의 잡음 신호를 포함한 음성 신호와 동기화 시킨 후, 잡음 신호를 제거하고 음성신호만을 분리시키는 것을 특징으로 한다.In addition, the voice recognition, after receiving the noise signal from the other interpreter terminal to synchronize with the voice signal including the noise signal of the user's interpreter terminal, characterized in that to remove the noise signal and to separate only the voice signal.

또한, 상기 음성 합성 시, 상기 전달받은 잡음 신호와 상기 사용자의 음성신호로부터 신호대잡음비(SNR)를 계산하고, 상기 신호대잡음비를 참조하여 상기 음성 합성되어 출력되는 음성의 크기를 조절하는 것을 특징으로 한다.In addition, during speech synthesis, a signal-to-noise ratio (SNR) is calculated from the received noise signal and the voice signal of the user, and the volume of the speech-synthesized speech output is adjusted with reference to the signal-to-noise ratio. .

또한, 상기 통역 단말기간 통역 가능한 언어가 존재하지 않는 경우, 상기 통역의 수행이 불가능함을 알리는 메시지를 표시시키는 단계를 더 포함하는 것을 특징으로 한다.
In addition, if there is no language that can be interpreted between the interpreter terminal, characterized in that it further comprises the step of displaying a message indicating that the interpretation is impossible.

본 발명에 따르면 사용자 정보를 전달받아 여기에 포함되어 있는 사용자 언어 정보 및 통역 가능 언어 정보를 인식함으로써 통역 대상 언어를 자동 설정하여 자동 통역을 원활하게 수행할 수 있게되고 통역 대상 영역 정보를 전달받아 사용자와 상대방간의 통역 대상 영역을 자동으로 동기화하여 사용자의 설정 없이도 해당 영역에 맞는 자동 통역이 이루어지도록 하여 사용자의 편의성을 높일 수 있는 이점이 있다. According to the present invention, by receiving user information and recognizing user language information and interpretable language information included therein, it is possible to automatically set an interpreter target language so that automatic interpretation can be performed smoothly and the interpreter target area information is received. By automatically synchronizing the interpretation target area between the counterpart and the other party, there is an advantage that the user's convenience can be enhanced by allowing automatic interpretation for the corresponding area without user's setting.

또한, 잡음 신호 정보를 이용해 음성 신호만 효과적으로 추출해 냄으로써 음성 인식 성능을 향상시킬 수 있으며, 잡음 신호 정보를 이용해 상황에 맞게 합성음의 크기를 자동 조절하여 자동 통역과정에서의 편의성을 더욱 높일 수 있는 이점이 있다. 또한, 통역 결과 문장을 제공받아 이를 분석하고 이해하는 과정을 거쳐 추출한 대화 정보를 음성 인식 및 번역 과정에 활용함으로써 자동 통역 성능을 향상시킬 수 있는 이점이 있다.
In addition, it is possible to improve the speech recognition performance by effectively extracting only the speech signal using the noise signal information, and to increase the convenience in the automatic interpretation process by automatically adjusting the synthesized sound volume according to the situation using the noise signal information. have. In addition, there is an advantage that can improve the automatic interpretation performance by using the dialogue information extracted through the process of receiving and interpreting the interpretation result sentence for speech recognition and translation process.

도 1은 본 발명의 실시 예에 따른 통역을 위한 휴대형 통역 단말기의 구성도,
도 2는 본 발명의 실시 예에 따른 통역 단말기의 상세 블록 구성도,
도 3은 본 발명의 실시 예에 따른 통역 단말기간 통역을 위한 동작 제어 흐름도.
1 is a block diagram of a portable interpretation terminal for interpretation according to an embodiment of the present invention,
2 is a detailed block diagram of an interpretation terminal according to an embodiment of the present invention;
3 is an operation control flowchart for the interpretation between the interpretation terminal according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, with reference to the accompanying drawings will be described in detail the operating principle of the present invention. In the following description of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intentions or customs of the user, the operator, and the like. Therefore, the definition should be based on the contents throughout this specification.

도 1은 본 발명의 실시 예에 따른 휴대형 자동 통역 단말기간 통신 개념을 도시한 것이다.1 illustrates a communication concept between a portable automatic interpretation terminal according to an embodiment of the present invention.

언어가 서로 다른 사용자간 통역을 수행하기 위해 제1 통역 단말기(100)와 제2 통역 단말기(102)가 구성된다.The first interpreter terminal 100 and the second interpreter terminal 102 are configured to perform interpretation between users of different languages.

제1 통역 단말기(100)는 통역을 수행하는 경우 제2 통역 단말기(102)와의 통신을 통해 통역을 수행할 언어를 설정하고, 사용자로부터 입력된 음성을 인식한 후, 인식된 문장에 대해 통역할 대상 언어로 번역하고, 번역된 문장을 음성으로 합성하여 출력시킨다.When performing the interpretation, the first interpreter terminal 100 sets a language for interpreting through communication with the second interpreter terminal 102, recognizes a voice input from the user, and interprets the recognized sentence. Translated into the target language, synthesized by the speech to output the voice.

제2 통역 단말기(102)는 통역을 수행하는 경우 제1 통역 단말기(100)와의 통신을 통해 통역을 수행할 언어를 설정하고, 사용자로부터 입력된 음성을 인식한 후, 인식된 문장에 대해 통역할 대상 언어로 번역하고, 번역된 문장을 음성으로 합성하여 출력시킨다.When performing the interpretation, the second interpretation terminal 102 sets the language to be interpreted through communication with the first interpretation terminal 100, recognizes the voice input from the user, and then interprets the recognized sentence. Translated into the target language, synthesized by the speech to output the voice.

도 2는 본 발명의 실시 예에 따른 통역 단말기의 블록 구성을 도시한 것이다.2 is a block diagram of an interpreter terminal according to an exemplary embodiment of the present invention.

통신부(200)는 블루투스(bluetooth) 등의 근거리 통신 수단 또는 WiFi 또는 무선 통신망을 통해 서로 다른 휴대형 통역 단말기와 통신을 수행한다.The communication unit 200 communicates with different portable interpreter terminals through a short range communication means such as Bluetooth, or WiFi or a wireless communication network.

음성인식부(202)는 사용자로부터 통역 수행을 위해 입력되는 음성을 인식한다. 이때 음성인식부(202)는 주변에서 입력되는 잡음 신호와 상대방의 휴대형 통역 단말기로부터 전달받은 잡음신호를 비교하여 잡음을 제거한 후, 음성 인식을 수행하게 된다.The voice recognition unit 202 recognizes a voice input from the user for interpretation. At this time, the voice recognition unit 202 compares the noise signal input from the surrounding area with the noise signal received from the portable interpretation terminal of the other party, removes the noise, and performs voice recognition.

음성합성부(204)는 음성인식부(202)를 통해 입력된 사용자의 음성을 통역할 대상 언어로 음성 합성한다. 이때 음성합성부(204)는 음성인식부(202)로부터 측정된 주변 잡음 신호의 세기를 참고하여 음성 합성되어 출력되는 음성신호의 세기를 결정하게 된다.The voice synthesizer 204 synthesizes the voice of the user input through the voice recognizer 202 into a target language to be interpreted. In this case, the voice synthesizer 204 determines the strength of the voice signal synthesized and output by referring to the strength of the ambient noise signal measured by the voice recognizer 202.

번역부(214)는 음성인식부(202)로부터 입력되는 사용자의 음성에 대해 상대방과의 통역을 위해 지정되는 언어로 기계 번역을 수행한다.The translator 214 performs a machine translation on the voice of the user input from the voice recognizer 202 in a language designated for interpretation with the counterpart.

키입력부(208)는 통역 단말기(100)에서 사용되는 다수의 숫자키를 구비하고 있으며, 사용자가 소정의 키를 누를 때 해당하는 키데이터를 발생하여 제어부(206)로 출력한다. The key input unit 208 includes a plurality of numeric keys used in the interpreter terminal 100, and generates corresponding key data when the user presses a predetermined key and outputs the corresponding key data to the control unit 206.

표시부(212)는 제어부(206)의 제어에 따라 통역 단말기(100)의 각종 정보를 표시하며, 키입력부(208)에서 발생되는 키데이터 및 제어부(206)의 각종 정보신호를 입력받아 디스플레이한다. The display unit 212 displays various information of the interpreter terminal 100 under the control of the controller 206, and receives and displays key data generated by the key input unit 208 and various information signals of the controller 206.

제어부(206)는 메모리부(210)에 저장된 동작 프로그램에 따라 통역 단말기(100)의 전반적인 동작을 제어한다. 위와 같은 동작 프로그램은 통역 단말기(100)의 동작에 필요한 기본적인 운영 시스템(operating system) 뿐만 아니라, 표시부(212)와 키입력부(208)를 연결하고, 데이터의 입/출력을 관리하거나, 통역 단말기(100)의 내부 애플리케이션(application) 등을 동작시키도록 제조 시 미리 프로그램밍(programing)되는 소프트웨어(software)를 통칭한다.The controller 206 controls the overall operation of the interpreter terminal 100 according to the operation program stored in the memory 210. The operation program as described above connects the display unit 212 and the key input unit 208 as well as the basic operating system required for the operation of the interpreter terminal 100, manages input / output of data, or interpreter terminal ( It refers to software that is preprogrammed at the time of manufacture to operate an internal application or the like of 100.

또한, 제어부(206)는 통역 수행 시 통신부(200)를 이용한 상대방 통역 단말기와 통신을 통해 통역 가능 언어, 통역 대상 영역 정보 등을 설정하고, 사용자로부터 입력되는 음성을 인식하여 통역 대상 언어로 번역한 후, 이를 음성 합성하여 출력시킴으로써 언어가 다른 사용자간 통역이 이루어질 수 있도록 한다.In addition, the controller 206 sets an interpretable language, an interpretation target area information, and the like through communication with the counterpart interpreter terminal using the communication unit 200 when interpreting, and recognizes a voice input from the user and translates it into an interpreted target language. After that, the speech is synthesized and output so that interpretation between users of different languages can be achieved.

도 3은 본 발명에 따른 두 대 이상의 휴대형 자동 통역 단말기간 상호 통신을 이용한 자동 통역 동작 제어 흐름을 도시한 것이다. 이하, 도 1 및 도 2를 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다.3 illustrates an automatic interpretation operation control flow using mutual communication between two or more portable automatic interpretation terminals according to the present invention. Hereinafter, embodiments of the present invention will be described in detail with reference to FIGS. 1 and 2.

먼저, 사용자는 통역이 필요한 대상과 만나게 되면 통역 단말기(100, 102)를 준비한다. 이때, 통역 단말기(100, 102)는 자동 통역 전용 단말기일 수도 있고 스마트폰, PDA(Personal Digital Assistant) 등의 자동 통역 프로그램 실행이 가능한 개인용 정보 단말기일수도 있으며 또한 자동 통역 프로그램 실행이 가능한 MID(Mobile Internet Device), 넷북, 노트북 등이 될 수도 있다. 다만 상대방과의 통신이 가능한 단말기여야 한다. First, the user prepares the interpreter terminal (100, 102) when it encounters a target that needs an interpreter. At this time, the interpreter terminal 100, 102 may be a dedicated terminal for automatic interpretation, or may be a personal information terminal capable of executing an automatic interpretation program such as a smartphone or a personal digital assistant (PDA). Internet Device), netbook, laptop, etc. It must be a terminal that can communicate with the other party.

이후, 자동 통역을 원하는 사용자 측에서 자신의 제1 통역 단말기(100)의 자동 통역 프로그램을 실행한다(S300). 자동 통역 프로그램을 실행하게 되면 제1 통역 단말기(100)는 상대방 제2 통역 단말기(102)와 통신 채널을 여는 것을 시도하게 된다(S302). 이때, 통신은 통신부(200)에 구비될 수 있는 블루투스 등의 근거리 통신 수단이나 WiFi, 경우에 따라서는 휴대폰의 통신망 등을 통해 상대방 제2 통역 단말기(102)로 연결하게 되며, 상대방에게 연결을 요청하여 상대방이 수락할 경우(S304), 제1 통역 단말기(100)와 제2 통역 단말기(102) 간에 통신 채널이 연결된다. 경우에 따라서 상대방이 통신 연결을 항상 허용하는 환경 설정을 해놓았을 경우 수락 과정 없이 통신 채널이 연결될 수도 있다. Thereafter, the user who wants the automatic interpretation executes the automatic interpretation program of his first interpretation terminal 100 (S300). When the automatic interpretation program is executed, the first interpreter terminal 100 attempts to open a communication channel with the second interpreter terminal 102 of the counterpart (S302). At this time, the communication is connected to the second interpreter terminal 102 of the other party through a short-range communication means such as Bluetooth, which may be provided in the communication unit 200, WiFi, or in some cases, a mobile communication network, and requests a connection to the other party. If the other party accepts (S304), the communication channel between the first interpreter terminal 100 and the second interpreter terminal 102 is connected. In some cases, the communication channel may be connected without an acceptance process when the other party sets an environment that allows communication connection.

이와 달리, 상대방이 거절할 경우 자동 통역 거절 메시지를 사용자에게 표시한 후(S306), 통신을 해제하고 자동 통역 프로그램을 종료한다(S346). 통신 채널이 확보되면, 제1 통역 단말기(100)는 먼저 사용자 언어 정보 및 통역 가능 언어 정보를 전달해 자동 통역을 위한 사용자와 상대방간의 사용 언어가 자동으로 설정되도록 한다(S308). On the contrary, if the counterpart rejects the automatic interpreter rejection message to the user (S306), the communication is released and the automatic interpreter program ends (S346). When the communication channel is secured, the first interpreter terminal 100 first transmits user language information and interpretable language information to automatically set a language used between the user and the counterpart for automatic interpretation (S308).

이어, 제1 통역 단말기(100)는 통역 가능 언어인지를 검사하고(S310), 만일 자동 통역이 불가능한 언어 사용자와 만났을 경우에는 제1 통역 단말기(100)는 자동 통역 불가능 메시지를 사용자에게 전달한 후(S314), 통신을 해제하고 자동 통역 프로그램을 종료한다(S346). Subsequently, the first interpreter terminal 100 checks whether it is an interpretable language (S310), and if it encounters a language user who is not capable of automatic interpretation, the first interpreter terminal 100 transmits an automatic interpretation impossible message to the user ( S314), the communication is released and the automatic interpretation program ends (S346).

그러나, 이때 만일 제2 통역 단말기(102)가 특정 영역을 설정하여 통역을 진행해야 하는 단말기일 경우 제1 통역 단말기(100)는 자동 통역 대상 언어를 설정하고(S316), 자동 통역이 가능한 언어 사용자와 통신이 연결되면 연결을 요청한 측 즉 제1 통역 단말기(100)에 설정되어 있는 자동 통역 대상 영역 정보를 상대방 제2 통역 단말기(102)로 전송해 자동 통역 대상 영역을 자동으로 동기화 한다(S318). However, in this case, if the second interpreter terminal 102 is a terminal that needs to proceed with interpretation by setting a specific region, the first interpreter terminal 100 sets an automatic interpretation target language (S316), and enables the user to automatically interpret the language. When the communication is connected with the terminal requesting the connection, that is, the automatic interpretation target area information set in the first interpreter terminal 100 is transmitted to the second interpreter terminal 102 of the other party to automatically synchronize the automatic interpretation target area (S318). .

다음으로, 사용자가 음성 인식을 시도할 경우(S320), 상대방 제2 통역 단말기(102)로 음성 인식을 시도한다는 정보가 전달되고, 제1 통역 단말기(100)와 제2 통역 단말기(102)가 동기를 맞추어 음성 및 주변 잡음 신호를 입력받게 된다(S322). Next, when the user attempts to recognize the voice (S320), the information that attempts to recognize the voice to the other interpreter terminal 102 is transmitted, the first interpreter terminal 100 and the second interpreter terminal 102 In synchronization, the voice and ambient noise signals are input (S322).

그러면, 상대방 제2 통역 단말기(102)에서는 입력받은 주변 잡음 신호를 디지털 신호로 바꾸어 통신 채널을 통해 음성 인식을 시도하는 사용자의 제1 통역 단말기(100)로 전달하게 되고, 해당 사용자의 제1 통역 단말기(100)는 음성 인식 과정에서 디지털 신호로 입력이 들어온 주변 잡음 신호와 해당 사용자의 제1 통역 단말기(100)에서 입력받은 잡음이 섞여 있는 음성 신호를 비교해 두 신호간에 일치하는 부분을 잡음으로 인식하여 잡음 신호를 제거하고 음성 신호만을 분리해 이를 이용해 음성 인식을 실시하게 된다(S324). Then, the second interpreter terminal 102 of the other party converts the received ambient noise signal into a digital signal and transfers it to the first interpreter terminal 100 of the user who attempts to recognize the voice through the communication channel. The terminal 100 compares an ambient noise signal that is input as a digital signal in a voice recognition process with a speech signal in which the noise received by the user's first interpreter terminal 100 is mixed and recognizes a portion corresponding to the two signals as noise. By removing the noise signal to separate only the voice signal to perform the speech recognition using this (S324).

이때, 2채널 신호처리를 통한 잡음제거 방법은 다양한 기술이 알려져 있으므로 이들을 적용할 수 있다. 이렇게 분리된 음성 신호를 이용한 음성 인식이 끝나면, 전달받은 잡음신호를 이용해서 합성음 크기를 설정하고(S326), 이를 기계 번역 모듈인 번역부(214)에 넘겨 번역을 실시한다(S328). 이어 번역된 결과를 상대방 제2 통역 단말기(102)로 전송하게 된다. 동시에 음성 합성 및 화면 디스플레이를 통해 상대방에게도 통역 결과를 전달한다(S330). At this time, the noise reduction method through the two-channel signal processing can be applied to a variety of techniques are known. After the speech recognition using the separated speech signal is completed, the synthesized loudness is set using the received noise signal (S326), and it is transferred to the translation unit 214, which is a machine translation module, to perform translation (S328). Then, the translated result is transmitted to the second interpreter terminal 102. At the same time, the interpretation result is also transmitted to the other party through the speech synthesis and the screen display (S330).

이때, 합성음의 크기 설정 단계(S326)에서는 이전에 전달받은 잡음 신호 정보와 사용자 단말기의 음성 신호 정보를 이용하여 SNR(Signal-to-noise ratio)을 계산하여 주변 소음 상황에 맞추어 적절한 크기로 출력한다. At this time, in the step of setting the synthesized sound level (S326), the signal-to-noise ratio (SNR) is calculated by using the noise signal information previously received and the voice signal information of the user terminal, and then output in an appropriate size according to the ambient noise situation. .

한편, 상대방 제2 통역 단말기(102)에서는 입력받은 문장을 대상으로 음성 언어 이해 모듈을 통해 해당 문장을 분석하고 이 과정에서 사용자 의도를 추출해 이를 기반으로 다음 발화를 예측하고 해당 정보를 이용하여 음성 인식 과정에 활용한다(S332). On the other hand, the second interpreter terminal 102 of the other party analyzes the sentence through the speech language understanding module on the input sentence, extracts the user's intention in this process, predicts the next utterance based on this, and recognizes the speech using the corresponding information. It is used in the process (S332).

해당 정보는 다양하게 추출될 수 있으나 예를 들어 '예약하신 분 이름을 알려 주세요'와 같은 문장이 입력되었다면 해당 문장은 화행(Speech Act)이 '요청'이고 요청 대상은 '이름'이며 그 '이름' 속성으로 '예약자'를 갖는다는 것을 분석해 낼 수 있다. 이를 바탕으로 기구축된 대화 모델을 통하여 다음 발화는 이름이 나올 것이라는 것을 예측할 수 있다. The information can be extracted in various ways. For example, if a sentence such as 'Please tell me the name of the person who made a reservation' is entered, the sentence has a Speech Act of 'Request' and a request for 'Name'. We can analyze that we have a 'reserver' as an attribute. Based on this, the structured dialogue model can predict that the next speech will be named.

이 경우 음성 인식 과정에서는 이러한 대화 정보를 활용한 음성 인식을 수행할 수 있다. 여기서 대화 정보를 활용한 음성 인식이라 함은 언어 모델의 탐색 공간을 이름이 포함된 발화로 제약하거나 인명의 경우 일반적으로 음성 인식기의 사전 크기 제약 때문에 인명 전체를 인식 단어에 포함시키지 못하게 되나 해당 발화에서는 '이름'에 해당되는 부분만 별도로 대용량 인명 음성 인식기를 수행하는 등의 음성 인식 성능을 향상시킬 수 있는 방법을 적용할 수 있다. In this case, the speech recognition process may perform speech recognition using the conversation information. Here, speech recognition using dialogue information means that the search space of the language model is limited to speech containing names or, in the case of human life, the entire name cannot be included in the recognized words due to the dictionary size constraint of the speech recognizer. Only a part corresponding to the 'name' can be applied to improve the speech recognition performance such as performing a large-scale human voice recognizer separately.

이어, 제2 통역 단말기(102)의 사용자에 의해 제1 통역 단말기(100)로부터 통역되어 출력된 음성에 응답하기 위한 음성 시도가 있는 경우, 제2 통역 단말기(102)는 음성 인식을 수행한다(S334). Subsequently, when there is a voice attempt to respond to the voice interpreted and output from the first interpreter terminal 100 by the user of the second interpreter terminal 102, the second interpreter terminal 102 performs voice recognition ( S334).

이와 같이, 사용자가 음성 인식을 시도할 경우, 앞서 제1 통역 단말기(100)의 음성 인식 단계(S320)에서와 같이, 제1 통역 단말기(102)로 음성 인식을 시도한다는 정보가 전달되고, 제1 통역 단말기(100)와 제2 통역 단말기(102)가 동기를 맞추어 음성 및 주변 잡음 신호를 입력받게 된다(S336). As such, when the user attempts to recognize the voice, the information indicating that the user tries to recognize the voice is transmitted to the first interpreter terminal 102 as in the voice recognition step S320 of the first interpreter terminal 100. The first interpreter terminal 100 and the second interpreter terminal 102 are synchronized with each other and receive a voice and ambient noise signal (S336).

그러면, 제1 통역 단말기(100)에서는 입력받은 주변 잡음 신호를 디지털 신호로 바꾸어 통신 채널을 통해 음성 인식을 시도하는 상대방 제2 통역 단말기(102)로 전달하게 되고, 제2 통역 단말기(102)는 음성 인식 과정에서 제1 통역 단말기(100)로부터 디지털 신호로 입력이 들어온 주변 잡음 신호와 제2 통역 단말기(100)에서 입력받은 잡음이 섞여 있는 음성 신호를 비교해 두 신호간에 일치하는 부분을 잡음으로 인식하여 잡음 신호를 제거하고 음성 신호만을 분리해 이를 이용해 음성 인식을 실시하게 된다. Then, the first interpreter terminal 100 converts the received ambient noise signal into a digital signal and transmits it to the second interpreter terminal 102 that attempts to recognize the voice through the communication channel, and the second interpreter terminal 102 In the speech recognition process, a noise corresponding to the two signals is compared by comparing the ambient noise signal inputted from the first interpreter terminal 100 into the digital signal and the speech signal mixed with the noise received from the second interpreter terminal 100 as noise. Therefore, the noise signal is removed, and only the voice signal is separated to perform voice recognition.

이어, 음성 인식이 끝나면, 전달받은 잡음신호를 이용해서 합성음 크기를 설정하고(S338), 전달받은 잡음 신호를 이용해 잡음을 제거 후, 잡음 제거된 신호와 대화 정보를 이용해 음성 인식 및 번역을 수행한다(S340).Subsequently, after speech recognition is completed, the synthesized loudness is set using the received noise signal (S338), the noise is removed using the received noise signal, and speech recognition and translation are performed using the noise-removed signal and dialogue information. (S340).

이때, 대화 정보를 이용한 음성 인식은 잡음 제거와 동시에 실시간으로 동작할 수도 있고 경우에 따라서는 잡음 제거된 신호를 대상으로 이후에 적용될 수도 있다. 이 경우에도 또한 잡음 신호를 이용하여 합성음 출력 크기를 결정한다. 그리고 해당 정보는 번역 모듈에도 전달되어 대화 정보를 활용한 번역을 수행할 수 있다. In this case, the speech recognition using the dialogue information may be operated in real time at the same time as the noise is removed, or in some cases, may be applied later to the signal from which the noise is removed. Also in this case, the noise signal is used to determine the synthesized sound output size. The information is also delivered to the translation module so that the translation can be performed using the dialogue information.

만일 '예약하신 분 이름을 알려 주세요'의 응답이 '제 이름은 홍길동입니다'라고 발화되었을 경우 해당 문장을 언어 이해 모듈을 거치게 되면 화행(Speech Act)이 '정보 제공'이고 정보 제공 대상은 본인의 '이름'이며 이름은 속성으로 '홍길동'이라는 것을 분석해 낼 수 있다. If the response of 'Please tell me the name of the person who made a reservation' is uttered 'My name is Hong Gil-dong', if the sentence is passed through the language understanding module, the Speech Act is 'Information' and the information subject is It can be analyzed that 'name' and name is 'hong gil dong' as an attribute.

번역 모듈에서는 해당 정보를 이용하여 만일 '홍길동'이라는 단어가 중의성이 있어 일반 사전에 등재되어 있더라도 이를 이용해 번역하지 않고 음역을 하게 된다. 이렇게 통역된 결과는 제1 통역 단말기(100)에 전송되어 다음 음성 인식 및 번역 과정에서 다시 활용된다(S342). In the translation module, if the word 'hong gil dong' is of importance, it is transliterated without translation using the information. The interpreted result is transmitted to the first interpreter terminal 100 and used again in the next voice recognition and translation process (S342).

또한, 음성 합성 및 화면 디스플레이를 통해 상대방에게도 통역 결과를 전송한다. 이러한 과정을 통하여 음성 인식 및 번역 성능을 향상시켜 자동 통역 성능을 높일 수 있다. 여기서는 한국어로 발성된 예에 대해서만 기술하였으나 실제로는 어떤 언어로 발화가 이루어지더라도 해당 언어의 음성 언어 이해 모듈이 탑재되어 있을 경우 음성 언어 이해를 통한 자동 통역 성능 향상이 가능하다. It also transmits the interpretation result to the other party through voice synthesis and screen display. Through this process, it is possible to improve the automatic recognition performance by improving the speech recognition and translation performance. Here, only the example spoken in Korean is described, but in reality, even if a speech is made in any language, if the speech language understanding module of the corresponding language is installed, the automatic interpretation performance can be improved by understanding the speech language.

이어, 상대방과 자동 통역이 끝났을 경우(S344), 자동 통역 프로그램을 종료하거나 연결을 해제하는 명령을 내림으로써 연결을 끊고 자동 통역 과정을 종료하게 된다(S346). 실시 예에서는 휴대형 자동 통역 단말기 두 대간의 상호 통신을 이용한 자동 통역 성능 향상 방법 및 장치에 관하여 기술하였지만 본 발명은 두 대에 한정되어 적용되지 않고 같은 공간에 있는 여러 대의 휴대형 자동 통역 단말기간에도 동일한 방법으로 적용될 수 있다. Subsequently, when the automatic interpretation with the other party is finished (S344), the connection is terminated by ending the automatic interpretation program or giving a command to release the connection (S346). In the embodiment, a method and apparatus for improving automatic interpretation performance using mutual communication between two portable automatic interpretation terminals have been described. However, the present invention is not limited to two, but the same method can be used between several portable automatic interpretation terminals in the same space. Can be applied.

또한 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나 구체적인 실시 예 외에도 통신을 통해 자동 통역 성능 향상에 도움이 되는 다양한 종류의 정보를 교환하여 자동 통역 성능을 향상시킬 수 있다는 것은 자명한 사실이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되지 않으며, 후술되는 특허 청구의 범위 뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
In addition, in the detailed description of the present invention has been described with respect to specific embodiments, it is obvious that the automatic interpretation performance can be improved by exchanging various kinds of information to help improve the automatic interpretation performance in addition to the specific embodiment. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined not only by the appended claims, but also by the equivalents of the claims.

100 : 제1 통역 단말기 102 : 제2 통역 단말기100: first interpreter terminal 102: second interpreter terminal

Claims (19)

통역 단말기간 통역을 위해 필요한 데이터의 송/수신을 수행하는 통신부와,
사용자의 음성 입력을 음성 인식하는 음성인식부와,
상기 음성인식부를 통해 음성 인식된 음성을 통역 요청된 언어로 번역하는 번역부와,
상기 번역부를 통해 번역된 문장을 음성으로 합성하여 출력시키는 음성합성부와,
상기 통역 단말기를 이용한 통역 수행 요청이 있는 경우, 상기 통신부를 통해 상대방 통역 단말기와 통역 대상 언어를 설정하고, 상기 사용자로부터 입력되는 음성을 상기 언어로 번역하여 음성으로 출력시키는 제어부
를 포함하는 통역 장치.
A communication unit for transmitting / receiving data necessary for interpretation between the interpreting terminals,
A voice recognition unit for recognizing a user's voice input;
A translation unit for translating the voice recognized voice into the language requested for interpretation through the voice recognition unit;
A speech synthesis unit for synthesizing the sentences translated through the translation unit and outputting the speech;
When the interpreter performs a request using the interpreter terminal, a controller configured to set an interpreter target language and an interpreter target language through the communication unit, translate the voice input from the user into the language, and output the voice as a voice.
Interpreter device comprising a.
제 1 항에 있어서,
상기 통신부는,
근거리 통신망, 이동통신망 또는 무선 통신망을 통해 상대방 통역 단말기와 통신을 수행하는 통역 장치.
The method of claim 1,
The communication unit,
Interpretation device for communicating with the other interpretation terminal through a local area network, a mobile communication network or a wireless communication network.
제 2 항에 있어서,
상기 근거리 통신망은,
블루투스 또는 WiFi 인 통역 장치.
The method of claim 2,
The local area network,
Interpreter device that is Bluetooth or WiFi.
제 1 항에 있어서,
상기 제어부는,
상기 통역 요청 시 통역 프로그램을 실행하여 상대방 통역 단말기로 연결을 요청하고, 상기 상대방 통역 단말기의 수락이 있는 경우, 상기 통신부를 통해 상기 상대방 통역 단말기와 통신 채널을 설정하여 상기 통역에 필요되는 정보를 송/수신하는 통역 장치.
The method of claim 1,
The control unit,
When the interpreter is requested, an interpreter program is executed to request a connection to the counterpart interpreter terminal, and when the counterpart interpreter terminal accepts the request, the communication unit establishes a communication channel with the counterpart interpreter terminal and transmits the information required for the interpreter. Receiving / Interpreting Device.
제 1 항에 있어서,
상기 제어부는,
상기 상대방 통역 단말기와의 통역 수행이 종료되는 경우, 상기 통신 채널의 연결을 해제하는 통역 장치.
The method of claim 1,
The control unit,
And an interpreter device for disconnecting the communication channel when the interpretation with the counterpart interpreter terminal is finished.
제 4 항에 있어서,
상기 제어부는,
상기 상대방 통역 단말기와 통신 채널이 설정되는 경우, 통역을 수행할 사용자 언어 정보 및 통역 가능 언어 정보를 교환한 후 통역 대상 언어를 설정하는 통역 장치.
The method of claim 4, wherein
The control unit,
And an interpreting device configured to set an interpreting target language after exchanging user language information and interpretable language information to be interpreted when a communication channel is established with the counterpart interpreter terminal.
제 6 항에 있어서,
상기 제어부는,
상기 상대방 통역 단말기와 통역이 가능한 언어가 존재하지 않는 경우, 통역 불가능 메시지를 사용자에게 표시하는 통역 장치.
The method according to claim 6,
The control unit,
And an interpreting device for displaying a non-interpreting message to the user when there is no language that can be interpreted with the counterpart interpreter terminal.
제 6 항에 있어서,
상기 제어부는,
상기 상대방 통역 단말기와 통역이 가능한 언어가 존재하지 않는 경우, 상기 통신 채널의 연결을 해제한 후, 통역 프로그램을 종료하는 통역 장치.
The method according to claim 6,
The control unit,
An interpreter device for terminating the interpreter program after disconnecting the communication channel if there is no language capable of interpreting with the counterpart interpreter terminal.
제 6 항에 있어서,
상기 제어부는,
상기 상대방 통역 단말기와 통역이 가능한 언어가 존재하는 경우, 상기 상대방 통역 단말기로 통역 대상 영역 정보를 전송하여 통역 대상 영역을 동기화시키는 통역 장치.
The method according to claim 6,
The control unit,
And an interpreter device for synchronizing the interpreter target area by transmitting information on the interpreter target area to the counterpart interpreter terminal when a language capable of interpreting with the counterpart interpreter terminal exists.
제 9 항에 있어서,
상기 통역 대상 영역 정보는,
상기 통역이 수행되는 장소 또는 상황 정보인 통역 장치.
The method of claim 9,
The interpretation target area information,
Interpretation device which is information on the place or situation where the interpretation is performed.
제 1 항에 있어서,
상기 제어부는,
상기 음성 인식 시, 상대방 통역 단말기로부터 잡음 신호를 전달받아 상기 사용자의 통역 단말기의 잡음 신호를 포함한 음성 신호와 동기화 시킨 후, 잡음 신호를 제거하고 음성신호만을 분리시키는 통역 장치.
The method of claim 1,
The control unit,
When the voice recognition, receiving the noise signal from the other interpreter terminal to synchronize with the voice signal including the noise signal of the user's interpreter terminal, after removing the noise signal and interpreting only the voice signal.
제 11 항에 있어서,
상기 제어부는,
상기 전달받은 잡음 신호와 상기 사용자의 음성신호로부터 신호대잡음비(SNR)를 계산하고, 상기 신호대잡음비를 참조하여 상기 음성 합성되어 출력되는 음성의 크기를 조절하는 통역 장치.
The method of claim 11,
The control unit,
And a signal-to-noise ratio (SNR) calculated from the received noise signal and the voice signal of the user, and adjusting the size of the voice synthesized and output with reference to the signal-to-noise ratio.
제 1 항에 있어서,
상기 제어부는,
상기 상대방 통역 단말기로부터 상기 통역 언어로 번역된 문장을 수신받는 경우, 상기 번역된 문장으로부터 음성 언어 이해 과정을 거쳐 대화 정보를 추출하고, 상기 추출된 대화 정보를 이용하여 상기 사용자의 다음 음성 인식을 수행하는 통역 장치.
The method of claim 1,
The control unit,
When receiving a sentence translated into the interpreting language from the counterpart interpreter terminal, the conversation information is extracted from the translated sentence through a speech language understanding process, and the next speech recognition is performed using the extracted conversation information. Interpreter.
두 대 이상의 통역 단말기간 통역을 수행하는 방법으로서,
통역 요청에 따라 상기 통역 단말기간 통신 채널을 설정하는 단계와,
상기 통신 채널을 설정하는 경우, 상기 통역 단말기간 통역 대상 언어와 통역 대상 영역 정보를 교환하는 단계와,
상기 정보의 교환을 통해 상기 통역을 수행할 통역 대상 언어를 설정하고, 하나의 통역 단말기에서 사용자의 음성을 입력받는 단계와,
상기 음성을 인식하여 상기 음성을 상기 통역 대상 언어로 번역하는 단계와,
상기 번역된 문장을 음성 합성하여 출력시키는 단계
를 포함하는 통역방법.
A method of interpreting between two or more interpreting terminals,
Establishing a communication channel between the interpreter terminals according to an interpreter request;
Exchanging an interpreted language and an interpreted region information between the interpreting terminals when setting the communication channel;
Setting an interpreting target language for performing the interpretation through the exchange of the information, and receiving a voice of a user at one interpreting terminal;
Recognizing the voice and translating the voice into the interpreted language;
Synthesizing and outputting the translated sentence
Interpretation method comprising a.
제 14 항에 있어서,
상기 음성 합성하여 출력시키는 단계이후,
상기 통역 대상 언어로 번역된 문장을 상대방 통역 단말기로 전송하는 단계
를 더 포함하는 통역방법.
The method of claim 14,
After outputting the speech synthesis,
Transmitting the translated sentence in the target language to a counterpart interpreter terminal
Interpretation method further comprising.
제 14 항에 있어서,
상기 통신 채널은,
근거리 통신망, 이동통신망 또는 무선 통신망을 통해 상기 통역 단말기간 설정되는 통역방법.
The method of claim 14,
The communication channel,
An interpretation method set up between the interpreter terminals through a local area network, a mobile communication network, or a wireless communication network.
제 14 항에 있어서,
상기 음성 인식 시, 상대방 통역 단말기로부터 잡음 신호를 전달받아 상기 사용자의 통역 단말기의 잡음 신호를 포함한 음성 신호와 동기화 시킨 후, 잡음 신호를 제거하고 음성신호만을 분리시키는 통역방법.
The method of claim 14,
When the voice recognition, receiving the noise signal from the other interpreter terminal to synchronize with the voice signal including the noise signal of the user's interpreter terminal, after removing the noise signal and the speech signal separation method.
제 14 항에 있어서,
상기 음성 합성 시,
상기 전달받은 잡음 신호와 상기 사용자의 음성신호로부터 신호대잡음비(SNR)를 계산하고, 상기 신호대잡음비를 참조하여 상기 음성 합성되어 출력되는 음성의 크기를 조절하는 통역방법.
The method of claim 14,
In the speech synthesis,
And a signal-to-noise ratio (SNR) calculated from the received noise signal and the voice signal of the user, and adjusting the size of the voice synthesized and output by referring to the signal-to-noise ratio.
제 14 항에 있어서,
상기 통역 단말기간 통역 가능한 언어가 존재하지 않는 경우, 상기 통역의 수행이 불가능함을 알리는 메시지를 표시시키는 단계를 더 포함하는 통역방법.
The method of claim 14,
And displaying a message indicating that the interpreter cannot be performed if there is no interpretable language between the interpreter terminals.
KR1020100119654A 2010-06-03 2010-11-29 Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals KR101412657B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/151,648 US8798985B2 (en) 2010-06-03 2011-06-02 Interpretation terminals and method for interpretation through communication between interpretation terminals
JP2011125040A JP5628749B2 (en) 2010-06-03 2011-06-03 Interpretation method using interpreter terminal and mutual communication between interpreter terminals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100052550 2010-06-03
KR1020100052550 2010-06-03

Publications (2)

Publication Number Publication Date
KR20110132960A true KR20110132960A (en) 2011-12-09
KR101412657B1 KR101412657B1 (en) 2014-06-27

Family

ID=45500801

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100119654A KR101412657B1 (en) 2010-06-03 2010-11-29 Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals

Country Status (1)

Country Link
KR (1) KR101412657B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160131855A (en) * 2015-05-08 2016-11-16 한국전자통신연구원 Method and apparatus for providing automatic speech translation service in face-to-face situation
KR20170022784A (en) * 2015-08-21 2017-03-02 한국전자통신연구원 Method for connecting automatic interpretation service in crowd
KR20180101943A (en) * 2017-03-06 2018-09-14 한남대학교 산학협력단 Multilingual translation system and method based on WPAN
US10489515B2 (en) 2015-05-08 2019-11-26 Electronics And Telecommunications Research Institute Method and apparatus for providing automatic speech translation service in face-to-face situation
US10643036B2 (en) 2016-08-18 2020-05-05 Hyperconnect, Inc. Language translation device and language translation method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584436B1 (en) * 2021-01-05 2023-10-05 한국전자통신연구원 System, user device and method for providing automatic interpretation service based on speaker separation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001251429A (en) * 2000-03-03 2001-09-14 Net Teimento:Kk Voice translation system using portable telephone and portable telephone
JP2001306564A (en) * 2000-04-21 2001-11-02 Nec Corp Portable terminal with automatic translation function

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160131855A (en) * 2015-05-08 2016-11-16 한국전자통신연구원 Method and apparatus for providing automatic speech translation service in face-to-face situation
US10489515B2 (en) 2015-05-08 2019-11-26 Electronics And Telecommunications Research Institute Method and apparatus for providing automatic speech translation service in face-to-face situation
KR20170022784A (en) * 2015-08-21 2017-03-02 한국전자통신연구원 Method for connecting automatic interpretation service in crowd
US10643036B2 (en) 2016-08-18 2020-05-05 Hyperconnect, Inc. Language translation device and language translation method
US11227129B2 (en) 2016-08-18 2022-01-18 Hyperconnect, Inc. Language translation device and language translation method
KR20180101943A (en) * 2017-03-06 2018-09-14 한남대학교 산학협력단 Multilingual translation system and method based on WPAN

Also Published As

Publication number Publication date
KR101412657B1 (en) 2014-06-27

Similar Documents

Publication Publication Date Title
JP5628749B2 (en) Interpretation method using interpreter terminal and mutual communication between interpreter terminals
US9507772B2 (en) Instant translation system
KR101834546B1 (en) Terminal and handsfree device for servicing handsfree automatic interpretation, and method thereof
US9864745B2 (en) Universal language translator
US9484017B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
WO2016165590A1 (en) Speech translation method and device
WO2014010450A1 (en) Speech processing system and terminal device
KR20110132960A (en) Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals
US20060253272A1 (en) Voice prompts for use in speech-to-speech translation system
KR20140142280A (en) Device for extracting information from a dialog
JP2019534492A (en) Interpretation device and method (DEVICE AND METHOD OF TRANSLATING A LANGUAGE INTO ANOTHER LANGUAGE)
KR101983310B1 (en) Interpreting and translating apparatus for multiple speakers
JP2019533181A (en) Interpretation device and method (DEVICE AND METHOD OF TRANSLATING A LANGUAGE)
KR20180131155A (en) Method, system and computer program for translation
KR101959439B1 (en) Method for interpreting
WO2018020828A1 (en) Translation device and translation system
JP2018045675A (en) Information presentation method, information presentation program and information presentation system
KR20140049922A (en) Language recognition apparatus using user information for mutilingual automated speech translation machine
TWM515143U (en) Speech translating system and translation processing apparatus
Gupta et al. Desktop Voice Assistant
KR20180066513A (en) Automatic interpretation method and apparatus, and machine translation method
CN109830239A (en) Voice processing apparatus, voice recognition input systems and voice recognition input method
TWI650749B (en) Voice processing device, voice recognition input system and voice recognition input method
RU2713874C2 (en) Mobile voice information device
KR20120019011A (en) Interaction service providing apparatus based on combination of users' information

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180529

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190527

Year of fee payment: 6