KR20220099083A - System, user device and method for providing automatic interpretation service based on speaker separation - Google Patents
System, user device and method for providing automatic interpretation service based on speaker separation Download PDFInfo
- Publication number
- KR20220099083A KR20220099083A KR1020210106300A KR20210106300A KR20220099083A KR 20220099083 A KR20220099083 A KR 20220099083A KR 1020210106300 A KR1020210106300 A KR 1020210106300A KR 20210106300 A KR20210106300 A KR 20210106300A KR 20220099083 A KR20220099083 A KR 20220099083A
- Authority
- KR
- South Korea
- Prior art keywords
- interpretation
- user
- voice
- speaker
- terminal
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Abstract
Description
본 발명은 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법에 관한 것이다.The present invention relates to a system, a user terminal, and a method for providing an automatic interpretation service based on speaker separation.
일반적으로 자동통역(또는 자동번역)은 사용자의 제1 언어를 인식하여 제2 언어로 통역한 후 상대방 단말로 송신하거나, 상대방 단말로부터 수신된 통역 결과를 합성하여 사용자에게 들려주는 구조로 되어 있다.In general, automatic interpretation (or automatic translation) has a structure in which a user's first language is recognized, interpreted in a second language, and then transmitted to a counterpart terminal, or an interpretation result received from the counterpart terminal is synthesized and presented to the user.
이러한 접근은 기본적으로 사용자와 상대방이 존재하는 면대면 대화를 목적으로 한다. 그러나 자동통역이 필요한 대부분의 상황은 사용자가 외국에 갔을 때 외국인과 대화(관광, 식당, 쇼핑, 호텔, 비즈니스 등)를 하거나 또는 공항 안내 음성, 여행지역 TV 뉴스, 주변 외국인 음성 등 상황 판단을 위해 주변에서 들리는 외국인의 음성을 이해하기 위함에 있다.This approach basically aims for a face-to-face conversation in which the user and the other party exist. However, in most situations that require automatic interpretation, when a user goes to a foreign country, it is necessary to have a conversation with a foreigner (tourism, restaurant, shopping, hotel, business, etc.) This is to understand the voices of foreigners around you.
즉, 면대면 대화뿐만 아니라 주변에서 들리는 외국인 음성을 통역하여 사용자에게 제공하는 것이 필요하나 이러한 기술이 부재한 실정이다.That is, it is necessary to provide the user with an interpretation of foreign voices heard in the vicinity as well as face-to-face conversation, but such a technology is absent.
본 발명이 해결하고자 하는 개별 장치에 입력되는 복수의 화자의 음성을 화자별로 구분하고 이를 사용자가 원하는 언어 음성으로 모두 변환하여 통역 결과를 제공하는, 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법을 제공하는 것이다.A system for providing an automatic interpretation service based on speaker separation, in which the voices of a plurality of speakers input to an individual device to be solved by the present invention are divided for each speaker and all of the voices of the user's desired language are converted to provide interpretation results, a user terminal and to provide a method.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.However, the problems to be solved by the present invention are not limited to the problems described above, and other problems may exist.
상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 사용자 단말에서의 화자분리 기반 자동통역 방법은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계; 상기 제1 음성신호를 화자별 음성신호로 분리하는 단계; 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함한다.In a speaker separation-based automatic interpretation method in a user terminal according to a first aspect of the present invention for solving the above problems, a first voice signal including at least one of a user's voice and a user's surrounding voice is received from an automatic interpretation service providing terminal to do; separating the first voice signal into voice signals for each speaker; interpreting the speech signal for each speaker into a language selected by a user based on the interpretation mode; and providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode.
본 발명의 일부 실시예에서, 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계는, 상기 통역 모드에 기초하여 상기 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하되, 상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받을 수 있다.In some embodiments of the present invention, the step of receiving the first voice signal including at least one of the user's voice and the user's surrounding voice from the automatic interpretation service providing terminal may include automatically interpreting the first voice signal based on the interpretation mode. Received from a service providing terminal, wherein the automatic interpretation service providing terminal may receive a user's voice through a microphone when the interpretation mode is a conversation mode, and may receive a user's surrounding voice through a microphone in the listening mode.
본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode may include selecting a user voice from among the separated voice signals for each speaker when the interpretation mode is a conversation mode. performing the interpretation, and providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode may include: It may be provided to the counterpart terminal, and an interpretation result of the counterpart's voice received from the counterpart terminal may be provided to the automatic interpretation service providing terminal.
본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode may include: when the interpretation mode is the listening mode, the voice surrounding the user among the separated voice signals for each speaker The step of selectively performing an interpretation and providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode may include: It can be divided and provided to the automatic interpretation service providing terminal.
본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하는 단계; 상기 추출된 상황정보를 버퍼 상에 저장하는 단계; 및 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 단계를 포함할 수 있다.In some embodiments of the present invention, the step of interpreting the speech signal for each speaker into a language selected by the user based on the interpretation mode includes at least one of speaker information, context information, and noise information from the user's surrounding voice. extracting information; storing the extracted context information in a buffer; and interpreting a speaker-specific voice signal included in the user's surrounding voice based on the extracted context information.
본 발명의 일부 실시예에서, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode includes: It is possible to classify and provide the interpretation result to the automatic interpretation service providing terminal by reflecting the strength information and the echo information of the voice signal divided for each speaker.
본 발명의 일부 실시예에서, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode may include: An interpretation result corresponding to the at least one speaker selected by , may be provided to the automatic interpretation service providing terminal.
또한, 본 발명의 제2 측면에 따른 화자분리 기반 자동통역 서비스를 제공하는 사용자 단말은 자동통역 서비스 제공 단말 및 상대방 단말과 데이터를 송수신하는 통신모듈, 자동통역 서비스 제공 단말로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신하면 이를 기반으로 통역 결과인 제2 음성신호를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 음성신호를 화자별 음성신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공한다.In addition, the user terminal providing the automatic interpretation service based on speaker separation according to the second aspect of the present invention includes a communication module for transmitting and receiving data with an automatic interpretation service providing terminal and a counterpart terminal, and a user's voice and user's surrounding voice from the automatic interpretation service providing terminal. and a memory in which a program for generating a second voice signal, which is an interpretation result, based on the reception of a first voice signal including at least one of is executed, the first voice signal is separated into voice signals for each speaker, and the voice signal for each speaker is interpreted into the language selected by the user based on the interpretation mode. 2 The voice signal is provided to at least one of the counterpart terminal and the automatic interpretation service providing terminal according to the interpretation mode.
본 발명의 일부 실시예에서, 상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받을 수 있다.In some embodiments of the present invention, the automatic interpretation service providing terminal may receive a user's voice through a microphone when the interpretation mode is a conversation mode, and may receive a user's surrounding voice through a microphone in the listening mode.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통신모듈을 통해 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, when the interpretation mode is a conversation mode, the processor selects a user's voice from among the separated voice signals for each speaker and performs an interpretation, and the processor performs an interpretation of the user's voice through the communication module. 2 The voice signal may be provided to the counterpart terminal, and the result of interpretation of the counterpart's voice received from the counterpart terminal may be provided to the automatic interpretation service providing terminal.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, when the interpretation mode is the listening mode, the processor selects a user's surrounding voice from among the separated speaker-specific voice signals to perform interpretation, and divides the interpretation result of the user's surrounding voice for each speaker Thus, it can be provided to the automatic interpretation service providing terminal through the communication module.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하여 상기 메모리의 버퍼 상에 저장하고, 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역할 수 있다.In some embodiments of the present invention, the processor extracts context information including at least one of speaker information, context information, and noise information from the surrounding voice of the user and stores the extracted context information in the buffer of the memory, and based on the extracted context information Thus, it is possible to interpret the voice signal for each speaker included in the voice around the user.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 제1 및 제2 음성신호와 상기 추출된 상황정보를 기반으로, 상기 제1 음성신호를 화자별 음성신호로 분리하기 위한 화자별 소스분리 모델, 상기 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신할 수 있다.In some embodiments of the present invention, the processor includes: a source separation model for each speaker for separating the first voice signal into a voice signal for each speaker based on the first and second voice signals and the extracted context information; The performance of the speech recognition model for recognizing the first speech signal, the machine translation model for translating the first speech signal, and the combined automatic interpretation model may be automatically updated.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the processor classifies a voice signal for each speaker from the extracted context information, and reflects the strength information and echo information of the voice signal divided for each speaker to automatically interpret the interpretation result through the communication module It can be provided as a service providing terminal.
본 발명의 일부 실시예에서, 상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the processor may provide an interpretation result corresponding to at least one speaker selected by the user among the interpretation results for the voice around the user to the automatic interpretation service providing terminal through the communication module. .
또한, 본 발명의 제3 측면에 따른 화자분리 기반 자동통역 서비스 제공 시스템은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 다채널 마이크를 통해 수신하고, 제1 음성신호에 대한 통역 결과 및 상대방 음성에 대한 통역 결과를 스피커를 통해 제공하는 자동통역 서비스 제공 단말, 상기 제1 음성신호를 수신하여 화자별 음성신호로 분리한 후, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 사용자 단말 및 상기 제2 음성신호를 사용자 단말로부터 수신하여 제공하고, 상기 통역 모드에 따라 상대방 음성을 통역하여 사용자 단말로 제공하는 상대방 단말을 포함한다.In addition, the speaker separation-based automatic interpretation service providing system according to the third aspect of the present invention receives a first voice signal including at least one of a user voice and a user's surrounding voice through a multi-channel microphone, and An automatic interpretation service providing terminal that provides an interpretation result and an interpretation result for the voice of the other party through a speaker, receives the first voice signal and separates it into a voice signal for each speaker, and then provides a voice signal for each speaker to the user based on the interpretation mode After interpreting in a language selected by and a counterpart terminal that interprets the counterpart's voice according to the interpretation mode and provides it to the user terminal.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.A computer program according to another aspect of the present invention for solving the above problems executes a system, a user terminal and a method for providing a speaker separation-based automatic interpretation service in combination with a computer, which is hardware, and is stored in a computer-readable recording medium do.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific details of the invention are included in the detailed description and drawings.
전술한 본 발명의 일 실시예에 의하면, 종래 면대면 자동통역 방법 대비 사용자는 주변의 복수의 화자의 음성을 모두 모국어로 변환하여 편리하게 정보 습득이 가능하다는 장점이 있다.According to the above-described embodiment of the present invention, compared to the conventional face-to-face automatic interpretation method, the user can conveniently acquire information by converting the voices of a plurality of surrounding speakers into their native language.
또한, 본 발명의 일 실시예는 종래의 면대면 방법과 혼합하여 대화 모드 및 듣기 모드가 모두 제공되는 자동통역 방식을 제공할 수 있다.In addition, an embodiment of the present invention can provide an automatic interpretation method in which both a conversation mode and a listening mode are provided by mixing with the conventional face-to-face method.
이와 더불어, 본 발명의 일 실시예는 언어 학습을 위한 보조 도구로 활용할 수 있으며, 사용자는 주변의 모국어 음성들을 원하는 언어로 통역하여 청취함으로써 외국어 회화 학습에도 응용할 수 있다.In addition, an embodiment of the present invention can be utilized as an auxiliary tool for language learning, and the user can also apply to foreign language conversation learning by interpreting and listening to surrounding native language voices in a desired language.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.
도 1은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자 단말을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 방법의 순서도이다.
도 4는 사용자 주변 음성을 설명하기 위한 도면이다.
도 5a 및 도 5b는 제1 음성신호를 화자별 음성신호로 분리하는 내용을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에서 제공하는 대화 모드를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에서 제공하는 듣기 모드를 설명하기 위한 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에서 상황정보를 추출 및 반영하는 내용을 설명하기 위한 도면이다.
도 10은 수집된 상황정보를 기반으로 제2 음선신호를 제공하는 내용을 종합하여 도시한 도면이다.
도 11은 자동통역 서비스 제공 단말에서 수행되는 각 과정을 설명하기 위한 도면이다.1 is a diagram schematically illustrating a speaker separation-based automatic interpretation service providing system according to an embodiment of the present invention.
2 is a block diagram illustrating a user terminal according to an embodiment of the present invention.
3 is a flowchart of an automatic interpretation method based on speaker separation according to an embodiment of the present invention.
4 is a diagram for explaining a user's surrounding voice.
5A and 5B are diagrams for explaining the content of dividing a first voice signal into a voice signal for each speaker.
6 is a diagram for explaining a conversation mode provided by an embodiment of the present invention.
7 is a diagram for explaining a listening mode provided in an embodiment of the present invention.
8 and 9 are diagrams for explaining the content of extracting and reflecting context information in an embodiment of the present invention.
FIG. 10 is a view showing the contents of providing a second sound line signal based on the collected situation information.
11 is a diagram for explaining each process performed in an automatic interpretation service providing terminal.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and those of ordinary skill in the art to which the present invention pertains. It is provided to fully inform those skilled in the art of the scope of the present invention, and the present invention is only defined by the scope of the claims.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural, unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components in addition to the stated components. Like reference numerals refer to like elements throughout, and "and/or" includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various elements, these elements are not limited by these terms, of course. These terms are only used to distinguish one component from another. Therefore, it goes without saying that the first component mentioned below may be the second component within the spirit of the present invention.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used herein will have the meaning commonly understood by those of ordinary skill in the art to which this invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless clearly specifically defined.
본 발명은 화자분리 기반 자동통역 서비스를 제공하는 시스템(1), 사용자 단말(100) 및 방법에 관한 것이다.The present invention relates to a system (1), a user terminal (100) and a method for providing an automatic interpretation service based on speaker separation.
본 발명은 자동통역에 있어 면대면(face-to-face) 대화를 목적으로 하는 종래방법과는 달리, 개별 장치에 입력되는 다수의 혼합된 화자들의 음성을 구분하여 사용자가 원하는 언어 음성으로 모두 변환하고, 복수의 화자들의 음성을 각 화자의 특성을 고려하여 사용자 단말(100)로 제공하는 것을 특징으로 한다. 여기에서 사용자가 원하는 언어는 모국어임이 일반적일 것이나 반드시 이에 한정되는 것은 아니다.Unlike the conventional method for the purpose of face-to-face conversation in automatic interpretation, the present invention divides the voices of a plurality of mixed speakers input to individual devices and converts them all into the language voice desired by the user. and providing the voices of a plurality of speakers to the
이를 통해 본 발명의 일 실시예는 사용자가 외국에 있는 등 이종 언어 환경(예를 들어, 해외여행 등)에 노출되어 있는 상태에서 주변 상황을 손쉽게 파악할 수 있도록 돕고, 사용자 주변 정보를 면대면 자동 통역 시스템에 활용하여 자동통역 성능 및 사용자 편의성을 개선할 수 있다.Through this, one embodiment of the present invention helps the user to easily understand the surrounding situation while being exposed to a heterogeneous language environment (eg, overseas travel, etc.) such as being in a foreign country, and automatically interprets information around the user face-to-face It can be used in the system to improve automatic interpretation performance and user convenience.
뿐만 아니라, 본 발명의 일 실시예는 모국어 환경에서도 적용이 가능하며, 가령 모국어 환경에서 사용자 주변 음성을 수신하여 영어로 통역된 결과를 제공받아, 외국어 학습에 이용할 수 있는 장점이 있다. 특히, 본 발명에서는 사용자 주변 음성에 대한 통역 결과 제공시 상황정보를 추가적으로 추출하여 합성된 음성신호에 반영하는 것을 특징으로 하고 있는바, 사용자 주변 음성에 포함된 복수의 화자들의 음성 각각에 대한 통역 결과뿐만 아니라, 이들의 통역 결과에 위치 정보가 더 반영되어 제공됨으로써 보다 생동감있는 외국어 학습이 가능하다는 효과가 있다.In addition, an embodiment of the present invention can be applied in a native language environment, for example, by receiving a user's surrounding voice in the native language environment and receiving the translated result into English, there is an advantage that it can be used for learning a foreign language. In particular, the present invention is characterized in that, when an interpretation result for the user's surrounding voice is provided, context information is additionally extracted and reflected in the synthesized voice signal. Interpretation results for each of the voices of a plurality of speakers included in the user's surrounding voice In addition, location information is more reflected and provided in their interpretation results, thereby enabling more lively foreign language learning.
한편, 본 발명의 일 실시예에서는 발화자와 청자가 모두 상이한 언어를 사용하는 환경에서의 동시통역을 대상으로 하고 있으나, 반드시 이에 한정되는 것은 아니다. Meanwhile, in an embodiment of the present invention, simultaneous interpretation in an environment in which both the speaker and the listener use different languages, but is not necessarily limited thereto.
이하에서는 도 1 내지 도 2를 참조하여 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1) 및 사용자 단말(100)에 대해 설명하도록 한다.Hereinafter, the speaker separation-based automatic interpretation
도 1은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1)을 개략적으로 설명하기 위한 도면이다. 도 2는 본 발명의 일 실시예에 따른 사용자 단말(100)을 설명하기 위한 블록도이다.1 is a diagram schematically illustrating a speaker separation-based automatic interpretation
본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1)은 사용자 단말(100), 자동통역 서비스 제공 단말(200) 상대방 단말(300)을 포함한다.The
먼저, 자동통역 서비스 제공 단말(200)은 사용자의 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성 신호를 다채널 마이크(210)를 통해 수신한다. 또한, 자동통역 서비스 제공 단말(200)은 제1 음성 신호에 대한 통역 결과를 사용자 단말(100)로부터 수신하거나 상대방 음성에 대한 통역 결과를 상대방 단말(300)로부터 수신하여 스피커(230)를 통해 제공한다. First, the automatic interpretation
이때, 자동통역 서비스 제공 단말(200)에는 통역 모드 선택 버튼(220)이 구비될 수도 있으며, 사용자에 의해 선택된 통역 모드에 따라 음성 수신 및 통역 결과를 제공한다.In this case, the automatic interpretation
일 실시예로 자동통역 서비스 제공 단말(200)은 스피커(230)와 마이크(210)를 구비하는 핸즈프리 단말의 형태로 제공될 수 있으나 반드시 이에 한정되는 것은 아니며, 스피커(230)와 마이크(210)를 구비하는 모든 단말은 자동통역 서비스 제공 단말(200)일 수 있다. 이에 따라, 자동통역 서비스 제공 단말(200)은 마이크(210) 및 스피커(230)를 구비하는 사용자 단말(100) 또는 상대방 단말(300)과 일체형으로 구성되어 제공될 수도 있음은 물론이다.In an embodiment, the automatic interpretation
도 2를 참조하면, 사용자 단말(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다. Referring to FIG. 2 , the
통신모듈(110)은 자동통역 서비스 제공 단말(200) 및 상대방 단말(300)과 데이터를 송수신한다. 즉, 통신모듈(110)은 실시간으로 사용자 음성의 통역 결과를 상대방 단말(300)로 제공해줄 수 있으며, 상대방 단말(300)로부터 수신한 상대방 음성의 통역 결과를 수신하여 자동통역 서비스 제공 단말(200)로 제공할 수 있다.The
이때, 통신 모듈(110)은 무선 통신모듈로 구성됨이 바람직하나 반드시 유선 통신 모듈을 배제하는 개념은 아니다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.In this case, the
메모리(120)에는 자동통역 서비스 제공 단말(200)로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성 신호를 수신하면 이를 기반으로 통역 결과인 제2 음성 신호를 생성하기 위한 프로그램이 저장된다.The
이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다. 예를 들어, 메모리는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.In this case, the
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 자동통역 서비스 제공 단말(200)로부터 수신한 제1 음성 신호를 화자별 음성 신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말(300)이나 자동통역 서비스 제공 단말(200)로 제공한다.As the program stored in the
상대방 단말(300)은 사용자 단말(100)과 동일하게 음성 신호를 수신하여 통역 결과를 사용자 단말(100)이나 상대방 단말(300)과 페어링된 자동통역 서비스 제공 단말(200)로 제공한다. 즉, 본 발명의 일 실시예에서 사용자 단말(100)과 상대방 단말(300)은 사용하는 주체에 따라 그 명칭을 구분한 것으로, 그 구성 및 기능은 서로 동일하다. The
한편, 본 발명에서의 사용자 단말(100) 및 상대방 단말(300)은 서버 시스템, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등이나, 휴대용 디바이스기에 인터넷 통신과 정보 검색 등 컴퓨터 지원 기능을 추가한 지능형 디바이스기일 수 있으며, 또한 사용자가 원하는 다수의 응용 프로그램(즉, 애플리케이션)을 설치하여 실행할 수 있는 휴대폰, 스마트 폰(smart phone), 패드(Pad), 스마트 워치(Smart watch), 웨어러블(wearable) 디바이스, 기타 이동통신 디바이스 등일 수 있다.On the other hand, the
이하에서는 도 3 내지 도 11을 참조하여 본 발명의 일 실시예에 따른 사용자 단말(100)에서 수행되는 화자분리 기반 자동통역 방법에 대해 보다 구체적으로 설명하도록 한다.Hereinafter, a speaker separation-based automatic interpretation method performed in the
도 3은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 방법의 순서도이다. 도 4는 사용자 주변 음성을 설명하기 위한 도면이다. 도 5a 및 도 5b는 제1 음성신호를 화자별 음성신호로 분리하는 내용을 설명하기 위한 도면이다.3 is a flowchart of an automatic interpretation method based on speaker separation according to an embodiment of the present invention. 4 is a diagram for explaining a user's surrounding voice. 5A and 5B are diagrams for explaining the content of dividing a first voice signal into a voice signal for each speaker.
먼저, 자동통역 서비스 제공 단말(200) 또는 사용자 단말(100)의 요청에 따라 사용자 단말(100)은 자동통역 서비스 제공 단말(200)과 페어링을 수행한다(S110). 이때, 사용자 단말(100)은 자동통역 서비스 제공 단말(200)과 페어링됨에 따라 통역 환경을 초기화시킨다. 통역 환경 초기화의 일 예로는 기 수행된 통역 결과에서의 상황정보(화자정보, 문맥정보, 잡음정보)를 초기화시키는 것일 수 있다. 다만, 동일한 환경에서 주변 음성을 수신하는 것이거나, 동일 상대방을 대상으로 연속하여 대화를 진행하는 경우가 있을 수 있으므로, 통역 환경 초기화 과정은 사용자의 입력에 따라 선택적으로 수행될 수도 있음은 물론이다. First, according to the request of the automatic interpretation service providing terminal 200 or the
다음으로, 자동통역 서비스 제공 단말(200)로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신한다(S120).Next, a first voice signal including at least one of a user's voice and a user's surrounding voice is received from the automatic interpretation service providing terminal 200 (S120).
이때, 사용자 음성은 사용자 단말(100)을 사용하는 주체인 사용자의 발화에 해당하며, 사용자 주변 음성은 다채널 마이크(210)를 통해 수신되는 사용자 음성을 제외한 나머지 음성에 해당한다. 즉, 본 발명의 일 실시예는 사용자 음성인 발화를 대상으로 통역을 수행하여 상대방 단말(300)로 제공하고, 상대방 단말(300)로부터 상대방 음성에 대한 통역 결과를 수신하여 사용자 단말(100) 및 자동통역 서비스 제공 단말(200)로 제공하는 면대면 통역 서비스를 기본적으로 제공한다.In this case, the user's voice corresponds to the utterance of the user who is the subject using the
본 발명의 일 실시예는 이에 더 나아가, 면대면 대화가 아닌 다양한 발화자에 의한 주변 음성을 다채널 마이크(210)가 수신하고, 이를 대상으로 통역을 수행하여 사용자 단말(100) 및 자동통역 서비스 제공 단말(200)로 제공할 수도 있다. 여기에서, 다양한 발화자는 사람에 의한 직접 발화뿐만 아니라 스피커(230)를 통해 출력되는 안내 음성 등 그 대상을 특별히 한정하지 않는다.According to an embodiment of the present invention, the
예를 들어 도 4를 참조하면, 사용자 주변 음성(P1)은 '주변 잡음', '주변 사람 1의 음성', '주변 사람 2'의 음성을 포함할 수 있으며, 이때 주변사람 1, 2는 사용자와 직접 대화하고 있지 않는 불특정인에 해당한다.For example, referring to FIG. 4 , the user's surrounding voice P1 may include 'ambient noise', '
이와 같은 상황에서 본 발명의 일 실시예는 자동통역 서비스 제공 단말(200)의 다채널 마이크(210)를 통해 사용자 주변 음성을 수신하면, 자동통역 서비스 제공 단말(200)은 이를 사용자 주변 음성을 사용자 단말(100)로 제공하고, 사용자 단말(100)은 후술하는 바와 같이 주변사람 1, 주변사람 2의 각 음성 언어(영어, 한국어)에 상응하는 통역 결과(한국어)를 생성하여 자동통역 서비스 제공 단말(200)의 스피커(230)를 통해 출력되도록 제공할 수 있다. In such a situation, in an embodiment of the present invention, when a user's surrounding voice is received through the
이때, 자동통역 서비스 제공 단말(200)에는 통역 모드 선택 버튼(230)이 구비될 수도 있으며, 사용자에 의해 선택된 통역 모드에 따라 음성 수신 및 통역 결과를 제공한다.In this case, the automatic interpretation
다음으로, 사용자 단말(100)은 제1 음성신호를 화자별 음성신호로 분리한다(S130).Next, the
본 발명의 일 실시예는 먼저 사용자 음성과 사용자 주변 음성을 화자별 음성신호로 분리한다. According to an embodiment of the present invention, a user's voice and a voice around the user are first separated into voice signals for each speaker.
사용자 음성과 사용자 주변 음성을 구분하는 것은 도 5a 및 도 5b에 도시된 바와 같이 통역 모드에 따라 용이하게 구분할 수 있다. 즉, 면대면 대화 모드인 경우 마이크(210)를 통해 수신되는 음성은 사용자 음성으로 인식할 수 있으며, 대화 모드가 아닌 듣기 모드인 경우 사용자 음성이 아닌 사용자 주변음성으로 인식할 수 있다. 이는 자동통역 서비스 제공 단말(200)에 의해서도 미리 구분되어 제공될 수도 있다.As shown in FIGS. 5A and 5B , the user's voice and the user's surrounding voice can be easily distinguished according to the interpretation mode. That is, in the face-to-face conversation mode, the voice received through the
화자별 음성신호를 분리하는 과정에서 사용자의 음성은 화자별 소스 분리 모델(P2)에 의해 화자가 1명이므로 사용자 발화 음성과 잡음 신호로 분리된다. 그리고 사용자 주변 음성의 경우에는 화자별 소스 분리 모델(P2)에 의해 복수의 화자 발화 음성과 잡음 신호로 분리될 수 있다. In the process of separating the voice signal for each speaker, the user's voice is divided into the user's voice and the noise signal because there is only one speaker by the source separation model P2 for each speaker. In addition, in the case of the user's surrounding voice, a plurality of speaker-spoken voices and noise signals may be separated by the speaker-specific source separation model P2.
다시 도 3을 참조하면, 다음으로 사용자 단말(100)은 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한다(S140). 그리고 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말(300) 및 자동통역 서비스 제공 단말(200) 중 적어도 하나에 제공한다(S150).Referring back to FIG. 3 , next, the
도 6은 본 발명의 일 실시예에서 제공하는 대화 모드를 설명하기 위한 도면이고, 도 7은 본 발명의 일 실시예에서 제공하는 듣기 모드를 설명하기 위한 도면이다. 도 8 및 도 9는 본 발명의 일 실시예에서 상황정보를 추출 및 반영하는 내용을 설명하기 위한 도면이다. 도 10은 수집된 상황정보를 기반으로 제2 음선신호를 제공하는 내용을 종합하여 도시한 도면이다.6 is a diagram for explaining a conversation mode provided by an embodiment of the present invention, and FIG. 7 is a diagram for explaining a listening mode provided by an embodiment of the present invention. 8 and 9 are diagrams for explaining the content of extracting and reflecting context information in an embodiment of the present invention. FIG. 10 is a view showing the contents of providing a second sound line signal based on the collected situation information.
일 실시예로 본 발명은 통역 모드로 대화 모드 및 듣기 모드를 제공한다. In one embodiment, the present invention provides a conversation mode and a listening mode as the interpretation mode.
먼저, 도 6을 참조하면 대화 모드는 사용자와 상대방이 면대면 대화를 하는 경우로, 사용자 단말(100)은 대화 모드인 경우 분리된 화자별 음성신호 중 사용자 음성을 선택하고(S141), 사용자 음성을 대상으로 통역을 수행한 후(S142), 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말(300)로 제공한다(S143). 또한, 상대방 역시 이에 대한 답변 등 대화를 하는 경우 상대방 단말(300)로부터 수신한 상대방 음성의 통역 결과를 수신하여(S144) 자동통역 서비스 제공 단말(200)로 제공한다(S145).First, referring to FIG. 6 , the conversation mode is a case in which the user and the other party have a face-to-face conversation. In the conversation mode, the
다음으로 도 7을 참조하면, 듣기 모드는 면대면 대화가 아닌 사용자 주변 상황의 음성을 수신하여 통역하기 위한 경우로, 사용자 단말(100)은 듣기 모드인 경우 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하고(S146), 사용자 주변 음성을 대상으로 통역을 수행한다(S147). 그리고 사용자 단말(100)은 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여(S148), 자동통역 서비스 제공 단말(200)로 제공할 수 있다(S149). Next, referring to FIG. 7 , the listening mode is for receiving and interpreting the voice of the user's surroundings rather than face-to-face conversation. is selected (S146), and interpretation is performed on the user's surrounding voice (S147). In addition, the
이때, 사용자 단말(100)은 듣기 모드인 경우 사용자 주변 음성으로부터 상황정보를 추출하는 과정을 더 수행할 수 있다. 도 8을 참조하면, 사용자 단말(100)은 사용자 주변 음성으로부터 구분된 화자별 음성 신호를 음성 인코더(A1)에 입력시킴과 더불어, 각 화자별로 분리된 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하고, 추출된 상황정보를 버퍼 상에 저장한다.In this case, the
그리고 추출된 상황정보를 상황정보 인코더(A2)에 입력시킨 후, 음성 인코더의 출력 정보와 합산하여 번역 디코더(A3)로 입력시킴에 따라, 사용자 주변 음성에 대한 통역시 상황정보가 반영된 통역 결과를 제공할 수 있다. Then, after inputting the extracted contextual information to the contextual information encoder (A2), it is summed with the output information of the voice encoder and inputted to the translation decoder (A3), so that the interpretation result reflecting the contextual information when interpreting the voice around the user is displayed. can provide
이때, 사용자 단말(100)은 도 9와 같이 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 상황정보를 통해 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 더 반영하여 통역결과를 자동통역 서비스 제공 단말(200)로 제공할 수 있다. 즉, 사용자 단말(100)은 세기 정보 및 반향 정보를 토대로 화자의 위치 정보를 추정하고(B1), 버퍼 상에 해당 화자정보가 존재하는지 여부를 확인한 후(B2), 자동통역 결과를 출력함에 있어 화자별 위치정보를 더 반영하여 제공할 수 있다.At this time, the
이에 따라, 자동통역 서비스 제공 단말(200)에서 출력되는 화자별 음성신호는 실제 화자들의 발화와 유사한 특성을 갖도록 출력될 수 있다.Accordingly, the speaker-specific voice signals output from the automatic interpretation
기존의 일반적인 자동통역 시스템에서는 대화 화자의 특성을 고려하지 않고 자동통역 결과를 미리 설정된 단일 화자 음성으로 사용자에게 제공한다. 반면, 본 발명의 일 실시예에서는 화자별 음성신호를 분리하는 과정과 상황정보를 추출 및 적용하는 과정을 통해, 다중 화자의 자동통역 결과를 실제 발화하는 화자의 음성과 유사한 특성을 갖도록 합성할 수 있어, 사용자에게 보다 자연스러운 자동통역 결과를 제공할 수 있다.In the existing general automatic interpretation system, the automatic interpretation result is provided to the user as a preset single-speaker voice without considering the characteristics of the conversational speaker. On the other hand, in an embodiment of the present invention, through the process of separating voice signals for each speaker and the process of extracting and applying context information, the results of automatic interpretation of multiple speakers can be synthesized to have characteristics similar to those of the actual speaker. Therefore, it is possible to provide a more natural automatic interpretation result to the user.
한편, 화자정보는 남녀, 또는 컴퓨터 음성인지 여부, 연령, 국적, 감정상태 등의 정보를 포함할 수 있고, 문맥정보는 실시간 통역 결과를 통해 전후 단어나 문장의 의미를 통해 확인할 수 있으며, 잡음정보는 위치, 시간, 공간 등의 정보를 포함하는 개념이다.On the other hand, speaker information can include information such as whether it is male or female or computer voice, age, nationality, emotional state, etc., and context information can be checked through the meaning of words or sentences before and after the real-time interpretation result, and noise information is a concept that includes information such as location, time, and space.
도 10은 도 9에서의 위치정보를 반영하여 통역결과를 제2 음성신호로 제공하는 내용을 도시한 것으로, 사용자 주변 음성으로부터 추출된 화자별 음성신호와, 상황정보로부터 추출된 화자정보 및 위치정보를 각각 텍스트 인코더(C1) 및 상황정보 인코더(C2)에 입력시킨다. 그 다음 텍스트 인코더(C1)의 출력 정보와 상황정보 인코더(C2)의 출력 정보를 합산하여 음성 합성 디코더(C3)로 입력시킴에 따라, 사용자 주변 음성에 대한 통역 결과는 복수의 화자별로 구분되고(C4) 복수의 화자의 위치 정보가 반영된 제2 음성신호로 합성되어(C5) 사용자 단말(100)을 통해 자동통역 서비스 제공 단말(200)로 제공될 수 있다.FIG. 10 shows the contents of providing an interpretation result as a second voice signal by reflecting the location information in FIG. 9, each speaker's voice signal extracted from the user's surrounding voice, speaker information and location information extracted from context information; are input to the text encoder (C1) and the context encoder (C2), respectively. Then, as the output information of the text encoder (C1) and the output information of the context encoder (C2) are summed and input to the speech synthesis decoder (C3), the interpretation result for the voice around the user is divided into a plurality of speakers ( C4) The second voice signal in which the location information of a plurality of speakers is reflected may be synthesized (C5) and provided to the automatic interpretation service providing terminal 200 through the
또한, 본 발명의 일 실시예는 제1 및 제2 음성신호와 사용자 주변 음성을 통해 추출된 상황정보를 기반으로 화자별 소스 분리 모델, 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신할 수 있다. 즉, 제1 및 제2 음성신호 및 상황정보를 입력 데이터로 설정하고, 각 모델에서의 기존 출력된 정보를 출력 데이터로 설정하여 신경망 모델, 딥러닝 모델 등 인공지능 모델 학습 방법에 기초하여 각 모델의 성능을 자동으로 갱신할 수 있다. 이를 통해 본 발명의 일 실시예는 자동통역 서비스를 지속적으로 이용함에 따라 사용자에게 보다 향상된 자동통역 결과를 제공할 수 있다는 장점이 있다.In addition, an embodiment of the present invention provides a source separation model for each speaker, a voice recognition model for recognizing the first voice signal, and a first voice based on context information extracted through the first and second voice signals and the user's surrounding voice. It is possible to automatically update the performance of a machine translation model for translating a signal and an automatic interpretation model combined with them. That is, each model is based on an artificial intelligence model learning method such as a neural network model, a deep learning model, by setting the first and second voice signals and context information as input data, and setting the existing output information in each model as output data. performance can be automatically updated. Through this, an embodiment of the present invention has an advantage in that it is possible to provide a more improved automatic interpretation result to the user as the automatic interpretation service is continuously used.
도 11은 자동통역 서비스 제공 단말(200)에서 수행되는 각 과정을 설명하기 위한 도면이다.11 is a diagram for explaining each process performed by the automatic interpretation
자동통역 서비스 제공 단말(200)은 사용자의 자동통역 요청을 수신하면(S210), 사용자 단말(100)과 페어링됨에 따라 사용자 단말(100)에 통역 초기화를 요청한다(S220).When the automatic interpretation
다음으로, 통역 모드를 구분하여(S230), 대화 모드인 경우 다채널 마이크(210)를 통해 사용자 음성을 수신하고(S231), 듣기 모드인 경우 다채널 마이크(210)를 통해 사용자 주변 음성을 수신한다(S232). Next, by dividing the interpretation mode (S230), the user's voice is received through the
다음으로, 수신한 사용자 음성 또는 사용자 주변 음성을 사용자 단말(100)로 전송하고(S240), 사용자 단말(100)로부터 통역 결과에 따른 제2 음성신호 또는 사용자 단말(100)을 통해 상대방 단말(300)의 통역 결과에 따른 제2 음성신호를 수신하면(S250), 제2 음성신호를 스피커(230)를 통해 사용자에게 출력한다(S260).Next, the received user voice or the user's surrounding voice is transmitted to the user terminal 100 (S240), and the second voice signal according to the interpretation result from the
한편, 상술한 설명에서, 단계 S110 내지 S260은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 2의 내용은 도 3 내지 도11의 화자분리 기반 자동통역 방법에도 적용될 수 있다.Meanwhile, in the above description, steps S110 to S260 may be further divided into additional steps or combined into fewer steps according to an embodiment of the present invention. In addition, some steps may be omitted if necessary, and the order between the steps may be changed. In addition, even if other contents are omitted, the contents of FIGS. 1 to 2 may also be applied to the speaker separation-based automatic interpretation method of FIGS. 3 to 11 .
이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.The embodiment of the present invention described above may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a medium.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.The above-mentioned program, in order for the computer to read the program and execute the methods implemented as a program, C, C++, JAVA, Ruby, which the processor (CPU) of the computer can read through the device interface of the computer; It may include code coded in a computer language such as machine language. Such code may include functional code related to a function defining functions necessary for executing the methods, etc. can do. In addition, the code may further include additional information necessary for the processor of the computer to execute the functions or code related to memory reference for which location (address address) in the internal or external memory of the computer should be referenced. have. In addition, when the processor of the computer needs to communicate with any other computer or server located remotely in order to execute the functions, the code uses the communication module of the computer to determine how to communicate with any other computer or server remotely. It may further include a communication-related code for whether to communicate and what information or media to transmit and receive during communication.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.The storage medium is not a medium that stores data for a short moment, such as a register, a cache, a memory, etc., but a medium that stores data semi-permanently and can be read by a device. Specifically, examples of the storage medium include, but are not limited to, ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. That is, the program may be stored in various recording media on various servers accessible by the computer or in various recording media on the computer of the user. In addition, the medium may be distributed in a computer system connected by a network, and computer-readable codes may be stored in a distributed manner.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present invention is for illustration, and those of ordinary skill in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and likewise components described as distributed may also be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.
1: 자동통역 서비스 제공 시스템
100: 사용자 단말
110: 통신모듈
120: 메모리
130: 프로세서
200: 자동통역 서비스 제공 단말
210: 다채널 마이크
220: 통역 모드 선택 버튼
230: 스피커
300: 상대방 단말1: Automatic interpretation service provision system
100: user terminal
110: communication module
120: memory
130: processor
200: automatic interpretation service providing terminal
210: multi-channel microphone
220: Interpretation mode selection button
230: speaker
300: counterpart terminal
Claims (16)
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계;
상기 제1 음성신호를 화자별 음성신호로 분리하는 단계;
통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함하는,
화자분리 기반 자동통역 방법.
In the automatic interpretation method based on speaker separation in a user terminal,
Receiving a first voice signal including at least one of a user's voice and a user's surrounding voice from an automatic interpretation service providing terminal;
separating the first voice signal into voice signals for each speaker;
interpreting the speech signal for each speaker into a language selected by a user based on the interpretation mode; and
providing a second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
Automatic interpretation method based on speaker separation.
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계는,
상기 통역 모드에 기초하여 상기 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하되,
상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받는 것인,
화자분리 기반 자동통역 방법.
According to claim 1,
Receiving a first voice signal including at least one of a user's voice and a user's surrounding voice from the automatic interpretation service providing terminal,
receiving the first voice signal from an automatic interpretation service providing terminal based on the interpretation mode,
The automatic interpretation service providing terminal receives a user's voice through a microphone when the interpretation mode is a conversation mode, and receives a user's surrounding voice through a microphone in the listening mode,
Automatic interpretation method based on speaker separation.
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
According to claim 1,
The step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode comprises:
When the interpretation mode is a conversation mode, an interpretation is performed by selecting a user's voice from among the separated voice signals for each speaker;
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
providing a second voice signal, which is an interpretation result of the user's voice, to a counterpart terminal, and providing an interpretation result of the counterpart's voice received from the counterpart terminal to an automatic interpretation service providing terminal;
Automatic interpretation method based on speaker separation.
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
According to claim 1,
The step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode comprises:
When the interpretation mode is the listening mode, interpretation is performed by selecting a user's surrounding voice from among the separated speaker-specific voice signals;
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
The interpretation result for the user's surrounding voice is divided by speaker and provided to the automatic interpretation service providing terminal.
Automatic interpretation method based on speaker separation.
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하는 단계;
상기 추출된 상황정보를 버퍼 상에 저장하는 단계; 및
상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 단계를 포함하는,
화자분리 기반 자동통역 방법.
5. The method of claim 4,
The step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode comprises:
extracting context information including at least one of speaker information, context information, and noise information from the voice around the user;
storing the extracted context information in a buffer; and
Interpreting the speaker-specific voice signal included in the user's surrounding voice based on the extracted context information;
Automatic interpretation method based on speaker separation.
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
6. The method of claim 5,
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
Separating a voice signal for each speaker from the extracted context information, and providing an interpretation result to the automatic interpretation service providing terminal by reflecting the strength information and echo information of the voice signal divided for each speaker,
Automatic interpretation method based on speaker separation.
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
5. The method of claim 4,
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
providing an interpretation result corresponding to at least one speaker selected by a user among the interpretation results for the voices around the user to the automatic interpretation service providing terminal;
Automatic interpretation method based on speaker separation.
자동통역 서비스 제공 단말 및 상대방 단말과 데이터를 송수신하는 통신모듈,
자동통역 서비스 제공 단말로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신하면 이를 기반으로 통역 결과인 제2 음성신호를 생성하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 음성신호를 화자별 음성신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
A user terminal providing an automatic interpretation service based on speaker separation, the user terminal comprising:
A communication module that transmits and receives data to and from an automatic interpretation service providing terminal and a counterpart terminal;
When a first voice signal including at least one of a user's voice and a user's surrounding voice is received from the automatic interpretation service providing terminal, a program for generating a second voice signal that is an interpretation result based on the received memory;
A processor for executing the program stored in the memory;
As the program is executed, the processor separates the first voice signal into a voice signal for each speaker, interprets the voice signal for each speaker into a language selected by the user based on the interpretation mode, and then through the communication module providing the second voice signal generated as a result of interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to an interpretation mode;
A user terminal that provides automatic interpretation service based on speaker separation.
상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
9. The method of claim 8,
The automatic interpretation service providing terminal receives a user's voice through a microphone when the interpretation mode is a conversation mode, and receives a user's surrounding voice through a microphone in the listening mode,
A user terminal that provides automatic interpretation service based on speaker separation.
상기 프로세서는 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통신모듈을 통해 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
9. The method of claim 8,
When the interpretation mode is a conversation mode, the processor selects a user's voice from among the separated voice signals for each speaker for interpretation, and provides a second voice signal, which is a result of the interpretation of the user's voice, to the counterpart terminal through the communication module and providing an interpretation result of the counterpart's voice received from the counterpart terminal to an automatic interpretation service providing terminal,
A user terminal that provides automatic interpretation service based on speaker separation.
상기 프로세서는 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
9. The method of claim 8,
When the interpretation mode is the listening mode, the processor selects a user's surrounding voice from among the separated voice signals for each speaker to perform interpretation, divides the interpretation result for the user's surrounding voice for each speaker, and uses the communication module to automatically which is provided by an interpreter service providing terminal,
A user terminal that provides automatic interpretation service based on speaker separation.
상기 프로세서는 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하여 상기 메모리의 버퍼 상에 저장하고, 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
12. The method of claim 11,
The processor extracts context information including at least one of speaker information, context information, and noise information from the user's surrounding voice and stores it in a buffer of the memory, and based on the extracted contextual information, the user's surrounding voice includes Interpreting voice signals for each speaker,
A user terminal that provides automatic interpretation service based on speaker separation.
상기 프로세서는 상기 제1 및 제2 음성신호와 상기 추출된 상황정보를 기반으로, 상기 제1 음성신호를 화자별 음성신호로 분리하기 위한 화자별 소스분리 모델, 상기 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
13. The method of claim 12,
The processor is configured to: based on the first and second voice signals and the extracted context information, a source separation model for each speaker for separating the first voice signal into a voice signal for each speaker, and a method for recognizing the first voice signal Automatically updating the performance of the speech recognition model, the machine translation model for translating the first speech signal, and the automatic interpretation model combined with them,
A user terminal that provides automatic interpretation service based on speaker separation.
상기 프로세서는 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
13. The method of claim 12,
The processor classifies the voice signal for each speaker from the extracted context information, reflects the strength information and the echo information of the voice signal divided for each speaker, and provides the interpretation result to the automatic interpretation service providing terminal through the communication module. ,
A user terminal that provides automatic interpretation service based on speaker separation.
상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
12. The method of claim 11,
wherein the processor provides an interpretation result corresponding to at least one speaker selected by the user among the interpretation results for the voices around the user to the automatic interpretation service providing terminal through the communication module,
A user terminal that provides automatic interpretation service based on speaker separation.
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 다채널 마이크를 통해 수신하고, 제1 음성신호에 대한 통역 결과 및 상대방 음성에 대한 통역 결과를 스피커를 통해 제공하는 자동통역 서비스 제공 단말,
상기 제1 음성신호를 수신하여 화자별 음성신호로 분리한 후, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 사용자 단말 및
상기 제2 음성신호를 사용자 단말로부터 수신하여 제공하고, 상기 통역 모드에 따라 상대방 음성을 통역하여 사용자 단말로 제공하는 상대방 단말을 포함하는,
화자분리 기반 자동통역 서비스 제공 시스템.In the speaker separation-based automatic interpretation service providing system,
Automatic interpretation service that receives a first voice signal including at least one of a user's voice and a user's surrounding voice through a multi-channel microphone, and provides an interpretation result for the first voice signal and an interpretation result for the other party's voice through a speaker terminal,
After receiving the first voice signal, separating the voice signal for each speaker, interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode, and then converting the second voice signal generated as a result of the interpretation into the interpretation mode a user terminal provided to at least one of the counterpart terminal and the automatic interpretation service providing terminal according to the
and a counterpart terminal that receives and provides the second voice signal from a user terminal and interprets the other party's voice according to the interpretation mode and provides it to the user terminal;
A system for providing automatic interpretation service based on speaker separation.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021188902A JP7333371B2 (en) | 2021-01-05 | 2021-11-19 | Automatic Interpretation Method Based on Speaker Separation, User Terminal Providing Automatic Interpretation Service Based on Speaker Separation, and Automatic Interpretation Service Providing System Based on Speaker Separation |
US17/531,316 US20220215857A1 (en) | 2021-01-05 | 2021-11-19 | System, user terminal, and method for providing automatic interpretation service based on speaker separation |
DE102021130318.4A DE102021130318A1 (en) | 2021-01-05 | 2021-11-19 | System, user terminal and method for providing an automatic interpretation service based on speaker separation |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20210000912 | 2021-01-05 | ||
KR1020210000912 | 2021-01-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220099083A true KR20220099083A (en) | 2022-07-12 |
KR102584436B1 KR102584436B1 (en) | 2023-10-05 |
Family
ID=82420021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210106300A KR102584436B1 (en) | 2021-01-05 | 2021-08-11 | System, user device and method for providing automatic interpretation service based on speaker separation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102584436B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102635031B1 (en) * | 2023-09-27 | 2024-02-13 | 주식회사 에이아이노미스 | Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012059121A (en) * | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | Eyeglass-type display device |
KR101412657B1 (en) * | 2010-06-03 | 2014-06-27 | 한국전자통신연구원 | Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals |
WO2018186416A1 (en) * | 2017-04-03 | 2018-10-11 | 旋造 田代 | Translation processing method, translation processing program, and recording medium |
KR20190015081A (en) | 2017-08-03 | 2019-02-13 | 한국전자통신연구원 | System, device and method of automatic translation |
KR20190029237A (en) * | 2017-09-12 | 2019-03-20 | (주)한컴인터프리 | Apparatus for interpreting and method thereof |
KR20190074012A (en) * | 2017-12-19 | 2019-06-27 | 삼성전자주식회사 | Method for processing speech signal of plurality of speakers and electric apparatus thereof |
KR20190103081A (en) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | Intelligent voice outputting method, apparatus, and intelligent computing device |
KR20200125735A (en) * | 2018-04-27 | 2020-11-04 | 주식회사 엘솔루 | Multi-party conversation recording/output method using speech recognition technology and device therefor |
-
2021
- 2021-08-11 KR KR1020210106300A patent/KR102584436B1/en active IP Right Grant
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101412657B1 (en) * | 2010-06-03 | 2014-06-27 | 한국전자통신연구원 | Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals |
JP2012059121A (en) * | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | Eyeglass-type display device |
WO2018186416A1 (en) * | 2017-04-03 | 2018-10-11 | 旋造 田代 | Translation processing method, translation processing program, and recording medium |
KR20190015081A (en) | 2017-08-03 | 2019-02-13 | 한국전자통신연구원 | System, device and method of automatic translation |
KR20190029237A (en) * | 2017-09-12 | 2019-03-20 | (주)한컴인터프리 | Apparatus for interpreting and method thereof |
KR20190074012A (en) * | 2017-12-19 | 2019-06-27 | 삼성전자주식회사 | Method for processing speech signal of plurality of speakers and electric apparatus thereof |
KR20200125735A (en) * | 2018-04-27 | 2020-11-04 | 주식회사 엘솔루 | Multi-party conversation recording/output method using speech recognition technology and device therefor |
KR20190103081A (en) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | Intelligent voice outputting method, apparatus, and intelligent computing device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102635031B1 (en) * | 2023-09-27 | 2024-02-13 | 주식회사 에이아이노미스 | Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization |
Also Published As
Publication number | Publication date |
---|---|
KR102584436B1 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
JP6790234B2 (en) | Interpreters and methods (DEVICE AND METHOD OF TRANSLATING A LANGUAGE INTO ANOTHER LANGUAGE) | |
US11049493B2 (en) | Spoken dialog device, spoken dialog method, and recording medium | |
KR102108500B1 (en) | Supporting Method And System For communication Service, and Electronic Device supporting the same | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
AU2011209760B2 (en) | Integration of embedded and network speech recognizers | |
JP5598998B2 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
JP6681450B2 (en) | Information processing method and device | |
CN111226224A (en) | Method and electronic equipment for translating voice signals | |
KR20200059054A (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
KR20200027331A (en) | Voice synthesis device | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
KR102584436B1 (en) | System, user device and method for providing automatic interpretation service based on speaker separation | |
WO2019239659A1 (en) | Information processing device and information processing method | |
KR101959439B1 (en) | Method for interpreting | |
KR102380717B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
KR101207435B1 (en) | Interactive speech recognition server, interactive speech recognition client and interactive speech recognition method thereof | |
JP7333371B2 (en) | Automatic Interpretation Method Based on Speaker Separation, User Terminal Providing Automatic Interpretation Service Based on Speaker Separation, and Automatic Interpretation Service Providing System Based on Speaker Separation | |
KR20220138669A (en) | Electronic device and method for providing personalized audio information | |
KR102181583B1 (en) | System for voice recognition of interactive robot and the method therof | |
KR20220118818A (en) | Electronic device and operation method thereof | |
KR100369732B1 (en) | Method and Apparatus for intelligent dialog based on voice recognition using expert system | |
US20170185587A1 (en) | Machine translation method and machine translation system | |
KR20200028158A (en) | Media play device, method and computer program for providing multi language voice command service | |
KR20190029236A (en) | Method for interpreting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |