KR20220099083A - System, user device and method for providing automatic interpretation service based on speaker separation - Google Patents

System, user device and method for providing automatic interpretation service based on speaker separation Download PDF

Info

Publication number
KR20220099083A
KR20220099083A KR1020210106300A KR20210106300A KR20220099083A KR 20220099083 A KR20220099083 A KR 20220099083A KR 1020210106300 A KR1020210106300 A KR 1020210106300A KR 20210106300 A KR20210106300 A KR 20210106300A KR 20220099083 A KR20220099083 A KR 20220099083A
Authority
KR
South Korea
Prior art keywords
interpretation
user
voice
speaker
terminal
Prior art date
Application number
KR1020210106300A
Other languages
Korean (ko)
Other versions
KR102584436B1 (en
Inventor
방정욱
윤승
김상훈
이민규
맹준규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to JP2021188902A priority Critical patent/JP7333371B2/en
Priority to US17/531,316 priority patent/US20220215857A1/en
Priority to DE102021130318.4A priority patent/DE102021130318A1/en
Publication of KR20220099083A publication Critical patent/KR20220099083A/en
Application granted granted Critical
Publication of KR102584436B1 publication Critical patent/KR102584436B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Abstract

Provided is an automatic interpretation method based on a speaker separation in a user terminal. The method comprises: a step of receiving a first speech signal comprising at least one among a user speech and user surrounding speech from an automatic interpretation service providing terminal; a step of separating the first speech signal into a speech signal for each speaker; a step of interpreting the speech signal for each speaker into a language selected by the user based on an interpretation mode; and a step of providing a second speech signal generated as a result of the interpretation to at least one among a counterpart terminal and the automatic interpretation service providing terminal according to the interpretation mode. Therefore, the present invention is capable of having an advantage of being able to obtain the information conveniently.

Description

화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법{SYSTEM, USER DEVICE AND METHOD FOR PROVIDING AUTOMATIC INTERPRETATION SERVICE BASED ON SPEAKER SEPARATION}SYSTEM, USER DEVICE AND METHOD FOR PROVIDING AUTOMATIC INTERPRETATION SERVICE BASED ON SPEAKER SEPARATION

본 발명은 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법에 관한 것이다.The present invention relates to a system, a user terminal, and a method for providing an automatic interpretation service based on speaker separation.

일반적으로 자동통역(또는 자동번역)은 사용자의 제1 언어를 인식하여 제2 언어로 통역한 후 상대방 단말로 송신하거나, 상대방 단말로부터 수신된 통역 결과를 합성하여 사용자에게 들려주는 구조로 되어 있다.In general, automatic interpretation (or automatic translation) has a structure in which a user's first language is recognized, interpreted in a second language, and then transmitted to a counterpart terminal, or an interpretation result received from the counterpart terminal is synthesized and presented to the user.

이러한 접근은 기본적으로 사용자와 상대방이 존재하는 면대면 대화를 목적으로 한다. 그러나 자동통역이 필요한 대부분의 상황은 사용자가 외국에 갔을 때 외국인과 대화(관광, 식당, 쇼핑, 호텔, 비즈니스 등)를 하거나 또는 공항 안내 음성, 여행지역 TV 뉴스, 주변 외국인 음성 등 상황 판단을 위해 주변에서 들리는 외국인의 음성을 이해하기 위함에 있다.This approach basically aims for a face-to-face conversation in which the user and the other party exist. However, in most situations that require automatic interpretation, when a user goes to a foreign country, it is necessary to have a conversation with a foreigner (tourism, restaurant, shopping, hotel, business, etc.) This is to understand the voices of foreigners around you.

즉, 면대면 대화뿐만 아니라 주변에서 들리는 외국인 음성을 통역하여 사용자에게 제공하는 것이 필요하나 이러한 기술이 부재한 실정이다.That is, it is necessary to provide the user with an interpretation of foreign voices heard in the vicinity as well as face-to-face conversation, but such a technology is absent.

공개특허공보 제10-2019-0015081호(2019.02.13.)Patent Publication No. 10-2019-0015081 (2019.02.13.)

본 발명이 해결하고자 하는 개별 장치에 입력되는 복수의 화자의 음성을 화자별로 구분하고 이를 사용자가 원하는 언어 음성으로 모두 변환하여 통역 결과를 제공하는, 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법을 제공하는 것이다.A system for providing an automatic interpretation service based on speaker separation, in which the voices of a plurality of speakers input to an individual device to be solved by the present invention are divided for each speaker and all of the voices of the user's desired language are converted to provide interpretation results, a user terminal and to provide a method.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.However, the problems to be solved by the present invention are not limited to the problems described above, and other problems may exist.

상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 사용자 단말에서의 화자분리 기반 자동통역 방법은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계; 상기 제1 음성신호를 화자별 음성신호로 분리하는 단계; 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함한다.In a speaker separation-based automatic interpretation method in a user terminal according to a first aspect of the present invention for solving the above problems, a first voice signal including at least one of a user's voice and a user's surrounding voice is received from an automatic interpretation service providing terminal to do; separating the first voice signal into voice signals for each speaker; interpreting the speech signal for each speaker into a language selected by a user based on the interpretation mode; and providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode.

본 발명의 일부 실시예에서, 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계는, 상기 통역 모드에 기초하여 상기 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하되, 상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받을 수 있다.In some embodiments of the present invention, the step of receiving the first voice signal including at least one of the user's voice and the user's surrounding voice from the automatic interpretation service providing terminal may include automatically interpreting the first voice signal based on the interpretation mode. Received from a service providing terminal, wherein the automatic interpretation service providing terminal may receive a user's voice through a microphone when the interpretation mode is a conversation mode, and may receive a user's surrounding voice through a microphone in the listening mode.

본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode may include selecting a user voice from among the separated voice signals for each speaker when the interpretation mode is a conversation mode. performing the interpretation, and providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode may include: It may be provided to the counterpart terminal, and an interpretation result of the counterpart's voice received from the counterpart terminal may be provided to the automatic interpretation service providing terminal.

본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode may include: when the interpretation mode is the listening mode, the voice surrounding the user among the separated voice signals for each speaker The step of selectively performing an interpretation and providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode may include: It can be divided and provided to the automatic interpretation service providing terminal.

본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하는 단계; 상기 추출된 상황정보를 버퍼 상에 저장하는 단계; 및 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 단계를 포함할 수 있다.In some embodiments of the present invention, the step of interpreting the speech signal for each speaker into a language selected by the user based on the interpretation mode includes at least one of speaker information, context information, and noise information from the user's surrounding voice. extracting information; storing the extracted context information in a buffer; and interpreting a speaker-specific voice signal included in the user's surrounding voice based on the extracted context information.

본 발명의 일부 실시예에서, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode includes: It is possible to classify and provide the interpretation result to the automatic interpretation service providing terminal by reflecting the strength information and the echo information of the voice signal divided for each speaker.

본 발명의 일부 실시예에서, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the step of providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode may include: An interpretation result corresponding to the at least one speaker selected by , may be provided to the automatic interpretation service providing terminal.

또한, 본 발명의 제2 측면에 따른 화자분리 기반 자동통역 서비스를 제공하는 사용자 단말은 자동통역 서비스 제공 단말 및 상대방 단말과 데이터를 송수신하는 통신모듈, 자동통역 서비스 제공 단말로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신하면 이를 기반으로 통역 결과인 제2 음성신호를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 음성신호를 화자별 음성신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공한다.In addition, the user terminal providing the automatic interpretation service based on speaker separation according to the second aspect of the present invention includes a communication module for transmitting and receiving data with an automatic interpretation service providing terminal and a counterpart terminal, and a user's voice and user's surrounding voice from the automatic interpretation service providing terminal. and a memory in which a program for generating a second voice signal, which is an interpretation result, based on the reception of a first voice signal including at least one of is executed, the first voice signal is separated into voice signals for each speaker, and the voice signal for each speaker is interpreted into the language selected by the user based on the interpretation mode. 2 The voice signal is provided to at least one of the counterpart terminal and the automatic interpretation service providing terminal according to the interpretation mode.

본 발명의 일부 실시예에서, 상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받을 수 있다.In some embodiments of the present invention, the automatic interpretation service providing terminal may receive a user's voice through a microphone when the interpretation mode is a conversation mode, and may receive a user's surrounding voice through a microphone in the listening mode.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통신모듈을 통해 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, when the interpretation mode is a conversation mode, the processor selects a user's voice from among the separated voice signals for each speaker and performs an interpretation, and the processor performs an interpretation of the user's voice through the communication module. 2 The voice signal may be provided to the counterpart terminal, and the result of interpretation of the counterpart's voice received from the counterpart terminal may be provided to the automatic interpretation service providing terminal.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, when the interpretation mode is the listening mode, the processor selects a user's surrounding voice from among the separated speaker-specific voice signals to perform interpretation, and divides the interpretation result of the user's surrounding voice for each speaker Thus, it can be provided to the automatic interpretation service providing terminal through the communication module.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하여 상기 메모리의 버퍼 상에 저장하고, 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역할 수 있다.In some embodiments of the present invention, the processor extracts context information including at least one of speaker information, context information, and noise information from the surrounding voice of the user and stores the extracted context information in the buffer of the memory, and based on the extracted context information Thus, it is possible to interpret the voice signal for each speaker included in the voice around the user.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 제1 및 제2 음성신호와 상기 추출된 상황정보를 기반으로, 상기 제1 음성신호를 화자별 음성신호로 분리하기 위한 화자별 소스분리 모델, 상기 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신할 수 있다.In some embodiments of the present invention, the processor includes: a source separation model for each speaker for separating the first voice signal into a voice signal for each speaker based on the first and second voice signals and the extracted context information; The performance of the speech recognition model for recognizing the first speech signal, the machine translation model for translating the first speech signal, and the combined automatic interpretation model may be automatically updated.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the processor classifies a voice signal for each speaker from the extracted context information, and reflects the strength information and echo information of the voice signal divided for each speaker to automatically interpret the interpretation result through the communication module It can be provided as a service providing terminal.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.In some embodiments of the present invention, the processor may provide an interpretation result corresponding to at least one speaker selected by the user among the interpretation results for the voice around the user to the automatic interpretation service providing terminal through the communication module. .

또한, 본 발명의 제3 측면에 따른 화자분리 기반 자동통역 서비스 제공 시스템은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 다채널 마이크를 통해 수신하고, 제1 음성신호에 대한 통역 결과 및 상대방 음성에 대한 통역 결과를 스피커를 통해 제공하는 자동통역 서비스 제공 단말, 상기 제1 음성신호를 수신하여 화자별 음성신호로 분리한 후, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 사용자 단말 및 상기 제2 음성신호를 사용자 단말로부터 수신하여 제공하고, 상기 통역 모드에 따라 상대방 음성을 통역하여 사용자 단말로 제공하는 상대방 단말을 포함한다.In addition, the speaker separation-based automatic interpretation service providing system according to the third aspect of the present invention receives a first voice signal including at least one of a user voice and a user's surrounding voice through a multi-channel microphone, and An automatic interpretation service providing terminal that provides an interpretation result and an interpretation result for the voice of the other party through a speaker, receives the first voice signal and separates it into a voice signal for each speaker, and then provides a voice signal for each speaker to the user based on the interpretation mode After interpreting in a language selected by and a counterpart terminal that interprets the counterpart's voice according to the interpretation mode and provides it to the user terminal.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.A computer program according to another aspect of the present invention for solving the above problems executes a system, a user terminal and a method for providing a speaker separation-based automatic interpretation service in combination with a computer, which is hardware, and is stored in a computer-readable recording medium do.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.Other specific details of the invention are included in the detailed description and drawings.

전술한 본 발명의 일 실시예에 의하면, 종래 면대면 자동통역 방법 대비 사용자는 주변의 복수의 화자의 음성을 모두 모국어로 변환하여 편리하게 정보 습득이 가능하다는 장점이 있다.According to the above-described embodiment of the present invention, compared to the conventional face-to-face automatic interpretation method, the user can conveniently acquire information by converting the voices of a plurality of surrounding speakers into their native language.

또한, 본 발명의 일 실시예는 종래의 면대면 방법과 혼합하여 대화 모드 및 듣기 모드가 모두 제공되는 자동통역 방식을 제공할 수 있다.In addition, an embodiment of the present invention can provide an automatic interpretation method in which both a conversation mode and a listening mode are provided by mixing with the conventional face-to-face method.

이와 더불어, 본 발명의 일 실시예는 언어 학습을 위한 보조 도구로 활용할 수 있으며, 사용자는 주변의 모국어 음성들을 원하는 언어로 통역하여 청취함으로써 외국어 회화 학습에도 응용할 수 있다.In addition, an embodiment of the present invention can be utilized as an auxiliary tool for language learning, and the user can also apply to foreign language conversation learning by interpreting and listening to surrounding native language voices in a desired language.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자 단말을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 방법의 순서도이다.
도 4는 사용자 주변 음성을 설명하기 위한 도면이다.
도 5a 및 도 5b는 제1 음성신호를 화자별 음성신호로 분리하는 내용을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에서 제공하는 대화 모드를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에서 제공하는 듣기 모드를 설명하기 위한 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에서 상황정보를 추출 및 반영하는 내용을 설명하기 위한 도면이다.
도 10은 수집된 상황정보를 기반으로 제2 음선신호를 제공하는 내용을 종합하여 도시한 도면이다.
도 11은 자동통역 서비스 제공 단말에서 수행되는 각 과정을 설명하기 위한 도면이다.
1 is a diagram schematically illustrating a speaker separation-based automatic interpretation service providing system according to an embodiment of the present invention.
2 is a block diagram illustrating a user terminal according to an embodiment of the present invention.
3 is a flowchart of an automatic interpretation method based on speaker separation according to an embodiment of the present invention.
4 is a diagram for explaining a user's surrounding voice.
5A and 5B are diagrams for explaining the content of dividing a first voice signal into a voice signal for each speaker.
6 is a diagram for explaining a conversation mode provided by an embodiment of the present invention.
7 is a diagram for explaining a listening mode provided in an embodiment of the present invention.
8 and 9 are diagrams for explaining the content of extracting and reflecting context information in an embodiment of the present invention.
FIG. 10 is a view showing the contents of providing a second sound line signal based on the collected situation information.
11 is a diagram for explaining each process performed in an automatic interpretation service providing terminal.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and those of ordinary skill in the art to which the present invention pertains. It is provided to fully inform those skilled in the art of the scope of the present invention, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. In this specification, the singular also includes the plural, unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components in addition to the stated components. Like reference numerals refer to like elements throughout, and "and/or" includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various elements, these elements are not limited by these terms, of course. These terms are only used to distinguish one component from another. Therefore, it goes without saying that the first component mentioned below may be the second component within the spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used herein will have the meaning commonly understood by those of ordinary skill in the art to which this invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless clearly specifically defined.

본 발명은 화자분리 기반 자동통역 서비스를 제공하는 시스템(1), 사용자 단말(100) 및 방법에 관한 것이다.The present invention relates to a system (1), a user terminal (100) and a method for providing an automatic interpretation service based on speaker separation.

본 발명은 자동통역에 있어 면대면(face-to-face) 대화를 목적으로 하는 종래방법과는 달리, 개별 장치에 입력되는 다수의 혼합된 화자들의 음성을 구분하여 사용자가 원하는 언어 음성으로 모두 변환하고, 복수의 화자들의 음성을 각 화자의 특성을 고려하여 사용자 단말(100)로 제공하는 것을 특징으로 한다. 여기에서 사용자가 원하는 언어는 모국어임이 일반적일 것이나 반드시 이에 한정되는 것은 아니다.Unlike the conventional method for the purpose of face-to-face conversation in automatic interpretation, the present invention divides the voices of a plurality of mixed speakers input to individual devices and converts them all into the language voice desired by the user. and providing the voices of a plurality of speakers to the user terminal 100 in consideration of the characteristics of each speaker. Here, the language desired by the user may generally be the native language, but is not necessarily limited thereto.

이를 통해 본 발명의 일 실시예는 사용자가 외국에 있는 등 이종 언어 환경(예를 들어, 해외여행 등)에 노출되어 있는 상태에서 주변 상황을 손쉽게 파악할 수 있도록 돕고, 사용자 주변 정보를 면대면 자동 통역 시스템에 활용하여 자동통역 성능 및 사용자 편의성을 개선할 수 있다.Through this, one embodiment of the present invention helps the user to easily understand the surrounding situation while being exposed to a heterogeneous language environment (eg, overseas travel, etc.) such as being in a foreign country, and automatically interprets information around the user face-to-face It can be used in the system to improve automatic interpretation performance and user convenience.

뿐만 아니라, 본 발명의 일 실시예는 모국어 환경에서도 적용이 가능하며, 가령 모국어 환경에서 사용자 주변 음성을 수신하여 영어로 통역된 결과를 제공받아, 외국어 학습에 이용할 수 있는 장점이 있다. 특히, 본 발명에서는 사용자 주변 음성에 대한 통역 결과 제공시 상황정보를 추가적으로 추출하여 합성된 음성신호에 반영하는 것을 특징으로 하고 있는바, 사용자 주변 음성에 포함된 복수의 화자들의 음성 각각에 대한 통역 결과뿐만 아니라, 이들의 통역 결과에 위치 정보가 더 반영되어 제공됨으로써 보다 생동감있는 외국어 학습이 가능하다는 효과가 있다.In addition, an embodiment of the present invention can be applied in a native language environment, for example, by receiving a user's surrounding voice in the native language environment and receiving the translated result into English, there is an advantage that it can be used for learning a foreign language. In particular, the present invention is characterized in that, when an interpretation result for the user's surrounding voice is provided, context information is additionally extracted and reflected in the synthesized voice signal. Interpretation results for each of the voices of a plurality of speakers included in the user's surrounding voice In addition, location information is more reflected and provided in their interpretation results, thereby enabling more lively foreign language learning.

한편, 본 발명의 일 실시예에서는 발화자와 청자가 모두 상이한 언어를 사용하는 환경에서의 동시통역을 대상으로 하고 있으나, 반드시 이에 한정되는 것은 아니다. Meanwhile, in an embodiment of the present invention, simultaneous interpretation in an environment in which both the speaker and the listener use different languages, but is not necessarily limited thereto.

이하에서는 도 1 내지 도 2를 참조하여 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1) 및 사용자 단말(100)에 대해 설명하도록 한다.Hereinafter, the speaker separation-based automatic interpretation service providing system 1 and the user terminal 100 according to an embodiment of the present invention will be described with reference to FIGS. 1 and 2 .

도 1은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1)을 개략적으로 설명하기 위한 도면이다. 도 2는 본 발명의 일 실시예에 따른 사용자 단말(100)을 설명하기 위한 블록도이다.1 is a diagram schematically illustrating a speaker separation-based automatic interpretation service providing system 1 according to an embodiment of the present invention. 2 is a block diagram illustrating the user terminal 100 according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1)은 사용자 단말(100), 자동통역 서비스 제공 단말(200) 상대방 단말(300)을 포함한다.The system 1 for providing automatic interpretation service based on speaker separation according to an embodiment of the present invention includes a user terminal 100 , an automatic interpretation service providing terminal 200 , and a counterpart terminal 300 .

먼저, 자동통역 서비스 제공 단말(200)은 사용자의 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성 신호를 다채널 마이크(210)를 통해 수신한다. 또한, 자동통역 서비스 제공 단말(200)은 제1 음성 신호에 대한 통역 결과를 사용자 단말(100)로부터 수신하거나 상대방 음성에 대한 통역 결과를 상대방 단말(300)로부터 수신하여 스피커(230)를 통해 제공한다. First, the automatic interpretation service providing terminal 200 receives a first voice signal including at least one of a user's voice and a user's surrounding voice through the multi-channel microphone 210 . In addition, the automatic interpretation service providing terminal 200 receives the interpretation result for the first voice signal from the user terminal 100 or receives the interpretation result for the counterpart's voice from the counterpart terminal 300 and provides it through the speaker 230 . do.

이때, 자동통역 서비스 제공 단말(200)에는 통역 모드 선택 버튼(220)이 구비될 수도 있으며, 사용자에 의해 선택된 통역 모드에 따라 음성 수신 및 통역 결과를 제공한다.In this case, the automatic interpretation service providing terminal 200 may be provided with an interpretation mode selection button 220, and provides voice reception and interpretation results according to the interpretation mode selected by the user.

일 실시예로 자동통역 서비스 제공 단말(200)은 스피커(230)와 마이크(210)를 구비하는 핸즈프리 단말의 형태로 제공될 수 있으나 반드시 이에 한정되는 것은 아니며, 스피커(230)와 마이크(210)를 구비하는 모든 단말은 자동통역 서비스 제공 단말(200)일 수 있다. 이에 따라, 자동통역 서비스 제공 단말(200)은 마이크(210) 및 스피커(230)를 구비하는 사용자 단말(100) 또는 상대방 단말(300)과 일체형으로 구성되어 제공될 수도 있음은 물론이다.In an embodiment, the automatic interpretation service providing terminal 200 may be provided in the form of a hands-free terminal including a speaker 230 and a microphone 210, but is not necessarily limited thereto, and the speaker 230 and the microphone 210 All terminals provided with may be the automatic interpretation service providing terminal 200 . Accordingly, it goes without saying that the automatic interpretation service providing terminal 200 may be provided integrally with the user terminal 100 having the microphone 210 and the speaker 230 or the counterpart terminal 300 .

도 2를 참조하면, 사용자 단말(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다. Referring to FIG. 2 , the user terminal 100 includes a communication module 110 , a memory 120 , and a processor 130 .

통신모듈(110)은 자동통역 서비스 제공 단말(200) 및 상대방 단말(300)과 데이터를 송수신한다. 즉, 통신모듈(110)은 실시간으로 사용자 음성의 통역 결과를 상대방 단말(300)로 제공해줄 수 있으며, 상대방 단말(300)로부터 수신한 상대방 음성의 통역 결과를 수신하여 자동통역 서비스 제공 단말(200)로 제공할 수 있다.The communication module 110 transmits and receives data to and from the automatic interpretation service providing terminal 200 and the counterpart terminal 300 . That is, the communication module 110 may provide an interpretation result of the user's voice to the counterpart terminal 300 in real time, and receives the interpretation result of the counterpart's voice received from the counterpart terminal 300 to provide an automatic interpretation service providing terminal 200 . ) can be provided.

이때, 통신 모듈(110)은 무선 통신모듈로 구성됨이 바람직하나 반드시 유선 통신 모듈을 배제하는 개념은 아니다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.In this case, the communication module 110 is preferably configured as a wireless communication module, but the concept does not necessarily exclude the wired communication module. The wired communication module may be implemented as a power line communication device, a telephone line communication device, a cable home (MoCA), Ethernet, IEEE1294, an integrated wired home network, and an RS-485 control device. In addition, the wireless communication module may be implemented by wireless LAN (WLAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, wireless USB technology, wireless HDMI technology, and the like.

메모리(120)에는 자동통역 서비스 제공 단말(200)로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성 신호를 수신하면 이를 기반으로 통역 결과인 제2 음성 신호를 생성하기 위한 프로그램이 저장된다.The memory 120 stores a program for generating a second voice signal, which is an interpretation result, based on the reception of a first voice signal including at least one of a user voice and a voice around the user from the automatic interpretation service providing terminal 200 . do.

이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다. 예를 들어, 메모리는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.In this case, the memory 120 collectively refers to a non-volatile storage device and a volatile storage device that continuously maintain stored information even when power is not supplied. For example, memory may include compact flash (CF) cards, secure digital (SD) cards, memory sticks, solid-state drives (SSDs) and micro SD cards, etc. It may include a magnetic computer storage device such as a NAND flash memory, a hard disk drive (HDD), and the like, and an optical disc drive such as a CD-ROM or DVD-ROM.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 자동통역 서비스 제공 단말(200)로부터 수신한 제1 음성 신호를 화자별 음성 신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말(300)이나 자동통역 서비스 제공 단말(200)로 제공한다.As the program stored in the memory 120 is executed, the processor 130 separates the first voice signal received from the automatic interpretation service providing terminal 200 into a voice signal for each speaker, and a voice for each speaker based on the interpretation mode. After the signal is interpreted into the language selected by the user, the second voice signal generated as a result of the interpretation through the communication module is provided to the counterpart terminal 300 or the automatic interpretation service providing terminal 200 according to the interpretation mode.

상대방 단말(300)은 사용자 단말(100)과 동일하게 음성 신호를 수신하여 통역 결과를 사용자 단말(100)이나 상대방 단말(300)과 페어링된 자동통역 서비스 제공 단말(200)로 제공한다. 즉, 본 발명의 일 실시예에서 사용자 단말(100)과 상대방 단말(300)은 사용하는 주체에 따라 그 명칭을 구분한 것으로, 그 구성 및 기능은 서로 동일하다. The counterpart terminal 300 receives the voice signal in the same manner as the user terminal 100 and provides the interpretation result to the user terminal 100 or the automatic interpretation service providing terminal 200 paired with the counterpart terminal 300 . That is, in an embodiment of the present invention, the user terminal 100 and the counterpart terminal 300 are named according to the subjects they use, and their configurations and functions are the same.

한편, 본 발명에서의 사용자 단말(100) 및 상대방 단말(300)은 서버 시스템, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등이나, 휴대용 디바이스기에 인터넷 통신과 정보 검색 등 컴퓨터 지원 기능을 추가한 지능형 디바이스기일 수 있으며, 또한 사용자가 원하는 다수의 응용 프로그램(즉, 애플리케이션)을 설치하여 실행할 수 있는 휴대폰, 스마트 폰(smart phone), 패드(Pad), 스마트 워치(Smart watch), 웨어러블(wearable) 디바이스, 기타 이동통신 디바이스 등일 수 있다.On the other hand, the user terminal 100 and the counterpart terminal 300 in the present invention are a server system, a laptop equipped with a web browser (WEB Browser), a desktop, a laptop, etc. It may be an intelligent device that adds computer support functions such as information search, and also a mobile phone, smart phone, pad, or smart watch that can install and run a number of applications (that is, applications) that the user wants. (Smart watch), a wearable (wearable) device, may be other mobile communication devices.

이하에서는 도 3 내지 도 11을 참조하여 본 발명의 일 실시예에 따른 사용자 단말(100)에서 수행되는 화자분리 기반 자동통역 방법에 대해 보다 구체적으로 설명하도록 한다.Hereinafter, a speaker separation-based automatic interpretation method performed in the user terminal 100 according to an embodiment of the present invention will be described in more detail with reference to FIGS. 3 to 11 .

도 3은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 방법의 순서도이다. 도 4는 사용자 주변 음성을 설명하기 위한 도면이다. 도 5a 및 도 5b는 제1 음성신호를 화자별 음성신호로 분리하는 내용을 설명하기 위한 도면이다.3 is a flowchart of an automatic interpretation method based on speaker separation according to an embodiment of the present invention. 4 is a diagram for explaining a user's surrounding voice. 5A and 5B are diagrams for explaining the content of dividing a first voice signal into a voice signal for each speaker.

먼저, 자동통역 서비스 제공 단말(200) 또는 사용자 단말(100)의 요청에 따라 사용자 단말(100)은 자동통역 서비스 제공 단말(200)과 페어링을 수행한다(S110). 이때, 사용자 단말(100)은 자동통역 서비스 제공 단말(200)과 페어링됨에 따라 통역 환경을 초기화시킨다. 통역 환경 초기화의 일 예로는 기 수행된 통역 결과에서의 상황정보(화자정보, 문맥정보, 잡음정보)를 초기화시키는 것일 수 있다. 다만, 동일한 환경에서 주변 음성을 수신하는 것이거나, 동일 상대방을 대상으로 연속하여 대화를 진행하는 경우가 있을 수 있으므로, 통역 환경 초기화 과정은 사용자의 입력에 따라 선택적으로 수행될 수도 있음은 물론이다. First, according to the request of the automatic interpretation service providing terminal 200 or the user terminal 100, the user terminal 100 performs pairing with the automatic interpretation service providing terminal 200 (S110). At this time, the user terminal 100 initializes the interpretation environment as it is paired with the automatic interpretation service providing terminal 200 . As an example of initialization of the interpretation environment, context information (speaker information, context information, and noise information) in the interpretation result previously performed may be initialized. However, since there may be cases in which surrounding voices are received in the same environment or conversations are continuously conducted with the same counterpart, it goes without saying that the interpretation environment initialization process may be selectively performed according to a user's input.

다음으로, 자동통역 서비스 제공 단말(200)로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신한다(S120).Next, a first voice signal including at least one of a user's voice and a user's surrounding voice is received from the automatic interpretation service providing terminal 200 (S120).

이때, 사용자 음성은 사용자 단말(100)을 사용하는 주체인 사용자의 발화에 해당하며, 사용자 주변 음성은 다채널 마이크(210)를 통해 수신되는 사용자 음성을 제외한 나머지 음성에 해당한다. 즉, 본 발명의 일 실시예는 사용자 음성인 발화를 대상으로 통역을 수행하여 상대방 단말(300)로 제공하고, 상대방 단말(300)로부터 상대방 음성에 대한 통역 결과를 수신하여 사용자 단말(100) 및 자동통역 서비스 제공 단말(200)로 제공하는 면대면 통역 서비스를 기본적으로 제공한다.In this case, the user's voice corresponds to the utterance of the user who is the subject using the user terminal 100 , and the user's surrounding voice corresponds to the remaining voices except for the user's voice received through the multi-channel microphone 210 . That is, according to an embodiment of the present invention, interpretation is performed on a utterance that is a user's voice and provided to the counterpart terminal 300 , and an interpretation result for the counterpart's voice is received from the counterpart terminal 300 to receive the user terminal 100 and The face-to-face interpretation service provided by the automatic interpretation service providing terminal 200 is basically provided.

본 발명의 일 실시예는 이에 더 나아가, 면대면 대화가 아닌 다양한 발화자에 의한 주변 음성을 다채널 마이크(210)가 수신하고, 이를 대상으로 통역을 수행하여 사용자 단말(100) 및 자동통역 서비스 제공 단말(200)로 제공할 수도 있다. 여기에서, 다양한 발화자는 사람에 의한 직접 발화뿐만 아니라 스피커(230)를 통해 출력되는 안내 음성 등 그 대상을 특별히 한정하지 않는다.According to an embodiment of the present invention, the multi-channel microphone 210 receives ambient voices from various speakers rather than face-to-face conversations, and performs interpretation for them, thereby providing the user terminal 100 and automatic interpretation service. It may be provided to the terminal 200 . Here, various speakers do not specifically limit their subjects, such as direct speech by a person, as well as a guide voice output through the speaker 230 .

예를 들어 도 4를 참조하면, 사용자 주변 음성(P1)은 '주변 잡음', '주변 사람 1의 음성', '주변 사람 2'의 음성을 포함할 수 있으며, 이때 주변사람 1, 2는 사용자와 직접 대화하고 있지 않는 불특정인에 해당한다.For example, referring to FIG. 4 , the user's surrounding voice P1 may include 'ambient noise', 'neighbor 1 voice', and 'neighborhood person 2' voices, in which case people 1 and 2 are the user. It corresponds to an unspecified person who does not communicate directly with

이와 같은 상황에서 본 발명의 일 실시예는 자동통역 서비스 제공 단말(200)의 다채널 마이크(210)를 통해 사용자 주변 음성을 수신하면, 자동통역 서비스 제공 단말(200)은 이를 사용자 주변 음성을 사용자 단말(100)로 제공하고, 사용자 단말(100)은 후술하는 바와 같이 주변사람 1, 주변사람 2의 각 음성 언어(영어, 한국어)에 상응하는 통역 결과(한국어)를 생성하여 자동통역 서비스 제공 단말(200)의 스피커(230)를 통해 출력되도록 제공할 수 있다. In such a situation, in an embodiment of the present invention, when a user's surrounding voice is received through the multi-channel microphone 210 of the automatic interpretation service providing terminal 200, the automatic interpretation service providing terminal 200 transmits the user's surrounding voice to the user. provided to the terminal 100, and the user terminal 100 generates an interpretation result (Korean) corresponding to each voice language (English, Korean) of the person around 1 and the person around 2, as will be described later, to provide an automatic interpretation service. It may be provided to be output through the speaker 230 of 200 .

이때, 자동통역 서비스 제공 단말(200)에는 통역 모드 선택 버튼(230)이 구비될 수도 있으며, 사용자에 의해 선택된 통역 모드에 따라 음성 수신 및 통역 결과를 제공한다.In this case, the automatic interpretation service providing terminal 200 may be provided with an interpretation mode selection button 230, and provides voice reception and interpretation results according to the interpretation mode selected by the user.

다음으로, 사용자 단말(100)은 제1 음성신호를 화자별 음성신호로 분리한다(S130).Next, the user terminal 100 separates the first voice signal into a voice signal for each speaker ( S130 ).

본 발명의 일 실시예는 먼저 사용자 음성과 사용자 주변 음성을 화자별 음성신호로 분리한다. According to an embodiment of the present invention, a user's voice and a voice around the user are first separated into voice signals for each speaker.

사용자 음성과 사용자 주변 음성을 구분하는 것은 도 5a 및 도 5b에 도시된 바와 같이 통역 모드에 따라 용이하게 구분할 수 있다. 즉, 면대면 대화 모드인 경우 마이크(210)를 통해 수신되는 음성은 사용자 음성으로 인식할 수 있으며, 대화 모드가 아닌 듣기 모드인 경우 사용자 음성이 아닌 사용자 주변음성으로 인식할 수 있다. 이는 자동통역 서비스 제공 단말(200)에 의해서도 미리 구분되어 제공될 수도 있다.As shown in FIGS. 5A and 5B , the user's voice and the user's surrounding voice can be easily distinguished according to the interpretation mode. That is, in the face-to-face conversation mode, the voice received through the microphone 210 may be recognized as the user's voice, and in the listening mode instead of the conversation mode, it may be recognized as the user's surrounding voice rather than the user's voice. This may also be provided in advance by the automatic interpretation service providing terminal 200 .

화자별 음성신호를 분리하는 과정에서 사용자의 음성은 화자별 소스 분리 모델(P2)에 의해 화자가 1명이므로 사용자 발화 음성과 잡음 신호로 분리된다. 그리고 사용자 주변 음성의 경우에는 화자별 소스 분리 모델(P2)에 의해 복수의 화자 발화 음성과 잡음 신호로 분리될 수 있다. In the process of separating the voice signal for each speaker, the user's voice is divided into the user's voice and the noise signal because there is only one speaker by the source separation model P2 for each speaker. In addition, in the case of the user's surrounding voice, a plurality of speaker-spoken voices and noise signals may be separated by the speaker-specific source separation model P2.

다시 도 3을 참조하면, 다음으로 사용자 단말(100)은 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한다(S140). 그리고 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말(300) 및 자동통역 서비스 제공 단말(200) 중 적어도 하나에 제공한다(S150).Referring back to FIG. 3 , next, the user terminal 100 interprets the voice signal for each speaker into the language selected by the user based on the interpretation mode ( S140 ). Then, the second voice signal generated as a result of the interpretation is provided to at least one of the counterpart terminal 300 and the automatic interpretation service providing terminal 200 according to the interpretation mode (S150).

도 6은 본 발명의 일 실시예에서 제공하는 대화 모드를 설명하기 위한 도면이고, 도 7은 본 발명의 일 실시예에서 제공하는 듣기 모드를 설명하기 위한 도면이다. 도 8 및 도 9는 본 발명의 일 실시예에서 상황정보를 추출 및 반영하는 내용을 설명하기 위한 도면이다. 도 10은 수집된 상황정보를 기반으로 제2 음선신호를 제공하는 내용을 종합하여 도시한 도면이다.6 is a diagram for explaining a conversation mode provided by an embodiment of the present invention, and FIG. 7 is a diagram for explaining a listening mode provided by an embodiment of the present invention. 8 and 9 are diagrams for explaining the content of extracting and reflecting context information in an embodiment of the present invention. FIG. 10 is a view showing the contents of providing a second sound line signal based on the collected situation information.

일 실시예로 본 발명은 통역 모드로 대화 모드 및 듣기 모드를 제공한다. In one embodiment, the present invention provides a conversation mode and a listening mode as the interpretation mode.

먼저, 도 6을 참조하면 대화 모드는 사용자와 상대방이 면대면 대화를 하는 경우로, 사용자 단말(100)은 대화 모드인 경우 분리된 화자별 음성신호 중 사용자 음성을 선택하고(S141), 사용자 음성을 대상으로 통역을 수행한 후(S142), 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말(300)로 제공한다(S143). 또한, 상대방 역시 이에 대한 답변 등 대화를 하는 경우 상대방 단말(300)로부터 수신한 상대방 음성의 통역 결과를 수신하여(S144) 자동통역 서비스 제공 단말(200)로 제공한다(S145).First, referring to FIG. 6 , the conversation mode is a case in which the user and the other party have a face-to-face conversation. In the conversation mode, the user terminal 100 selects a user voice from among the separated voice signals for each speaker (S141), and the user voice After interpreting is performed for the user (S142), the second voice signal, which is the result of the interpretation of the user's voice, is provided to the counterpart terminal 300 (S143). In addition, when the other party also has a conversation such as an answer to this, the result of the interpretation of the voice of the other party received from the other party terminal 300 is received (S144) and provided to the automatic interpretation service providing terminal 200 (S145).

다음으로 도 7을 참조하면, 듣기 모드는 면대면 대화가 아닌 사용자 주변 상황의 음성을 수신하여 통역하기 위한 경우로, 사용자 단말(100)은 듣기 모드인 경우 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하고(S146), 사용자 주변 음성을 대상으로 통역을 수행한다(S147). 그리고 사용자 단말(100)은 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여(S148), 자동통역 서비스 제공 단말(200)로 제공할 수 있다(S149). Next, referring to FIG. 7 , the listening mode is for receiving and interpreting the voice of the user's surroundings rather than face-to-face conversation. is selected (S146), and interpretation is performed on the user's surrounding voice (S147). In addition, the user terminal 100 may classify the interpretation result for the user's surrounding voice for each speaker (S148) and provide the result to the automatic interpretation service providing terminal 200 (S149).

이때, 사용자 단말(100)은 듣기 모드인 경우 사용자 주변 음성으로부터 상황정보를 추출하는 과정을 더 수행할 수 있다. 도 8을 참조하면, 사용자 단말(100)은 사용자 주변 음성으로부터 구분된 화자별 음성 신호를 음성 인코더(A1)에 입력시킴과 더불어, 각 화자별로 분리된 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하고, 추출된 상황정보를 버퍼 상에 저장한다.In this case, the user terminal 100 may further perform a process of extracting context information from the user's surrounding voice in the listening mode. Referring to FIG. 8 , the user terminal 100 inputs a speaker-specific voice signal separated from the user's surrounding voice to the voice encoder A1, and receives speaker information, context information, and noise from the user's peripheral voice separated for each speaker. Context information including at least one of the information is extracted, and the extracted context information is stored in a buffer.

그리고 추출된 상황정보를 상황정보 인코더(A2)에 입력시킨 후, 음성 인코더의 출력 정보와 합산하여 번역 디코더(A3)로 입력시킴에 따라, 사용자 주변 음성에 대한 통역시 상황정보가 반영된 통역 결과를 제공할 수 있다. Then, after inputting the extracted contextual information to the contextual information encoder (A2), it is summed with the output information of the voice encoder and inputted to the translation decoder (A3), so that the interpretation result reflecting the contextual information when interpreting the voice around the user is displayed. can provide

이때, 사용자 단말(100)은 도 9와 같이 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 상황정보를 통해 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 더 반영하여 통역결과를 자동통역 서비스 제공 단말(200)로 제공할 수 있다. 즉, 사용자 단말(100)은 세기 정보 및 반향 정보를 토대로 화자의 위치 정보를 추정하고(B1), 버퍼 상에 해당 화자정보가 존재하는지 여부를 확인한 후(B2), 자동통역 결과를 출력함에 있어 화자별 위치정보를 더 반영하여 제공할 수 있다.At this time, the user terminal 100 classifies the voice signal for each speaker from the context information extracted as shown in FIG. 9 , and further reflects the intensity information and the echo information of the voice signal divided for each speaker through the context information to provide an automatic interpretation service. It may be provided to the providing terminal 200 . That is, the user terminal 100 estimates the speaker's location information based on the intensity information and the echo information (B1), checks whether the corresponding speaker information exists in the buffer (B2), and outputs the automatic interpretation result. Location information for each speaker may be further reflected and provided.

이에 따라, 자동통역 서비스 제공 단말(200)에서 출력되는 화자별 음성신호는 실제 화자들의 발화와 유사한 특성을 갖도록 출력될 수 있다.Accordingly, the speaker-specific voice signals output from the automatic interpretation service providing terminal 200 may be output to have characteristics similar to those of actual speakers.

기존의 일반적인 자동통역 시스템에서는 대화 화자의 특성을 고려하지 않고 자동통역 결과를 미리 설정된 단일 화자 음성으로 사용자에게 제공한다. 반면, 본 발명의 일 실시예에서는 화자별 음성신호를 분리하는 과정과 상황정보를 추출 및 적용하는 과정을 통해, 다중 화자의 자동통역 결과를 실제 발화하는 화자의 음성과 유사한 특성을 갖도록 합성할 수 있어, 사용자에게 보다 자연스러운 자동통역 결과를 제공할 수 있다.In the existing general automatic interpretation system, the automatic interpretation result is provided to the user as a preset single-speaker voice without considering the characteristics of the conversational speaker. On the other hand, in an embodiment of the present invention, through the process of separating voice signals for each speaker and the process of extracting and applying context information, the results of automatic interpretation of multiple speakers can be synthesized to have characteristics similar to those of the actual speaker. Therefore, it is possible to provide a more natural automatic interpretation result to the user.

한편, 화자정보는 남녀, 또는 컴퓨터 음성인지 여부, 연령, 국적, 감정상태 등의 정보를 포함할 수 있고, 문맥정보는 실시간 통역 결과를 통해 전후 단어나 문장의 의미를 통해 확인할 수 있으며, 잡음정보는 위치, 시간, 공간 등의 정보를 포함하는 개념이다.On the other hand, speaker information can include information such as whether it is male or female or computer voice, age, nationality, emotional state, etc., and context information can be checked through the meaning of words or sentences before and after the real-time interpretation result, and noise information is a concept that includes information such as location, time, and space.

도 10은 도 9에서의 위치정보를 반영하여 통역결과를 제2 음성신호로 제공하는 내용을 도시한 것으로, 사용자 주변 음성으로부터 추출된 화자별 음성신호와, 상황정보로부터 추출된 화자정보 및 위치정보를 각각 텍스트 인코더(C1) 및 상황정보 인코더(C2)에 입력시킨다. 그 다음 텍스트 인코더(C1)의 출력 정보와 상황정보 인코더(C2)의 출력 정보를 합산하여 음성 합성 디코더(C3)로 입력시킴에 따라, 사용자 주변 음성에 대한 통역 결과는 복수의 화자별로 구분되고(C4) 복수의 화자의 위치 정보가 반영된 제2 음성신호로 합성되어(C5) 사용자 단말(100)을 통해 자동통역 서비스 제공 단말(200)로 제공될 수 있다.FIG. 10 shows the contents of providing an interpretation result as a second voice signal by reflecting the location information in FIG. 9, each speaker's voice signal extracted from the user's surrounding voice, speaker information and location information extracted from context information; are input to the text encoder (C1) and the context encoder (C2), respectively. Then, as the output information of the text encoder (C1) and the output information of the context encoder (C2) are summed and input to the speech synthesis decoder (C3), the interpretation result for the voice around the user is divided into a plurality of speakers ( C4) The second voice signal in which the location information of a plurality of speakers is reflected may be synthesized (C5) and provided to the automatic interpretation service providing terminal 200 through the user terminal 100 .

또한, 본 발명의 일 실시예는 제1 및 제2 음성신호와 사용자 주변 음성을 통해 추출된 상황정보를 기반으로 화자별 소스 분리 모델, 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신할 수 있다. 즉, 제1 및 제2 음성신호 및 상황정보를 입력 데이터로 설정하고, 각 모델에서의 기존 출력된 정보를 출력 데이터로 설정하여 신경망 모델, 딥러닝 모델 등 인공지능 모델 학습 방법에 기초하여 각 모델의 성능을 자동으로 갱신할 수 있다. 이를 통해 본 발명의 일 실시예는 자동통역 서비스를 지속적으로 이용함에 따라 사용자에게 보다 향상된 자동통역 결과를 제공할 수 있다는 장점이 있다.In addition, an embodiment of the present invention provides a source separation model for each speaker, a voice recognition model for recognizing the first voice signal, and a first voice based on context information extracted through the first and second voice signals and the user's surrounding voice. It is possible to automatically update the performance of a machine translation model for translating a signal and an automatic interpretation model combined with them. That is, each model is based on an artificial intelligence model learning method such as a neural network model, a deep learning model, by setting the first and second voice signals and context information as input data, and setting the existing output information in each model as output data. performance can be automatically updated. Through this, an embodiment of the present invention has an advantage in that it is possible to provide a more improved automatic interpretation result to the user as the automatic interpretation service is continuously used.

도 11은 자동통역 서비스 제공 단말(200)에서 수행되는 각 과정을 설명하기 위한 도면이다.11 is a diagram for explaining each process performed by the automatic interpretation service providing terminal 200. Referring to FIG.

자동통역 서비스 제공 단말(200)은 사용자의 자동통역 요청을 수신하면(S210), 사용자 단말(100)과 페어링됨에 따라 사용자 단말(100)에 통역 초기화를 요청한다(S220).When the automatic interpretation service providing terminal 200 receives the user's automatic interpretation request (S210), it requests the user terminal 100 to initialize interpretation as it is paired with the user terminal 100 (S220).

다음으로, 통역 모드를 구분하여(S230), 대화 모드인 경우 다채널 마이크(210)를 통해 사용자 음성을 수신하고(S231), 듣기 모드인 경우 다채널 마이크(210)를 통해 사용자 주변 음성을 수신한다(S232). Next, by dividing the interpretation mode (S230), the user's voice is received through the multi-channel microphone 210 in the conversation mode (S231), and the user's surrounding voice is received through the multi-channel microphone 210 in the listening mode (S231) do (S232).

다음으로, 수신한 사용자 음성 또는 사용자 주변 음성을 사용자 단말(100)로 전송하고(S240), 사용자 단말(100)로부터 통역 결과에 따른 제2 음성신호 또는 사용자 단말(100)을 통해 상대방 단말(300)의 통역 결과에 따른 제2 음성신호를 수신하면(S250), 제2 음성신호를 스피커(230)를 통해 사용자에게 출력한다(S260).Next, the received user voice or the user's surrounding voice is transmitted to the user terminal 100 (S240), and the second voice signal according to the interpretation result from the user terminal 100 or the counterpart terminal 300 through the user terminal 100 ), when the second voice signal according to the interpretation result is received (S250), the second voice signal is output to the user through the speaker 230 (S260).

한편, 상술한 설명에서, 단계 S110 내지 S260은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 2의 내용은 도 3 내지 도11의 화자분리 기반 자동통역 방법에도 적용될 수 있다.Meanwhile, in the above description, steps S110 to S260 may be further divided into additional steps or combined into fewer steps according to an embodiment of the present invention. In addition, some steps may be omitted if necessary, and the order between the steps may be changed. In addition, even if other contents are omitted, the contents of FIGS. 1 to 2 may also be applied to the speaker separation-based automatic interpretation method of FIGS. 3 to 11 .

이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.The embodiment of the present invention described above may be implemented as a program (or application) to be executed in combination with a computer, which is hardware, and stored in a medium.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.The above-mentioned program, in order for the computer to read the program and execute the methods implemented as a program, C, C++, JAVA, Ruby, which the processor (CPU) of the computer can read through the device interface of the computer; It may include code coded in a computer language such as machine language. Such code may include functional code related to a function defining functions necessary for executing the methods, etc. can do. In addition, the code may further include additional information necessary for the processor of the computer to execute the functions or code related to memory reference for which location (address address) in the internal or external memory of the computer should be referenced. have. In addition, when the processor of the computer needs to communicate with any other computer or server located remotely in order to execute the functions, the code uses the communication module of the computer to determine how to communicate with any other computer or server remotely. It may further include a communication-related code for whether to communicate and what information or media to transmit and receive during communication.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.The storage medium is not a medium that stores data for a short moment, such as a register, a cache, a memory, etc., but a medium that stores data semi-permanently and can be read by a device. Specifically, examples of the storage medium include, but are not limited to, ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device. That is, the program may be stored in various recording media on various servers accessible by the computer or in various recording media on the computer of the user. In addition, the medium may be distributed in a computer system connected by a network, and computer-readable codes may be stored in a distributed manner.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present invention is for illustration, and those of ordinary skill in the art to which the present invention pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and likewise components described as distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

1: 자동통역 서비스 제공 시스템
100: 사용자 단말
110: 통신모듈
120: 메모리
130: 프로세서
200: 자동통역 서비스 제공 단말
210: 다채널 마이크
220: 통역 모드 선택 버튼
230: 스피커
300: 상대방 단말
1: Automatic interpretation service provision system
100: user terminal
110: communication module
120: memory
130: processor
200: automatic interpretation service providing terminal
210: multi-channel microphone
220: Interpretation mode selection button
230: speaker
300: counterpart terminal

Claims (16)

사용자 단말에서의 화자분리 기반 자동통역 방법에 있어서,
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계;
상기 제1 음성신호를 화자별 음성신호로 분리하는 단계;
통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함하는,
화자분리 기반 자동통역 방법.
In the automatic interpretation method based on speaker separation in a user terminal,
Receiving a first voice signal including at least one of a user's voice and a user's surrounding voice from an automatic interpretation service providing terminal;
separating the first voice signal into voice signals for each speaker;
interpreting the speech signal for each speaker into a language selected by a user based on the interpretation mode; and
providing a second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
Automatic interpretation method based on speaker separation.
제1항에 있어서,
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계는,
상기 통역 모드에 기초하여 상기 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하되,
상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받는 것인,
화자분리 기반 자동통역 방법.
According to claim 1,
Receiving a first voice signal including at least one of a user's voice and a user's surrounding voice from the automatic interpretation service providing terminal,
receiving the first voice signal from an automatic interpretation service providing terminal based on the interpretation mode,
The automatic interpretation service providing terminal receives a user's voice through a microphone when the interpretation mode is a conversation mode, and receives a user's surrounding voice through a microphone in the listening mode,
Automatic interpretation method based on speaker separation.
제1항에 있어서,
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
According to claim 1,
The step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode comprises:
When the interpretation mode is a conversation mode, an interpretation is performed by selecting a user's voice from among the separated voice signals for each speaker;
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
providing a second voice signal, which is an interpretation result of the user's voice, to a counterpart terminal, and providing an interpretation result of the counterpart's voice received from the counterpart terminal to an automatic interpretation service providing terminal;
Automatic interpretation method based on speaker separation.
제1항에 있어서,
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
According to claim 1,
The step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode comprises:
When the interpretation mode is the listening mode, interpretation is performed by selecting a user's surrounding voice from among the separated speaker-specific voice signals;
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
The interpretation result for the user's surrounding voice is divided by speaker and provided to the automatic interpretation service providing terminal.
Automatic interpretation method based on speaker separation.
제4항에 있어서,
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하는 단계;
상기 추출된 상황정보를 버퍼 상에 저장하는 단계; 및
상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 단계를 포함하는,
화자분리 기반 자동통역 방법.
5. The method of claim 4,
The step of interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode comprises:
extracting context information including at least one of speaker information, context information, and noise information from the voice around the user;
storing the extracted context information in a buffer; and
Interpreting the speaker-specific voice signal included in the user's surrounding voice based on the extracted context information;
Automatic interpretation method based on speaker separation.
제5항에 있어서,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
6. The method of claim 5,
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
Separating a voice signal for each speaker from the extracted context information, and providing an interpretation result to the automatic interpretation service providing terminal by reflecting the strength information and echo information of the voice signal divided for each speaker,
Automatic interpretation method based on speaker separation.
제4항에 있어서,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
5. The method of claim 4,
providing the second voice signal generated as a result of the interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to the interpretation mode;
providing an interpretation result corresponding to at least one speaker selected by a user among the interpretation results for the voices around the user to the automatic interpretation service providing terminal;
Automatic interpretation method based on speaker separation.
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말에 있어서,
자동통역 서비스 제공 단말 및 상대방 단말과 데이터를 송수신하는 통신모듈,
자동통역 서비스 제공 단말로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신하면 이를 기반으로 통역 결과인 제2 음성신호를 생성하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 음성신호를 화자별 음성신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
A user terminal providing an automatic interpretation service based on speaker separation, the user terminal comprising:
A communication module that transmits and receives data to and from an automatic interpretation service providing terminal and a counterpart terminal;
When a first voice signal including at least one of a user's voice and a user's surrounding voice is received from the automatic interpretation service providing terminal, a program for generating a second voice signal that is an interpretation result based on the received memory;
A processor for executing the program stored in the memory;
As the program is executed, the processor separates the first voice signal into a voice signal for each speaker, interprets the voice signal for each speaker into a language selected by the user based on the interpretation mode, and then through the communication module providing the second voice signal generated as a result of interpretation to at least one of a counterpart terminal and an automatic interpretation service providing terminal according to an interpretation mode;
A user terminal that provides automatic interpretation service based on speaker separation.
제8항에 있어서,
상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
9. The method of claim 8,
The automatic interpretation service providing terminal receives a user's voice through a microphone when the interpretation mode is a conversation mode, and receives a user's surrounding voice through a microphone in the listening mode,
A user terminal that provides automatic interpretation service based on speaker separation.
제8항에 있어서,
상기 프로세서는 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통신모듈을 통해 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
9. The method of claim 8,
When the interpretation mode is a conversation mode, the processor selects a user's voice from among the separated voice signals for each speaker for interpretation, and provides a second voice signal, which is a result of the interpretation of the user's voice, to the counterpart terminal through the communication module and providing an interpretation result of the counterpart's voice received from the counterpart terminal to an automatic interpretation service providing terminal,
A user terminal that provides automatic interpretation service based on speaker separation.
제8항에 있어서,
상기 프로세서는 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
9. The method of claim 8,
When the interpretation mode is the listening mode, the processor selects a user's surrounding voice from among the separated voice signals for each speaker to perform interpretation, divides the interpretation result for the user's surrounding voice for each speaker, and uses the communication module to automatically which is provided by an interpreter service providing terminal,
A user terminal that provides automatic interpretation service based on speaker separation.
제11항에 있어서,
상기 프로세서는 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하여 상기 메모리의 버퍼 상에 저장하고, 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
12. The method of claim 11,
The processor extracts context information including at least one of speaker information, context information, and noise information from the user's surrounding voice and stores it in a buffer of the memory, and based on the extracted contextual information, the user's surrounding voice includes Interpreting voice signals for each speaker,
A user terminal that provides automatic interpretation service based on speaker separation.
제12항에 있어서,
상기 프로세서는 상기 제1 및 제2 음성신호와 상기 추출된 상황정보를 기반으로, 상기 제1 음성신호를 화자별 음성신호로 분리하기 위한 화자별 소스분리 모델, 상기 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
13. The method of claim 12,
The processor is configured to: based on the first and second voice signals and the extracted context information, a source separation model for each speaker for separating the first voice signal into a voice signal for each speaker, and a method for recognizing the first voice signal Automatically updating the performance of the speech recognition model, the machine translation model for translating the first speech signal, and the automatic interpretation model combined with them,
A user terminal that provides automatic interpretation service based on speaker separation.
제12항에 있어서,
상기 프로세서는 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
13. The method of claim 12,
The processor classifies the voice signal for each speaker from the extracted context information, reflects the strength information and the echo information of the voice signal divided for each speaker, and provides the interpretation result to the automatic interpretation service providing terminal through the communication module. ,
A user terminal that provides automatic interpretation service based on speaker separation.
제11항에 있어서,
상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
12. The method of claim 11,
wherein the processor provides an interpretation result corresponding to at least one speaker selected by the user among the interpretation results for the voices around the user to the automatic interpretation service providing terminal through the communication module,
A user terminal that provides automatic interpretation service based on speaker separation.
화자분리 기반 자동통역 서비스 제공 시스템에 있어서,
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 다채널 마이크를 통해 수신하고, 제1 음성신호에 대한 통역 결과 및 상대방 음성에 대한 통역 결과를 스피커를 통해 제공하는 자동통역 서비스 제공 단말,
상기 제1 음성신호를 수신하여 화자별 음성신호로 분리한 후, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 사용자 단말 및
상기 제2 음성신호를 사용자 단말로부터 수신하여 제공하고, 상기 통역 모드에 따라 상대방 음성을 통역하여 사용자 단말로 제공하는 상대방 단말을 포함하는,
화자분리 기반 자동통역 서비스 제공 시스템.
In the speaker separation-based automatic interpretation service providing system,
Automatic interpretation service that receives a first voice signal including at least one of a user's voice and a user's surrounding voice through a multi-channel microphone, and provides an interpretation result for the first voice signal and an interpretation result for the other party's voice through a speaker terminal,
After receiving the first voice signal, separating the voice signal for each speaker, interpreting the voice signal for each speaker into the language selected by the user based on the interpretation mode, and then converting the second voice signal generated as a result of the interpretation into the interpretation mode a user terminal provided to at least one of the counterpart terminal and the automatic interpretation service providing terminal according to the
and a counterpart terminal that receives and provides the second voice signal from a user terminal and interprets the other party's voice according to the interpretation mode and provides it to the user terminal;
A system for providing automatic interpretation service based on speaker separation.
KR1020210106300A 2021-01-05 2021-08-11 System, user device and method for providing automatic interpretation service based on speaker separation KR102584436B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021188902A JP7333371B2 (en) 2021-01-05 2021-11-19 Automatic Interpretation Method Based on Speaker Separation, User Terminal Providing Automatic Interpretation Service Based on Speaker Separation, and Automatic Interpretation Service Providing System Based on Speaker Separation
US17/531,316 US20220215857A1 (en) 2021-01-05 2021-11-19 System, user terminal, and method for providing automatic interpretation service based on speaker separation
DE102021130318.4A DE102021130318A1 (en) 2021-01-05 2021-11-19 System, user terminal and method for providing an automatic interpretation service based on speaker separation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210000912 2021-01-05
KR1020210000912 2021-01-05

Publications (2)

Publication Number Publication Date
KR20220099083A true KR20220099083A (en) 2022-07-12
KR102584436B1 KR102584436B1 (en) 2023-10-05

Family

ID=82420021

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210106300A KR102584436B1 (en) 2021-01-05 2021-08-11 System, user device and method for providing automatic interpretation service based on speaker separation

Country Status (1)

Country Link
KR (1) KR102584436B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102635031B1 (en) * 2023-09-27 2024-02-13 주식회사 에이아이노미스 Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
KR101412657B1 (en) * 2010-06-03 2014-06-27 한국전자통신연구원 Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals
WO2018186416A1 (en) * 2017-04-03 2018-10-11 旋造 田代 Translation processing method, translation processing program, and recording medium
KR20190015081A (en) 2017-08-03 2019-02-13 한국전자통신연구원 System, device and method of automatic translation
KR20190029237A (en) * 2017-09-12 2019-03-20 (주)한컴인터프리 Apparatus for interpreting and method thereof
KR20190074012A (en) * 2017-12-19 2019-06-27 삼성전자주식회사 Method for processing speech signal of plurality of speakers and electric apparatus thereof
KR20190103081A (en) * 2019-08-15 2019-09-04 엘지전자 주식회사 Intelligent voice outputting method, apparatus, and intelligent computing device
KR20200125735A (en) * 2018-04-27 2020-11-04 주식회사 엘솔루 Multi-party conversation recording/output method using speech recognition technology and device therefor

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101412657B1 (en) * 2010-06-03 2014-06-27 한국전자통신연구원 Method and apparatus for improving automatic interpretation function by use of mutual communication between portable interpretation terminals
JP2012059121A (en) * 2010-09-10 2012-03-22 Softbank Mobile Corp Eyeglass-type display device
WO2018186416A1 (en) * 2017-04-03 2018-10-11 旋造 田代 Translation processing method, translation processing program, and recording medium
KR20190015081A (en) 2017-08-03 2019-02-13 한국전자통신연구원 System, device and method of automatic translation
KR20190029237A (en) * 2017-09-12 2019-03-20 (주)한컴인터프리 Apparatus for interpreting and method thereof
KR20190074012A (en) * 2017-12-19 2019-06-27 삼성전자주식회사 Method for processing speech signal of plurality of speakers and electric apparatus thereof
KR20200125735A (en) * 2018-04-27 2020-11-04 주식회사 엘솔루 Multi-party conversation recording/output method using speech recognition technology and device therefor
KR20190103081A (en) * 2019-08-15 2019-09-04 엘지전자 주식회사 Intelligent voice outputting method, apparatus, and intelligent computing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102635031B1 (en) * 2023-09-27 2024-02-13 주식회사 에이아이노미스 Method, device, and system for providing speaker separation real-time interpretation service based on semantic unit visualization

Also Published As

Publication number Publication date
KR102584436B1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JP6790234B2 (en) Interpreters and methods (DEVICE AND METHOD OF TRANSLATING A LANGUAGE INTO ANOTHER LANGUAGE)
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
KR102108500B1 (en) Supporting Method And System For communication Service, and Electronic Device supporting the same
US10089974B2 (en) Speech recognition and text-to-speech learning system
AU2011209760B2 (en) Integration of embedded and network speech recognizers
JP5598998B2 (en) Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device
JP6681450B2 (en) Information processing method and device
CN111226224A (en) Method and electronic equipment for translating voice signals
KR20200059054A (en) Electronic apparatus for processing user utterance and controlling method thereof
KR20200027331A (en) Voice synthesis device
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
KR102584436B1 (en) System, user device and method for providing automatic interpretation service based on speaker separation
WO2019239659A1 (en) Information processing device and information processing method
KR101959439B1 (en) Method for interpreting
KR102380717B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
KR101207435B1 (en) Interactive speech recognition server, interactive speech recognition client and interactive speech recognition method thereof
JP7333371B2 (en) Automatic Interpretation Method Based on Speaker Separation, User Terminal Providing Automatic Interpretation Service Based on Speaker Separation, and Automatic Interpretation Service Providing System Based on Speaker Separation
KR20220138669A (en) Electronic device and method for providing personalized audio information
KR102181583B1 (en) System for voice recognition of interactive robot and the method therof
KR20220118818A (en) Electronic device and operation method thereof
KR100369732B1 (en) Method and Apparatus for intelligent dialog based on voice recognition using expert system
US20170185587A1 (en) Machine translation method and machine translation system
KR20200028158A (en) Media play device, method and computer program for providing multi language voice command service
KR20190029236A (en) Method for interpreting

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant