KR20150093482A - 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 - Google Patents

화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 Download PDF

Info

Publication number
KR20150093482A
KR20150093482A KR1020140014318A KR20140014318A KR20150093482A KR 20150093482 A KR20150093482 A KR 20150093482A KR 1020140014318 A KR1020140014318 A KR 1020140014318A KR 20140014318 A KR20140014318 A KR 20140014318A KR 20150093482 A KR20150093482 A KR 20150093482A
Authority
KR
South Korea
Prior art keywords
speaker
voice
speech
translation
signal
Prior art date
Application number
KR1020140014318A
Other languages
English (en)
Inventor
신종훈
이기영
서영애
황금하
최승권
김운
김창현
나승훈
노윤형
권오욱
정상근
박은진
김강일
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140014318A priority Critical patent/KR20150093482A/ko
Priority to US14/607,814 priority patent/US20150227510A1/en
Publication of KR20150093482A publication Critical patent/KR20150093482A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

본 발명은 통번역 기능에 관한 것으로, 복수의 화자들이 입력한 음성 신호를 수집하는 음성 입력 기기 또는 수신하는 통신 모듈 중 적어도 하나, 상기 음성 신호에서 화자별 음성 신호를 분류하고 사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링한 후 음성 인식 및 번역을 수행하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 자동 통번역 운용 장치 및 방법 및 이를 포함하는 시스템의 구성을 개시한다.

Description

화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치{System for Speaker Diarization based Multilateral Automatic Speech Translation System and its operating Method, and Apparatus supporting the same}
본 발명은 스마트 폰과 같은 휴대용 컴퓨팅 단말기 또는, 마이크와 같은 음성 입력 장치가 포함된 컴퓨팅 기기를 기반으로 사용 가능한 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치에 대한 것이다.
사용자가 휴대하며 사용할 수 있는 이동통신 단말기는 사용자가 입력한 원시 언어(source language)를 목적 언어(target language)로 번역하는 자동통역 기능을 지원할 수 있다. 원시 언어를 입력하는 방법으로 사용자가 단말기의 입력 장치 예컨대 키보드 등을 이용하여 텍스트를 직접 입력 하는 방법이 있으며, 또 다른 방법으로는 음성을 입력하는 방법이 있다. 음성 입력 방법으로 입력된 음성은 음성 인식 시스템을 통해 해당 텍스트로 변환될 수 있다.
한편, 사용자는 다자간 및 1:1 대화를 수행할 수 있는데, 대개 스마트 폰과 같은 휴대용 단말기를 주로 활용하게 되며, PC나 노트북(Mobile Personal computer)을 활용하는 경우도 존재한다. 이 과정에서 사용자는 상술한 자동통역 및 자동번역 등을 이용할 수 있다. 이 과정에서 일반적으로 통용되는 기술은 주 사용자와 상대 사용자 간의 1:1 상호 작용을 목표로 구성되어 있다. 즉, 음성 인식 부(혹은 음성 인식 서브 시스템)는 한번에 한 명의 화자(Speaker)가 발성하는 음성 데이터를 마이크와 같은 음성 입력 기기를 통해 획득하고, 그 음성 입력을 텍스트로 변환하여 이를 자동 번역 시스템에 전달, 최종적으로 대역 언어로 구성된 텍스트, 즉 번역 결과물을 출력하게 된다.
상술한 바와 같이 종래 자동 통번역 기능은 화자가 한번씩 발화하며 해당 서비스의 사용자 인터페이스와 상호작용을 의무적으로 수행해야 하기 때문에, 단말기 화면이나 하드웨어적 버튼을 손으로 조작하거나, 기기를 기울이는 등의 조작이 필수적으로 동반되어야 한다. 또한 종래 자동 통번역 기능은 음성 인식 결과나 번역 결과를 조회하거나, 원시 언어 및 대역 언어 설정 정보를 수정하기 위한 행동이 필수적으로 수반되어야 하기 때문에 사용자에게 번거로움을 주고 있는 실정이다. 또한, 종래 자동 통번역 기능은 서비스 제공 과정에서 발화 권환 획득을 요구하는데, 이로 인하여 대화의 흐름이 끊기게 된 상황이 발생(화자가 이야기하는 중에, 다른 화자가 끼어드는 상황 등)할 수 있다. 또한 대화의 흐름이 끊기는 경우 올바른 음성 인식 결과를 획득하는데 실패할 수 있고, 그로 인해 오역된 결과가 출력될 가능성이 높은 문제가 있다.
본 발명에서는 해결하고자 하는 기술적 목적은 자동 통번역 기능 운용 시 대화 지연, 통번역 실패 문제를 최소화 할 수 있는 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치를 제공함에 있다.
또한, 본 발명은 사용자가 기계와 상호작용하는 절차를 최소화하여 보다 간단한 조작을 통해서 자동 통번역 기능을 운용할 수 있도록 하는 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치를 제공함에 있다.
본 발명의 실시예에 따른 자동 통번역 운용 장치는 복수의 화자들이 입력한 음성 신호를 수집하는 음성 입력 기기 또는 수신하는 통신 모듈 중 적어도 하나, 상기 음성 신호에서 화자별 음성 신호를 분류하고 사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링한 후 음성 인식 및 번역을 수행하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 자동 통번역 운용 장치의 구성을 개시한다.
상기 제어부는 상기 음성 신호를 상기 음성 입력 기기 및 상기 음성 신호를 전송한 전자 장치들을 색인으로 하여 화자별 분류를 수행하는 것을 특징으로 한다.
상기 제어부는 화자별 음성 성문 구분을 위한 학습을 수행하는 것을 특징으로 한다.
상기 제어부는 사전 구분된 화자 이외의 성문의 음성 신호 입력 시 새로운 화자로 판단하는 것을 특징으로 한다.
상기 제어부는 상기 화자별 음성 신호에서 문장 종결어미 또는 문장 종결 부호가 검색되는 시점까지 클러스터링을 수행하는 것을 특징으로 한다.
상기 제어부는 상기 문장 종결 어미 또는 문장 종결 부호로 구분된 완성된 문장에 대한 번역을 수행하는 것을 특징으로 한다.
상기 장치는 상기 화자별 음성 인식 및 번역 결과를 산출하는 표시 모듈을 더 포함하는 것을 특징으로 한다.
상기 제어부는 상기 화자별 음성 신호 중 지정된 특정 음성 신호에 대응하는 번역 결과를 오디오 신호로 변환하는 것을 특징으로 한다.
상기 장치는 상기 오디오 신호를 출력하는 오디오 모듈을 더 포함하는 것을 특징으로 한다.
본 발명은 또한, 복수의 화자들이 입력한 음성 신호를 수집하는 수집 단계, 상기 음성 신호에서 화자별 음성 신호를 분류하는 분류 단계, 사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링하는 단계, 상기 클러스터링된 음성 신호를 음성 인식 및 번역하는 번역 단계를 포함하는 것을 특징으로 하는 자동 통번역 운용 방법의 구성을 개시한다.
상기 수집 단계는 음성 입력 기기 또는 수신하는 통신 모듈 중 적어도 하나를 이용하여 음성 신호를 수집하는 단계인 것을 특징으로 한다.
상기 분류 단계는 상기 음성 신호를 상기 음성 입력 기기 및 상기 음성 신호를 전송한 전자 장치들을 색인으로 하여 화자별 분류를 수행하는 단계인 것을 특징으로 한다.
상기 방법은 상기 화자별 음성 성문 구분을 위한 학습을 수행하는 단계를 더 포함하는 것을 특징으로 한다.
상기 분류 단계는 사전 구분된 화자 이외의 성문의 음성 신호 입력 시 새로운 화자로 판단하는 단계를 포함하는 것을 특징으로 한다.
상기 클러스터링하는 단계는 상기 화자별 음성 신호에서 문장 종결어미 또는 문장 종결 부호를 검색하는 단계 및 상기 문장 종결어미 또는 문장 종결 부호가 검색되는 구간을 완성된 문장으로 인식하는 단계를 포함하는 것을 특징으로 한다.
상기 번역 단계는 상기 문장 종결 어미 또는 문장 종결 부호로 구분된 완성된 문장에 대한 번역을 수행하는 단계 인 것을 특징으로 한다.
상기 방법은 상기 화자별 음성 인식 및 번역 결과를 출력하는 출력 단계를 더 포함하는 것을 특징으로 한다.
상기 방법은 상기 화자별 음성 신호 중 지정된 특정 음성 신호에 대응하는 번역 결과를 오디오 신호로 변환하는 단계 및 상기 오디오 신호를 출력하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명은 또한, 복수의 화자들이 입력한 음성 신호를 수집하여 전송하는 복수의 전자 장치들, 상기 전자 장치들이 전송한 음성 신호에서 화자별 음성 신호를 분류하고 사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링한 후 음성 인식 및 번역을 수행하도록 제어하는 자동 통번역 운용 장치를 포함하는 것을 특징으로 하는 자동 통번역 운용 시스템의 구성을 개시한다.
상기 자동 통번역 운용 장치는 상기 화자별 음성 신호에서 문장 종결어미 또는 문장 종결 부호가 검색되는 시점까지 클러스터링을 수행하고 클러스터링된 신호를 음성 인식 및 번역하여 출력하는 것을 특징으로 한다.
상술한 바와 같이, 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치에 따르면, 본 발명은 자동 통번역을 수행할 때, 번거로운 사용자 인터페이스와의 상호작용 없이 화자 인식/분리를 통해 발화 내용을 구별하고, 이를 선택적으로 청취하거나 볼 수 있다.
또한, 본 발명은 종래와 달리 보다 적은 인터페이스 상호작용을 통해서 통번역 결과를 사용자가 손쉽게 획득할 수 있다.
또한, 본 발명은 다자간 회의나 사람들끼리의 대화에 집중이 필요한 상황에서 자동 통번역 시스템을 활용하는데 도움이 되는 이점이 있다.
또한, 본 발명은 다자간 대화에서 활용되는 탑재형 자동 통번역 서비스 및 어플리케이션의 품질을 향상할 수 있다.
도 1은 본 발명의 실시예에 따른 다자간 자동 통번역 지원 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 다자간 자동 통번역 기능을 지원하는 자동 통번역 운용 장치의 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 화자 분할 처리를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 화자별 클러스터링 동작을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 자동 통번역 운용 장치의 화면 인터페이스의 일예를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 다자간 자동 통번역 방법을 설명하기 위한 도면이다.
이하, 첨부된 도면들을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다. 이때, 첨부된 도면들에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 즉, 하기의 설명에서는 본 발명의 실시예에 따른 동작을 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
도 1은 본 발명의 실시예에 따른 다자간 자동 통번역 지원 시스템의 구성을 개략적으로 나타낸 도면이다.
도 1을 참조하면, 본 발명의 다자간 자동 통번역 지원 시스템(10)은 복수의 전자 장치들(101, 102, 103), 자동 통번역 운용 장치(104) 및 통신망(200)을 포함할 수 있다.
이러한 구성의 다자간 자동 통번역 지원 시스템(10)은 복수의 전자 장치들(101, 102, 103)이 수집한 음성 신호를 통신망(200)을 통하여 자동 통번역 운용 장치(104)에 전달하면, 자동 통번역 운용 장치(104)는 복수의 음성 신호에 대하여 화자별 분류와 분류된 음성 신호의 클러스터링, 클러스터링된 음성 신호의 번역 과정을 수행할 수 있다.
복수의 전자 장치들(101, 102, 103)은 사용자 음성 신호를 수집하여 통신망(200)을 통하여 자동 통번역 운용 장치(104)에 전달할 수 있다. 이를 위하여 복수의 전자 장치들(101, 102, 103)은 음성 입력 기기로서 역할을 수행할 수 있다. 이러한 복수의 전자 장치들(101, 102, 103)은 휴대 단말기가 될 수 있다. 또는 복수의 전자 장치들(101, 102, 103)은 데스크 탑 단말기가 될 수 있다. 한편, 복수의 전자 장치들(101, 102, 103)은 설정에 따라 또는 설계 방식에 따라 자동 통번역 운용 장치로 이용될 수도 있다. 복수의 전자 장치들(101, 102, 103)은 자동 통번역 운용 장치(104)로부터 음성 인식 결과 또는 통번역된 결과 중 적어도 하나를 수신하고, 이를 출력할 수 있다.
자동 통번역 운용 장치(104)는 적어도 하나의 음성 입력 기기를 통하여 다수의 화자 음성 신호를 수신하면, 화자별 음성 신호를 분류하고, 분류된 음성 신호의 클러스터링을 수행할 수 있다. 또한 자동 통번역 운용 장치(104)는 클러스터링된 음성 신호의 번역을 수행할 수 있다. 그리고 자동 통번역 운용 장치(104)는 번역된 결과를 출력하거나 또는 복수의 전자 장치들(101, 102, 103)에 전송할 수 있다. 한편, 자동 통번역 운용 장치(104)는 음성 입력 기기를 마련하고, 사용자 음성 신호를 수집할 수 있다. 그리고 자동 통번역 운용 장치(104)는 수집된 음성 신호의 번역 및 전송을 수행할 수 있다.
통신망(200)은 복수의 전자 장치들(101, 102, 103) 간의 음성 신호를 송수신할 수 있는 통신 채널을 형상할 수 있다. 이러한 통신망(200)은 무선 통신 채널을 형성할 수 있는 통신 모듈들로 구성되거나, 유선 통신 채널을 형성할 수 있는 통신 모듈들로 구성될 수 있다. 즉, 본 발명의 통신망(200)은 복수의 사용자들의 음성 신호를 수집할 수 있는 음성 입력 기기가 마련된 환경에서, 음성 입력 기기들이 수집한 복수의 음성 신호를 자동 통번역 운용 장치(104)로 전달하는 역할을 수행할 수 있다. 또한 통신망(200)은 자동 통번역 운용 장치(104)가 번역한 결과를 복수의 전자 장치들(101, 102, 103)에 전달할 수 있다. 통신망(200)이 무선 통신 채널 형태로 마련되는 경우 각 복수의 전자 장치들(101, 102, 103)과 자동 통번역 운용 장치(104)는 기지국 기반의 원거리 통신을 수행할 수 있는 통신 모듈을 포함할 수 있다. 또한 통신망(200)이 무선 통신 채널로 형성되는 망인 경우 복수의 전자 장치들(101, 102, 103)과 자동 통번역 운용 장치(104)는 근거리 통신 예컨대 블루투스 통신을 수행할 수 있는 통신 모듈을 포함할 수 있다.
상술한 바와 같이 복수의 전자 장치들(101, 102, 103) 중 적어도 하나는 자동 통번역 운용 장치(104) 역할을 수행할 수 있다. 그리고 자동 통번역 운용 장치(104)는 설정된 언어로의 번역을 지원할 수 있다. 결과적으로 본 발명의 다자간 통번역 지원 시스템(10)은 복수의 전자 장치들(101, 102, 103) 또는 자동 통번역 운용 장치(104)들의 화자들이 발화한 음성 신호를 상호 간에 공유할 수 있으며, 각 장치들은 다수의 화자들이 발화한 음성 신호들이 중첩된 신호를 수신할 수 있다. 이 과정에서 본 발명의 다자간 자동 통번역 지원 시스템(10)은 복수의 화자들의 음성 신호들을 화자별로 분류하고, 분류된 음성 신호들을 클러스터링하여 일정 조건이 되면 번역을 수행할 수 있다.
한편, 본 발명의 다자간 자동 통번역 시스템 구성을 복수의 전자 장치들(101, 102, 103)을 기반으로 구성하는 예를 제시하였으나, 본 발명이 이에 한정되는 것은 아니다. 즉, 하나의 자동 통번역 운용 장치(104)가 복수개의 음성 입력 기기를 마련하고, 복수개의 음성 입력 기기로부터 입력되는 화자들의 음성 신호를 화자별로 분류 및 클러스터링 수행 후 번역할 수도 있다. 이에 대하여 도 2를 참조하여 보다 상세히 설명하기로 한다.
도 2는 본 발명의 실시예에 따른 다자간 자동 통번역 기능을 지원하는 자동 통번역 운용 장치의 구성을 개략적으로 나타낸 도면이다. 상술한 바와 같이 본 발명의 자동 통번역 운용 장치는 휴대형 단말기 또는 데스크탑형 단말기 등 다양한 형태로 구성될 수 있다. 이에 따라, 이하에서는 자동 통번역 운용 장치에 대하여 도면 번호 100을 할당하여 도 1에서 설명한 전자 장치들 및 자동 통번역 운용 장치의 통번역 운용 기능에 대하여 설명하기로 한다.
도 2를 참조하면, 본 발명의 자동 통번역 운용 장치(100)는 음성 입력 기기(110), 통신 모듈(120), 오디오 모듈(130), 표시 모듈(140), 저장부(150) 및 제어부(160)의 구성을 포함할 수 있다.
이와 같은 구성의 자동 통번역 운용 장치(100)는 복수의 음성 입력 기기(110)를 마련하고, 수집된 복수의 화자들의 음성 신호를 화자별로 분류하고, 클러스터링한 후 일정 조건 만족 시 번역을 수행할 수 있다. 이를 통하여 본 발명의 자동 통번역 운용 장치(100)는 복수의 화자들이 동시에 발화를 하더라도 정확한 화자 인식 및 음성 인식을 수행할 수 있으며, 그에 따른 정확한 번역 서비스를 지원할 수 있다.
음성 입력 기기(110)는 단일 또는 다수의 음성 입력 장치(예: 마이크)로부터 음성 신호를 받을 수 있다. 음성 입력 기기(110)가 수신한 음성 신호는 일종의 전처리를 거쳐(예: 다수의 음성 입력 장치로부터 들어온 PCM 데이터를 시간 순서대로 결합하여 부족한 음성 신호의 세기를 확장/대치하는 작업) 제어부(160)의 화자 분할 처리 모듈(161)에 전달될 수 있다. 사용자가 상기에 기술된 기타 기반 설정을 수행 후, 시스템을 활용하여 자동 통번역을 수행할 수 있게 된다. 이 과정에서 음성 입력은 일반적으로 스마트 폰과 같은 휴대용 컴퓨팅 기기에 내장된 마이크를 이용하여 입력을 받게 되는데, 해당 시스템의 어플리케이션은 음성 입력 채널(기기)을 확장할 수 있다. 이를 위하여 본 발명의 음성 입력 기기(110)는 다수의 마이크 및 오디오 믹서를 통해 다중의 마이크 입력을 결합하여 한 채널로 다운 믹싱(down mixing)하여 제어부(160)에 전달할 수 있다.
통신 모듈(120)은 다수의 음성 신호를 수신할 수 있다. 예컨대 통신 모듈(120)은 암호화된 Wi-fi AP(Access Point) 기반 통신 채널 또는 특정 네트워크의 서브넷(subnet)을 형성할 수 있다. 본 발명은 특정 네트워크의 서브넷에 소속된 전자 장치끼리 쌍을 맞추어 다수의 스마트 폰과 같은 휴대용 컴퓨팅 기기를 그룹화 하여 동일 서브넷에 접속된 기기에 대해 사용자가 사용을 허가하는 경우 해당 사용자의 구별 정보와 함께 전송하여 본 발명의 통번역 서비스를 수행할 장치들의 그룹화를 수행할 수 있다. 그룹화 된 다수의 전자 장치들이 제공한 음성 PCM 데이터는 통신 모듈(120)을 통해 수신될 수 있으며, 통신 모듈(120)은 이를 제어부(160)에 제공할 수 있다. 제어부(160)는 유사 PCM 구간(시간 축을 기준으로, 유사한 시간에 발화된 PCM 데이터)에 대한 Delta difference가 최소화 되는 시점으로 동기화 하여 음성 PCM 데이터를 강화할 수 있다. 예컨대, 통신 모듈(120)이 블루투스(Bluetooth) 모듈인 경우, 다수의 전자 장치들은 페어링(Pairing) 과정을 수행하고, 각 전자 장치들이 음성 입력을 수집하여 전송할 수 있다. 이때, 제어부(160)는 유사 PCM 구간에 대한 Delta difference가 최소화 되는 음성 신호를 결합하여 신호를 증폭하거나 대치하는 방식으로 동기화하여 음성 PCM 데이터를 강화할 수 있다.
오디오 모듈(130)은 자동 통번역 운용 장치(100)의 오디오 신호를 출력할 수 있다. 특히, 오디오 모듈(130)은 제어부(160) 제어에 따라 화자별 분류되어 번역된 데이터를 특정 음성으로 출력할 수 있다. 예컨대, 다수의 화자들이 발화하는 환경에서 자동 통번역 운용 장치(100)에서 지정한 특정 화자의 음성 신호는 다른 언어로 번역된 후, 오디오 모듈(130)을 통해 특정 음성으로 출력될 수 있다. 여기서 특정 화자는 자동 통번역 운용 장치(100)의 입력 수단에 의하여 지정될 수 있다. 예컨대 자동 통번역 운용 장치(100)는 다자간 통화 환경에서 화자들의 정보를 리스트로 출력할 수 있다. 그리고 자동 통번역 운용 장치(100)는 입력 신호에 의해 리스트에 포함된 화자들 중 특정 화자가 선택되면, 해당 화자의 음성 신호를 오디오 모듈(130)을 통해 출력할 수 있다. 여기서, 오디오 모듈(130)은 자동 통번역 운용 장치(100) 사용자가 설정한 언어로 번역된 특정 화자의 음성 신호가 출력될 수 있다. 또한, 오디오 모듈(130)은 설정에 따라 복수의 화자들의 음성 신호를 동시에 출력할 수 있다. 또는 오디오 모듈(130)은 설정에 따라 복수의 화자들의 음성 신호를 번역한 복수의 번역된 음성 신호를 출력할 수도 있다.
표시 모듈(140)은 자동 통번역 운용 장치(100)의 기능 수행과 관련한 다양한 화면을 출력할 수 있다. 예컨대, 표시 모듈(140)은 통번역 기능 수행을 위한 기능 대기 화면, 기능 실행에 따라 복수의 화자들이 입력하는 음성 신호를 수집하는 화면을 출력할 수 있다. 또한 표시 모듈(140)은 수집된 음성 신호를 화자별로 분류한 화면, 화자별 음성 신호를 음성 인식한 결과 화면, 음성 인식 결과를 특정 언어로 통번역하여 출력한 화면 등을 출력할 수 있다. 한편, 표시 모듈(140)은 자동 통번역 운용 장치(100)의 특정 기능 수행에 따른 화면 예컨대, 통번역 운용 기능 실행을 위한 메뉴 항목이나 아이콘이 배치된 대기 화면을 출력할 수 있다. 또한, 표시 모듈(140)은 통신 모듈(120) 기반의 통신 채널 예컨대 블루투스 기반의 근거리 통신 채널 형성과 관련한 화면, 근거리 통신 채널 형성에 따라 통신 네트웍을 형성한 전자 장치들의 리스트를 출력한 화면 등을 출력할 수 있다. 상술한 표시 모듈(140)을 통하여 통번역 운용을 위한 화면 인터페이스에 대하여 후술하는 도면을 예시하여 보다 상세히 후술하기로 한다.
저장부(150)는 자동 통번역 운용 장치(100)의 기능 수행을 위해 필요한 다양한 프로그램과 데이터를 저장할 수 있다. 예컨대, 저장부(150)는 자동 통번역 운용 장치(100)의 기기 운용을 위한 운영 체제, 특정 사용자 기능 예컨대 음악 재생 기능, 방송 수신 기능, 통화 기능 등을 수행하기 위한 프로그램을 저장할 수 있다. 특히, 저장부(150)는 통번역 운용 프로그램을 저장할 수 있다. 통번역 운용 프로그램은 적어도 하나의 음성 입력 기기(110) 운용을 위한 프로그램 루틴, 통신 모듈(120) 운용을 위한 프로그램 루틴 등을 포함할 수 있다. 또한, 통번역 운용 프로그램은 수집된 음성 신호를 화자별로 분류하는 루틴, 화자별로 분류된 음성 신호에 대하여 사전 정의된 조건을 기반으로 클러스터링하는 루틴, 클러스터링된 결과를 음성 인식하는 루틴, 음성 인식된 결과를 설정된 언어로 번역하는 루틴, 음성 인식 결과 또는 번역된 결과 중 적어도 하나를 표시 모듈(140), 오디오 모듈(130), 통신 모듈(120) 중 적어도 하나로 출력하는 루틴을 포함할 수 있다. 상술한 각 루틴들은 제어부(160)에 로드되어 통번역 운용과 관련된 기능을 수행할 수 있다. 한편, 상술한 각 루틴은 하드웨어, 소프트웨어, 미들웨어 등 다양한 형태로 마련될 수 있다.
제어부(160)는 자동 통번역 운용 장치(100)의 통번역 기능 지원과 관련한 신호의 처리, 데이터의 처리와 전달 등을 제어할 수 있다. 이러한 제어부(160)는 화자 분할 처리 모듈(161), 화자별 클러스터링 모듈(162), 음성 인식 모듈(163), 자동 번역 모듈(164), 화자별 출력 처리 모듈(165), TTS 모듈(166)을 포함할 수 있다.
상술한 구성을 포함하는 제어부(160)는 우선 본인 언어 설정을 지원할 수 있다. 언어 설정 단계는 사용자에게 전달될 대역 언어가 어떤 언어로 될 것인지를 결정하는 단계로서, 자동 번역 모듈(164)을 기반으로 번역할 언어를 설정하는 단계가 될 수 있다. 본인 언어 설정 단계가 미설정 상태로 진행되는 경우, 제어부(160)는 사용자가 발화하여 생성된 음성 PCM 데이터를 음성 인식 모듈(163)에 전달하여 텍스트로 변환하여 화자별 출력 처리 모듈(165)을 통해 표시 모듈(140)에만 출력되도록 제어할 수 있다. 이 과정에서 음성 PCM 데이터는 자동 번역 모듈(164)에 의한 번역 과정을 스킵할 수 있다. 제어부(160)는 언어 설정이 수행된 경우 다른 화자들이 입력한 음성 신호를 설정된 언어로 번역하여 출력되도록 제어할 수 있다.
화자 분할 처리 모듈(161)은 음성 PCM 데이터를 취득하여 화자 분할을 실시한다. 이때, 화자 분할 처리 모듈(161)은 분할된 결과에 대하여 임의의 고유한 ID를 부여하여 화자별 클러스터링 모듈(162)로 전달한다.
한편, 사용자는 화자 분할 처리 모듈(161) 및 화자별 클러스터링 모듈(162)을 기반으로, 사용자 음성 학습을 수행할 수 있다. 학습을 위해, 화자 분할 처리 모듈(161)은 일정 개수의 문장 예컨대 10 문장 내외의 텍스트를 발화하도록 유도할 수 있다. 화자 분할 처리 모듈(161)은 학습 실행에 따라 사용자 음성 신호가 수집되면, 사용자의 성문(음성에서 나타나는 고유한 특성. 손가락의 지문과 같음)을 추출 및 저장할 수 있다. 이후, 화자별 클러스터링 모듈(162)은 사용자와 유사한 음성 PCM 데이터가 입력될 경우 이를 사용자로 분류하고, 지정된 다양한 설정들 예컨대 음성 통번역 기반의 결과 출력 또는 음성 인식 기반의 결과 출력 등을 지원하도록 데이터 처리 경로를 변경할 수 있다.
적어도 하나의 음성 입력 기기(110) 또는 통신 모듈(120)을 통해 음성 신호가 수집되면, 화자 분할 처리 모듈(161)은 일정량의 음성 PCM 입력 버퍼(buffer)를 할당하고, 버퍼에 수집되는 유의미한 양의 음성 PCM 데이터가 쌓이게 될 경우, 화자 분할(Speaker diarization)을 실시한다. 화자 분할 수행에 따른 결과물은 지정된 음성 PCM 데이터의 프레임(Frame)과 함께 구별된 각각의 화자에 대해 고유한 ID(예: UUID)가 부여한 형태로 반환될 수 있다. 또한 화자의 전환이 일어났을 때 화자 분할 처리 모듈(161)은 해당 프레임에서 화자 전환 여부도 반환할 수 있다. 화자 분할 처리 모듈(161)은 기 학습된 주 사용자별로 해당 고유 ID를 분류할 수 있으며, 혹은 알려지지 않은 새로운 화자에 대해서도 별도의 ID를 생성하여 이를 구별할 수 있도록 지원한다. 즉, 화자 분할 처리 모듈(161)은 도 3에 나타낸 바와 같은 결과 반환을 수행할 수 있다.
도 3은 본 발명의 실시예에 따른 화자 분할 처리를 설명하기 위한 도면이다.
도 3을 참조하면, 본 발명의 화자 분할 처리 모듈(161)은 단일 채널의 음성 PCM 데이터가 들어올 때, 음성의 입력 신호와 화자 분리 결과에 따라 음성 PCM 데이터를 분할 후 사용자 ID(여기서는 화자 A, 화자 B)와 함께 반환할 수 있다.
화자별 클러스터링 모듈(162)은 화자별로 분류된 음성 PCM 데이터를 결합할 수 있다. 이 때, 화자 분할 처리 모듈(161)은 간접적인 음성 신호(발화가 이루어지지 않은 쉬는 공백 음성 신호)와 함께, 화자가 전환되는 시점 정보를 화자별 클러스터링 모듈(162)에 전달할 수 있다. 화자별 클러스터링 모듈(162)은, 음성 발화 쉼(pause) 구간 또는 화자가 완전히 전환되는 시점이 감지되는 경우 이전 결합된 음성 PCM 데이터를 음성 인식 모듈(163)에 전달할 수 있다. 음성 PCM 데이터는 사전 정의된 특정한 길이(시간 또는 프레임)로 Segment 되어 화자별 클러스터링 모듈(162)에 전달될 수 있다. 화자별 클러스터링 모듈(162)은 화자별로 부여된 고유한 ID로 들어오는 음성 PCM 데이터를 취합하여, 일정 수준의 길이(시간 또는 프레임)나 시스템에서 지정된 조건에 만족할 때까지 음성 PCM 데이터를 계속해서 결합할 수 있다. 이 때 사용될 수 있는 조건은 시스템에 지정된 시간 (예: 10초) 동안 해당 화자의 음성 PCM 데이터가 쌓인 경우, 해당 화자의 음성 PCM 데이터에서 쉼(pause) 구간(발화를 쉬거나 종료한 직후 등에 발생하는 일정 시간의 무음)이 검출 된 경우, 화자 분할 처리 모듈(161)에 의해 화자가 전환되었음을 알리는 값이 검출된 경우 등이 될 수 있다. 한편, 고품질의 번역 데이터를 취득하기 위해서 문장의 처음과 끝이 정확할수록 좋지만, 시스템에서 화자가 발화한 문장의 처음과 끝이 반드시 정확해야 할 필요는 없다. 만약 고품질의 번역 결과를 얻고자 추가의 작업을 수행할 경우, 특정 음성 인식 품질 향상 방법이 적용될 수 있다.
음성 인식 모듈(163)은 음성 인식 품질 향상 방법으로서, 예를 들면, 화자가 전환되었을 때, 이전에 발화하던 화자의 음성을 종료 구간으로 설정하고, 전환된 발화자의 음성 PCM 프레임을 발화 시작 구간으로 설정한다. 음성 인식 모듈(163)은 한국어의 어말 어미와 같이 문장의 경계를 추정할 수 있는 언어의 경우, 음성 PCM 데이터에서 쉼(pause) 구간이 나타날 때 마다 반복적으로 음성 인식을 수행할 수 있다. 그리고 음성 인식 모듈(163)은 변환된 텍스트에서 종결 어미가 나타날 때 까지를 문장 경계로 인식하고 온전한 문장으로 추정되는 형태의 음성 인식 결과를 반환한다. 음성 인식 모듈(163)은 문장의 시작과 끝을 feature로 가지는 N-gram 언어 모델(Language Model; abbr. LM)을 활용하여 음성 인식 결과에서 종결 부호가 발생할 것으로 추정되는 구간이 나올 때까지 반복적으로 음성 인식을 수행한다.
도 4는 본 발명의 실시예에 따른 화자별 클러스터링 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 특정한 화자 X에 대한 음성 PCM 입력이, 화자 분할 처리 모듈(161)에 의해 구간별로 나뉘어 들어온 경우를 가정하도록 한다. 인식 구간 A로 분류된 음성 PCM 입력은, 화자 분할 처리 모듈(161)에 의해 화자 전환 시점이 인식 구간 A다음에 일어났다고 명확하게 알려준 경우, 화자별 클러스터링 모듈(162)은 해당 음성 입력 시작과 끝을 명확하게 인식날 수 있다. 결과적으로, 화자별 클러스터링 모듈(162)은 시작과 끝이 명확한 인식 구간을 음성 인식 모듈(163)에 전달하여 명확한 문장 인식이 수행될 수 있다.
한편, 인식 구간이 연속적이지 않고, 불분명하게 분리된 프레임으로 음성 입력이 들어오는 경우, 화자 분할 처리 모듈(161)이 전달한 인식 구간 B(1)에 해당하는 음성 PCM 데이터가 불완전한 문장으로 끝났음을 화자별 클러스터링 모듈(162)이 알 수 있다. 예컨대, 화자별 클러스터링 모듈(162)은 “전체 예산의 비중을 살펴보면” 이라는 불완전한 문장을 획득할 수 있다. 이런 경우, 화자별 클러스터링 모듈(162)은 종결 어미나 종결 부호를 인식하는 과정을 거쳐 인식 구간 B(2)와 같이 두 개의 음성 PCM 입력 프레임을 하나로 합쳐 음성 인식을 수행하도록 제어할 수 있다. 그에 따라, 음성 인식 모듈(163)은 예컨대, “전체 예산의 비중을 살펴보면 20%가 초기 사업에 해당합니다.” 라는 올바른 음성 인식 결과를 출력할 수 있다.
음성 인식 모듈(163)은 해당 음성 PCM 데이터를 음성 인식하여 텍스트를 생성한다. 음성 인식 모듈(163)은 추정되는 원문 언어(예: 영어, 중국어, 한국어 등)와 함께 텍스트를 반환할수 있다. 음성 인식 모듈(163)이 생성한 텍스트는 설정에 따라 자동 번역 모듈(164)에 전달될 수 있다. 음성 인식 모듈(163)에 적용되는 기술은 현존하는 기술에 근거하여 개발된 어떠한 형태의 것을 사용 가능하다. 이러한 음성 인식 모듈(163)은 음성 PCM 데이터를 입력으로 받아, 그에 해당하는 특정 언어의 텍스트(문자열)로 반환할 수 있도록 지원한다.
자동 번역 모듈(164)은 음성 인식 모듈(163)이 반환하는 원문 언어 힌트(예: 중국어)를 활용하여, 사용자가 미리 지정한 대역 언어(예: 한국어)로 번역한 텍스트를 반환할 수 있다. 자동 번역 모듈(164)는 음성 인식 결과 및 번역 결과와 함께, 입력으로 들어왔던 화자의 고유 ID를 화자별 출력 처리 모듈(165)으로 전달할 수 잇다. 이러한 자동 번역 모듈(164)은 현존하는 기술에 근거하여 개발된 규칙 기반 기계 번역(Rule-based Machine Translation) 또는 통계 기반(Statistical Machine Translation), 혹은 이를 혼합한 기술 방법으로 구현되는 시스템 어느 것을 사용해도 무방하다. 자동 번역 모듈(164)은 설정된 대역 언어 및 입력된 원시 언어를 번역할 수 있다. 예를 들어, 음성 인식 모듈(163)을 통해 반환된 텍스트가 다음과 같이 구성되어 있고, 한국어를 원문으로, 대역 언어를 영문으로 설정된 경우 자동 번역 모듈(164)은 특정 결과물을 출력할 수 있다. 특히 본 발명의 자동 번역 모듈(164)은 클러스터링된 결과를 토대로 자동 번역을 수행할 수 있다.
예를 들어, 실제 화자가 원하는 전체 문장이 완료되지 않은 입력의 경우 번역이 수행되면 뜻이 달라지는 경우가 발생할 수 있다. 예컨대, 한국어 원문 입력이 “우리는 그 점에 대해 잘 이해하고”인 경우의 번역 결과는 영어 “We understand well about this point.”로 출력될 수 있다. 본 발명의 자동 통번역 운용 장치(100)는 완성된 문장을 클러스터링하여 출력할 수 있다. 예를 들어, 한국어로서 “우리는 그 점에 대해 잘 이해하고 있습니다.”의 완성된 원문 입력을 클러스터링하여 생성하고, 자동 번역 모듈(164)은 영어로서, “We are understanding well about this point.”의 결과를 출력할 수 잇다.
문장의 경계가 중복되어 넘어가는 경우, 즉, 음성 인식 결과에 문미 기호가 1개 이상 포함되거나 문미 기호 이후 문장이 나타날 경우, 문미 기호 앞의 문장과 뒤의 문장은 분절을 실시하여, 두 개의 문장으로 나타낼 수 있다. 본 발명의 자동 통번역 운용 장치(100)의 자동 번역 모듈(164)은 화자별 클러스터링 모듈(162)의 클러스터링 동작에 따라 한국어 원문 입력이 “있습니다. 또한 추가적인 예산 편성을 생각하고 있습니다.”인 경우, “It is there. Moreover, I am thinking of the additional budgeting.”의 번역 결과를 출력할 수 있다. 만약 사용자가 자동 통번역 운용 장치(100)에서 제공하는 인터페이스와 상호작용하는 경우, 상술한 문장 인식 구간을 재조정하는 인터페이스를 사용하여 수정할 수 있지만, 별도의 상호작용이 없는 경우 위에서 기술한 방식대로 번역을 수행하고, 그 결과물을 반환할 수 있다.
화자별 출력 처리 모듈(165)은 음성 인식 결과 또는 자동 번역 결과에 대해 사용자 ID별로 분류한다. 각 고유한 사용자 ID를 구별하는 것은 사용자에게 의존할 수 있으며, 보조적인 수단(동시에 참여하는 화자가 소유한 휴대용 자동통역 단말기나 스마트 폰 등)에 의해 특정한 사용자를 구별하는 수단이 활용될 수 있다. 화자별 출력 처리 모듈(165)은 해당 텍스트를 표시 모듈(140)을 통해 화면에 출력할 수 있으며,
화자별 출력 처리 모듈(165)은 텍스트를 표시 모듈(140)에 출력하는 방법외에, TTS(Text-To-Speech) 모듈(166)로 텍스트를 전달하여 음성 PCM 데이터로 변환한 후 이를 오디오 모듈(130)로 출력하도록 지원할 수 있다. 화자별 출력 처리 모듈(165)은 입력으로 들어온 화자의 고유 ID와 전달된 텍스트 결과, 원문 인식 결과 등을 받아들여 화자의 차이를 인식할 수 있는 표현 방식으로 나타낼 수 있다. 그 출력은 표시 모듈(140) 또는 오디오 모듈(130)을 통해 사용자에게 표현될 수 있다. 만약 화자의 고유 ID와 사용중인 컴퓨팅 기기 내의 특정 사용자 정보를 1:1로 배치 가능한 경우 컴퓨팅 기기내의 정보를 활용하거나 시스템에서 입력된 정보를 통해 해당 사용자 정보와 함께 표현할 수 있다. 주 사용자가 특정 화자의 번역 결과를 음성으로 듣기 위한 설정 제어를 수행하면, 화자별 출력 처리 모듈(165)은 특정 화자의 번역 결과를 TTS 모듈(166)로 전달하여 음성 PCM 데이터로 변환하고, 그 데이터를 오디오 모듈(130)을 통해 출력하도록 지원할 수 있다.
TTS 모듈(166)은 음성 인식 결과 또는 번역 결과 중 적어도 하나를 오디오 데이터로 변환할 수 있다. 그리고 TTS 모듈(166)은 변환된 오디오 데이터를 오디오 모듈(130)에 전달할 수 있다. 이러한 TTS 모듈(166)은 본 발명의 자동 통번역 운용 장치(100) 수행 중에 지정된 적어도 한 명의 특정 화자의 음성 신호에 대응하는 텍스트를 오디오 데이터로 변환할 수 있다. 여기서 텍스트는 음성 인식된 결과이거나 또는 번역된 결과일 수 있다.
도 5는 본 발명의 실시예에 따른 자동 통번역 운용 장치의 화면 인터페이스의 일예를 나타낸 도면이다.
도 5를 참조하면, 자동 통번역 운용 장치(100)는 화자별 출력 처리 모듈(165)에 의해 구분된 예시 상황을 스마트 폰과 같이 화면의 크기가 작은 휴대용 컴퓨팅 단말기에서 메신저 식 구성의 화면 인터페이스를 제공할 수 있다.
자동 통번역 운용 장치(100)는 복수의 화자들로부터 음성 신호가 입력되면 화자별 분류를 수행할 수 있다. 이에 따라, 자동 통번역 운용 장치(100)의 표시 모듈(140)은 501 화면에서와 같이, 분류된 화자들의 정보를 출력할 수 있다. 예컨대, 4명의 화자가 분류된 경우 자동 통번역 운용 장치(100)는 도시된 바와 같이 4명의 분류된 화자에 대응하는 항목을 출력할 수 있다. 이를 위하여 자동 통번역 운용 장치(100)는 4개의 음성 입력 기기(110)를 운용하거나 하나의 음성 입력 기기(110)를 통해 4명의 화자가 발화한 음성 입력 신호를 수집할 수 있다. 또는 자동 통번역 운용 장치(100)는 통신망(200)을 통해 다른 3개의 전자 장치와 연결될 수 있으며, 다른 3개의 전자 장치들이 수집하여 전송한 음성 신호들을 하나의 음성 채널을 통해 수신할 수 있다. 자동 통번역 운용 장치(100)는 각 화자들의 음성 성문을 기준으로 음성 신호를 화자별로 분류하고, 501에서와 같이 분류된 화자들의 정보를 표시 모듈(140)에 출력할 수 있다. 특히 표시 모듈(140)은 음성 인식된 결과 중 번역된 오디오 신호로 청취를 희망하는 화자 선택을 위한 화면을 제공할 수 있다. 이를 위하여 표시 모듈(140)은 화자 선택 안내가 표시된 안내 영역(41)과, 화자 선택 영역(40)을 제공할 수 있다. 자동 통번역 운용 장치(100)는 501 화면에서와 같이 음성으로 번역 결과를 청취하고 싶은 화자 “C”가 선택되면 그에 대응하는 화면 출력을 수행할 수 있다. 예컨대, 표시 모듈(140)은 “화자 C”가 선택되어있음을 알리기 위해, 화면에서 해당 항목을 반전하여 표시할 수 있다. 자동 통번역 운용 장치(100)는 화자 C가 발화한 내용을 음성 인식하고 번역한 결과가 산출되면 이를 TTS 모듈(166)을 거쳐 오디오 출력할 수 있다.
한편, 자동 통번역 운용 장치(100)는 503 화면에서와 같이 여러 화자의 발화에 대응하는 음성 인식 결과 또는 번역 결과(51)를 화면상에서 순차적으로 출력할 수도 있다. 여기서 자동 통번역 운용 장치(100)는 오디오 신호로 청취하고 싶어하는 선택된 화자가 발화한 내역(52)도 화면 상에 출력할 수 있다.
이러한 인터페이스 구성은 화면의 크기, 시스템 등의 여러 제약 조건에 따라 다르게 구성될 수 있으며, 본 발명에서는 해당 인터페이스를 규정하지 않으나, 본 발명의 구성 상 화자별 출력 처리 모듈(165)에 의해 각 화자의 음성 인식 결과 및 통번역 결과를 화면이나 음성, 또는 텍스트 등으로 나타낼 수 있다.
도 6은 본 발명의 실시예에 따른 다자간 자동 통번역 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 본 발명의 다자간 자동 통번역 방법은 자동 통번역 운용 장치(100)의 제어부(160)가 S101 단계에서 다자간 통화 모드 상태인지 여부 또는 다자간 통화 모드 진입을 위한 입력 이벤트가 발생하는지를 확인할 수 있다. 이 단계에서 제어부(160)는 다자간 통화 모드 상태가 아니거나 특정 기능 수행을 위한 입력 이벤트가 발생하면 S103 단계에서 자동 통번역 운용 장치(100)의 해당 입력 이벤트에 대응하는 특정 기능 수행을 지원할 수 있다. 예컨대, 자동 통번역 운용 장치(100)는 장치에 설치된 모듈에 따라 파일 재생 기능, 파일 검색 기능, 방송 수신 기능 등을 수행할 수 있다.
한편, S101 단계에서 다자간 통화 모드 상태이거나 다자간 통화 모드 실행을 위한 이벤트가 발생하면, 제어부(160)는 S105 단계에서 언어 설정을 지원할 수 있다. 제어부(160)는 언어 설정 지원을 위하여 언어 설정 화면을 표시 모듈(140)에 출력할 수 있다. 그리고 언어 설정을 위한 입력 이벤트가 발생하면, 해당 언어를 기본 언어로 설정할 수 있다. 언어 설정 과정에서 설정된 언어는 번역 과정에서 적용될 언어가 될 수 있다. 한편, 제어부(160)는 언어 설정과 관련된 디폴트 설정이 있는 경우, 해당 디폴트 설정을 유지하면서, S105 단계를 스킵할 수 있다.
다음으로, 제어부(160)는 S107 단계에서 발화 학습 실행을 위한 이벤트 발생이 있는지 확인할 수 있다. 이 단계에서 제어부(160)는 발화 학습 실행을 위해 사전 정의된 메뉴 항목이나 메뉴 아이콘 선택이 있는지 여부 또는 발화 학습 실행을 위해 사전 설정된 스케줄 정보에 따라 발화 학습 실행 여부를 결정할 수 있다. S107 단계에서 발화 학습 실행을 위한 이벤트 또는 스케줄 정보가 존재하면, 제어부(160)는 S109 단계에서 발화 학습을 수행할 수 있다. 한편 발화 학습을 위한 이벤트 또는 스케줄 정보가 존재하지 않는 경우, 제어부(160)는 S109 단계를 스킵할 수 있다.
이후, 제어부(160)는 S111 단계에서 음성 데이터 수집을 수행할 수 있다. 음성 데이터 수집 과정은 복수개의 음성 입력 기기(110)에서 화자들이 입력한 음성 신호를 수집하는 과정일 수 있다. 또는 통신망(200)을 통해 연결된 복수의 전자 장치들로부터 화자들이 입력한 음성 신호를 수신하는 과정일 수 있다.
S113 단계에서 제어부(160)는 사용자 분류를 수행할 수 있다. 이 과정에서 제어부(160)는 각 화자별 음성 성문을 이용하여 화자의 종류를 구분할 수 있다. 그리고 제어부(160)는 해당 음성 신호가 수집된 음성 입력 기기(110)들 또는 음성 신호를 전송한 전자 장치들을 색인 값으로 하여 화자별 분류를 수행할 수 있다.
S115 단계에서 제어부(160)는 화자별 음성 클러스터링을 수행할 수 있다. 화자별 분류가 수행되면, 제어부(160)는 각 음성 신호가 완전한 문장이 될 때까지 클러스터링을 수행할 수 있다. 이 과정에서 제어부(160)는 수신된 음성 신호에 종결 어미나 종결 부호가 있는지를 검사할 수 있다.
S117 단계에서 음성 인식을 수행할 수 있다. 종결 어미나 종결 부호가 검색되면 제어부(160)는 클러스터링된 화자별 음성 신호에 대한 음성 인식을 수행할 수 있다. 이를 위하여 자동 통번역 운용 장치(100)는 음성 인식 데이터베이스를 포함할 수 있다. 음성 인식 데이터베이스는 화자들이 다양한 언어를 구사하는 경우 각 언어별 음성 인식 데이터베이스를 포함할 수 있다.
S119 단계에서 제어부(160)는 번역 실행을 위한 스케줄 정보가 있는지 또는 번역 실행을 위한 이벤트 발생이 있는지 확인할 수 있다. 제어부(160)는 번역 실행을 위한 이벤트 발생 또는 스케줄 정보가 존재하는 경우, S121 단계로 분기하여 번역 기능을 수행할 수 있다. 번역 과정에서 제어부(160)는 음성 인식된 텍스트 결과를 설정된 언어로 번역할 수 있다. 이를 위하여 자동 통번역 운용 장치(100)는 설정된 언어에 해당하는 번역 데이터베이스를 포함할 수 있다. 한편, 제어부(160)는 번역 실행을 위한 이벤트 발생 또는 스케줄 정보가 존재하지 않으면, S121 단계를 스킵할 수 있다.
다음으로, 제어부(160)는 S123 단계로 분기하여 음성 인식된 결과 또는 번역 결과 중 적어도 하나를 출력하거나 전송할 수 있다. 이를 보다 상세히 설명하면, 제어부(160)는 음성 인식 결과 또는 번역 결과로 산출된 텍스트를 화자별로 구분할 수 있도록 표시 모듈(140)에 출력할 수 있다. 또한 제어부(160)는 산출된 텍스트 중 지정된 특정 화자의 텍스트를 오디오 신호로 변환하고, 이를 오디오 모듈(130)을 통해 출력하도록 제어할 수 있다. 또는 제어부(160)는 산출된 텍스트들을 오디오 신호로 변환하고, 변환된 오디오 신호들을 오디오 모듈(130)을 통해 출력하도록 제어할 수 있다. 이때, 제어부(160)는 산출된 텍스트를 각 화자별로 구분되도록 출력할 수 있다.
다음으로, 제어부(160)는 S125 단계에서 기능 종료를 위한 이벤트 발생이 있는지 확인할 수 있다. 이 단계에서, 제어부(160)는 기능 종료를 위한 이벤트 발생이 없으면, S111 단계 이전으로 분기하여 이하 과정을 재수행하도록 지원할 수 있다. 한편, 제어부(160)는 S125 단계에서 기능 종료를 위한 이벤트 발생이 있으면, S101 단계 이전으로 분기하여 이하 과정을 재수행하도록 지원할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 따른 다자간 자동 통번역 운용 장치 및 방법은 다수의 화자들이 발화한 음성 신호를 화자별로 분류하고, 완성된 문장 조건을 만족할 때까지 클러스터링을 수행한 후 음성 인식 및 번역을 수행할 수 있다. 이에 따라, 본 발명의 다자간 자동 통번역 운용 장치 및 방법은 의미가 변경되지 않는 범위 내에서 올바른 음성 인식 및 번역이 수행되도록 지원할 수 있다.
상술한 본 발명의 바람직한 실시예는 예시의 목적을 위한 것으로, 당업자라면 첨부된 특허청구범위의 기술적 사상과 범위를 통해 다양한 수정, 변경, 대체 및 부가가 가능할 것이며, 이러한 수정 변경 등은 이하의 특허청구범위에 속하는 것으로 보아야 할 것이다.
10 : 다자간 자동 통번역 지원 시스템
100 : 자동 통번역 운용 장치
110 : 음성 입력 기기 120 : 통신 모듈
130 : 오디오 모듈 140 : 표시 모듈
150 : 저장부 160 : 제어부

Claims (20)

  1. 복수의 화자들이 입력한 음성 신호를 수집하는 음성 입력 기기 또는 수신하는 통신 모듈 중 적어도 하나;
    상기 음성 신호에서 화자별 음성 신호를 분류하고 사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링한 후 음성 인식 및 번역을 수행하도록 제어하는 제어부;를 포함하는 것을 특징으로 하는 자동 통번역 운용 장치.
  2. 제1항에 있어서,
    상기 제어부는
    상기 음성 신호를 상기 음성 입력 기기 및 상기 음성 신호를 전송한 전자 장치들을 색인으로 하여 화자별 분류를 수행하는 것을 특징으로 하는 자동 통번역 운용 장치.
  3. 제2항에 있어서,
    상기 제어부는
    화자별 음성 성문 구분을 위한 학습을 수행하는 것을 특징으로 하는 자동 통번역 운용 장치.
  4. 제3항에 있어서,
    상기 제어부는
    사전 구분된 화자 이외의 성문의 음성 신호 입력 시 새로운 화자로 판단하는 것을 특징으로 하는 자동 통번역 운용 장치.
  5. 제1항에 있어서,
    상기 제어부는
    상기 화자별 음성 신호에서 문장 종결어미 또는 문장 종결 부호가 검색되는 시점까지 클러스터링을 수행하는 것을 특징으로 하는 자동 통번역 운용 장치.
  6. 제5항에 있어서,
    상기 제어부는
    상기 문장 종결 어미 또는 문장 종결 부호로 구분된 완성된 문장에 대한 번역을 수행하는 것을 특징으로 하는 자동 통번역 운용 장치.
  7. 제1항에 있어서,
    상기 화자별 음성 인식 및 번역 결과를 산출하는 표시 모듈;을 더 포함하는 것을 특징으로 하는 자동 통번역 운용 장치.
  8. 제1항에 있어서,
    상기 제어부는
    상기 화자별 음성 신호 중 지정된 특정 음성 신호에 대응하는 번역 결과를 오디오 신호로 변환하는 것을 특징으로 하는 자동 통번역 운용 장치.
  9. 제8항에 있어서,
    상기 오디오 신호를 출력하는 오디오 모듈;을 더 포함하는 것을 특징으로 하는 자동 통번역 운용 장치.
  10. 복수의 화자들이 입력한 음성 신호를 수집하는 수집 단계;
    상기 음성 신호에서 화자별 음성 신호를 분류하는 분류 단계;
    사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링하는 단계;
    상기 클러스터링된 음성 신호를 음성 인식 및 번역하는 번역 단계;를 포함하는 것을 특징으로 하는 자동 통번역 운용 방법.
  11. 제10항에 있어서,
    상기 수집 단계는
    음성 입력 기기 또는 수신하는 통신 모듈 중 적어도 하나를 이용하여 음성 신호를 수집하는 단계인 것을 특징으로 하는 자동 통번역 운용 방법.
  12. 제10항에 있어서,
    상기 분류 단계는
    상기 음성 신호를 상기 음성 입력 기기 및 상기 음성 신호를 전송한 전자 장치들을 색인으로 하여 화자별 분류를 수행하는 단계;인 것을 특징으로 하는 자동 통번역 운용 방법.
  13. 제12항에 있어서,
    상기 화자별 음성 성문 구분을 위한 학습을 수행하는 단계;를 더 포함하는 것을 특징으로 하는 자동 통번역 운용 방법.
  14. 제13항에 있어서,
    상기 분류 단계는
    상기 학습 수행으로 사전 구분된 화자 이외의 성문의 음성 신호 입력 시 새로운 화자로 판단하는 단계;를 포함하는 것을 특징으로 하는 자동 통번역 운용 방법.
  15. 제10항에 있어서,
    상기 클러스터링하는 단계는
    상기 화자별 음성 신호에서 문장 종결어미 또는 문장 종결 부호를 검색하는 단계;
    상기 문장 종결어미 또는 문장 종결 부호가 검색되는 구간을 완성된 문장으로 인식하는 단계;를 포함하는 것을 특징으로 하는 자동 통번역 운용 방법.
  16. 제15항에 있어서,
    상기 번역 단계는
    상기 문장 종결 어미 또는 문장 종결 부호로 구분된 완성된 문장에 대한 번역을 수행하는 단계 인 것을 특징으로 하는 자동 통번역 운용 방법.
  17. 제10항에 있어서,
    상기 화자별 음성 인식 및 번역 결과를 출력하는 출력 단계;를 더 포함하는 것을 특징으로 하는 자동 통번역 운용 방법.
  18. 제10항에 있어서,
    상기 화자별 음성 신호 중 지정된 특정 음성 신호에 대응하는 번역 결과를 오디오 신호로 변환하는 단계;
    상기 오디오 신호를 출력하는 단계;를 더 포함하는 것을 특징으로 하는 자동 통번역 운용 방법.
  19. 복수의 화자들이 입력한 음성 신호를 수집하여 전송하는 복수의 전자 장치들;
    상기 전자 장치들이 전송한 음성 신호에서 화자별 음성 신호를 분류하고 사전 정의된 일정 조건에 따라 분류된 화자별 음성 신호를 클러스터링한 후 음성 인식 및 번역을 수행하도록 제어하는 자동 통번역 운용 장치;를 포함하는 것을 특징으로 하는 자동 통번역 운용 시스템.
  20. 제19항에 있어서,
    상기 자동 통번역 운용 장치는
    상기 화자별 음성 신호에서 문장 종결어미 또는 문장 종결 부호가 검색되는 시점까지 클러스터링을 수행하고 클러스터링된 신호를 음성 인식 및 번역하여 출력하는 것을 특징으로 하는 자동 통번역 운용 시스템.
KR1020140014318A 2014-02-07 2014-02-07 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 KR20150093482A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140014318A KR20150093482A (ko) 2014-02-07 2014-02-07 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
US14/607,814 US20150227510A1 (en) 2014-02-07 2015-01-28 System for speaker diarization based multilateral automatic speech translation system and its operating method, and apparatus supporting the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140014318A KR20150093482A (ko) 2014-02-07 2014-02-07 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치

Publications (1)

Publication Number Publication Date
KR20150093482A true KR20150093482A (ko) 2015-08-18

Family

ID=53775060

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140014318A KR20150093482A (ko) 2014-02-07 2014-02-07 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치

Country Status (2)

Country Link
US (1) US20150227510A1 (ko)
KR (1) KR20150093482A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170112713A (ko) * 2016-04-01 2017-10-12 삼성전자주식회사 음성 번역을 위한 장치 및 방법
KR20190005617A (ko) * 2017-07-07 2019-01-16 윤성용 다중 화자용 통번역기
KR20190082900A (ko) * 2017-02-15 2019-07-10 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
KR20210008701A (ko) * 2019-07-15 2021-01-25 주식회사 한글과컴퓨터 종결어미 기반의 구간별 음성 인식을 통해 발화자의 음성에 대응하는 텍스트의 생성이 가능한 음성 인식 장치 및 그 동작 방법
WO2021091145A1 (en) * 2019-11-04 2021-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and method thereof
CN113096669A (zh) * 2021-03-31 2021-07-09 重庆风云际会智慧科技有限公司 基于角色识别的语音识别系统
KR20220161760A (ko) * 2021-05-31 2022-12-07 이화여자대학교 산학협력단 온라인 통역 부스에서의 통역 퍼포먼스 모니터링 장치 및 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864361B1 (ko) 2014-04-08 2018-06-04 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
KR20170044386A (ko) * 2015-10-15 2017-04-25 삼성전자주식회사 전자기기 및 전자기기의 제어방법
KR102525209B1 (ko) 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
EP3542360A4 (en) 2016-11-21 2020-04-29 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION
US10558763B2 (en) 2017-08-03 2020-02-11 Electronics And Telecommunications Research Institute Automatic translation system, device, and method
CN109327613B (zh) * 2018-10-15 2020-09-29 华为技术有限公司 一种基于语音通话翻译能力的协商方法及电子设备
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
CN114175149A (zh) * 2019-07-01 2022-03-11 谷歌有限责任公司 自适应日志模型和用户界面
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization
CN112818702B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 多用户多语种协同语音翻译系统与方法
US11501091B2 (en) * 2021-12-24 2022-11-15 Sandeep Dhawan Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
US20090319269A1 (en) * 2008-06-24 2009-12-24 Hagai Aronowitz Method of Trainable Speaker Diarization
US10134401B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using linguistic labeling

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170112713A (ko) * 2016-04-01 2017-10-12 삼성전자주식회사 음성 번역을 위한 장치 및 방법
KR20190082900A (ko) * 2017-02-15 2019-07-10 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
KR20190005617A (ko) * 2017-07-07 2019-01-16 윤성용 다중 화자용 통번역기
KR20210008701A (ko) * 2019-07-15 2021-01-25 주식회사 한글과컴퓨터 종결어미 기반의 구간별 음성 인식을 통해 발화자의 음성에 대응하는 텍스트의 생성이 가능한 음성 인식 장치 및 그 동작 방법
WO2021091145A1 (en) * 2019-11-04 2021-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and method thereof
CN113096669A (zh) * 2021-03-31 2021-07-09 重庆风云际会智慧科技有限公司 基于角色识别的语音识别系统
CN113096669B (zh) * 2021-03-31 2022-05-27 重庆风云际会智慧科技有限公司 基于角色识别的语音识别系统
KR20220161760A (ko) * 2021-05-31 2022-12-07 이화여자대학교 산학협력단 온라인 통역 부스에서의 통역 퍼포먼스 모니터링 장치 및 방법

Also Published As

Publication number Publication date
US20150227510A1 (en) 2015-08-13

Similar Documents

Publication Publication Date Title
KR20150093482A (ko) 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
KR102246900B1 (ko) 전자 장치 및 이의 음성 인식 방법
EP3039531B1 (en) Display apparatus and controlling method thereof
CN107632980B (zh) 语音翻译方法和装置、用于语音翻译的装置
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
US9293134B1 (en) Source-specific speech interactions
KR20170032096A (ko) 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
KR102437689B1 (ko) 음성 인식 서버 및 그 제어 방법
JP2014510942A (ja) ハイブリッド型クライアントサーバ音声認識
KR20150089145A (ko) 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JP2020067658A (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
JP2020003925A (ja) 対話システムの制御方法、対話システム及びプログラム
KR20190096308A (ko) 전자기기
US11948567B2 (en) Electronic device and control method therefor
CN116417003A (zh) 语音交互系统、方法、电子设备和存储介质
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20210065708A1 (en) Information processing apparatus, information processing system, information processing method, and program
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
JP2019174784A (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JP2019015950A (ja) 音声認識方法、プログラム、音声認識装置、及びロボット

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid