KR20230013473A - 화자들의 음성을 처리하기 위한 장치 및 방법 - Google Patents

화자들의 음성을 처리하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20230013473A
KR20230013473A KR1020210094265A KR20210094265A KR20230013473A KR 20230013473 A KR20230013473 A KR 20230013473A KR 1020210094265 A KR1020210094265 A KR 1020210094265A KR 20210094265 A KR20210094265 A KR 20210094265A KR 20230013473 A KR20230013473 A KR 20230013473A
Authority
KR
South Korea
Prior art keywords
voice
speakers
language
speaker
voices
Prior art date
Application number
KR1020210094265A
Other languages
English (en)
Inventor
김정민
Original Assignee
주식회사 아모센스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아모센스 filed Critical 주식회사 아모센스
Priority to KR1020210094265A priority Critical patent/KR20230013473A/ko
Priority to PCT/KR2022/010276 priority patent/WO2023003271A1/ko
Priority to CN202280062878.0A priority patent/CN117980989A/zh
Publication of KR20230013473A publication Critical patent/KR20230013473A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Machine Translation (AREA)

Abstract

화자들의 음성에 대한 번역 결과를 생성하도록 구성되는 음성 처리 장치가 개시된다. 음성 처리 장치는, 화자들의 음성에 응답하여, 화자들의 음성과 연관된 음성 신호를 생성하도록 구성되는 마이크, 화자들의 음성의 음원 위치에 대응하는 언어를 나타내는 위치-언어 정보를 저장하도록 구성되는 메모리, 음성 신호 및 위치-언어 정보를 이용하여 화자들 각각의 음성의 언어를 번역한 번역 결과를 생성하고, 번역 결과를 이용하여, 다른 언어로 표현된 화자들 각각의 음성 내용이 포함된 번역문 회의록을 생성하도록 구성되는 프로세서를 포함한다.

Description

화자들의 음성을 처리하기 위한 장치 및 방법{DEVICE AND METHOD FOR PROCESSING VOICE OF SPEAKERS}
본 발명의 실시 예들은 화자들의 음성을 처리하기 위한 장치 및 방법에 관한 것이다.
마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다.
복수의 화자들이 동시에 발화하는 경우, 개별 화자들의 음성만을 나타내는 음성 신호를 분리하는 것이 필요하다. 또한, 복수의 화자들이 서로 다른 언어로 발화하는 경우, 복수의 화자들의 음성을 쉽게 번역하기 위해서는, 복수의 화자들의 음성의 원래 언어(즉, 출발 언어)를 파악해야 하는데, 음성 자체의 특징만으로 해당 음성의 언어를 파악하는 것은 시간이 많이 소요되고, 많은 리소스가 소요되는 문제가 있다.
본 발명이 해결하고자 하는 과제는 화자들의 음성 신호들을 이용하여 화자의 위치를 파악하고, 음성 신호들을 화자별로 분리 및 인식할 수 있는 음성 처리 장치 및 방법을 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 화자들의 음성으로부터 화자들 각각의 위치를 결정하고, 결정된 위치에 따라 화자들 각각의 현재 언어를 결정하고, 결정된 현재 언어에 따라 화자들 각각의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 생성할 수 있는 음성 처리 장치 및 방법을 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 화자들 각각의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 이용하여, 다른 언어로 표현된 화자들 각각의 음성 내용이 포함된 번역문 회의록을 생성할 수 있는 음성 처리 장치 및 방법을 제공하는 것에 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는 화자들의 음성에 대한 번역 결과를 생성하도록 구성되고, 상기 음성 처리 장치는, 화자들의 음성에 응답하여, 화자들의 음성과 연관된 음성 신호를 생성하도록 구성되는 마이크, 화자들의 음성의 음원 위치에 대응하는 언어를 나타내는 위치-언어 정보를 저장하도록 구성되는 메모리, 음성 신호 및 위치-언어 정보를 이용하여 화자들 각각의 음성의 언어를 번역한 번역 결과를 생성하고, 번역 결과를 이용하여, 다른 언어로 표현된 화자들 각각의 음성 내용이 포함된 번역문 회의록을 생성하도록 구성되는 프로세서를 포함한다.한다.
본 발명의 실시 예들에 따른 음성 처리 장치 및 방법에 따르면 화자들의 음성 신호들을 이용하여 화자의 위치를 파악하고, 음성 신호들을 화자별로 분리 및 인식할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 음성 처리 장치 및 방법에 따르면 화자들의 음성으로부터 화자들 각각의 위치를 결정하고, 결정된 위치에 따라 화자들 각각의 현재 언어를 결정하고, 결정된 현재 언어에 따라 화자들 각각의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 생성할 수 있는 효과가 있다.
본 발명의 실시 예들에 따른 음성 처리 장치 및 방법에 따르면 화자들 각각의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 이용하여, 다른 언어로 표현된 화자들 각각의 음성 내용이 포함된 번역문 회의록을 생성할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예들에 따른 음성 처리 장치에 의한 음성 분리 방법을 나타내는 플로우 차트이다.
도 5는 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 7는 본 발명의 실시 예들에 따른 음성 처리 장치에 의한 번역 결과의 생성 방법을 나타내는 플로우 차트이다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다. 도 1을 참조하면, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 음성 처리 장치(100) 및 번역 서버(200)를 포함할 수 있다.
음성 처리 시스템(10)은 화자(speaker; SPK1~SPK4)들의 음성을 분리하고, 화자들(SPK1~SPK4) 각각의 분리된 음성에 대한 번역을 제공할 수 있다.
화자들(SPK1~SPK4)은 공간(예컨대, 회의실, 차량, 강의실 등)에 위치하여 음성을 발화(pronounce)할 수 있다. 예컨대, 제1위치(P1)에 위치한 제1화자(SPK1)는 제1언어(예컨대, 한국어(KR))로 음성을 발화할 수 있고, 제2위치(P2)에 위치한 제2화자(SPK2)는 제2언어(예컨대, 영어(EN))로 음성을 발화할 수 있고, 제3위치(P3)에 위치한 제3화자(SPK3)는 제3언어(예컨대, 일본어(JP))로 음성을 발화할 수 있고, 제4위치(P4)에 위치한 제4화자(SPK4)는 제4언어(예컨대, 중국어(CN))로 음성을 발화할 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성에 응답하여, 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성할 수 있다. 상기 음성 신호는 특정 시간동안 발화된 음성들과 연관된 신호로서, 복수의 화자들의 음성을 나타내는 신호일 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성을 화자들(SPK1~SPK4) 각각 별로 분리하여 인식할 수 있다. 복수의 화자들(SPK1~SPK4)이 동시에 발화하는 경우 음성에는 발화한 여러 명의 화자들(SPK1~SPK4)의 음성이 모두 포함되어 있다. 화자들(SPK1~SPK4) 각각의 음성을 정확히 처리하기 위해서는, 여러 명의 화자들(SPK1~SPK4)의 음성이 모두 포함된 음성으로부터 각 화자(SPK~SPK4) 만의 음성을 분리하는 것이 필요하다.
본 발명의 실시 예들에 따른 음성 처리 장치(100)는, 여러 명의 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호로부터, 화자들(SPK1~SPK4)의 음성들 각각의 음원 위치를 판단하고, 음원 위치에 기초하여 음원 분리를 수행함으로써, 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.
즉, 음성 처리 장치(100)는 음성들의 음원 위치(즉, 화자의 위치)에 기초하여, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 음성 신호의 성분들을 위치(P1~P4)별로 분류하고, 각 위치(P1~P4)에 대응하는 분류된 성분들을 이용하여 각 위치(P1~P4)에서 발화된 음성과 연관된 분리 음성 신호를 생성할 수 있다.
예컨대, 음성 처리 장치(100)는 음성 신호에 기초하여, 제1위치(P1)에서 발화한 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다. 이 때, 제1분리 음성 신호는 화자들(SPK1~SPK4)의 음성들 중 제1화자(SPK1)의 음성과 가장 높은 연관도를 가지는 음성 신호일 수 있다. 다시 말하면, 제1분리 음성 신호에 포함된 음성 성분 중에서 제1화자(SPK1)의 음성 성분의 비중이 가장 높을 수 있다.
또한, 본 발명의 실시 예들에 따른 음성 처리 장치(100)는 음성 신호로부터 화자들(SPK1~SPK4)의 위치를 결정하고, 화자(SPK1~SPK4)의 음성의 현재 언어(즉, 출발 언어(source language))를 음성 신호로부터 결정된 화자들(SPK1~SPK4)의 위치에 기초하여 결정하여, 화자들(SPK1~SPK4)의 음성의 언어를 다른 언어로 번역한 번역 결과를 생성할 수 있다.
일반적으로, 음성을 번역하기 위해서는 해당 음성의 현재 언어에 대한 정보가 필요하다. 그러나, 음성 자체를 해석하여 해당 음성의 현재 언어를 파악하는 것은 많은 리소스가 소요되는 문제가 있다. 반면, 본 발명의 실시 예들에 따른 음성 처리 장치(100)는 화자(SPK1~SPK4)의 위치를 통해 화자(SPK1~SPK4)의 음성의 언어(즉, 출발 언어)를 결정할 수 있으므로, 화자(SPK1~SPK4)의 음성 자체를 해석하여 언어를 결정할 필요가 없어 번역에 소요되는 시간 및 리소스가 감소하는 효과가 있다.
본 명세서에서, 음성 처리 장치(100)가 번역 결과를 생성한다는 것은, 음성 처리 장치(100)에 저장된 프로그램의 실행에 따라, 음성의 언어를 번역하여 번역 결과를 생성하는 것뿐만 아니라, 음성 처리 장치(100)가 외부의 번역 서버로 번역 요청을 전송하고, 외부 서버에 의해 실행되는 번역 프로그램으로부터 생성된 번역 결과를 번역 서버로부터 수신하는 것을 포함한다.
실시 예들에 따라, 음성 처리 장치(100)는 음성들 각각에 대한 번역 결과를 생성할 수 있다. 상기 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호일 수 있다.
번역 서버(200)는 언어에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 번역 서버(200)는 음성 처리 장치(100)로부터 화자(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신하고, 화자들(SPK1~SPK4)의 음성이 다른 언어로 번역된 번역 결과를 음성 처리 장치(100)로 제공할 수 있다.
번역 서버(200)는 스스로의 연산을 통해 번역 작업을 수행하고, 번역 결과를 제공할 수 있으나 이에 한정되는 것은 아니다. 예컨대, 번역 서버(200)는 외부로부터 번역 결과를 입력받고, 입력된 번역 결과를 다시 음성 처리 장치(100)로 제공할 수도 있다.
비록 도 1에는 음성 처리 장치(100)와 번역 서버(200)가 분리되어 도시되어 있으나, 실시 예들에 따라 음성 처리 장치(100)는 번역 서버(200)를 포함할 수 있다. 이는, 음성 처리 장치(100)는 음성 처리 장치(100)의 프로세서를 이용하여 실행되는 번역 프로그램을 저장하고 있는 것을 의미할 수 있다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 2를 참조하면, 음성 처리 장치(100)는 마이크(110), 통신 회로(120), 프로세서(130) 및 메모리(140)를 포함할 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 스피커(150)를 더 포함할 수 있다.
마이크(110)는 발생한 음성에 응답하여 음성 신호를 생성할 수 있다. 실시 예들에 따라, 마이크(110)는 음성으로 인한 공기의 진동을 검출하고, 검출 결과에 따라 진동에 대응하는 전기적인 신호인 음성 신호를 생성할 수 있다. 예컨대, 마이크(110)는 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성을 전기적인 신호인 음성 신호들로 변환할 수 있다.
실시 예들에 따라, 마이크(110)는 복수일 수 있고, 복수의 마이크들(110) 각각은 음성에 응답하여 음성 신호를 생성할 수 있다. 이 때, 복수의 마이크들(110) 각각이 배치된 위치는 서로 다를 수 있으므로, 마이크들(110) 각각으로부터 생성된 음성 신호들은 서로 위상 차(또는 시간 지연)을 가질 수 있다.
한편, 본 명세서에서는 음성 처리 장치(100)가 마이크(110)를 포함하고, 마이크(110)를 이용하여 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 직접 생성하는 것으로 설명하나, 실시 예들에 따라, 마이크는 음성 처리 장치(100)와 분리되어 외부에 구성될 수 있고, 음성 처리 장치(100)는 분리되어 구성된 마이크로부터 음성 신호를 수신하여, 수신된 음성 신호를 처리 또는 이용할 수 있다. 예컨대, 음성 처리 장치(100)는 분리된 마이크로부터 수신된 음성 신호로부터 분리 음성 신호를 생성할 수 있다.
다만, 설명의 편의상, 별도의 언급이 없는 한 음성 처리 장치(100)가 마이크(110)를 포함하는 것을 가정하고 설명한다.
통신 회로(120)는 무선 통신 방식에 따라 외부 장치와 데이터를 주고받을 수 있다. 실시 예들에 따라, 통신 회로(120)는 다양한 주파수의 전파를 이용하여, 외부 장치와 데이터를 주고받을 수 있다. 예컨대, 통신 회로(120)는 근거리 무선 통신, 중거리 무선 통신 및 장거리 무선 통신 중 적어도 하나의 무선 통신 방식에 따라, 외부 장치와 데이터를 주고받을 수 있다.
프로세서(130)는 음성 처리 장치(100)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(130)은 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 예컨대, 프로세서(130)는 CPU(central processing unit), MCU(micro controller unit), GPU(graphics processing unit), DSP(digital signal processor), ADC 컨버터(analog to digital converter) 또는 DAC 컨버터(digital to analog converter)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
별도의 언급이 없는 한, 본 명세서에서 설명되는 음성 처리 장치(100)의 동작은 프로세서(130)의 동작으로 이해될 수 있다.
프로세서(130)는 마이크(110)에 의해 생성된 음성 신호들을 처리할 수 있다. 예컨대, 프로세서(130)는 마이크(110)에 의해 생성된 아날로그 타입의 음성 신호를 디지털 타입의 음성 신호로 변환하고, 변환된 디지털 타입의 음성 신호를 처리할 수 있다. 이 경우, 신호의 타입(아날로그 또는 디지털)이 바뀌는 것이므로, 본 발명의 실시 예들에 대한 설명에 있어서, 디지털 타입의 음성 신호와 아날로그 타입의 음성 신호를 혼용하여 설명하도록 한다.
실시 예들에 따라, 프로세서(130)는 마이크(110)에 의해 생성된 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다. 실시 예들에 따라, 프로세서(130)는 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 분리 음성 신호는 음성 데이터 또는 텍스트 데이터의 형태일 수 있다.
프로세서(130)는 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성들의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 프로세서(130)는 음성 처리 장치(100)에 대한 음원(즉, 화자들(SPK1~SPK4))의 상대적인 위치를 결정할 수 있다.
프로세서(130)는 결정된 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 실시 예들에 따라, 프로세서(130)는 음성 신호의 성분들을 음원 위치(P1~P4)별로 분류하고, 각 위치(P1~P4)에 대응하는 분류된 성분들을 이용하여 각 음원 위치(P1~P4)에서 발화된 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 프로세서(130)는 음성들의 음원 위치에 기초하여, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.
실시 예들에 따라, 프로세서(130)는 결정된 음원 위치를 나타내는 음원 위치 정보를 분리 음성 신호와 매칭하여 저장할 수 있다. 예컨대, 프로세서(130)는 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호 및 제1화자(SPK1)의 음성의 음원 위치를 나타내는 제1음원 위치 정보를 매칭하여 메모리(140)에 저장할 수 있다. 즉, 음원의 위치가 곧 화자들(SPK1~SPK4) 각각의 위치와 대응되므로, 음원 위치 정보는 화자들(SPK1~SPK4) 각각의 위치를 식별하기 위한 화자 위치 정보로 기능할 수도 있다.
프로세서(130)는 음원 위치 정보를 이용하여, 화자들(SPK1~SPK4)의 음성의 언어(즉, 출발 언어)를 결정할 수 있다. 실시 예들에 따라, 프로세서(130)는 화자들(SPK1~SPK4)의 음성으로부터 음원 위치 정보를 결정하고, 결정된 음원 위치 정보에 대응하는 위치-언어 정보를 결정함으로써 각 음성의 언어를 결정할 수 있다. 이 때, 위치-언어 정보는 각 위치에 있는 화자들(SPK1~SPK4)의 언어가 무엇인지 나타내는 정보로서, 사전에 각 위치에 매칭되어 메모리(140)에 저장되어 있을 수 있다. 이에 대해선 후술하도록 한다.
프로세서(130)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호와 해당하는 음성의 언어를 나타내는 정보를 통신 회로(120)를 이용하여 번역 서버(200)로 전송할 수 있다. 실시 예들에 따라, 프로세서(130)는 분리 음성 신호와 음성의 언어를 나타내는 정보를 번역 서버(200)로 전송하기 위한 제어 명령을 생성할 수 있다.
번역 서버(200)는 분리 음성 신호를 이용하여 화자의 음성의 언어를 반역한 번역 결과를 생성할 수 있다.
또는, 실시 예들에 따라, 프로세서(130)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호와 위치-언어 정보를 이용하여, 화자들(SPK1~SPK4)의 음성을 번역하고, 번역 결과를 생성할 수 있다. 예컨대, 프로세서(130)는 번역 프로그램을 실행하고, 번역 프로그램에 화자의 음성과 연관된 분리 음성 신호 및 위치-언어 정보를 입력으로 제공함으로써, 화자의 음성을 도착 언어로 번역한 번역 결과를 생성할 수 있다.
번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호를 모두 의미할 수 있다.
실시 예들에 따라, 프로세서(130)는 번역 결과를 이용하여 화자들(SPK1~SPK4)의 언어로 작성된 회의록을 생성할 수 있다. 예컨대, 프로세서(130)는 분리 음성 신호를 이용하여 화자들(SPK1~SPK4) 각각의 음성에 대한 텍스트 데이터를 생성하고, 각 화자의 텍스트 데이터를 음성이 인식된 시점에 따라 배치 또는 나열함으로써 회의록을 생성할 수 있다.
본 명세서에서 설명되는 프로세서(130) 또는 음성 처리 장치(100)의 동작은 컴퓨팅 장치에 의해 실행 가능한 프로그램의 형태로 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.
메모리(140)는 음성 처리 장치(100)의 동작에 필요한 데이터를 저장할 수 있다. 예컨대, 메모리(140)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.
실시 예들에 따라, 메모리(140)는 공간 상의 각 위치(P1~P4)에 대응하는 식별자를 저장할 수 있다. 상기 식별자는 위치(P1~P4)를 구별하기 위한 데이터일 수 있다. 위치들(P1~P4) 각각에는 화자들(SPK1~SPK4) 각각이 위치하므로, 위치(P1~P4)에 대응하는 식별자를 이용하여 화자(SPK1~SPK4)들 각각을 구별할 수 있다. 예컨대, 제1위치(P1)를 나타내는 제1식별자는, 곧, 제1화자(SPK1)를 나타낼 수 있다. 이러한 관점에서, 공간 상의 각 위치(P1~P4)에 대응하는 식별자는 화자들(SPK1~SPK4) 각각을 식별하기 위한 화자 식별자로서 기능할 수도 있다.
상기 식별자는 음성 처리 장치(100)의 입력 장치(예컨대, 터치 패드)를 통해 입력될 수 있다.
실시 예들에 따라, 메모리(140)는 화자들(SPK1~SPK4) 각각의 위치와 관련됨 음원 위치 정보 및 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 저장할 수 있다.
또한, 메모리(140)는 화자들(SPK1~SPK4)의 음성의 언어를 나타내는 위치-언어 정보를 저장할 수 있다. 실시 예들에 따라, 위치-언어 정보는 사전에 각 위치에 매칭되어 메모리(140)에 저장되어 있을 수 있다. 이에 대해선 후술하도록 한다.
스피커(150)는 프로세서(130)의 제어에 따라 진동할 수 있고, 상기 진동에 따라 음성이 생성될 수 있다. 실시 예들에 따라, 스피커(150)는 음성 신호에 대응하는 진동을 형성함으로써, 상기 음성 신호와 연관된 음성을 재생할 수 있다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 이하 본 명세서에서 설명되는 음성 처리 장치(100)의 동작은 음성 처리 장치(100)에 포함된 프로세서(130)의 제어에 따라 수행되는 동작으로 이해될 수 있다.
도 3을 참조하면, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4) 각각이 발화할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들로부터 각 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있고, 분리 음성 신호와 음원, 즉, 화자들(SPK1~SPK4) 각각의 위치를 나타내는 음원 위치 정보를 저장할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성들의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 음성 처리 장치(100)는 음성 처리 장치(100)에 대한 음원(즉, 화자들(SPK1~SPK4))의 상대적인 위치를 결정할 수 있다.
음성 처리 장치(100)는 결정된 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.
도 3에 도시된 바와 같이, 제1화자(SPK1)가 음성 'AAA'를 발화하고, 제2화자(SPK2)가 음성 'BBB'를 발화하고, 제3화자(SPK3)가 음성 'CCC'를 발화하고, 제4화자(SPK4)가 음성 'DDD'를 발화한다.
음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들에 응답하여, 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 생성할 수 있다. 이 때, 생성된 음성 신호는 화자들(SPK1~SPK4)의 음성들 'AAA', 'BBB', 'CCC' 및 음성 'DDD'과 연관된 성분을 포함한다.
음성 처리 장치(100)는 생성된 음성 신호를 이용하여, 제1화자(SPK1)의 음성 'AAA'와 연관된 제1분리 음성 신호, 제2화자(SPK2)의 음성 'BBB'와 연관된 제2분리 음성 신호, 제3화자(SPK3)의 음성 'CCC'와 연관된 제3분리 음성 신호 및 제4화자(SPK4)의 음성 'DDD'와 연관된 제4분리 음성 신호를 생성할 수 있다.
이 때, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호들과, 화자들(SPK1~SPK4)의 위치(즉, 음원 위치)를 나타내는 음원 위치 정보를 메모리(140)에 저장할 수 있다. 예컨대, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 'AAA'와 연관된 제1분리 음성 신호와, 제1화자(SPK1)의 음성의 음원 위치인 제1위치(P1)를 나타내는 제1위치 정보를 메모리(140)에 저장할 수 있다. 예컨대, 도 3에 도시된 바와 같이, 분리 음성 신호들 각각과 음원 위치 정보는 서로 매칭되어 저장될 수 있다.
즉, 본 발명의 실시 예들에 따른 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들로부터 각 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있고, 분리 음성 신호와 화자들(SPK1~SPK4) 각각의 위치를 나타내는 위치 정보를 저장할 수 있다.
도 4는 본 발명의 실시 예들에 따른 음성 처리 장치에 의한 음성 분리 방법을 나타내는 플로우 차트이다. 도 4를 참조하여 설명될 음성 처리 장치의 작동 방법은 비일시적인 저장 매체에 저장되어, 컴퓨팅 장치에 의해 실행 가능한 애플리케이션(예컨대, 음성 분리 애플리케이션)으로서 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.
도 4를 참조하면, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신할 수 있다(S110). 실시 예들에 따라, 음성 처리 장치(100)는 공간에서 감지되는 음성을 전기적인 신호인 음성 신호로 변환할 수 있다.
음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 위치를 판단할 수 있다(S120). 실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 위치와 대응하는 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 나타내는 음원 위치 정보를 생성할 수 있다.
음성 처리 장치(100)는 음성들 각각에 대한 음원 위치에 기초하여, 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다(S130). 실시 예들에 따라, 음성 처리 장치(100)는 생성된 음성 신호를, 음성들 각각에 대한 음원 위치에 기초하여 분리함으로써 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 음성 신호에 포함된 성분들을 음원 위치에 기초하여 분리함으로써 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다.
음성 처리 장치(100)는 음원의 위치를 나타내는 음원 위치 정보와 분리 음성 신호를 저장할 수 있다(S140). 실시 예들에 따라, 음성 처리 장치(100)는 음원의 위치를 나타내는 음원 위치 정보와, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 매칭하여 저장할 수 있다. 예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호에 해당하는 데이터와 음원 위치 정보를 매칭하여 저장할 수 있다.
실시 예들에 따라, 본 발명의 실시 예들에 따른 음성 처리 장치(100)(또는 프로세서(130))는 메모리(140)에 저장된 애플리케이션(예컨대, 음성 분리 애플리케이션)을 실행함으로써 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성(또는 분리)할 수 있다.
도 5는 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다. 도 5를 참조하면, 제1화자(SPK1)는 음성 'AAA'를 한국어(KR)로 발화하고, 제2화자(SPK2)는 음성 'BBB'를 영어(EN)로 발화하고, 제3화자(SPK3)는 음성 'CCC'를 중국어(CN)로 발화하고, 제4화자(SPK4)는 음성 'DDD'를 일본어(JP)로 발화한다.
본 발명의 실시 예들에 따른 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성들로부터 각 화자들(SPK1~SPK4)의 위치를 결정하고, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 위치에 대응하여 저장된 위치-언어 정보를 이용하여 화자들(SPK1~SPK4)의 음성의 언어를 판단하여, 화자들(SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다.
예컨대, 음성 처리 장치(100)는 제1위치(P1)에 대응하는 언어가 'KR'임을 나타내는 제1위치-언어 정보를 메모리(140)에 저장할 수 있다. 또한, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 'AAA'와 연관된 제1분리 음성 신호, 제1화자(SPK1)의 위치인 제1위치(P1)를 나타내는 제1음원 위치 정보 및 제1화자(SPK1)의 음성 'AAA'의 언어인 한국어(KR)을 나타내는 제1위치-언어 정보를 메모리(140)에 저장할 수 있다.
도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다. 도 6을 참조하면, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 각각의 음성과 연관된 분리 음성 신호를 생성하고, 분리 음성 신호들을 이용하여 화자들(SPK1~SPK4)의 각각의 음성에 대한 번역 결과를 생성할 수 있다. 이 때, 번역 결과는 화자들(SPK1~SPK4)의 음성들의 언어가 다른 언어(예컨대, 도착 언어)로 변환된 결과를 나타낸다.
예컨대, 음성 처리 장치(100)는 분리 음성 신호를 텍스트 데이터로 변환하고(예컨대, STT(Speech-To-Text) 변환), 변환된 텍스트 데이터에 대한 번역 결과를 생성하고, 번역 결과를 음성 신호로서 변환(예컨대, TTS(Text-to-Speech) 변환)할 수 있다. 즉, 본 명세서에서 언급되는 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호를 모두 의미할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 생성된 번역 결과를 출력할 수 있다. 예컨대, 음성 처리 장치(100)는 생성된 번역 결과를 스피커(150)를 통해 출력하거나, 또는 다른 외부 장치로 전송할 수 있다.
도 6에 도시된 바와 같이, 제1화자(SPK1)는 음성 'AAA'를 한국어(KR)로 발화한다. 이 경우, 제1화자(SPK1)의 음성 'AAA'의 출발 언어는 한국어(KR)이다.
음성 처리 장치(100)는 제1화자(SPK1)의 음성 'AAA'에 응답하여, 제1화자(SPK1)의 음원 위치(예컨대, P1)를 결정하고, 음원 위치에 기초하여 제1화자(SPK1)의 음성 'AAA'과 연관된 제1분리 음성 신호를 생성할 수 있다.
음성 처리 장치(100)는 생성된 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 음성에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 음성 처리 장치(100)는 메모리(140)에 저장된 위치-언어 정보를 이용하여, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4)이 의해 발화된 음성의 언어를 결정하고, 결정된 언어에 따라 화자들(SPK1~SPK4) 각각의 음성의 언어에 대한 번역 결과를 생성할 수 있다.
도 6에 도시된 바와 같이, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 'AAA'의 음원 위치인 제1위치(P1)를 나타내는 제1음원 위치 정보를 이용하여, 메모리(140)로부터 제1위치(P1)에서 발화된 음성 'AAA'의 언어가 한국어(KR)임을 나타내는 제1위치-언어 정보를 리드할 수 있다. 음성 처리 장치(100)는 제1화자(SPK1)의 음성 'AAA'의 언어인 한국어(KR)을 다른 언어로 번역한 번역 결과를 생성할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 제1화자(SPK1)의 음성 'AAA'에 대한 분리 음성 신호와, 음성 'AAA'의 언어가 한국어(KR)임을 나타내는 정보를 이용하여 음성 'AAA'의 언어를 다른 언어로 번역한 번역 결과를 생성할 수 있다.
이 때, 화자들(SPK1~SPK4)의 음성이 번역되어야 할 언어(즉, 도착 언어)는 미리 정해져 있거나, 외부 사용자의 입력에 의해 지정되거나, 또는, 음성 처리 장치(100)에 의해 설정될 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 위치에 대응하는 언어를 나타내는 위치-언어 정보에 기초하여, 화자들(SPK1~SPK4) 중 하나의 화자의 음성의 언어를 나머지 화자들의 언어로 번역한 번역 결과를 생성할 수 있다.
도 6에 도시된 바와 같이, 음성 처리 장치(100)는 미리 저장된 위치-언어 정보에 기초하여, 제1위치(P1)에 위치한 제1화자(SPK1)의 음성 'AAA'이 번역되어야 할 언어(즉, 도착 언어)가 제1화자(SPK1)를 제외한 나머지 화자들(SPK2~SPK4)의 위치에 대응하는 언어들(영어, 중국어 및 일본어)임을 결정할 수 있다. 결정에 따라, 음성 처리 장치(100)는 음성 'AAA'의 언어가 영어, 중국어 및 일본어로 번역된 번역 결과를 생성할 수 있다.
즉, 본 발명의 실시 예들에 따른 음성 처리 장치(100)는 복수의 화자들(SPK1~SPK4)이 발화하고 있는 상황에서, 화자들(SPK1~SPK4)의 음성으로부터 화자들(SPK1~SPK4)의 위치(즉, 음원 위치)를 결정하고, 결정된 위치로부터 각 화자들(SPK1~SPK4)의 언어(출발 언어 및 도착 언어)를 결정하며, 결정된 언어에 기초하여 화자들(SPK1~SPK4)의 음성을 번역할 수 있는 효과가 있다.
실시 예들에 따라, 음성 처리 장치(100)는 번역 결과를 나머지 화자들(SPK2~SPK4)로 제공할 수 있다. 또한, 실시 예들에 따라, 음성 처리 장치(100)는 번역 결과를 다른 장치들(예컨대, 스피커, 디스플레이 또는 외부 장치)로 전송할 수도 있다.
도 7는 본 발명의 실시 예들에 따른 음성 처리 장치에 의한 번역 결과의 생성 방법을 나타내는 플로우 차트이다. 도 7를 참조하여 설명될 음성 처리 장치의 작동 방법은 비일시적인 저장 매체에 저장되어, 컴퓨팅 장치에 의해 실행 가능한 애플리케이션(예컨대, 번역 애플리케이션)으로서 구현될 수 있다. 예컨대, 프로세서(130)는 메모리(140)에 저장된 애플리케이션을 실행하고, 애플리케이션의 실행에 따라 특정 작동들을 지시하는 명령어들에 대응하는 작동들을 수행할 수 있다.
도 7를 참조하면, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신할 수 있다(S210).
음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 위치를 판단할 수 있다(S220). 실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 위치와 대응하는 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 나타내는 음원 위치 정보를 생성할 수 있다.
음성 처리 장치(100)는 음성들 각각에 대한 음원 위치에 기초하여, 화자들(SPK1~SPK4)의 음성들 각각과 연관된 분리 음성 신호를 생성할 수 있다(S230).
음성 처리 장치(100)는 화자들(SPK1~SPK)의 위치에 기초하여 화자들(SPK1~SPK4)의 음성의 언어(즉, 현재 언어)를 결정할 수 있다(S240). 실시 예들에 따라, 음성 처리 장치(100)는 결정된 음원 위치 정보와, 저장된 위치-언어 정보를 이용하여 화자들(SPK1~SPK4) 각각의 음성의 언어(즉, 현재 언어)를 결정할 수 있다(S240).
음성 처리 장치(100)는 결정된 음성의 언어에 따라, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다(S250). 실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 분리 음성 신호 및 화자들(SPK1~SPK4)의 음성의 언어에 대한 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다.
예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 위치에 대응하는 언어를 나타내는 위치-언어 정보에 기초하여, 화자들(SPK1~SPK4) 중 하나의 화자의 음성의 언어를 나머지 화자들의 언어로 번역한 번역 결과를 생성할 수 있다.
도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 도 8을 참조하면, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호들을 이용하여 회의록(MOM)을 생성할 수 있다.
회의록(MOM)은 화자들(SPK1~SPK4) 각각의 발화 내용을 기록한 데이터일 수 있다. 예컨대, 화자들(SPK1~SPK4) 각각의 발화 내용은 시간 순으로 정리되어 구성될 수 있다.
음성 처리 장치(100)는 회의록(MOM)을 생성하고, 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호들을 이용하여, 회의록(MOM)에 화자들(SPK1~SPK4)의 발화 내용을 저장(또는 기록)할 수 있다. 이 때, 음성 처리 장치(100)는 각 화자(SPK1~SPK4)의 발화 내용과 각 화자(SPK1~SPK4)를 식별하기 위한 식별자(예컨대, 이름) 등을 서로 매칭하여 기록할 수 있다. 따라서, 회의록(MOM)을 통해 어떤 화자가 어떤 내용으로 발화했는지를 확인할 수 있다.
실시 예들에 따라, 회의록(MOM)은 텍스트 데이터, 음성 데이터 또는 이미지 데이터 중 적어도 하나로 구성될 수 있으나, 이에 한정되는 것은 아니다. 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 처리함으로써 회의록(MOM)을 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성에 응답하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성하고, 생성된 분리 음성 신호를 텍스트 변환하여 저장함으로써 회의록(MOM)을 생성할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(100)는, 원래 언어(즉, 출발 언어)로 표현된 화자들(SPK1~SPK4) 각각의 음성의 내용을 포함하는 회의록(즉, 원문 회의록) 뿐만 아니라, 다른 언어(즉, 도착 언어)로 표현된 화자들(SPK1~SPK4) 각각의 음성의 내용을 포함하는 회의록(즉, 번역문 회의록)을 생성할 수 있다. 예컨대, 제1화자(SPK1)는 한국어(KR)로 발화하므로, 제1화자(SPK1)의 입장에서는 국문 회의록(KR MOM)이 원문 회의록이 되고, 영문 회의록(EN MOM), 중문 회의록(CN MOM) 및 일문 회의록(JP MOM)이 번역문 회의록이 된다.
실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 각각의 음성에 대한 분리 음성 신호를 이용하여 원문 회의록을 생성하고, 분리 음성 신호에 대한 번역 결과를 이용하여 화자들(SPK1~SPK4) 각각의 음성의 언어로 번역된 번역문 회의록(MOM)을 생성할 수 있다.
실시 예들에 따라, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성 내용이 화자들(SPK1~SPK4) 중 제1화자(SPK1)의 언어인 한국어(KR)로 나타난 국문 회의록(KR MOM)을 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 화자들(SPK1~SPK4) 중 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호(즉, 한국어(KR)로 표현됨)와, 나머지 화자들(SPK2~SPK4)의 음성의 언어가 제1화자(SPK1)의 언어인 한국어(KR)로 번역된 번역 결과를 이용하여 국문 회의록(KR MOM)을 생성할 수 있다. 마찬가지로, 음성 처리 장치(100)는 화자들(SPK1~SPK4)의 음성 내용이 나머지 화자들(SPK2~SPK4)의 언어로 나타난 회의록들(EN MOM, CN MOM, JP MOM)을 생성할 수 있다.
도 8에 도시된 바와 같이, 제1위치(P1)의 제1화자(SPK1)가 음성 'AAA'를 한국어로 발화하고, 제3위치(P3)의 제3화자(SPK3)가 음성 'CCC'를 중국어로 발화하고, 제2위치(P2)의 제2화자(SPK2)가 음성 'BBB'를 영문으로 발화한다.
음성 처리 장치(100)는 음성 'AAA'에 응답하여, 음성 'AAA'의 음원 위치인 제1위치(P1)를 결정하고 음성 'AAA'와 연관된 제1분리 음성 신호를 생성한다. 음성 처리 장치(100)는 위치-언어 정보에 기초하여 음성 'AAA'의 언어(즉, 출발 언어)가 한국어(KR)임을 판단할 수 있다.
음성 처리 장치(100)는 음성 'AAA'에 대한 제1분리 음성 신호를 이용하여 국문 회의록(KR MOM)을 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 국문 회의록(KR MOM)을 생성하고, 음성 'AAA'에 대한 제1분리 음성 신호에 대응하는 텍스트 데이터를 국문 회의록(KR MOM)에 기록(또는 저장)할 수 있다. 즉, 국문 회의록(KR MOM)은 한국어(KR)로 발화된 음성 'AAA'에 대한 내용을 포함할 수 있다.
음성 처리 장치(100)는 음성 'AAA'에 대한 번역 결과를 이용하여 영문 회의록(EN MOM), 중문 회의록(CN MOM) 및 일문 회의록(JP MOM)을 생성할 수 있다. 예컨대, 음성 처리 장치(100)는 영문 회의록(EN MOM)을 생성하고, 음성 'AAA'의 언어가 영어(EN)로 번역된 번역 결과를 텍스트 변환하고, 텍스트 데이터를 영문 회의록(EN MOM)에 기록(또는 저장)할 수 있다. 즉, 영문 회의록(EN MOM)은 영어(EN)로 기재된 음성 'AAA'에 대한 내용을 포함할 수 있다.
마찬가지로, 음성 처리 장치(100)는 음성 'CCC'에 대한 제3분리 음성 신호를 이용하여 중문 회의록(CN MOM)에 중국어(CN)로 발화된 음성 'CCC'의 내용을 기록할 수 있고, 음성 'CCC'에 대한 번역 결과를 이용하여 다른 언어의 회의록(KR MOM, EN MOM, JP MOM)에 다른 언어로 발화된 음성 'CCC'의 내용을 기록할 수 있다.
마찬가지로, 음성 처리 장치(100)는 음성 'BBB'에 대한 제2분리 음성 신호를 이용하여 영문 회의록(EN MOM)에 영어(EN)로 발화된 음성 'BBB'의 내용을 기록할 수 있고, 음성 'BBB'에 대한 번역 결과를 이용하여 다른 언어의 회의록(KR MOM, CN MOM, JP MOM)에 다른 언어로 발화된 음성 'BBB'의 내용을 기록할 수 있다.
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
SPK1~SPK4: 화자들 10: 음성 처리 시스템
100: 음성 처리 장치 200: 번역 서버
110: 마이크 120: 통신 회로
130: 프로세서 140: 메모리
150: 스피커

Claims (7)

  1. 화자들의 음성에 대한 번역 결과를 생성하도록 구성되는 음성 처리 장치에 있어서,
    화자들의 음성에 응답하여, 화자들의 음성과 연관된 음성 신호를 생성하도록 구성되는 마이크;
    화자들의 음성의 음원 위치에 대응하는 언어를 나타내는 위치-언어 정보를 저장하도록 구성되는 메모리;
    상기 음성 신호 및 위치-언어 정보를 이용하여 화자들 각각의 음성의 언어를 번역한 번역 결과를 생성하고, 번역 결과를 이용하여, 다른 언어로 표현된 화자들 각각의 음성 내용이 포함된 번역문 회의록을 생성하도록 구성되는 프로세서를 포함하는,
    음성 처리 장치.
  2. 제1항에 있어서, 상기 프로세서는,
    마이크로부터 생성된 음성 신호를 이용하여, 화자들의 음성의 음원 위치를 결정하고, 결정된 음원 위치를 나타내는 음원 위치 정보를 생성하고,
    상기 음성 신호로부터 각 음원 위치에서 발화된 음성과 연관된 분리 음성 신호를 생성하고,
    상기 메모리에 저장된 위치-언어 정보를 이용하여, 화자들의 음성의 현재 언어를 결정하고,
    상기 분리 음성 신호와 결정된 현재 언어를 이용하여, 화자들의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 생성하는,
    음성 처리 장치.
  3. 제2항에 있어서,
    상기 마이크는 어레이를 이루도록 배치된 복수의 마이크들을 포함하고, 상기 복수의 마이크들은 상기 화자들의 음성에 응답하여 상기 음성 신호를 생성하고,
    상기 프로세서는,
    상기 복수의 마이크들로부터 생성된 복수의 음성 신호들 사이의 시간 지연에 기초하여, 상기 음원 위치를 결정하는,
    음성 처리 장치.
  4. 제2항에 있어서, 상기 프로세서는,
    상기 메모리에 저장된 위치-언어 정보를 이용하여, 화자들 각각의 음성의 현재 언어가 번역될 다른 언어를 결정하고,
    결정된 현재 언어 및 다른 언어에 따라, 화자들의 음성의 현재 언어가 다른 언어로 번역된 번역 결과를 생성하는,
    음성 처리 장치.
  5. 제4항에 있어서, 상기 프로세서는,
    화자들의 음성과 연관된 음성 신호를 이용하여 화자들 중 제1화자의 음성의 음원 위치를 나타내는 제1음원 위치 정보를 생성하고,
    상기 음성 신호와 상기 제1음원 위치 정보를 이용하여, 상기 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고,
    상기 메모리에 저장된 위치-언어 정보를 참조하여, 상기 제1음원 위치 정보에 대응하는 제1화자의 음성의 언어를 결정하고,
    상기 메모리에 저장된 위치-언어 정보를 참조하여, 상기 화자들 중 상기 제1화자를 제외한 나머지 화자들의 음성의 언어를 결정하고,
    상기 제1분리 음성 신호를 이용하여, 상기 제1화자의 음성의 언어가 나머지 화자들의 음성의 언어로 번역된 번역 결과를 생성하는,
    음성 처리 장치.
  6. 제2항에 있어서, 상기 프로세서는,
    상기 분리 음성 신호를 이용하여 화자들의 음성의 현재 언어로 표현된 화자들 각각의 음성 내용이 포함된 원문 회의록을 생성하는,
    음성 처리 장치.
  7. 제1항에 있어서, 상기 프로세서는,
    상기 번역문 회의록을 생성하고, 상기 번역 결과를 텍스트 변환하고, 텍스트 데이터를 상기 번역문 회의록에 기록하는,
    음성 처리 장치.
KR1020210094265A 2021-07-19 2021-07-19 화자들의 음성을 처리하기 위한 장치 및 방법 KR20230013473A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210094265A KR20230013473A (ko) 2021-07-19 2021-07-19 화자들의 음성을 처리하기 위한 장치 및 방법
PCT/KR2022/010276 WO2023003271A1 (ko) 2021-07-19 2022-07-14 화자들의 음성을 처리하기 위한 장치 및 방법
CN202280062878.0A CN117980989A (zh) 2021-07-19 2022-07-14 用于处理说话者的语音的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210094265A KR20230013473A (ko) 2021-07-19 2021-07-19 화자들의 음성을 처리하기 위한 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230013473A true KR20230013473A (ko) 2023-01-26

Family

ID=84979437

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210094265A KR20230013473A (ko) 2021-07-19 2021-07-19 화자들의 음성을 처리하기 위한 장치 및 방법

Country Status (3)

Country Link
KR (1) KR20230013473A (ko)
CN (1) CN117980989A (ko)
WO (1) WO2023003271A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6975876B2 (ja) * 2015-10-23 2021-12-01 パナソニックIpマネジメント株式会社 翻訳システム
JP6737141B2 (ja) * 2016-11-17 2020-08-05 富士通株式会社 音声処理方法、音声処理装置、及び音声処理プログラム
KR101989127B1 (ko) * 2017-05-31 2019-09-30 네이버랩스 주식회사 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
KR102395013B1 (ko) * 2017-09-05 2022-05-04 엘지전자 주식회사 인공지능 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법

Also Published As

Publication number Publication date
WO2023003271A1 (ko) 2023-01-26
CN117980989A (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
JP6637848B2 (ja) 音声認識装置及び方法と電子装置
US9672812B1 (en) Qualifying trigger expressions in speech-based systems
US9293134B1 (en) Source-specific speech interactions
JP2016009193A (ja) ユーザ適合音声認識
JP2018106148A (ja) 多重話者音声認識修正システム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
US11182567B2 (en) Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
JP2011504624A (ja) 自動同時通訳システム
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
JP2000207170A (ja) 情報処理装置および情報処理方法
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
JP2013050742A (ja) 音声認識装置および音声認識方法
KR20230013473A (ko) 화자들의 음성을 처리하기 위한 장치 및 방법
JP2011221237A (ja) 音声出力装置、そのコンピュータプログラムおよびデータ処理方法
KR102637337B1 (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
KR20220042009A (ko) 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법
US20230377594A1 (en) Mobile terminal capable of processing voice and operation method therefor
KR102575293B1 (ko) 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR20220042509A (ko) 음성 처리 장치 및 이의 작동 방법
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN113077790A (zh) 多语言配置方法、多语音交互方法、装置及电子设备
KR102268376B1 (ko) 다중 언어 대화 서비스 제공 장치 및 방법