KR20220023511A - 음성 처리 장치 및 음성 처리 장치의 작동 방법 - Google Patents

음성 처리 장치 및 음성 처리 장치의 작동 방법 Download PDF

Info

Publication number
KR20220023511A
KR20220023511A KR1020200105331A KR20200105331A KR20220023511A KR 20220023511 A KR20220023511 A KR 20220023511A KR 1020200105331 A KR1020200105331 A KR 1020200105331A KR 20200105331 A KR20200105331 A KR 20200105331A KR 20220023511 A KR20220023511 A KR 20220023511A
Authority
KR
South Korea
Prior art keywords
terminal
speaker
voice
data
voice data
Prior art date
Application number
KR1020200105331A
Other languages
English (en)
Inventor
김정민
Original Assignee
주식회사 아모센스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아모센스 filed Critical 주식회사 아모센스
Priority to KR1020200105331A priority Critical patent/KR20220023511A/ko
Priority to PCT/KR2021/011205 priority patent/WO2022039578A1/ko
Priority to US18/022,498 priority patent/US20230260509A1/en
Publication of KR20220023511A publication Critical patent/KR20220023511A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information

Abstract

음성 처리 장치가 개시된다. 음성 처리 장치는 화자의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로, 화자의 화자 단말로부터 단말 ID를 포함하는 무선 신호를 수신하도록 구성되는 무선 신호 수신 회로, 메모리 및 무선 신호에 기초하여 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하고, 생성된 단말 위치 데이터와 단말 ID를 매칭하여 메모리에 저장하도록 구성되는 프로세서를 포함하고, 프로세서는, 입력 음성 데이터를 이용하여 제1위치를 나타내는 제1화자 위치 데이터 및 제1위치에서 발화된 제1음성과 연관된 제1출력 음성 데이터를 생성하고, 메모리를 참조하여 제1화자 위치 데이터에 대응하는 제1단말 ID를 리드하고, 제1단말 ID와 제1출력 음성 데이터를 매칭하여 저장한다.

Description

음성 처리 장치 및 음성 처리 장치의 작동 방법{VOICE PROCESSING DEVICE AND OPERATING METHOD OF THE SAME}
본 발명의 실시 예들은 음성 처리 장치 및 음성 처리 장치의 작동 방법에 관한 것이다.
마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다. 따라서, 복수의 화자들이 동시에 발언하는 경우, 복수의 화자들의 음성 신호들을 분리하는 것이 필요하다. 나아가, 분리된 음성 신호들 각각이 어느 화자에 의한 것인지 파악할 필요가 있다.
한국공개특허공보 제10-2016-0091725호 (2016. 08. 03.)
본 발명이 해결하고자 하는 과제는 입력 음성 데이터를 이용하여 화자의 위치를 판단하고, 입력 음성 데이터를 화자별로 분리할 수 있는 음성 처리 장치 및 음성 처리 장치의 작동 방법을 제공하는 것에 있다.
본 발명이 해결하고자 하는 과제는 화자 단말의 위치를 결정하고, 입력 음성 데이터의 화자의 위치를 판단하고, 화자의 위치와 대응하는 위치에 존재하는 화자 단말을 식별함으로써, 음성 데이터와 연관된 음성의 화자를 쉽게 식별할 수 있는 음성 처리 장치 및 음성 처리 장치의 작동 방법을 제공하는 것에 있다.
본 발명의 실시 예들에 따른 음성 처리 장치는, 화자의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로, 화자의 화자 단말로부터 단말 ID를 포함하는 무선 신호를 수신하도록 구성되는 무선 신호 수신 회로, 메모리 및 무선 신호에 기초하여 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하고, 생성된 단말 위치 데이터와 단말 ID를 매칭하여 메모리에 저장하도록 구성되는 프로세서를 포함하고, 프로세서는, 입력 음성 데이터를 이용하여 제1위치를 나타내는 제1화자 위치 데이터 및 제1위치에서 발화된 제1음성과 연관된 제1출력 음성 데이터를 생성하고, 메모리를 참조하여 제1화자 위치 데이터에 대응하는 제1단말 ID를 리드하고, 제1단말 ID와 제1출력 음성 데이터를 매칭하여 저장한다.
본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법은, 화자의 음성과 연관된 입력 음성 데이터를 수신하는 단계, 화자의 화자 단말로부터 단말 ID를 포함하는 무선 신호를 수신하는 단계, 무선 신호에 기초하여 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하는 단계, 생성된 단말 위치 데이터와 단말 ID를 매칭하여 저장하는 단계, 입력 음성 데이터를 이용하여 제1위치를 나타내는 제1화자 위치 데이터 및 제1위치에서 발화된 제1음성과 연관된 제1출력 음성 데이터를 생성하는 단계, 저장된 단말 ID 중 제1화자 위치 데이터에 대응하는 제1단말 ID를 리드하는 단계 및 제1단말 ID와 제1출력 음성 데이터를 매칭하여 저장하는 단계를 포함한다.
본 발명의 실시 예들에 따른 음성 처리 장치 및 이의 작동 방법은 화자 단말의 위치를 사전에 파악한 후, 입력 음성 데이터의 화자의 위치를 판단하고, 화자의 위치와 대응하는 위치에 존재하는 화자 단말을 식별함으로써, 음성 데이터와 연관된 음성의 화자를 쉽게 식별할 수 있는 효과가 있다. 이에 따라, 다수의 화자가 동시에 음성을 발화하더라도, 음성 처리 장치는 음성 데이터를 화자 별로 분리할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다.
도 4 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 나타내는 플로우 차트이다.
도 8 내지 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다.
도 11은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.
도 1은 본 발명의 실시 예들에 따른 음성 처리 시스템을 나타낸다. 도 1을 참조하면, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성에 대응하는 음성 데이터를 화자 별로 분리할 수 있다. 실시 예들에 따라, 음성 처리 시스템(10)은 화자(SPK1~SPK4)의 음성에 기초하여 화자(SPK1~SPK4)의 위치를 결정하고, 결정된 위치에 기초하여 음성 데이터를 화자(SPK1~SPK4) 별로 분리할 수 있다.
음성 처리 시스템(10)은 화자(SPK1~SPK4)의 화자 단말기들(ST1~ST4), 화자(SPK1~SPK4)의 음성을 수신하도록 구성되는 복수의 마이크로폰(100-1~100-n (n은 자연수); 집합적으로 100) 및 음성 처리 장치(200)를 포함할 수 있다.
화자(SPK1~SPK4)는 각 위치(P1~P4)에 위치할 수 있다. 실시 예들에 따라, 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)는 음성을 발화(pronounce)할 수 있다. 예컨대, 제1위치(P1)에 위치한 제1화자(SPK1)는 제1음성을 발화할 수 있고, 제2위치(P2)에 위치한 제2화자(SPK2)는 제2음성을 발화할 수 있고, 제3위치(P3)에 위치한 제3화자(SPK3)는 제3음성을 발화할 수 있고, 제4위치(P4)에 위치한 제4화자(SPK4)는 제4음성을 발화할 수 있다. 한편, 본 발명의 실시 예들이 화자의 수에 한정되는 것은 아니다.
화자(SPK1~SPK4) 각각에 대응하는 화자 단말(ST1~ST4)은 무선 신호를 송신할 수 있다. 실시 예들에 따라, 화자 단말(ST1~ST4)은 화자 단말(ST1~ST4) 각각을 식별하기 위한 단말 ID를 포함하는 무선 신호를 송신할 수 있다. 예컨대, 화자 단말(ST1~ST4)는 ZigBee, Wi-Fi, BLE(bluetooth low energy), UWB(ultra-wideband) 등의 무선 통신 방식에 따라, 무선 신호를 송신할 수 있다.
후술하는 바와 같이, 화자 단말(ST1~ST4)로부터 전송된 무선 신호는 화자 단말(ST1~ST4)의 위치를 계산하는 데 사용될 수 있다.
화자(SPK1~SPK4)의 음성은 복수의 마이크로폰(100)에 의해 수신될 수 있다. 복수의 마이크로폰(100)은 화자(SPK1~SPK4)의 음성을 수신할 수 있는 공간에 배치될 수 있다.
복수의 마이크로폰(100)은 음성과 연관된 음성 신호(VS1~VSn)를 생성할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100) 각각은 음성에 의한 매질(예컨대, 공기)의 압력 변화를 측정하고, 측정된 매질의 압력 변화에 기초하여 전기적인 신호인 음성 신호(VS1~VSn)를 생성하고, 생성된 음성 신호(VS1~VSn)를 출력할 수 있다.
복수의 마이크로폰(100)은 각 위치(P1~P4)에 위치한 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성을 전기적인 신호인 음성 신호(VS1~VSn)로 변환할 수 있다. 예컨대, 제1마이크로폰(100-1)은 화자(SPK1~SPK4)의 음성을 수신하고, 화자(SPK1~SPK4)의 음성과 연관된 제1음성 신호(VS1)를 생성할 수 있다. 제1마이크로폰(100-1)에 의해 생성된 제1음성 신호(VS1)는 적어도 하나 이상의 화자(SPK1~SPK4)의 음성에 대응할 수 있다.
복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 출력할 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다. 예컨대, 복수의 마이크로폰(100)은 유선 방식 또는 무선 방식에 따라 음성 신호들(VS1~VSn)을 음성 처리 장치(200)로 전송할 수 있다.
복수의 마이크로폰(100)은 빔포밍(beamforming) 마이크로 구성되어, 다방향(multi-direction)으로부터 음성을 입력받을 수 있다. 실시 예들에 따라, 복수의 마이크로폰(100)은 서로 이격되어 배치되어, 하나의 마이크 어레이를 구성할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
복수의 마이크로폰(100) 각각은 임의의 특정 방향의 음성을 수신하도록 구성되는 지향성 마이크이거나, 또는, 모든 방향의 음성을 수신하도록 구성되는 무지향성 마이크일 수 있다.
음성 처리 장치(200)는 연산 처리 기능을 갖는 컴퓨팅 장치일 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 컴퓨터, 노트북, 모바일 디바이스, 스마트폰 또는 웨어러블 디바이스로 구현될 수 있으나, 이에 한정되는 것은 아니다. 예컨대, 음성 처리 장치(200)는 연산 처리 기능을 갖는 적어도 하나의 집적 회로를 포함할 수 있다.
음성 처리 장치(200)는 화자 단말(ST1~ST4)로부터 전송된 무선 신호를 수신할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 화자 단말(ST1~ST4)로부터 전송된 무선 신호에 기초하여, 화자 단말(ST1~ST4)의 공간적 위치를 계산하고, 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다.
음성 처리 장치(200)는 단말 위치 데이터와 대응하는 단말 ID를 매칭하여 저장할 수 있다.
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신하고, 입력 음성 데이터로부터 화자(SPK1~SPK4) 각각의 개별적인 음성을 나타내는 음성 데이터를 분리(또는 생성)할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로 부터 전송되는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득할 수 있다.
한편, 본 명세서에서는 음성 처리 장치(200)가 복수의 마이크로폰(100)으로부터 음성 신호들(VS1~VSn)을 수신하여 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 획득하는 것을 가정하고 설명하나, 실시 예들에 따라, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 외부 장치로부터 수신하는 것도 가능하다.
음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치(즉, 음원의 위치)를 결정할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터, 음원의 위치(즉, 화자의 위치)를 나타내는 화자 위치 데이터를 생성할 수 있다.
음성 처리 장치(200)는 음성의 음원의 위치(즉, 화자(SPK1~SPK4)의 위치)를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다.
입력 음성 데이터를 통해 음원의 위치를 추정할 수 있으므로, 각 입력 음성 데이터는 특정 위치에 대응될 수 있다. 이 때, 음성 처리 장치(200)는 화자 위치 데이터에 기초하여, 입력 음성 데이터로부터 특정 위치로부터 발화된 음성과 연관된 출력 음성 데이터를 생성할 수 있다. 즉, 음성 처리 장치(200)는 제1위치에서 발화된 음성과 연관된 제1출력 음성 데이터를 생성할 수 있고, 제1출력 음성 데이터와 매칭된 화자 위치 데이터는 제1위치를 나타낸다.
예컨대, 제1화자(SPK1)와 제2화자(SPK2)가 시간적으로 중첩해서 발화하는 경우, 제1화자(SPK1)와 제2화자(SPK2)의 음성은 중첩되므로, 복수의 마이크로폰(100)에 의해 생성된 음성 신호들(VS1~VSn) 각각은 제1화자(SPK1)와 제2화자(SPK2)의 중첩된 음성과 대응한다. 따라서, 음성 신호들(VS1~VSn)로부터 생성된 입력 음성 데이터 또한 제1화자(SPK1)의 음성과 연관된 음성 데이터와 제2화자(SPK2)의 음성관 연관된 음성 데이터를 포함한다. 상술한 바와 같이, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성을 나타내는 제1출력 음성 데이터와, 제2화자(SPK2)의 음성을 나타내는 제2출력 음성 데이터를 생성할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 입력 음성 데이터를 이용하여 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 대응하는 단말 ID를 결정하고, 결정된 단말 ID와 화자(SPK1~SPK4) 각각의 음성과 연관된 출력 음성 데이터를 서로 매칭하여 저장할 수 있다.
즉, 음성 처리 장치(200)는 화자(SPK1~SPK4) 각각의 음성과 연관된 음성 데이터를, 화자(SPK1~SPK4)의 화자 단말(ST1~ST4)의 단말 ID와 매칭시켜 저장할 수 있고, 이에 따라, 화자(SPK1~SPK4)의 음성과 연관된 음성 데이터는 단말 ID를 통해 식별될 수 있다. 다시 말하면, 다수의 화자가 동시에 음성을 발화하더라도, 음성 처리 장치(200)는 음성 데이터를 화자 별로 분리할 수 있는 효과가 있다.
실시 예들에 따라, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 서버(300)를 더 포함할 수 있고, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 서버(300)로 전송할 수 있다.
실시 예들에 따라, 서버(300)는 출력 음성 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 음성 처리 장치(200)로 전송하고, 음성 처리 장치(200)는 변환된 화자(SPK1~SPK4)의 음성과 연관된 텍스트 데이터를 단말 ID)와 매칭하여 저장할 수 있다. 또한, 서버(300)는 제1언어의 텍스트 데이터를 제2언어의 텍스트 데이터로 변환하여 음성 처리 장치(200)로 전송할 수 있다.
실시 예들에 따라, 본 발명의 실시 예들에 따른 음성 처리 시스템(10)은 스피커(400)를 더 포함할 수 있다. 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 스피커(400)로 전송할 수 있다. 스피커(400)는 화자(SPK1~SPK4)의 음성에 대응하는 음성을 출력할 수 있다.
도 2는 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 1 및 도 2를 참조하면, 음성 처리 장치(200)는 무선 신호 수신 회로(210), 음성 데이터 수신 회로(220), 메모리(230) 및 프로세서(240)를 포함할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 음성 데이터 출력 회로(250)를 선택적으로 더 포함할 수 있다.
무선 신호 수신 회로(210)는 화자 단말(ST1~ST4)로부터 전송된 무선 신호를 수신할 수 있다. 실시 예들에 따라, 무선 신호 수신 회로(210)는 안테나를 포함할 수 있고, 안테나를 통해 화자 단말(ST1~ST4)로부터 전송된 무선 신호를 수신할 수 있다.
음성 수신 회로(220)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다. 실시 예들에 따라, 음성 수신 회로(220)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 수신할 수 있다.
실시 예들에 따라, 음성 수신 회로(220)는 ADC(analog to digital) 컨버터를 포함하고, 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)을 디지털 타입의 입력 음성 데이터로 변환하고, 변환된 입력 음성 데이터를 저장할 수 있다.
실시 예들에 따라, 음성 수신 회로(220)는 무선 통신 방식에 따라 통신 가능한 통신 회로를 포함하고, 통신 회로를 통해 입력 음성 데이터를 수신할 수 있다.
메모리(230)는 음성 처리 장치(200)의 작동에 필요한 데이터를 저장할 수 있다. 실시 예들에 따라, 메모리(230)는 비휘발성 메모리 및 휘발성 메모리 중 적어도 하나를 포함할 수 있다.
프로세서(240)는 음성 처리 장치(200)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 프로세서(240)는 무선 신호 수신 회로(210), 음성 데이터 수신 회로(220), 메모리(230) 및 음성 데이터 출력 회로(250)의 동작을 제어하기 위한 제어 명령을 생성하고, 무선 신호 수신 회로(210), 음성 데이터 수신 회로(220), 메모리(230) 및 음성 데이터 출력 회로(250) 각각으로 전송할 수 있다.
프로세서(240)는 연산 처리 기능을 갖는 집적회로로 구현될 수 있다. 예컨대, 프로세서(240)는 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), GPU(graphics processing unit), ASIC(application specific integrated circuit) 또는 FPGA(field programmable gate array)를 포함할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
본 명세서에서 설명되는 프로세서(240)는 하나 또는 그 이상의 소자로 구현될 수 있다. 예컨대, 프로세서(240)는 복수의 서브 프로세서들을 포함할 수 있다.
프로세서(240)는 무선 신호 수신 회로(210)에 의해 수신된 화자 단말(ST1~ST4)의 무선 신호에 기초하여, 화자 단말(ST1~ST4)의 위치를 측정할 수 있다.
실시 예들에 따라, 프로세서(240)는 화자 단말(ST1~ST4)의 무선 신호의 수신 강도에 기초하여, 화자 단말(ST1~ST4)의 위치를 측정하고, 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다.
실시 예들에 따라, 프로세서(240)는 화자 단말(ST1~ST4)에 포함된 타임 스탬프를 이용하여 무선 신호의 이동 시간(time of flight (TOF))을 계산하고, 계산된 이동 시간에 기초하여 화자 단말(ST1~ST4)의 위치를 측정하고, 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다. 프로세서(240)는 생성된 단말 위치 데이터를 메모리(230)에 저장할 수 있다.
이 외에도, 프로세서(240)는 다양한 무선 통신 방식에 따라 무선 신호에 기초하여 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있으며, 본 발명의 실시 예들이 단말 위치 데이터를 생성하기 위한 구체적인 방식에 한정되는 것은 아니다.
프로세서(240)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK)의 위치(즉, 음성의 음원 위치)를 판단하고, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다. 예컨대, 프로세서(240)는 화자 위치 데이터를 메모리(230)에 저장할 수 있다.
프로세서(240)는 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터를 이용하여 화자(SPK1~SPK)의 위치(즉, 음성의 음원 위치)를 판단하고, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다. 예컨대, 프로세서(240)는 화자 위치 데이터를 메모리(230)에 저장할 수 있다.
프로세서(240)는 복수의 마이크로폰들(100) 사이의 거리, 복수의 마이크로폰들(100) 각각이 화자(SPK1~SPK4)의 음성을 수신한 시점들 사이의 차이, 화자(SPK1~SPK4)의 음성의 크기 중 적어도 하나에 기초하여, 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터로부터 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.
프로세서(240)는 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터에 기초하여, 입력 음성 데이터를 화자의 위치(즉, 음원의 위치)에 따라 분리할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터와 화자 위치 데이터에 기초하여, 입력 음성 데이터로부터 각 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성할 수 있고, 출력 음성 데이터와 해당하는 화자 위치 데이터를 매칭하여 저장할 수 있다.
실시 예들에 따라, 프로세서(240)는 제1화자(SPK1)의 음성 및 제2화자(SPK2)의 음성과 연관된 중첩된 입력 음성 데이터로부터 제1화자(SPK1) 및 제2화자(SPK2) 각각의 위치를 나타내는 화자 위치 데이터를 생성하고, 화자 위치 데이터에 기초하여 중첩된 입력 음성 데이터로부터 제1화자(SPK1)의 음성과 연관된 제1출력 음성 데이터와 제2화자(SPK2)의 음성과 연관된 제2출력 음성 데이터를 생성할 수 있다. 예컨대, 프로세서(240)는 제1출력 음성 데이터와 제1화자 위치 데이터를 매칭하여 저장하고, 제2출력 음성 데이터와 제2화자 위치 데이터를 매칭하여 저장할 수 있다.
프로세서(240)는 음성 데이터에 대응하는 단말 ID를 결정할 수 있다. 실시 예들에 따라, 프로세서(240)는 음성 데이터와 대응하는 화자 위치 데이터가 나타내는 위치와 동일 또는 인접한 위치를 나타내는 단말 위치 데이터를 결정하고, 단말 위치 데이터에 대응하는 단말 ID를 결정할 수 있다. 화자 위치 데이터와 단말 위치 데이터가 동일 또는 인접한 위치를 나타내므로, 화자 위치 데이터에 대응하는 단말 ID는 해당 음성을 발언한 화자의 화자 단말의 단말 ID가 된다. 따라서, 단말 ID를 통해 음성 데이터에 대응하는 화자를 식별할 수 있다.
음성 데이터 출력 회로(250)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다. 실시 예들에 따라, 음성 데이터 출력 회로(250)는 유선 통신 방식 또는 무선 통신 방식에 따라 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 출력할 수 있다.
음성 데이터 출력 회로(250)는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 서버(300) 또는 스피커(400)로 출력할 수 있다.
실시 예들에 따라, 음성 데이터 출력 회로(250)는 DAC(digital to analog) 컨버터를 포함하고, 디지털 타입의 출력 음성 데이터를 아날로그 타입의 음성 신호로 변환하고, 변환된 음성 신호를 스피커(400)로 출력할 수 있다.
실시 예들에 따라, 음성 신호 출력 회로(250)는 통신 회로를 포함하고, 출력 음성 데이터를 서버(300) 또는 스피커(400)로 전송할 수 있다.
음성 데이터 수신 회로(220)에 의해 수신된 화자(SPK1~SPK4)의 음성과 연관된 입력 음성 데이터와, 음성 데이터 출력 회로(250)에 의해 출력되는 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터는 데이터 관점에서 상이할 수 있으나, 동일한 음성을 나타낼 수 있다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동 방법을 나타내는 플로우 차트이다. 도 3을 참조하여 설명되는 작동 방법은 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램의 형태로 구현될 수 있다.
도 1 내지 도 3을 참조하면, 음성 처리 장치(200)는 화자 단말(ST1~ST4)로부터 화자 단말(ST1~ST4)의 단말 ID를 포함하는 무선 신호를 수신할 수 있다(S110). 실시 예들에 따라, 음성 처리 장치(200)는 화자 단말(ST1~ST4)로부터 화자 단말(ST1~ST4)의 단말 ID를 및 화자 식별자를 포함하는 무선 신호를 수신할 수 있다(S110).
음성 처리 장치(200)는 수신된 무선 신호에 기초하여, 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다(S120).
실시 예들에 따라, 음성 처리 장치(200)는 무선 신호의 수신 강도에 기초하여, 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다.
또한, 실시 예들에 따라, 음성 처리 장치(200)는 무선 신호에 포함된 타임 스탬프에 기초하여, 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 화자 단말(ST1~ST4)와 UWB 방식에 따라 통신하고, UWB 측위 기술을 이용하여 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 생성할 수 있다.
음성 처리 장치(200)는 생성된 단말 위치 데이터(TPD)와 단말 ID(TID)를 매칭하여 메모리(230)에 저장할 수 있다(S130). 예컨대, 음성 처리 장치(200)는 제1화자 단말(ST1)의 위치를 나타내는 제1단말 위치 데이터와, 제1화자 단말(ST1)의 제1단말 ID를 매칭하여 저장할 수 있다.
도 4 내지 도 6은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 도 1 내지 도 6을 참조하면, 음성 처리 장치(200)는 화자 단말(ST1~ST4)로부터의 무선 신호를 이용하여, 화자 단말(ST1~ST4)의 단말 ID와 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터를 저장함으로써, 화자 단말(ST1~ST4)의 위치를 사전에 등록 및 저장할 수 있다.
제1화자(SPK1)는 제1위치(P1)에 위치하고, 제2화자(SPK2)는 제2위치(P2)에 위치하고, 제3화자(SPK3)는 제3위치(P3)에 위치하고, 제4화자(SPK4)는 제4위치(P4)에 위치한다. 음성 처리 장치(200)는 화자 단말(ST1~ST4)로부터 전송된 무선 신호를 수신할 수 있다. 무선 신호는 단말 ID(TID)를 포함할 수 있다. 실시 예들에 따라, 무선 신호는 대응하는 화자(SPK1~SPK4)를 식별하기 위한 화자 식별자(SID)를 더 포함할 수 있다. 예컨대, 화자 식별자(SID)는 화자(SPK1~SPK4)에 의한 입력에 따라 화자 단말(TS1~TS4)에 의해 생성된 데이터일 수 있다.
음성 처리 장치(200)는 무선 신호를 이용하여 화자 단말(ST1~ST4)의 위치를 나타내는 단말 위치 데이터(TPD)를 생성할 수 있고, 단말 위치 데이터(TPD)와 대응하는 단말 ID(TID)를 매칭하여 저장할 수 있다.
도 4에 도시된 바와 같이, 제1화자(SPK1)의 제1화자 단말(ST1)로부터 무선 신호가 출력되면, 음성 처리 장치(200)는 제1화자 단말(ST1)의 무선 신호를 수신하고, 수신된 무선 신호에 기초하여 제1화자 단말(ST1)의 위치를 나타내는 제1단말 위치 데이터(TPD1)를 생성할 수 있고, 제1단말 위치 데이터(TPD1)와 제1단말 ID(TID1)를 매칭하여 저장할 수 있다. 실시 예들에 따라, 제1화자 단말(ST1)로부터 무선 신호는 제1화자(SPK1)를 나타내는 제1화자 단말자(SID1)를 더 포함할 수 있고, 음성 처리 장치(200)는 제1단말 위치 데이터(TPD1), 제1단말 ID(TID1) 및 제1화자 식별자(SID1)를 매칭하여 저장할 수 있다.
도 5에 도시된 바와 같이, 제2화자(SPK2)의 제2화자 단말(ST2)로부터 무선 신호가 출력되면, 음성 처리 장치(200)는 제2화자 단말(ST2)의 무선 신호를 수신하고, 수신된 무선 신호에 기초하여 제2화자 단말(ST2)의 위치를 나타내는 제2단말 위치 데이터(TPD2)를 생성할 수 있고, 제2단말 위치 데이터(TPD2)와 제2단말 ID(TID2)를 매칭하여 저장할 수 있다. 실시 예들에 따라, 제2화자 단말(ST2)로부터 무선 신호는 제2화자(SPK2)를 나타내는 제2화자 단말자(SID2)를 더 포함할 수 있고, 음성 처리 장치(200)는 제2단말 위치 데이터(TPD2), 제2단말 ID(TID2) 및 제2화자 식별자(SID2)를 매칭하여 저장할 수 있다.
도 6에 도시된 바와 같이, 제3화자(SPK3)의 제3화자 단말(ST3) 및 제4화자(SPK4)의 제4화자 단말(ST4)로부터 무선 신호가 출력되면, 음성 처리 장치(200)는 제3화자 단말(ST3) 및 제4화자 단말(ST4)의 무선 신호를 수신하고, 수신된 무선 신호에 기초하여 제3화자 단말(ST3)의 위치를 나타내는 제3단말 위치 데이터(TPD3) 및 제4화자 단말(ST4)의 위치를 나타내는 제4단말 위치 데이터(TPD4)를 생성할 수 있다.
음성 처리 장치(200)는 제3단말 위치 데이터(TPD3)와 제3단말 ID(TID3)를 매칭하여 저장할 수 있고, 제4단말 위치 데이터(TPD4)와 제4단말 ID(TID4)를 매칭하여 저장할 수 있다.
도 7은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 나타내는 플로우 차트이다. 도 7을 참조하여 설명되는 작동 방법은 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램의 형태로 구현될 수 있다.
도 1 내지 도 7을 참조하면, 음성 처리 장치(200)는 화자(SPK1~SPK4)의 음성에 관련된 입력 음성 데이터를 수신할 수 있다(S120). 음성 처리 장치(200)는 수신된 입력 음성 데이터를 저장할 수 있다.
예컨대, 음성 처리 장치(200)는 복수의 마이크로폰(100)으로부터 아날로그 타입의 음성 신호들을 수신하고, 음성 신호들로부터 입력 음성 데이터를 획득할 수 있다. 예컨대, 음성 처리 장치(200)는 무선 통신 방식에 따라 입력 음성 데이터를 수신할 수 있다.
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 위치를 나타내는 화자 위치 데이터 및 각 화자의 음성과 연관된 출력 음성 데이터를 생성할 수 있다(S220).
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 입력 음성 데이터와 연관된 음성의 음원의 위치를 계산할 수 있다. 이 때, 음성 데이터의 음원의 위치는 곧 화자(SPK1~SPK4)의 위치가 된다. 음성 처리 장치(200)는 계산된 음원의 위치를 나타내는 화자 위치 데이터를 생성할 수 있다.
음성 처리 장치(200)는 입력 음성 데이터를 이용하여, 화자(SPK1~SPK4)의 음성과 연관된 출력 음성 데이터를 생성할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 화자 위치 데이터에 기초하여, 입력 음성 데이터로부터 화자 위치 데이터에 대응하는 출력 음성 데이터를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 화자 위치 데이터에 기초하여, 입력 음성 데이터로부터 제1위치에 대응하는 제1출력 음성 데이터를 생성할 수 있다. 즉, 제1출력 음성 데이터는 제1위치에 위치한 화자의 음성과 연관된 음성 데이터일 수 있다. 다시 말하면, 음성 처리 장치(200)는 입력 음성 데이터를 위치 별로 분리하여, 각 위치에 대응하는 출력 음성 데이터를 생성할 수 있다.
예컨대, 음성 처리 장치(200)는 화자 위치 데이터와, 화자 위치 데이터에 대응하는 출력 음성 데이터를 매칭하여 저장할 수 있다.
음성 처리 장치(200)는 화자 위치 데이터에 대응하는 단말 ID를 결정할 수 있다(S230). 실시 예들에 따라, 음성 처리 장치(200)는 저장된 단말 위치 데이터 중에서 화자 위치 데이터에 대응하는 단말 위치 데이터를 결정하고, 결정된 단말 위치 데이터와 매칭되어 저장된 단말 ID를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 메모리(230)에 저장된 단말 위치 데이터 중에서, 화자 위치 데이터가 나타내는 위치와 동일 또는 인접한 위치를 나타내는 단말 위치 데이터를, 화자 위치 데이터에 대응하는 단말 위치 데이터로서 결정할 수 있다.
예컨대, 단말 ID는 화자 단말(ST1~ST4)를 식별하기 위한 데이터이고, 화자 단말(ST1~ST4) 각각은 화자(SPK1~SPK4)에 대응하는 것이므로, 화자 위치 데이터에 대응하는 단말 ID는, 화자 위치 데이터에 대응하는 위치에 위치한 화자를 나타낼 수 있다. 예컨대, 제1화자 위치 데이터가 제1위치(P1)를 나타내는 경우, 제1화자 위치 데이터에 대응하는 단말 ID는 제1위치(P1)에 위치한 제1화자(SPK1)의 제1화자 단말(ST1)의 제1단말 ID일 수 있다.
음성 처리 장치(200)는 화자 위치 데이터에 대응하는 단말 ID와, 화자 위치 데이터에 대응하는 출력 음성 데이터를 매칭하여 저장할 수 있다(S240). 예컨대, 음성 처리 장치(200)는 제1화자 위치 데이터에 대응하는 제1단말 ID를 결정하고, 제1단말 ID와 제1화자 위치 데이터에 대응하는 제1출력 음성 데이터를 매칭하여 저장할 수 있다.
예컨대, 상술한 바와 같이, 화자 위치 데이터에 대응하는 단말 ID는, 화자 위치 데이터에 대응하는 위치에 위치한 화자의 화자 단말을 나타낼 수 있다. 또한, 화자 위치 데이터에 대응하는 출력 음성 데이터는 화자 위치 데이터에 대응하는 위치에서의 음성과 연관된다. 따라서, 화자 위치 데이터에 대응하는 단말 ID를 통해, 화자 위치 데이터에 대응하는 출력 음성 데이터의 화자의 화자 단말을 식별할 수 있다. 예컨대, 제1화자 위치 데이터가 제1위치(P1)를 나타내는 경우, 제1화자 위치 데이터에 대응하는 제1출력 음성 데이터는 제1화자(SPK1)의 음성과 연관된 음성 데이터이고, 제1화자 위치 데이터에 대응하는 제1단말 ID는 제1화자 단말(ST1)의 단말 ID이다.
따라서, 본 발명의 실시 예들에 따르면, 입력 음성 데이터로부터 화자 위치 데이터와 화자 위치 데이터에 대응하는 출력 음성 데이터를 생성하고, 화자 위치 데이터와 단말 위치 데이터를 비교하여, 출력 음성 데이터의 화자(또는 화자 단말)을 식별할 수 있는 효과가 있다.
도 8 내지 도 10은 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 설명하기 위한 도면이다. 도 1 내지 도 10을 참조하면, 음성 처리 장치(200)는 단말 위치 데이터(TPD) 및 단말 위치 데이터(TPD)에 대응하는 단말 ID(TID)를 저장할 수 있다. 예컨대, 제1단말 위치 데이터(TPD)는 제1위치(P1)를 나타낼 수 있고, 제1단말 ID(TID1)은 제1화자 단말(ST1)을 식별하기 위한 데이터일 수 있다.
도 8에 도시된 바와 같이, 제1화자(SPK1)가 제1음성 "◎◎◎"을 발화한다. 음성 처리 장치(200)는 제1음성 "◎◎◎"과 연관된 입력 음성 데이터를 수신할 수 있다. 예컨대, 복수의 마이크로폰(100)은 제1음성 "◎◎◎"에 대응하는 음성 신호들(VS1~VSn)을 생성할 수 있고, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 "◎◎◎"에 대응하는 음성 신호들(VS1~VSn)을 수신하고, 음성 신호들(VS1~VSn)로부터 입력 음성 데이터를 생성할 수 있다.
음성 처리 장치(200)는 제1음성 "◎◎◎"과 연관된 입력 음성 데이터를 이용하여, 음성 "◎◎◎"의 음원의 위치, 즉, 제1화자(SPK1)의 제1위치(P1)를 나타내는 제1화자 위치 데이터를 생성할 수 있다.
또한, 음성 처리 장치(200)는 제1화자 위치 데이터를 이용하여, 입력 음성 데이터로부터 제1위치(P1)에서 발화된 음성과 연관된 제1출력 음성 데이터(OVD1)를 생성할 수 있다. 예컨대, 제1출력 음성 데이터(OVD1)는 음성 "◎◎◎"과 연관될 수 있다.
음성 처리 장치(200)는 메모리(230)에 저장된 단말 위치 데이터(TPD) 중에서 제1화자 위치 데이터와 대응하는 제1단말 위치 데이터(TPD1)를 결정할 수 있다. 예컨대, 제1화자 위치 데이터가 나타내는 위치와 제1단말 위치 데이터(TPD1)가 나타내는 위치 사이의 거리는, 기준 거리 미만일 수 있다.
음성 처리 장치(200)는 제1단말 위치 데이터(TPD1)에 매칭되어 저장된 제1단말 ID(TID1)을 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 제1단말 ID(TID1)를 리드할 수 있다.
음성 처리 장치(200)는 제1출력 음성 데이터(OVD1)와 제1단말 ID(TID1)를 매칭하여 저장할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 음성 "◎◎◎"과 연관된 입력 음성 데이터의 수신 시점(예컨대, t1), 제1출력 음성 데이터(OVD1) 및 제1단말 ID(TID1)을 매칭하여 저장할 수 있다.
즉, 음성 처리 장치(200)는 제1위치(P1)에서 발화된 음성 "◎◎◎"과 연관된 제1출력 음성 데이터(OVD1)와 제1단말 ID(TID1)을 매칭하여 저장할 수 있고, 제1단말 ID(TID1)은 제1화자 단말(ST1)을 나타내므로, 사용자는 제1단말 ID(TID1)를 이용하면, 음성 "◎◎◎"은 제1화자(SPK1)로부터 발화되었음을 식별할 수 있다.
도 9을 참조하면, 도 8과 마찬가지로, 음성 처리 장치(200)는 제2화자(SPK2)에 의해 발화된 제2음성 "☆☆☆"과 연관된 입력 음성 데이터를 수신하고, 입력 음성 데이터를 이용하여, 음성 "☆☆☆"의 음원의 위치, 즉, 제2화자(SPK2)의 제2위치(P2)를 나타내는 제2화자 위치 데이터를 생성할 수 있다.
또한, 음성 처리 장치(200)는 제2화자 위치 데이터를 이용하여, 입력 음성 데이터로부터 제2위치(P2)에서 발화된 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)를 생성할 수 있다.
음성 처리 장치(200)는 메모리(230)에 저장된 단말 위치 데이터(TPD) 중에서 제2화자 위치 데이터와 대응하는 제2단말 위치 데이터(TPD2)를 결정하고, 제2단말 위치 데이터(TPD2)에 매칭되어 저장된 제2단말 ID(TID2)을 결정하고, 제2단말 ID(TID2)를 리드할 수 있다. 음성 처리 장치(200)는 음성 "☆☆☆"과 연관된 제2출력 음성 데이터(OVD2)와 제2단말 ID(TID2)를 매칭하여 저장할 수 있다.
도 10을 참조하면, 음성 처리 장치(200)는 제3화자(SPK3)에 의해 발화된 제3음성 "□□□" 및 제4화자(SPK4)에 의해 발화된 제4음성 "△△△"과 연관된 입력 음성 데이터를 수신할 수 있다.
음성 처리 장치(200)는 제3화자(SPK3)의 음성 "□□□"과 제4화자(SPK4)의 음성 "△△△"이 중첩된 음성과 연관된 (중첩된) 입력 음성 데이터를 수신하고, 중첩된 입력 음성 데이터를 이용하여, 제3화자(SPK3)의 제3위치(P3)를 나타내는 제3화자 위치 데이터 및 제4화자(SPK4)의 제4위치(P4)를 나타내는 제4화자 위치 데이터를 생성할 수 있다.
또한, 음성 처리 장치(200)는 제3 및 제4화자 위치 데이터를 이용하여, 중첩된 입력 음성 데이터로부터 제3위치(P3)에서 발화된 음성 "□□□"과(만) 연관된 제3출력 음성 데이터(OVD3) 및 제4위치(P4)에서 발화된 음성 "△△△"과(만) 연관된 제4출력 음성 데이터(OVD4)를 생성할 수 있다.
즉, 음성 처리 장치(200)는 음성 "□□□"과 음성 "△△△"이 중첩된 입력 음성 데이터로부터, 음성 "□□□"과 연관된 제3출력 음성 데이터(OVD3) 및 음성 "△△△"과 연관된 제4출력 음성 데이터(OVD4)를 분리 및 생성할 수 있다.
음성 처리 장치(200)는 메모리(230)에 저장된 단말 위치 데이터(TPD) 중에서 제3화자 위치 데이터와 대응하는 제3단말 위치 데이터(TPD3)를 결정하고, 제3단말 위치 데이터(TPD3)에 매칭되어 저장된 제3단말 ID(TID3)을 결정하고, 제3단말 ID(TID3)를 리드할 수 있다. 음성 처리 장치(200)는 제3화자(SPK3)에 의해 발화된 음성 "□□□"과 연관된 제3출력 음성 데이터(OVD3)와 제3단말 ID(TID3)를 매칭하여 저장할 수 있다.
또한, 음성 처리 장치(200)는 메모리(230)에 저장된 단말 위치 데이터(TPD) 중에서 제4화자 위치 데이터와 대응하는 제4단말 위치 데이터(TPD4)를 결정하고, 제4단말 위치 데이터(TPD4)에 매칭되어 저장된 제4단말 ID(TID4)을 결정하고, 제4단말 ID(TID4)를 리드할 수 있다. 음성 처리 장치(200)는 제4화자(SPK4)에 의해 발화된 음성 "△△△"과 연관된 제4출력 음성 데이터(OVD4)와 제4단말 ID(TID4)를 매칭하여 저장할 수 있다.
본 발명의 실시 예들에 따른 음성 처리 장치(200)는 중첩된 음성과 연관된 입력 음성 데이터로부터, 각 위치의 화자로부터 발화된 음성과 연관된 출력 음성 데이터를 분리할 수 있을 뿐만 아니라, 각 화자의 음성과 연관된 출력 음성 데이터를 해당하는 화자의 화자 단말 ID와 매칭하여 저장할 수 있는 효과가 있다.
도 11은 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 도 11을 참조하면, 음성 처리 장치(200)는 입력 음성 데이터를 수신하고, 입력 음성 데이터를 이용하여 화자 위치 데이터 및 화자 위치 데이터에 대응하는 출력 음성 데이터를 생성하고, 출력 음성 데이터를 이용하여 회의록(MIN)을 생성할 수 있다. 생성된 회의록(MIN)은 문서 파일, 이미지 파일 또는 음성 파일의 형태로 저장될 수 있으나, 이에 한정되는 것은 아니다.
음성 처리 장치(200)는 단말 위치 데이터와 화자 위치 데이터를 비교하여, 화자 위치 데이터에 대응하는 단말 ID를 결정하고, 화자 위치 데이터에 대응하는 출력 음성 데이터와, 화자 위치 데이터에 대응하는 단말 ID를 매칭하여 저장할 수 있다.
또한, 음성 처리 장치(200)는 각 화자 단말 ID에 대응하는 화자를 식별하기 위한 화자 식별자를 별도로 저장할 수 있다. 예컨대, 음성 처리 장치(200)는 제1위치(P1)의 제1화자(SPK1)의 제1화자 단말(ST1)의 제1단말 ID과, 제1화자(SPK1)를 나타내는 제1화자 식별자를 매칭하여 저장할 수 있다. 따라서, 음성 처리 장치(200)는 출력 음성 데이터와 매칭된 단말 ID를 통해, 화자를 식별하기 위한 화자 식별자를 리드함으로써 출력 음성 데이터의 화자를 식별할 수 있다.
음성 처리 장치(200)는 각 화자(SPK1~SPK40의 출력 음성 데이터와, 출력 음성 데이터에 매칭되는 단말 ID(또는 화자 식별자)를 이용하여, 회의록(MIN)을 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 입력 음성 데이터가 수신된 시점을 이용하여, 각 화자의 음성을 시간 순으로 정렬하여 회의록(MIN)을 생성할 수 있다.
도 11에 도시된 바와 같이, 순차적으로, 제1화자(SPK1)가 "◎◎◎"를 발화하고, 제2화자(SPK2)가 음성 "☆☆☆"를 발화하고, 제3화자(SPK3)가 음성 "□□□"을 발화하고, 제4화자(SPK4)가 음성 "△△△"을 발화한다. 제1화자(SPK1) 내지 제4화자(SPK4)의 발화는 시간적으로 중첩될 수 있다.
음성 처리 장치(200)는 음성 "◎◎◎", "☆☆☆", "□□□" 및 "△△△"과 연관된 입력 음성 데이터를 수신하고, 음성 "◎◎◎", "☆☆☆", "□□□" 및 "△△△" 각각에 대한 화자 위치 데이터, 그리고 음성 "◎◎◎", "☆☆☆", "□□□" 및 "△△△" 각각과 연관된 출력 음성 데이터를 생성할 수 있다. 또한, 음성 처리 장치(200)는 음성 "◎◎◎", "☆☆☆", "□□□" 및 "△△△" 각각과 연관된 출력 음성 데이터와 대응하는 단말 ID를 매칭하여 저장할 수 있다.
음성 처리 장치(200)는 서로 매칭되어 저장된 출력 음성 데이터와 단말 ID를 이용하여, 회의록(MIN)을 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 출력 음성 데이터에 대응하는 화자를, 단말 ID에 대응하는 화자로서 기록할 수 있다.
실시 예들에 따라, 음성 처리 장치(200)는 각각의 출력 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터 및 매칭된 단말 ID를 이용하여, 각 텍스트 데이터에 대한 화자가 기록된 회의록(MIN)을 생성할 수 있다. 회의록(MIN)의 텍스트 데이터는 시간 순으로 정렬되어 배치될 수 있다.
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 마이크로폰들 200: 음성 처리 장치
300: 서버 400: 스피커
210: 무선 신호 수신 회로 220: 음성 데이터 수신 회로
230: 메모리 240: 프로세서
250: 음성 데이터 출력 회로

Claims (10)

  1. 화자의 음성과 연관된 입력 음성 데이터를 수신하도록 구성되는 음성 데이터 수신 회로;
    상기 화자의 화자 단말로부터 단말 ID를 포함하는 무선 신호를 수신하도록 구성되는 무선 신호 수신 회로;
    메모리; 및
    상기 무선 신호에 기초하여 상기 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하고, 생성된 단말 위치 데이터와 상기 단말 ID를 매칭하여 상기 메모리에 저장하도록 구성되는 프로세서를 포함하고,
    상기 프로세서는,
    상기 입력 음성 데이터를 이용하여 제1위치를 나타내는 제1화자 위치 데이터 및 상기 제1위치에서 발화된 제1음성과 연관된 제1출력 음성 데이터를 생성하고,
    상기 메모리를 참조하여 상기 제1화자 위치 데이터에 대응하는 제1단말 ID를 리드하고,
    상기 제1단말 ID와 상기 제1출력 음성 데이터를 매칭하여 저장하는,
    음성 처리 장치.
  2. 제1항에 있어서,
    상기 입력 음성 데이터는 복수의 마이크로폰들에 의해 생성된 음성 신호들로부터 생성된 것인,
    음성 처리 장치.
  3. 제2항에 있어서, 상기 프로세서는,
    상기 복수의 마이크로폰들 사이의 거리 및 상기 음성 신호가 상기 복수의 마이크로폰에 의해 수신되는 시점에 기초하여, 상기 제1화자 위치 데이터를 생성하는,
    음성 처리 장치.
  4. 제1항에 있어서, 상기 프로세서는,
    상기 무선 신호의 수신 강도에 기초하여 상기 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하는,
    음성 처리 장치.
  5. 제1항에 있어서, 상기 프로세서는,
    상기 무선 신호에 포함된 타임 스탬프를 이용하여 상기 무선 신호의 이동 시간(time of flight)을 계산하고, 이동 시간에 기초하여 상기 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하는,
    음성 처리 장치.
  6. 제1항에 있어서, 상기 프로세서는,
    상기 메모리를 참조하여, 상기 단말 위치 데이터 중에서 상기 제1화자 위치 데이터와 인접한 위치를 나타내는 제1단말 위치 데이터를 결정하고,
    상기 메모리를 참조하여, 상기 단말 ID 중에서 제1단말 위치 데이터와 매칭되어 저장된 상기 제1단말 ID를 리드하는,
    음성 처리 장치.
  7. 제1항에 있어서, 상기 프로세서는,
    상기 입력 음성 데이터를 이용하여, 제2위치를 나타내는 제2화자 위치 데이터 및 상기 제2위치에서 발화된 제2음성과 연관된 제2출력 음성 데이터를 생성하고,
    상기 메모리를 참조하여, 상기 단말 ID 중 상기 제2화자 위치 데이터에 대응하는 제2단말 ID를 리드하고,
    상기 제2단말 ID와 상기 제2출력 음성 데이터를 매칭하여 저장하는,
    음성 처리 장치.
  8. 음성 처리 장치의 작동 방법에 있어서,
    화자의 음성과 연관된 입력 음성 데이터를 수신하는 단계;
    상기 화자의 화자 단말로부터 단말 ID를 포함하는 무선 신호를 수신하는 단계;
    상기 무선 신호에 기초하여 상기 화자 단말의 위치를 나타내는 단말 위치 데이터를 생성하는 단계;
    생성된 단말 위치 데이터와 상기 단말 ID를 매칭하여 저장하는 단계;
    상기 입력 음성 데이터를 이용하여 제1위치를 나타내는 제1화자 위치 데이터 및 상기 제1위치에서 발화된 제1음성과 연관된 제1출력 음성 데이터를 생성하는 단계;
    상기 저장된 단말 ID 중 상기 제1화자 위치 데이터에 대응하는 제1단말 ID를 리드하는 단계; 및
    상기 제1단말 ID와 상기 제1출력 음성 데이터를 매칭하여 저장하는 단계를 포함하는,
    음성 처리 장치의 작동 방법.
  9. 제8항에 있어서, 상기 입력 음성 데이터를 수신하는 단계는,
    복수의 마이크로폰들로부터 음성 신호들을 수신하는 단계; 및
    수신된 음성 신호들을 ADC(analog to digital) 변환하여, 상기 입력 음성 데이터를 획득하는 단계를 포함하는,
    음성 처리 장치의 작동 방법.
  10. 제8항에 있어서, 상기 음성 처리 장치의 작동 방법은,
    상기 입력 음성 데이터를 이용하여, 제2위치를 나타내는 제2화자 위치 데이터 및 상기 제2위치에서 발화된 제2음성과 연관된 제2출력 음성 데이터를 생성하는 단계;
    상기 단말 ID 중 상기 제2화자 위치 데이터에 대응하는 제2단말 ID를 리드하는 단계; 및
    상기 제2단말 ID와 상기 제2출력 음성 데이터를 매칭하여 저장하는 단계를 더 포함하는,
    음성 처리 장치의 작동 방법.
KR1020200105331A 2020-08-21 2020-08-21 음성 처리 장치 및 음성 처리 장치의 작동 방법 KR20220023511A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200105331A KR20220023511A (ko) 2020-08-21 2020-08-21 음성 처리 장치 및 음성 처리 장치의 작동 방법
PCT/KR2021/011205 WO2022039578A1 (ko) 2020-08-21 2021-08-23 화자들의 음성을 처리하기 위한 음성 처리 장치
US18/022,498 US20230260509A1 (en) 2020-08-21 2021-08-23 Voice processing device for processing voices of speakers

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200105331A KR20220023511A (ko) 2020-08-21 2020-08-21 음성 처리 장치 및 음성 처리 장치의 작동 방법

Publications (1)

Publication Number Publication Date
KR20220023511A true KR20220023511A (ko) 2022-03-02

Family

ID=80815815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200105331A KR20220023511A (ko) 2020-08-21 2020-08-21 음성 처리 장치 및 음성 처리 장치의 작동 방법

Country Status (1)

Country Link
KR (1) KR20220023511A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160091725A (ko) 2015-01-26 2016-08-03 삼성전자주식회사 음성 인식 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160091725A (ko) 2015-01-26 2016-08-03 삼성전자주식회사 음성 인식 방법 및 장치

Similar Documents

Publication Publication Date Title
JP6520878B2 (ja) 音声取得システムおよび音声取得方法
US9899028B2 (en) Information processing device, information processing system, information processing method, and information processing program
JP6402748B2 (ja) 音声対話装置および発話制御方法
US11170774B2 (en) Virtual assistant device
KR101989127B1 (ko) 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
JP6800809B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR102161554B1 (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
KR20220023511A (ko) 음성 처리 장치 및 음성 처리 장치의 작동 방법
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
WO2019187521A1 (ja) 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ
KR20200050152A (ko) 다중 기기를 음성 인식 시스템 및 그 제어 방법
JP7314975B2 (ja) 音声操作装置及びその制御方法
KR20220022674A (ko) 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법
JP7176194B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
KR102575293B1 (ko) 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법
US20230377594A1 (en) Mobile terminal capable of processing voice and operation method therefor
JP5929810B2 (ja) 音声解析システム、音声端末装置およびプログラム
US20230325608A1 (en) Voice processing device for processing voice signal and voice processing system comprising same
KR20200003529A (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
KR20220007302A (ko) 음성 신호들을 화자에 따라 분리하기 위한 음성 분리 장치 및 음성 분리 방법
KR20200081274A (ko) 음성을 인식하는 장치 및 방법
KR20190092168A (ko) 보이스 리스폰스를 제공하는 방법 및 그 장치
KR20220043279A (ko) 음성 처리 장치 및 이를 포함하는 음성 처리 시스템
US20230377593A1 (en) Speech processing device and operation method thereof
WO2021028758A1 (ja) 音響装置、及びその動作方法

Legal Events

Date Code Title Description
A201 Request for examination