KR101888391B1

KR101888391B1 - 음성 신호 관리 방법 및 이를 제공하는 전자 장치

Info

Publication number: KR101888391B1
Application number: KR1020140115394A
Authority: KR
Inventors: 손백권; 김강열; 이남일; 황호철; 금종모; 배민호
Original assignee: 삼성전자 주식회사
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2018-08-14
Also published as: EP2991372B1; US9601132B2; US20160066083A1; US20180166091A1; EP3361749A1; KR20160026457A; US20160163329A1; CN105391837A; CN105764003A; EP2991372A1; US9947339B2

Abstract

음성 신호 관리 방법 및 이를 제공하는 전자 장치가 개시된다. 본 개시의 다양한 실시 예에 따른 음성 신호 관리 방법은 적어도 하나의 마이크로 음성 녹음을 실행하고 상기 적어도 하나의 마이크로 입력되는 음성 신호로 화자가 위치한 각도를 검출하고 상기 음성 신호와 상기 각도를 저장하는 동작을 포함할 수 있다.

Description

음성 신호 관리 방법 및 이를 제공하는 전자 장치{METHOD FOR MANAGING AUDIO SIGNAL AND ELECTRONIC DEVICE IMPLEMENTING THE SAME}

본 개시의 다양한 실시 예는 화자의 방향을 파악하고 적어도 하나의 마이크를 이용하여 상기 방향으로부터 음성을 녹음하고 특정 화자 또는 방향의 선택을 인식한 경우, 상기 화자 또는 상기 방향의 음성 신호를 재생하는 음성 신호 관리 방법 및 이를 제공하는 전자 장치에 관한 것이다.

최근 전자 장치는 사용자에게 통화나 메시지 전송과 같은 기본적인 기능을 제공하는 것을 넘어서 상대방의 음성을 녹음하거나 통화 중인 상태에서 상대방의 음성을 녹음하는 기능을 제공한다.

전자 장치는 음성을 녹음하기 위해 마이크를 포함하고 있다. 음성 녹음을 보다 집중적으로 녹음하기 위해 전자 장치는 복수 개의 마이크를 포함한다. 복수 개의 마이크는 화자의 방향을 파악하고 상기 방향으로 빔을 구현하여 화자의 방향에서 발생하는 음성을 집중적으로 녹음한다. 상기 빔은 마이크들에 가중치를 주어 음성 신호의 진폭을 키움으로써 구현될 수 있다.

하지만, 화자 방향의 음성 신호를 집중적으로 받아들이고 빔을 구현하여 화자별로 음성 신호를 녹음하는 것은 가능하나, 다수의 화자로부터 녹음된 음성 신호를 출력할 때에는 특정 음성 신호를 발생시킨 화자를 구별하기가 불가능하다.

상기의 문제점을 해결하기 위해 본 개시의 다양한 실시 예들은 멀티 마이크를 이용하여 화자 방향을 검출하고, 빔을 형성하여 화자별로 음성 신호를 녹음하고, 화자별로 음성 신호를 재생할 수도 있다.

본 개시의 다양한 실시 예에 따른 음성 신호 관리 방법은 적어도 하나의 마이크로 음성 녹음을 실행하고 상기 적어도 하나의 마이크로 입력되는 음성 신호로 화자가 위치한 각도를 검출하고 상기 음성 신호와 상기 각도를 저장하는 동작을 포함할 수 있다.

본 개시의 다양한 실시 예에 따른 전자 장치는, 음성 신호를 수신하는 적어도 하나의 마이크와 상기 음성 신호를 출력하는 스피커와 적어도 하나의 마이크로 음성 녹음을 실행하고 상기 적어도 하나의 마이크로 입력되는 음성 신호로 화자가 위치한 각도를 검출하고 상기 음성 신호와 상기 각도를 저장하도록 처리하는 제어부를 포함할 수 있다.

본 개시의 다양한 실시 예들에 따른 음성 신호 관리 방법 및 이를 제공하는 전자 장치는 화자의 방향을 인식하고 화자별로 음성 신호를 녹음할 수 있다. 화자별로 음성 신호가 녹음됨으로써, 화자별로 음성 신호를 재생할 수도 있으며 부가적으로 화자 인식 기능을 사용하여 누가 어떤 내용을 말했는지도 파악할 수 있다.

도 1은 본 개시의 다양한 실시 예들에 따른 전자 장치의 블록도이다.
도 2는 본 개시의 다양한 실시 예들에 따른 화자 위치 검출 방법을 나타내는 순서도이다.
도 3은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 순서도이다.
도 4는 본 개시의 다양한 실시 예들에 따른 음성 신호가 녹음되는 과정을 나타내는 예시도이다.
도 5는 본 개시의 다양한 실시 예들에 따른 저장된 음성 신호를 나타내는 예시도이다.
도 6은 본 개시의 다양한 실시 예들에 따른 녹음된 음성 신호가 재생되는 과정을 나타내는 예시도이다.
도 7은 본 개시의 다양한 실시 예들에 따른 재생된 음성 신호를 나타내는 예시도이다.
도 8은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 순서도이다.
도 9는 본 개시의 다양한 실시 예들에 따른 음성 신호가 녹음되는 과정을 나타내는 예시도이다.
도 10은 본 개시의 다양한 실시 예들에 따른 저장된 음성 신호를 나타내는 예시도이다.
도 11은 본 개시의 다양한 실시 예들에 따른 녹음된 음성 신호가 재생되는 과정을 나타내는 예시도이다.
도 12는 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 순서도이다.
도 13은 본 개시의 다양한 실시 예들에 따른 음성 신호가 녹음되는 과정을 나타내는 예시도이다.
도 14는 본 개시의 다양한 실시 예들에 따른 저장된 음성 신호를 나타내는 예시도이다.
도 15는 본 개시의 다양한 실시 예들에 따른 녹음된 음성 신호가 재생되는 과정을 나타내는 예시도이다.
도 16은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 예시도이다.
도 17은 본 개시의 다양한 실시 예들에 따른 음성 재생 방법을 나타내는 예시도이다.
도 18은 본 개시의 다양한 실시 예들에 따른 음성 재생 방법을 나타내는 예시도이다.
도 19는 본 개시의 다양한 실시 예들에 따른 화자 인식을 나타내는 예시도이다.
도 20은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 예시도이다.
도 21은 본 개시의 다양한 실시 예들에 따른 음성 재생 방법을 나타내는 예시도이다.

이하, 첨부된 도면을 참조하여 본 개시(present disclosure)를 설명한다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 개시 가운데 사용될 수 있는"포함한다" 또는 "포함할 수 있다" 등의 표현은 개시된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "또는" 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, "A 또는 B"는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.

본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 개시에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 개시에 따른 전자 장치는 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smartwatch))중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSync™, 애플TVT™, 또는 구글 TV™), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller's machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 본 개시에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 개시에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.

이하, 첨부된 도면을 참조하여 다양한 실시예에 따른 전자 장치에 대해서 살펴본다. 다양한 실시예에서 이용되는 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 본 개시의 다양한 실시 예들에 따른, 전자 장치의 블록도이다. 도 1을 참조하면, 전자 장치 100은 제어부 110, 마이크부 130, 스피커 140, 메모리 160 및 통신부 180을 포함할 수 있다. 제어부 110은 전자 장치 100의 전반적인 동작 및 전자 장치 100의 내부 구성 간의 신호 흐름을 제어하고 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 예를 들어, 제어부 110은 중앙 처리 장치(central processing unit: CPU), 어플리케이션 프로세서(application processor: AP) 등으로 형성될 수 있다. 또한, 제어부 110은 싱글 코어 프로세서(single-core processor) 또는 멀티 코어 프로세서(multi-core processor)로 형성될 수 있다.

본 개시의 실시 예에 따른 제어부 110은 화자 위치 검출부 111, 빔포밍 구현부 113, PCM(pulse code modulation) 파일 생성부 117, 압축부 121, 압축 해제부 123, 및 사용자 각도 선택부 127를 포함할 수 있다.

화자 위치 검출부 111은 복수개의 마이크들 130로부터 수신한 음성 신호들 중 가장 에너지가 큰 음성 신호의 방향을 찾아낼 수 있다. 여기서 방향은 각도 정보일 수 있다. 화자 위치 검출부 111은 마이크 간의 에너지 정보, 위상 정보, 상관 정보 등을 이용하여 현재 화자가 말하고 있는 방향을 알 수 있다. 화자 위치 검출부 111은 다수의 화자가 동시에 말할 경우, 화자가 발생시키는 음성 신호의 에너지 크기 순으로 각도 정보를 파악할 수 있다.

빔포밍 구현부 113은 마이크들에 가중치를 주어 음성 신호의 진폭을 키움으로써 원하는 음성 신호와 잡음 신호의 방향이 다른 경우에 관련 잡음을 공간적으로 줄일 수 있는 빔을 형성할 수 있다.

빔을 형성하는 이유는 음원에서 발생하는 음파는 각각의 마이크에 도착하기까지의 거리가 각각 다르다. 음파는 속도를 가지고 있고 따라서 각 마이크들까지 음파가 도착하는 데에는 그 거리만큼의 시간차가 생기게 된다. 그러나 이러한 시간차를 제외하면 동일한 음원에서 발생하는 음파는 각 마이크에서 동일한 파형으로 읽혀진다. 결국, 음원의 위치를 알면 음파의 도달 시간차를 계산해 보정시켜 줌으로써 파형을 일치시킬 수 있는 것이다.

따라서, 빔포밍 구현부 113은 복수 개의 마이크들을 통해 입력되는 각 음성 신호의 딜레이 및 레벨을 조절함으로써 녹음 영역을 나타내는 빔을 조절할 수 있다.

PCM 파일 생성부 117은, 마이크부 130의 복수개의 마이크들로부터 입력된 음성 신호를 PCM 파일 형태로 생성할 수 있다. 여기서, PCM 파일은 아날로그 신호인 음성 신호를 디지털 신호로 변조하여 저장한 파일을 의미한다. 아날로그 신호를 변조하지 않고 그대로 저장하면 잡음의 영향을 받기 때문에 디지털 신호로 변조하여 저장한다. 생성된 PCM 파일은 D/A 컨버터로 전송될 수 있다. D/A 컨버터는 디지털 신호를 아날로그 신호로 변조하는 역할을 할 수 있다. D/A 컨버터를 통해 PCM 파일은 아날로그 파일로 변조가 되고 아날로그 파일로 변조된 음성 신호는 최종적으로 스피커 140로 전달되어 사용자에게 출력될 수 있다.

압축부 121 (coder) 는 디지털 신호로 변조된 음성 신호의 저장 용량을 줄이기 위해 코덱(codec)을 이용하여 녹음된 음성 신호를 압축된 파일 형태로 저장할 수 있다. 압축부 121은 녹음된 음성 신호와 함께 화자 위치 검출부 111로부터 화자의 각도 정보를 수신하여 이와 대응하는 음성 신호와 함께 압축할 수 있다.

압축 해제부 123(decoder)은, 압축부 121을 통해 압축된 파일을 해제할 수 있다.

사용자 각도 선택부 127은, 사용자의 각도 선택을 인식할 수 있다. 사용자 각도 선택부 127은 사용자가 각도뿐만 아니라 화자를 선택해도 이를 인식할 수 있다. 만약, 사용자 각도 선택부 127은 사용자로부터 B라는 화자 또는 B라는 화자와 매핑되어 있는 90˚의 음성 신호만을 듣고 싶어할 경우, B라는 화자 또는 90˚를 선택할 수 있다. 사용자는 이를 리스트 형식 또는 특정 UI에서 선택할 수 있다.

마이크부 130은 복수 개의 마이크들을 포함할 수 있다. 적어도 하나 이상의 마이크들은 음성 신호를 수신할 수 있다. 수신된 음성 신호는 제어부 110에 의해 녹음될 수 있고 또한 화자의 위치를 계산하는데 사용될 수 있다.

스피커 140은 적어도 하나의 마이크로 수신된 음성 신호를 재생할 수 있다. 재생되는 음성 신호는 사용자의 선택에 따라 제어부 110가 재생하라고 명령한 음성 신호일 수 있다.

터치스크린 150은 제어부 110의 사용자 각도 선택부 127로부터 각도 정보들을 수신하여 표시할 수 있다. 여기서 각도 정보는 메모리 160에 저장되어 있는 각도 정보이고, 각각의 각도 정보들은 메모리 160에 이와 대응하는 음성 신호들과 함께 파일로 저장되어 있을 수 있다. 터치스크린 150은 표시된 각도 중 사용자가 적어도 하나의 선택을 인식하고, 선택된 각도를 사용자 각도 선택부 127로 전달할 수 있다.

또한, 터치스크린 150은 제어부 110으로부터 녹음된 음성 신호 리스트를 수신할 수 있다. 터치스크린 150은 수신된 녹음된 음성 신호 리스트를 표시할 수 있다. 터치스크린 150은 제어부 110으로부터 특정 화자의 음성 신호를 STT기능을 사용하여 텍스트로 변환된 데이터를 수신하고 이를 표시할 수 있다. 이를 통해 사용자는 음성 신호를 시각적으로도 확인할 수 있게 된다.

메모리 160은 내장 메모리(internal memory) 및 외장 메모리(External Memory) 중 적어도 하나를 포함할 수 있다.

내장 메모리는, 예를 들어, 휘발성 메모리(예를 들면, DRAM(dynamic random access memory), SRAM(static random access memory), SDRAM(synchronous dynamic random access memory) 등), 비휘발성 메모리(예를 들면, OTPROM(one time programmable read only memory), PROM(programmable read only memory), EPROM(erasable and programmable read only memory), EEPROM(electrically erasable and programmable read only memory), mask read only memory, flash read only memory 등), 하드 디스크 드라이브(HDD: hard disk drive) 또는 솔리드스테이트 드라이브(SSD) 중 적어도 하나를 포함할 수 있다.

외장 메모리는, 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 및 memory stick 중 적어도 하나를 포함할 수 있다. 메모리 160은 압축부 121에 의해 압축된 음성 파일을 저장할 수 있다.

통신부 180은 전자 장치 100 와 외부 전자 장치간의 통신을 연결할 수 있다. 예를 들면, 통신부 180은 무선 통신 또는 유선 통신을 통해서 네트워크에 연결되어 상기 외부 장치와 통신할 수 있다. 무선 통신은, 예를 들어, Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication)등을 포함할 수 있다. 또한, 무선 통신은 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 예를 들어, 상기 유선 통신은, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.

도 2는 본 개시의 다양한 실시 예들에 따른 화자 위치 검출 방법을 나타내는 순서도이다.

도 2를 참조하면, 제어부 110은 동작 201에서 음성 녹음을 실행할 수 있다. 제어부 110은 사용자의 요청을 인식하여 음성 녹음을 실행할 수도 있다. 동작 203에서 제어부 110은 복수 개의 마이크 신호로 이루어진 복수 개의 각도를 설정할 수 있다. 여기서 복수 개의 각도란, 수신할 음성 신호의 각도를 의미한다. 이는 예를 들어, 제어부 110은 복수 개의 각도를 90도 간격 즉, 0˚, 90˚, 180˚, 270˚로 설정하여 수신한 음성 신호를 상기 각도들에 매핑하여 지정할 수 있다. 예를 들어, 제어부 110은 4개의 마이크로부터 음성 신호를 수신하여 마이크 간의 에너지 정보, 위상 정보, 상관 정보 등을 이용하여 화자의 위치를 파악할 수 있다. 제어부 110가 만약 화자의 위치를 80도라고 파악한 경우 상기 화자의 위치를 설정된 각도들 중 상대적으로 가장 근사값인 90˚로 지정할 수 있다.

동작 205에서 제어부 110은 마이크부 130의 복수의 마이크들을 통해 복수의 음성 신호들을 수신할 수 있다.

동작 207에서 제어부 110은 수신되는 복수의 음성 신호들을 수신한 복수의 마이크들로부터 가장 큰 에너지를 갖는 음성 신호를 추출하고 상기 음성 신호가 발생한 각도를 검출할 수 있다. 동작 207에서 제어부 110은 검출된 각도를 설정된 각도에 매칭하여 저장할 수 있다. 만약, 제어부 110가 가장 큰 에너지를 갖는 음성 신호를 160˚의 각도에서 수신했다고 판단한 경우, 상기 음성 신호는 상대적으로 가장 근접한 180˚에 매핑될 수 있다.

동작 209에서 제어부 110은 검출되지 않은 각도가 존재하는지 판단할 수 있다. 예를 들어, 제어부 110은 동작 203에서 90˚의 각도로 4개의 음성 신호를 수신한다고 설정했기 때문에 동작 207에서 하나의 음성 신호를 수신하여 총 3개의 검출되지 않은 각도가 존재할 수 있다. 제어부 110은 검출되지 않은 각도가 존재한다고 판단한 경우, 동작 211로 진행할 수 있다. 동작 211에서 제어부 110은 검출된 음성 신호를 제외한 나머지 음성 신호들 중에서 가장 큰 에너지를 갖는 음성 신호의 각도를 검출할 수 있다. 예를 들어, 검출된 음성 신호의 각도가 90˚인 경우 상기 음성 신호는 90˚에 매핑될 수 있다.

동작 211에서, 제어부 110은 나머지 음성 신호들 중에서 가장 큰 에너지를 갖는 음성 신호의 각도를 검출하고 동작 209로 복귀할 수 있다.

만약, 제어부 110은 상기와 같은 과정을 반복하여 동작 209에서 설정한 각도가 모두 검출되었을 경우 즉, 검출되지 않은 각도가 존재하지 않다고 판단한 경우, 종료할 수 있다.

도 3은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 순서도이다. 도 4는 본 개시의 다양한 실시 예들에 따른 음성 신호가 녹음되는 과정을 나타내는 예시도이다.

도 3의 동작 설명을 도 4의 신호의 흐름과 함께 설명한다. 동작 301에서 제어부 110은 음성 녹음을 실행할 수 있다. 제어부 110은 사용자의 요청을 인식하여 음성 녹음을 실행할 수도 있다. 도 4에 도시된 3개의 마이크부 130의 마이크들은 제어부 110에 의해 전원이 가해지고 마이크로부터 음성 신호를 수신할 수 있다. 3개의 A/D 컨버터 410 들은 복수 개의 마이크들로부터 수신된 각각의 음성 신호들을 디지털 파일로 변조할 수 있다. 3개의 A/D 컨버터 410 들은 디지털 파일로 변조된 음성 신호들을 제어부 110으로 전달할 수 있다.

동작 303에서 제어부 110은 화자 위치를 검출할 수 있다. 즉, 제어부 110은 음성 신호가 들어왔을 시에 상기 음성 신호에 대응하는 각도를 파악할 수 있도록 할 수 있다. 동작 305에서 제어부 110은 3개의 마이크 중 하나를 선택할 수 있다. 여기서 3개의 마이크는 무지향성 마이크일 수 있다. 동작 307에서 제어부 110은 선택된 마이크로 음성 신호를 녹음할 수 있다. 동작 309에서 PCM 파일 생성부 117와 화자 위치 검출부는 A/D 컨버터 410으로부터 디지털 신호로 변환된 음성 신호를 수신할 수 있다. 제어부 110의 압축부 121은 PCM 파일 생성부 117로부터 PCM 파일로 변환된 음성 신호와 화자 위치 검출부 111로부터 수신된 각도 정보를 매칭 및 압축할 수 있다. 또한, 제어부 110의 압축부 121은 수신된 음성 신호의 시간 정보도 함께 압축하여 음성 파일 형태로 생성할 수 있다. 시간 정보는 몇 시간 동안 녹음이 되었는지, 언제부터 언제까지 녹음이 되었는지 등을 의미할 수 있다. 제어부 110의 압축부 121은 압축된 음성 파일을 메모리 160에 전달하여 저장할 수 있다.

도 5는 본 개시의 다양한 실시 예들에 따른 저장된 음성 신호를 나타내는 예시도이다.

도 5를 참조하면, 도 3의 동작을 수행하여 녹음된 파일이며, 도 5에서 가로축은 시간을 나타내고 단위는 sec 일 수 있다. 또한, 세로축은 음성 신호의 크기를 나타내며 단위는 db (decibel, 데시벨)일 수 있다. 도 5는 여러 각도들에 각각 대응하는 음성 신호들이 하나의 파일로 저장되었음을 나타낼 수 있다. 각도별 음성 신호 그리고 각각 음성 신호를 수신한 각도가 함께 저장됨을 보여준다. 또한, 각각의 음성 신호들이 녹음된 시간도 함께 저장됨을 보여준다. 녹음된 시간은 파일에서 각각의 화자의 음성 신호가 차지하는 구간의 길이로 나타내질 수 있다.

녹음된 파일을 참조하면, 0˚라는 각도 520a에서 음성 신호 A 510a를 발생시켰음을 알 수 있다. 90˚라는 각도 520b에서 음성 신호 B 510b를 발생시켰음을 알 수 있다. 180˚라는 각도 520c에서 음성 신호 C 510c를 발생시켰음을 알 수 있다. 270˚라는 각도 520d에서 음성 신호 D 510d를 발생시켰음을 알 수 있다. 음성 신호 A의 구간과 음성 신호 B의 구간을 참조하면, 음성 신호 A 510a의 구간이 음성 신호 B 510b의 구간보다 짧음을 알 수 있다. 이는 음성 신호 A 510a가 녹음된 시간이 음성 신호 B 510b 녹음시간보다 짧다는 것을 의미할 수 있다.

도 6은 본 개시의 다양한 실시 예들에 따른 녹음된 음성 신호가 재생되는 과정을 나타내는 예시도이다.

도 6을 참조하면, 제어부 110은 메모리 160으로부터 압축되어 저장된 음성 파일을 수신할 수 있다. 제어부 110은 압축된 음성 파일을 압축 해제부 123으로 전달할 수 있다. 또한, 제어부 110은 압축된 음성 파일에서 각도 정보들을 사용자 각도 선택부 127로 전달할 수 있다. 사용자 각도 선택부 127은 터치 스크린 150으로 각도 정보들을 전달할 수 있다. 터치스크린 150은 사용자가 적어도 하나 선택하도록 각도들을 표시할 수 있다. 터치스크린 150은 선택된 각도를 사용자 각도 선택부 127로 전달할 수 있다. 사용자 각도 선택부 127은 사용자로부터 선택된 각도를 PCM 파일 생성부 117로 전달할 수 있다. PCM 파일 생성부 117은 선택된 각도에 대응하는 음성 신호만을 PCM 파일로 생성하고 이를 D/A 컨버터로 전달할 수 있다.

D/A 컨버터 610은 디지털 신호인 PCM 파일을 스피커 140으로 전달하여 출력하기 위해 아날로그 신호로 변환할 수 있다. D/A 컨버터 610은 변환된 음성 신호를 스피커 140으로 전달하고, 스피커 140은 상기 음성 신호를 출력할 수 있다.

도 7은 본 개시의 다양한 실시 예들에 따른 재생된 음성 신호를 나타내는 예시도이다.

도 7은 재생됨 음성 신호를 나타내며, 가로축은 시간을 나타내고 단위는 sec 일 수 있다. 또한, 세로축은 음성 신호의 크기를 나타내며 단위는 db (decibel, 데시벨)일 수 있다. 사용자에 의해 각도 520b인 90˚의 음성 신호만을 듣고자 한 경우, 전체 파일 중에 각도 520b인 90˚에서 음성 신호를 발생시킨 음성 신호 510b가 재생됨을 나타낼 수 있다. 이외의 각도에 해당되는 음성 신호는 출력되지 않음을 나타낼 수 있다. 만약, 제어부 110가 사용자로부터 180˚의 음성 신호를 재생하려는 선택을 인식한다면, 제어부 110은 전체 파일 중에 180˚에서 발생시킨 음성 신호만을 재생할 수 있다.

도 8은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 순서도이다. 도 9는 본 개시의 다양한 실시 예들에 따른 음성 신호가 녹음되는 과정을 나타내는 예시도이다.

도 8의 동작 설명을 도 9의 신호의 흐름과 함께 설명한다. 동작 801에서 제어부 110은 음성 녹음을 실행할 수 있다. 제어부 110은 사용자의 요청을 인식하여 음성 녹음을 실행할 수도 있다. 도 9에 도시된 바와 같이 3개의 마이크들은 제어부 110에 의해 전원이 가해지고 마이크로부터 음성 신호를 수신할 수 있다. 3개의 A/D 컨버터 910들은 복수 개의 마이크들로부터 수신된 각각의 음성 신호들을 디지털 파일로 변조할 수 있다. 3개의 A/D 컨버터 910들은 디지털 파일로 변조된 음성 신호들을 제어부 110으로 전달할 수 있다.

동작 803에서 제어부 110은 화자의 위치를 검출할 수 있다 즉, 제어부 110은 음성 신호가 들어 왔을 시에 상기 음성 신호에 대응하는 각도를 파악할 수 있도록 한다. 도 9에 도시된 바와 같이 마이크로부터 수신된 음성 신호는 A/D 컨버터 910을 통해 디지털로 변조된 후 화자 위치 검출부 111로 전달된다. 화자 위치 검출부 111은 수신된 음성 신호에 대응하는 각도를 파악하고 빔포밍 구현부 113으로 상기 각도에 대한 정보를 전달할 수 있다.

동작 805에서 제어부 110의 빔포밍 구현부 113은 검출된 화자의 각도로 빔을 형성할 수 있다. 만약, 동시에 마이크로 다른 각도에서 음성 신호가 수신될 경우, 빔포밍 구현부 113은 가장 큰 에너지를 갖는 음성 신호가 발생한 각도로 빔을 형성할 수 있다. 동작 807에서 제어부 110은 빔을 형성함으로써 녹음된 음성 신호와 이에 대응하는 각도 정보 및 시간 정보를 저장할 수 있다.

동작 809에서 제어부 110은 화자의 각도가 변경되었는지 판단할 수 있다. 화자의 각도가 변경되었는지는 화자 위치 검출부 111가 수신된 음성 신호의 각도를 파악해서 판단할 수 있다. 만약 제어부 110의 화자 위치 검출부 111가 수신한 음성 신호의 각도 즉, 화자의 각도가 변경되었다고 판단한 경우 다시 동작 803으로 복귀할 수 있다. 만약 제어부 110의 화자 위치 검출부 111가 화자의 각도가 변경되지 않았다고 판단한 경우 동작 805로 진행할 수 있다.

도 9에 도시된 바와 같이 제어부 110의 빔포밍 구현부 113은 PCM 파일 생성부 117로 빔을 구현하여 획득한 음성 신호를 전달할 수 있다. 제어부 110의 PCM 파일 생성부 117은 빔포밍 구현부 113으로부터 전달된 음성 신호를 PCM 파일로 변환하고 이를 압축부 117로 전달할 수 있다. 동작 809에서 압축부 117은 PCM 파일과 화자 위치 검출부 111로부터 수신된 각도 정보를 압축하여 음성 파일을 생성할 수 있다. 또한, 제어부 110의 압축부 117은 음성 파일에 수신된 음성 신호의 시간 정보도 함께 압축할 수 있다. 압축부 117은 압축된 음성 파일을 메모리 160에 저장할 수 있다.

도 10은 본 개시의 다양한 실시 예들에 따른 저장된 음성 신호를 나타내는 예시도이다.

도 10을 참조하면, 도 8의 동작을 수행하여 녹음된 파일이며, 가로축은 시간을 나타내고 단위는 sec 일 수 있다. 또한, 세로축은 음성 신호의 크기를 나타내며 단위는 db (decibel, 데시벨)일 수 있다. 각각의 각도의 음성 신호들이 하나의 파일로 저장되었음을 나타낼 수 있다. 빔포밍으로 수신된 각 각도별 음성 신호 그리고 각각 음성 신호를 수신한 각도가 함께 저장됨을 보여준다. 또한, 각각의 음성 신호들이 녹음된 시간도 함께 저장됨을 보여준다. 녹음된 시간은 파일에서 각각의 화자의 음성 신호가 차지하는 구간의 길이로 나타내질 수 있다.

녹음된 파일을 참조하면, 0˚라는 각도 1020a에서 음성 신호 A 1010a를 발생됐음을 알 수 있다. 90˚라는 각도 1020b에서 음성 신호 B 1010b를 발생됐음을 알 수 있다. 180˚라는 각도 1020c에서 음성 신호 C 1010c를 발생됐음을 알 수 있다. 270˚라는 각도 1020d에서 음성 신호 D 1010d를 발생됐음을 알 수 있다. 음성 신호 A 1010a의 구간과 음성 신호 B 1010b의 구간을 참조하면, 음성 신호 A 1010a의 구간이 음성 신호 B 1010b의 구간보다 짧음을 알 수 있다. 이는 음성 신호 A 1010a가 녹음된 시간이 음성 신호B 1010b의 녹음시간보다 짧다는 것을 의미할 수 있다.

도 11은 본 개시의 다양한 실시 예들에 따른 녹음된 음성 신호가 재생되는 과정을 나타내는 예시도이다.

도 11을 참조하면, 제어부 110의 사용자 각도 선택부 127은 메모리 160으로부터 음성 신호들에 대응하는 각각의 각도 정보를 전달받을 수 있다. 제어부 110의 압축 해제부 123은 메모리 160으로부터 압축된 음성 파일을 수신하여 해제할 수 있다. 제어부 110의 PCM 파일 생성부 117은 압축 해제부 123으로부터 음성 신호를 수신하여 PCM 파일로 생성할 수 있다. PCM 파일 생성부 117에 의해 변환된 음성 신호는 사용자의 각도 선택부 127로부터 각도 정보를 전달받아 상기 각도에 해당되는 음성 신호만 재생될 수 있도록 D/A 컨버터 1110으로 전달할 수 있다.

D/A 컨버터 1110은 디지털 신호인 PCM 파일을 스피커 140으로 전달하여 출력하기 위해 아날로그 신호로 변환할 수 있다. D/A 컨버터 1110은 변환된 음성 신호를 스피커 140로 전달하고, 스피커 140은 상기 음성 신호를 출력할 수 있다.

도 12는 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 순서도이다. 도 13은 본 개시의 다양한 실시 예들에 따른 음성 신호가 녹음되는 과정을 나타내는 예시도이다.

도 12의 동작 설명을 도 13의 신호의 흐름과 함께 설명한다. 동작 1201에서 제어부 110은 음성 녹음을 실행할 수 있다. 제어부 110은 사용자의 요청을 인식하여 음성 녹음을 실행할 수도 있다. 도 13의 3개의 마이크들은 제어부 110에 의해 전원이 가해지고 마이크로부터 음성 신호를 수신할 수 있다. 복수 개의 A/D 컨버터 1310들은 3개의 마이크로부터 수신된 각각의 음성 신호들을 디지털 파일로 변조할 수 있다. 3개의 A/D 컨버터 1310들은 디지털 파일로 변조된 음성 신호들을 제어부 110로 전달할 수 있다.

동작 1203에서 제어부 110은 화자 위치 검출을 할 수 있다. 즉, 제어부 110은 복수 개의 음성 신호들이 들어 왔을 시에 상기 음성 신호들에 대응하는 각도들을 파악할 수 있도록 한다. 도 13에 도시된 바와 같이 3개의 마이크로부터 수신된 음성 신호들은 각각의 A/D 컨버터 1310을 통해 디지털로 변조된 후 화자 위치 검출부 111로 전달된다. 화자 위치 검출부 111은 수신된 음성 신호들에 대응하는 각도들을 파악하고 각도별로 각각의 빔포밍 구현부 113a ~ 113c 들에게 상기 각도들에 대한 정보를 전달할 수 있다.

동작 1205에서 제어부 110의 빔포밍 구현부 113a ~ 113c 는 검출된 화자의 모든 각도로 빔들을 형성할 수 있다. 또한, 제어부 110의 빔포밍 구현부 113a~113c는 일정 크기 이상의 에너지를 갖는 음성 신호가 발생된 각도로만 빔들을 형성할 수 있다. 도 13에 도시된 바와 같이 제어부 110의 빔포밍 구현부 113a ~ 113c 들은 각각의 PCM 파일 생성부 117a ~ 117c들로 빔을 구현하여 획득한 음성 신호들을 전달할 수 있다. 제어부 110의 PCM 파일 생성부 117a ~ 117c 들은 빔포밍 구현부 113a ~ 113b들로부터 전달된 음성 신호를 PCM 파일로 변환하고 이를 압축부 121로 전달할 수 있다. 동작 1207에서 압축부 121은 PCM 파일들과 화자 위치 검출부 111로부터 수신된 각도 정보들을 연결지어 음성 파일을 생성하고 이를 압축할 수 있다. 또한, 제어부 110의 압축부 121은 수신된 음성 신호의 시간 정보들도 음성 파일에 함께 압축할 수 있다. 압축부 121은 압축된 음성 파일을 메모리 160에 전달할 수 있다.

도 14는 본 개시의 다양한 실시 예들에 따른 저장된 음성 신호를 나타내는 예시도이다.

도 14를 참조하면, 도 12의 동작을 수행하여 녹음된 파일이며, 가로축은 시간을 나타내고 단위는 sec 일 수 있다. 또한, 세로축은 음성 신호의 크기를 나타내며 단위는 db (decibel, 데시벨)일 수 있다. 각도별로 음성 신호들이 각각의 파일로 저장되었음을 나타낼 수 있다. 또한, 파일들의 음성 신호들은 시간 순서대로 녹음되었음을 가정하고 도시되었다. 각 파일에는 빔포밍으로 수신된 음성 신호 그리고 각각의 음성 신호를 수신한 각도가 함께 저장됨을 보여준다. 또한, 각각의 음성 신호들이 녹음된 시간도 함께 저장됨을 보여준다. 녹음된 시간은 파일에서 각각의 화자의 음성 신호가 차지하는 구간의 길이로 나타내질 수 있다.

녹음된 파일을 참조하면, File 1에 저장된 음성 신호A 1410a는 0˚라는 각도 1420a에서 발생되었음을 알 수 있다. File 2에 저장된 음성 신호B 1410b는 90˚라는 각도 1420b에서 발생되었음을 알 수 있다. File 3에 저장된 음성 신호C 1410c는 180˚라는 각도 1420c에서 발생되었음을 알 수 있다. File 4에 저장된 음성 신호D 1410d는 270˚라는 각도 1420d에서 발생되었음을 알 수 있다.

또한, 도시되지는 않았으나 File 들은 추가적으로 발생한 음성 신호들을 저장할 수 있다. 예를 들어, 0˚라는 각도 1420a에서 다시 음성 신호가 발생되었을 때, File 1에는 또 다른 음성 신호 1410a가 저장될 수 있다. 추가적으로 발생한 음성 신호가 만약, 음성 신호 1410d가 저장되고 난 후라면, File 1에 그 이후부터 저장이 될 수 있다. 또한, 추가적으로 음성 신호가 발생된 때가 음성 신호 1410c가 저장되고 있을 때라면, 추가적으로 발생된 음성 신호는 File 1에서 화자 C 1401c의 음성 신호 1410c가 저장되는 시간과 동일한 시간에 저장될 수 있다.

도 15는 본 개시의 다양한 실시 예들에 따른 녹음된 음성 신호가 재생되는 과정을 나타내는 예시도이다.

도 15를 참조하면, 제어부 110의 사용자 각도 선택부 127은 메모리 160으로부터 화자의 위치 정보 즉, 각도 정보를 수신할 수 있다. 사용자 각도 선택부 127은 터치 스크린 150에 수신된 각도 정보를 전달하고, 터치 스크린 150은 수신된 각도 정보에 대응하는 각도를 표시할 수 있다. 사용자 각도 선택부 127은 터치 스크린 150 상에서 사용자로부터 선택된 각도를 인식할 수 있다. 사용자 각도 선택부 127은 선택된 각도를 압축 해제부 123으로 전달하고, 압축 해제부 123은 메모리 160으로부터 선택된 각도에 해당하는 파일만을 수신할 수 있다. 압축 해제부 123은 수신된 파일을 해제하고 사용자 각도 선택부 127로부터 선택된 각도에 해당되는 파일만을 버퍼 믹싱(buffer & mixing) 1570 처리를 할 수 있다. 제어부 110은 처리된 파일을 PCM 파일 생성부 117로 전달하고, PCM 파일 생성부 117은 전달된 파일을 PCM 파일로 생성할 수 있다. PCM 파일 생성부 117에 의해 생성된 파일은 D/A 컨버터 1510로 전달될 수 있다. D/A 컨버터 1510은 디지털 신호인 PCM 파일을 스피커 140로 전달하여 출력하기 위해 아날로그 신호로 변환할 수 있다. D/A 컨버터 1510은 변환된 음성 신호를 스피커 140로 전달하고, 스피커 140은 상기 음성 신호를 출력할 수 있다.

도 16은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 예시도이다. 3개의 마이크들이 서로 다른 방향으로 배치될 수 있다. 3개의 마이크들은 여러 조합에 의해서 적어도 하나 이상의 빔이 형성될 수 있다.

도시된 바와 같이, 3개의 마이크 1641, 1642, 1643 각각이 서로 다른 방향으로 배치되고 3개의 마이크 1641, 1642, 1643의 조합에 의해서 4개의 빔 1611, 1612, 1613, 1614가 형성될 수 있다. 형성된 각각의 빔 1611, 1612, 1613, 1614는 형성된 각도로만 음성 신호를 수신할 수 있다. 수신된 음성 신호들은 이에 대응하는 각도 정보들과 각각 저장될 수 있다.

도 17은 본 개시의 다양한 실시 예들에 따른 음성 재생 방법을 나타내는 예시도이다.

도 17을 참조하면, 제어부 110은 터치스크린 150 상에 사용자가 원하는 각도의 음성 신호를 재생할 수 있도록 하는 UI를 표시할 수 있다. 한 실시 예로, UI는 360도의 원형상에 화자를 나타내는 식별자를 포함할 수 있다. 식별자는 원형상에서 상기 화자의 각도를 나타내는 위치와 동일하게 표시될 수도 있다. 도시된 바와 같이, 식별자 A 1701a는 0도, 식별자 B 1701b는 90도, 식별자 C 1701c는 180도 및 식별자 D 1701d는 270도에 해당되는 위치를 나타내도록 도시되었으며, 이는 화자들이 상기 각도들에서 음성 신호를 발생시킨 것을 의미할 수 있다.

만약, 사용자가 식별자 중 적어도 하나를 선택한 경우, 제어부 110은 상기 식별자에 대응하는 각도로 저장된 음성 파일을 재생할 수 있다. 또한, 사용자가 전체 재생 버튼 1750을 선택한 경우, 제어부 110은 전체 음성 파일을 스피커를 통해 재생할 수 있다. 전체 음성 파일은 모든 각도들의 음성 신호를 포함한 파일일 수 있다.

도 18은 본 개시의 다양한 실시 예들에 따른 음성 재생 방법을 나타내는 예시도이다.

도 18을 참조하면, 제어부 110은 터치스크린 150 상에 사용자가 원하는 각도의 음성 신호를 재생할 수 있는 리스트를 표시할 수 있다. 리스트는 화자를 나타내는 식별자 1801, 재생버튼 1850, 정지버튼 1860 및 녹음 시간 1870을 포함할 수 있다. 만약, 사용자가 식별자 1801a ~ 1801d들 중 하나를 선택한 경우, 제어부 110은 선택된 식별자에 대응하는 각도와 저장된 음성 파일을 스피커 140을 통해 재생할 수 있다. 예를 들어, 사용자가 식별자 A 1801a의 음성 신호를 듣기 위해, 재생버튼 1850을 선택한 경우, 제어부 110은 식별자 A 1801a에 대응되는 각도 예를 들어 0도와 저장된 음성 파일을 3분 40초 동안 재생할 수 있다.

또한, 사용자에 의해 식별자들 중 하나를 선택한 경우, 제어부 110은 선택된 식별자에 대응하는 구간 정보도 제공할 수 있다. 구간 정보는, 선택된 식별자에 대응하는 화자의 녹음된 음성 신호가 전체 녹음 시간 중에 언제부터 언제까지 녹음되었는지를 알려주는 정보일 수 있다. 이런 구간 정보를, 제어부 110은 그림이나 숫자 등으로 표시할 수 있다.

예를 들어, 사용자가 식별자 A 1801a를 선택한 경우, 제어부 110은 선택된 식별자 A 1801a에 대응하는 구간 정보를 제공할 수 있다. 식별자 A 1801a의 구간 정보는, 전체 27분 35초 동안에 3분부터 6분 40초까지 녹음되었다는 정보일 수 있다. 제어부 110은 상기 구간 정보를 사용자가 식별자 A 1801a를 선택한 경우에 제공할 수도 있지만, 녹음 시간을 선택하거나 재생 중일 때 리스트 또는 재생 화면에 표시할 수도 있다.

도 19는 본 개시의 다양한 실시 예들에 따른 화자 인식을 나타내는 예시도이다.

제어부 110은 각도별로 음성 신호를 구분할 수도 있을 뿐만 아니라, 녹음된 음성 신호가 누구인지도 확인할 수도 있다. 이를 위해 제어부 110은 사운드 샷 기능을 사용하여 음성 녹음을 실행하기 전에 화자 인식 정보를 미리 저장할 수 있다. 화자 인식 정보는 화자들의 음성 신호 파형과 사진을 포함할 수 있다. 사운드 샷(sound shot) 기능이란, 사진 촬영 시 녹음된 음성 신호를 촬영된 사진과 함께 저장하는 기능이다.

예를 들어 사용자가 사운드 샷 기능으로 화자 A 1900a의 얼굴을 촬영하고 화자의 음성 신호 1910a를 녹음하면 제어부 110은 사진과 음성 신호를 매칭하여 하나의 음성 파일 1901a로 메모리 160에 저장할 수 있다. 도 19에 도시된 바와 같이, 화자 A 1900a, 화자 B 1900b, 화자 C 1900c 및 화자 D 1900d의 사진과 함께 화자 A 1900a의 음성 신호 파형 1910a, 화자 B 1900b의 음성 신호 파형 1910b, 화자 C 1900c의 음성 신호 파형 1910c 및 화자 D 1900d의 음성 신호 파형 1910d이 함께 저장되어 화자 각각의 파일 1901a~1901d들로 저장될 수 있다. 음성 신호의 파형은 인간의 목소리의 특성상 서로 다른 음성 신호 파형이 있으므로 화자를 구별하는데 사용될 수 있다.

다른 실시 예로, 사용자는 화자 인식을 수행하기 위해 음성 녹음을 실행하기 전, 화자들의 목소리를 미리 화자 인식 정보로 저장할 수 있다. 이를 인식한 제어부 110은 화자들의 목소리를 녹음하여 메모리 160에 저장하고 이를 추후에 비교할 대상으로 이용할 수 있다. 이와 같은 경우, 사용자는 화자들의 목소리를 저장할 때, 직접 목소리에 대한 사용자의 이름이나 식별 가능한 정보를 함께 저장할 수 있다.

또 다른 실시 예로, 제어부 110은 연락처에 저장된 사람들과 통화 중에 사람들의 목소리를 메모리 160에 저장하고 이를 화자 인식 정보로 이용할 수 있다.

도 20은 본 개시의 다양한 실시 예들에 따른 음성 녹음 방법을 나타내는 예시도이다.

도 19에서 언급했듯이 제어부 110은 각도별로 녹음된 음성 신호의 화자가 누구인지 확인하기 위해 미리 화자들의 사진과 음성 신호를 사운드 샷으로 촬영 및 녹음하여 메모리 160에 저장해 놓을 수 있다. 도 20을 참조하면, 제어부 110은 각도별로 저장된 음성 신호의 파형과 메모리 160에 저장해 놓은 사운드 샷 파일들의 음성 신호 파형을 비교할 수 있다. 만약 제어부 110은 각도별로 저장된 음성 신호의 파형과 일치하는 음성 신호 파형을 가진 사운드 샷 파일을 찾는다면 상기 사운드 샷 파일의 사진을 각도별로 저장된 음성 신호와 매칭하여 저장할 수 있다. 예를 들어, 도 20에 도시된 바와 같이 제어부 110은 화자 A 2001a, 화자 B 2001b, 화자 C 2001c 및 화자 D 2001d 각각 빔 2011~2014을 형성하여 각각의 화자의 음성 신호들을 수신할 수 있다. 메모리 160은 이미 화자 2001a ~ 2001d 각각의 사진과 음성 신호가 있을 수 있다. 제어부 110은 수신된 화자 각각의 음성 신호의 파형을 저장된 메모리 160의 음성 신호의 파형과 비교하여 일치하는 것끼리 매칭하여 저장할 수 있다.

다른 실시 예로, 제어부 110은 수신된 화자 각각의 음성 신호의 파형을, 비교대상으로 사용하기 위해 미리 녹음하여 저장해놓은 음성 신호의 파형과 비교할 수 있다. 제어부 110은 수신된 화자 각각의 음성 신호의 파형을 저장된 메모리 160의 음성 신호의 파형과 비교하여 일치하는 것끼리 매칭하여 저장할 수 있다.

또 다른 실시 예로, 제어부 110은 수신된 화자 각각의 음성 신호의 파형을 연락처에 저장된 사람들의 음성 신호의 파형과 비교할 수 있다. 제어부 110은 수신된 화자 각각의 음성 신호의 파형을 저장된 메모리 160의 음성 신호의 파형과 비교하여 일치하는 것끼리 매칭하여 저장할 수 있다.

상기와 같은 다양한 실시 예들로 녹음된 파일을 참조하면, File 1에 저장된 음성 신호A 2010a는 화자 A 2001a가 0˚라는 각도 2020a에서 발생시켰음을 알 수 있다. File 2에 저장된 음성 신호B 2010b는 화자 B 2001b가 90˚라는 각도 2020b에서 발생시켰음을 알 수 있다. File 3에 저장된 음성 신호C 2010c는 화자 C 2001c가 180˚라는 각도 2020c에서 발생되었음을 알 수 있다. File 4에 저장된 음성 신호D 2010d는 화자 D 2001d가 270˚라는 각도 2020d에서 발생되었음을 알 수 있다.

도 21은 본 개시의 다양한 실시 예들에 따른 음성 재생 방법을 나타내는 예시도이다.

도 20에서 언급했듯이 화자 인식을 통해 화자별로 음성 파일을 저장할 수 있다. 제어부 110은 화자별로 저장된 파일을 STT(speech to text)기능을 이용하여 문서를 생성할 수 있다.

도 21에 도시된 바와 같이 제어부 110은 문서의 종류인 회의록 2100을 생성할 수 있다. 회의록 2100 은 화자를 식별할 수 있는 식별자 2101 또는 화자의 사진, 음성 파일을 텍스트로 변환한 내용 2103, 음성 파일이 녹음된 시간 2105 및 음성 파일을 재생할 수 있는 재생버튼 2107을 포함할 수 있다. 예를 들어, 제어부 110은 시간 순으로 제일 먼저 녹음된 화자 A 2101a의 음성 파일을 텍스트로 변환하여 회의록 2100에 기록할 수 있다. 제어부 110은 음성 파일이 녹음된 시간 2105 인 '00:00:00~00:00:34' 음성 파일을 재생할 수 있는 재생 버튼 2107도 회의록 2100에 포함시킬 수 있다.

상기 컴퓨터로 판독 가능한 기록 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, 그리고 ROM(Read Only Memory), RAM(Random Access Memory), 플래시 메모리등과 같은 프로그램 명령(예: 프로그래밍 모듈)을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한하드웨어 장치는 본 개시의 다양한 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

본 개시의 다양한 실시예들에 따른 모듈은 전술한 구성 요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 본 개시의 다양한 실시예들에 따른 모듈은 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

그리고 본 명세서 및 도면에 개시된 다양한 실시예들은 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 개시의 다양한 실시예들의 범위를 한정하고자 하는 것은 아니다. 따라서 본 개시의 다양한 실시 예들의 범위는 여기에서 설명된 실시 예들 이외에도 본 개시의 다양한 실시예들의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 개시의 다양한 실시 예들의 범위에 포함되는 것으로 해석되어야 한다.

100: 전자 장치
110: 제어부
111: 화자 위치 검출부
113: 빔포밍 구현부
117: PCM 파일 생성부
121: 압축부
123: 압축 해제부
127: 사용자 각도 선택부
130: 마이크부
140: 스피커
150: 터치스크린
160: 메모리
180: 통신부

Claims

모바일 통신 장치에 있어서,
디스플레이;
스피커;
제1데이터 및 제2데이터를 저장하기 위한 메모리 - 상기 제1데이터는 제1음성 신호를 포함하고 상기 제2데이터는 제2음성 신호를 포함하고, 상기 제1 및 제2신호는 상기 모바일 통신 장치의 외부로부터 수신되고, 상기 제1음성 신호는 상기 모바일 통신 장치에 대하여 제1방향에 대응되고, 상기 제2음성 신호는 상기 모바일 통신 장치에 대하여 제2방향에 대응됨 - ; 및
상기 제1데이터를 지시하는 제1인디케이션 및 상기 제2데이터를 지시하는 제2인디케이션을 포함하는 리스트를 상기 디스플레이를 통하여 나타내고,
상기 리스트의 상기 제1인디케이션을 선택하는 사용자 입력을 상기 디스플레이를 통해 수신하고,
상기 리스트의 제1인디케이션을 선택하는 상기 사용자 입력에 응답하여 상기 제1데이터를 상기 스피커를 통해 재생하고,
상기 재생과 관련하여 실질적으로 원형인 엘리먼트를 포함하는 그래픽 사용자 인터페이스를 이용하여, 상기 리스트의 제1인디케이션을 선택하는 상기 사용자 입력에 응답하여 상기 디스플레이를 통해 상기 제1음성 신호를 지시하는 제3인디케이션을 상기 제1방향과 관련된 제1위치에 나타내고, 상기 리스트의 제2인디케이션을 선택하는 사용자 입력에 응답하여 상기 디스플레이를 통해 상기 제2음성 신호를 지시하는 제4인디케이션을 상기 제2방향과 관련된 제2위치에 나타내도록 설정된 프로세서를 포함하는 모바일 통신 장치.
제 1항에 있어서,
상기 프로세서는,
상기 디스플레이를 통해 상기 제3인디케이션 또는 상기 제4인디케이션과 관련된 다른 사용자 입력을 수신하고, 및
상기 다른 사용자 입력의 적어도 일부에 기초하여, 상기 제1음성 신호 및 상기 제2음성 신호 중 대응되는 하나의 볼륨을 조정하도록 설정된 모바일 통신 장치.
제 2항에 있어서,
상기 프로세서는,
상기 조정의 적어도 일부로써, 상기 볼륨을 소거(mute) 하도록 설정된 모바일 통신 장치.
제 1항에 있어서,
상기 프로세서는,
상기 제3 및 제4 인디케이션을 상기 실질적으로 원형인 엘리먼트의 경계 또는 상기 경계에 인접하여 표시하도록 설정된 모바일 통신 장치.
제 1항에 있어서,
상기 프로세서는,
상기 재생을 지시하는 제5인디케이션을 상기 그래픽 사용자 인터페이스 또는 상기 실질적으로 원형인 엘리먼트의 가운데에 표시하도록 설정된 모바일 통신 장치.
제 1항에 있어서,
상기 프로세서는,
상기 제1데이터의 적어도 일부에 기초하여, 상기 제1음성 신호에 대응되는 제1외부 오브젝트 및 상기 제2음성 신호에 대응되는 제2외부 오브젝트를 식별하고,
상기 제1외부 오브젝트의 제1식별 정보를 상기 제3인디케이션에 인접하여 표시하고, 상기 제2외부 오브젝트의 제2식별 정보를 상기 제4인디케이션에 인접하여 표시하도록 설정된 모바일 통신 장치.
제 6항에 있어서,
상기 제1외부 오브젝트는 상기 제2외부 오브젝트와 실질적으로 동일한 모바일 통신 장치.
제 6항에 있어서,
상기 프로세서는,
상기 제1외부 오브젝트가 상기 제2외부 오브젝트와 다른 것이라는 판단에 적어도 일부 기초하여, 제1시각적 특성을 이용하여 상기 제3인디케이션을 표시하고, 제2시각적 특성을 이용하여 상기 제4인디케이션을 표시하도록 설정된 모바일 통신 장치.
제 1항에 있어서,
복수의 마이크를 더 포함하고,
상기 프로세서는,
제1마이크 및 제2마이크를 포함하는 복수의 마이크를 이용하여 상기 제1 및 제2음성 신호를 획득하고,
상기 제1 및 제2음성 신호로부터, 상기 제1마이크에 대응하는 제1에너지 레벨 및 상기 제2마이크에 대응하는 제2에너지 레벨을 추산하고,
상기 제1에너지 레벨이 제1조건을 만족한다는 판단에 적어도 일부 기초하여, 상기 제1마이크에 대응되는 특정 방향으로써 상기 제1 및 제2방향 중 대응되는 하나를 식별하고,
상기 제2에너지 레벨이 제2조건을 만족한다는 판단에 적어도 일부 기초하여, 상기 제2마이크에 대응되는 다른 특정 방향으로써 상기 제1 및 제2방향 중 대응되는 하나를 식별하도록 설정된 모바일 통신 장치.
제 1항에 있어서,
상기 프로세서는,
상기 제3 및 제4 인디케이션을 표시하는 동안, 제1음성 신호와 관련된 제1섹션 정보 및 상기 제2음성 신호와 관련된 제2섹션 정보를 표시하도록 설정된 모바일 통신 장치.
제 2항에 있어서,
상기 프로세서는,
상기 다른 사용자 입력에 적어도 일부 기초하여, 상기 제3인디케이션 및 상기 제4인디케이션 중 대응되는 하나의 시각적 특성, 텍스트, 번호, 이미지 중 적어도 하나를 변경하도록 설정된 모바일 통신 장치.
제 2항에 있어서,
상기 프로세서는,
제1 및 제2음성 신호가 동시에 출력되는 오버랩(overlap) 섹션에 대한 조정은 제외하도록 설정된 모바일 통신 장치.
모바일 통신 장치에 있어서,
디스플레이;
오디오 데이터를 저장하기 위한 메모리 ? 상기 오디오 데이터는 상기 모바일 통신 장치의 외부로부터 수신되는 제1 및 제2음성 신호를 포함하고, 상기 제1음성 신호는 상기 모바일 통신 장치에 대하여 제1방향에 대응되고, 상기 제2음성 신호는 상기 모바일 통신 장치에 대하여 제2방향에 대응되고, 상기 제1음성 신호는 상기 오디오 데이터의 제1섹션에서 출력되고, 상기 제2음성 신호는 상기 오디오 데이터의 제2섹션에서 출력됨 - ;
상기 오디오 데이터를 재생하고,
상기 재생과 관련하여, 실질적으로 원형인 엘리먼트를 포함하는 제1그래픽 사용자 인터페이스를 통해, 상기 제1방향과 관련된 제1위치에 제1인디케이션 및 상기 제2방향과 관련된 제2위치에 제2인디케이션을 나타내고, 및
상기 재생과 관련하여, 제2그래픽 사용자 인터페이스를 통해, 상기 제1섹션을 지시하는 제3인디케이션 및 상기 제2섹션을 지시하는 제4인디케이션을 나타내도록 설정된 프로세서를 포함하며,
상기 제1그래픽 사용자 인터페이스는 상기 제2그래픽 사용자 인터페이스와 함께 표시되는 모바일 통신 장치.
제 13항에 있어서,
상기 프로세서는,
상기 제1그래픽 사용자 인터페이스로부터의 다른 사용자 입력에 적어도 일부 기초하여, 상기 제1음성 신호 및 상기 제2음성 신호 중 대응되는 하나의 볼륨을 조정하도록 설정된 모바일 통신 장치.
제 14항에 있어서,
상기 프로세서는,
상기 조정의 적어도 일부로써, 상기 볼륨을 소거(mute) 하도록 설정된 모바일 통신 장치.
제 15항에 있어서,
상기 프로세서는,
상기 소거의 적어도 일부로써, 상기 사용자 입력에 적어도 일부 기초하여, 상기 제1섹션 및 상기 제2섹션 중 대응되는 하나를 비활성화 하도록 설정된 모바일 통신 장치.
제 14항에 있어서,
상기 프로세서는,
상기 사용자 입력에 적어도 일부 기초하여, 상기 제1인디케이션 및 상기 제2인디케이션 중 대응되는 하나의 시각적 특성, 텍스트, 번호, 이미지 중 적어도 하나를 변경하도록 설정된 모바일 통신 장치.
제 14항에 있어서,
상기 프로세서는,
상기 사용자 입력에 적어도 일부 기초하여, 상기 제3인디케이션 및 상기 제4인디케이션 중 대응되는 하나의 시각적 특성, 텍스트, 번호, 이미지 중 적어도 하나를 변경하도록 설정된 모바일 통신 장치.
제 14항에 있어서,
상기 제1음성 신호는 상기 모바일 통신 장치에 대하여 상기 제1방향에 대응되고, 상기 제2음성 신호는 상기 모바일 통신 장치에 대하여 상기 제2방향에 대응되고,
상기 프로세서는,
상기 재생과 관련하여, 실질적으로 원형인 엘리먼트를 포함하는 그래픽 사용자 인터페이스 - 상기 그래픽 사용자 인터페이스는 상기 제1방향을 지시하는 제1각도를 갖는 제1엘리먼트 및 상기 제2방향을 지시하는 제2각도를 갖는 제2엘리먼트를 포함 - 를 표시하도록 설정된 모바일 통신 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제