KR102351366B1

KR102351366B1 - 음성 인식 방법 및 장치

Info

Publication number: KR102351366B1
Application number: KR1020150012203A
Authority: KR
Inventors: 이남일; 금종모; 김강열; 황호철
Original assignee: 삼성전자주식회사
Priority date: 2015-01-26
Filing date: 2015-01-26
Publication date: 2022-01-14
Also published as: US20160217789A1; US9870775B2; KR20160091725A

Abstract

본 발명은 전자 장치에서 음성 인식을 위한 인식 구간을 분리하고, 분리된 인식 구간에 대응하여 상이한 방식으로 음성 인식을 처리하여, 음성 인식률을 개선할 수 있는 전자 장치 및 그 동작 방법에 관한 것이다. 본 발명의 실시 예에 따르면, 음성 입력을 감지하는 과정과, 상기 음성의 방향과 빔포밍 방향을 판단하는 과정과, 상기 음성의 방향과 상기 빔포밍 방향이 대응하면 상기 음성에 기반하여 음성 인식을 수행하는 과정과, 상기 음성의 방향과 상기 빔포밍 방향이 대응하지 않으면 상기 음성 입력 구간의 구분 형태에 기반하여 제1구간과 제2구간에서 입력되는 음성을 상이한 방식으로 음성 인식을 수행하는 과정을 포함할 수 있다.

Description

음성 인식 방법 및 장치{METHOD AND APPARATUS FOR VOICE RECOGNITIIONAND ELECTRONIC DEVICE THEREOF}

본 발명은 전자 장치에서 음성 인식 성능을 높일 수 있는 음성 인식 방법 및 그 장치에 관한 것이다.

일반적으로 스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치는, 사용자의 음성(voice)을 인식하여 사용자가 원하는 동작을 간편하게 수행할 수 있는 다양한 음성 인터페이스(voice interface)를 포함할 수 있다.

상기 음성 인터페이스는, 상기 전자 장치의 마이크(microphone)를 통해 입력되는 사용자의 음성 신호를 전기적 신호로 변환한 후, 상기 변환된 전기적 신호를 분석하여, 사용자의 음성을 커맨드(command) 또는 텍스트(text) 등으로 인식하는 음성 인식(recognition) 기술로서 널리 사용되고 있다.

기존의 음성 인식 기술은 화자(speaker)의 음성을 처음부터 끝까지 입력 받은 후 음성 인식을 수행하게 된다. 또한, 최근에는 다방향 동시 음성 인식에 대한 요구를 충족시키기 위하여 빔포밍(beamforming)을 적용하는 음성 인식 기능이 지원되고 있다.

일반적으로, 빔포밍이 적용된 음성 인식의 경우 빔포밍된 방향이 화자를 향해 있지 않은 경우 사용자의 방향(위치) 추적에 소요되는 일정 시간(예: tracking time)(예: 0.3초) 동안 사용자의 음성이 정확하게 입력되지 않을 수 있다. 예를 들어, 일정 시간 동안 전자 장치의 음성 인식기로 음성의 첫 음절이 제대로 입력되지 않거나 잘려서 입력되는 경우가 발생할 수 있다. 따라서 전자 장치는 사용자의 음성(예: 첫 음절)을 정확하게 수신하지 못하기 때문에 음성 인식률이 저하되는 문제점이 있다. 또한 일반적인 음성 인식에서는 미리 모델링 되어 있는 음성들을 이용하여 학습(training)을 수행하는 반면, 빔포밍이 적용된 음성 인식에서는 학습을 수행하지 않기 때문에 빔포밍을 통해 입력되는 음성의 음성 인식률이 저하되는 문제점이 있다.

본 발명의 다양한 실시 예들에서는, 빔포밍을 적용하는 음성 인식에서 사용자(예: 화자)의 방향(위치)에 대응하여 빔포밍 방향을 변경하는 데 소요되는 일정 시간 동안에 입력되는 음성으로 인한 음성 인식 오류를 줄일 수 있는 전자 장치 및 그 동작 방법을 제공할 수 있다.

본 발명의 다양한 실시 예들에서는, 음성 인식 구간을 제1구간과 제2구간으로 분리하고, 분리된 구간 별로 상이한 방식의 음성 인식을 처리하여 음성 인식률을 개선할 수 있는 전자 장치 및 그 동작 방법을 제공할 수 있다.

본 발명의 다양한 실시 예들에서는, 전자 장치의 빔포밍 방향이 입력 음성의 방향과 다른 경우, 빔포밍 방향을 입력 음성의 방향에 대응하도록 변경을 수행하는 제1구간(예: 빔 형성이 완료되기 이전의 구간(예: 빔 형성 구간, 방향 인식 구간))에 입력되는 음성 신호와, 빔포밍 방향의 변경이 완료된 이후의 제2구간(예: 제1구간 이후의 구간(예: 빔이 형성된 이후 구간, 정상 인식 구간))에 입력되는 음성 신호를 구분하여 음성 인식을 처리할 수 있는 전자 장치 및 그 동작 방법을 제공할 수 있다.

본 발명의 다양한 실시 예들에서는 전자 장치에서 음성 인식을 지원하기 위한 최적의 환경을 구현하여 사용자의 편의성 및 전자 장치의 사용성을 향상시킬 수 있는 전자 장치 및 그 동작 방법을 제공할 수 있다.

본 발명의 다양한 실시 예들에 따른 전자 장치는, 음성을 입력 받는 마이크와, 음성 인식에 따라 처리되는 데이터를 저장하는 저장부와, 상기 음성 인식을 위한 음성 인식 구간의 구분 형태에 기반하여, 제1구간과 제2구간에서 입력되는 음성을 상이한 방식으로 음성 인식을 수행하도록 제어하는 제어부를 포함할 수 있다.

본 발명의 다양한 실시 예들에 따른 전자 장치를 동작하는 방법은, 음성 입력을 감지하는 과정과, 상기 음성의 방향과 빔포밍 방향을 판단하는 과정과, 상기 음성의 방향과 상기 빔포밍 방향이 대응하면 상기 음성에 기반하여 음성 인식을 수행하는 과정과, 상기 음성의 방향과 상기 빔포밍 방향이 대응하지 않으면 상기 음성 입력 구간의 구분 형태에 기반하여 제1구간과 제2구간에서 입력되는 음성을 상이한 방식으로 음성 인식을 수행하는 과정을 포함할 수 있다.

본 발명의 다양한 실시 예들에 따른 기록 매체는, 음성 인식을 위한 음성 인식 구간을 제1구간과 제2구간으로 구분하는 동작, 상기 제1구간에서 입력 음성과 상기 제2구간에서 입력 음성에 대해 상이한 방식으로 음성 인식을 처리하는 동작을 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체를 포함할 수 있다.

본 발명의 실시 예에 따른 전자 장치 및 그 동작 방법은, 빔포밍을 적용하는 음성 인식에서 화자의 방향에 대응하여 빔포밍 방향을 변경하는 데 소요되는 일정 시간 동안에 입력되는 음성으로 인한 음성 인식 오류를 사전에 방지하여 음성 인식률을 개선할 수 있다.

본 발명의 실시 예에 따르면, 음성 인식 구간을 빔포밍 방향을 변경하는 제1구간과, 빔포밍 방향이 화자의 방향으로 변경된 이후(빔이 형성된 이후)의 제2구간으로 분리하고, 상기 제1구간에서 입력되는 음성과 상기 제2구간에서 입력되는 음성을 구분하여 상이한 음성 인식을 처리할 수 있다. 따라서 본 발명의 실시 예에 따르면, 빔포밍 방향을 변경하는 동안의 음성 인식률 저하를 방지할 수 있고, 결과적으로 음성 인식의 정확성을 높일 수 있다.

또한 본 발명의 실시 예에 따르면, 빔포밍을 적용하여 입력되는 음성에 대해서도 학습을 수행하고, 학습된 학습 데이터(모델)을 음성 인식 과정에 추가하여 음성 인식의 정확성을 높일 수 있다.

본 발명의 다양한 실시 예들에 따르면, 전자 장치에서 음성 인식 기능의 음성 인식률을 개선하기 위한 최적의 환경을 구현함으로써, 사용자의 편의성을 향상시키고, 전자 장치의 사용성, 편의성, 접근성 및 경쟁력을 향상시키는데 기여할 수 있다.

도 1은 본 발명의 실시 예에 따른 전자 장치의 구성을 개략적으로 도시하는 도면이다.
도 2는 본 발명의 실시 예에 따른 전자 장치에서 음성 인식부의 구성 예시를 도시하는 도면이다.
도 3은 본 발명의 실시 예에 따른 전자 장치에서 음성 인식을 처리하는 동작 절차를 도시하는 흐름도이다.
도 4 및 도 5는 본 발명의 실시 예에 따른 전자 장치에서 음성 인식 구간 분리에 의해 음성 인식을 처리하는 동작을 설명하기 위해 도시하는 도면들이다.
도 6 및 도 7은 본 발명의 실시 예에 따른 전자 장치에서 음성 인식 구간 분리에 의해 음성 인식을 처리하는 다른 동작을 설명하기 위해 도시하는 도면들이다.
도 8 및 도 9는 본 발명의 실시 예에 따른 전자 장치에서 음성 인식 구간 분리에 의해 음성 인식을 처리하는 다른 동작을 설명하기 위해 도시하는 도면들이다.
도 10은 본 발명의 실시 예에 따른 전자 장치에서 빔포밍으로 입력된 음성을 학습 데이터에 기반하여 음성 인식을 처리하는 동작 절차를 도시하는 흐름도이다.
도 11은 본 발명의 실시 예에 따른 전자 장치에서 학습 데이터를 관리하는 동작을 설명하기 위해 도시하는 도면이다.

이하, 본 발명의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

제안하는 본 발명은 음성 인식 기능을 포함하는 전자 장치 및 그의 동작 방법에 관한 것이다. 본 발명의 다양한 실시 예들에서는 전자 장치에서 음성 인식을 위한 인식 구간을 다양한 방식으로 분리할 수 있고, 분리된 인식 구간에 대응하여 상이한 방식으로 음성 인식을 처리하여, 음성 인식률을 개선할 수 있는 전자 장치 및 그 동작 방법을 제안한다.

본 발명의 다양한 실시 예들에 따르면, 전자 장치는 하나 또는 그 이상의 마이크들(microphones)을 포함할 수 있고, 빔포밍(beamforming)을 적용하여 다방향(multi-direction)으로부터 음성 신호를 입력 받을 수 있다. 그리고 전자 장치는 입력된 음성 신호를 설정된 방식으로 연산하여 음원의 발생 방향(화자 위치)을 추적할 수 있다.

본 발명의 다양한 실시 예들에서 전자 장치는 하나 이상의 마이크들에 기반하여 화자(speaker), 화자의 위치 또는 방향 등을 구분하여 입력되는 음성을 처리할 수 있다. 전자 장치의 마이크는 여러 개의 소형 마이크들이 어레이(Array) 형태로 배열된 하나의 모듈(module) 등으로 다양하게 제작될 수 있다. 본 발명의 다양한 실시 예들에서 마이크는 전자 장치에 실장되는 내장 마이크 또는 전자 장치에 연결되는 외장 마이크를 포함할 수 있고, 추가적으로 또는 대체적으로 내장 마이크와 외장 마이크를 조합하여 동작할 수도 있다.

또한 본 발명의 실시 예에 따른 전자 장치는 임의의 특정 방향을 지향하는 지향성 마이크로 사용하거나, 모든 방향의 음성 신호를 수신하는 무지향성 마이크로 사용할 수 있다. 또한 상기 전자 장치는 마이크를 무지향성 및 지향성 마이크로 사용할 수 있다.

본 발명의 다양한 실시 예들에서 전자 장치는 본 발명의 다양한 실시 예들에 따른 기능을 지원하는 모든 정보통신기기, 멀티미디어기기, 웨어러블(wearable) 기기 및 그에 대한 응용기기와 같이 AP(Application Processor), GPU(Graphic Processing Unit), 및 CPU(Central Processing) 등의 다양한 프로세서(예: 프로세서(processor)) 중 하나 또는 그 이상을 사용하는 모든 장치를 포함할 수 있다.

이하에서 설명되는 본 발명의 다양한 실시 예들에서는 하드웨어(hardware)적인 접근 방법을 예시로서 설명한다. 하지만, 본 발명의 다양한 실시 예들에서는 하드웨어와 소프트웨어(software)를 모두 사용하는 기술을 포함하고 있으므로, 본 발명의 다양한 실시 예들이 소프트웨어 기반의 접근 방법을 제외하는 것은 아니다.

도 1은 본 발명의 실시 예에 따른 전자 장치의 구성을 개략적으로 도시하는 도면이다.

상기 도 1을 참조하면, 본 발명의 다양한 실시 예들에 따른 전자 장치 100은 무선 통신부 110, 사용자 입력부 120, 터치스크린(touchscreen) 130, 오디오 처리부 140, 저장부 150, 인터페이스부 160, 카메라 모듈 170, 제어부 180, 그리고 전원 공급부 190을 포함할 수 있다. 본 발명의 다양한 실시 예들에서 전자 장치 100은 도 1에 도시된 구성들이 필수적인 것은 아니어서, 도 1에 도시된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.

상기 무선 통신부 110은 전자 장치 100와 무선 통신 시스템 사이 또는 전자 장치 100와 다른 외부 장치(예: 다른 전자 장치, 또는 서버) 사이의 무선 통신을 가능하게 하는 하나 또는 그 이상의 모듈들을 포함할 수 있다. 예를 들어, 무선 통신부 110은 이동통신 모듈 111, 무선 랜(WLAN, wireless local area network) 모듈 113, 근거리 통신 모듈 115, 위치 산출 모듈 117, 그리고 방송 수신 모듈 119 등을 포함하여 구성될 수 있다.

상기 이동통신 모듈 111은 이동통신 네트워크 상에서 기지국, 외부의 전자 장치, 그리고 다양한 서버들(예: 통합 서버(integration server), 프로바이더 서버(provider server), 콘텐츠 서버(content server), 인터넷 서버(internet server), 또는 클라우드 서버(cloud server)) 중 적어도 하나와 무선 신호를 송수신할 수 있다. 상기 무선 신호는 학습 데이터(training data), 음성통화 신호, 화상통화 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

상기 이동통신 모듈 111은 하나 또는 그 이상의 데이터들(예: 학습 데이터, 콘텐츠, 메시지, 메일, 이미지, 동영상, 날씨 정보, 위치 정보 또는, 시간 정보 등)을 수신할 수 있다. 한 실시 예에 따르면, 상기 이동통신 모듈 111은 전자 장치 100와 네트워크(예: 이동통신 네트워크)를 통해 연결되어 있는 외부 장치(예: 다른 전자 장치 또는 서버) 중 적어도 하나와 연결되어 다양한 데이터들을 획득(수신)할 수 있다. 상기 이동통신 모듈 111은 전자 장치 100의 동작에 필요한 다양한 데이터들을 사용자 요청에 응답하여 외부 장치로 전송할 수 있다.

상기 이동통신 모듈 111은 통신 기능을 수행할 수 있다. 예를 들어, 제어부 180의 제어 하에 RF(radio frequency) 신호를 기저대역 신호로 변환하여 제어부 180에게 제공하거나, 제어부 180으로부터의 기저대역 신호를 RF 신호로 변환하여 송신할 수 있다. 여기서, 제어부 180은 다양한 통신 방식에 기반하여 기저대역 신호를 처리할 수 있다. 예를 들어, 상기 통신 방식은, 이들에 한정하지는 않지만, GSM(global system for mobile communication) 통신 방식, EDGE(enhanced data GSM environment) 통신 방식, CDMA(code division multiple access) 통신 방식, W-CDMA(w-code division multiple access) 통신 방식, LTE(long term evolution) 통신 방식, OFDMA(orthogonal frequency division multiple access) 통신 방식, Wi-Fi(wireless fidelity) 통신 방식, WiMax(world interoperability for microwave access) 통신 방식 또는 블루투스(Bluetooth) 통신 방식 등을 포함할 수 있다.

상기 무선 랜 모듈 113은 무선 인터넷 접속 및 다른 외부 장치와 무선 랜 링크(link)를 형성하기 위한 모듈을 나타낼 수 있다. 상기 무선 랜 모듈 113은 전자 장치 100에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 무선 랜(Wi-Fi), Wibro(wireless broadband), WiMax, HSDPA(high speed downlink packet access), 또는 mmWave(millimeter wave) 등이 이용될 수 있다.

상기 무선 랜 모듈 113은 사용자로부터 선택된 하나 또는 그 이상의 데이터들을 외부로 전송하거나, 또는 외부로부터 수신할 수 있다. 한 실시 예에 따르면, 상기 무선 랜 모듈 113은 전자 장치 100과 네트워크(예: 무선 인터넷 네트워크)를 통해 연결되어 있는 다른 전자 장치 또는 서버 중 적어도 하나로부터 데이터를 획득할 수 있다. 상기 무선 랜 모듈 113은 전자 장치 100의 다양한 데이터들을 사용자 요청에 응답하여 외부(예: 서버)로 전송하거나, 또는 외부로부터 수신할 수 있다. 상기 무선 랜 모듈 113은 다른 전자 장치와 무선 랜 링크가 형성될 시 사용자 선택에 대응하는 다양한 데이터들을 다른 전자 장치로 전송하거나 수신 받을 수 있다. 상기 무선 랜 모듈 113은 상시 온(on) 상태를 유지하거나, 전자 장치 100의 설정 또는 사용자 입력에 따라 턴-온(turn-on)될 수 있다.

상기 근거리 통신 모듈 115은 근거리 통신(short range communication)을 수행하기 위한 모듈을 나타낼 수 있다. 근거리 통신 기술로 블루투스(bluetooth), 저전력 블루투스(BLE, bluetooth low energy), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra wideband), 지그비(zigbee), 또는 NFC(near field communication) 등이 이용될 수 있다.

상기 근거리 통신 모듈 115은 하나 또는 그 이상의 데이터들을 수신할 수 있다. 한 실시 예에 따르면, 상기 근거리 통신 모듈 115은 전자 장치 100과 네트워크(예: 근거리 통신 네트워크)를 통해 연결되어 있는 다른 전자 장치로부터 데이터를 획득할 수 있다. 상기 근거리 통신 모듈 115은 다른 전자 장치와 근거리 통신이 연결될 시 사용자 선택에 대응하는 데이터들을 다른 전자 장치로 전송하거나 수신 받을 수 있다. 상기 근거리 통신 모듈 115은 상시 온 상태를 유지하거나, 전자 장치 400의 설정 또는 사용자 입력에 따라 턴-온(turn-on)될 수 있다.

상기 위치 산출 모듈 117은 전자 장치 100의 위치를 획득하기 위한 모듈로서, 대표적인 예로는 GPS(global position system) 모듈을 포함할 수 있다. 상기 위치 산출 모듈 115은 삼각 측량의 원리로 전자 장치 100의 위치를 측정할 수 있다. 예를 들어, 상기 위치 산출 모듈 117은 3개 이상의 기지국들로부터 떨어진 거리 정보와 시간 정보를 산출한 다음 상기 산출된 정보에 삼각법을 적용함으로써, 위도(latitude), 경도(longitude), 및 고도(altitude)에 따른 3차원의 현 위치 정보를 산출할 수 있다. 또는 상기 위치 산출 모듈 117은 3개 이상의 위성들로부터 전자 장치 100의 위치 정보를 실시간으로 계속 수신함으로써 위치 정보를 산출할 수 있다. 전자 장치 100의 위치 정보는 다양한 방법에 의해 획득될 수 있다.

상기 방송 수신 모듈 119는 방송 채널(예: 위성 방송 채널, 지상파 방송 채널 등)을 통하여 외부의 방송 관리 서버로부터 방송 신호(예: TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호 등) 및/또는 방송과 관련된 정보(예: 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보 등)를 수신할 수 있다.

상기 사용자 입력부 120은 전자 장치 100의 동작 제어를 위한 입력 데이터를 사용자 입력에 응답하여 발생할 수 있다. 상기 사용자 입력부 120은 사용자의 다양한 입력을 검출하기 위한 적어도 하나의 입력 수단을 포함할 수 있다. 예를 들어, 상기 사용자 입력부 120은 키패드(key pad), 돔 스위치(dome switch), 물리 버튼, 터치패드(정압/정전), 조그셔틀(jog & shuttle), 그리고 센서 등을 포함할 수 있다.

상기 사용자 입력부 120은 일부가 전자 장치 100의 외부에 버튼 형태로 구현될 수 있으며, 일부 또는 전체가 터치 패널(touch panel)로 구현될 수도 있다. 상기 사용자 입력부 120은 본 발명의 다양한 실시 예들에 따른 전자 장치 100의 동작을 개시(initiation)하기 위한 사용자 입력을 수신할 수 있고, 사용자 입력에 따른 입력 신호를 발생할 수 있다. 예를 들어, 상기 사용자 입력부 120은 음성 인식 기능 실행, 어플리케이션 실행, 데이터 입력(작성, 삽입), 전자 장치 100의 자세 변화, 콘텐츠 표시, 네트워크 연결, 데이터 전송 또는 수신 등을 수행하기 위한 다양한 사용자 입력을 수신할 수 있고, 상기 사용자 입력에 따른 입력 신호를 발생할 수 있다.

상기 터치스크린 130은 입력 기능과 표시 기능을 동시에 수행할 수 있는 입출력 수단을 나타내며, 표시부 131과 터치감지부 133을 포함할 수 있다. 상기 터치스크린 130은 전자 장치 100과 사용자 사이에 입출력 인터페이스를 제공하며, 사용자의 터치 입력을 전자 장치 100에게 전달할 수 있고, 또한 전자 장치 100으로부터의 출력을 사용자에게 보여주는 매개체 역할을 담당할 수 있다. 상기 터치스크린 130은 사용자에게 시각적인 출력(visual output)을 보여줄 수 있다. 상기 시각적 출력은 텍스트(text), 그래픽(graphic), 비디오(video)와 이들의 조합의 형태로 나타날 수 있다. 예를 들어, 본 발명의 실시 예에서 상기 터치스크린 130은 표시부 131를 통해 전자 장치 100의 동작에 따른 다양한 화면을 표시할 수 있다. 상기 다양한 화면은 예를 들어, 음성 인식 화면, 음성 인식 결과 화면, 메신저 화면, 통화 화면, 게임 화면, 동영상 재생 화면, 갤러리(gallery) 화면, 웹 페이지 화면, 홈 화면, 또는 그룹 네트워크 연결 화면 등이 포함될 수 있다.

상기 터치스크린 130은 상기 표시부 131를 통해 특정 화면을 표시하는 중에 상기 터치감지부 133를 통해 사용자로부터 터치(touch), 호버링(hovering) 또는 에어 제스처(air gesture) 중 적어도 하나에 기반하는 이벤트(예: 터치 이벤트, 호버링 이벤트, 에어 제스처 이벤트)를 감지할 수 있고, 상기 이벤트에 따른 입력 신호를 상기 제어부 180에게 전달할 수 있다. 상기 제어부 180은 전달되는 이벤트를 구분하고, 구분된 이벤트에 따른 동작 수행을 제어할 수 있다.

상기 표시부 131은 전자 장치 100에서 처리되는 다양한 정보를 표시(출력)할 수 있다. 예를 들어, 상기 표시부 131은 전자 장치 100가 음성 인식 모드로 동작하는 경우 음성 인식과 관련된 유저 인터페이스(UI, user interface) 또는 그래픽 유저 인터페이스(GUI, graphical UI)를 표시할 수 있다. 또한 상기 표시부 131은 전자 장치 100가 통화 모드인 경우 통화와 관련된 UI 또는 GUI를 표시할 수 있다. 상기 표시부 131은 전자 장치 100가 화상통화 모드 또는 촬영 모드인 경우에는 촬영 또는/및 수신된 영상과 해당 모드 운영과 관련된 UI 또는 GUI를 표시할 수 있다. 상기 표시부 131은 전자 장치 100의 사용과 관련된 데이터, 콘텐츠, 또는 네트워크에 연결된 다른 전자 장치들에 대한 정보를 표시할 수 있다. 상기 표시부 131은 실행되는 어플리케이션에 대응하는 다양한 어플리케이션 실행화면을 표시할 수 있다.

상기 표시부 131은 전자 장치 100의 회전 방향(또는 놓인 방향)에 따라 가로모드에 의한 화면 표시, 세로모드에 의한 화면 표시, 또는 가로모드와 세로모드 간의 변화에 따른 화면 표시를 지원할 수 있다. 상기 표시부 131은 다양한 디스플레이가 사용될 수 있다. 예를 들면, 상기 표시부 131은 액정 디스플레이(LCD, liquid crystal display), 발광 다이오드(LED, light-emitting diode) 디스플레이, 유기 발광 다이오드(OLED, organic light-emitting diode) 디스플레이, 마이크로 전자기계 시스템(MEMS, microelectromechanical systems) 디스플레이, 또는 전자 종이(electronic paper) 디스플레이 등을 포함할 수 있다. 일부 디스플레이는 투명형 또는 광투명형으로 구성되는 투명 디스플레이(transparent display)로 구현될 수 있다.

상기 터치감지부 133은 상기 표시부 131에 안착될 수 있으며, 상기 터치스크린 130 표면에 접촉 또는 근접하는 사용자 입력을 감지할 수 있다. 상기 사용자 입력은 싱글터치(single-touch), 멀티터치(multi-touch), 호버링(hovering), 또는 에어 제스처 중 적어도 하나에 기반하여 입력되는 터치 이벤트 또는 근접 이벤트를 포함할 수 있다. 예를 들어, 상기 사용자 입력은 탭(tap), 드래그(drag), 스윕(sweep), 플릭(flick), 드래그앤드롭(drag&drop), 또는 드로잉 제스처(drawing gesture)(예: 필기) 등)의 방식으로 입력될 수 있다. 상기 터치감지부 133는 상기 터치스크린 130 표면에서 사용자 입력(예: 터치 이벤트 또는 근접 이벤트)을 감지하고, 감지된 사용자 입력에 대응하는 신호를 생성하여 상기 제어부 180에게 전달할 수 있다. 상기 제어부 180은 상기 터치감지부 133에서 전달되는 신호에 의해 사용자 입력(예: 터치 이벤트 또는 근접 이벤트)이 발생된 영역에 해당하는 기능 실행을 제어할 수 있다.

상기 터치감지부 133은 본 발명의 실시 예들에서 전자 장치 100의 사용과 관련된 동작을 개시하기 위한 사용자 입력을 수신할 수 있고, 사용자 입력에 따른 입력 신호를 발생할 수 있다. 상기 터치감지부 133은 표시부 131의 특정 부위에 가해진 압력 또는 표시부 131의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력 신호로 변환하도록 구성될 수 있다. 상기 터치감지부 133은 입력 수단(예: 사용자 손가락, 전자 펜 등)이 표시부 131의 표면 상에 터치 또는 근접되는 위치 및 면적을 검출할 수 있다. 또한 상기 터치감지부 133은 적용한 터치 방식에 따라 터치 시의 압력까지도 검출할 수 있도록 구현될 수 있다. 상기 터치감지부 133에 대한 터치 또는 근접 입력이 있는 경우, 그에 대응하는 신호(들)는 터치스크린 제어기(미도시)로 전달될 수 있다. 상기 터치스크린 제어기(미도시)는 그 신호(들)를 처리한 다음 해당 데이터를 제어부 180에게 전달할 수 있다. 이로써, 제어부 180은 터치스크린 130의 어느 영역이 터치 또는 근접 되었는지 확인할 수 있고, 그에 대응하는 기능 실행 등을 처리할 수 있다.

상기 오디오 처리부 140은 상기 제어부 180로부터 입력 받은 오디오 신호를 스피커(SPK, speaker) 141로 전송하고, 마이크(MIC, microphone) 143로부터 입력 받은 음성 등의 오디오 신호를 제어부 180에 전달하는 기능을 수행할 수 있다. 상기 오디오 처리부 140은 음성/음향 데이터를 제어부 180의 제어에 따라 스피커 141를 통해 가청음으로 변환하여 출력하고, 마이크 143로부터 수신되는 음성 등의 오디오 신호를 디지털 신호로 변환하여 제어부 180에게 전달할 수 있다. 상기 오디오 처리부 140은 데이터에 삽입된 오디오 처리 정보(예: 효과음, 음악 파일 등)에 따라 사용자 입력에 반응하는 오디오 신호를 출력할 수 있다.

상기 스피커 141은 무선 통신부 110로부터 수신되거나, 또는 저장부 150에 저장된 오디오 데이터를 출력할 수 있다. 상기 스피커 141는 전자 장치 100에서 수행되는 다양한 동작(기능)과 관련된 음향 신호를 출력할 수도 있다. 상기 스피커 141은 음성 인식, 음성 복제, 디지털 레코딩(recording) 및 전화 기능과 같은 오디오 스트림(stream)의 출력을 담당할 수 있다. 본 발명의 실시 예에서는 도시하지 않았지만, 상기 스피커 141은 탈부착 가능한(attachable and detachable) 이어폰(ear phone), 헤드폰(head phone) 또는 헤드셋(head set)이 외부 포트를 통해 전자 장치 100에 연결될 수 있다.

상기 마이크 143은 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리할 수 있다. 상기 마이크 143을 통해 처리되는 음성 데이터는 전자 장치 100이 통화 모드인 경우 이동통신 모듈 111을 통하여 외부로 송신 가능한 형태로 변환되어 출력될 수 있다. 상기 마이크 143에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘(noise reduction algorithm)이 구현될 수 있다. 상기 마이크 143은 음성 인식, 음성 복제, 디지털 레코딩(recording) 및 전화 기능과 같은 오디오 스트림의 입력을 담당할 수 있다. 예를 들어, 상기 마이크 143은 음성 신호를 전기 신호로 변환할 수 있다. 본 발명의 실시 예에서, 상기 마이크 143은 무지향성 또는 지향성 중 적어도 일부에 기반하여 사용자의 음성을 입력 받을 수 있다.

본 발명의 다양한 실시 예들에 따르면, 상기 마이크 143은 특정 배열에 기반하여 지향성 패턴이 나타날 수 있는 복수의 마이크들(예: 제1 마이크, 제2 마이크, 제3 마이크 등)로 구성될 수 있다. 복수의 마이크들을 포함하는 전자 장치 100의 경우, 마이크들에 입력되는 음성의 시간, 거리, 또는 소리(음)의 세기(예: 데시벨(decibel)의 차이) 중 적어도 일부에 기반하여 방향을 판별하고, 그에 따른 화자를 구분할 수 있다. 전자 장치 100은 구분된 화자의 방향에 따라 소리를 출력할 수도 있다. 본 발명의 다양한 실시 예들에 따르면, 상기 마이크 143은 전자 장치 100에 실장되는 내장 마이크와 전자 장치에 연결되는 외장 마이크를 포함할 수 있다. 한 실시 예에 따르면, 음성 인식 기능 수행 시 내장 마이크와 외장 마이크의 조합에 의해 음성 인식을 지원할 수 있다.

상기 저장부 150은 제어부 180에 의해 실행되는 하나 또는 그 이상의 프로그램들(one or more programs)을 저장할 수 있고, 입/출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수도 있다. 상기 입/출력되는 데이터들은 예를 들어, 녹음 파일, 콘텐츠, 메신저 데이터(예: 대화 데이터), 컨택트(contact) 정보(예: 유선 또는 무선 전화번호 등), 메시지, 미디어 파일(예: 오디오, 동영상, 이미지 등의 파일) 등이 포함될 수 있다.

상기 저장부 150은 전자 장치 100의 음성 인식 기능과 관련되는 다양한 프로그램들과 데이터를 저장할 수 있다. 예를 들어, 상기 저장부 150은 본 발명의 다양한 실시 예들에서 음성 인식 구간을 구분하고 구분된 구간 별로 상이한 음성 인식을 처리하는 하나 또는 그 이상의 프로그램들 및 그에 따라 처리되는 데이터(예: 인식 결과, 학습 데이터)를 저장할 수 있다.

상기 저장부 150은 전자 장치 100의 동작에 따른 사용 빈도(예: 학습 데이터 사용빈도, 어플리케이션 사용빈도, 콘텐츠 사용빈도 등), 중요도 및 우선순위도 함께 저장할 수 있다. 상기 저장부 150에는 터치스크린 130 상의 터치 입력 또는 근접 입력에 응답하여 출력되는 다양한 패턴(pattern)의 진동 및 음향에 관한 데이터를 저장할 수도 있다. 상기 저장부 150은 전자 장치 100의 운영체제(OS, operating system), 터치스크린 130을 이용한 입력 및 표시 제어와 관련된 프로그램, 전자 장치 100의 다양한 동작(기능)들의 제어와 관련된 프로그램, 그리고 각 프로그램들의 동작에 의해 발생되는 다양한 데이터 등을 지속적으로 또는 일시적으로 저장할 수 있다.

상기 저장부 150은 확장 메모리(예: 외장 메모리) 또는 내부 메모리를 포함할 수 있다. 전자 장치 100은 인터넷 상에서 상기 저장부 150의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

상기 저장부 150은 다양한 소프트웨어를 저장할 수 있다. 예를 들어, 소프트웨어 구성요소는 운영 체제(operating system) 소프트웨어 모듈, 통신 소프트웨어 모듈, 그래픽 소프트웨어 모듈, 사용자 인터페이스 소프트웨어 모듈 및 MPEG(Moving Picture Experts Group) 모듈, 카메라 소프트웨어 모듈, 하나 이상의 어플리케이션 소프트웨어 모듈 등을 포함할 수 있다. 또한 소프트웨어 구성요소인 모듈은 명령어들의 집합으로 표현할 수 있으므로, 모듈을 명령어 세트(instruction set)라고 표현하기도 한다. 모듈은 또한 프로그램으로 표현하기도 한다. 본 발명의 실시 예에서 상기 저장부 150은 앞서 기술한 모듈 이외에 추가적인 모듈(명령어들)을 포함할 수 있다. 또는 필요에 따라, 일부의 모듈(명령어들)을 사용하지 않을 수도 있다.

상기 운영 체제 소프트웨어 모듈은 일반적인 시스템 동작(system operation)을 제어하는 여러 가지의 소프트웨어 구성요소를 포함할 수 있다. 이러한 일반적인 시스템 작동의 제어는, 예를 들면, 메모리 관리 및 제어, 저장 하드웨어(장치) 제어 및 관리, 전력 제어 및 관리 등을 의미할 수 있다. 또한 운영 체제 소프트웨어 모듈은 여러 가지의 하드웨어(장치)와 소프트웨어 구성요소(모듈) 사이의 통신을 원활하게 하는 기능도 수행할 수 있다.

상기 통신 소프트웨어 모듈은 무선 통신부 110을 통해 컴퓨터, 서버 또는 휴대용 단말기 등 다른 전자 장치와 통신을 가능하게 할 수 있다. 그리고, 통신 소프트웨어 모듈은 해당 통신 방식에 해당하는 프로토콜 구조로 구성될 수 있다.

상기 그래픽 소프트웨어 모듈은 터치스크린 130 상에 그래픽을 제공하고 표시하기 위한 여러 가지 소프트웨어 구성요소를 포함할 수 있다. 상기 그래픽(graphics)이란 용어는 텍스트(text), 웹 페이지(web page), 아이콘(icon), 디지털 이미지(digital image), 비디오(video), 애니메이션(animation) 등을 포함하는 의미로 사용될 수 있다.

상기 사용자 인터페이스 소프트웨어 모듈은 사용자 인터페이스(UI)에 관련한 여러 가지 소프트웨어 구성요소를 포함할 수 있다. 예를 들어, 사용자 인터페이스의 상태가 어떻게 변경되는지 또는 사용자 인터페이스 상태의 변경이 어떤 조건에서 이루어지는지 등에 대한 내용을 포함할 수 있다.

상기 MPEG 모듈은 디지털 콘텐츠(예: 비디오, 오디오) 관련 프로세스 및 기능들(예: 콘텐츠의 생성, 재생, 배포 및 전송 등)을 가능하게 하는 소프트웨어 구성요소를 포함할 수 있다.

상기 카메라 소프트웨어 모듈은 카메라 관련 프로세스 및 기능들을 가능하게 하는 카메라 관련 소프트웨어 구성요소를 포함할 수 있다.

상기 어플리케이션 모듈은 렌더링 엔진을 포함하는 웹브라우저(browser), 이메일(email), 즉석 메시지(instant message), 워드 프로세싱(word processing), 키보드 에뮬레이션(keyboard emulation), 어드레스 북(address book), 접촉 리스트(touch list), 위젯(widget), 디지털 저작권 관리(DRM, digital right management), 음성 인식(voice recognition), 음성 복제, 위치 결정 기능(position determining function), 위치 기반 서비스(location based service) 등을 포함할 수 있다. 본 발명의 다양한 실시 예들에 따라, 상기 어플리케이션 모듈은 음성 인식을 위한 명령어들을 포함할 수 있다. 예를 들어, 상기 어플리케이션 모듈은 음성 인식 시 설정된 정보에 기반하여 구분된 음성 인식 구간에 대응하는 정보를 제공할 수 있고, 구분된 구간 별 음성 인식을 처리할 수 있다.

상기 인터페이스부 160은 전자 장치 100에 연결되는 모든 외부 기기와의 인터페이스 역할을 수행할 수 있다. 상기 인터페이스부 160은 외부 기기로부터 데이터를 전송 받거나, 전원을 공급받아 전자 장치 100 내부의 각 구성들에 전달하거나, 전자 장치 400 내부의 데이터가 외부 기기로 전송되도록 할 수 있다. 예를 들어, 유/무선 헤드셋 포트(port), 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 입/출력(Input/Output) 포트, 비디오 입/출력 포트, 이어폰 포트 등이 인터페이스부 160에 포함될 수 있다.

상기 카메라 모듈 170은 전자 장치 100의 촬영 기능을 지원하는 구성을 나타낸다. 상기 카메라 모듈 170은 피사체의 영상(정지 영상 또는 동영상) 촬영을 지원할 수 있다. 상기 카메라 모듈 170은 제어부 180의 제어에 따라 임의의 피사체를 촬영하고, 촬영된 데이터를 표시부 131 및 제어부 180에 전달할 수 있다. 상기 카메라 모듈 170은 입력된 광 신호를 전기적 신호로 변환하는 이미지 센서(또는 카메라 센서)(미도시)와, 상기 이미지 센서로부터 입력되는 전기적 신호를 디지털 영상 데이터로 변환하는 이미지 신호 처리부(미도시) 등을 포함하여 구성될 수 있다. 상기 이미지 센서는 CCD(charge-coupled device) 또는 CMOS(complementary metal-oxide-semiconductor) 등의 방식을 이용하는 센서를 포함할 수 있다. 상기 카메라 모듈 170은 사용자 설정에 따른 다양한 촬영 옵션(예: 주밍(zooming), 화면 비율, 효과(effect)(예: 스케치, 모노, 세피아, 빈티지, 모자이크, 액자 등)에 따른 촬영을 지원하기 위한 이미지 처리 기능을 지원할 수 있다.

상기 제어부 180은 전자 장치 100의 전반적인 동작을 제어할 수 있다. 예를 들어, 상기 제어부 180은 음성 통신, 데이터 통신, 화상 통신 등에 관련된 제어를 수행할 수 있다. 상기 제어부 180은 하나 이상의 프로세서를 포함하거나, 또는 제어부 180을 프로세서로 칭할 수도 있다. 예를 들어, 상기 제어부 180은 통신 프로세서(CP, communication processor), 어플리케이션 프로세서(AP, application processor), 인터페이스(예: GPIO(general purpose input/output)), 또는 내부 메모리 등을 별개의 구성요소로 포함하거나, 또는 하나 이상의 집적화된 회로에 집적화될 수 있다. 상기 어플리케이션 프로세서는 여러 가지의 소프트웨어 프로그램을 실행하여 전자 장치 100을 위한 여러 기능을 수행할 수 있고, 상기 통신 프로세서는 음성 통신 및 데이터 통신을 위한 처리 및 제어를 수행할 수 있다. 또한 상기 제어부 180은 저장부 150에 저장되어 있는 특정한 소프트웨어 모듈(명령어 세트(instruction set))을 실행하여 그 모듈에 대응하는 특정한 여러 가지의 기능을 수행하는 역할을 담당할 수 있다.

본 발명의 다양한 실시 예들에 따르면, 상기 제어부 180은 음성 인식 기능을 수행하는 것과 관련된 동작을 제어할 수 있다. 예를 들어, 상기 제어부 180은 전자 장치 100의 음성 인식을 개시하는 동작 중에 화자의 방향을 판단할 수 있고, 판단된 화자 방향에 대응하도록 마이크 143의 빔포밍 방향을 변경하도록 제어할 수 있다. 상기 제어부 180은 상기 음성 인식을 개시할 때 음성 인식 구간(예: 제1구간, 제2구간)의 구분 형태를 확인할 수 있고, 확인된 음성 인식 구간의 구분 형태에 대응하여 구간 별 음성 인식을 처리하도록 제어할 수 있다. 예를 들어, 상기 제어부 180은 상기 확인된 음성 인식 구간의 구분 형태에 대응하는 제1구간(예: 빔 형성 구간)과 제2구간(예: 인식 구간)에서 입력되는 음성을 상이한 방식으로 음성 인식을 수행하도록 제어할 수 있다. 상기 제어부 180은 상기 음성 인식을 진행하는 동작 중에 화자 정보, 화자의 방향 정보 또는 화자의 거리 정보, 인식 결과 중 적어도 일부를 표시부 131을 통해 표시하도록 제어할 수 있다. 상기 제어부 180은 상기 음성 인식을 진행하는 동작 중에 학습 데이터를 생성하고 생성된 학습 데이터를 내부(예: 저장부 150) 또는 외부(예: 다른 전자 장치, 서버)에 저장하도록 제어할 수 있다.

상기 제어부 180은 음성 인식 중에 화자, 화자 위치(거리, 방향)를 구분하여 음성 인식을 처리할 수 있다.

본 발명의 다양한 실시 예들에 따르면, 상기 제어부 180은 하나 또는 그 이상의 마이크들을 이용하여 에너지가 큰 방향의 각도 정보를 획득하거나 음성이 도달하는 위상 차를 이용하여 음원을 방향을 판정할 수 있다. 상기 제어부 180은 일정 시간 누적된 방향에 기반하여 음원에 따른 화자의 영역을 판단할 수 있고, 일정 크기의 음량 크기 이하이거나 또는 이전 음향의 평균 각도 값과 차이가 큰 값이 들어오는 경우 잡음(noise) 또는 의미 없는 음성으로 처리할 수 있다. 상기 제어부 180은 음성 인식 시 음성 인식 구간을 크게 빔 형성 구간(예: 음성 비인식 구간, 무지향성 인식 구간, 무지향성 기반 인식 구간)과, 인식 구간(예: 음성 인식 구간, 지향성 인식 구간, 지향성 기반 인식 구간)을 구분할 수 있고, 구분된 음성 인식 구간 별로 상이한 음성 인식 동작을 처리할 수 있다. 또한 제어부 180은 음성 인식 동작을 수행하는 결과에 따른 다양한 정보(예: 인식 결과, 학습 데이터)를 저장하는 동작을 처리할 수 있다.

본 발명의 다양한 실시 예들에 따르면, 제어부 180은 저장부 150에 저장된 소프트웨어 모듈들과 연동하여 다양한 실시 예에 따른 전자 장치 100의 전술한 바와 같은 음성 인식 동작을 수행할 수 있다. 본 발명의 다양한 실시 예들에 따르면, 상기 제어부 180은 상기한 다양한 기능들을 처리할 수 있는 하나 이상의 모듈들로 구현될 수 있다. 본 발명의 다양한 실시 예들에 따르면, 상기 제어부 180은 저장부 150에 저장되는 하나 또는 그 이상의 프로그램들을 실행하여 본 발명의 다양한 실시 예들에 따른 전자 장치 100의 동작을 제어하는 하나 또는 그 이상의 프로세서들(one or more processors)로 구현될 수 있다. 예를 들어, 상기 제어부 180은 후술하는 방향 탐지 모듈(direction detection module), 빔포머(beamformer), 특징 추출 모듈(feature extraction module), 디코더(decoder), 모델링 모듈(modeling module), 학습 모듈(training module), 그리고 출력 모듈 등 적어도 일부를 포함하는 음성 인식부 185를 포함하여 구현될 수 있다.

본 발명의 실시 예에서 상기 음성 인식부 185는 상기 마이크 143으로 입력된 사용자의 음성이 오디오 처리부 140를 통해 전달되면, 상기 음성에 대한 음성 인식을 지원하는 구성을 나타낸다. 상기 음성 인식부 185는 설정된 음성 인식 구간의 구분 형태에 따라 빔 형성 구간과 인식 구간에 대한 음성 인식을 처리할 수 있다. 예를 들어, 상기 음성 인식부 185는 상기 빔 형성 구간에서는 입력 음성에 대해 음성 인식 처리를 수행하지 않거나, 상기 빔 형성 구간 동안에는 무지향성으로 음성 인식을 처리하거나, 또는 무지향성과 지향성으로 음성 인식을 처리하되 무지향성에 가중치(W, weighting)를 높게 두어 음성 인식을 처리할 수 있다. 또한 상기 음성 인식부 185는 상기 인식 구간에서는 입력 음성에 대해 음성 인식을 처리하거나, 상기 인식 구간 동안에는 지향성으로 음성 인식을 처리하거나, 또는 무지향성과 지향성으로 음성 인식을 처리하되 지향성에 가중치를 높게 두어 음성 인식을 처리할 수 있다.

이하의 설명에서 상기 음성 인식 구간은 크게 상기 빔 형성 구간과 상기 인식 구간으로 구분될 수 있다. 본 발명의 다양한 실시 예들에서 상기 빔 형성 구간은 음성 비인식 구간, 무지향성 인식 구간, 또는 무지향성 기반 인식 구간을 포함하는 용어로 사용될 수 있고, 상기 인식 구간은 음성 인식 구간, 지향성 인식 구간, 또는 지향성 기반 인식 구간을 포함하는 용어로 사용될 수 있다.

상기 음성 비인식 구간은 입력되는 음성에 대해 음성 인식에서 제외하는 구간을 나타낼 수 있고, 상기 음성 인식 구간은 상기 비인식 구간 이후(빔 형성을 위한 일정 시간 경과 이후) 입력되는 음성에 대해 음성 인식을 처리하는 구간을 나타낼 수 있다. 또한 상기 무지향성 인식 구간은 무지향성으로 음성을 입력 받고 그에 대한 음성 인식을 처리하는 구간을 나타낼 수 있고, 상기 지향성 인식 구간은 지향성으로 음성을 입력 받고 그에 대한 음성 인식을 처리하는 구간을 나타낼 수 있다. 또한 상기 무지향성 기반 인식 구간은 무지향성 및 지향성으로 음성을 동시에 입력 받고 무지향성으로 입력되는 음성에 가중치를 높게 설정하여 음성 인식을 처리하는 구간을 나타낼 수 있고, 상기 지향성 기반 인식 구간은 무지향성 및 지향성으로 음성을 동시에 입력 받고 지향성으로 입력되는 음성에 가중치를 높게 설정하여 음성 인식을 처리하는 구간을 나타낼 수 있다.

본 발명의 다양한 실시 예들에 따른 제어부 180은 상기의 기능 외에 전자 장치 100의 통상적인 기능과 관련된 각종 동작을 제어할 수 있다. 예를 들어, 제어부 180은 특정 어플리케이션 실행 시 그의 운영 및 화면 표시를 제어할 수 있다. 또한 제어부 180은 터치 기반 또는 근접 기반의 입력 인터페이스(예: 터치스크린 130)에서 지원하는 다양한 터치 이벤트 또는 근접 이벤트 입력에 대응하는 입력 신호를 수신하고 그에 따른 기능 운영을 제어할 수 있다. 또한 제어부 180은 유선통신 기반 또는 무선통신 기반으로 각종 데이터의 송수신을 제어할 수도 있다.

상기 전원 공급부 190은 제어부 180의 제어에 의해 외부의 전원, 내부의 전원을 인가 받아 각 구성 요소들의 동작에 필요한 전원을 공급할 수 있다. 본 발명의 실시 예에서 상기 전원 공급부 190은 제어부 180의 제어에 의해 상기 표시부 131, 상기 마이크 143 등에 전원을 공급 또는 차단(on/off)할 수 있다.

본 발명에서 설명되는 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 발명에서 설명되는 실시 예들은 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다.

본 발명의 다양한 실시 예들에서, 상기 기록 매체는 음성 인식을 위한 음성 인식 구간을 제1구간과 제2구간으로 구분하는 동작, 상기 제1구간에서 입력 음성과 상기 제2구간에서 입력 음성에 대해 상이한 방식으로 음성 인식을 처리하는 동작을 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체를 포함할 수 있다.

그리고 일부의 경우에 본 명세서에서 설명되는 실시 예들이 제어부 180 자체로 구현될 수 있다. 또한 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수도 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.

본 발명의 다양한 실시 예들에 따르면, 전자 장치 100이 수행하는 기능(예: 음성 인식 기능) 중의 적어도 일부는 그 외부 장치(예: 서버)에 의해 수행될 수 있다. 예를 들면, 상기 서버는 제어부 180에 대응하는 처리 모듈을 포함하고, 상기 처리 모듈을 이용하여 음성 인식 구간을 구분하고 구분된 구간 별로 음성 인식을 수행하는 것과 관련된 기능의 적어도 일부를 처리하고 그 결과를 전자 장치 100에 전송할 수 있다.

도 2는 본 발명의 실시 예에 따른 전자 장치에서 음성 인식부의 구성 예시를 도시하는 도면이다.

상기 도 2를 참조하면, 본 발명의 실시 예에 따른 전자 장치 100의 음성 인식부 185는, 방향 탐지 모듈 210, 빔포머 220, 특징 추출 모듈 230, 디코더 240, 음향 모델링 모듈(acoustic modeling module) 250, 언어 모델링 모듈(language modeling module) 260, 제1 학습 모듈(first training module) 270, 제2 학습 모듈(second training module) 280, 그리고 출력 모듈 290 등을 포함할 수 있다.

상기 마이크 143은 사용자 200의 음성을 입력 받아 오디오 처리부 140을 통해 음성 신호로 변환하여 방향 탐지 모듈 210에 제공할 수 있다.

상기 방향 탐지 모듈 210은 상기 음성 신호의 입력으로부터 사용자(화자) 200의 방향(위치)를 탐지할 수 있다. 한 실시 예에 따르면, 방향 탐지 모듈 210은 마이크 143에 입력되는 음성의 시간, 거리, 또는 소리(음)의 세기(예: 데시벨(decibel)의 차이) 중 적어도 일부에 기반하여 사용자 200의 방향을 판별할 수 있다. 상기 방향 탐지 모듈 210은 상기 판별된 결과(예: 방향 정보)를 빔포머 200에 제공할 수 있다.

상기 빔포머 220은 상기 방향 탐지 모듈 210의 방향 정보를 획득하고, 타겟 음성(예: 사용자 200의 음성)이 마이크 143에 보다 정확하게 입력될 수 있도록 상기 획득된 방향 정보에 대응하는 방향으로 빔(beam)을 형성할 수 있다. 여기서, 빔이 사용자 200의 방향으로 향해 있지 않는 경우 사용자 200의 방향(위치)에 대응하게 빔을 형성하는 데 일정 시간(예: tracking time)(예: 0.3초)이 지연될 수 있고, 상기 일정 시간 동안 사용자 200의 음성이 마이크 143을 통해 정확하게 입력되지 않을 수 있다. 이에, 본 발명의 실시 예에서는 빔이 형성하는 데 필요한 일정 시간으로 인해 음성 인식률이 저하되는 문제를 개선하기 위한 다양한 방안이 제공된다.

상기 특징 추출 모듈 230은 상기 마이크 143을 통해 입력되는 음성 신호로부터 해당 음성의 특징(예: 포만트 정보(formant information), LPC(Linear Predictive Coding) 계수, 전체 파워(power) 성분 등)을 추출할 수 있다. 상기 특징 추출 모듈 230은 추출된 특징에 대응하는 특징 정보를 생성할 수 있고, 생성된 특징 정보를 상기 디코더 240에 제공할 수 있다.

한편, 전자 장치 100은 상기와 같이 추출된 특징 정보에 기반하여 각 발성에 대해 하나의 모델(model)(예: 입력 음성을 이용하여 학습된 학습 데이터)을 생성하여 관리할 수 있다. 예를 들어, 전자 장치 100은 확률 통계적인 방식으로 모델을 생성할 수 있다. 한 실시 예에 따르면, 음성 인식에서 하나의 입력된 발성을 분석하여 이에 대한 특징 정보를 추출한 후 이미 만들어 놓은 각 발성들의 특징과 비교하여 가장 근사한 발성에 대해 인식의 결과로 출력하게 된다. 이를 위하여 전자 장치 100은 하나 또는 그 이상의 모델링 모듈(modeling module)과 상기 모델링 모듈에 대응하게 구성되는 학습 모듈(training module)을 포함할 수 있다. 예를 들어, 전자 장치 100은 학습 모듈(예: 제1 학습 모듈 270)에서 학습을 통해 단음(phone, 單音) 단위의 확률 모델을 생성하는 음향 모델링 모듈 250과, 학습 모듈(예: 제2 학습 모듈 280)에서 학습을 통해 언어 확률 모델을 생성하는 언어 모델링 모듈 260을 포함할 수 있다. 전자 장치 100에서 다양한 모델링 모듈 및 학습 모듈은 사용자 200 음성의 음성 인식률을 높이기 위해 다양하게 설계될 수 있다.

상기 디코더 240은 상기 특징 추출 모듈 230에서 출력되는 특징 정보를 디코딩(decoding)하여 상기 학습 모듈(예: 제1 학습 모듈 270, 제2 학습 모듈 280)과 출력 모듈 290에 제공할 수 있다. 상기 디코더 240은 상기 음향 모델링 모듈 250과 상기 언어 모델링 모듈 260으로부터 획득하는 모델과 상기 특징 추출 모듈 230에서 제공되는 특징 정보를 비교할 수 있고, 가장 확률이 높은 음소를 찾아서 출력할 수 있다.

상기 학습 모듈(예: 제1 학습 모듈 270, 제2 학습 모듈 280)은 상기 디코더 240에서 패스(pass)된 음성 신호에 기반하여 각 모델(예: 학습 데이터)을 위한 학습을 수행할 수 있다. 본 발명의 실시 예에서, 음향 모델링과 언어 모델링에 필요한 데이터 및 모델링된 모델은 전자 장치 100의 저장부 150, 네트워크를 통해 연결되는 다른 전자 장치 또는 서버 중 적어도 하나에 저장될 수 있으며, 주기적으로 또는 간헐적으로 업데이트될 수 있다.

상기 출력 모듈 290은 상기 디코더 240에 의해 디코딩된 데이터(예: 음성 신호)에 기반하여 상기 사용자 200로부터 입력된 음성에 대응하는 정보(예: 인식 결과)를 출력할 수 있다. 예를 들면, 출력 모듈 290은 상기 음성 신호에 대응하여 인식된 커맨드(command) 또는 텍스트(text) 를 출력할 수 있다.

본 발명의 실시 예에서 사용된 용어 “모듈”은, 예를 들면, 하드웨어(hardware), 펌웨어(firmware) 또는 소프트웨어(software) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. “모듈”은, 예를 들면, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component), 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. "모듈"은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, "모듈"은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.

그리고 본 발명의 실시 예에서 개시된 실시 예는, 기술 내용의 설명 및 이해를 위해 제시된 것이며, 본 발명에서 기재된 기술의 범위를 한정하는 것은 아니다. 따라서 본 발명의 범위는 본 문서의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시 예를 포함하는 것으로 해석되어야 한다.

상기 도 2에 도시된 바와 같이, 사용자 200은 전자 장치 100을 조작하여 음성 인식(voice recognition) 기능을 실행할 수 있고, 전자 장치 100은 사용자 200 요청에 응답하여 음성 인식 기능을 실행할 수 있다. 또는 전자 장치 100은 미리 설치된 어플리케이션(application)의 실행에 반응하여 음성 인식 기능을 자동으로 실행할 수도 있다. 전자 장치 100은 음성 인식 기능을 실행할 때 전자 장치 100의 마이크 143을 활성화(예: 턴-온(turn-on))할 수 있다. 사용자 200는 전자 장치 100의 음성 인식 기능을 실행하고 특정 음성(예: ‘hi galaxy’)를 발화할 수 있고, 사용자 200에 의해 발화된 음성은 상기 마이크 143을 통해 입력되어 오디오 처리부 140에서 통상적인 신호 처리 후 제어부 180(예: 음성 인식부 185)에 입력될 수 있다.

도 3은 본 발명의 실시 예에 따른 전자 장치에서 음성 인식을 처리하는 동작 절차를 도시하는 흐름도이다.

상기 도 3을 참조하면, 동작 301에서, 제어부 180은 음성 인식 기능을 실행할 수 있다. 예를 들어, 제어부 180은 전자 장치 100을 조작하여 음성 인식 기능 실행을 요청하는 사용자 입력을 수신할 수 있고, 상기 사용자 입력에 응답하여 음성 인식 기능을 실행할 수 있다. 제어부 180은 음성 인식 기능을 실행할 때 마이크 143의 활성화 상태(예: 온/오프(On/Off))에 따라 선택적으로 마이크 143을 활성화하는 동작을 더 포함할 수 있다.

동작 303에서, 제어부 180은 상기 마이크 143을 통해 음성 신호의 입력을 감지할 수 있다. 예를 들어, 사용자 200가 소리를 내어 말을 하면, 해당 소리가 전자 장치 100에 설치된 마이크 143에 입력될 수 있다. 상기 마이크 143은 상기 소리를 입력 받아 전기적 신호(음성 신호)로 변환하여 상기 제어부 180에게 전달할 수 있다.

동작 305에서, 제어부 180은 상기 마이크 143을 통해 음성 신호가 입력되면, 입력된 음성 신호에 기반하여 화자의 방향을 판별할 수 있다. 예를 들어, 제어부 180은 상기 마이크 143로부터 입력된 음성 신호에 대해, 음성 신호의 도착 시간(TDOA, Time Difference Of Arrival) 기반 음원 위치 추적 방식으로 연산을 수행할 수 있다. 상기 TDOA와 같은 알고리즘은 서로 다른 위치에 설치된 복수의 마이크들(마이크 배열(microphone array)(예: 제1 마이크, 제2 마이크, 제3 마이크)로부터 들어오는 음원(음성 신호)의 도착 지연 차이를 이용하여 음원의 위치를 추적하는 방식을 나타낼 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 TDOA를 이용하여 음성 신호(예: 음성 신호의 파형) 사이에 존재하는 상대적인 시간 지연을 측정할 수 있다. 또는 제어부 180은 상기 복수의 마이크들로부터 입력된 음성 신호에 대해, 상기 음성 신호의 주파수, 위상, 또는 음압을 비교하는 SRP(steered response power) 기반 음원 위치 추적 방식으로 연산을 수행할 수 있다. 또한 제어부 180은 음원 추적을 위한 여러 알고리즘을 복합적으로 이용할 수도 있다. 본 발명의 실시 예에서 제어부 180은 상기 연산 결과에 기반하여 음원의 방향을 판단할 수 있다. 예를 들어, 제어부 180은 상기 TDOA 또는 SRP 등과 같은 음원 위치 추적 알고리즘을 통해 연산된 결과로부터 음원의 방향을 판단할 수 있고, 음원의 방향에 따라 화자의 방향(위치)을 결정할 수 있다.

동작 307에서, 제어부 180은 상기 판단하는 동작의 결과(예: 화자의 방향)에 기반하여 마이크 143의 빔포밍 방향(beamforming direction)을 판단할 수 있다. 예를 들어, 제어부 180은 화자의 방향과 빔포밍 방향이 서로 대응(예: 설정된 오차 범위 내에서 일치)하는지 판단할 수 있다.

상기 동작 307에서, 제어부 180은 화자의 방향과 빔포밍 방향이 대응되는 것으로 판단하는 경우(동작 307의 Yes), 동작 309에서, 마이크 143을 통해 입력되는 음성 신호에 대응하여 음성 인식 동작을 처리할 수 있다. 다양한 실시 예들에 따르면, 제어부 180은 빔포밍으로 입력된 음성에 기반하여 미리 학습된 학습 데이터에 기반하여 상기 입력되는 음성 신호에 대한 음성 인식 동작을 처리할 수도 있다.

상기 동작 307에서, 제어부 180은 화자의 방향과 빔포밍 방향이 대응되지 않는 것으로 판단하는 경우(동작 307의 No), 동작 311에서, 음성 인식을 위한 음성 인식 구간을 설정된 분리 방식에 기반하여 분리(예: 빔 형성 구간 & 인식 구간(예: 음성 비인식 구간 & 음성 인식 구간, 무지향성 인식 구간 & 지향성 인식 구간, 또는 무지향성 기반 인식 구간 & 지향성 기반 인식 구간)할 수 있다.

이하의 설명에서, 상기 빔 형성 구간(예: 음성 비인식 구간, 무지향성 인식 구간, 무지향성 기반 인식 구간)은 화자의 방향과 빔포밍 방향이 다른 경우에 있어서 빔포밍 방향을 화자의 방향에 대응되도록 형성하는 데 소요되는 일정 시간(예: tracking time)(예: 0.3초) 동안 화자의 음성이 정상적으로 입력되지 않는 구간을 포함하는 용어로 사용될 수 있다. 상기 빔 형성 구간은 상기 마이크 143을 통해 음성 신호를 감지하는 시점에서부터 상기 일정 시간(예: 0.3초)까지의 구간을 포함할 수 있다. 상기 빔 형성 구간은 음성 신호의 입력 유무에 관계 없이 해당 구간에서는 음성 인식을 처리하지 않거나, 무지향성으로 음성 신호를 입력 받아 음성 인식을 처리하거나, 또는 무지향성과 지향성으로 음성 신호를 동시에 입력 받고 무지향성에 가중치를 두어 음성 인식을 처리하는 구간을 나타낼 수 있다.

상기 인식 구간(예: 음성 인식 구간, 지향성 인식 구간, 지향성 기반 인식 구간)은 화자의 방향에 대응하는 방향으로 빔이 형성된 이후의 구간으로, 화자의 음성이 정상적으로 인식(입력)되는 구간을 포함하는 용어로 사용될 수 있다. 상기 인식 구간은 상기 빔 형성 구간 이후(예: 상기 마이크 143을 통해 음성 신호를 감지하는 시점에서 0.3초 이후)부터 음성 인식 동작의 종료 시까지의 구간을 포함할 수 있다. 상기 인식 구간은 정상적으로 입력되는 음성으로 판단된 시점에서부터 음성 인식을 처리하거나, 무지향성에서 지향성으로 변경된 후 음성 신호를 입력 받아 음성 인식을 처리하거나, 또는 무지향성과 지향성으로 음성 신호를 동시에 입력 받고 지향성에 가중치를 두어 음성 인식을 처리하는 구간을 나타낼 수 있다.

동작 313에서, 제어부 180은 상기 분리된 음성 인식 구간이 분리된 방식에 대응하여 각 구간 별 음성 인식 동작을 처리할 수 있다.

예를 들어, 제어부 180은 음성 인식 구간이 음성 비인식 구간과 음성 인식 구간으로 분리되는 방식에서는 상기 음성 비인식 구간 동안 입력되는 음성에 대해서는 인식 과정을 생략할 수 있고, 상기 음성 인식 구간 동안 입력되는 음성에 대해서만 인식 과정을 수행할 수 있다.

또는 제어부 180은 음성 인식 구간이 무지향성 인식 구간과 지향성 인식 구간으로 분리되는 방식에서는 상기 무지향성 인식 구간에서는 무지향성으로 음성을 입력 받아 인식 과정을 수행할 수 있고, 상기 지향성 인식 구간에서는 빔이 형성된 방향에 대응하여 지향성으로 음성을 입력 받아 인식 과정을 수행할 수 있다.

또는 제어부 180은 음성 인식 구간이 무지향성 기반 인식 구간과 지향성 기반 인식 구간으로 분리되는 방식에서는 상기 무지향성 기반 인식 구간 동안 무지향성과 지향성으로 음성을 동시에 입력 받고 무지향성으로 입력되는 음성에 가중치를 높게 두어 인식 과정을 수행할 수 있고, 상기 지향성 기반 인식 구간 동안 무지향성과 지향성으로 음성을 동시에 입력 받고 지향성으로 입력되는 음성에 가중치를 높게 두어 인식 과정을 수행할 수 있다.

한편, 제어부 180은 음성 인식 기능에 따른 상기한 동작을 처리하는 중에 음성 인식 기능 종료를 위해 설정된 인터페이스(예: 종료 버튼)에 의한 사용자 입력이 있거나, 또는 미리 설정된 시간(예: T초, T는 자연수) 이상 마이크 143로 입력되는 음성 신호가 감지되지 않으면, 상기 음성 인식 기능을 종료할 수 있다. 또한 제어부 180은 음성 인식 기능이 종료되거나 또는 음성 인식 기능을 처리하는 중에 음성 인식 구간에서 인식된 음성에 대응하는 커맨드 또는 텍스트를 출력하거나, 그에 대응되는 기능을 처리할 수 있다.

본 발명의 다양한 실시 예들에서는, 음성 인식에 따른 음성 인식률 개선을 위해 다양한 방식들 중 적어도 하나의 방식이 설정될 수 있고, 설정된 적어도 하나의 방식에 대응하여 음성 인식 처리를 수행할 수 있다. 본 발명의 실시 예에서, 상기 빔 형성 구간과 상기 인식 구간의 구분은, 빔을 형성하는 일정 시간(예: 0.3초) 동안 상기 마이크 143으로 음성의 첫 음절이 정상적으로 입력되지 않거나 잘려서 입력되어 음성 인식률의 저하를 방지하기 위한 것이다.

본 발명의 다양한 실시 예들에 따르면, 상기 빔 형성 구간(예: 음성 비인식 구간)(예: 음성의 첫 음절이 입력되지 않거나 잘려서 입력되는 구간)에서 입력된 음성은 무시(입력된 음성 신호에 대한 인식 처리 생략)하고, 빔 형성이 완료(예: 화자의 방향을 향해 빔 형성)되는 인식 구간(예: 음성 인식 구간)에서부터 입력된 음성에 대한 인식 처리를 수행할 수 있다.

또한 본 발명의 다양한 실시 예들에 따르면, 상기 빔 형성 구간(예: 무지향성 인식 구간)에서 입력되는 음성에 대해서는 무지향성(omni directional, nondirectional)으로 음성 인식 처리를 수행하고, 상기 인식 구간(예: 지향성 인식 구간)에서부터 입력된 음성에 대해서는 지향성(directivity)으로 음성 인식 처리를 수행할 수 있다.

또한 본 발명의 다양한 실시 예들에 따르면, 상기 빔 형성 구간(예: 무지향성 기반 인식 구간)과 상기 인식 구간(예: 지향성 기반 인식 구간)에 대응하는 전 음성 인식 구간에서 연판정(SD, Soft Decision) 기법에 기초하여 가중치(W, weighting)를 상이하게 적용하여 음성 인식 처리를 수행할 수 있다. 예를 들어, 음성 인식 초반(예: 빔 형성 구간)에는 무지향성(예: W: 0.9)과 지향성(예: W: 0.1)의 설정 비율에 기반하여 음성 인식 처리를 수행하고, 음성 인식 중/후반(예: 인식 구간)에는 무지향성(예: W: 0.2)과 지향성(예: W: 0.8)의 설정 비율에 기반하여 음성 인식 처리를 수행할 수 있다.

또한 본 발명의 다양한 실시 예들에 따르면, 빔포밍으로 입력되는 음성에 대해 학습하도록 처리하고, 학습에 기반하여 빔포밍으로 입력된 음성에 대응하는 학습 데이터를 획득할 수 있다. 따라서 본 발명의 실시 예에 따르면, 빔포밍으로 입력되는 음성에 대해 미리 학습된 학습 데이터에 기초하여 보다 정확한 음성 인식 결과를 출력할 수 있다. 본 발명의 실시 예에서 상기 학습 데이터는 전자 장치 100, 외부의 다른 전자 장치 또는 외부의 서버 중 적어도 하나에 저장될 수 있다.

이하에서는, 음성 인식률을 개선하기 위한 상기 다양한 실시 예들에 대하여 설명하기로 한다. 이하에서, 상기 다양한 동작들에 대한 설명 시 상기 도 3에서 설명한 바와 같은 동작 301의 음성 인식 기능 실행 동작, 동작 303의 음성 신호 감지 동작 등과 같이 음성 인식 구간 분리를 위한 사전 동작이 진행된 상태를 가정하여 설명하기로 한다.

도 4는 본 발명의 실시 예에 따른 전자 장치에서 음성 인식 구간 분리에 의해 음성 인식을 처리하는 동작 절차를 도시하는 흐름도이고, 도 5는 상기 도 4에 대응하는 동작을 설명하기 위해 도시하는 도면이다.

상기 도 4 및 도 5를 참조하면, 동작 401에서, 제어부 180은 화자 500의 방향을 판단할 수 있다. 예를 들어, 제어부 180은 마이크 143을 통해 화자 500의 음성 신호가 입력되면, 입력된 음성 신호를 설정된 방식으로 연산할 수 있고, 연산된 결과에 기반하여 화자 500의 방향(음원의 방향)을 판단할 수 있다.

동작 403에서, 제어부 180은 현재 형성된 빔포밍 방향(beamforming direction)을 판단할 수 있다. 예를 들어, 전자 장치 100의 빔포밍 방향 503이 상기 도 5에 도시된 바와 같이 화자 500가 위치한 방향과 반대 방향으로 형성된 상태일 수 있고, 제어부 180은 현재 형성된 빔포밍 방향 503을 설정된 다양한 정보(예: 빔포밍 방향 설정(저장) 정보, 또는 빔포밍 방향 추적 정보)로부터 확인할 수 있다. 상기 현재 형성된 빔포밍 방향은, 사전에 고정된 특정 방향이거나, 이전에 수행된 음성 인식 기능에서 마지막으로 형성된 임의의 특정 방향일 수 있다.

동작 405에서, 제어부 180은 화자 500의 방향과 빔포밍 방향 503을 비교하여 그의 일치 정도를 판단할 수 있다. 본 발명의 실시 예에서 방향들(예: 화자 500의 방향, 빔포밍 방향 503) 간의 일치 정도 비교는 획득된 각 방향 정보들(예: 각도)에 기반하여 비교할 수 있고, 비교하는 동작 결과의 값(예: 각도 차이 값)이 미리 설정되는 오차 범위에 포함되는지 여부에 따라 그들의 일치 여부를 결정할 수 있다.

동작 407에서, 제어부 180은 상기 비교하는 동작 결과에 따라 화자 500의 방향과 빔포밍 방향 503이 서로 불일치 하는 것으로 판단하면, 동작 409에서, 음성 비인식 구간(빔 형성 구간)으로 동작하도록 처리할 수 있다. 예를 들어, 앞서 예시한 바와 같이, 전자 장치 100의 빔포밍 방향 503이 화자 500의 반대 방향으로 형성되어 있을 수 있다. 제어부 180은 빔포밍 방향 503과 화자 500의 방향이 불일치 하는 것으로 판단하면 음성 비인식 구간(빔 형성 구간) 509에서의 음성 인식 동작을 처리할 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 음성 비인식 구간 509에서의 동작을 결정하게 되면, 상기 음성 비인식 구간 509의 결정 이전 또는 상기 음성 비인식 구간 509 동안 상기 마이크 143을 통해 입력된 음성 신호(예: Hi 510)에 대해서는 음성 인식 처리를 생략(제외)할 수 있다. 즉, 제어부 180은 상기 음성 비인식 구간 509 동안에 입력되는 음성 신호에 대해서는 무시 처리할 수 있다.

동작 411에서, 제어부 180은 전자 장치 100에 현재 형성된 빔포밍 방향 503을 상기 화자 500의 방향에 대응하도록 설정(변경)할 수 있다. 예를 들어, 제어부 180은 상기 도 5의 동작 511의 예시와 같이 전자 장치 100의 빔포밍 방향 503을 상기 화자 500의 방향으로 회전할 수 있다.

동작 413에서, 제어부 180은 음성 비인식 구간 509의 완료 여부를 판단할 수 있다. 예를 들어, 제어부 180은 음성 비인식 구간 509에서 빔포밍 방향 503을 화자 500의 방향에 대응하도록 형성(예: 빔포밍 방향 회전 511)하는 데 필요한 일정 시간(예: 0.3초)이 완료(빔포밍 방향 회전 완료)되는지 판단할 수 있다.

상기 동작 413에서, 제어부 180은 음성 비인식 구간 509가 완료되지 않는 것으로 판단하는 경우(동작 413의 No), 상기 동작 409로 진행하여 이하의 동작 수행을 처리할 수 있다.

상기 동작 413에서, 제어부 180은 음성 비인식 구간 509가 완료되는 것으로 판단하는 경우(동작 413의 Yes), 동작 415에서, 음성 인식 구간으로 동작하도록 처리할 수 있다. 예를 들어, 상기 도 5에 도시된 바와 같이, 음성 비인식 구간(빔 형성 구간) 509 이후 즉, 빔포밍 방향 503이 화자 500의 방향과 대응되는 시점부터 음성 인식 구간 515로 동작할 수 있고, 상기 음성 인식 구간 515에서 상기 마이크 143을 통해 입력되는 음성 신호(예: Galaxy 530)에 대해서 음성 인식 처리를 수행할 수 있다.

본 발명의 실시 예에 따르면, 상기 도 4 및 도 5의 예시와 같이, 음성 인식에 따른 전체의 음성 인식 구간을 음성 비인식 구간 509와 음성 인식 구간 515로 분리할 수 있고, 상기 음성 비인식 구간 509에서 입력되는 비정상적 또는 부정확한 음성 신호는 음성 인식 동작에서 제외할 수 있고, 음성 인식 구간 515에서 입력되는 음성 신호에 대해 정상적인 음성 인식을 수행할 수 있다. 따라서 음성 비인식 구간 509에서의 부정확한 음성 신호에 의한 오류를 사전에 방지할 수 있도록 하여 음성 인식률을 높일 수 있다.

도 6은 본 발명의 실시 예에 따른 전자 장치에서 음성 인식 구간 분리에 의해 음성 인식을 처리하는 다른 동작 절차를 도시하는 흐름도이고, 도 7은 상기 도 6에 대응하는 동작을 설명하기 위해 도시하는 도면이다.

상기 도 6에서 동작 601, 동작 603, 동작 605, 동작 607은 상기 도 4를 참조한 설명에서 설명된 동작 401, 동작 403, 동작 405, 동작 407의 설명에 각각 대응하는 동작을 포함하여 수행될 수 있다. 따라서 상기 도 6에서는 상기 도 4에서 전술한 설명에 대응하는 동작 설명에 대해서는 생략하기로 한다.

상기 도 6 및 도 7을 참조하면, 상기 동작 607에서, 제어부 180은 상기 동작 605의 화자 500의 방향과 빔포밍 방향 703을 비교하는 동작 결과에 따라 화자 500의 방향과 빔포밍 방향 703이 서로 불일치 하는 것으로 판단하면, 동작 609에서, 무지향성 인식 구간(빔 형성 구간)으로 동작하도록 처리할 수 있다. 예를 들어, 상기 도 7에 도시된 바와 같이, 전자 장치 100의 빔포밍 방향 703이 화자 500의 반대 방향으로 형성되어 있을 수 있다. 제어부 180은 빔포밍 방향 703과 화자 500의 방향이 불일치 하는 것으로 판단하면 무지향성 인식 구간(빔 형성 구간) 709에서의 음성 인식 동작을 처리할 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 무지향성 인식 구간 709에서의 동작을 결정하게 되면, 상기 무지향성 인식 구간 709의 결정 이전 또는 상기 무지향성 인식 구간 709 동안 상기 마이크 143을 통해 입력되는 음성 신호(예: Hi 510)에 대해서는 무지향성 705로 음성 인식을 처리할 수 있다. 즉, 제어부 180은 화자 500의 방향으로 빔포밍 방향 703을 형성하는 일정 시간(예: 0.3초) 동안은 무지향성 705로 음성을 인식할 수 있다.

동작 611에서, 제어부 180은 전자 장치 100에 현재 형성된 빔포밍 방향 703을 상기 화자 500의 방향에 대응하도록 설정(변경)할 수 있다. 예를 들어, 제어부 180은 상기 도 7에 도시된 바와 같이 전자 장치 100의 빔포밍 방향 703을 상기 화자 500의 방향으로 회전할 수 있다.

동작 613에서, 제어부 180은 무지향성 인식 구간 709의 완료 여부를 판단할 수 있다. 예를 들어, 제어부 180은 무지향성 인식 구간 709에서 빔포밍 방향 703을 화자 500의 방향에 대응하도록 형성하는 데 필요한 일정 시간(예: 0.3초)이 완료(빔포밍 방향 회전 완료)되는지 판단할 수 있다.

상기 동작 613에서, 제어부 180은 무지향성 인식 구간 709가 완료되지 않는 것으로 판단하는 경우(동작 613의 No), 상기 동작 609로 진행하여 이하의 동작 수행을 처리할 수 있다.

상기 동작 613에서, 제어부 180은 무지향성 인식 구간 709가 완료되는 것으로 판단하는 경우(동작 613의 Yes), 동작 615에서, 지향성 인식 구간으로 동작하도록 처리할 수 있다. 예를 들어, 상기 도 7에 도시된 바와 같이, 무지향성 인식 구간 709 이후 즉, 빔포밍 방향 703이 화자 500의 방향과 대응되는 시점부터 지향성 인식 구간 715로 동작할 수 있고, 상기 지향성 인식 구간 715에서 상기 마이크 143을 통해 입력되는 음성 신호(예: Galaxy 530)에 대해서 빔포밍을 적용하는 음성 인식 처리를 수행할 수 있다. 즉, 제어부 180은 화자 500의 방향으로 빔이 형성되면 지향성으로 음성을 인식할 수 있다.

본 발명의 실시 예에 따르면, 상기 도 6 및 도 7의 예시와 같이, 음성 인식에 따른 전체의 음성 인식 구간을 무지향성 인식 구간 709와 지향성 인식 구간 715로 분리할 수 있고, 상기 무지향성 인식 구간 709에서는 무지향성 705로 화자 500의 음성 신호를 입력 받아 음성 인식 동작을 수행할 수 있고, 상기 지향성 인식 구간 715에서는 형성된 빔포밍 방향 703에서 지향성으로 화자 500의 음성 신호를 입력 받아 음성 인식 동작을 수행할 수 있다. 따라서 본 발명의 실시 예에 따르면, 구분된 음성 인식 구간의 각 구간 별로 적절한 다른 방식의 음성 인식 동작을 수행할 수 있도록 하여 음성 인식률을 높일 수 있다.

도 8은 본 발명의 실시 예에 따른 전자 장치에서 음성 인식 구간 분리에 의해 음성 인식을 처리하는 다른 동작 절차를 도시하는 흐름도이고, 도 9는 상기 도 8에 대응하는 동작을 설명하기 위해 도시하는 도면이다.

상기 도 8에서 동작 801, 동작 803, 동작 805, 동작 807은 상기 도 4를 참조한 설명에서 설명된 동작 401, 동작 403, 동작 405, 동작 407의 설명에 대응하는 동작을 포함하여 수행될 수 있다. 따라서 상기 도 8에서는 상기 도 4에서 전술한 설명에 대응하는 동작 설명에 대해서는 생략하기로 한다.

상기 도 8 및 도 9를 참조하면, 상기 동작 807에서, 제어부 180은 상기 동작 805의 화자 500의 방향과 빔포밍 방향 903을 비교하는 동작 결과에 따라 화자 500의 방향과 빔포밍 방향 903이 서로 불일치 하는 것으로 판단하면, 동작 809에서, 무지향성 기반 인식 구간(빔 형성 구간)으로 동작하도록 처리할 수 있다. 예를 들어, 상기 도 9에 도시된 바와 같이, 전자 장치 100의 빔포밍 방향 903이 화자 500의 반대 방향으로 형성되어 있을 수 있다. 제어부 180은 빔포밍 방향 903과 화자 500의 방향이 불일치 하는 것으로 판단하면 무지향성 기반 인식 구간(빔 형성 구간) 909에서의 음성 인식 동작을 처리할 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 무지향성 기반 인식 구간 909에서의 동작을 결정하게 되면, 상기 무지향성 기반 인식 구간 909의 결정 이전 또는 상기 무지향성 기반 인식 구간 909 동안 상기 마이크 143을 통해 입력되는 음성 신호(예: Hi 510)에 대해서는 무지향성 905 및 지향성 903으로 음성 인식을 처리할 수 있다.

본 발명의 실시 예에서, 제어부 180은 상기 무지향성 기반 인식 구간 909(예: 음성 인식 동작 초반) 동안에 무지향성과 지향성 특성을 동시에 적용하여 음성 인식을 수행할 수 있다. 이때, 제어부 180은 무지향성과 지향성 특성을 동시에 적용하되, 무지향성 기반 인식 구간 909 동안에는 연판정 기법에 기초하여 무지향성 특성에 가중치를 높게 적용하고 지향성 특성에 가중치를 낮게 적용하여 음성 인식 처리를 수행할 수 있다. 예를 들어, 전체 가중치가 “100%”라 가정할 때, 무지향성 기반 인식 구간 909에서는 무지향성 특성에 90%의 가중치를 적용하고, 지향성 특성에 10%의 가중치를 적용하여, 무지향성 특성을 중심으로 음성 인식을 처리할 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 무지향성 기반 인식 구간 909 동안에는 무지향성으로 입력된 음성 신호에 제1가중치(예: 90%)를 부여하고, 지향성으로 입력된 음성 신호에 상기 제1가중치 보다 낮은 제2가중치(예: 10%)를 부여(설정)(예: 무지향성 가중치(제1가중치) > 지향성 가중치(제2가중치)하여 음성 인식 동작에 적용할 수 있다.

동작 811에서, 제어부 180은 전자 장치 100에 현재 형성된 빔포밍 방향 903을 상기 화자 500의 방향에 대응하도록 설정(변경)할 수 있다. 예를 들어, 제어부 180은 상기 도 9에 도시된 바와 같이 전자 장치 100의 빔포밍 방향 903을 상기 화자 500의 방향으로 회전할 수 있다.

동작 813에서, 제어부 180은 무지향성 기반 인식 구간 909의 완료 여부를 판단할 수 있다. 예를 들어, 제어부 180은 무지향성 기반 인식 구간 909에서 빔포밍 방향 903을 화자 500의 방향에 대응하도록 형성하는 데 필요한 일정 시간(예: 0.3초)이 완료(빔포밍 방향 회전 완료)되는지 판단할 수 있다.

상기 동작 813에서, 제어부 180은 무지향성 기반 인식 구간 909가 완료되지 않는 것으로 판단하는 경우(동작 813의 No), 상기 동작 809로 진행하여 이하의 동작 수행을 처리할 수 있다.

상기 동작 813에서, 제어부 180은 무지향성 인식 구간 909가 완료되는 것으로 판단하는 경우(동작 813의 Yes), 동작 815에서, 지향성 기반 인식 구간으로 동작하도록 처리할 수 있다. 예를 들어, 상기 도 9에 도시된 바와 같이, 무지향성 기반 인식 구간 909 이후 즉, 빔포밍 방향 903이 화자 500의 방향과 대응되는 시점부터 지향성 기반 인식 구간 915로 동작하여 음성 인식 동작을 처리할 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 지향성 기반 인식 구간 915에서의 동작을 결정하게 되면, 상기 지향성 기반 인식 구간 915에서 상기 마이크 143을 통해 입력되는 음성 신호(예: Galaxy 530)에 대해서는 무지향성 905 및 지향성 903으로 음성 인식을 처리할 수 있다.

본 발명의 실시 예에서, 제어부 180은 상기 지향성 기반 인식 구간 915(예: 음성 인식 동작 중/후반) 동안에 무지향성과 지향성 특성을 동시에 적용하여 음성 인식을 수행할 수 있다. 이때, 제어부 180은 무지향성과 지향성 특성을 동시에 적용하되, 지향성 기반 인식 구간 915 동안에는 연판정 기법에 기초하여 지향성 특성에 가중치를 높게 적용하고 무지향성 특성에 가중치를 낮게 적용하여 음성 인식 처리를 수행할 수 있다. 예를 들어, 전체 가중치가 “100%”라 가정할 때, 지향성 기반 인식 구간 915에서는 무지향성 특성에 20%의 가중치를 적용하고, 지향성 특성에 80%의 가중치를 적용하여, 지향성 특성을 중심으로 음성 인식을 처리할 수 있다. 한 실시 예에 따르면, 제어부 180은 상기 지향성 기반 인식 구간 915 동안에는 무지향성으로 입력된 음성 신호에 제3가중치(예: 20%)를 부여하고, 지향성으로 입력된 음성 신호에 상기 제3가중치 보다 높은 제4가중치(예: 80%)를 부여(설정)(예: 무지향성 가중치(제3가중치) < 지향성 가중치(제4가중치)하여 음성 인식 동작에 적용할 수 있다.

본 발명의 실시 예에서, 상기 제1가중치 내지 제4가중치는 사전에 실시된 실험 결과 값 등으로부터 미리 설정될 수 있으며, 사용자에게 다양하게 변경 설정될 수 있다. 또한 상기 제1가중치 내지 제4가중치의 예시는 설명의 편의를 위해 예시된 것으로, 다양한 차등 비율에 기반하여 다양하게 구현될 수 있다. 상기 비율을 차등으로 설정하는 경우, 무지향성 기반 인식 구간 909에서는 무지향성에 가중치를 높게 설정할 수 있고 지향성 기반 인식 구간 915에서는 지향성에 가중치를 높게 설정할 수 있다.

본 발명의 실시 예에 따르면, 상기 도 8 및 도 9의 예시와 같이, 음성 인식에 따른 전체의 음성 인식 구간을 무지향성 기반 인식 구간 909와 지향성 기반 인식 구간 915로 분리할 수 있고, 전체의 음성 인식 구간에서 무지향성 특성과 지향성 특성으로 음성 인식을 수행하되 각 특성들의 음성 인식 비율의 가중치를 다르게 적용하여 음성 인식 동작을 처리할 수 있다. 예를 들어, 음성 인식 동작 초반에 무지향성 특성에 가중치를 높게 할당하여 음성 인식을 처리하는 상기 무지향성 기반 인식 구간 909와, 화자 500의 방향에 대응하도록 빔포밍 방향 903이 형성되는 음성 인식 동작 중/후반에 지향성 특성에 가중치를 높게 할당하여 음성 인식 동작을 처리하는 상기 지향성 기반 인식 구간 915로 구분할 수 있다. 따라서 본 발명의 실시 예에 따르면, 구분된 음성 인식 구간의 각 구간 별로 무지향성과 지향성으로 동시에 음성 신호를 입력 받아 음성 인식을 수행하되, 연판정 기법으로 각 구간에 대응하게 가중치를 다르게 주어 각 구간 별로 적절한 다른 방식의 음성 인식 동작을 수행할 수 있도록 하여 음성 인식률을 높일 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 실시 예에 따른 전자 장치 100은 빔포밍을 적용하는 음성 인식 기능을 제공할 때, 음성 인식 구간을 다양한 방식으로 분리(예: 빔 형성 구간, 인식 구간)할 수 있고, 상기 분리된 인식 구간 별로 음성 인식 동작을 다르게 처리하여 음성 인식률을 개선할 수 있다. 다음으로 이하에서는, 본 발명의 실시 예에 따라 상기 빔포밍을 적용하는 음성 인식에서 처리된 음성을 학습하여 학습 데이터(training data)를 생성하고, 상기 학습 데이터를 이용하여 음성 인식률을 보다 개선하는 예시에 대하여 설명하기로 한다.

도 10은 본 발명의 실시 예에 따른 전자 장치에서 빔포밍으로 입력된 음성을 학습 데이터에 기반하여 음성 인식을 처리하는 동작 절차를 도시하는 흐름도이다.

상기 도 10을 참조하면, 동작 1001에서, 제어부 180은 마이크 143을 통해 빔포밍으로 입력되는 음성을 인식할 수 있다. 본 발명의 실시 예에서, 제어부 180은 마이크 143을 통해 화자의 음성이 입력되면, 입력된 음성에 대한 전처리 과정을 수행할 수 있고, 전처리 과정을 거친 음성 신호로부터 특징(feature)을 추출할 수 있다.

동작 1003에서, 제어부 180은 미리 학습된 학습 데이터가 있는지 판단할 수 있다. 본 발명의 실시 예에서, 상기 학습 데이터는 이전에 음성 인식된 음성 신호의 학습을 통해 미리 모델링된 데이터이거나 전자 장치 100의 프로바이더(provider)로부터 제공된 데이터일 수 있다. 본 발명의 실시 예에서 학습 데이터는 전자 장치 100 및 외부 장치(예: 다른 전자 장치 또는 서버)의 적어도 하나에 저장될 수 있다. 본 발명의 실시 예에서 상기 학습 데이터는 고립 단어, 연결 단어, 연속 음성, 대용량/소용량 어휘 등의 형태를 가질 수 있다.

상기 동작 1003에서, 제어부 180은 학습 데이터가 있는 것으로 판단하면(동작 1003의 Yes), 동작 1005에서, 상기 학습 데이터에 기반하여 음성 인식 동작을 처리할 수 있다. 본 발명의 실시 예에서, 음성 인식 동작은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 예를 들어, 제어부 180은 상기 입력된 음성 신호로부터 추출된 특징과 상기 학습 데이터를 비교할 수 있고, 상기 학습 데이터로부터 가장 유사한 데이터를 추적하여 획득할 수 있다. 한 실시 예에 따르면, 제어부 180은 다양한 학습 데이터들을 내부 또는 외부에 저장할 수 있고, 인식하고자 하는 입력 음성 신호를 상기 학습 데이터와 비교할 수 있다. 제어부 180은 상기 비교하는 동작에 기반하여 가장 가까운 학습 데이터를 결정(선택)할 수 있고, 결정된 학습 데이터에 기반하여 상기 입력된 음성 신호가 무엇을 의미하는지 그 인식 결과를 도출할 수 있다. 본 발명의 실시 예에서 제어부 180은 주어진 음성과 일치하는 템플릿(학습 데이터)을 추출하는 템플릿 매칭(template matching) 기법 또는 패턴 매칭(pattern matching) 기법 등에 기반하여 입력 음성에 대응하는 학습 데이터를 결정(선택)할 수 있다.

동작 1005에서, 제어부 180은 상기 음성 인식 동작에 따른 인식 결과를 출력할 수 있다. 예를 들어, 제어부 180은 인식 결과에 대응하는 커맨드 또는 텍스트를 출력할 수 있고, 상기 커맨드 또는 텍스트에 대응하는 동작(또는 기능)을 처리할 수 있다.

상기 동작 1003에서, 제어부 180은 학습 데이터가 없는 것으로 판단하면(동작 1003의 No), 동작 1009에서, 상기 입력된 음성 신호에 기반하여 음성 인식 동작을 처리할 수 있고, 동작 1011에서, 상기 음성 인식 동작에 따른 인식 결과를 출력할 수 있다.

동작 1013에서, 제어부 180은 상기 입력된 음성 신호에 기반하여 학습을 수행할 수 있고, 동작 1015에서, 상기 학습에 기반하여 학습 데이터를 생성할 수 있다. 본 발명의 실시 예에서, 제어부 180은 전자 장치 100가 빔포밍이 적용되어 입력된 음성에 기반하여 어떤 작업(동작)을 수행할 수 있도록 학습할 수 있다. 본 발명의 실시 예에서, 상기 학습에 따른 학습 데이터를 생성하는 동작은 템플릿 매칭 기법, 패턴 매칭 기법, 통계적 패턴 매칭 기법, 또는 학습 매칭 기법 등을 이용하여 수행할 수 있다. 예를 들어, 화자의 음성을 가장 유사하게 모델링하고 그 성능을 극대화 할 수 있는 다양한 기법에 의해 학습 데이터를 생성할 수 있다.

동작 1015에서, 제어부 180은 상기 학습 데이터를 저장할 수 있다. 본 발명의 실시 예에서, 상기 학습 데이터는 전자 장치 100의 저장부 150에 저장될 수 있고, 선택적으로 또는 추가적으로 상기 전자 장치 100에 기능적으로 연결되는 다른 외부 장치(예: 다른 전자 장치, 서버 등)에 저장될 수 있다.

한편, 상기 도 10에서는 상기 동작 1003에서, 학습 데이터가 존재하지 않는 경우 음성 인식 동작(예: 동작 1009, 동작 1011)을 선 수행하고, 학습 데이터 생성 동작(예: 동작 1013, 동작 1015, 동작 1017)을 후 수행하는 것으로 설명하였다. 하지만, 본 발명의 동작은 상기의 순서에 한정되지 않으며 상기 음성 인식 동작과 상기 학습 데이터 생성 동작이 병렬적으로 수행되거나, 또는 상기 학습 데이터 생성 동작을 선 수행하고 상기 음성 인식 동작을 후 수행할 수도 있다.

이와 같이, 본 발명의 실시 예에 따르면, 빔포밍으로 입력된 음성을 이용하여 학습할 수 있고, 학습을 통해 획득된 학습 데이터에 기반하여 음성 인식을 처리함으로써, 빔포밍으로 입력된 음성의 음성 인식률을 높일 수 있다.

도 11은 본 발명의 실시 예에 따른 전자 장치에서 학습 데이터를 관리하는 동작을 설명하기 위해 도시하는 도면이다.

상기 도 11을 참조하면, 제1 전자 장치 1110와 제2 전자 장치 1120는 전술한 전자 장치 100과 동일한 또는 다른 종류의 장치일 수 있다. 서버 1130은 하나 또는 그 이상의 서버들의 그룹을 포함할 수 있다.

본 발명의 실시 예에 따르면, 어느 하나의 전자 장치(예: 제1 전자 장치 1110)에서 생성하는 학습 데이터는 다른 전자 장치(예: 제2 전자 장치 1120) 또는 서버 1130에 계속적 또는 주기적으로 업데이트(update)될 수 있다. 예를 들어, 전자 장치(예: 제1 전자 장치 1110)는 상기 제1 전자 장치 1110을 사용하는 사용자에 최적화 하기 위하여 빔포밍을 통해 입력되는 음성을 학습하고, 학습에 따른 학습 데이터를 제1 전자 장치 1110, 제2 전자 장치 1120 또는 서버 1130의 적어도 하나에 저장할 수 있다.

한 실시 예에 따르면, 상기 제1 전자 장치 1110은 통신 인터페이스를 통해 외부 장치(예: 제2 전자 장치 1120, 서버 1130) 간의 통신을 설정할 수 있고, 설정된 통신에 이용하여 상기 학습 데이터를 다른 외부 장치에 저장할 수 있다. 상기 통신 인터페이스는 무선 통신 또는 유선 통신을 통해서 네트워크 1140에 연결되어 제2 전자 장치 1120 또는 서버 1130와 통신하여 상기 학습 데이터를 전송하거나 수신할 수 있다.

상기 네트워크 1140은 통신 네트워크(telecommunications network), 예를 들면, 컴퓨터 네트워크(computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 네트워크(telephone network) 중 적어도 하나를 포함할 수 있다.

상기 무선 통신은, 예를 들면, 셀룰러 통신 프로토콜로서, 예를 들면, LTE(long-term evolution), LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용할 수 있다. 상기 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다.

또한, 상기 무선 통신은, 예를 들면, 근거리 통신 1150을 포함할 수 있다. 상기 근거리 통신 1150은, 예를 들면, WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication), 또는 GPS(global positioning system) 등 중 적어도 하나를 포함할 수 있다.

한편, 본 발명의 실시 예에 따른 전자 장치 100에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 전자 장치(예: 제1 전자 장치 1110, 제2 전자 장치 1120, 서버 1130)에서 실행될 수 있다. 한 실시 예에 따르면, 전자 장치 100가 어떤 기능(예: 음성 인식 기능)을 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치 100은 기능을 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 장치(예: 전자 장치(1110, 1120), 또는 서버 1130)에게 요청할 수 있다. 상기 외부 장치(예: 전자 장치(1110, 1120), 또는 서버 1130)는 전자 장치 100에 의해 요청된 기능 또는 추가 기능을 실행할 수 있고, 그 결과를 전자 장치 100에게 전달할 수 있다. 전자 장치 100은 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능을 제공할 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100, 1110, 1150: 전자 장치
110: 무선 통신부 120: 사용자 입력부
130: 터치스크린 131: 표시부
133: 터치감지부 140: 오디오 처리부
141: 스피커 143: 마이크
150: 저장부 160: 인터페이스부
170: 카메라 모듈 180: 제어부
190: 전원 공급부
1130: 서버

Claims

음성 인식을 수행하는 전자 장치에 있어서,
음성 입력을 수신하고 음성 신호를 생성하도록 구성된 마이크;
상기 음성 인식을 기반으로 처리된 데이터를 저장하도록 구성된 비일시적 저장부; 및
상기 마이크 및 상기 저장부에 기능적으로 연결된 프로세서를 포함하고,
상기 프로세서는:
상기 마이크를 통하여 상기 음성 신호의 입력을 감지하고,
상기 음성 신호에 기반하여 화자의 방향을 판단하고,
상기 화자의 방향에 기반하여 상기 마이크의 빔포밍 방향을 판단하고,
상기 화자의 방향이 상기 빔포밍 방향에 대응하는지를 판단하고,
상기 화자의 방향이 상기 빔포밍 방향에 대응하면, 상기 음성 신호에 대하여 상기 음성 인식을 수행하고,
상기 화자의 방향이 상기 빔포밍 방향에 대응하지 않으면, 미리 정의된 분할 방식에 기반하여 상기 음성 인식을 위한 음성 인식 구간을 제1 구간 및 제2 구간으로 분할하고,
상기 제1 구간 동안 입력된 제1 음성 신호를 위한 제1 방식에 기반하여 음성 인식 동작을 처리하고, 및
상기 제2 구간 동안 입력된 제2 음성 신호를 위한 제2 방식에 기반하여 상기 음성 인식 동작을 처리하도록 구성된, 전자 장치.
제1 항에 있어서,
상기 제1 구간은 상기 음성 신호를 감지한 시점부터 상기 화자의 방향에 대응하는 빔포밍 방향을 형성하기 위해 요구되는 지정된 시간까지의 구간을 포함하고,
상기 제2 구간은 상기 제1 구간의 이후부터 상기 음성 인식 동작이 종료될 때까지의 구간을 포함하는, 전자 장치.
제1 항에 있어서,
상기 프로세서는:
상기 제1 구간 동안 상기 제1 음성 신호에 대한 상기 음성 인식 동작의 처리를 생략하고, 및
상기 제2 구간 동안 상기 제2 음성 신호에 대한 상기 음성 인식 동작의 처리를 수행하도록 구성된, 전자 장치.
제1 항에 있어서,
상기 프로세서는:
상기 제1 구간 동안 무지향성으로 입력된 상기 제1 음성 신호에 대한 상기 음성 인식 동작의 처리를 수행하고, 및
상기 제2 구간 동안 지향성으로 입력된 상기 제2 음성 신호에 대한 상기 음성 인식 동작의 처리를 수행하도록 구성된, 전자 장치.
제1 항에 있어서,
상기 프로세서는:
상기 제1 구간 및 상기 제2 구간 동안 무지향성 및 지향성으로 동시에 입력된 음성 신호들에 대한 상기 음성 인식 동작의 처리를 수행하고,
상기 제1 구간에서 상기 지향성으로 입력된 음성 신호보다 상기 무지향성으로 입력된 음성 신호에 더 높은 가중치를 설정하여 상기 음성 인식 동작의 처리를 수행하고, 및
상기 제2 구간에서 상기 무지향성으로 입력된 음성 신호보다 상기 지향성으로 입력된 음성 신호에 더 높은 가중치를 설정하여 상기 음성 인식 동작의 처리를 수행하도록 구성된, 전자 장치.
제1 항에 있어서,
상기 프로세서는:
상기 음성 인식을 수행하는 동작 동안 입력된 음성 신호에 기반하여 학습을 수행하고, 상기 학습에 기반하여 학습 데이터를 생성하도록 구성된, 전자 장치.
제6 항에 있어서,
상기 학습 데이터는, 상기 저장부, 다른 전자 장치, 또는 서버 중 하나 이상에 저장되는, 전자 장치.
제7 항에 있어서,
상기 프로세서는:
상기 학습 데이터에 기반하여 상기 음성 인식을 수행하는 동작 동안 입력된 음성 신호에 대한 상기 음성 인식을 수행하도록 구성된, 전자 장치.
제2 항에 있어서,
상기 프로세서는:
상기 음성 인식을 시작할 때 상기 화자의 방향과 상기 빔포밍 방향을 판단하고,
상기 판단의 결과에 기반하여 상기 빔포밍 방향의 변경을 제어하도록 구성된, 전자 장치.
제1 항에 있어서,
상기 프로세서는:
상기 음성 입력에 대하여 상기 분할된 구간 별로 서로 다른 방식의 음성 인식을 수행하는 음성 인식부를 포함하는, 전자 장치.
제10 항에 있어서,
상기 음성 인식부는:
상기 화자의 방향을 감지하는 방향 감지 모듈;
상기 방향 감지 모듈에 의해 감지된 상기 화자의 방향에 대응하도록 상기 빔포밍 방향을 변경하는 빔포머;
상기 음성 신호에 기반하거나, 또는 상기 음성 신호 및 미리 학습된 학습 데이터에 기반하여 인식 결과를 제공하는 디코더;
상기 디코더로부터 패스(pass)된 음성 신호에 기반하여 상기 학습 데이터에 대한 학습을 수행하는 적어도 하나의 학습 모듈;
상기 학습 모듈의 학습에 기반하여 상기 학습 데이터를 생성하는 적어도 하나의 모델링 모듈; 및
상기 음성 입력에 대응하는 인식 결과를 출력하는 출력 모듈을 포함하는, 전자 장치.
전자 장치에서 음성을 인식하는 방법에 있어서,
음성 신호의 입력을 감지하는 동작;
상기 음성 신호에 기반하여 화자의 방향을 판단하는 동작;
상기 화자의 방향에 기반하여 마이크의 빔포밍 방향을 판단하는 동작;
상기 화자의 방향이 상기 빔포밍 방향에 대응하는지를 판단하는 동작;
상기 화자의 방향이 상기 빔포밍 방향에 대응하면, 상기 음성 신호에 대하여 음성 인식을 수행하는 동작;
상기 화자의 방향이 상기 빔포밍 방향에 대응하지 않으면, 미리 정의된 분할 방식에 기반하여 상기 음성 인식을 위한 음성 인식 구간을 제1 구간 및 제2 구간으로 분할하는 동작;
상기 제1 구간 동안 입력된 제1 음성 신호를 위한 제1 방식에 기반하여 음성 인식 동작을 처리하는 동작; 및
상기 제2 구간 동안 입력된 제2 음성 신호를 위한 제2 방식에 기반하여 음성 인식 동작을 처리하는 동작을 포함하는, 음성 인식 방법.
제12 항에 있어서,
상기 제1 구간은 상기 음성 신호를 감지한 시점부터 상기 화자의 방향에 대응하는 빔포밍 방향을 형성하기 위해 요구되는 지정된 시간까지의 구간을 포함하고,
상기 제2 구간은 상기 제1 구간의 이후부터 상기 음성 인식 동작이 종료될 때까지의 구간을 포함하는, 음성 인식 방법.
제12 항에 있어서,
상기 음성 인식 동작을 처리하는 동작은,
상기 제1 구간 동안 상기 제1 음성 신호에 대한 상기 음성 인식 동작의 처리를 생략하는 동작; 및
상기 제2 구간 동안 상기 제2 음성 신호에 대한 상기 음성 인식 동작의 처리를 수행하는 동작을 포함하는, 음성 인식 방법.
제12 항에 있어서,
상기 음성 인식 동작을 처리하는 동작은,
상기 제1 구간 동안 무지향성으로 입력된 상기 제1 음성 신호에 대한 상기 음성 인식 동작의 처리를 수행하는 동작; 및
상기 제2 구간 동안 지향성으로 입력된 상기 제2 음성 신호에 대한 상기 음성 인식 동작의 처리를 수행하는 동작을 포함하는, 음성 인식 방법.
제12 항에 있어서,
상기 음성 인식 동작을 처리하는 동작은,
상기 제1 구간 및 상기 제2 구간 동안 무지향성 및 지향성으로 동시에 입력된 음성 신호들에 대한 상기 음성 인식 동작의 처리를 수행하는 동작;
상기 제1 구간에서 상기 지향성으로 입력된 음성 신호보다 상기 무지향성으로 입력된 음성 신호에 더 높은 가중치를 설정하여 상기 음성 인식 동작의 처리를 수행하는 동작; 및
상기 제2 구간에서 상기 무지향성으로 입력된 음성 신호보다 상기 지향성으로 입력된 음성 신호에 더 높은 가중치를 설정하여 상기 음성 인식 동작의 처리를 수행하는 동작을 포함하는, 음성 인식 방법.
제12 항에 있어서,
상기 음성 인식을 수행하는 동작 동안 입력된 음성 신호에 기반하여 학습을 수행하고, 상기 학습에 기반하여 학습 데이터를 생성하는 동작; 및
상기 학습 데이터를 상기 전자 장치의 내부 또는 외부 중 적어도 하나에 저장하는 동작을 더 포함하는, 음성 인식 방법.
제17 항에 있어서,
상기 음성 인식을 수행하는 동작은,
상기 학습 데이터에 기반하여 상기 음성 인식을 수행하는 동작 동안 입력된 음성 신호에 대한 상기 음성 인식을 수행하는 동작을 포함하는, 음성 인식 방법.
제12 항에 있어서,
상기 화자의 방향이 상기 빔포밍 방향에 대응하지 않으면, 상기 제1 구간 동안 상기 빔포밍 방향을 변경하는 동작을 더 포함하는, 음성 인식 방법.
동작들을 실행하기 위한 프로그램이 기록된 비일시적 컴퓨터로 판독 가능한 기록 매체에 있어서, 프로세서에 의해 실행될 때 상기 동작들은,
음성 신호의 입력을 감지하는 동작;
상기 음성 신호에 기반하여 화자의 방향을 판단하는 동작;
상기 화자의 방향에 기반하여 마이크의 빔포밍 방향을 판단하는 동작;
상기 화자의 방향이 상기 빔포밍 방향에 대응하는지를 판단하는 동작;
상기 화자의 방향이 상기 빔포밍 방향에 대응하면, 상기 음성 신호에 대하여 음성 인식을 수행하는 동작;
상기 화자의 방향이 상기 빔포밍 방향에 대응하지 않으면, 미리 정의된 분할 방식에 기반하여 상기 음성 인식을 위한 음성 인식 구간을 제1 구간 및 제2 구간으로 분할하는 동작;
상기 제1 구간 동안 입력된 제1 음성 신호를 위한 제1 방식에 기반하여 음성 인식 동작을 처리하는 동작; 및
상기 제2 구간 동안 입력된 제2 음성 신호를 위한 제2 방식에 기반하여 음성 인식 동작을 처리하는 동작을 포함하는, 기록 매체.