KR102299330B1

KR102299330B1 - 음성 인식 방법 및 그 전자 장치

Info

Publication number: KR102299330B1
Application number: KR1020140166478A
Authority: KR
Inventors: 이태진; 이상훈; 서브호지트
Original assignee: 삼성전자주식회사
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2021-09-08
Also published as: CN105632491B; US9779732B2; CN105632491A; US20160148615A1; KR20160064258A; EP3026667B1; WO2016085157A1; EP3026667A1

Abstract

본 개시의 다양한 실시 예는 음성 인식 방법 및 그 전자 장치에 관한 것으로, 예를 들어, 전자 장치의 음성 인식 방법에 있어서, 상기 전자 장치의 저전력 모드에서 지정된 클록을 사용하는 제1 프로세서가 마이크를 통해 입력되는 음성 신호를 인식하는 동작; 상기 인식된 음성 신호가 사전에 설정된 키워드이면, 제2 프로세서가 활성화 상태가 되어 음성 녹음을 수행하는 동작; 및 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제2 프로세서가 음성 인식을 수행하는 동작을 포함하되, 상기 음성 입력의 종료가 판별된 후 상기 제1 프로세서의 클록을 변경할 수 있다. 또한, 본 개시의 다양한 실시 예는 상술한 실시 예와 다른 실시 예들도 포함한다.

Description

음성 인식 방법 및 그 전자 장치{METHOD FOR VOICE RECOGNITION AND AN ELECTRONIC DEVICE THEREOF}

본 개시의 다양한 실시 예는, 음성 인식 방법 및 그 전자 장치에 관한 것이다.

스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치가 널리 사용되고 있다. 상기 전자 장치는, 마이크(microphone)를 통해 사용자가 입력하는 음성(voice) 신호를 인식하고, 상기 음성 신호에 상응하는 텍스트(text)를 표시하거나, 임의의 특정 기능(function)을 수행할 수 있다.

상기 전자 장치는, 예를 들어, 절전(power saving)을 위해 엘씨디(LCD) 등과 같은 디스플레이(display)를 오프(off)한 슬립 모드(sleep mode)에서도 사용자가 마이크를 통해 입력하는 음성 신호를 인식할 수 있으며, 상기 음성 신호가 사전에 설정된 키워드(keyword)(예: “하이 갤럭시”)인지를 판별할 수 있다.

상기 전자 장치는 상기 사용자 음성 신호가 사전에 설정된 키워드인 경우, 슬립 모드를 해제함과 아울러, 상기 디스플레이를 오프 상태에서 온 상태로 전환하며, 이후, 마이크를 통해 사용자가 입력하는 음성 신호를, 커맨드(command) 또는 텍스트(text) 등으로 인식하는 음성 인식 동작을 수행할 수 있다.

상기 음성 인식 동작은, 예를 들어, 네트워크를 통해 음성 인식 서비스를 실시간으로 제공하는 서버(server)와 상기 전자 장치 간의 데이터 통신을 통해 수행될 수 있다. 최근에는 상기 음성 인식 동작의 정확성을 높이기 위한 효율적인 해결 방안이 요구되고 있다.

본 개시의 다양한 실시 예는, 스마트 폰 또는 태블릿 PC 등과 같은 다양한 유형의 전자 장치가, 마이크를 통해 입력되는 사용자의 음성 신호를 정확하게 인식할 수 있도록 하기 위한 음성 인식 방법 및 그 전자 장치를 제공한다.

본 개시의 다양한 실시 예는, 상기 전자 장치가, 슬립 모드에서, 마이크를 통해 입력되는 사용자의 음성 신호를 인식하는 경우, 특정 노이즈의 영향을 미연에 방지하여, 음성 인식의 정확성을 높일 수 있는 음성 인식 방법 및 그 전자 장치를 제공한다.

본 개시의 다양한 실시 예는, 전자 장치의 음성 인식 방법에 있어서, 상기 전자 장치의 저전력 모드에서 지정된 클록을 사용하는 제1 프로세서가 마이크를 통해 입력되는 음성 신호를 인식하는 동작; 상기 인식된 음성 신호가 사전에 설정된 키워드이면, 제2 프로세서가 활성화 상태가 되어 음성 녹음을 수행하는 동작; 및 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제2 프로세서가 음성 인식을 수행하는 동작을 포함하되, 상기 음성 입력의 종료가 판별된 후 상기 제1 프로세서의 클록을 변경할 수 있다.

본 개시의 다양한 실시 예는, 전자 장치에 있어서, 음성 신호를 입력 받기 위한 마이크; 상기 음성 신호를 신호 처리하기 위한 제1 프로세서; 및 상기 음성 신호를 인식하기 위한 제2 프로세서를 포함하되, 상기 제1 프로세서는 상기 전자 장치의 슬립 모드에서 지정된 클록을 사용하여 상기 마이크를 통해 입력되는 음성 신호를 인식하고, 상기 제2 프로세서는 상기 제1 프로세서에 의해 인식된 음성 신호가 사전에 설정된 키워드이면 아이들 상태에서 활성화 상태가 되어 음성 녹음을 수행하고, 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제1 프로세서의 클록을 변경할 수 있다.

본 개시의 다양한 실시 예에 따르면, 예를 들어, 스마트 폰 또는 태블릿 PC 등과 같은 다양한 유형의 전자 장치가, 마이크를 통해 입력되는 사용자의 음성 신호를 정확하게 인식할 수 있다.

본 개시의 다양한 실시 예에 따르면, 상기 전자 장치가, 슬립 모드에서, 마이크를 통해 입력되는 사용자의 음성 신호를 인식하는 경우, 예를 들어, 오디오 코덱 등과 같이 저전력을 사용하는 제1 프로세서의 구동 주파수를 변경시키는 시점에 발생하는 특정 노이즈의 영향을 미연에 방지하여, 음성 인식의 정확성을 높일 수 있다.

도 1은 본 개시의 다양한 실시 예에 따른 전자 장치의 네트워크 환경을 예시한 도면이다.
도 2는 본 개시의 다양한 실시 예에 따른 전자 장치의 블록도이다.
도 3은 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 수행되는 전자 장치의 일부 구성을 예시한 도면이다.
도 4는 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치에서의 동작 타이밍(timing)을 예시한 도면이다.
도 5는 본 개시의 다양한 실시 예에 따른 묵음 시간 설정 테이블을 예시한 도면이다.
도 6은 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 수행되는 전자 장치에서의 다른 동작 타이밍(timing)을 예시한 도면이다.
도 7은 본 개시의 다양한 실시 예에 따른 전자 장치의 음성 인식 방법에 대한 동작 흐름도를 예시한 도면이다.

이하, 첨부된 도면을 참조하여 본 개시의 다양한 실시 예를 설명한다. 본 개시의 다양한 실시 예는 여러 형태의 변경을 가할 수 있으며, 이하에서 상세히 설명하는 특정 실시예에 한정되지 않음은 당업자에게 자명하다.

도 1은, 본 개시의 다양한 실시 예에 따른 전자 장치의 네트워크 환경을 예시한 도면이다. 도 1을 참조하면, 상기 전자 장치의 네트워크 환경 100은, 예를 들어, 스마트 폰(smart phone) 또는 태블릿(tablet) PC 등과 같은 다양한 유형의 전자 장치 101을 포함할 수 있고, 상기 전자 장치 101과 근거리에서 통신하는 외부 전자 장치 102와, 네트워크 162을 통해 원거리에 통신하는 외부 전자 장치 104 및 서버 106 등을 포함할 수 있다.

상기 전자 장치 101은, 예를 들어, 버스 110, 프로세서 120, 메모리 130, 입출력 인터페이스 150, 디스플레이 160, 그리고 통신 인터페이스 170등을 포함할 수 있고, 상기 버스 110은, 상기 구성 요소들을 서로 연결하고, 상기 구성 요소들 간의 통신 메시지 또는 데이터를 전달하는 회로를 포함할 수 있다.

상기 프로세서 120은, 중앙처리장치(CPU: Central Processing unit), 어플리케이션 프로세서(AP: Application Processor), 또는 커뮤니케이션 프로세서 (CP: Communication Processor) 중 어느 하나 이상을 포함할 수 있고, 상기 전자 장치 101의 적어도 하나의 구성 요소들의 제어 또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.

상기 프로세서 120은, 예를 들어, 근접 네트워크를 구성하고, 상기 근접 네트워크의 클러스터(cluster)에 속한 다른 전자 장치들과 동기화된 통신 구간을 통해 데이터를 교환하도록 제어할 수 있다. 여기서 상기 통신 구간은, NAN 통신 표준에 따라 디스커버리 윈도우(DW)로 지칭될 수 있다.

상기 메모리 130은, 예를 들어, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있고, 상기 전자 장치 101의 적어도 하나의 다른 구성 요소에 관계된 명령 또는 데이터를 저장할 수 있고, 소프트웨어 및/또는 프로그램 140을 저장할 수 있다.

상기 프로그램 140은, 예를 들어, 커널 141, 미들웨어 143, 어플리케이션 프로그래밍 인터페이스(API: Application Programming Interface) 145, 그리고 어플리케이션 프로그램147 등을 포함할 수 있다. 상기 커널 141, 미들웨어 143, 또는 API 145의 적어도 일부는, 운영 시스템(OS: Operating System)이라고 지칭될 수 있다.

상기 커널 141은, 예를 들어, 다른 프로그램들(예: 미들웨어 143, API 145, 또는 어플리케이션 프로그램 147)에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 버스 110, 프로세서 120, 또는 메모리 130 등)을 제어 또는 관리할 수 있다.

상기 미들웨어 143은, 예를 들어, 상기 API 145 또는 상기 어플리케이션 프로그램 147이 상기 커널 141과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다.

상기 API 145는, 예를 들어, 상기 어플리케이션 147이 상기 커널 141 또는 상기 미들웨어 143에서 제공되는 기능을 제어하기 위한 인터페이스로서, 파일 제어, 창 제어, 화상 처리, 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수를 포함할 수 있다.

상기 입출력 인터페이스 150은, 예를 들어, 사용자 또는 다른 외부 전자 장치로부터 입력된 명령 또는 데이터를, 상기 전자 장치 101의 다른 구성 요소에 전달할 수 있는 인터페이스의 역할을 할 수 있다.

상기 디스플레이 160은, 예를 들어, 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이, 유기 발광 다이오드 (OLED) 디스플레이 등과 같은 다양한 유형의 디스플레이일 수 있고, 터치 스크린을 포함할 수 있으며, 전자 펜 또는 사용자의 신체 일부를 이용한 터치, 제스처, 근접, 또는 호버링 입력을 수신할 수 있다.

상기 통신 인터페이스 170은, 상기 전자 장치 101와, 상기 외부 전자 장치 102, 104및 서버 106들 간의 통신을 설정할 수 있다. 예를 들어, 무선 통신 또는 유선 통신을 통해 네트워크 162에 연결되어 상기 외부 전자 장치 104 및 서버 106과 통신할 수 있다.

상기 무선 통신은, 예를 들어, LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro, 또는 GSM 등 중 적어도 하나를 포함할 수 있고, 상기 유선 통신은, 예를 들어, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), RS-232(Recommended Standard 232), 또는 POTS(Plain Old Telephone Service) 중 적어도 하나를 포함할 수 있다.

상기 네트워크 162는, 예를 들어, 통신 네트워크(telecommunications network), 컴퓨터 네트워크(computer network)(예: LAN 또는 WAN), 인터넷, 또는 전화 망(telephone network) 중 적어도 하나를 포함할 수 있다.

도 2는, 본 개시의 다양한 실시 예에 따른 전자 장치의 블록도이다. 도 2을 참조하면, 상기 전자 장치 201은, 예를 들어, 하나 이상의 어플리케이션 프로세서(AP: Application Processor) 210, 통신 모듈 220, SIM(Subscriber Identification Module) 카드 224, 메모리 230, 센서 모듈 240, 입력 장치 250, 디스플레이 260, 인터페이스 270, 오디오 모듈 280, 카메라 모듈 291, 전력 관리 모듈 295, 배터리 296, 인디케이터 297, 그리고 모터 298 등을 포함할 수 있다. 상기 전자 장치 201은, 예를 들어, 도 1의 전자 장치 101일 수 있다.

상기 AP 210은, 예를 들어, 운영 체제 또는 응용 프로그램을 구동하여 상기 AP 210에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다. 상기 AP 210은, 예를 들어, SoC(System On Chip)로 구현될 수 있고, GPU (Graphic Processing Unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다.

상기 AP 210은, 도 2에 도시된 구성 요소들 중 적어도 일부(예: 셀룰러 모듈 221)를 포함할 수 있고, 다른 구성 요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장할 수 있다.

상기 통신 모듈 220은, 도 1의 통신 인터페이스 170와 동일 또는 유사한 구성을 가질 수 있다. 상기 통신 모듈 220은, 예를 들어, 셀룰러 모듈 221, WiFi 모듈 223, BT 모듈 225, GPS 모듈 227, NFC 모듈 228 또는 RF 모듈 229를 포함할 수 있다.

상기 셀룰러 모듈 221은, 예를 들어, 통신망을 통해서 음성 통화, 영상 통화, 문자 서비스, 또는 인터넷 서비스 등을 제공할 수 있다. 상기 셀룰러 모듈 221은 가입자 식별 모듈(예: SIM 카드 224)을 이용하여 통신 네트워크 내에서 전자 장치 201의 구별 및 인증을 수행할 수 있다. 상기 셀룰러 모듈 221은 상기 AP 210가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있고, 커뮤니케이션 프로세서(CP: Communication Processor)를 포함할 수 있다.

상기 WiFi 모듈 223, 상기 BT 모듈 225, 상기 GPS 모듈 227, 또는 상기 NFC 모듈 228 각각은, 예를 들어, 해당하는 모듈을 통해 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있고, 상기 셀룰러 모듈 221, WiFi 모듈 223, BT 모듈 225, GPS 모듈 227, 또는 NFC 모듈 228 중 적어도 일부(예: 2 개 이상)는 하나의 IC(Integrated Chip) 또는 IC 패키지 내에 포함될 수 있다.

상기 RF 모듈 229는, 예를 들어, RF 통신 신호를 송수신할 수 있고, 트랜시버(transceiver), PAM(Power Amp Module), 주파수 필터(frequency filter), LNA(Low Noise Amplifier), 또는 안테나 등을 포함할 수 있고, 상기 셀룰러 모듈 221, WIFI 모듈 223, BT 모듈 225, GPS 모듈 227, 또는 NFC 모듈 228 중 적어도 하나는, 별개의 RF 모듈을 통해 RF 신호를 송수신할 수 있다.

상기 SIM 카드 224는, 예를 들어, 가입자 식별 모듈을 포함하는 카드 및/또는 내장 SIM (embedded SIM)을 포함할 수 있고, 고유한 식별 정보(예: ICCID (Integrated Circuit Card Identifier)), 또는 가입자 정보(예: IMSI (International Mobile Subscriber Identity))를 포함할 수 있다.

상기 메모리 230은, 예를 들어, 내장 메모리 232 또는 외장 메모리 234를 포함할 수 있고, 상기 센서 모듈 240은, 예를 들어, 물리 량을 계측하거나 전자 장치 201의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다.

상기 센서 모듈 240은, 예를 들어, 제스처 센서 240A, 자이로 센서 240B, 기압 센서 240C, 마그네틱 센서 240D, 가속도 센서 240E, 그립 센서 240F, 근접 센서 240G, 컬러 센서 240H (예: RGB(Red, Green, Blue) 센서), 생체 센서 240I, 온/습도 센서 240J, 조도 센서 240K, 또는 UV(Ultra Violet) 센서 240M 중의 적어도 하나를 포함할 수 있다.

상기 센서 모듈 240은, 예를 들아, 후각 센서(E-nose sensor), EMG 센서(Electromyography sensor), EEG 센서(Electroencephalogram sensor), ECG 센서(Electrocardiogram sensor), IR(Infrared) 센서, 홍채 센서 및/또는 지문 센서를 포함할 수 있다.

상기 입력 장치 250은, 예를 들어, 터치 패널(touch panel) 252, (디지털) 펜 센서(pen sensor) 254, 키(key) 256, 또는 초음파(ultrasonic) 입력 장치 258를 포함할 수 있다. 상기 디스플레이 260은, 패널 262, 홀로그램 장치 264, 또는 프로젝터 266을 포함할 수 있다.

상기 인터페이스 270은, 예를 들어, HDMI 272, USB 274, 광 인터페이스 276, 또는 D-sub(D-subminiature) 278를 포함할 수 있다. 상기 오디오 모듈 280은, 예를 들어, 소리(sound)와 전기 신호를 쌍방향으로 변환시킬 수 있고, 스피커 282, 리시버 284, 이어폰 286, 또는 마이크 288 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.

상기 카메라 모듈 291은, 예를 들어, 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, ISP(image signal processor), 또는 플래시(flash)(예: LED 또는 xenon lamp)를 포함할 수 있다.

상기 전력 관리 모듈 295는, 예를 들어, 상기 전자 장치 201의 전력을 관리할 수 있고, PMIC(Power Management Integrated Circuit), 충전 IC(charger integrated circuit), 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다.

상기 인디케이터 297은, 상기 전자 장치 201 또는 그 일부(예: AP 210)의 특정 상태, 예를 들어, 부팅 상태, 메시지 상태, 또는 전력 상태 등을 표시할 수 있고, 상기 모터 298은, 전기적 신호를 기계적 진동으로 변환할 수 있으며, 진동 (vibration) 등의 효과를 발생시킬 수 있다.

도 3은, 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치의 일부 구성을 예시한 도면이다. 도 3을 참조하면, 전자 장치 301은, 예를 들어, 도 2의 전자 장치 201일 수 있다.

상기 전자 장치 301은 어플리케이션 프로세서 310 및 오디오 모듈 380을 포함할 수 있다.

상기 전자 장치 301은 다양한 동작 모드를 가질 수 있다. 한 실시예에서, 상기 전자 장치 301은 정상 모드(normal mode) 또는 대기 모드(idle mode)로 동작할 수 있으며, 전력 소모를 줄이기 위한 절전 모드(power saving mode)(예를 들어, 슬립 모드(sleep mode) 또는 최대 절전 모드(maximum sleep mode))로 동작할 수 있다. 예를 들어, 상기 저전력 모드는 전원 공급을 줄이기 위하여 상기 어플리케이션 프로세서 301의 동작 속도를 감소시킬 수 있다. 이하, 본 문서에서 슬립 모드는 전력 소모를 줄이기 위한 다양한 동작 모드를 나타내며, 특정 동작 모드에 국한되지 아니한다.

도 3을 참조하면, 상기 전자 장치 301은, 절전(power saving)을 위해 저전력 모드, 예를 들어, 슬립(sleep) 모드에 진입하는 경우, 고전력을 사용하는 디스플레이 모듈 360을 오프(off)시키고, 고주파 클록(clock)(예: GHz 단위)을 사용하는 어플리케이션 프로세서 310을 아이들(idle) 상태로 전환시킬 수 있다.

상기 전자 장치 301은, 상기 슬립 모드에서도, 마이크 388을 통해 사용자가 입력하는 음성 신호를 인식하기 위하여, 오디오 모듈 380 내에 포함된 저전력의 프로세서, 예를 들어, 오디오 코덱 380a을 구동시킬 수 있다. 여기서, 상기 오디오 코덱은, 저전력을 사용하는 제1 프로세서, 상기 어플리케이션 프로세서는, 고전력을 사용하는 제2 프로세서 등으로 다양하게 일컬어질 수 있다.

상기 오디오 코덱 380a는, 예를 들어, MHz 단위의 저주파(low frequency) 클록(예: 50MHz)을 사용할 수 있으며, 상기 어플리케이션 프로세서 310에 비해 소비 전력이 적은 저전력 칩(low power chip)으로 제작될 수 있다.

상기 오디오 코덱 380a은, 상기 어플리케이션 프로세서 310가 아이들(idle) 상태인 동안, 상기 마이크 388을 통해 입력되는 사용자의 음성 신호를 인식할 수 있다. 예를 들어, 상기 슬립 모드에서, 50MHz 단위의 저주파 클록을 사용하여, 마이크 388를 통해 입력되는 사용자 음성 신호를 인식하고, 상기 사용자 음성 신호가, 사전에 설정된 특정 음성 신호와 일치하는 지를 판별할 수 있다.

상기 오디오 코덱 380a는, 예를 들어, 상기 인식된 사용자 음성 신호가, 사전에 설정된 특정 키워드(예: 하이 갤럭시)인 경우, 상기 어플리케이션 프로세서 310에서 실행되는 적어도 하나 이상의 어플리케이션들에 의해 음성 인식 동작이 수행되도록, 음성 트리거(voice trigger)를 발생시킬 수 있다.

여기서, 상기 오디오 코덱 380a는, 사용자 음성 신호 인식 동작은 물론, 사용자 음성 신호를 오디오 신호 처리하여 스피커 등으로 출력할 수 있음은, 당업자라면 자명하다.

상기 어플리케이션 프로세서 310은, 상기 음성 트리거가 발생한 이후, 아이들(idle) 상태에서 활성화(active) 상태로 웨이크업(wake-up) 될 수 있고, 상기 마이크 388를 통해 입력되는 사용자의 음성 신호를, 상기 오디오 코덱 380a으로부터 전달 받아 녹음하는 음성 녹음(voice record) 동작을 수행할 수 있다.

상기 어플리케이션 프로세서 310은, 상기 음성 녹음 동작을 수행하던 도중, 사용자 음성 신호의 입력이 종료(end)되는 경우, 통신 모듈 320을 동작 제어할 수 있으며, 네트워크 362를 통해 음성 인식 서비스를 제공하는 서버 306와의 인터페이스를 수행할 수 있다. 여기서, 상기 어플리케이션 프로세서 310은, 상기 서버 306와의 인터페이스 없이도, 음성 인식 동작을 자체 수행할 수 있다.

상기 어플리케이션 프로세서 310은, 상기 서버 306와의 인터페이스를 통해, 상기 녹음된 사용자 음성 신호에 상응하는 텍스트(text) 또는 커맨드(command) 등을 제공 받을 수 있으며, 상기 텍스트를 디스플레이 하거나, 상기 커맨드에 상응하는 임의의 기능을 수행할 수 있다.

상기 전자 장치 301가, 슬립 모드인 상태에서, 마이크 388를 통해 입력되는 사용자의 음성 키워드를 인식하고, 이후 연속적으로 입력된 사용자 음성 명령에 상응하는 임의의 기능을 자동으로 수행하는 기능은, “Seamless Wake-Up” 기능 등으로 다양하게 일컬어질 수 있다.

한 실시예에서, 상기 전자 장치 301은 절전 모드(power saving mode)에서 음성 트리거를 인식하는 동작; 상기 음성 트리거가 인식되는 경우 음성 입력을 녹음하는 동작; 및 상기 녹음이 종료되는 경우, 정상 모드(normal mode)로 변경하는 동작을 수행할 수 있다.

도 4는, 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치에서의 동작 타이밍(timing)을 예시한 도면이다. 도 4을 참조하면, 예를 들어, 스마트 폰 등과 같은 전자 장치가 절전을 위해 슬립 모드에 진입하면, 디스플레이 모듈 460은, 오프(off) 상태가 되고, 어플리케이션 프로세서 410은, 아이들(idle) 상태가 될 수 있다.

상기 슬립 모드에서, 오디오 코덱 480a은, 예를 들어, 50MHz단위의 저주파(low frequency) 클록(clock)을 사용하여, 마이크를 통해 입력되는 사용자 음성 신호를 인식할 수 있고, 상기 마이크를 통해 입력되는 사용자 음성 신호 400가, 사전에 설정된 키워드(keyword)(예: 하이 갤럭시)와 일치하면, 음성 트리거(voice trigger)를 발생시킬 수 있다.

상기 음성 트리거가 발생하면, 상기 어플리케이션 프로세서 410은, 아이들(idle) 상태에서, 활성화(active) 상태로 웨이크업(wake-up) 될 수 있다. 예를 들어, 상기 어플리케이션 프로세서 410가, 상기 음성 트리거에 의해, 아이들 상태에서 활성화 상태로 웨이크업 할 때까지는, 소정의 지연 시간(t_delay, 예: 0.5초)이 발생할 수 있다.

상기 오디오 코덱 480a은, 상기 소정의 지연 시간(t_delay) 동안, 마이크를 통해 입력되는 사용자 음성 신호를 버퍼링(buffering)하고, 이후, 상기 어플리케이션 프로세서 410가 활성화되면, 상기 버퍼링된 사용자 음성 신호를 상기 어플리케이션 프로세서 410으로 전달하고, 이후, 마이크를 통해 입력되는 사용자 음성 신호를, 상기 어플리케이션 프로세서 410로 실시간 전달할 수 있다.

상기 어플리케이션 프로세서 410은, 활성화된 후, 상기 오디오 코덱 480a에서 전달하는 사용자 음성 신호를 녹음(record)하는 음성 녹음 동작을 수행하면서, 사용자 음성 신호의 입력이 종료(end)되는 지를 감시할 수 있다.

예를 들어, 사용자 음성 신호가 입력되지 않는 묵음 시간이, 사전에 설정된 기준 값의 묵음 시간(예: 0.5초)과 일치하는 경우, 그 시점을 사용자 음성 신호의 입력 종료 시점(t_end)이라고 판별할 수 있다.

상기 어플리케이션 프로세서 410은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 통신 모듈을 동작 제어하여, 네트워크를 통해 서버와 접속한 후, 상기 음성 녹음된 사용자 음성 신호를, 상기 서버로 전송하고, 상기 사용자 음성 신호에 상응하는 텍스트 또는 커맨드를, 상기 서버로부터 수신할 수 있으며, 상기 수신된 텍스트를 표시하거나, 상기 커맨드에 상응하는 임의의 기능을 수행할 수 있다.

상기 어플리케이션 프로세서 410은, 상기 사용자 음성 신호의 입력 종료 가 판별되면, 상기 오디오 코덱 480a이 사용하는 50MHz 단위의 저주파 클록을, 100MHz 단위(예: 147MHz)의 고주파 클록으로 변경하여, 상기 오디오 코덱 480a이, 정상적인 오디오 신호 처리 동작 등을 수행할 수 있도록 한다.

상기 어플리케이션 프로세서 410은, 상기 사용자 음성 신호의 입력 종료 가 판별되면, 전자 장치의 슬립 모드를 해제함과 아울러, 상기 디스플레이 모듈 460을 오프 상태에서 온(on) 상태로 전환시킴으로써, 상기 디스플레이 모듈 460이, 현재의 동작 상태 등을 정상적으로 디스플레이할 수 있도록 한다.

상기 디스플레이 모듈 460이 오프 상태에서 온 상태로 전환되는 시점은, 상기 어플리케이션 프로세서 410가, 사용자 음성 신호의 입력 종료를 검출하는 시점이거나, 또는 상기 어플리케이션 프로세서 410가, 아이들 상태에서 활성화 상태로 웨이크업 되는 시점이 될 수도 있다.

본 개시의 다양한 실시 예에 따르면, 상기와 같이 오디오 코덱 480a의 주파수 클록이 50MHz 단위에서 100MHZ 단위로 변경되는 시점이, 상기 어플리케이션 프로세서 410가, 음성 녹음 동작을 완료하는 시점 이후가 되기 때문에, 도 4에 도시한 바와 같이, 상기 오디오 코덱 480a에 의해 발생하는 글리치 노이즈(glitch noise) 등이, 상기 음성 녹음 동작을 수행하는 동안 유입되는 것을 미연에 방지할 수 있다.

도 5는, 본 개시의 다양한 실시 예에 따른 묵음 시간 설정 테이블을 예시한 도면이다. 상기 전자 장치의 어플리케이션 프로세서에서, 사용자 음성 신호의 입력 종료(end)를 검출하기 위해 참조하는 기준 값의 묵음(mute) 시간은, 예를 들어, 특정 키워드 및/또는 특정 키워드와 연관된 어플리케이션, 사용자 발화 특성 (발성 속도 등), 입력된 음성신호의 특성 (음성신호의 길이 등) 등에 따라 서로 다르게 설정될 수 있다.

상기 어플리케이션 프로세서는, 도 5의 묵음 시간 설정 테이블(mute time setting table) 500를, 룩업(look-up) 테이블 정보로서 저장 관리할 수 있고, 사용자 음성 신호의 입력 종료를 검출하기 위해, 상기 룩업 테이블 정보를 검색 및 참조할 수 있다. 상기 묵음 시간 설정 테이블 500에는, 적어도 하나 이상의 키워드(keyword)와, 키워드에 연관된 어플리케이션(application), 그리고 어플리케이션에 연관된 묵음 시간(mute time) 등이, 리스트 형태로 연계되어 저장될 수 있다.

상기 묵음 시간 설정 테이블 500의 제1 키워드(keyword #1) 510은, 전자 장치의 제조사가 지정한 특정 키워드, 예를 들어, “하이 갤럭시”라는 특정 음성 신호일 수 있고, 상기 묵음 시간 설정 테이블 500의 제2 키워드(keyword #2)는, 전자 장치의 사용자가 지정한 임의의 키워드, 예를 들어, “홍길동”이라는 사용자 이름의 특정 음성 신호일 수 있다.

상기 제1 키워드 510에는, 상기 제1 키워드에 의한 음성 인식 동작에 사용되는 다양한 어플리케이션들(application 1-1, 1-2..)에 대한 식별 정보(예: application id) 등이 연계될 수 있고, 각 어플리케이션에는, 동일 또는 서로 다르게 설정된 다양한 기준 값의 묵음 시간들(예: 0.5초, 0.6 초..)이 연계될 수 있다.

상기 제2 키워드 520에는, 상기 제2 키워드에 의한 음성 인식 동작에 사용되는 다양한 어플리케이션들(application 2-1, 2-2..)에 대한 식별 정보(예: application id) 등이 연계될 수 있고, 각 어플리케이션에는, 동일 또는 서로 다르게 설정된 다양한 기준 값의 묵음 시간들(예: 1.0초, 1.2 초..)이 연계될 수 있다.

상기 제1 키워드 510가, 예를 들어, 전자 장치의 제조사가 지정한 특정 키워드(예: “하이 갤럭시”)인 경우, 상기 제1 키워드를 입력한 사용자는, 이후에도, 상기 전자 장치의 제조사가 권장하거나 예측할 수 있는 정해진 내용의 음성 신호를 입력할 가능성이 있다.

예를 들어, 상기 제1 키워드를 입력한 사용자는, 이후, 음성 명령으로서, “카메라 실행”등과 같이 사전에 정해진 음성 명령을 간단하게 입력할 가능성이 높으므로, 상기 제1 키워드에 연계된 기준 값의 묵음 시간들은, 비교적 짧은 시간으로 설정될 수 있다.

반면, 상기 제2 키워드 520가, 예를 들어, 전자 장치의 사용자가 지정한 임의의 키워드(예: “홍길동”)인 경우, 상기 제2 키워드를 입력한 사용자는, 이후에도, 상기 전자 장치의 사용자가 원하는 임의의 음성 명령을 입력할 가능성이 높다.

예를 들어, 상기 제2 키워드를 입력한 사용자는, 이후, 음성 명령으로서, “카메라 촬영 기능 즉시 시작” 등과 같이 사전에 정해지지 않은 음성 명령을 길게 입력할 가능성이 높으므로, 상기 제2 키워드에 연계된 기준 값의 묵음 시간들은, 비교적 긴 시간으로 설정될 수 있다.

이에 따라, 상기 제1 키워드 510에 연계되는 기준 값의 묵음 시간들은, 상기 제2 키워드 520에 연계되는 기준 값의 묵음 시간들에 비해 상대적으로 짧은 시간일 수 있다. 이는 본 개시의 다양한 실시 예 중 하나의 예시로서, 본 개시가 이에 한정되는 것은 아니다.

도 6은, 본 개시의 다양한 실시 예에 따른 음성 인식 방법이 적용되는 전자 장치에서의 다른 동작 타이밍(timing)을 예시한 도면이다. 도 6을 참조하면, 예를 들어, 스마트 폰 등과 같은 전자 장치가 절전을 위해 슬립 모드에 진입하면, 디스플레이 모듈 660은, 오프(off) 상태가 되고, 어플리케이션 프로세서 610은, 아이들(idle) 상태가 될 수 있다.

상기 슬립 모드에서, 오디오 코덱 680a은, 예를 들어, 50MHz단위의 저주파(low frequency) 클록(clock)을 사용하여, 마이크를 통해 입력되는 사용자 음성 신호를 인식할 수 있고, 상기 마이크를 통해 입력되는 사용자 음성 신호 600가, 사전에 설정된 키워드(keyword)와 일치하면, 음성 트리거(voice trigger)를 발생시킬 수 있다.

예를 들어, 상기 키워드는, 도 5을 참조로 전술한 바와 같이, 전자 장치의 사용자가 임의의 지정한 제2 키워드(keyword 2, 예: “홍길동”)일 수 있고, 상기 제2 키워드(keyword 2)에 연계된 기준 값의 묵음 시간(mute 2-1, 예: 1.0초)은, 전자 장치의 제조사가 지정한 제1 키워드에 연계된 기준 값의 묵음 시간(예: mute 1-1, 예; 0.5초) 보다 상대적으로 길 수 있다.

상기 음성 트리거가 발생하면, 상기 어플리케이션 프로세서 610은, 아이들(idle) 상태에서, 활성화(active) 상태로 웨이크업(wake-up) 될 수 있고, 상기 활성화 상태로 웨이크업 할 때까지는, 소정의 지연 시간(t_delay)이 발생할 수 있다.

상기 오디오 코덱 680a은, 상기 소정의 지연 시간(t_delay) 동안, 마이크를 통해 입력되는 사용자 음성 신호를 버퍼링(buffering)하고, 이후, 상기 어플리케이션 프로세서 610가 활성화되면, 상기 버퍼링된 사용자 음성 신호를 상기 어플리케이션 프로세서 610으로 고속 전달하고, 이후, 마이크를 통해 입력되는 사용자 음성 신호를, 상기 어플리케이션 프로세서 610로 실시간 전달할 수 있다.

상기 어플리케이션 프로세서 610은, 활성화된 후, 상기 오디오 코덱 680a에서 고속으로 전달하는 사용자 음성 신호와 실시간으로 전달하는 사용자 음성 신호를 녹음(record)하는 음성 녹음 동작을 수행하면서, 사용자 음성 신호의 입력이 종료(end)되는 지를 감시할 수 있다.

예를 들어, 사용자 음성 신호가 입력되지 않는 묵음(mute) 시간이, 사전에 설정된 기준 값의 제2 묵음 시간(mute 2-1, 예: 1.0초)과 일치하는 경우, 그 시점을 사용자 음성 신호의 입력 종료 시점(t_end)이라고 판별할 수 있다.

상기 어플리케이션 프로세서 610은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 통신 모듈을 동작 제어하여, 네트워크를 통해 서버와 접속한 후, 상기 음성 녹음된 사용자 음성 신호를, 상기 서버로 전송하고, 상기 사용자 음성 신호에 상응하는 텍스트 또는 커맨드를, 상기 서버로부터 수신할 수 있으며, 상기 수신된 텍스트를 표시하거나, 상기 커맨드에 상응하는 임의의 기능을 수행할 수 있다.

상기 어플리케이션 프로세서 610은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 상기 오디오 코덱 680a이 사용하는 50MHz 단위의 저주파 클록을, 100MHz 단위(예: 147MHz)의 고주파 클록으로 변경하여, 상기 오디오 코덱 680a이, 정상적인 오디오 신호 처리 동작 등을 수행할 수 있도록 한다.

상기 어플리케이션 프로세서 610은, 상기 사용자 음성 신호의 입력 종료 시점이 되면, 전자 장치의 슬립 모드를 해제함과 아울러, 상기 디스플레이 모듈 660을 오프 상태에서 온(on) 상태로 전환시킴으로써, 상기 디스플레이 모듈 660이, 현재의 동작 상태 등을 정상적으로 디스플레이할 수 있도록 한다.

상기 디스플레이 모듈 660이 오프 상태에서 온 상태로 전환되는 시점은, 상기 어플리케이션 프로세서 610가, 사용자 음성 신호의 입력 종료를 검출하는 시점이거나, 또는 상기 어플리케이션 프로세서 610가, 아이들 상태에서 활성화 상태로 웨이크업 되는 시점이 될 수도 있다.

본 개시의 다양한 실시 예에 따르면, 상기와 같이 오디오 코덱 680a의 주파수 클록이 50MHz 단위에서 100MHZ 단위로 변경되는 시점이, 상기 어플리케이션 프로세서 610가, 음성 녹음 동작을 완료하는 시점 이후가 된다.

이에 따라, 도 6에 도시한 바와 같이, 상기 오디오 코덱 680a에 의해 발생하는 글리치 노이즈(glitch noise) 등이, 상기 음성 녹음 동작을 수행하는 동안 유입되는 것을 미연에 방지할 수 있게 된다.

더 나아가, 상기 사용자 음성의 입력 종료를 판단하는 기준 값의 묵음 시간(mute)을, 키워드 및/또는 키워드와 연관된 어플리케이션 등에 따라 다르게 변경함으로써, 슬립 모드의 해제 시점 등을 적절히 조절할 수 있다.

도 7은, 본 개시의 다양한 실시 예에 따른 전자 장치의 음성 인식 방법에 대한 동작 흐름도를 예시한 도면이다. 도 7을 참조하면, 동작 700에서, 상기 전자 장치는, 절전을 위해, 슬립 모드로 진입할 수 있다. 상기 슬립 모드가 되면, 디스플레이 모듈이 오프되고, 어플리케이션 프로세서가 아이들 상태가 될 수 있다.

동작 710에서, 상기 전자 장치의 오디오 코덱은, 슬립 모드에서도, 50MHZ 단위의 저주파 클록을 사용하여, 마이크를 통해 입력되는 사용자의 음성 신호를 인식하고, 상기 사용자의 음성 신호가, 사전에 설정된 특정 키워드인지를 판별할 수 있다.

동작 720에서, 상기 판별 결과, 특정 키워드의 입력이면, 동작 730에서, 상기 전자 장치의 어플리케이션 프로세서는, 아이들 상태에서, 웨이크업 되며, 소정의 지연 시간이 경과하면, 활성화 상태가 될 수 있다.

동작 740에서, 상기 어플리케이션 프로세서는, 상기 특정 키워드가 입력된 이후, 상기 오디오 코덱 내에 버퍼링된 사용자 음성 신호를 전달 받고, 이후 상기 오디오 코덱을 통해 실시간으로 전달되는 사용자 음성 신호와 함께 녹음하는 사용자 음성 신호 녹음 동작을 수행할 수 있다.

동작 750에서, 상기 어플리케이션 프로세서는, 상기 음성 녹음 동작을 수행하면서, 사용자 음성이 입력되지 않는 묵음 시간을 검출하여, 사용자 음성 입력 종료를 판별할 수 있다.

동작 760에서, 상기 어플리케이션 프로세서는, 상기 사용자 음성 입력 종료가 판별되면, 슬립 모드를 해제할 수 있으며, 동작 770에서, 상기 어플리케이션 프로세서는, 상기 오디오 코덱의 주파수 클록을, 50MHZ 단위에서 100MHZ 단위(예: 147MHz)로 증가시켜, 상기 오디오 코덱이 정상적인 오디오 신호 처리 동작을 수행할 수 있도록 한다.

동작 780에서, 상기 어플리케이션 프로세서는, 상기 디스플레이 모듈을 오프 상태에서 온 상태로 전환시켜, 전자 장치의 동작 상태 등이 정상적으로 디스플레이될 수 있도록 한다.

동작 790에서, 상기 어플리케이션 프로세서는, 통신 모듈을 동작 제어하여, 네트워크를 통해 음성 인식 서비스를 제공하는 서버와 접속한 후, 상기 서버와의 통신을 통해, 음성 인식 동작을 정상적으로 수행할 수 있다. 상기 동작 760 내지 동작 790은, 다른 순서에 의해 순차적 수행되거나, 동시에 수행될 수 있다.

본 개시의 다양한 실시 예에 따르면, 상기 오디오 코덱의 주파수 클록이 증가되는 시점을, 상기 어플리케이션 프로세서가, 음성 녹음 동작을 완료하는 시점 이후가 되도록 함으로써, 오디오 코덱에 의해 발생하는 글리치 노이즈(glitch noise) 등이, 음성 녹음에 유입되는 것을 미연에 방지할 수 있게 되므로, 음성 인식 동작의 정확성을 높일 수 있다.

본 개시의 다양한 실시 예에 따르면, 전자 장치의 음성 인식 방법에 있어서, 상기 전자 장치의 저전력 모드에서 지정된 클록을 사용하는 제1 프로세서가 마이크를 통해 입력되는 음성 신호를 인식하는 동작; 상기 인식된 음성 신호가 사전에 설정된 키워드이면, 제2 프로세서가 활성화 상태가 되어 음성 녹음을 수행하는 동작; 및 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제2 프로세서가 음성 인식을 수행하는 동작을 포함하되, 상기 음성 입력의 종료가 판별된 후 상기 제1 프로세서의 클록을 변경할 수 있다.

상기 제1 프로세서는, 오디오 코덱이고, 상기 제2 프로세서는, 어플리케이션 프로세서이고, 상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩일 수 있다.

상기 제1 프로세서는 상기 제2 프로세서가 웨이크업 시작에서 활성화 상태가 될 때까지의 지연 시간 동안 마이크를 통해 입력되는 음성 신호를 버퍼링하고, 상기 제2 프로세서가 활성화 상태가 되면 상기 버퍼링된 음성 신호를 전달하며, 상기 활성화 이후 마이크를 통해 입력되는 음성 신호를 실시간으로 전달할 수 있다.

상기 제2 프로세서는 상기 음성 녹음 도중 음성 입력이 종료되는지를 기준 묵음 시간에 기반하여 판별할 수 있고, 상기 기준 묵음 시간은 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 설정될 수 있다.

상기 전자 장치의 음성 인식 방법은, 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 값의 묵음 시간들을 룩업 테이블 정보로서 저장하되, 상기 룩업 테이블 정보에는, 상기 전자 장치의 제조사가 지정한 특정 키워드와, 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 어느 하나가 포함될 수 있다. 상기 음성 입력의 종료가 판별되면 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시키는 동작을 더 포함할 수 있다.

상기 수행하는 동작은 상기 제2 프로세서가 네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신 받을 수 있고, 상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 하는 동작을 더 포함할 수 있다.

본 개시의 다양한 실시 예에 따르면, 전자 장치에 있어서, 음성 신호를 입력 받기 위한 마이크; 상기 음성 신호를 신호 처리하기 위한 제1 프로세서; 및 상기 음성 신호를 인식하기 위한 제2 프로세서를 포함하되, 상기 제1 프로세서는 상기 전자 장치의 슬립 모드에서 지정된 클록을 사용하여 상기 마이크를 통해 입력되는 음성 신호를 인식하고, 상기 제2 프로세서는 상기 제1 프로세서에 의해 인식된 음성 신호가 사전에 설정된 키워드이면 아이들 상태에서 활성화 상태가 되어 음성 녹음을 수행하고, 상기 음성 녹음 도중 음성 입력의 종료가 판별되면 상기 제1 프로세서의 클록을 변경할 수 있다.

상기 제2 프로세서는 상기 음성 녹음 도중 음성 입력이 종료되는 지를 사전에 설정된 기준 묵음 시간에 기반하여 판별할 수 있고, 상기 기준 묵음 시간은 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 설정될 수 있다.

상기 제2 프로세서는 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 묵음 시간들을 룩업 테이블 정보로서 저장하는 장치.

상기 룩업 테이블 정보에는 지정한 특정 키워드와 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 하나가 포함될 수 있고, 상기 제2 프로세서는 상기 음성 입력의 종료가 판별되면, 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시킬 수 있다.

상기 제2 프로세서는 네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신 받을 수 있고, 상기 제2 프로세서는 상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 할 수 있다.

본 개시의 다양한 실시 예에 대해 구체적으로 설명하였으나, 본 개시의 다양한 실시 예의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하므로, 본 개시의 다양한 실시 예의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

101: 전자 장치 110: 버스
120: 프로세서 130: 메모리
140: 프로그램 150: 입출력 인터페이스
160: 디스플레이 170: 통신 인터페이스

Claims

전자 장치의 음성 인식 방법에 있어서,
제1 주파수 클록으로 동작하는 제1 프로세서가 마이크를 통해 입력되는 사전에 설정된 키워드를 인식하는 동작;
상기 제1 프로세서가, 상기 사전에 설정된 키워드가 입력된 후 제2 프로세서의 상태가 아이들(idle) 상태에서 활성화 상태로 전환되기 전에 상기 마이크를 통해 입력되는 음성 신호를 버퍼링하는 동작;
상기 제2 프로세서가 상기 활성화 상태가 되어 적어도 상기 버퍼링된 음성 신호를 이용하여 음성 녹음을 수행하는 동작; 및
상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제1 프로세서의 주파수 클록을 상기 제1 주파수 클록 보다 높은 제2 주파수 클록으로 변경하는 동작을 포함하는 방법.
제1항에 있어서,
상기 제1 프로세서는, 오디오 코덱이고,
상기 제2 프로세서는, 어플리케이션 프로세서이고,
상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩인 방법.
제1항에 있어서,
상기 음성 신호를 버퍼링하는 동작은,
상기 제2 프로세서가 웨이크업 시작에서 상기 활성화 상태가 될 때까지의 지연 시간 동안 상기 마이크를 통해 입력되는 상기 음성 신호를 상기 제1 프로세서가 버퍼링하는 동작을 포함하고,
상기 제2 프로세서가 상기 활성화 상태가 되면, 상기 버퍼링된 음성 신호는 상기 제1 프로세서에서 상기 제2 프로세서로 전달되고, 상기 제2 프로세서의 활성화 이후 상기 마이크를 통해 입력되는 음성 신호는 상기 제1 프로세서에서 상기 제2 프로세서로 실시간으로 전달되는 방법.
제1항에 있어서,
상기 제2 프로세서가 기준 묵음 시간에 기반하여 상기 음성 녹음의 완료를 검출하는 동작을 더 포함하고,
상기 기준 묵음 시간은 키워드 또는 키워드와 연관된 어플리케이션에 따라 다르게 설정되는 방법.
제1항에 있어서,
상기 제1 프로세서의 상기 주파수 클록의 변경에 응답하여, 상기 제2 주파수 클록으로 동작하는 상기 제1 프로세서가 오디오 신호 처리를 수행하는 동작을 더 포함하는 방법.
제4항에 있어서,
상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 묵음 시간들은 룩업 테이블 정보로서 저장되고,
상기 룩업 테이블 정보에는, 상기 전자 장치의 제조사가 지정한 특정 키워드와, 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 어느 하나가 포함되는 방법.
제1항에 있어서,
상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시키는 동작을 더 포함하는 방법.
제1항에 있어서,
상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제2 프로세서가 상기 녹음된 음성 신호에 대하여 음성 인식을 수행하는 동작을 더 포함하는 방법.
제8항에 있어서,
상기 음성 인식을 수행하는 동작은,
상기 제2 프로세서가 네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신하는 동작; 및
상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 하는 동작을 더 포함하는 방법.
전자 장치에 있어서,
음성 신호를 입력 받기 위한 마이크;
제1 프로세서; 및
제2 프로세서를 포함하되,
상기 제1 프로세서는:
제1 주파수 클록으로 동작하는 동안 상기 마이크를 통해 입력되는 사전에 설정된 키워드를 인식하고,
상기 사전에 설정된 키워드가 입력된 후 상기 제2 프로세서의 상태가 아이들 상태에서 활성화 상태로 전환되기 전에 상기 마이크를 통해 입력되는 상기 음성 신호를 버퍼링하고,
상기 제2 프로세서는:
상기 활성화 상태가 되어 적어도 상기 버퍼링된 음성 신호를 이용하여 음성 녹음을 수행하고,
상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제1 프로세서의 주파수 클록을 상기 제1 주파수 클록 보다 높은 제2 주파수 클록으로 변경하는 장치.
제10항에 있어서,
상기 제1 프로세서는, 오디오 코덱이고,
상기 제2 프로세서는, 어플리케이션 프로세서이고,
상기 오디오 코덱은, 상기 어플리케이션 프로세서 보다 낮은 주파수 클록을 사용하는 저전력 칩인 장치.
제10항에 있어서,
상기 제1 프로세서는:
상기 제2 프로세서가 웨이크업 시작에서 상기 활성화 상태가 될 때까지의 지연 시간 동안 상기 마이크를 통해 입력되는 상기 음성 신호를 버퍼링하고,
상기 제2 프로세서가 상기 활성화 상태가 되면 상기 버퍼링된 음성 신호를 상기 제2 프로세서로 전달하고,
상기 제2 프로세서의 활성화 이후 상기 마이크를 통해 입력되는 음성 신호를 상기 제2 프로세서로 실시간으로 전달하는 장치.
제10항에 있어서,
상기 제2 프로세서는 사전에 설정된 기준 묵음 시간에 기반하여 상기 음성 녹음의 완료를 검출하고
상기 기준 묵음 시간은 키워드 또는 키워드와 연관된 어플리케이션에 따라 다르게 설정되는 장치.
제10항에 있어서,
상기 제1 프로세서는 상기 주파수 클록을 상기 제2 주파수 클록으로 변경하는 것에 응답하여, 오디오 신호 처리를 수행하는 장치.
제13항에 있어서,
상기 제2 프로세서는 상기 키워드 또는 상기 키워드와 연관된 어플리케이션에 따라 다르게 변경되는 다수의 기준 묵음 시간들을 룩업 테이블 정보로서 저장하는 장치.
제15항에 있어서,
상기 룩업 테이블 정보에는 상기 전자 장치의 제조사가 지정한 특정 키워드와 상기 전자 장치의 사용자가 지정한 임의의 키워드 중 적어도 하나가 포함되는 장치.
제10항에 있어서,
상기 제2 프로세서는 상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 전자 장치의 디스플레이 모듈을 오프 상태에서 온 상태로 전환시키는 장치.
제10항에 있어서,
상기 제2 프로세서는 상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 녹음된 음성 신호에 대하여 음성 인식을 수행하는 장치.
제18항에 있어서,
상기 제2 프로세서는:
네트워크를 통해 서버와 통신하여 상기 녹음된 음성 신호에 상응하는 커맨드 또는 텍스트 중 적어도 하나를 수신하고,
상기 수신된 커맨드에 상응하는 기능을 수행하거나 상기 수신된 텍스트를 디스플레이 하는 장치.
전자 장치의 음성 인식 방법에 있어서, 제1 주파수 클록으로 동작하는 제1 프로세서가 마이크를 통해 입력되는 사전에 설정된 키워드를 인식하는 동작; 상기 제1 프로세서가, 상기 사전에 설정된 키워드가 입력된 후 제2 프로세서의 상태가 아이들(idle) 상태에서 활성화 상태로 전환되기 전에 상기 마이크를 통해 입력되는 음성 신호를 버퍼링하는 동작; 상기 제2 프로세서가 상기 활성화 상태가 되어 적어도 상기 버퍼링된 음성 신호를 이용하여 음성 녹음을 수행하는 동작; 및 상기 음성 녹음의 완료를 검출하는 것에 응답하여, 상기 제1 프로세서의 주파수 클록을 상기 제1 주파수 클록 보다 높은 제2 주파수 클록으로 변경하는 동작을 포함하는 방법을 수행하기 위한 프로그램이 저장된 비 일시적 컴퓨터 판독 가능 저장매체.