KR102346302B1

KR102346302B1 - 전자 장치 및 음성 인식 기능 운용 방법

Info

Publication number: KR102346302B1
Application number: KR1020150023702A
Authority: KR
Inventors: 이태진; 체크라달 서브호지트; 이상훈; 김경태; 김윤아; 김준희; 신은혜; 이재근; 임현웅
Original assignee: 삼성전자 주식회사
Priority date: 2015-02-16
Filing date: 2015-02-16
Publication date: 2022-01-03
Also published as: EP3057094A1; CN107112017A; KR20160100765A; US10679628B2; WO2016133316A1; US20160240194A1; CN107112017B; US20200302938A1; EP3057094B1

Abstract

본 발명의 다양한 실시예에 따르면, 전자 장치에 있어서, 오디오 신호를 입력 받고, 상기 오디오 신호에 대해 제1 음성 인식을 수행하고, 제1음성 인식 결과에 기반하여 제2프로세서에 구동신호를 전달하는 제1프로세서; 및 상기 구동신호에 응답하여 상기 제1 음성 인식에 의한 음성신호 또는 상기 오디오 신호 중 적어도 하나에 기반하여 제2음성 인식을 수행하는 제2프로세서를 포함하는 를 포함할 수 있다.

Description

전자 장치 및 음성 인식 기능 운용 방법{Electronic apparatus and Method of operating voice recognition in the electronic apparatus}

본 발명은 전자 장치 및 음성 인식 기능 운용 방법에 관한 것으로, 특히 음성 인식의 성능을 개선하는 전자 장치 및 음성 인식 운용 방법에 관한 것이다.

전자 장치는 하드웨어 및 통신 기술의 발달로, 폭 넓은 분야에서 이용되고 있으며, 사용자들이 필요로 하는 다양한 기능들을 제공하고 있다. 일반적으로 음성 인식 기술은 음성 입력 장치(예,마이크)를 구비하는 다양한 전자 장치에서 구현될 수 있다. 이러한 음성 인식 기술은 최근 전자 장치는 물리적 입력을 대체하고, 음성으로 전자 장치를 제어하기 위해 점점 보편화되는 추세이다.

음성 인식 기술 중 사용자 음성 입력으로 전자 장치를 활성화시키고, 끊김 없이(seamless) 음성 명령을 실행하는 방식(이하, 심리스 음성 인식)이 제안되고 있다. 심리스 음성 인식은, 전자 장치가 사용자의 음성을 언제든지 녹음하고, 이에 대해 음성 인식하는 방식으로 수행되기 때문에 음성 인식 시스템을 항상 대기 상태로 운용해야 할 필요가 있다. 심리스 음성 인식은 시스템을 항상 대기 상태로 운용해야 하는 요구 사항으로 인해, 다음과 같은 문제점들이 야기되고 있다. 예컨대, 시스템 대기 상태로 인해 발생되는 소모 전류의 손실을 방지하기 위해 저전력chip 으로 음성 인식 시스템을 구현하는 경우, 제한된 메모리와 성능 차이로 음성 인식의 오인식 발생율이 증가하게 된다. 음성 인식 오인식을 개선하기 위해 고성능 chip을 사용하는 경우, 고성능 Chip 이 계속 활성화된 상태이므로 소모 전류 손실에 대한 문제가 해결되지 않는 문제가 있다.

본 발명의 다양한 실시예에 따르면, 전자 장치에서 음성 인식 기능의 오인식을 최소화하고, 인식률을 증가시킴과 동시에 전류 소모를 개선하여 음성 인식 성능을 효율적으로 향상시킬 수 있는 전자 장치 및 음성 인식 기능 운용 방법을 제안하고자 한다

본 발명의 다양한 실시예에 따르면, 전자 장치에 있어서, 오디오 신호를 입력 받고, 상기 오디오 신호에 대해 제1 음성 인식을 수행하고, 제1음성 인식 결과에 기반하여 제2프로세서에 구동신호를 전달하는 제1프로세서; 및 상기 구동신호에 응답하여 상기 제1 음성 인식에 의한 음성신호 또는 상기 오디오 신호 중 적어도 하나에 기반하여 제2음성 인식을 수행하는 제2프로세서를 포함할 수 있다.

본 발명의 다양한 실시예에 따르면, 전자 장치의 음성 인식 기능 운용 방법에 있어서, 오디오 입력 모듈이 사운드를 인식하는 동작; 상기 사운드 기반의 오디오 신호에 대해 제1 프로세서에서 제1 음성 인식을 수행하는 동작; 상기1 프로세서에서 제2 음성 인식 결과에 기반하여 제2 프로세서로 구동 신호를 전달하는 동작; 및 상기 제2 프로세서에서 구동 신호에 응답하여 상기 제1 음성 인식에 의해 음성 신호 또는 상기 오디오 신호 중 적어도 하나에 기반하여 제2 음성 인식을 수행하는 동작을 포함할 수 있다.

본 발명의 다양한 실시예는, 소모 전류량이 적은 저성능 모듈을 통해 1차적으로 음성 인식을 수행하고, 1차적으로 음성 인식이 성공한 경우, 상대적으로 높은 인식률이 고성능 모듈에서 2차적으로 음성 인식 함으로써, 음성 인식에 대한 인식률을 개선함과 동시에 단계적으로 전자 장치의 구성들을 활성화하여 전류 소모를 개선할 수 있다.

도 1은, 다양한 실시예에 따른 전자 장치의 구성 블록도를 도시한다.
도 2는, 다양한 실시예에 따른 전자 장치의 구성 블록도를 도시한다.
도 3은, 다양한 실시예에 따른 전자 장치의 구성 블록도를 도시한다.
도 4는 다양한 실시예에 따른, 전자 장치에서 오디오 입력 모듈의 음성 인식 동작 방법을 도시한다.
도 5는 다양한 실시예에 따른, 전자 장치에서 오디오 처리 모듈의 음성 인식 동작 방법을 도시한다.
도6은 다양한 실시예에 따른, 전자 장치에서 음성 인식 모듈의 음성 인식 동작 방법을 도시한다.
도 7은 다양한 실시예에 따른, 전자 장치에서 메인 프로세서의 음성 인식 작 방법을 도시한다.
도8은 다양한 실시예에 따른, 전자 장치에서 메인 프로세서의 음성 인식 동작 방법을 도시한다.
도 9는 다양한 실시예에 따른, 전자 장치의 구성 요소 간 음성 인식 동작 흐름을 도시한다.
도 10은 다양한 실시예에 따른, 전자 장치의 구성 요소 간 음성 인식 동작 흐름을 도시한다.
도 11은 다양한 실시예에 따른, 전자 장치의 구성 요소 간 음성 인식 동작 흐름을 도시한다.
도 12a 및 12b는 다양한 실시예에 따른 전자 장치의 음성 인식 운용 화면의 예시도이다.
도 13a 및 13b는 다양한 실시예에 따른 전자 장치의 음성 인식 운용 화면의 예시도이다.

이하, 본 발명의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 발명의 다양한 실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 다양한 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 다양한 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 다양한 실시예에 따른 전자 장치는, 통신 기능이 포함된 장치일 수 있다. 예를 들면, 전자 장치는 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 통신 기능 을 갖춘 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSync ™, 애플TV™, 또는 구글 TV™), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller’s machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 통신 기능 을 포함한 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치는 플렉서블 장치일 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.

이하, 첨부된 도면을 참조하여 다양한 실시예에 따른 전자 장치에 대해서 살펴본다. 다양한 실시예에서 이용되는 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

다양한 실시예에서,‘오디오 신호’는 소리 정보에 의해 오디오 입력 모듈로부터 입력되는 신호이며,‘음성 신호’는 음성 인식에 기반하여 오디오 신호로부터 추출된 음성 신호일 수 있다.

다양한 실시예에서,‘음성 인식’은 인식 대상 단어만을 추출하여 인식하는 ‘핵심어 인식(keyword recognition)’, 화자의 음성을 실행 명령어로 인식하는‘명령어 인식(command recognition)’및 등록된 특정 화자의 음성을 인식하는 화자 인식(speaker recognition) 중 적어도 하나를 포함할 수 있다. '음성 인식'은 음성 기능을 트리거하기 위한 트리거 음성(voice trigger)과, 트리거 음성을 인식한 이후에 음성 기반의 기능 실행을 위해 입력되는 명령어 음성(voice command)을 구분하여 인식할 수 있다.

예컨대, 핵심어 인식 및 명령어 인식은 불특정 다수의 음성을 인식하는 화자독립 인식일 수 있으며, 화자 인식은, 특정 화자의 음성을 인식하는 화자종속 인식일 수 있다. 핵심어 인식은, 음성의 시퀀스를 분석하여 연속적인 음성의 패턴을 확인하고, 음성의 패턴 중 핵심어에 해당하는 단어가 존재하는지를 판단하여 핵심어가 존재하는 경우 그 핵심어에 대해 인식 성공하고, 핵심어가 존재하지 않는 경우 인식 실패하는 기능일 수 있다. 화자 인식은, 등록된 화자의 음성 정보와, 음성 신호의 유사도를 판별하여 등록된 화자의 음성 입력일 경우 화자 인식 성공하고, 등록된 화자의 음성 신호가 아닐 경우 화자 인식 실패하는 화자 검증(verification) 기능일 수 있다. 화자 인식을 위해 전자 장치는 등록 화자의 음성을 입력 받아 화자 음성의 특징을 추출하고, 이를 모델링하여 미리 저장할 수 있다.

도 1은, 다양한 실시예에 따른 전자 장치의 구성 블록도를 도시한다.

도 1을 참조하면 , 다양한 실시예에 따른, 전자 장치(101)는 오디오 입력 모듈(110), 오디오 처리 모듈(130), 저장 모듈(140), 표시 모듈(150) 및 메인 프로세서(170)을 포함하여 구성될 수 있다.

오디오 입력 모듈(110)은 소리 정보를 오디오 신호로 입력 받을 수 있다. 예를 들어, 오디오 입력 모듈은 마이크(MIC)일 수 있다.

오디오 입력 모듈(110)은 메인 프로세서(170)의 슬립 모드/동작모드에 상관없이 동작(on)상태를 유지할 수 있다. 오디오 입력 모듈(110)은 오디오 신호를 오디오 입력 모듈(110)의 버퍼(111)에 설정된 시간 간격 마다 저장할 수 있다. 오디오 입력 모듈(110)이 입력 받는 소리 정보는, 음성, 특정 소리 뿐만 아니라 전자 장치 주변의 환경 소리, 소음 등의 잡음이 포함될 수 있다.

일 실시예에 따른 오디오 입력 모듈 (110)은, ASIC(application specific integrated circuit) 형태로 구현하여, 사운드 인식 기능을 지원할 수 있다. 예컨대, 오디오 입력 모듈(110)은 입력되는 소리에 의해 발생된 오디오 신호가 음성 인식 시스템을 구동해야 할 필요가 있는 사운드인지를 판단하고, 음성 인식 시스템을 구동해야 할 필요가 있는 사운드인 경우, 오디오 처리 모듈(130)을 웨이크업(wake up) 할 수 있다. 예를 들어, 오디오 입력 모듈(110)은 오디오 신호의 크기(예, dB 등)가 설정된 임계값 이상일 경우 음성 인식 시스템을 구동해야 할 필요가 있는 사운드로 인식할 수 있다 . 음성 인식 시스템을 구동해야 할 필요가 있는 사운드의 판단 기준은 오디오 신호의 크기, 주파수 대역 등일 수 있으며, 설계자의 의도에 따라 설정될 수 있다. 오디오 입력 모듈(110)은 오디오 처리 모듈(130)(또는 음성 인식 모듈)로 구동 신호(예, 웨이크업(wake up) 신호, 인식 요청 신호, 인터럽트 신호 등)를 전달하고, 버퍼(111)에 저장된 오디오 신호를 오디오 처리 모듈(130)의 버퍼 (131)에 전달할 수 있다.

오디오 처리 모듈(130)은 오디오 입력 모듈(110)과 연결되며, 오디오 입력 모듈(110) 및 메인 프로세서(170)와 송수신하는 오디오 신호를 처리하고, 오디오 신호를 처리하는 기능을 수행할 수 있다. 예를 들어, 오디오 처리 모듈(130)은 아날로그 신호에서 디지털 신호로 변환하거나 디지털 신호를 아날로그 신호로 변환하는 기능, 오디오 입출력 전/후처리 기능을 수행할 수 있으며, 음성 인식 기능을 수행할 수 있다.

오디오 처리 모듈(130)은 디지털 프로세서(DSP: Digital Signal Processor)을 포함할 수 있다. 오디오 처리 모듈(130)은 메인 프로세서와 독립적 또는 종속적으로 동작할 수 있으며, 슬립 모드 또는 동작모드로 운용될 수 있다. 오디오 처리 모듈(130)은 오디오 신호의 처리 기능(예, 음원 재생, 신호 변환 등)에 따라 오디오 처리 모듈(130)의 동작 클럭(clock)를 변경하도록 제어할 수 있다. 오디오 처리 모듈(130)은 오디오 신호를 처리하고, 버퍼(131)에 일정 시간 간격으로 저장할 수 있다.

오디오 처리 모듈(130)은 슬립 모드 시 오디오 입력 모듈(110)로부터구동신호가 전달된 경우, 동작모드로 전환할 수 있다. 오디오 처리 모듈(130)은 구동신호에 응답하여 활성화하여 오디오 입력 모듈(110)로부터 전달된 오디오 신호를 분석하여 오디오 신호에 대해 음성 인식을 수행할 수 있다. 오디오 처리 모듈(130)은 핵심어 인식 및 화자 인식 중 적어도 하나를 수행함으로써, 화자(또는 등록 화자)가 입력하는 트리거 음성을 인식할 수 있다. 오디오 처리 모듈(130)은 음성 인식 성공한 경우, 오디오 입력 모듈(110)로부터 입력된 오디오 신호를 메인 프로세서(170)가 활성화되는 시간 동안 지속적으로 버퍼(131)에 버퍼링하고, 메인 프로세서(170)가 활성화된 시점에 버퍼링된 오디오 신호 및/또는 음성 신호)를 전달할 수 있다. 반면에, 오디오 처리 모듈(130)은 음성 인식 실패한 경우, 동작모드에서 슬립 모드로 전환할 수 있다.

일 예를 들면, 오디오 처리 모듈(130)은, 핵심어 인식 및 화자 인식을 병렬적으로 또는 순차적으로 수행할 수 있다. 오디오 처리 모듈(130)은 핵심어 인식 및 화자 인식 둘 다 인식 성공한 경우, 메인 프로세서(170)로 구동신호를 전달할 수 있다. 오디오 처리 모듈(130)은 핵심어 인식 및 화자 인식 둘 중 하나에 대해 인식 실패 한 경우, 다시 슬립 모드로 전환할 수 있다.

다른 예를 들면, 오디오 처리 모듈(130)은, 핵심어 인식 또는 화자 인식 중 하나를 수행하고, 인식 성공 시 메인 프로세서(170)를 활성화하거나, 인식 실패 시 다시 슬립 모드로 전환할 수 있다.

오디오 처리 모듈(120)은 음성 인식(예,핵심어 인식 및 화자 인식 중 적어도 하나) 을 성공한 경우, 오디오 입력 모듈로부터 입력되는 오디오 신호를 메인 프로세서로 지속적으로 전달할 수 있으며, 메인 프로세서(170)로부터 인식 실패 결과를 전달받은 경우, 동작모드에서 슬립 모드로 전환할 수 있다. 상기 저장 모듈(140)은 상기 메인 프로세서 또는 또는 다른 구성요소들(예, 오디오 처리 모듈 등)로부터 수신되거나 또는 다른 구성요소들에 의해 생성된 명령 또는 데이터를 저장할 수 있다. 예를 들면, 상기 저장 모듈(140)은 상기 전자 장치(101)의 부팅 및 상술한 각 구성 운용을 위한 운영체제(OS, Operating System), 적어도 하나의 응용프로그램, 기능 실행에 따른 데이터 등을 저장할 수 있다.

저장 모듈(140)은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API: application programming interface) 또는 어플리케이션 등의 프로그래밍 모듈들을 포함할 수 있다. 전술한 각각의 프로그래밍 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다. 저장 모듈(140)은, 음성 인식 기능을 위한 적어도 하나의 음성 인식 알고리즘 및 등록 화자의 모델링 정보를 저장할 수 있다.

상기 표시 모듈(150)은 영상 또는 데이터를 사용자에게 표시하는 기능을 수행할 수 있다. 표시 모듈(150)은 표시 패널을 포함할 수 있다. 표시 패널에는, 예를 들어, LCD(Liquid-Crystal Display) 또는 AM-OLED(Active-Matrix Organic Light-Emitting Diode) 등이 이용될 수 있다. 상기 표시 모듈(150)은 표시 패널을 제어하는 컨트롤러를 더 포함할 수 있다. 표시 패널은, 예를 들면, 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 한편, 상기 표시 모듈(150)은 터치 패널과 결합된 모듈(예; 터치 스크린의 형태)로 구성될 수 있다. 상기 표시 모듈(150)는 전자 장치(101)의 어플리케이션/기능 운용에 따른 다양한 화면, 예를 들면, 콜 어플리케이션/기능 운용 화면, 카메라 실행 어플리케이션 화면, 음성 인식 기능 동작 화면 등을 표시할 수 있다.

상기 메인 프로세서(170) 전자 장치(101)의 구성요소들(예: 오디오 처리 모듈 등)으로부터 명령을 수신하여, 수신된 명령을 해독하고, 해독된 명령에 따른 연산이나 데이터 처리를 실행할 수 있다. 예를 들면, 상기 메인 프로세서(170)는, 전원이 공급되면, 전자 장치(101)의 부팅 과정을 제어하고, 사용자의 설정에 따라 기능 실행을 위해 프로그램 영역에 저장된 각종 응용 프로그램을 실행할 수 있다. 상기 메인 프로세서는, 하나 이상의 어플리케이션 프로세서(AP: application processor) 또는 하나 이상의 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다.

상기 메인 프로세서(170)는 슬립 모드 및 동작모드로 운용될 수 있다. 메인 프로세서(170)는, 오디오 처리 모듈(120)로부터 음성 인식을 위한 구동신호가 전달된 경우, 슬립 모드에서 동작 모드로 전환하고, 음성 인식(예,핵심어 인식, 명령어 인식 및 화자 인식 중 적어도 하나)을 수행 할 수 있다. 메인 프로세서(170)가 다수의 연산 장치를 포함할 경우, 오디오 처리 모듈(120)의 구동신호에 응답하여 음성 인식 기능을 위한 하나의 연산 장치를 활성화하여 음성 인식을 수행할 수 있다.

일 실시예에서, 메인 프로세서(170)는 오디오 신호 및/또는 음성 신호를 분석하여 핵심어 인식, 화자 인식 및 명령어 인식을 병렬적으로 또는 순차적으로 수행할 수 있다.

메인 프로세서(170)는 오디오 처리 모듈(120)에서 핵심어 인식과 화자 인식 중 어느 하나를 수행한 경우, 오디오 처리 모듈(120)에서 수행하지 않은 다른 하나의 음성 인식을 수행할 수 있다. 또한, 프로세서(170)는 명령어 인식을 수행할 수 있다.

메인 프로세서(170)는 핵심어 인식과 화자 인식 중 적어도 하나에 인식 실패한 경우, 인식 실패 결과를 오디오 처리 모듈(120)로 전달하고, 동작모드에서 슬립 모드로 전환할 수 있다.

메인 프로세서(170)는 트리거 음성과 명령어 음성을 구분하여 인식할 수 있으며, 음성 인식을 성공한 경우, 인식된 음성 명령(command)에 따라 전자 장치의 기능을 실행할 수 있다. 예를 들어, 전자 장치에 등록된 사용자가 전자 장치가 슬립 모드인 상태에서 “하이 갤럭시, 카메라 실행” 이라는 음성을 입력한 경우, 전자 장치는 오디오 입력 모듈(110), 오디오 처리 모듈(130), 메인 프로세서(170)를 통해 단계적으로 음성 입력을 처리하고, 메인 프로세서(170)는 “하이 갤럭시, 카메라 실행”의 음성 입력을 인식하여 전자 장치를 동작(예, 화면 껴짐) 시키고 카메라 기능을 실행할 수 있다. 여기서, "하이 갤럭시"는 음성 기반의 기능 활성화를 위한 트리거 음성에 해당되며, "카메라 실행"은 음성 입력에 대응하여 해당 기능을 실행하는 명령어 음성에 해당될 수 있다. 구체적으로, 음성 인식은, 음성 인식 어플리케이션을 자동으로 구동하기 위한 트리거 음성(voice trigger)과, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)으로 구별될 수 있다. 예를 들어, 오디오 처리 모듈(130)은 오디오 신호로부터 트리거 음성인“하이 갤럭시”에 대해 인식 성공한 경우, 메인 프로세서로 구동 신호를 전달할 수 있다. 메인 프로세서는 트리거 음성인“하이 갤럭시”에 대한 트리거 음성에 대해 인식 성공한 경우,“카메라 실행”에 대해 명령어 음성 인식이 성공한 경우, 전자 장치를 동작시키고, 카메라 기능을 실행할 수 있다.

다양한 실시예에서, 메인 프로세서(170)의 음성 인식은 오디오 처리 모듈(120)에 구현된 심플(simple) 음성 인식 시스템보다 복잡한(complex) 음성 인식 시스템으로 구현될 수 있다. 복잡한 음성 인식 시스템은 음성 인식 판단을 위한 리소스 (예, 메모리, 계산량, 유사도 측정 등)을 심플 음성 인식 시스템보다 상대적으로 많이 사용하며, 심플 인식 시스템보다 인식률이 높을 수 있다.

예를 들어, 메인 프로세서(170)에서 수행하는 핵심어 인식은 비터비 복호(Viterbi decoding) 기반으로 인식 대상 단어만을 추출하는 인식 알고리즘으로 구현되며, 메인 프로세서(170)의 경우 핵심어 인식에 대한 오인식 발생률이 오디오 처리 모듈(120)보다 상대적으로 적을 수 있다. 메인 프로세서(170)의 화자 인식은, 예를 들어, deep neural network 기반의 인식 알고리즘, multi-neural network 기반의 인식 알고리즘, UBM-GMM 기반의 인식 알고리즘 중 적어도 하나를 결합하여 수행하도록 구현될 수 있다. Multi-neural network 기반의 인식 알고리즘은hidden layer가 존재하는 신경망을 통해 키워드 인식 결과, SNR(signal noise ratio), 백그라운드 노이즈 제거와 같은 다중 요소를 고려하여 인증 성공/ 실패 여부를 결정할 수 있다. UBM-GMM(universal background model- Gaussian mixture model) 알고리즘은 GMM 기반의 백그라운드 모델과 화자 모델과의 점수를 비교하는 이진 결정 방법을 이용하여 UBM 과 화자 모델의 값을 프레임단위로 비교하여 인증 성공/ 실패 여부를 결정할 수 있다.

메인 프로세서(170)는, 음성 인식을 수행하는 동안 표시 모듈을 제어할 수도 있다.

일 예를 들면, 메인 프로세서(170)는 동작모드에서 음성 인식을 수행하는 동안 표시 모듈(150)의 오프(off) 상태를 유지하고 상기 메인 프로세서의 음성 인식 성공 시 표시 모듈을 턴 온하여 상기 음성 명령에 대응하는 전자 장치의 기능 실행 화면을 표시하거나 음성 인식 실패 시 상기 표시 모듈의 오프 상태를 유지하도록 제어할 수 있다.

다른 예를 들면, 메인 프로세서(170)는, 동작모드에서 음성 인식을 수행하는 동안 음성 인식 상태임을 알리는 화면을 출력하고, 음성 인식 성공에 응답하여 전자 장치의 기능 실행 화면을 표시하거나 음성 인식 실패 시 턴 오프하도록 상기 표시 모듈을 제어할 수 있다.

도 2는, 다양한 실시예에 따른 전자 장치의 구성 블록도를 도시한다.

도 2를 참조하면, 다양한 실시예에 따른 전자 장치(201)는, 오디오 입력 모듈(210), 음성 인식 모듈(220), 저장 모듈(240), 표시 모듈(250) 및 메인 프로세서(270)를 포함하여 구성할 수 있다.

오디오 입력 모듈(210)은, 메인 프로세서(270)의 슬립 모드/동작모드에 상관없이 동작 상태를 유지할 수 있으며, 상기 도 1에서 설명한 오디오 입력 모듈(110)과 동일하게 ASIC 형태로 구현하여, 소리 인식 기능을 지원할 수 있다.

도 2의 실시예에서 오디오 입력 모듈(210)은, 버퍼(211)에 저장된 오디오 신호가 음성 인식 시스템을 구동해야 할 필요가 있는 사운드인지를 판단하고, 음성 인식 시스템을 구동해야 할 필요가 있는 사운드인 경우, 음성 인식 모듈(220)을 웨이크업 할 수 있다. 오디오 입력 모듈(210)은 입력 받는 오디오 신호가 음성 인식 시스템을 구동해야 할 필요가 있는 사운드로 판단되면, 음성 인식 모듈(220)로 구동신호(예, 웨이크업 신호, 음성 인식 요청 신호, 인터럽트 신호 등)를 전달하고, 버퍼(211)에 저장된 오디오 신호를 음성 인식 모듈 (220)의 버퍼(221)로 전달할 수 있다.

음성 인식 모듈(220)은 오디오 입력 모듈(210) 및 메인 프로세서(220)와 연결되며, 음성 인식(예, 핵심어 인식 및 화장 인식 중 적어도 하나) 기능을 지원할 수 있다. 음성 인식 모듈(220)은 음성 인식 기능에 한해 한정적으로 동작하는 저전력 프로세서를 포함할 수 있다. 음성 인식 모듈(220)은 메인 프로세서(270)와 관계에서 독립적 또는 종속적으로 동작할 수 있으며, 슬립 모드/ 동작모드로 운용될 수 있다. 예를 들어, 음성 인식 모듈(220)은 메인 프로세서(270)의 동작 상태와 상관없이, 슬립 모드를 유지할 수 있다. 음성 인식 모듈(220)은 오디오 입력 모듈(210)로부터 구동신호가 수신되면, 동작모드로 동작하며 오디오 입력 모듈(210)로부터 전달된 오디오 신호를 기반으로 음성 인식을 수행할 수 있다. 음성 인식 모듈(220)은 음성 인식 성공 시 메인 프로세서(270)를 구동하고, 버퍼(221)에 저장된 오디오 신호를 메인 프로세서(270)로 전달할 수 있다. 음성 인식 모듈(220)은 트리거 음성 인식 성공 시 메인 프로세서를 구동할 수 있다.

음성 인식 모듈(220)은 음성 인식(예, 핵심어 인식 및 화장 인식 중 적어도 하나) 실패 시 다시 슬립 모드로 전환하거나, 메인 프로세서(270)로부터 음성 인식 실패 정보를 수신하는 경우, 동작모드에서 슬립 모드로 전환할 수 있다.

일 예에서, 음성 인식 모듈(220)은 도 1의 오디오 처리 모듈에 포함하여 동작할 수 있다.

한편, 도 2의 실시예에서 전자 장치(201)는 오디오 처리 모듈(230)을 더 포함할 수 있다. 이 경우, 오디오 처리 모듈(230)은 도 1의 실시예와 달리, 음성 인식 기능에 관여하지 않고 오디오 신호의 전후 처리, 신호 변환 기능, 노이즈 제거 기능 등과 같이 오디오 데이터를 처리할 수 있다.

저장 모듈(240) 및 표시 모듈(250)은, 앞서 도 1에서 설명한 저장 모듈(140) 및 표시 모듈(150)과 동일하므로, 구체적인 내용은 생략하기로 한다.

도 2의 실시예에 따른 메인 프로세서(270)는, 앞서 도1에서 설명한 메인 프로세서(170)의 기본적인 동작과 동일하므로 중복되는 내용은 생략하기로 한다.

도 2의 메인 프로세서(270)는, 도 1의 실시예와 달리, 음성 인식 모듈(220)로부터 구동신호를 수신하며, 음성 인식 모듈(220)로부터 구동신호에 응답하여 슬립 모드에서 동작모드로 전환하고 적어도 하나의 음성 인식을 수행할 수 있다. 메인 프로세서(170)는 도 1의 메인 프로세서에 구현된 음성 인식과 동일한 음성 인식 시스템으로 구현될 수 있다. 메인 프로세서(270)는 음성 인식 성공한 경우, 음성 입력에 대응하는 명령(command)에 따라 전자 장치의 기능을 실행할 수 있다. 메인 프로세서(270)는 음성 인식 실패한 경우, 인식 실패 결과를 음성 인식 모듈(220)로 전달하고, 동작모드에서 슬립 모드로 전환할 수 있다.

다양한 실시예에 따른 전자 장치는, 통신 모듈(260)을 더 포함할 수 있다.

통신 모듈(260)은, 메인 프로세서(270)의 제어 하에, 무선/유선 통신을 통해 네트워크에 연결되어 외부 장치(예, 타 전자 장치, 서버 등)와 음성, 화상, 또는 데이터 통신할 수 있다. 상기 무선 통신은, 예를 들어, Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 상기 유선 통신은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 통신 모듈(260)은 음성 인식 기능을 추가적으로 지원하기 위해 서버와 통신할 수 있다. 예를 들어, 1차적으로 음성 인식 모듈(220)에서 음성 인식 성공하고, 메인 프로세서(270)에서, 2차적으로 음성 인식 성공한 경우, 전자 장치보다 상대적으로 리소스를 많이 사용하는 음성 인식 서버로 통신 모듈(260)을 통해 오디오 신호 및/또는 음성 신호를 전송할 수 있다.

또 다른 실시예에서 메인 프로세서는 트리거 음성(voice trigger)과, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)을 구분하여 서버로 전달할 수 있다. 예를 들어, 메인 프로세서는, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)에 해당하는 음성 신호를 전달하거나, 트리거 음성과 명령어 음성이 분리되는 시점 정보를 전달할 수 있다. 그러면, 서버는, 메인 프로세서로부터 분리되지 않은 오디오 신호 또는 음성 신호가 전달되는 경우, 트리거 음성과 명령어 음성을 구분하여 음성 인식을 수행할 수 있다.

서버는, 전자 장치로부터 전달된 오디오 신호(또는/및 음성 신호)에 대해 음성 인식을 수행하여, 음성 명령을 인식하고, 이에 대한 인식 결과를 전자 장치로 제공할 수 있다. 서버는 음성 인식이 성공한 경우, 음성 명령을 텍스트로 변환하여 변환된 텍스트 정보를 전자 장치로 전달하고, 음성 인식이 실패한 경우, 실패 정보를 전자 장치로 제공할 수 있다.

일 실시예에서, 전자 장치의 메인 프로세서는, 제한된 음성 명령어를 인식 할 수 있는 반면에, 서버는 메인 프로세서보다 방대한 양의 음성 명령어를 인식할 수 있다. 예를 들어, 메인 프로세서는, “카메라 실행”, 또는 “전화 실행”과 같이 전자 장치에 미리 설정되거나, 심플한 음성 명령어를 인식하고, 인식된 음성 명령에 기반하여 전자 장치의 기능을 실행할 수 있다. 이와 반대로, 전자 장치는 서버로 복잡하거나 다양한 음성 명령어의 인식을 요청하고, 서버로부터 음성 인식 결과를 전달받아, 음성 인식에 대응하는 기능을 실행할 수도 있다.

통신 모듈(260)은 서버로부터 서버의 음성 인식 결과 정보를 수신할 수 있다. 메인 프로세서(270)는 서버로부터 음성 인식이 성공하여 텍스트 정보를 수신하는 경우, 수신된 텍스트 정보에 대응하는 기능을 실행할 수 있다. 메인 프로세서(270)는, 서버로부터 음성인식 실패 정보가 수신된 경우, 동작모드를 슬립 모드로 전환할 수 있다.

도 3은, 다양한 실시예에 따른 전자 장치의 구성 블록도를 도시한다.

도 3을 참조하면, 다양한 실시예에 따른 전자 장치(301)는, 오디오 입력 모듈(310), 음성 인식 모듈(320), 오디오 처리 모듈(330), 저장 모듈(340), 표시 모듈(350), 통신 모듈(360) 및 메인 프로세서(370)를 포함하여 구성할 수 있다.

오디오 입력 모듈(310), 저장 모듈(340), 표시 모듈(350) 및 통신 모듈(360)은 앞서 설명한 도2의 오디오 입력 모듈(210), 저장 모듈(240), 표시 모듈(250) 및 통신 모듈(260)과 동일하므로, 구체적인 설명은 생략하기로 한다.

도 3의 실시예에 따른, 음성 인식 모듈(320)은, 오디오 입력 모듈(310)의 버퍼(311)에 저장된 오디오 신호를 전달 받고, 이를 기반으로 1차적으로 음성 인식하고, 음성 인식이 성공하는 경우, 오디오 처리 모듈(330)을 웨이크 업하고, 음성 인식 모듈(320)의 버퍼(321)에 저장된 오디오 신호를 오디오 처리 모듈(330)로 전달할 수 있다.

오디오 처리 모듈(330)은, 음성 인식 모듈(320)의 활성화 신호에 의해 슬립 모드에서 동작모드로 전환하고, 음성 인식 모듈(320)의 버퍼(321)에 저장된 오디오 신호를 전달받고 이를 기반으로 2차적으로 음성 인식을 수행할 수 있다. 오디오 처리 모듈(330)은 음성 인식이 성공하는 경우, 메인 프로세서(170)를 구동신호를 전달하여 활성화를 요청하고, 버퍼(331)에 저장된 오디오 신호를 메인 프로세서(370)로 전달할 수 있다.

도 3의 실시예에 따른 메인 프로세서(370)는 도 2에서 설명한 메인 프로세서(270)의 음성 인식 동작과 동일하므로 중복되는 내용은 생략하기로 한다.

메인 프로세서(370)는 오디오 처리 모듈(330)로부터 구동신호를 수신하며, 구동신호에 의해 슬립 모드에서 동작모드로 전환하고 오디오 처리 모듈(330)로부터 전달된 오디오 신호에 대해 3차적으로 음성 인식을 수행할 수 있다.

음성 인식 모듈(320) 및 오디오 처리 모듈(330)은, 핵심어 인식 및 화자 인식 중 적어도 하나를 수행하고, 메인 프로세서(370)는, 핵심어 인식 , 화자 인식 및 명령어 인식 중 적어도 하나를 수행할 수 있다. 일 실시예에서, 상기 메인 프로세서(370)는, 음성 인식 성공한 경우, 음성 입력에 대응하는 명령(command)에 따라 전자 장치의 기능을 실행할 수 있다. 메인 프로세서(370)는 음성 인식 실패한 경우, 인식 실패 결과를 음성 인식 모듈(320) 및 오디오 처리 모듈(330)로 전달하고, 동작모드에서 슬립 모드로 전환할 수 있다.

다른 실시예에서, 상기 메인 프로세서(370)는, 음성 인식 성공한 경우, 음성 인식을 지원하는 서버로 통신 모듈(360)을 통해 오디오 신호 및/또는 음성 신호를 전송하고, 서버로부터 음성 인식한 인식 결과 정보를 수신할 수 있다. 서버의 동작은, 도 2에서 언급한 서버의 동작과 동일하므로, 구체적인 내용은 생략하기로 한다.

상기 메인 프로세서(370)는 서버로부터 음성 인식이 성공하여 텍스트 정보를 수신하는 경우, 수신된 텍스트 정보에 대응하는 기능을 실행하고, 음성인식 실패 정보가 수신한 경우, 동작모드를 슬립 모드로 전환할 수 있다.

이하, 다양한 전자 장치의 각각의 구성 요소 별로 음성 인식 기능을 운용하기 위한 동작 방법에 대해서 설명하기로 한다.

도 4는 다양한 실시예에 따른, 전자 장치에서 오디오 입력 모듈의 음성 인식 동작 방법을 도시한다.

도 4를 참조하면, 전자 장치의 오디오 입력 모듈은 410 동작에서, 동작모드로 운용된다. 예컨대, 오디오 입력 모듈은 전자 장치가 동작 상태 또는 슬립(또는 대기) 상태(예, 메인 프로세서가 슬립 모드로 운용 되며, 표시 모듈이 오프된 상태)와 상관없이 동작 상태를 유지하며, 소리에 의해 발생되는 오디오 신호를 획득 할 수 있다.

420 동작에서, 오디오 입력 모듈은, 사운드에 의해 발생된 오디오 신호를 획득하고, 430 동작에서, 오디오 신호를 버퍼에 저장한다. 오디오 입력 모듈 내부에 포함된 버퍼는 원형 버퍼(circular buffer)로 구현될 수 있으며, 원형 버퍼에 저장된 순서대로 오디오 신호를 오디오 처리 모듈(또는 음성 인식 모듈) 로 전달할 수 있다.

440 동작에서, 오디오 입력 모듈은, 오디오 신호가 음성 인식 시스템을 구동해야 할 필요가 있는 사운드인지 여부를 판단한다. 예를 들어, 오디오 입력 모듈은 버퍼에 사운드에 의해 발생된 오디오 신호의 크기가 설정된 임계값 이상의 오디오 신호이거나, 특정 주파수 대역일 경우, 음성 인식 시스템을 구동해야 할 필요가 있는 사운드로 인식할 수 있다.

450 동작에서, 오디오 입력 모듈은, 오디오 신호를 음성 인식 시스템을 구동해야 할 필요가 있는 사운드로 인식한 경우, 오디오 처리 모듈 또는 음성 인식 모듈로 활성화 요청을 위한 구동신호를 전달한다. 460 동작에서, 오디오 입력 모듈은, 버퍼에 저장된 오디오 신호를 활성화된 오디오 처리 모듈(또는 음성 인식 모듈)로 전달한다.

예컨대, 오디오 입력 모듈은 오디오 처리 모듈 또는 음성 인식 모듈이 활성화되는 시간 동안 오디오 처리 모듈 또는 음성 인식 모듈 내부의 버퍼에 오디오 신호를 먼저 전달하고, 다음에 실시간으로 획득하는 오디오 신호를 순서대로 오디오 처리 모듈 또는 음성 인식 모듈로 전달할 수 있다.

한편, 오디오 입력 모듈은 440 동작에서, 오디오 신호가 음성 인식 시스템을 구동해야 할 필요가 있는 사운드로 인식되지 않는 경우, 420 동작으로 복귀하여 오디오 신호를 획득하는 동작을 반복한다. 상술한 바와 같이, 오디오 입력 모듈은 사운드를 항상 인식하기 위해 동작 상태를 유지하며, 사운드가 인식되면, 오디오 신호 처리를 위해 오디오 처리 모듈 또는 음성 인식 모듈을 활성화시키고 오디오 신호를 전달하는 동작을 수행할 수 있다.

도 5는 다양한 실시예에 따른, 전자 장치에서 오디오 처리 모듈의 음성 인식 동작 방법을 도시한다.

도 5를 참조하면, 510 동작에서, 전자 장치의 오디오 처리 모듈은 슬립 모드로 운용될 수 있다. 예를 들어, 오디오 처리 모듈은 전자 장치가 슬립(또는 대기) 상태(예, 메인 프로세서가 슬립 모드로 운용 되며, 표시 모듈이 오프된 상태)일 경우, 슬립 모드로 운용될 수 있다.

520 동작에서, 오디오 처리 모듈은, 오디오 입력 모듈로부터 구동신호를 수신한다. 530동작에서, 오디오 처리 모듈은 구동신호가 수신되는 경우, 슬립모드에서 동작모드로 전환한다. 540 동작에서, 오디오 처리 모듈은, 오디오 입력 모듈로부터 입력된 오디오 신호에 대해 음성 인식을 수행한다. 음성 인식은 핵심어인식 및 화자 인식을 포함할 수 있다. 오디오 처리 모듈은, 오디오 신호 중 트리거 음성에 해당하는 핵심어를 인식할 수 있다.

오디오 처리 모듈에서 핵심어 인식은 비터비 복호(Viterbi decoding) 기반으로 인식 대상 단어만을 추출하는 인식 알고리즘을 이용하여 수행하며, 화자 인식은, simple Neural Network 기반의 인식 알고리즘을 이용하여 수행할 수 있다.

550 동작에서, 오디오 처리 모듈은 음성 인식 성공 여부를 판단하고, 560 동작으로 진행하여 메인 프로세서로 구동신호를 전달하여 활성화를 요청한다.

오디오 처리 모듈은 오디오 입력 모듈로부터 전달된 오디오 신호를 기반으로 핵심어 인식 및 화자 인식을 병렬적으로 또는 순차적으로 수행하거나, 핵심어 인식 및 화자 인식 중 하나를 수행할 수 있다. 일 예에서, 오디오 처리 모듈은 음성 인식 시스템(또는 어플리케이션)을 자동으로 구동하기 위한 트리거 음성(voice trigger)을 인식할 수 있다.

570 동작에서, 오디오 처리 모듈은 오디오 신호(예, 음성 신호)를 메인 프로세서로 전달한다. 오디오 처리 모듈은, 오디오 입력 모듈로부터 실시간으로 전달되는 오디오 신호에 대해 음성 인식을 수행하고, 음성 인식이 성공하면 오디오 신호를 메인 프로세서가 활성화되는 시간 동안 버퍼링하고, 메인 프로세서가 활성화되면 메인 프로세서로 실시간으로 전달할 수 있다.

한편, 오디오 처리 모듈은 음성 인식 실패한 것으로 판단되면, 590 동작으로 진행하여 동작모드를 슬립 모드로 전환한다.

580 동작에서, 오디오 처리 모듈은 동작모드로 운용 시 메인 프로세서로부터 메인 프로세서의 음성 인식 실패에 따른 실패 정보를 수신할 수 있다. 오디오 처리 모듈은 메인 프로세서로부터 음성 인식 실패 정보를 수신한 경우, 590 동작으로 진행하여 동작모드를 슬립 모드로 전환할 수 있다.

도6은 다양한 실시예에 따른, 전자 장치에서 음성 인식 모듈의 음성 인식 동작 방법을 도시한다.

도6을 참조하면, 다양한 실시예에서 전자 장치가 음성 인식 모듈을 포함할 경우. 음성 인식 모듈은 610 동작에서, 슬립 모드로 운용될 수 있다. 여기서, 음성 인식 모듈은, 저전력으로 설계되며, 음성 인식 기능에 한해 한정적으로 동작될 수 있다. 예컨대, 음성 인식 모듈은, 오디오 처리 모듈에 포함하여 구현될 수 있으며, 오디오 처리 모듈과는 별도의 다른 구성 요소로 전자 장치에 구현될 수 있다.

620 동작에서, 음성 인식 모듈은, 오디오 입력 모듈로부터 구동신호를 수신한다. 630 동작에서, 음성 인식 모듈은 구동신호가 수신되는 경우, 슬립모드에서 동작모드로 전환한다. 640 동작에서, 음성 인식 모듈은, 오디오 입력 모듈로부터 전달된 오디오 신호에 대해 음성 인식을 수행한다.

음성 인식은 핵심어인식 및 화자 인식 중 적어도 하나를 포함할 수 있다. 또한, 음성 인식 모듈은, 음성 인식 어플리케이션을 자동으로 구동하기 위한 트리거 음성을 인식할 수 있다. 650 동작에서, 음성 인식 모듈은 음성 인식 성공 여부를 판단하고, 660 동작에서, 음성 인식이 성공된 경우, 메인 프로세서 또는 오디오 처리 모듈로 구동신호를 전달하여 활성화를 요청한다.

예를 들어, 전자 장치의 오디오 처리 모듈이 음성 인식 기능에 관여하지 않은 경우, 음성 인식 모듈은 음성 인식 성공 시 메인 프로세서를 활성화할 수 있다. 전자 장치에서 음성 인식 모듈과 오디오 처리 모듈이 별도로 구현되고, 오디오 처리 모듈이 음성 인식 기능에 관여하는 경우, 음성 인식 모듈은 오디오 처리 모듈을 활성화할 수 있다.

670 동작에서, 음성 인식 모듈은 오디오 신호(예, 음성 신호)를 메인 프로세서 또는 오디오 처리 모듈로 전달한다. 음성 인식 모듈은 음성 인식 실패한 것으로 판단되면, 690 동작으로 진행하여 동작모드를 슬립 모드로 전환한다.

680 동작에서, 음성 인식 모듈은 동작모드로 운용 시 메인 프로세서 또는 오디오처리 모듈로부터 음성 실패에 따른 실패 정보를 수신하는 경우, 690 동작으로 진행하여 동작모드를 슬립 모드로 전환할 수 있다.

도 7은 다양한 실시예에 따른, 전자 장치에서 메인 프로세서의 음성 인식 작 방법을 도시한다.

도 7을 참조하면, 다양한 실시예에 따른, 전자 장치의 메인 프로세서는, 710동작에서, 슬립 모드로 운용될 수 있다. 여기서, 메인 프로세서의 슬립 모드는, 전자 장치를 사용하지 않을 때, 즉, 어플리케이션 프로세서의 비활성화 상태를 의미한다. 슬립 모드의 메인 프로세서는, 메인 프로세서와 연결된 일부 기능 블록들에 대한 전원 공급을 차단할 수 있다.

본 발명의 실시예에서는 메인 프로세서가 슬립 모드로 운용 중인 경우, 오디오 입력 모듈은 활성화 상태를 유지하며, 휴대 단말기를 사용하지 않을 때에도 소리 정보를 감지하고 오디오 신호를 획득하여 버퍼에 저장할 수 있다.

720 동작에서 메인 프로세서는, 활성화를 요청하는 구동신호를 수신한다. 예를 들어, 메인 프로세서는, 슬립 모드 상태에서 오디오 처리 모듈 또는 음성 인식 모듈로부터 구동신호를 수신할 수 있다.

730 동작에서, 메인 프로세서는, 구동신호에 응답하여 슬립 모드에서 동작모드로 전환한다. 740 동작에서, 메인 프로세서는 오디오 처리 모듈 또는 음성 인식 모듈로부터 오디오 신호(또는/및 음성 신호) 를 획득하고, 750 동작에서, 메인 프로세서는, 오디오 신호(또는/및 음성 신호)에 대해 음성 인식을 수행한다. 예컨대, 메인 프로세서는, 오디오 처리 모듈로부터 입력되는 오디오 신호와, 오디오 처리 모듈 또는 음성 인식모듈에서 1차적으로 음성 인식한 음성 신호를 기반으로 음성 인식을 수행할 수 있다.

메인 프로세서는 오디오 처리 모듈 또는 음성 인식 모듈에 구현된 심플 음성 인식 시스템보다 상대적으로 리소스를 더 많이 사용하는 복잡한 음성 인식 시스템으로 구현될 수 있다. 예를 들어, 메인 프로세서의 핵심어 인식은 비터비 복호(Viterbi decoding) 기반으로 인식 대상 단어만을 추출하는 인식 알고리즘으로 구현될 수 있다. 메인 프로세서의 화자 인식은, deep Neural Network 기반의 인식 알고리즘, Multi- Neural Network 기반의 인식 알고리즘, UBM-GMM 기반의 인식 알고리즘 중 적어도 하나를 결합하여 수행하도록 구현될 수 있다.

메인 프로세서는, 음성 인식 어플리케이션을 자동으로 구동하기 위한 트리거 음성(voice trigger)을 인식하는 기능과, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)을 구분하여 음성 인식을 수행할 수 있다. 또는 활성화된 상태에서 메인 프로세서는, 오디오 처리 모듈 또는 음성 인식 모듈로부터 전달되는 오디오 신호에 대해 음성 인식을 수행할 수 있다.

760 동작에서, 메인 프로세서는, 음성 인식 성공 여부를 판단하고, 770 동작에서, 음성 인식이 성공된 경우, 음성 인식에 대응하는 명령을 확인하고, 음성 명령을 기반으로 전자 장치의 기능을 실행한다.

메인 프로세서는, 음성 인식이 실패한 경우, 780 동작으로 진행하여 오디오 처리 모듈 또는 음성 인식 모듈로 음성 인식이 실패 됐음을 알리는 실패 정보를 전달하고, 790동작에서 동작모드에서 슬립 모드로 전환한다

다양한 실시에에 따르면, 메인 프로세서는 음성 인식을 수행하는 과정에서, 표시 모듈의 턴온/턴 오프 동작을 제어할 수 있다. 메인 프로세서의 음성 인식에 대한 표시 모듈의 턴온/턴 오프 동작은 도 13-14에서 설명하기로 한다.

도 8은 다양한 실시예에 따른, 전자 장치에서 메인 프로세서의 음성 인식 동작 방법을 도시한다.

도 8을 참조하면, 다양한 실시예에 따른, 전자 장치의 메인 프로세서는, 810동작에서, 슬립 모드로 운용될 수 있다. 820 동작에서 메인 프로세서는, 활성화를 요청하는 구동신호를 수신한다. 예를 들어, 메인 프로세서는, 슬리 모드로 운용 시 오디오 처리 모듈 또는 음성 인식 모듈로부터 구동신호를 수신할 수 있다.

825동작에서, 메인 프로세서는, 구동 신호에 응답하여 슬립 모드에서 동작모드로 전환한다. 830동작에서, 메인 프로세서는 오디오 처리 모듈 또는 음성 인식 모듈로부터 오디오 신호 (및/또는 음성 신호)를 획득하고, 840 동작에서, 오디오 신호에 대해 음성 인식을 수행한다.

845동작에서, 메인 프로세서는, 음성 인식 성공 여부를 판단하고, 850동작에서, 음성 인식이 성공된 경우, 통신 모듈을 통해 음성 인식을 지원하는 서버로 음성 인식 요청 및 오디오 신호(및/ 또는 음성 신호)를 전송한다. 메인 프로세서는 외부의 소리에 기반하여 오디오 입력 모듈로부터 입력된 오디오 신호와, 음성 인식에 기반하여 추출된 음성 신호 중 적어도 하나를 서버로 전달할 수 있다. 메인 프로세서는 오디오 처리 모듈 또는 음성 인식 모듈에 구현된 심플 음성 인식 시스템보다 상대적으로 리소스를 더 많이 사용하는 복잡한 음성 인식 시스템으로 구현될 수 있다. 메인 프로세서는, 음성 인식 어플리케이션을 자동으로 구동하기 위한 트리거 음성(voice trigger)을 인식하는 기능과, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)을 구분하여 음성 인식을 수행할 수 있다. 메인 프로세서는, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)에 해당하는 음성 신호를 전달하거나, 오디오 신호와 함께 트리거 음성과 명령어 음성이 분리되는 시점 정보를 전달할 수 있다.

그러면, 서버는, 전자 장치로부터 전달된 오디오 신호(또는/및 음성 신호) 를 기반으로 음성 인식을 수행할 수 있다. 서버에서의 음성인식은, 핵심어 인식 , 화자 인식 및 명령어 인식 중 적어도 하나를 수행할 수 있다. 일 실시예에서, 전자 장치는, 제한된 음성 명령어를 인식 할 수 있는 반면에, 서버는 메인 프로세서보다 방대한 양의 음성 명령어를 인식할 수 있다. 서버는 DNN 기반의 UBM-GMM 알고리즘을 통해 음성 인식을 수행하고, 전자 장치로 음성 인식에 대한 결과 정보를 전송할 수 있다. 예를 들어, 서버는 음성 인식 성공 시 인식된 음성 명령을 텍스트 정보로 변환하고 텍스트 정보를 전자 장치로 전송할 수 있다. 서버는 음성 인식 실패 시 음성 인식이 실패됐음을 알리는 실패 정보를 전자 장치로 전송할 수 있다.

855동작에서, 메인 프로세서는 서버로부터 음성 인식 결과를 수신하다. 860동작에서, 메인 프로세서는, 음성 인식 결과, 음성 인식을 성공 정보를 수신한 경우, 865 동작에서 음성 인식에 대응하는 명령을 확인하고, 음성 명령을 기반으로 전자 장치의 기능을 실행한다.

메인 프로세서는, 음성 인식이 실패한 경우, 870동작으로 진행하여 오디오 처리 모듈 또는 음성 인식 모듈로 음성 인식이 실패 됐음을 알리는 실패 정보를 전달하고, 880 동작에서 동작모드에서 슬립 모드로 전환한다

도 9는 다양한 실시예에 따른, 전자 장치의 구성 요소 간 음성 인식 동작 흐름을 도시한다.

도 9를 참조하면, 다양한 실시예에 따른 전자 장치는, 오디오 입력 모듈에서 사운드를 인식한다(910). 전자 장치는, 오디오 입력 모듈은 사운드가 인식되면, 오디오 처리 모듈로 구동신호를 전달하여 활성화를 요청한다(920). 오디오 처리 모듈은 슬립 모드로 운용되며(911), 오디오 입력 모듈로부터 구동신호가 수신되면 웨이크업 하여 동작모드로 전환한다(930). 전자 장치는, 오디오 처리 모듈에서 오디오 입력 모듈로부터 획득한 오디오 신호(예, 음성 신호)를 기반으로 적어도 하나의 음성 인식을 수행한다(935). 오디오 처리 모듈에서 음성 인식이 성공한 경우, 메인 프로세서로 구동신호를 전달하여 활성화를 요청한다(940). 한편, 전자 장치는 오디오 처리 모듈에서 음성 인식 결과, 음성 인식이 실패한 경우, 오디오 처리 모듈을 다시 슬립 모드로 전환하고, 메인 프로세서 역시 슬립 모드를 유지한다.

메인 프로세서는 슬립 모드로 운용되며(912), 오디오 처리 모듈로부터 구동신호가 수신되면, 메인 프로세서는, 웨이크업 하여 동작모드로 전환한다(950). 메인 프로세서는, 오디오 처리 모듈에서 1차적으로 음성 인식에 기반하여 추출 음성 신호 및 오디오 입력 모듈로부터 입력된 오디오 신호에 대해 2차적으로 음성 인식을 수행한다(955).

전자 장치는, 메인 프로세서에서 음성 인식 결과, 음성 인식이 성공한 경우, 인식된 음성 명령을 기반으로 전자 장치의 기능을 실행한다(960). 한편, 전자 장치는 메인 프로세서에서 음성 인식 결과, 음성 인식이 실패한 경우, 오디오 처리 모듈로 음성 인식 실패 정보를 전달하고, 오디오 처리 모듈 및 메인 프로세서를 다시 슬립 모드로 전환한다.

도 10은 다양한 실시예에 따른, 전자 장치의 구성 요소 간 음성 인식 동작 흐름을 도시한다.

도 10은 참조하면, 다양한 실시예에 따른 전자 장치는, 오디오 입력 모듈에서 사운드를 인식한다(1010). 전자 장치는, 오디오 입력 모듈에서 사운드가 인식되면, 오디오 입력 모듈에서 오디오 처리 모듈(또는 음성 인식 모듈)로 구동신호를 전달하여 활성화를 요청한다(1020). 오디오 처리 모듈(또는 음성 인식 모듈)은 동작에서 슬립 모드로 운용되며(1011), 오디오 입력 모듈로부터 구동신호가 수신되면 웨이크업 하여 동작모드로 전환한다(1030). 그러면 전자 장치는, 오디오 처리 모듈(또는 음성 인식 모듈)에서 오디오 입력 모듈로부터 획득한 오디오 신호에 대해 음성 인식을 수행한다(1035). 오디오 처리 모듈(또는 음성 인식 모듈)에서 음성 인식이 성공한 경우, 메인 프로세서로 구동신호를 전달하여 활성화를 요청한다(1040). 오디오 처리 모듈(또는 음성 인식 모듈)은 핵심어 인식 및 화자 인식을 통해 트리거 음성을 인식할 수 있다.

전자 장치에서 메인 프로세서는 슬립 모드로 운용 시 오디오 처리 모듈로부터 구동신호가 수신되면, 웨이크업 하여 동작모드로 전환한다(1050). 전자 장치는, 메인 프로세서에서 음성 인식이 성공한 경우, 서버로 오디오 신호 및/ 또는 음성 신호를 전송한다(1060).

메인 프로세서는, 핵심어 인식 및 화자 인식을 통해 트리거 음성을 인식하고, 트리거 음성 이후에 입력되는 명령어 음성을 구분할 수 있다. 메인 프로세서는, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)에 해당하는 음성 신호를 전달하거나, 트리거 음성과 명령어 음성이 분리되는 시점 정보를 전달할 수 있다. 외부의 소리에 기반하여 오디오 입력 모듈로부터 입력된 오디오 신호와, 음성 인식에 기반하여 추출된 음성 신호 중 적어도 하나를 서버로 전달할 수 있다. 그러면, 서버는 전자 장치로부터 전달된 오디오 신호 및/또는 음성 신호를 기반으로 음성 인식을 수행하고(1065), 음성 인식에 대한 결과 정보를 전달한다(1070).

전자 장치는, 서버로부터 음성 인식 결과 정보에 따라, 음성 인식을 성공하여 음성 명령 정보를 수신한 경우, 음성 명령을 기반으로 전자 장치의 기능을 실행한다(1080).

한편, 전자 장치는 오디오 처리 모듈(또는 음성 인식 모듈)에서 음성 인식 결과, 음성 인식이 실패한 경우, 오디오 처리 모듈(또는 음성 인식 모듈)을 다시 슬립 모드로 전환하고(1090), 메인 프로세서 역시 슬립 모드를 유지한다. 한편, 전자 장치는 서버로부터 음성 인식 결과, 음성 인식이 실패했음을 알리는 실패 정보를 수신한 경우, 오디오 처리 모듈(또는 음성 인식 모듈)로 음성 인식 실패 정보를 전달하고(1090), 오디오 처리 모듈(또는 음성 인식 모듈) 및 메인 프로세서를 다시 슬립 모드로 전환한다.

도 11은 다양한 실시예에 따른, 전자 장치의 구성 요소 간 음성 인식 동작 흐름을 도시한다.

도 11을 참조하면, 다양한 실시예에 따른 전자 장치는, 오디오 입력 모듈에서 사운드를 인식한다(1110). 전자 장치는, 오디오 입력 모듈에서 사운드가 인식되면, 오디오 입력 모듈에서 음성 인식 모듈로 구동신호를 전달하여 활성화를 요청한다(1120). 음성 인식 모듈은 슬립 모드로 운용되며(1112), 오디오 입력 모듈로부터 구동신호가 수신되면 웨이크업 하여 동작모드로 전환한다(1125). 그러면 전자 장치는, 음성 인식 모듈에서 오디오 입력 모듈로부터 획득한 오디오 신호에 대해 음성 인식을 수행한다(1130). 음성 인식 모듈에서 음성 인식이 성공한 경우, 오디오 처리 모듈로 구동신호를 전달하여 활성화를 요청한다(1135). 오디오 처리 모듈은 슬립 모드로 운용되며(1112), 음성 인식 모듈로부터 구동신호가 수신되면 웨이크업 하여 동작모드로 전환한다(1140). 그러면 전자 장치는, 오디오 처리 모듈은 음성 인식을 수행한다(1145). 오디오 처리 모듈에서 음성 인식이 성공한 경우, 메인 프로세서로 구동신호를 전달하여 활성화를 요청한다(1150). 오디오 처리 모듈(또는 음성 인식 모듈)은 핵심어 인식 및 화자 인식을 통해 등록된 화자가 입력하는 트리거 음성을 인식할 수 있다.

전자 장치는, 메인 프로세서가 슬립 모드로 운용되며(1113), 오디오 처리 모듈로부터 구동신호가 수신되면, 웨이크업 하여 동작모드로 전환한다(1155). 전자 장치는, 메인 프로세서에서 음성 인식하고(1160), 음성 인식이 성공한 경우, 서버로 메인 프로세서에서 음성 인식하고(1160), 음성 인식이 성공한 경우, 서버로 오디오 신호 및 /또는 음성 신호를 전송한다(1165). 메인 프로세서는, 핵심어 인식 및 화자 인식을 통해 등록된 화자가 입력하는 트리거 음성을 인식하고, 트리거 음성 이후에 입력되는 명령어 음성을 구분할 수 있다. 메인 프로세서는, 트리거 음성을 인식한 이후에 입력되는 명령어 음성(voice command)에 해당하는 음성 신호를 전달하거나, 연속적인 음성 신호와 함께 트리거 음성과 명령어 음성이 분리되는 시점 정보를 전달할 수 있다. 또한, 메인 프로세서는, 외부의 소리에 기반하여 오디오 입력 모듈로부터 입력된 오디오 신호와, 음성 인식에 기반하여 추출된 음성 신호 중 적어도 하나를 서버로 전달할 수 있다.

그러며, 서버는 전자 장치로부터 전달된 오디오 신호 또는/및 음성 신호를 기반으로 음성 인식을 수행하고(1175), 음성 인식에 대한 결과 정보를 전달한다(1180). 전자 장치는, 서버로부터 수신된 음성 명령을 기반으로 전자 장치의 기능을 실행한다(1085). 서버는, 메인 프로세서로부터 연속적인 오디오 신호 또는 음성 신호가 전달되는 경우, 트리거 음성과 명령어 음성을 구분하여 음성 인식을 수행할 수 있다. 메인 프로세서로부터 명령어 음성의 신호가 전달되는 경우, 명령어 인식을 수행할 수 있다.

서버에서의 음성인식은, 핵심어 인식, 화자 인식 및 명령어 인식 중 적어도 하나를 수행할 수 있다. 일 실시예에서, 전자 장치는, 제한된 음성 명령어를 인식 할 수 있는 반면에, 서버는 메인 프로세서보다 방대한 양의 음성 명령어를 인식할 수 있다.

한편, 전자 장치는 서버로부터 음성 인식 결과, 음성 인식이 실패했음을 알리는 실패 정보를 수신한 경우, 음성 인식 모듈, 오디오 처리 모듈 음성 인식 실패 정보를 전달하고(1190), 음성 인식 모듈, 오디오 처리 모듈 및 메인 프로세서를 슬립 모드로 전환한다(1192,1191,1085).

전자 장치는 1차적으로 음성 인식 모듈에서 음성 인식을 수행하고, 음성 인식 모듈에서 음성인식이 성공한 경우, 2차적으로 오디오 처리 모듈에서 음성 인식을 수행하고, 오디오 처리 모듈에서 음성 인식이 성공한 경우, 3차적으로 메인 프로세서에서 음성 인식을 수행할 수 있다. 또한 전자 장치는 메인 프로세서에 음성 인식을 성공한 경우, 4차적으로 음성 인식을 수행할 것으로 서버로 요청할 수 있다.

이하, 다양한 실시예에 따르면 전자 장치의 음성 인식 동작 시 사용자 인터페이스(UI; user interface) 화면의 실시예들에 대해 설명하기로 한다.

도 12a 및 12b는 다양한 실시예에 따른 전자 장치의 음성 인식 운용 화면의 예시도이다.

도 12a 및 도 12b를 참조하면, 전자 장치는 메인 프로세서가 슬립 모드에서 동작 모드로 전환하여, 적어도 하나의 음성 인식을 수행하는 경우, 표시 모듈의 턴 온/턴 오프 동작을 제어할 수 있다.

1201에 도시된 바와 같이, 전자 장치가 오디오 입력 모듈에서 오디오 신호를 획득하는 동작, 오디오 처리 모듈(또는 음성 인식 모듈)에서 적어도 하나의 음성 인식을 수행하는 동안, 메인 프로세서는 슬립 모드로 운용되므로, 표시 모듈은 오프 상태일 수 있다. 메인 프로세서가 오디오 처리 모듈(또는 음성 인식 모듈)로부터 구동 신호에 의해 활성화되고, 음성 인식을 수행하는 동안, 메인 프로세서는 표시 모듈이 오프 상태를 유지하도록 제어할 수 있다.

전자 장치의 메인 프로세서는, 음성 인식 결과, 음성 인식을 성공한 경우, 표시 모듈을 턴 온 하고, 1203에 도시된 바와 같이, 음성 인식 동작 화면(예, 음성 인식 어플리케이션 화면)을 표시한 후, 연속적으로 1204에 도시된 바와 같이, 음성 명령에 대응하는 기능을 실행하고, 기능 실행 화면을 출력하도록 제어할 수 있다.

일 예에서, 전자 장치의 메인 프로세서는, 음성 인식 결과, 등록된 화자의 트리거 음성(예, 하이 갤럭시) 을 인식 성공하고, 트리거 음성 이후에, 입력되는 명령어 음성( 예, 카메라 실행)을 인식 성공한 경우, 1203 및 1204와 같은 화면을 출력하도록 표시 모듈을 제어할 수 있다.

또는, 전자 장치의 메인 프로세서는 음성 인식 결과, 음성 인식을 성공한 경우, 표시 모듈을 턴 온 하고, 음성 명령에 해당하는 기능을 실행하고 에 도시된 기능 실행 화면을 바로 출력하도록 제어할 수 있다.

전자 장치의 메인 프로세서는, 메인 프로세서는 음성 인식을 수행하는 동안, 1205 에 도시된 바와 같이, 표시 모듈이 턴 오프 상태를 유지하도록 제어하고, 음성 인식 수행 결과, 음성 인식을 실패한 경우, 메인 프로세서는 1206 에 도시된 바와 같이 동작 모드에서 슬립 모드로 전환하여 턴 오프 상태를 유지할 수 있다.

도 13a 및 13b는 다양한 실시예에 따른 전자 장치의 음성 인식 운용 화면의 예시도이다.

도 13a 및 도 13b를 참조하면, 다양한 실시예에 따르면, 전자 장치는 1301에 도시된 바와 같이, 전자 장치가 오디오 입력 모듈에서 오디오 신호를 획득하고,오디오 처리 모듈(또는 음성 인식 모듈)에서 음성 인식을 수행하는 동안, 메인 프로세서는 슬립 모드로 운용되므로, 표시 모듈은 오프 상태일 수 있다. 메인 프로세서가 오디오 처리 모듈(또는 음성 인식 모듈)로부터 구동 신호에 의해 활성화되는 경우, 1302에 도시된 바와 같이, 메인 프로세서는 표시 모듈을 턴 온하고, 음성 인식이 동작 중임을 나타내는 음성 인식 동작 화면을 표시할 수 있다.

메인 프로세서는, 음성 인식이 성공된 경우, 음성 명령에 대응하는 기능을 실행하고, 1303에 도시된 바와 같이, 음성 인식 동작 화면을 기능 실행 화면으로 전환하여 표시할 수 있다.

전자 장치는 오디오 처리 모듈(또는 음성 인식 모듈)에서 음성 인식을 수행하는 동안, 1304에 도시된 바와, 표시 모듈은 오프 상태일 수 있다.

전자 장치의 메인 프로세서는 음성 인식 기능을 위해 활성화된 경우, 표시 모듈을 턴 온 하고, 음성 인식을 수행하는 동안, 1305에 도시된 바와 같이, 음성 인식이 동작 중임을 나타내는 음성 인식 동작 화면을 표시할 수 있다. 메인 프로세서는 음성 인식을 수행하는 동안 음성 인식 동작 화면을 표시하다가 음성 인식 결과, 음성 인식을 실패한 경우, 1306에 도시된 바와 같이 표시 모듈을 턴 오프하고, 동작모드에서 슬립 모드로 전환한다.

본 발명의 다양한 실시예에 따른 전자 장치의 전술한 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성 요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.

본 발명의 다양한 실시예에 사용된 용어 “모듈”은, 예를 들어, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. “모듈”은 예를 들어, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component) 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. “모듈”은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. “모듈”은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. “모듈”은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, 본 발명의 다양한 실시예에 따른 “모듈”은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.

다양한 실시예에 따르면, 본 발명의 다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그래밍 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어는, 하나 이상의 프로세서 (예: 상기 프로세서 122)에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 상기 메모리 130가 될 수 있다. 상기 프로그래밍 모듈의 적어도 일부는, 예를 들면, 상기 프로세서210에 의해 구현(implement)(예: 실행)될 수 있다. 상기 프로그래밍 모듈 의 적어도 일부는 하나 이상의 기능을 수행하기 위한, 예를 들면, 모듈, 프로그램, 루틴, 명령어 세트 (sets of instructions) 또는 프로세스 등을 포함할 수 있다.

상기 컴퓨터로 판독 가능한 기록 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, 그리고 ROM(Read Only Memory), RAM(Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령(예: 프로그래밍 모듈)을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

본 발명의 다양한 실시예에 따른 모듈 또는 프로그래밍 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 본 발명의 다양한 실시예에 따른 모듈, 프로그래밍 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

다양한 실시예에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은, 오디오 입력 모듈이 사운드를 인식하여 음성 인식 모듈의 활성화를 요청하는 동작; 상기 음성 인식 모듈이 상기 오디오 입력 모듈의 활성화 요청에 응답하여 활성화된 경우, 상기 오디오 입력 모듈로부터 전달되는 오디오 신호에 대해 제1 음성 인식하는 동작; 상기 음성 인식 모듈에서 제1 음성 인식이 성공한 경우, 프로세서로 음서 인식을 요청하는 동작; 상기 프로세서가 상기 음성 인식 모듈로부터 전달되는 오디오 신호에 대해 제2 음성 인식하는 동작을 포함할 수 있다.

그리고 본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 실시예에 따른 의 기술 내용을 쉽게 설명하고 본 발명의 실시예의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 실시예의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 다양한 실시예의 범위는 여기에 개시된 실시예들 이외에도 본 발명의 다양한 실시예의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 다양한 실시예의 범위에 포함되는 것으로 해석되어야 한다.

110,210,310: 오디오 입력 모듈
220, 320 : 음성 인식 모듈
130, 230,330 : 오디오 처리 모듈
140, 240, 340: 저장 모듈
150, 250, 350: 표시 모듈
260, 360: 통신 모듈
170, 270, 370 : 메인 프로세서

Claims

전자 장치에 있어서,
표시 모듈;
오디오 입력 모듈;
제1 프로세서; 및
제2 프로세서를 포함하고,
상기 오디오 입력 모듈은,
오디오 신호를 입력 받고,
상기 오디오 신호의 주파수가 설정된 주파수 대역에 대응하는 경우 제1 구동 신호를 상기 제1 프로세서에 전달하도록 설정되고,
상기 제1 프로세서는,
상기 제1 구동 신호에 응답하여 상기 오디오 신호에 대해, 화자 인식을 포함하는 제1 음성 인식을 수행하고,
상기 오디오 신호에서 등록 화자의 트리거 음성을 인식하고,
상기 제1 음성 인식 결과에 기반하여 상기 제2 프로세서에 제2 구동 신호를 전달하도록 설정되고, 및
상기 제2 프로세서는,
상기 제2 구동 신호에 응답하여 상기 제1 음성 인식에 의한 음성 신호 및 상기 오디오 신호 중 적어도 하나에 기반하여, 명령 인식을 포함하는 제2 음성 인식을 수행하고,
상기 제2 음성 인식 결과에 기반하여 음성 명령과 관련된 어플리케이션을 실행하고,
제2 음성 인식 동안 상기 표시 모듈의 오프 상태를 유지하고, 상기 제2 음성 인식 성공에 응답하여 상기 어플리케이션의 실행 화면을 표시하도록 상기 표시 모듈을 턴 온하도록 설정된 전자 장치.
제1항에 있어서,
상기 제2 프로세서는,
상기 제2 구동 신호에 기반하여 슬립모드에서 동작모드로 전환하여 상기 제2 음성 인식을 수행하는 전자 장치.
제1항에 있어서,
상기 제2 프로세서는,
상기 오디오 신호에 대해 음성 인식 기능을 트리거하기 위한 등록 화자의 트리거 음성을 인식하고,
트리거 음성 인식이 성공된 이후에 입력되는 오디오 신호에 대해 음성 기반의 기능 실행을 위한 상기 등록 화자의 명령어 음성을 인식하는 전자 장치.
제1항에 있어서,
상기 제1 프로세서는,
상기 제1 구동 신호에 응답하여 슬립모드에서 동작모드로 전환하는 전자 장치.
제1항에 있어서,
상기 전자 장치는,
상기 제2 프로세서와 송수신하는 오디오 데이터를 처리하는 오디오 처리 모듈을 포함하고,
상기 제1 프로세서는 상기 오디오 신호를 수신하는 오디오 입력 모듈에 포함되는 전자 장치.
제5항에 있어서,
상기 오디오 입력 모듈은 상기 제2 프로세서의 동작모드 또는 슬립모드에 상관 없이 활성화 상태를 유지하도록 구성된 전자 장치,
제3항에 있어서,
상기 제2 프로세서는, 상기 등록 화자의 트리거 음성 및 명령어 음성을 인식하는 전자 장치.
제1항에 있어서,
상기 제1프로세서는,
상기 오디오 신호의 상기 제1 음성 인식을 통해 상기 음성 신호를 버퍼링하고,
상기 제2 프로세서가 슬립모드에서 동작모드로 전환되면, 상기 버퍼링된 음성 신호 및 오디오 신호를 상기 제2 프로세서로 전달하는 전자 장치.
제1항에 있어서,
상기 제1 프로세서는, 상기 제1 음성 인식이 실패한 경우, 동작모드에서 슬립모드로 전환하고,
상기 제2 프로세서는, 상기 제2 음성 인식이 실패한 경우, 동작모드에서 슬립 모드로 전환하는 전자 장치.
제1항에 있어서, 상기 전자 장치는,
음성 인식 서버와 통신하는 통신 모듈을 더 포함하고,
상기 통신 모듈은,
상기 제2 음성 인식이 성공한 경우, 제3 음성 인식을 위해, 상기 제2 음성 인식에 의한 음성 신호 또는 상기 오디오 신호 중 적어도 하나를 상기 음성 인식 서버로 전송하고,
상기 음성 인식 서버로부터 제3 음성 인식의 결과 정보를 수신하는 전자 장치.
제1항에 있어서,
상기 제2 프로세서는,
상기 표시 모듈의 오프 상태에서 상기 제2 음성 인식 성공 시, 상기 표시 모듈을 온하여 기능 실행 화면을 표시하고, 상기 제2 음성 인식 실패 시 상기 표시 모듈의 오프 상태를 유지하도록 상기 표시 모듈을 제어하는 전자 장치.
제1 항에 있어서,
상기 제2프로세서는,
상기 제2 음성 인식을 수행하는 동안 상기 제2 음성 인식 상태임을 알리는 화면을 출력하고, 상기 제2 음성 인식 성공에 응답하여 기능 실행 화면을 표시하고, 및 상기 제2 음성 인식 실패 시 턴 오프하도록 상기 표시 모듈을 제어하는 전자 장치.
전자 장치의 음성 인식 운용 방법에 있어서,
오디오 입력 모듈이 오디오 신호를 수신하는 동작;
상기 오디오 신호의 주파수가 설정된 주파수 대역에 대응하는 경우, 상기 오디오 입력 모듈에 의해 제1 구동 신호를 제1 프로세서에 전달하는 동작;
상기 제1 프로세서에서 상기 제1 구동 신호에 응답하여 상기 오디오 신호에 대해, 화자 인식을 포함하는 제1 음성 인식을 수행하는 동작;
상기 오디오 신호에서 등록 화자의 트리거 음성을 인식하는 동작;
상기 제1 프로세서에서 제1 음성 인식 결과에 기반하여 제2 프로세서로 제2 구동 신호를 전달하는 동작;
상기 제2 프로세서에서 상기 제2 구동 신호에 응답하여 상기 제1 음성 인식에 의한 음성 신호 및 상기 오디오 신호 중 적어도 하나에 기반하여, 명령 인식을 포함하는 제2 음성 인식을 수행하는 동작;
상기 제2 프로세서에서 상기 제2 음성 인식 결과에 기반하여 음성 명령과 관련된 어플리케이션을 실행하는 동작; 및
상기 제2 프로세서에서 제2 음성 인식 동안 상기 전자 장치의 표시 모듈의 오프 상태를 유지하고, 상기 제2 음성 인식 성공에 응답하여 상기 어플리케이션의 실행 화면을 표시하도록 상기 표시 모듈을 턴 온하는 동작을 포함하는, 전자 장치의 음성 인식 운용 방법.
제13 항에 있어서,
상기 제1 음성 인식을 수행하는 동작은,
상기 제2 구동 신호에 기반하여, 상기 제2 프로세서가 슬립모드에서 동작모드로 전환하는 동작을 포함하는, 전자 장치의 음성 인식 운용 방법.
제13항에 있어서,
상기 등록 화자의 트리거 음성을 인식하는 동작은,
상기 오디오 신호에 대해 음성 인식 기능을 트리거하기 위한 등록 화자의 트리거 음성을 인식하는 동작; 및
상기 트리거 음성 인식이 성공된 이후에 입력되는 오디오 신호에 대해 음성 기반의 기능 실행을 위한 상기 등록 화자의 명령어 음성을 인식하는 동작을 포함하는, 전자 장치의 음성 인식 운용 방법.
제13항에 있어서,
상기 오디오 입력 모듈에 의해 제공된 상기 제1 구동 신호에 응답하여 상기 제1 프로세서를 슬립모드에서 동작모드로 전환하는 동작을 더 포함하는, 전자 장치의 음성 인식 운용 방법.
제13항에 있어서,
상기 제1 음성 인식이 실패하는 경우, 상기 제1 프로세서가 동작모드에서 슬립모드로 전환하는 동작; 및
상기 제2 음성 인식이 실패하는 경우, 상기 제2 프로세서가 동작모드에서 슬립모드로 전환하는 동작을 더 포함하는, 전자 장치의 음성 인식 운용 방법.
제13항에 있어서,
상기 제1 프로세서가 상기 오디오 신호의 상기 제1 음성 인식을 통해 상기 음성 신호를 버퍼링하는 동작; 및
상기 제2 프로세서가 슬립모드에서 동작모드로 전환되면, 상기 버퍼링된 음성 신호 및 오디오 신호를 상기 제2 프로세서로 전달하는 동작을 더 포함하는 전자 장치의 음성 인식 운용 방법.
제13항에 있어서,
상기 제2 음성 인식을 수행하는 동작은,
상기 제2 프로세서가 제2 음성 인식 성공한 경우, 상기 제2 음성 인식을 통해 음성 명령에 대응하는 전자 장치의 기능을 실행하는 동작; 및
상기 제2 프로세서가 제2 음성 인식 실패한 경우, 슬립모드로 전환하는 동작을 더 포함하는, 전자 장치의 음성 인식 운용 방법.
제16항에 있어서,
상기 제2 음성 인식을 수행하는 동작은,
상기 제2 프로세서가 제2 음성 인식 성공한 경우, 제4 음성 인식을 위해, 오디오 신호 및 상기 제2 음성 인식에 기반한 음성 신호를 음성 인식 서버로 전송하는 동작;
상기 음성 인식 서버로부터 제4 음성 인식에 따른 음성 명령을 수신한 경우, 상기 수신된 음성 명령에 대응하는 전자 장치의 기능을 실행하는 동작; 및
상기 음성 인식 서버로부터 제4 음성 인식에 대한 실패 정보를 수신한 경우, 상기 제2 프로세서는 슬립모드로 전환하는 동작을 더 포함하는, 전자 장치의 음성 인식 운용 방법.