WO2015030474A1

WO2015030474A1 - 음성 인식을 위한 전자 장치 및 방법

Info

Publication number: WO2015030474A1
Application number: PCT/KR2014/007951
Authority: WO
Inventors: 이상훈; 강혁; 김경태; 제성민; 정석영
Original assignee: 삼성전자 주식회사
Priority date: 2013-08-26
Filing date: 2014-08-26
Publication date: 2015-03-05
Also published as: KR20160055162A; KR102394485B1; US11158326B2; EP3040985A1; US20190228781A1; CN105493180B; US20160217795A1; US20220044690A1; EP3040985B1; US10192557B2; CN105493180A; EP3040985A4

Abstract

본 발명은 동적 화면 레이아웃 변경 방법 및 전자 장치에 관한 것으로서, 본 발명의 다양한 실시 예에 따른 전자 장치를 이용한 방법은 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작; 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하는 동작; 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식하는 동작; 및 상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 포함할 수 있다.

Description

음성 인식을 위한 전자 장치 및 방법

본 개시는 전자장치에 관한 것으로, 다양한 실시 예들은 음성 인식을 위한 구성에 관한 것이다.

일반적으로 사람들은 각자 개성적인 자신만의 음성을 가지고 있고, 이러한 음성 그 자체가 인증을 위한 수단으로 이용될 수 있다.

음성 인식 장치는 특정인의 음성과 음성에 대한 정보가 수집된 음성 인식 모델을 이용하여 특정인의 음성을 인식할 수 있으며, 이를 화자 검증 방법(speaker verification)이라고 한다. 이러한 음성 인식 장치는 다수의 사람에 대한 음성을 인식하기 위해 미리 훈련된 음성 인식 모델을 이용하여 발성한 사람의 음성을 구분할 수 있으며, 이를 화자 식별 방법(speaker identification)이라고 한다.

화자 검증 방법 또는 화자 식별 방법을 이용하는 음성 인식 장치는 특정 문구를 이용하여 음성 인식 모델을 훈련할 수 있으며, 이 경우 특정 화자가 특정 문구를 발화하는 경우에만 음성을 인식하도록 구현되어 보다 높은 보안 성능을 가진다.

또한 음성 인식 장치는 미리 지정된 특정 단어만을 인식하는 고립 단어 인식 방법을 이용하여 음성을 인식할 수 있다. 이러한 고립 단어 인식 방법은 각 특정 단어별 템플릿을 생성하여 입력된 발화와 비교하는 방법을 의미한다. 고립 단어 인식 방법을 이용한 음성 인식 장치는 미리 지정된 특정 단어만을 인식하기 때문에 음성 인식률이 상대적으로 높고, 주변 잡음에 의한 음성 인식 실패율이 상대적으로 낮다. 이에 따라, 고립 단어 인식 방법은 모든 발화가 텍스트로 변환 가능한 대규모 어휘 음성 인식(large vocabulary speech recognition, LVSR), 자연어 음성 인식 대비 계산량이 적고, 메모리 사용이 적기 때문에 휴대용 단말 장치에서 용의하게 사용될 수 있다.

상기와 같이 종래의 음성 인식 장치는 화자 검증 방법 또는 화자 식별 방법을 이용하여 음성을 인식하거나 고립 단어 인식 방법을 이용하여 음성을 인식하였다.

하지만 종래의 음성 인식 장치는 저전력 프로세서가 탑재된 경우 계산량이 많은 음성 인식 방법을 수행하기 어렵다는 문제점이 있다.

또한 종래의 음성 인식 장치는 고성능 프로세서가 탑재된 경우 고성능 전처리 및 고성능 음성 인식을 수행하기 때문에 전력 소모가 많다는 단점이 있다.

따라서, 본 발명의 다양한 실시 예에서는 전력 소모가 적은 프로세서와 고성능의 음성 인식을 수행하는 프로세서와 같은 둘 이상의 프로세서를 이용하여 음성 인식을 하기 위한 전자 장치 및 방법을 제공한다.

상술한 바를 달성하기 위해 본 발명의 다양한 실시 예에 따르면 전자 장치를 이용한 방법은, 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작; 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하는 동작; 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식하는 동작; 및 상기 인식된 제2 음성을 기반으로 연관된 동작을 포함할 수 있다.

본 발명의 다양한 실시 예들에 따르면 전자 장치는 제1 음성을 획득하는 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나를 포함하고, 상기 제1 음성 장치에서 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하고, 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식한 후 상기 인식된 제2 음성을 기반으로 연관된 동작을 수행할 수 있다.

본 발명은 다양한 실시 예에서는 전력 소모를 적게 하면서 항상 대기 가능한 음성 인식 시스템을 유지할 수 있고, 사용자에게 다양한 질의에 응답할 수 있는 자연어 음성 인식이 가능하며, 빠른 동작 반응이 필요한 어플리케이션에 대한 특정 음성 명령에 대응할 수 있고, 음성 인식을 위해 입력된 음성 신호에 왜곡이 발생하더라도 높은 음성 인식율을 가지는 음성 인식이 가능하다.

도 1은 다양한 실시예에 따른, 전자 장치을 포함하는 네트워크 환경을 도시한다.

도 2는 다양한 실시예에 따른, 제1 음성 인식 프로세서와 제2 음성 인식 프로세서에 대한 구성을 나타낸다.

도 3은 다양한 실시예에 따른 제1 음성 인식 프로세서와 제2 음성 인식 프로세서에 대한 구성을 나타낸다.

도 4는 다양한 실시예에 따른 제1 음성 인식 프로세서와 제2 음성 인식 프로세서에 대한 구성을 나타낸다.

도 5는 다양한 실시예에 따른 제1 음성 인식 프로세서와 제2 음성 인식 프로세서에 대한 구성을 나타낸다.

도 6은 다양한 실시 예에 따른 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서에 대한 구성을 나타낸다.

도 7은 다양한 실시 예에 따른 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서에 대한 구성을 나타낸다.

도 8은 다양한 실시예에 따른 전처리부에 대한 구성을 나타낸다.

도 9는 다양한 실시예에 따른 제어부가 제1 음성 인식 프로세서 또는 제2 음성 인식 프로세서를 통해서 음성 인식을 수행하는 과정을 나타내는 흐름도이다.

도 10은 다양한 실시예에 따른 제어부가 제1 음성 인식 프로세서 또는 제2 음성 인식 프로세서를 통해서 음성 인식을 수행하는 과정을 나타내는 흐름도이다.

도 11은 다양한 실시예에 따른 제어부가 제1 음성 인식 프로세서 또는 제2 프로세서를 통해서 음성 인식을 수행하는 과정을 나타내는 흐름도이다.

도 12는 다양한 실시예에 따른 제어부가 제1 음성 인식 프로세서 또는 제2 음성 인식 프로세서를 통해서 음성 인식을 수행하는 과정을 나타내는 흐름도이다.

도 13은 다양한 실시예에 따른 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서를 통해서 음성 인식을 수행하는 과정을 나타낸다.

도 14는 다양한 실시예에 따른 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서를 통해서 음성 인식을 수행하는 과정을 나타낸다.

도 15는 다양한 실시예에 따른 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서를 통해서 음성 인식을 수행하는 과정을 나타낸다.

도 16은 다양한 실시예에 따른 제3 음성 인식 프로세서를 통해서 음성 인식 모델을 업그레이드하는 과정을 나타낸다.

도 17은 다양한 실시예들에 따른 전자 장치의 블록도를 도시한다.

이하, 본 발명의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 발명의 다양한 실시예에서 사용될 수 있는“포함한다” 또는 “포함할 수 있다” 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 다양한 실시예에서 “또는” 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, “A 또는 B”는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.

본 발명의 다양한 실시예에서 사용된 “제 1,”“제2,”“첫째,”또는“둘째,”등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제 2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 발명의 다양한 실시예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 발명의 다양한 실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 다양한 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명의 다양한 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 다양한 실시예에 따른 전자 장치는, 디스플레이 기능이 포함된 장치일 수 있다. 예를 들면, 전자 장치는 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 디스플레이 기능을 갖춘 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSync^TM, 애플TV^TM, 또는 구글 TV^TM), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller’s machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 디스플레이 기능을 포함한 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치는 플렉서블 장치일 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.

이하, 첨부된 도면을 참조하여 다양한 실시예에 따른 전자 장치에 대해서 살펴본다. 다양한 실시예에서 이용되는 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

도 1은 다양한 실시예에 따른, 전자 장치(101)을 포함하는 네트워크 환경(100)를 도시한다.

도 1을 참조하면, 상기 전자 장치(101)는 버스(110), 프로세서(120), 메모리(130), 입출력 인터페이스(140), 디스플레이(150), 통신 인터페이스(160), 제1 음성 인식 프로세서(170), 제2 음성 인식 프로세서(180)을 포함할 수 있다.

상기 버스(110)는 전술한 구성요소들을 서로 연결하고, 전술한 구성요소들 간의 통신(예: 제어 메시지)을 전달하는 회로일 수 있다.

상기 프로세서(120)는, 예를 들면, 상기 버스(110)를 통해 전술한 다른 구성요소들(예: 상기 메모리(130), 상기 입출력 인터페이스(140), 상기 디스플레이(150), 상기 통신 인터페이스(160), 상기 제1 음성 인식 프로세서(170), 상기 제2 음성 인식 프로세서(180) 등)로부터 명령을 수신하여, 수신된 명령을 해독하고, 해독된 명령에 따른 연산이나 데이터 처리를 실행할 수 있다.

상기 메모리(130)는, 상기 프로세서(120) 또는 다른 구성요소들(예: 상기 입출력 인터페이스(140), 상기 디스플레이(150), 상기 통신 인터페이스(160), 상기 제1 음성 인식 프로세서(170), 상기 제2 음성 인식 프로세서(180) 등)로부터 수신되거나 상기 프로세서(120) 또는 다른 구성요소들에 의해 생성된 명령 또는 데이터를 저장할 수 있다. 상기 메모리(130)는, 예를 들면, 커널(131), 미들웨어(132), 어플리케이션 프로그래밍 인터페이스(API: application programming interface)(133) 또는 어플리케이션(134) 등의 프로그래밍 모듈들을 포함할 수 있다. 전술한 각각의 프로그래밍 모듈들은 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.

상기 커널(131)은 나머지 다른 프로그래밍 모듈들, 예를 들면, 상기 미들웨어(132), 상기 API(133) 또는 상기 어플리케이션(134)에 구현된 동작 또는 기능을 실행하는 데 사용되는 시스템 리소스들(예: 상기 버스(110), 상기 프로세서(120) 또는 상기 메모리(130) 등)을 제어 또는 관리할 수 있다. 또한, 상기 커널(131)은 상기 미들웨어(132), 상기 API(133) 또는 상기 어플리케이션(134)에서 상기 전자 장치(101)의 개별 구성요소에 접근하여 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.

상기 미들웨어(132)는 상기 API(133) 또는 상기 어플리케이션(134)이 상기 커널(131)과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다. 또한, 상기 미들웨어(132)는 상기 어플리케이션(134)로부터 수신된 작업 요청들과 관련하여, 예를 들면, 상기 어플리케이션(134) 중 적어도 하나의 어플리케이션에 상기 전자 장치(101)의 시스템 리소스(예: 상기 버스(110), 상기 프로세서(120) 또는 상기 메모리(130) 등)를 사용할 수 있는 우선 순위를 배정하는 등의 방법을 이용하여 작업 요청에 대한 제어(예: 스케쥴링 또는 로드 밸런싱)을 수행할 수 있다.

상기 API(133)는 상기 어플리케이션(134)이 상기 커널(131) 또는 상기 미들웨어(132)에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들면, 파일 제어, 창 제어, 화상 처리 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예: 명령어)를 포함할 수 있다.

다양한 실시예에 따르면, 상기 어플리케이션(134)는 SMS/MMS 어플리케이션, 이메일 어플리케이션, 달력 어플리케이션, 알람 어플리케이션, 건강 관리(health care) 어플리케이션(예: 운동량 또는 혈당 등을 측정하는 어플리케이션) 또는 환경 정보 어플리케이션(예: 기압, 습도 또는 온도 정보 등을 제공하는 어플리케이션) 등을 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 어플리케이션(134)은 상기 전자 장치(101)와 외부 전자 장치(예: 전자 장치 (104)) 사이의 정보 교환과 관련된 어플리케이션일 수 있다. 상기 정보 교환과 관련된 어플리케이션은, 예를 들어, 상기 외부 전자 장치에 특정 정보를 전달하기 위한 알림 전달(notification relay) 어플리케이션, 또는 상기 외부 전자 장치를 관리하기 위한 장치 관리(device management) 어플리케이션을 포함할 수 있다.

예를 들면, 상기 알림 전달 어플리케이션은 상기 전자 장치(101)의 다른 어플리케이션(예: SMS/MMS 어플리케이션, 이메일 어플리케이션, 건강 관리 어플리케이션 또는 환경 정보 어플리케이션 등)에서 발생한 알림 정보를 외부 전자 장치(예: 전자 장치 (104))로 전달하는 기능을 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 알림 전달 어플리케이션은, 예를 들면, 외부 전자 장치(예: 전자 장치 (104))로부터 알림 정보를 수신하여 사용자에게 제공할 수 있다. 상기 장치 관리 어플리케이션은, 예를 들면, 상기 전자 장치(101)와 통신하는 외부 전자 장치(예: 전자 장치(104))의 적어도 일부에 대한 기능(예: 외부 전자 장치 자체(또는, 일부 구성 부품)의 턴온/턴오프 또는 디스플레이의 밝기(또는, 해상도) 조절), 상기 외부 전자 장치에서 동작하는 어플리케이션 또는 상기 외부 전자 장치에서 제공되는 서비스(예: 통화 서비스 또는 메시지 서비스)를 관리(예: 설치, 삭제 또는 업데이트)할 수 있다.

다양한 실시예에 따르면, 상기 어플리케이션(134)은 상기 외부 전자 장치(예: 전자 장치(104))의 속성(예: 전자 장치의 종류)에 따라 지정된 어플리케이션을 포함할 수 있다. 예를 들어, 외부 전자 장치가 MP3 플레이어인 경우, 상기 어플리케이션(134)은 음악 재생과 관련된 어플리케이션을 포함할 수 있다. 유사하게, 외부 전자 장치가 모바일 의료기기인 경우, 상기 어플리케이션(134)은 건강 관리와 관련된 어플리케이션을 포함할 수 있다. 한 실시예에 따르면, 상기 어플리케이션(134)은 전자 장치(101)에 지정된 어플리케이션 또는 외부 전자 장치(예: 서버(106) 또는 전자 장치(104))로부터 수신된 어플리케이션 중 적어도 하나를 포함할 수 있다.

상기 입출력 인터페이스(140)은, 입출력 장치(예: 센서, 키보드 또는 터치 스크린)를 통하여 사용자로부터 입력된 명령 또는 데이터를, 예를 들면, 상기 버스(110)를 통해 상기 프로세서(120), 상기 메모리(130), 상기 통신 인터페이스(160), 상기 제1 음성 인식 프로세서(170), 상기 제2 음성 인식 프로세서(180)에 전달할 수 있다. 예를 들면, 상기 입출력 인터페이스(140)은 터치 스크린을 통하여 입력된 사용자의 터치에 대한 데이터를 상기 프로세서(120)로 제공할 수 있다. 또한, 상기 입출력 인터페이스(140)은, 예를 들면, 상기 버스(110)을 통해 상기 프로세서(120), 상기 메모리(130), 상기 통신 인터페이스(160), 상기 제1 음성 인식 프로세서(170), 상기 제2 음성 인식 프로세서(180)로부터 수신된 명령 또는 데이터를 상기 입출력 장치(예: 스피커 또는 디스플레이)를 통하여 출력할 수 있다. 예를 들면, 상기 입출력 인터페이스(140)은 상기 프로세서(120)를 통하여 처리된 음성 데이터를 스피커를 통하여 사용자에게 출력할 수 있다.

상기 디스플레이(150)은 사용자에게 각종 정보(예: 멀티미디어 데이터 또는 텍스트 데이터 등)을 표시할 수 있다.

상기 통신 인터페이스(160)은 상기 전자 장치(101)와 외부 장치(예: 전자 장치(104) 또는 서버(106)) 간의 통신을 연결할 수 있다. 예를 들면, 상기 통신 인터페이스(160)은 무선 통신 또는 유선 통신을 통해서 네트워크(162)에 연결되어 상기 외부 장치와 통신할 수 있다. 상기 무선 통신은, 예를 들어, Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 상기 유선 통신은, 예를 들어, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.

한 실시예에 따르면, 상기 네트워크(162)는 통신 네트워크(telecommunications network)일 수 있다. 상기 통신 네트워크는 컴퓨터 네트워크(computer network), 인터넷(internet), 사물 인터넷(internet of things) 또는 전화망(telephone network) 중 적어도 하나를 포함할 수 있다. 한 실시예에 따르면, 상기 전자 장치(101)와 외부 장치 간의 통신을 위한 프로토콜(예: transport layer protocol, data link layer protocol 또는 physical layer protocol))은 어플리케이션(134), 어플리케이션 프로그래밍 인터페이스(133), 상기 미들웨어(132), 커널(131) 또는 통신 인터페이스(160) 중 적어도 하나에서 지원될 수 있다.

상기 제1 음성 인식 프로세서(170) 및/또는 상기 제2 음성 인식 프로세서(180)은, 다른 구성요소들(예: 상기 프로세서(120), 상기 메모리(130), 상기 입출력 인터페이스(140), 또는 상기 통신 인터페이스(160) 등)로부터 획득된 정보 중 적어도 일부를 처리하고, 이를 다양한 방법으로 사용자에게 제공할 수 있다.

예를 들면, 상기 제1 음성 인식 프로세서(170)은 상기 프로세서(120)를 이용하여 또는 이와는 독립적으로, 입출력 인터페이스(140)로부터 수신된 제1 음성을 인식하여 상기 제1 음성에 제1 명령어가 포함되는지를 판단할 수 있다. 본 발명의 다양한 실시 예에 따르면, 제1 명령어는 특정 단어에 의해서 미리 설정되거나 사용자에 의해서 설정될 수 있다.

상기 제1 음성에 제1 명령어가 포함되어 있으면 상기 제1 음성 인식 프로세서(170)은 추가적으로 수신되는 제2 음성을 외부 전자 장치(예, 전자 장치(104))로 전달하여 상기 외부 전자 장치가 제2 음성에 대한 음성 인식을 수행하도록 할 수 있다.

또한 상기 제2 음성 인식 프로세서(180)은 상기 제1 음성을 인식하여 제1 음성에 제1 명령어가 포함되는지 판단한 후 제1 명령어가 포함되어 있으면 추가적으로 수신되는 제2 음성을 인식하여 상기 제2 음성에 미리 저장된 음성 명령어 셋(set)에 포함된 제2 명령어가 포함되는지를 판단할 수 있다. 본 발명의 다양한 실시 예에 따르면, 상기 제2 명령어는 복수의 단어를 포함할 수 있다.

상기 제2 음성에 제2 명령어가 포함되어 있으면 제2 음성 인식 프로세서(180)은 제2 명령어에 대응하는 동작을 수행할 수 있다. 다른 실시 예로 제2 음성 인식 프로세서(180)는 제2 명령에 대응하는 동작을 수행하도록 하기 위한 신호를 프로세서(120)로 전달하여 프로세서(120)가 동작을 수행하도록 할 수 있다.

도 2를 참조하면, 전자 장치(101)는 제1 음성 인식 프로세서(170), 제2 음성 인식 프로세서(180), 마이크(400), 스피커(410), 오디오 모듈(420)을 포함할 수 있다.

다양한 실시 예에 따르면, 마이크(400)는 음성 신호를 수신할 수 있다. 본 명세서에서, 마이크는 음성 입력부라고 칭할 수도 있다.

스피커(410)는 스피커를 포함하며, 음성 신호를 출력한다. 또한 스피커(410)는 어플리케이션 또는 프로그램의 실행에 의해서 발생되는 오디오 신호를 출력할 수 있다. 본 명세서에서, 스피커는 오디오 출력부라고 칭할 수도 있다.

오디오 모듈(420)은 제1 음성 인식 프로세서(170), 제2 음성 인식 프로세서(180), 마이크(400), 스피커(410)와 연결되어 아날로그 음성 신호를 디지털 음성 신호로 전환하거나 디지털 음성 신호를 아날로그 음성 신호로 전환하는 오디오 신호 처리를 수행한다. 또한 오디오 모듈(420)은 변환된 디지털 신호에 자동 이득 제어(Automatic Gain Control), 이퀄라이제이션(Equalization) 등과 같은 신호처리를 수행할 수 있다. 상기 오디오 모듈(420)은 어플리케이션 또는 프로그램의 음성 신호를 송수신할 수 있다.

상기 오디오 모듈(420)은 별도의 전력을 공급 받는 형태로 구현될 수 있고, 선택적으로 구현될 수 있다. 다른 실시 예로 오디오 모듈(420)은 별도의 전력을 공급받지 않고, 제1 음성 인식 프로세서(170), 제2 음성 인식 프로세서(180) 각각의 내부에 구현될 수도 있다.

상기 제1 음성 인식 프로세서(170)은 제1 음성 인식 처리부(110)를 포함하고, 상기 제1 음성 인식 처리부(110)는 제1 전처리부(111), 제1 음성 인식 모델 저장부(112), 제1 음성 인식부(113)를 포함할 수 있다. 본 명세서에서, 음성 인식 모델 저장부는 음성 인식 엔진 저장부라고 칭할 수도 있다.

상기 제1 음성 인식 프로세서(170)은 저전력으로 동작하는 저전력 프로세서로서, 제1 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 제1 음성 인식 프로세서(170)은 제1 전처리부(111), 제1 음성 인식 모델 저장부(112), 제1 음성 인식부(113)를 포함하는 제1 음성 인식 처리부(110)를 포함할 수 있다.

제1 전처리부(111)는 제1 음성 인식부(113)에서 음성 인식을 수행하기 전에 마이크(400)로부터 입력된 음성 신호를 수정하여 제1 음성 인식부(113)로 출력한다. 이러한 제1 전처리부(111)는 선택적으로 구현될 수 있으며, 구현에 따라 생략 가능하다.

제1 음성 인식 모델 저장부(112)은 음성 인식을 위해서 사용되는 다양한 음성 인식 알고리즘을 포함하는 제1 음성 인식 모델을 저장하며, 음성 인식 훈련에 의해서 생성되거나 갱신될 수 있다.

본 발명의 다양한 실시예에 따르면 제1 음성 인식 모델은 특정 단어 또는 하나 이상의 단어의 조합으로 미리 정해진 명령어를 포함하는 제1 레벨의 음성을 인식할 수 있는 제1 레벨 음성 인식 알고리즘을 포함할 수 있다. 예를 들어 제1 음성 인식 모델은 화자 인식 알고리즘이 될 수 있다.

제1 음성 인식부(113)는 제1 음성 인식 모델을 이용하여 음성 인식을 수행한다. 본 발명의 다양한 실시 예에 따르면 제1 음성 인식부(113)는 저전력으로 동작하는 제1 음성 인식 프로세서(170)에서 제1 레벨의 음성을 인식할 수 있다. 예를 들어, 제1 음성 인식부(113)는 “Hi, Galaxy”와 같이 미리 정해진 단어의 조합으로 구성된 명령어를 인식할 수 있다.

또한 상기 제2 음성 인식 프로세서(180)은 제2 음성 인식 처리부(220), 제어부(210), 오디오 관리부(230)를 포함하고, 상기 제2 음성 인식 처리부(220)는 제2 전처리부(221), 제2 음성 인식 모델 저장부(222), 제2 음성 인식부(223)를 포함할 수 있다. 본 명세서에서, 오디오 관리부는 음성 관리부라고 칭할 수도 있다.

제2 음성 인식 프로세서(180)은 제어부(210), 제2 음성 인식 처리부(220) 및 오디오 관리부(230)를 포함한다. 본 발명의 다양한 실시예에 따르면 제2 음성 인식 프로세서(180)은 제3 전처리부, 제3 저장부, 제3 음성 인식부가 포함된 제3 음성 인식 처리부를 더 포함할 수 있다. 여기서, 제2 음성 인식 프로세서(180)은 제1 음성 인식 프로세서(170)과 서로 다른 전력으로 동작할 수 있다.

제어부(210)는 제1 음성 인식 프로세서(170) 또는/및 제2 음성 인식 프로세서(180)의 전반적인 동작을 제어하는데, 음성 인식 제어, 각 구성들간의 신호 제어 등을 수행한다. 또한 제어부(210)는 오디오 관리부(230)와 연결되어 음성 입출력 신호를 수신할 수 있다. 이러한 제어부(210)는 어플리케이션 및 프로그램의 정보, 오디오 관리부(230)로부터 수신된 정보 등을 이용하여 제1 음성 인식 처리부(110), 제2 음성 인식 처리부(220)의 동작을 제어할 수 있다. 본 발명의 실시 예에서는 제어부(210)가 제2 음성 인식 프로세서(180)에 포함되는 것으로 설명하였으나, 이에 한정되지 않으며, 제어부(210)가 제1 음성 인식 프로세서(170)에 포함될 수 있고, 제1 음성 인식 프로세서(170) 및 제2 음성 인식 프로세서(180)과 별도로 구성될 수도 있다. 뿐만 아니라, 본 발명의 다양한 실시예에 따르면 제1 음성 인식 프로세서(170) 또는/및 제2 음성 인식 프로세서(180)은 각각의 동작을 제어할 수도 있다.

제2 음성 인식 처리부(220)는 제2 전처리부(221), 제2 음성 인식 모델 저장부(222), 제2 음성 인식부(223)를 포함할 수 있다.

제2 전처리부(221)는 제2 음성 인식부(223)에서 음성 인식을 수행하기 전에 마이크(400)로부터 입력된 음성 신호를 수정하여 제2 음성 인식부(223)로 출력한다. 상기 제2 전처리부(221)는 선택적으로 구현될 수 있으며, 구현에 따라 생략 가능하다.

제2 음성 인식 모델 저장부(222)는 제2 음성 인식부(223)에 의해서 음성 인식을 위해서 이용되는 제2 음성 인식 모델을 저장한다.

본 발명의 다양한 실시예에 따르면 제2 음성 인식 모델은 제1 음성 인식 모델에서 인식할 수 있는 제1 레벨의 음성뿐만 아니라 하나의 단어로 이루어지는 명령어를 포함하는 제2 레벨의 음성을 인식할 수 있는 제2 레벨 음성 인식 알고리즘을 포함할 수 있다. 상기 제2 레벨 음성 인식 알고리즘은 제1 레벨 음성 인식 알고리즘보다 더 많은 명령어를 인식할 수 있다. 또한 상기 제2 음성 인식 모델은 음성 인식 훈련에 의해서 생성되거나 갱신될 수 있다.

제2 음성 인식부(223)는 제2 음성 인식 모델을 이용하여 제2 레벨 음성 인식을 수행한다. 이러한 제2 음성 인식부(223)는 제1 음성 인식부(113)보다 고성능의 음성 인식을 수행할 수 있다. 예를 들어, 제2 음성 인식부(223)는 “Play”, “Stop”, “Pause” 등과 같이 적어도 하나의 단어로 구성된 명령어를 인식할 수 있다.

오디오 관리부(230)는 마이크(400) 및 스피커(410)와 직접적 또는 간접적으로 연결되어 음성 신호의 입력 또는 출력을 관리한다. 또한 오디오 관리부(230)는 오디오 모듈(420)으로부터 출력된 음성 신호를 제2 전처리부(221)로 전달할 수 있다. 이러한 오디오 관리부(230)는 어플리케이션이나 프로그램의 오디오 신호 입출력을 관리할 수 있고, 스피커(410)로부터 오디오 신호가 출력되는지 판단할 수 있다.

도 3은 다양한 실시 예에 따른 제1 음성 인식 프로세서와 제2 음성 인식 프로세서에 대한 구성을 나타낸다.

본 발명의 다양한 실시 예에 따르면 전자 장치(101)는 오디오 모듈이 생략되고, 제1 음성 인식 프로세서(170) 및 제2 음성 인식 프로세서(180)의 내부에 포함되어 구현될 수 있다. 상기 전자 장치(101)의 각 구성들은 상기의 도 2에서 설명한 바와 같이 동일하게 수행될 수 있다.

도 3에 따르면 제어부(210)는 마이크(400)로부터 입력된 음성 신호를 오디오 관리부(230)를 통해서 수신할 수 있다. 상기 오디오 관리부(230)는 음성 신호를 마이크(400)로부터 수신하고, 음성 신호를 스피커(410)로 전달하여 스피커(410)를 통해서 음성이 출력되도록 할 수 있다.

상기 제2 음성 인식부(223)는 제1 음성 인식 프로세서(170)의 제1 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 또한 제1 음성 인식부(113) 및/또는 제2 음성 인식부(223)는 특정 화자의 특정 발화를 인식하기 위한 음성 인식을 수행할 수도 있다.

본 발명의 다양한 실시예에 따르면 전자 장치(101)는 두 개의 음성 인식 처리부를 포함하는 제2 음성 인식 프로세서(180)을 구비할 수 있다.

상기 제2 음성 인식 프로세서(180)은 제2 음성 인식 처리부(220)와 제3 음성 인식 처리부(240)를 포함할 수 있다. 상기 제2 음성 인식 처리부(220)의 제2 음성 인식 모델과 제3 음성 인식 처리부(240)의 제3 음성 인식 모델은 서로 다른 음성 인식 알고리즘을 포함할 수 있다. 상기 제3 음성 인식 모델은 복수의 단어들에 대한 조합으로 이루어진 명령어를 인식하기 위한 제3 레벨 음성 인식 알고리즘을 포함할 수 있다. 예를 들어, 제3 레벨 음성은 “open camera”와 같은 복수의 단어의 조합으로 이루어지는 문구 또는/및 문장이 될 수 있다. 다양한 실시예에 따르면 제2 음성 인식 모델과 제3 음성 인식 모델 중 어느 하나는 제1 음성 인식 모델과 동일한 인식 모델이 될 수도 있다.

제3 음성 인식 처리부(240)는 제3 전처리부(241), 제3 음성 인식 모델 저장부(242), 제3 음성 인식부(243)를 포함할 수 있다.

제3 전처리부(241)는 제3 음성 인식부(243)에서 음성 인식을 수행하기 전에 마이크(400)로부터 입력된 음성 신호를 수정하여 제3 음성 인식부(243)로 출력한다. 이러한 제3 전처리부(241)는 선택적으로 구현될 수 있으며, 구현에 따라 생략 가능하다.

제3 음성 인식 모델 저장부(242)는 제3 음성 인식부(243)에 의해서 음성 인식을 위해서 이용되는 제3 음성 인식 모델을 저장한다. 본 발명의 다양한 실시예에 따르면 제3 음성 인식 모델은 복수의 단어로 이루어지는 문구 또는/및 문장을 포함하는 제3 레벨의 음성을 인식할 수 있는 제3 레벨 음성 인식 알고리즘을 포함할 수 있다. 상기 제3 레벨 음성 인식 알고리즘은 제2 레벨 음성 인식 알고리즘보다 더 많은 명령어를 인식할 수 있다. 예를 들어, 제3 레벨 음성 인식 알고리즘은 자연어 인식 알고리즘이 될 수 있으며, “open camera”와 같은 복수의 단어의 조합으로 이루어진 명령어를 인식하기 위한 알고리즘이 될 수 있다.

제3 음성 인식부(243)는 제3 음성 인식 모델을 이용하여 제3 레벨 음성 인식을 수행할 수 있다.

다양한 실시예에 따르면 전자 장치(101)는 제1 음성 인식 프로세서(170)이 음성 처리부(150)를 더 포함하고, 마이크(400)로부터 입력된 음성 신호가 음성 처리부(150)로 전달될 수 있다. 본 발명의 다양한 실시 예에 따르면 상기 제1 음성 인식 프로세서(170)은 오디오 모듈로서 동작할 수 있다.

음성 처리부(120)는 마이크(400)로부터 입력된 음성 신호, 즉 아날로그 신호를 디지털 신호로 변환시켜 출력하거나, AGC(Automatic Gain Control) 등과 같은 음성 처리를 수행할 수 있다. 음성 처리부(120)에서 처리된 음성 신호는 제2 음성 인식 프로세서(180)의 오디오 관리부(230)를 통해서 제2 음성 인식 처리부(220)로 전달되거나 어플리케이션 또는 프로그램에서 사용될 수 있다.

상기 제1 음성 인식부(113)는 제1 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 상기 제1 음성 인식 모델은 제1 레벨 음성 인식 알고리즘을 포함할 수 있고, 사용자에 의해서 입력되거나 훈련된 음성을 인식하기 위한 인식 모델이 될 수 있다.

상기 제2 음성 인식부(223)는 어플리케이션을 실행할 시 실행된 어플리케이션에 특화된 제2 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 예를 들어, 제2 음성 인식 모델은 몇 개의 단어를 인식할 수 있는 단어 인식 모델(word recognition model)이나 대용량 음성 인식 모델(large vocabulary speech recognition model)이 될 수 있다.

본 발명의 다양한 실시 예에 따르면 전자 장치(101)는 제1 음성 인식 프로세서(170)과 제2 음성 인식 프로세서(180)을 포함하고, 외부 전자 장치(140)는 제3 음성 인식 프로세서(190)을 포함할 수 있다.

제1 음성 인식 프로세서(170)는 제1 전처리부(111), 제1 음성 인식 모델 저장부(112), 제1 음성 인식부(113)을 포함할 수 있다.

제1 전처리부(111)는 마이크(400)로부터 음성 신호가 수신되면 수신된 제1 음성을 수정하여 제1 음성 인식부(113)로 전달한다.

제1 음성 인식 모델 저장부(112)는 제1 레벨의 음성을 인식할 수 있는 제1 레벨 음성 인식 알고리즘을 포함하는 제1 음성 인식 모델을 저장할 수 있다.

제1 음성 인식부(113)는 제1 음성 인식 모델을 이용하여 제1 음성을 인식하고, 인식된 제1 음성에 제1 명령어를 포함하는지를 판단할 수 있다. 제1 음성에 제1 명령어를 포함하는 것으로 판단되면 제1 음성 인식부(113)는 입력되는 제2 음성을 제3 음성 인식 모듈(190)로 전달할 수 있다. 또한 제1 음성 인식부(113)는 제1 음성에 제1 명령어가 포함하지 않은 것으로 판단되면 음성 인식을 종료한다.

제2 음성 인식 프로세서(180)는 제어부(210), 제2 전처리부(221), 제2 음성 인식 모델 저장부(222), 제1 음성 인식부(223)을 포함할 수 있다.

제어부(210)는 제1 음성 인식 프로세서(170) 또는/및 제2 음성 인식 프로세서(180)의 전반적인 동작을 제어하는데, 음성 인식 제어, 각 구성들간의 신호 제어 등을 수행할 수 있다. 본 발명의 다양한 실시 예에 따르면 제어부(210)는 제1 음성이 수신되면 제2 전처리부(221)로 제1 음성을 전달하고, 제2 음성 인식부(223)에 의해서 음성 인식 결과가 수신되면 음성 인식 결과에 대응하는 동작을 수행할 수 있다.

본 발명의 다양한 실시예에 따르면 제어부(210)가 제2 음성 인식 프로세서(180)에 포함되는 것으로 설명하였으나, 이에 한정되지 않으며, 제어부(210)가 제1 음성 인식 프로세서(170)에 포함될 수 있고, 제1 음성 인식 프로세서(170) 및 제2 음성 인식 프로세서(180)과 별도로 구성될 수도 있다. 뿐만 아니라, 본 발명의 다양한 실시예에 따르면 제1 음성 인식 프로세서(170) 또는/및 제2 음성 인식 프로세서(180)은 각각의 동작을 제어할 수도 있다.

제2 전처리부(221)는 제2 음성 인식부(223)에서 음성 인식을 수행하기 전에 음성 신호를 수정하여 제2 음성 인식부(223)로 출력한다. 상기 제2 전처리부(221)는 선택적으로 구현될 수 있으며, 구현에 따라 생략 가능하다.

제2 음성 인식 모델 저장부(222)는 제2 레벨의 음성을 인식할 수 있는 제2 레벨 음성 인식 알고리즘이 포함된 제2 음성 인식 모델을 저장한다. 본 발명의 다양한 실시 예에 따르면 제2 레벨의 음성은 제1 레벨의 음성을 포함할 수 있다.

제2 음성 인식부(223)는 제2 음성 인식 모델을 이용하여 제1 음성을 인식하고, 인식된 제1 음성이 제1 명령어를 포함하는지를 판단할 수 있다. 제1 음성이 제1 명령어를 포함하는 것으로 판단되면 제2 음성 인식부(223)는 입력되는 제2 음성을 인식하여 인식된 제2 음성이 제2 명령어를 포함하는지를 판단할 수 있다. 만약 제1 음성이 제1 명령어를 포함하지 않는 것으로 판단되면 제2 음성 인식부(223)는 음성 인식을 종료한다.

또한 제2 음성이 제2 명령어를 포함하는 것으로 판단되면 제2 음성 인식부(223)는 음성 인식 결과를 제어부(210)로 전달하고, 제어부(210)는 제2 명령어에 대응하는 동작을 수행할 수 있다. 만약 제2 음성이 제2 명령어를 포함하지 않는 것으로 판단되면 제2 음성 인식부(223)는 음성 인식을 종료한다.

제3 음성 인식 프로세서(190)는 제3 전처리부(310), 제3 음성 인식 모델 저장부(320), 제3 음성 인식부(330)를 포함할 수 있다.

제3 전처리부(310)는 제3 음성 인식부(330)에서 음성 인식을 수행하기 전에 음성 신호를 수정하여 제3 음성 인식부(330)로 출력한다. 상기 제3 전처리부(310)는 선택적으로 구현될 수 있으며, 구현에 따라 생략 가능하다.

제3 음성 인식 모델 저장부(320)는 제3 레벨의 음성을 인식할 수 있는 제3 레벨 음성 인식 알고리즘이 포함된 제3 음성 인식 모델을 저장한다.

제3 음성 인식부(330)는 제3 음성 인식 모델을 이용하여 제2 음성을 인식하고, 인식된 제2 음성이 제2 명령어 또는/및 제3 명령어를 포함하는지를 판단할 수 있다. 제2 음성이 제2 명령어 또는/및 제3 명령어를 포함하는 것으로 판단되면 제3 음성 인식부(330)는 음성 인식 결과를 제2 음성 인식 프로세서(180)로 전달할 수 있다. 만약 제2 음성이 제2 명령어 또는/및 제3 명령어를 포함하지 않는 것으로 판단되면 제3 음성 인식부(330)는 음성 인식을 종료한다.

이후 제2 음성 인식 프로세서(180)는 제2 명령어 또는/및 제3 명령어에 대응하는 동작을 수행할 수 있다.

본 발명의 다양한 실시 예에 따르면 제1 음성 인식 프로세서(170)과 제2 음성 인식 프로세서(180)을 포함하고, 외부 전자 장치(140)는 제3 음성 인식 프로세서(190)을 포함할 수 있다.

제1 음성 인식부(113)는 제1 음성 인식 모델을 이용하여 제1 음성을 인식하고, 인식된 제1 음성에 제1 명령어를 포함하는지를 판단할 수 있다. 제1 음성에 제1 명령어를 포함하는 것으로 판단되면 제1 음성 인식부(113)는 입력되는 제2 음성을 제3 음성 인식 모듈(190)로 전달할 수 있다. 만약 제1 음성 인식부(113)는 제1 음성에 제1 명령어가 포함하지 않은 것으로 판단되면 제1 음성을 제2 음성 인식 프로세서(180)로 전달할 수 있다.

제어부(210)는 제1 음성이 수신되면 제2 전처리부(221)로 제1 음성을 전달하고, 제2 음성 인식부(223)에 의해서 음성 인식 결과가 수신되면 음성 인식 결과에 대응하는 동작을 수행할 수 있다.

제2 음성 인식 모델 저장부(222)는 제2 레벨의 음성을 인식할 수 있는 제2 레벨 음성 인식 알고리즘이 포함된 제2 음성 인식 모델을 저장한다.

다양한 실시예에 따르면 제2 음성 인식부(223)는 제1 음성이 제1 명령어를 포함하지 않는 것으로 판단되면 제2 음성 인식부(223)는 제1 음성이 제2 명령어를 포함하는지를 판단할 수 있다. 만약 제1 음성이 제2 명령어를 포함하는 것으로 판단되면 제2 음성 인식부(223)는 제어부(210)로 음성 인식 결과를 전달할 수 있다.

본 발명의 실시 예에 따른 전처리부(800)는 적응 반향 제거부(Adaptive Echo Canceller, AEC)(801), 노이즈 억제부(Noise Suppression, NS)(802), 끝점 검출부(End-Point Detection, EPD)(803), 자동 이득 제어부(Automatic Gain Control, AGC)(804)를 포함할 수 있다.

적응 반향 제거부(801)는 마이크(510)로부터 입력된 음성 신호에서 기준 신호를 기반으로 에코(echo)를 제거하는 동작을 수행한다. 예를 들어, 제2 음성 인식 프로세서(200)에 의해서 통화, 링톤, 뮤직 플레이어, 카메라 등과 같이 소리를 출력하는 어플리케이션이 실행될 시 음성 신호가 입력되면 적응 반향 제거부(801)는 입력된 음성 신호에서 어플리케이션 실행에 의해서 함께 입력되는 에코를 제거하여 음성 인식부(820)로 전달할 수 있다.

노이즈 억제부(802)는 입력된 음성 신호로부터 노이즈를 억제하는 동작을 수행한다.

끝점 검출부(803)는 입력된 음성 신호에서 실제로 음성이 존재하는 부분을 찾기 위해서 음성의 끝점을 검출하는 동작을 수행한다.

자동 이득 제어부(804)는 입력된 음성 신호의 전파 강도가 변동하더라도 자동적으로 양호한 음성 신호를 수신하도록 하는 동작을 수행한다.

이러한 각 구성들은 저전력으로 동작하기 위해서 제1 전처리부(111)에서는 각 구성들이 포함되지 않을 수 있고, 제2 전처리부(221)에서는 음성 인식 성능을 높이기 위해서 모든 구성들이 포함될 수도 있다. 본 발명의 실시 예에서는 이에 한정되지 않으며, 각 구성들이 다양하게 포함되거나 제외될 수도 있다.

본 발명의 다양한 실시 예들에 따르면 제1 음성 인식 프로세서(170)는 저전력 프로세서로 구현될 수 있다. 상기 제2 음성 인식 프로세서(200)가 휴면 모드인 경우에도 제1 음성 인식 프로세서(170)는 음성 신호의 입력을 대기할 수 있다. 여기서, 휴면 모드는 전원이 공급되지 않은 상태를 의미하며, 전자 장치(101)의 화면에 꺼지고, 필요한 구성 요소만을 동작하도록 최소의 전력만을 공급하는 상태일 수 있다.

마이크(130)로부터 음성이 입력되면 제1 음성 인식 프로세서(100)의 제1 음성 인식부(113)는 입력된 음성에 대한 음성 인식을 수행한다. 만약 입력된 음성이 제2 음성 인식 프로세서(180)를 활성화하기 위한 명령어를 포함하는 경우 제1 음성 인식부(113)는 제2 음성 인식 프로세서(180)를 활성화하기 위한 신호를 제어부(210)로 전달한다. 이후 제어부(210)는 제2 음성 인식 처리부(220)를 활성화하여 음성 인식을 수행할 수 있다.

제2 프로세서(200)가 활성화 상태인 경우에도 제어부(210)는 제1 음성 인식 프로세서(170)를 통해서 음성 인식을 수행할 수 있는데, 어플리케이션 정보, 오디오 관리부(230)로부터 수신된 정보 등을 이용하여 제1 음성 인식 프로세서(170)의 동작을 제어하거나 제1 음성 인식 처리부(110) 및 제2 음성 인식 처리부(220)의 동작을 제어할 수 있다.

본 발명의 다양한 실시 예에 따르면 전자 장치(101)는 음성이 수신되면 제1 음성 인식 프로세서(170)에 의해서 음성 인식을 수행하고, 오디오 모듈, 스피커, 오디오 관리부 등과 같이 오디오 신호를 처리하는 오디오 처리부의 동작을 기반으로 제1 음성 인식 프로세서(170)의 음성 인식을 중단하고, 제2 음성 인식 프로세서(180)에 의해서 음성 인식을 수행할 수 있다.

본 발명의 다양한 실시 예에서는 스피커로부터 오디오 신호가 출력되는지에 따라 저전력으로 동작하는 프로세서 및 고성능의 프로세서 중 어느 하나를 선택하여 음성 인식을 수행할 수 있다.

예를 들어, 소리가 출력되는 어플리케이션 또는 프로그램이 동작될 경우 음성 인식을 위한 음성 신호가 입력되면 스피커에서 출력되는 소리가 에코가 되어 마이크에 유입되고, 이에 따라 입력되는 음성 신호가 왜곡되기 때문에 고성능의 프로세서를 이용하여 음성 인식을 수행할 수 있다.

900단계에서 제어부(210)는 음성이 입력되면 910단계로 진행하여 제1 음성 인식 프로세서(170)를 비활성화하고, 음성이 입력되지 않으면 930단계로 진행한다. 여기서 비활성화는 제1 음성 인식 프로세서(170) 내에 제1 음성 인식 처리부(110)로 전원 공급을 중단하여 제1 음성 인식 처리부(110)의 음성 인식을 중단시키는 동작을 의미한다. 다양한 실시 예에 따르면, 제어부(210)는 스피커(410)에서 음성이 출력되는지 여부를 판단하도록 오디오 관리부(230)를 제어한다.

910단계에서 920단계로 진행한 제어부(210)는 제2 음성 인식 프로세서(180)의 제2 음성 인식 처리부(220)를 통해서 음성 인식을 수행한다.

930단계에서 제어부(210)는 제2 음성 인식 프로세서(180)의 제2 음성 인식 처리부(220) 및 오디오 모듈(420)의 상태를 비활성화한다. 다시 말해서, 제어부(210)는 제2 음성 인식 처리부(220) 및 오디오 모듈(420)으로 전원 공급을 중단하여 휴면 상태로 전환시킨다. 즉, 제어부(210)는 제2 음성 인식 처리부(220) 및 오디오 모듈(420)에서의 음성 인식 동작을 중단시킬 수 있다.

940단계에서 제어부(210)는 제1 음성 인식 프로세서(170)를 통해서 음성 인식을 수행한다.

본 발명의 다양한 실시 예에 따르면 1000단계에서 제어부(210)는 음성이 입력되는지 여부를 판단하여 음성이 입력되면 1010단계로 진행하고, 음성이 입력되지 않으면 720단계로 진행한다.

1010단계에서 제어부(210)는 제2 음성 인식 처리부(220)를 통해서 음성 인식을 수행한다.

1020단계에서 제어부(210)는 제2 음성 인식 처리부(220)를 비활성화하고, 730단계에서 제1 음성 인식 프로세서(170)를 활성화한다. 본 발명의 다양한 실시예에 따르면 활성화는 휴면 상태의 제1 음성 인식 프로세서(170)로 전원을 공급하여 제1 음성 인식 프로세서(170)의 음성 인식 동작을 수행할 수 있는 상태로 전환하는 것을 의미한다. 다시 말해서, 활성화는 제1 음성 인식 프로세서(170) 내의 제1 음성 인식 처리부(110)의 음성 인식 동작을 수행할 수 있는 상태를 의미한다.

1040단계에서 제어부(210)는 제1 음성 인식 프로세서(170)를 통해서 음성 인식을 수행한다.

본 발명의 다양한 실시예에 다르면 1100단계에서 제어부(210)는 오디오를 출력하는 어플리케이션이 실행 중인지 판단하여 오디오를 출력하는 어플리케이션이 실행 중이면 1110단계로 진행하고, 오디오를 출력하는 어플리케이션이 실행되지 않으면 1120단계로 진행한다. 여기서, 제어부(210)는 오디오를 출력하는 어플리케이션이 실행중이면 스피커로 소리가 출력됨을 판단할 수 있다.

1110단계에서 제어부(210)는 제2 음성 인식 처리부(220)를 통해서 음성 인식을 수행한다.

1120단계에서 제어부(210)는 제2 음성 인식 처리부(220)를 비활성화하고, 1130단계에서 제1 음성 인식 프로세서(170)를 활성화한다.

1140단계에서 제어부(210)는 활성화된 제1 음성 인식 프로세서(170)를 통해서 음성 인식을 수행한다.

본 발명의 다양한 실시예에 따르면 1200단계에서 제어부(210)는 오디오 모듈(420)이 활성화되는지를 판단하여 오디오 모듈(420)이 활성화되면 1210단계로 진행하고, 오디오 모듈(420)이 활성화되지 않으면 1220단계로 진행한다. 여기서, 오디오 모듈(420)의 활성화는 오디오 모듈(420)이 동작하고 있는 상태를 의미할 수 있다.

1210단계에서 제어부(210)는 제2 음성 인식 처리부(220)를 통해서 음성 인식을 수행한다.

1220단계에서 제어부(210)는 제2 음성 인식 처리부(220)를 비활성화하고, 1230단계에서 제1 프로세서(100)를 활성화한다.

1240단계에서 제어부(210)는 제1 음성 인식 프로세서(170)를 통해서 음성 인식을 수행한다.

예를 들어, 활성화를 위한 웨이크업 명령어(wake-up command)로 “Hi Galaxy”라는 음성이 미리 정해진 경우 제어부(210)는 마이크(400)로부터 “Hi Galaxy”라는 음성이 수신되면 특정 음성 인식 프로세서를 활성화할 수 있다. 이후 제어부(210)는 활성화된 음성 인식 프로세서를 이용하여 추가적인 음성 인식을 수행하거나 특정 음성 인식 프로세서의 동작을 중지 또는 시작할 수 있다. 이러한 음성은 제1 음성 인식 프로세서(170)의 제1 음성 인식부(110)에서 인식되거나 제2 음성 인식 프로세서(180)의 제2 음성 인식부(220)에서 인식될 수 있다.

또한 음악을 재생하는 어플리케이션 또는 프로그램이 동작될 시 스피커(410)에서 출력되는 오디오가 에코가 되어 마이크에 유입되면 마이크(400)로 입력되는 음성 입력 신호가 왜곡될 수 있다. 기본적으로 제1 음성 인식 프로세서(170)를 통해서 음성인식을 수행하는 제어부(210)는 스피커(410)로 오디오가 출력되는지 판단하여 스피커(410)로 오디오가 출력되면 제1 음성 인식 프로세서(170)를 비활성화하고, 제2 음성 인식 처리부(220)를 활성화할 수 있다. 본 발명의 다양한 실시예에 따르면, 제어부(210)는 음악 재생 어플리케이션이 동작되는지 또는 오디오 모듈(420)이 활성화되는지를 판단하기 위해 스피커(410)로 오디오가 출력되는지를 판단할 수 있다.

이후 제2 전처리부(221)는 입력된 음성의 왜곡을 억제시키기 위한 AEC 등과 같은 신호 처리를 수행하여 정제된 음성을 제2 음성 인식부(223)로 전달한다.

1300단계에서 제1 음성 인식 프로세서(170) 및 제2 음성 인식 프로세서(180)는 마이크(400)로부터 제1 음성을 수신할 수 있다.

1301단계에서 제1 음성 인식 프로세서(170)는 제1 음성을 인식하고, 제1 음성이 제1 명령어를 포함하는지를 판단하여 제1 음성이 제1 명령어를 포함하면 1302단계로 진행하고, 제1 음성이 제1 명령어를 포함하지 않으면 제1 음성 인식 프로세서(170)는 음성 인식을 종료한다.

1302단계에서 제1 음성 인식 프로세서(170)는 제2 음성이 수신되는지 판단하여 제2 음성이 수신되면 1303단계로 진행하고, 제2 음성이 수신되지 않으면 음성 인식을 종료한다.

1303단계에서 제1 음성 인식 프로세서(170)는 수신된 제2 음성을 제3 음성 인식 프로세서(190)로 전달한 후 음성 인식을 종료한다. 이에 따라 제3 음성 인식 프로세서(190)는 제2 음성을 수신하여 인식한 후 인식 결과를 제1 음성 인식 프로세서(170) 또는 제2 음성 인식 프로세서(180)로 전달할 수 있으며, 제1 음성 인식 프로세서(170) 또는 제2 음성 인식 프로세서(180)는 인식 결과에 대응하는 동작을 수행할 수 있다.

1304단계에서 제2 음성 인식 프로세서(180)는 제1 음성을 인식하고, 제1 음성이 제1 명령어를 포함하는지를 판단하여 제1 음성이 제1 명령어를 포함하면 1305단계로 진행하고, 제1 음성이 제1 명령어를 포함하지 않으면 음성 인식을 종료한다.

1305단계에서 제2 음성 인식 프로세서(180)는 제2 음성이 수신되는지 판단하여 제2 음성이 수신되면 1306단계로 진행하고, 제2 음성이 수신되지 않으면 음성 인식을 종료한다.

1306단계에서 제2 음성 인식 프로세서(180)는 수신된 제2 음성을 인식하고, 제2 음성에 제2 명령어가 포함되면 1307단계로 진행하여 제2 명령어에 해당하는 동작을 수행할 수 있다.

전자 장치를 이용한 방법은, 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작; 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하는 동작; 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식하는 동작; 및 상기 인식된 제2 음성을 기반으로 연관된 동작을 포함할 수 있다.

1400단계에서 제1 음성 인식 프로세서(170)는 마이크(400)로부터 제1 음성을 수신할 수 있다.

1401단계에서 제1 음성 인식 프로세서(170)는 제1 음성을 인식하고, 제1 음성이 제1 명령어를 포함하는지를 판단하여 제1 음성이 제1 명령어를 포함하면 1402단계로 진행하고, 제1 음성이 제1 명령어를 포함하지 않으면 1404단계로 진행할 수 있다.

1402단계에서 제1 음성 인식 프로세서(170)는 제2 음성이 수신되는지 판단하여 제2 음성이 수신되면 1303단계로 진행하고, 제2 음성이 수신되지 않으면 음성 인식을 종료한다.

1403단계에서 제1 음성 인식 프로세서(170)는 수신된 제2 음성을 제3 음성 인식 프로세서(190)로 전달한 후 음성 인식을 종료한다. 이에 따라 제3 음성 인식 프로세서(190)는 제2 음성을 수신하여 인식한 후 인식 결과를 제1 음성 인식 프로세서(170) 또는 제2 음성 인식 프로세서(180)로 전달할 수 있으며, 제1 음성 인식 프로세서(170) 또는 제2 음성 인식 프로세서(180)는 인식 결과에 대응하는 동작을 수행할 수 있다.

1404단계에서 제2 음성 인식 프로세서(180)는 제1 음성을 인식하고, 제1 음성이 제1 명령어를 포함하는지를 판단하여 제1 음성이 제1 명령어를 포함하면 1405단계로 진행하고, 제1 음성이 제1 명령어를 포함하지 않으면 음성 인식을 종료한다.

1405단계에서 제2 음성 인식 프로세서(180)는 제2 음성이 수신되는지 판단하여 제2 음성이 수신되면 1406단계로 진행하고, 제2 음성이 수신되지 않으면 음성 인식을 종료한다.

1406단계에서 제2 음성 인식 프로세서(180)는 수신된 제2 음성을 인식하고, 제2 음성에 제2 명령어가 포함되면 1407단계로 진행하여 제2 명령어에 해당하는 동작을 수행할 수 있다.

1500단계에서 제1 음성 인식 프로세서(170)는 특정 어플리케이션을 실행할 수 있다.

1501단계에서 제1 음성 인식 프로세서(170)는 마이크(400)로부터 제1 음성을 수신할 수 있다.

1502단계에서 제1 음성 인식 프로세서(170)는 실행중인 어플리케이션에 관하여 음성 인식이 가능한지 판단하고, 음성 인식이 가능하면 1503단계로 진행하고, 음성 인식이 가능하지 않으면 1507단계로 진행할 수 있다.

1503단계에서 제1 음성 인식 프로세서(170)는 제1 음성을 인식하고, 제1 음성이 제1 명령어를 포함하는지를 판단하여 제1 음성이 제1 명령어를 포함하면 1504단계로 진행하고, 제1 음성이 제1 명령어를 포함하지 않으면 1505단계로 진행할 수 있다.

1504단계에서 제1 음성 인식 프로세서(170)는 제2 음성이 수신되면 수신된 제2 음성을 제3 음성 인식 프로세서(190)로 전달할 수 있다.

1505단계에서 제1 음성 인식 프로세서(170)는 제1 음성을 인식하고, 제1 음성이 제3 명령어를 포함하는지 판단하여 제1 음성이 제3 명령어를 포함하면 1506단계를 진행하고, 제1 음성이 제3 명령어를 포함하지 않으면 음성 인식을 종료한다.

1506단계에서 제1 음성 인식 프로세서(170)는 제3 명령어에 해당하는 동작을 수행할 수 있다.

1507단계에서 제2 음성 인식 프로세서(180)는 실행중인 어플리케이션에 관하여 음성 인식을 수행할 수 있다.

1508단계에서 제2 음성 인식 프로세서(180)는 제1 음성을 인식하고, 제1 음성이 제1 명령어를 포함하는지 판단하여 제1 음성이 제1 명령어를 포함하면 1509단계로 진행하고, 제1 음성이 제1 명령어를 포함하지 않으면 a 단계에서 1505단계 및 1506단계를 진행할 수 있다.

1509단계에서 제2 음성 인식 프로세서(180)는 제2 음성이 수신되면 제2 음성이 제2 명령어를 포함하는지 판단하여 제2 음성이 제2 명령어를 포함하면 1510단계에서 제2 명령어에 해당하는 동작을 수행할 수 있다.

1600단계에서 제3 음성 인식 프로세서(190)는 제2 음성을 인식한다.

1601단계에서 제3 음성 인식 프로세서(190)는 미리 설정된 명령어들 중에서 제2 음성과 관련된 명령어가 존재하는지 판단하여 제2 음성과 관련된 명령어가 존재하면 1602단계로 진행하고, 제2 음성과 관련된 명령어가 존재하지 않으면 1603단계로 진행할 수 있다. 예를 들어, 제3 음성 인식 프로세서(190)는 인식된 제2 음성이 “Begin”인 경우 “Begin”과 관련된 명령어 또는/및 “Begin”과 유사한 명령어가 존재하는지 판단할 수 있다.

1602단계에서 제3 음성 인식 프로세서(190)는 해당 명령어와 인식된 제2 음성을 대응시켜 제2 음성 인식 모델 저장부(222)를 업데이트할 수 있다.

만약 동영상을 재생할 수 있는 동영상 플레이어 어플리케이션 기능 중 동영상 재생을 시작하기 위한 명령어가 “Start”로 설정된 경우 제3 음성 인식 프로세서(190)는 인식된 “Begin”과 관련된 또는/및 유사한 명령어가 “Start”로 판단되면 인식된 “Begin”와 “Start”를 대응시켜 제2 음성 인식 모델 저장부(222)에 업데이트할 수 있다. 다시 말해서, 제3 음성 인식 프로세서(190)는 동영상을 재생할 수 있는 동영상 플레이어 어플리케이션 기능 중 동영상 재생을 시작하기 위한 명령어에 “Start” 뿐만 아니라 “Begin”을 더 추가하여 저장할 수 있다.

1603단계에서 제3 음성 인식 프로세서(190)는 제2 음성과 관련된 명령어가 존재하지 않으면 제2 음성과 관련된 장치 기능이 존재하는지 판단하여 제2 음성과 관련된 장치 기능이 존재하면 1604로 진행하고, 제2 음성과 관련된 장치 기능이 존재하지 않으면 명령어 업데이트 동작을 종료한다. 예를 들어, 동영상 플레이어 어플리케이션이 실행되고 있고, 제2 음성이 “stop”인 경우 제3 음성 인식 프로세서(190)는 멈춤과 관련된 동영상 플레이어 기능이 있는지 판단할 수 있다.

1604단계에서 제3 음성 인식 프로세서(190)는 해당 장치 기능과 인식된 제2 음성을 대응시켜 제2 음성 인식 모델 저장부(222)를 업데이트할 수 있다. 예를 들어, “stop”에 관련된 동영상 플레이어 기능이 “재생 멈춤”인 경우 제3 음성 인식 프로세서(190)는 “재생 멈춤” 기능을 수행하기 위한 명령어로 “stop”을 설정하여 저장할 수 있다.

다양한 실시 예에 따르면 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서는 임의의 어플리케이션이 실행되는 상황 또는/및 전자 장치가 휴면 모드인 상황에서도 음성 인식을 할 수 있다. 대기 전력의 소모를 줄이기 위해서 휴면 모드 시 제1 음성 인식 프로세서, 제2 음성 인식 프로세서, 제3 음성 인식 프로세서는 웨이크 업 명령어(예, “Hi Galaxy”)만을 인식할 수 있지만 휴면 모드가 아닌 경우 모든 명령어를 인식할 수 있다.

다양한 실시 예에 따르면 임의의 어플리케이션이 실행되는 동안 “Hi Galaxy”가 수신되면 제1 음성 인식 프로세서(170) 및/또는 제2 음성 인식 프로세서(180)는 자연어 음성 인식이 가능한 어플리케이션을 수행하고, 수신된 “Hi Galaxy”를 인식할 수 있다. 이후 “open camera”가 수신되면 제1 음성 인식 프로세서(170)는 입력된 “open camera”를 제3 음성 인식 프로세서(190)로 전달하고, 제3 음성 인식 프로세서(190)에서 인식 결과가 수신되면 인식 결과에 따라 카메라 어플리케이션을 실행할 수 있다. 또한 제2 음성 인식 프로세서(180)는 수신된 “open camera”를 인식하여 카메라 어플리케이션을 실행할 수 있다.

다양한 실시 예에 따르면 제2 음성 인식 프로세서에 의해서 실행되는 음악 플레이어 어플리케이션이 실행되는 동안 “Hi Galaxy”가 수신되면 제1 음성 인식 프로세서(170) 및/또는 제2 음성 인식 프로세서(180)는 자연어 음성 인식이 가능한 어플리케이션을 수행하고, 수신된 “Hi Galaxy”를 인식할 수 있다. 이후 “open camera”가 수신되면 제1 음성 인식 프로세서(170)는 입력된 “open camera”를 제3 음성 인식 프로세서(190)로 전달하고, 제3 음성 인식 프로세서(190)에서 인식 결과가 수신되면 인식 결과에 따라 카메라 어플리케이션을 실행할 수 있다. 또한 제2 음성 인식 프로세서(180)는 수신된 “open camera”를 인식하여 카메라 어플리케이션을 실행할 수 있다.

만약 음악 플레이어 어플리케이션을 제어하기 위한 지정된 명령어인 “play”, “pause”, “next” 등이 입력되면 제2 음성 인식 프로세서(180)는 이를 인식하여 관련된 음악 플레이어 어플리케이션의 기능을 수행할 수 있다.

도 17은 다양한 실시예들에 따른 전자 장치(1701)의 블록도(1700)를 도시한다.

본 발명의 다양한 실시 예에 따르면 상기 전자 장치(1701)는, 예를 들면, 도 1에 도시된 전자 장치(101)의 전체 또는 일부를 구성할 수 있다. 도 17을 참조하면, 상기 전자 장치(1701)는 하나 이상의 어플리케이션 프로세서(AP: application processor)(1710), 통신 모듈(1720), SIM(subscriber identification module) 카드(1724), 메모리(1730), 센서 모듈(1740), 입력 장치(1750), 디스플레이(1760), 인터페이스(1770), 오디오 모듈(1780), 카메라 모듈(1791), 전력관리 모듈(1795), 배터리(1796), 인디케이터(1797) 및 모터(1798)를 포함할 수 있다.

상기 AP(1710)는 운영체제 또는 응용 프로그램을 구동하여 상기 AP(1710)에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 멀티미디어 데이터를 포함한 각종 데이터 처리 및 연산을 수행할 수 있다. 상기 AP(1710)는, 예를 들면, SoC(system on chip)로 구현될 수 있다. 한 실시예에 따르면, 상기 AP(1710)는 GPU(graphic processing unit, 미도시)를 더 포함할 수 있다.

상기 통신 모듈(1720)(예: 상기 통신 인터페이스(160))은 상기 전자 장치(1701)(예: 상기 전자 장치(101))와 네트워크를 통해 연결된 다른 전자 장치들(예: 전자 장치(104) 또는 서버(106)) 간의 통신에서 데이터 송수신을 수행할 수 있다. 한 실시예에 따르면, 상기 통신 모듈(1720)은 셀룰러 모듈(1721), Wifi 모듈(1723), BT 모듈(1725), GPS 모듈(1727), NFC 모듈(1728) 및 RF(radio frequency) 모듈(1729)을 포함할 수 있다.

상기 셀룰러 모듈(1721)은 통신망(예: LTE, LTE-A, CDMA, WCDMA, UMTS, WiBro 또는 GSM 등)을 통해서 음성 통화, 영상 통화, 문자 서비스 또는 인터넷 서비스 등을 제공할 수 있다. 또한 상기 셀룰러 모듈(1721)은, 예를 들면, 가입자 식별 모듈(예: SIM 카드(1724))을 이용하여 통신 네트워크 내에서 전자 장치의 구별 및 인증을 수행할 수 있다. 한 실시예에 따르면, 상기 셀룰러 모듈(1721)은 상기 AP(1710)가 제공할 수 있는 기능 중 적어도 일부 기능을 수행할 수 있다. 예를 들면, 상기 셀룰러 모듈(1721)은 멀티미디어 제어 기능의 적어도 일부를 수행할 수 있다.

한 실시예에 따르면, 상기 셀룰러 모듈(1721)은 커뮤니케이션 프로세서(CP: communication processor)를 포함할 수 있다. 또한 상기 셀룰러 모듈(1721)은, 예를 들면, SoC로 구현될 수 있다. 도 8에서는 상기 셀룰러 모듈(1721)(예: 커뮤니케이션 프로세서), 상기 메모리(1730) 또는 상기 전력관리 모듈(1795) 등의 구성요소들이 상기 AP(1710)와 별개의 구성요소로 도시되어 있으나, 한 실시예에 따르면, 상기 AP(1710)가 전술한 구성요소들의 적어도 일부(예: 셀룰러 모듈(1721))를 포함하도록 구현될 수 있다.

한 실시예에 따르면, 상기 AP(1710) 또는 상기 셀룰러 모듈(1721)(예: 커뮤니케이션 프로세서)은 각각에 연결된 비휘발성 메모리 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리할 수 있다. 또한 상기 AP(1710) 또는 상기 셀룰러 모듈(1721)은 다른 구성요소 중 적어도 하나로부터 수신하거나 다른 구성요소 중 적어도 하나에 의해 생성된 데이터를 비휘발성 메모리에 저장(store)할 수 있다.

상기 Wifi 모듈(1723), 상기 BT 모듈(1725), 상기 GPS 모듈(1727) 또는 상기 NFC 모듈(1728) 각각은, 예를 들면, 해당하는 모듈을 통해서 송수신되는 데이터를 처리하기 위한 프로세서를 포함할 수 있다. 도 8에서는 셀룰러 모듈(1721), Wifi 모듈(1723), BT 모듈(1725), GPS 모듈(1727) 또는 NFC 모듈(1728)이 각각 별개의 블록으로 도시되었으나, 한 실시예에 따르면, 셀룰러 모듈(1721), Wifi 모듈(1723), BT 모듈(1725), GPS 모듈(1727) 또는 NFC 모듈(1728) 중 적어도 일부(예: 두 개 이상)는 하나의 integrated chip(IC) 또는 IC 패키지 내에 포함될 수 있다. 예를 들면, 셀룰러 모듈(1721), Wifi 모듈(1723), BT 모듈(1725), GPS 모듈(1727) 또는 NFC 모듈(1728) 각각에 대응하는 프로세서들 중 적어도 일부(예: 셀룰러 모듈(1721)에 대응하는 커뮤니케이션 프로세서 및 Wifi 모듈(1723)에 대응하는 Wifi 프로세서)는 하나의 SoC로 구현될 수 있다.

상기 RF 모듈(1729)은 데이터의 송수신, 예를 들면, RF 신호의 송수신을 할 수 있다. 상기 RF 모듈(1729)은, 도시되지는 않았으나, 예를 들면, 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter) 또는 LNA(low noise amplifier) 등을 포함할 수 있다. 또한, 상기 RF 모듈(1729)은 무선 통신에서 자유 공간 상의 전자파를 송수신하기 위한 부품, 예를 들면, 도체 또는 도선 등을 더 포함할 수 있다. 도 8에서는 셀룰러 모듈(1721), Wifi 모듈(1723), BT 모듈(1725), GPS 모듈(1727) 및 NFC 모듈(1728)이 하나의 RF 모듈(1729)을 서로 공유하는 것으로 도시되어 있으나, 한 실시예에 따르면, 셀룰러 모듈(1721), Wifi 모듈(1723), BT 모듈(1725), GPS 모듈(1727) 또는 NFC 모듈(1728) 중 적어도 하나는 별개의 RF 모듈을 통하여 RF 신호의 송수신을 수행할 수 있다.

상기 SIM 카드(1724)는 가입자 식별 모듈을 포함하는 카드일 수 있으며, 전자 장치의 특정 위치에 형성된 슬롯에 삽입될 수 있다. 상기 SIM 카드(1724)는 고유한 식별 정보(예: ICCID(integrated circuit card identifier)) 또는 가입자 정보(예: IMSI(international mobile subscriber identity))를 포함할 수 있다.

상기 메모리(1730)(예: 상기 메모리(130))는 내장 메모리(1732) 또는 외장 메모리(1734)를 포함할 수 있다. 상기 내장 메모리(1732)는, 예를 들면, 휘발성 메모리(예를 들면, DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등) 또는 비휘발성 메모리(non-volatile Memory, 예를 들면, OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAND flash memory, NOR flash memory 등) 중 적어도 하나를 포함할 수 있다.

한 실시예에 따르면, 상기 내장 메모리(1732)는 Solid State Drive (SSD)일 수 있다. 상기 외장 메모리(1734)는 flash drive, 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 등을 더 포함할 수 있다. 상기 외장 메모리(1734)는 다양한 인터페이스를 통하여 상기 전자 장치(1701)과 기능적으로 연결될 수 있다. 한 실시예에 따르면, 상기 전자 장치(1701)는 하드 드라이브와 같은 저장 장치(또는 저장 매체)를 더 포함할 수 있다.

상기 센서 모듈(1740)은 물리량을 계측하거나 전자 장치(1701)의 작동 상태를 감지하여, 계측 또는 감지된 정보를 전기 신호로 변환할 수 있다. 상기 센서 모듈(1740)은, 예를 들면, 제스처 센서(1740A), 자이로 센서(1740B), 기압 센서(1740C), 마그네틱 센서(1740D), 가속도 센서(1740E), 그립 센서(1740F), 근접 센서(1740G), color 센서(1740H)(예: RGB(red, green, blue) 센서), 생체 센서(1740I), 온/습도 센서(1740J), 조도 센서(1740K) 또는 UV(ultra violet) 센서(1740M) 중의 적어도 하나를 포함할 수 있다. 추가적으로 또는 대체적으로, 상기 센서 모듈(1740)은, 예를 들면, 후각 센서(E-nose sensor, 미도시), EMG 센서(electromyography sensor, 미도시), EEG 센서(electroencephalogram sensor, 미도시), ECG 센서(electrocardiogram sensor, 미도시), IR(infra red) 센서(미도시), 홍채 센서(미도시) 또는 지문 센서(미도시) 등을 포함할 수 있다. 상기 센서 모듈(1740)은 그 안에 속한 적어도 하나 이상의 센서들을 제어하기 위한 제어 회로를 더 포함할 수 있다.

상기 입력 장치(1750)는 터치 패널(touch panel)(1752), (디지털) 펜 센서(pen sensor)(1754), 키(key)(1756) 또는 초음파(ultrasonic) 입력 장치(1758)를 포함할 수 있다. 상기 터치 패널(1752)은, 예를 들면, 정전식, 감압식, 적외선 방식 또는 초음파 방식 중 적어도 하나의 방식으로 터치 입력을 인식할 수 있다. 또한, 상기 터치 패널(1752)은 제어 회로를 더 포함할 수도 있다. 정전식의 경우, 물리적 접촉 또는 근접 인식이 가능하다. 상기 터치 패널(1752)은 택타일 레이어(tactile layer)를 더 포함할 수도 있다. 이 경우, 상기 터치 패널(1752)은 사용자에게 촉각 반응을 제공할 수 있다.

상기 (디지털) 펜 센서(1754)는, 예를 들면, 사용자의 터치 입력을 받는 것과 동일 또는 유사한 방법 또는 별도의 인식용 쉬트(sheet)를 이용하여 구현될 수 있다. 상기 키(1756)는, 예를 들면, 물리적인 버튼, 광학식 키 또는 키패드를 포함할 수 있다. 상기 초음파(ultrasonic) 입력 장치(1758)는 초음파 신호를 발생하는 입력 도구를 통해, 전자 장치(1701)에서 마이크(예: 마이크(1788))로 음파를 감지하여 데이터를 확인할 수 있는 장치로서, 무선 인식이 가능하다. 한 실시예에 따르면, 상기 전자 장치(1701)는 상기 통신 모듈(1720)를 이용하여 이와 연결된 외부 장치(예: 컴퓨터 또는 서버)로부터 사용자 입력을 수신할 수도 있다.

상기 디스플레이(1760)(예: 상기 디스플레이(150))은 패널(1762), 홀로그램 장치(1764) 또는 프로젝터(1766)을 포함할 수 있다. 상기 패널(1762)은, 예를 들면, LCD(liquid-crystal display) 또는 AM-OLED(active-matrix organic light-emitting diode) 등일 수 있다. 상기 패널(1762)은, 예를 들면, 유연하게(flexible), 투명하게(transparent) 또는 착용할 수 있게(wearable) 구현될 수 있다. 상기 패널(1762)은 상기 터치 패널(1752)과 하나의 모듈로 구성될 수도 있다. 상기 홀로그램 장치(1764)는 빛의 간섭을 이용하여 입체 영상을 허공에 보여줄 수 있다. 상기 프로젝터(1766)는 스크린에 빛을 투사하여 영상을 표시할 수 있다. 상기 스크린은, 예를 들면, 상기 전자 장치(1701)의 내부 또는 외부에 위치할 수 있다. 한 실시예에 따르면, 상기 디스플레이(1760)은 상기 패널(1762), 상기 홀로그램 장치(1764), 또는 프로젝터(1766)를 제어하기 위한 제어 회로를 더 포함할 수 있다.

상기 인터페이스(1770)는, 예를 들면, HDMI(high-definition multimedia interface)(1772), USB(universal serial bus)(1774), 광 인터페이스(optical interface)(1776) 또는 D-sub(D-subminiature)(1778)를 포함할 수 있다. 상기 인터페이스(1770)는, 예를 들면, 도 1에 도시된 통신 인터페이스(160)에 포함될 수 있다. 추가적으로 또는 대체적으로, 상기 인터페이스(1770)는, 예를 들면, MHL(mobile high-definition link) 인터페이스, SD(secure Digital) 카드/MMC(multi-media card) 인터페이스 또는 IrDA(infrared data association) 규격 인터페이스를 포함할 수 있다.

상기 오디오 모듈(1780)은 소리(sound)와 전기신호를 쌍방향으로 변환시킬 수 있다. 상기 오디오 모듈(1780)의 적어도 일부 구성요소는, 예를 들면, 도 1 에 도시된 입출력 인터페이스(140)에 포함될 수 있다. 상기 오디오 모듈(1780)은, 예를 들면, 스피커(1782), 리시버(1784), 이어폰(1786) 또는 마이크(1788) 등을 통해 입력 또는 출력되는 소리 정보를 처리할 수 있다.

상기 카메라 모듈(1791)은 정지 영상 및 동영상을 촬영할 수 있는 장치로서, 한 실시예에 따르면, 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈(미도시), ISP(image signal processor, 미도시) 또는 플래쉬 (flash, 미도시)(예: LED 또는 xenon lamp)를 포함할 수 있다.

상기 전력 관리 모듈(1795)은 상기 전자 장치(1701)의 전력을 관리할 수 있다. 도시하지는 않았으나, 상기 전력 관리 모듈(1795)은, 예를 들면, PMIC(power management integrated circuit), 충전 IC(charger integrated circuit) 또는 배터리 또는 연료 게이지(battery or fuel gauge)를 포함할 수 있다.

상기 PMIC는, 예를 들면, 집적회로 또는 SoC 반도체 내에 탑재될 수 있다. 충전 방식은 유선과 무선으로 구분될 수 있다. 상기 충전 IC는 배터리를 충전시킬 수 있으며, 충전기로부터의 과전압 또는 과전류 유입을 방지할 수 있다. 한 실시예에 따르면, 상기 충전 IC는 유선 충전 방식 또는 무선 충전 방식 중 적어도 하나를 위한 충전 IC를 포함할 수 있다. 무선 충전 방식으로는, 예를 들면, 자기공명 방식, 자기유도 방식 또는 전자기파 방식 등이 있으며, 무선 충전을 위한 부가적인 회로, 예를 들면, 코일 루프, 공진 회로 또는 정류기 등의 회로가 추가될 수 있다.

상기 배터리 게이지는, 예를 들면, 상기 배터리(1796)의 잔량, 충전 중 전압, 전류 또는 온도를 측정할 수 있다. 상기 배터리(1796)는 전기를 저장 또는 생성할 수 있고, 그 저장 또는 생성된 전기를 이용하여 상기 전자 장치(1701)에 전원을 공급할 수 있다. 상기 배터리(1796)는, 예를 들면, 충전식 전지(rechargeable battery) 또는 태양 전지(solar battery)를 포함할 수 있다.

상기 인디케이터(1797)는 상기 전자 장치(1701) 혹은 그 일부(예: 상기 AP(1710))의 특정 상태, 예를 들면, 부팅 상태, 메시지 상태 또는 충전 상태 등을 표시할 수 있다. 상기 모터(1798)는 전기적 신호를 기계적 진동으로 변환할 수 있다. 도시되지는 않았으나, 상기 전자 장치(1701)는 모바일 TV 지원을 위한 처리 장치(예: GPU)를 포함할 수 있다. 상기 모바일 TV지원을 위한 처리 장치는, 예를 들면, DMB(digital multimedia broadcasting), DVB(digital video broadcasting) 또는 미디어플로우(media flow) 등의 규격에 따른 미디어 데이터를 처리할 수 있다.

본 발명의 다양한 실시예에 따른 전자 장치의 전술한 구성요소들 각각은 하나 또는 그 이상의 부품(component)으로 구성될 수 있으며, 해당 구성 요소의 명칭은 전자 장치의 종류에 따라서 달라질 수 있다. 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 구성요소 중 적어도 하나를 포함하여 구성될 수 있으며, 일부 구성요소가 생략되거나 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 또한 본 발명의 다양한 실시예에 따른 전자 장치의 구성 요소들 중 일부가 결합되어 하나의 개체(entity)로 구성됨으로써, 결합되기 이전의 해당 구성 요소들의 기능을 동일하게 수행할 수 있다.

본 발명의 다양한 실시예에 사용된 용어 “모듈”은, 예를 들어, 하드웨어, 소프트웨어 또는 펌웨어(firmware) 중 하나 또는 둘 이상의 조합을 포함하는 단위(unit)를 의미할 수 있다. “모듈”은 예를 들어, 유닛(unit), 로직(logic), 논리 블록(logical block), 부품(component) 또는 회로(circuit) 등의 용어와 바꾸어 사용(interchangeably use)될 수 있다. “모듈”은, 일체로 구성된 부품의 최소 단위 또는 그 일부가 될 수 있다. “모듈”은 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수도 있다. “모듈”은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들면, 본 발명의 다양한 실시예에 따른 “모듈”은, 알려졌거나 앞으로 개발될, 어떤 동작들을 수행하는 ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays) 또는 프로그램 가능 논리 장치(programmable-logic device) 중 적어도 하나를 포함할 수 있다.

다양한 실시예에 따르면, 본 발명의 다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그래밍 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어는, 하나 이상의 프로세서 (예: 상기 프로세서 210)에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 상기 메모리(130)가 될 수 있다. 상기 프로그래밍 모듈의 적어도 일부는, 예를 들면, 상기 프로세서(210)에 의해 구현(implement)(예: 실행)될 수 있다. 상기 프로그래밍 모듈 의 적어도 일부는 하나 이상의 기능을 수행하기 위한, 예를 들면, 모듈, 프로그램, 루틴, 명령어 세트 (sets of instructions) 또는 프로세스 등을 포함할 수 있다.

상기 컴퓨터로 판독 가능한 기록 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, ROM(Read Only Memory), RAM(Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령(예: 프로그래밍 모듈)을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 다양한 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

본 발명의 다양한 실시예에 따른 모듈 또는 프로그래밍 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 본 발명의 다양한 실시예에 따른 모듈, 프로그래밍 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

다양한 실시예에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은, 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작; 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하는 동작; 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식하는 동작; 및 상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 포함할 수 있다.

다양한 실시예에 따르면, 명령들을 저장하고 있는 저장 매체에 있어서, 상기 명령들은 적어도 하나의 프로세서에 의하여 실행될 때에 상기 적어도 하나의 프로세서로 하여금 적어도 하나의 동작을 수행하도록 설정된 것으로서, 상기 적어도 하나의 동작은, 임의의 어플리케이션을 실행하는 동작; 상기 어플리케이션에 대해서 상기 제1 음성 인식 장치 또는 상기 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작; 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하는 동작; 및 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하는 동작을 포함할 수 있다.

그리고 본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 실시예에 따른 기술 내용을 쉽게 설명하고 본 발명의 실시예의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 실시예의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 다양한 실시예의 범위는 여기에 개시된 실시예들 이외에도 본 발명의 다양한 실시예의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 다양한 실시예의 범위에 포함되는 것으로 해석되어야 한다.

Claims

전자 장치를 이용한 방법에 있어서,

제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작;

상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하는 동작;

상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식하는 동작; 및

상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 포함하는 방법.
제1항에 있어서,

상기 외부 전자 장치에 의해서 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 더 포함하는 방법.
제1항에 있어서,

상기 제1 음성 인식 장치에서 획득한 제1 음성에 상기 명령어가 포함되지 않는 경우 상기 제2 음성 인식 장치에서 상기 제1 음성을 획득하는 동작;

상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함되면 추가적으로 인식되는 제2 음성을 인식하는 동작; 및

상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 포함하는 방법.
제3항에 있어서,

상기 제2 음성 인식 장치에서 획득한 제2 음성에 대한 인식을 실패하면 상기 제2 음성을 상기 제3 음성 인식 장치를 통해서 인식하는 동작;

상기 제3 음성 인식 장치에 의해서 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 포함하는 방법.
전자 장치를 이용한 방법에 있어서,

임의의 어플리케이션을 실행하는 동작;

상기 어플리케이션에 대해서 상기 제1 음성 인식 장치 또는 상기 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작;

상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하는 동작; 및

상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하는 동작을 포함하는 방법.
제5항에 있어서,

상기 제2 음성 인식 장치에서 획득한 제1 음성에 상기 명령어가 포함되지 않고, 다른 명령어가 포함된 경우 상기 다른 명령어를 기반으로 관련된 동작을 수행하는 동작을 포함하는 방법.
제6항에 있어서,

상기 제3 음성 인식 장치에서 상기 제2 음성을 인식하는 동작;

미리 설정된 명령어 셋(set) 중 상기 제2 음성에 연관된 명령어가 포함된 경우 상기 제2 음성을 기반하여 상기 명령어 셋을 업데이트하는 동작을 포함하는 방법.
제7항에 있어서,

상기 명령어 셋 중 상기 제2 음성에 연관된 명령어가 포함되지 않으면 상기 제2 음성에 연관된 명령어를 상기 명령어 셋에 업데이트하는 동작을 포함하는 방법.
전자 장치에 있어서,

제1 음성을 획득하는 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나를 포함하고,

상기 제1 음성 장치에서 상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하고, 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식한 후 상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하도록 설정된 전자 장치.
제9항에 있어서, 제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나는,

상기 외부 전자 장치에 의해서 인식된 제2 음성을 기반으로 연관된 동작을 수행하도록 설정된 전자 장치.
제9항에 있어서,

상기 제1 음성 인식 장치에서 획득한 제1 음성에 상기 명령어가 포함되지 않는 경우 상기 제2 음성 인식 장치에서 상기 제1 음성을 획득하고, 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함되면 추가적으로 인식되는 제2 음성을 인식한 후 상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하도록 설정된 전자 장치.
제11항에 있어서,

상기 제2 음성 인식 장치에서 획득한 제2 음성에 대한 인식을 실패하면 상기 제2 음성을 상기 제3 음성 인식 장치를 통해서 인식하고, 상기 제3 음성 인식 장치에 의해서 인식된 제2 음성을 기반으로 연관된 동작을 수행하도록 설정된 전자 장치.
전자 장치에 있어서,

임의의 어플리케이션을 실행되면 상기 어플리케이션에 대해서 제1 음성을 획득하는 상기 제1 음성 인식 장치 또는 상기 제2 음성 인식 장치 중 적어도 하나를 포함하고,

상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하고, 상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하도록 설정된 전자 장치.
제13항에 있어서,

상기 제2 음성 인식 장치에서 획득한 제1 음성에 상기 명령어가 포함되지 않고, 다른 명령어가 포함된 경우 상기 다른 명령어를 기반으로 관련된 동작을 수행하도록 설정된 전자 장치.
제14항에 있어서,

상기 제3 음성 인식 장치에서 상기 제2 음성을 인식하고, 미리 설정된 명령어 셋(set) 중 상기 제2 음성에 연관된 명령어가 포함된 경우 상기 제2 음성을 기반하여 상기 명령어 셋을 업데이트하도록 설정된 전자 장치.
제15항에 있어서,

상기 명령어 셋 중 상기 제2 음성에 연관된 명령어가 포함되지 않으면 상기 제2 음성에 연관된 명령어를 상기 명령어 셋에 업데이트하도록 설정된 전자 장치.
컴퓨터로 판독 가능한, 명령어들을 저장하고 있는 기록 매체에 있어서,

제1 음성 인식 장치 또는 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작;

상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 외부 전자 장치를 통해 인식하는 동작;

상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우, 추가적으로 인식되는 제2 음성을 인식하는 동작; 및

상기 인식된 제2 음성을 기반으로 연관된 동작을 수행하는 동작을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
컴퓨터로 판독 가능한, 명령어들을 저장하고 있는 기록 매체에 있어서,

임의의 어플리케이션을 실행하는 동작;

상기 어플리케이션에 대해서 상기 제1 음성 인식 장치 또는 상기 제2 음성 인식 장치 중 적어도 하나의 장치가 제1 음성을 획득하는 동작;

상기 제1 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하는 동작; 및

상기 제2 음성 인식 장치에서 획득한 제1 음성에 미리 정해진 명령어가 포함될 경우 추가적으로 인식되는 제2 음성을 상기 외부 전자 장치를 통해서 인식하는 동작을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.