KR102460491B1

KR102460491B1 - 전자 장치 및 그의 제어 방법

Info

Publication number: KR102460491B1
Application number: KR1020170166419A
Authority: KR
Inventors: 진장호
Original assignee: 삼성전자주식회사
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2022-10-31
Also published as: WO2019112332A1; KR102516728B1; US11462214B2; EP3496095A1; KR20190066719A; EP3496095B1; EP3496095C0; KR20220151125A; US20190172460A1

Abstract

전자 장치가 개시된다. 본 전자 장치는 음성 인식 서버와 통신하는 통신부 및 제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 음성 인식 서버와 세션이 확립되도록 통신부를 제어하고, 세션이 확립된 상태에서 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 확립된 세션을 유지하고, 유지된 세션을 이용하여 제2 외부 장치로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리하는 프로세서를 포함한다.

Description

전자 장치 및 그의 제어 방법{ELECTRONIC APPARATUS AND CONTROLLING METHOD OF THEREOF}

본 개시는 전자 장치 및 그의 제어 방법에 관한 것으로, 더욱 상세하게는 전자장치와 통신하는 외부 장치가 서버와 확립된 세션을 유지하는 전자 장치 및 그의 제어 방법에 대한 것이다.

오디오 데이터를 입력 받아 음성 인식 서버에 전송하는 전자 장치는 서버와 세션을 확립한다. 전자 장치에서는 오디오 데이터를 입력 받기 위하여 외부 장치를 이용할 수 있다. 여기서 오디오 데이터를 입력 받는 외부 장치가 또 다른 외부 장치로 변경되는 스위칭 동작의 경우 기존의 세션을 차단하고 새로운 세션을 연결한다.

즉, 종래 기술에서는 외부 장치를 이용하여 오디오 데이터를 입력 받는 도중 다른 외부 장치의 인식을 시도하는 스위칭 동작의 경우 기존의 서버와의 세션을 차단하고 새로운 세션을 확립한다. 이 과정에서 불필요한 처리 시간과 서버 접속을 위한 트래픽의 낭비가 발생하게 된다.

본 개시는 상술한 문제를 개선하기 위해 고안된 것으로, 본 개시의 목적은 전자장치와 통신하는 외부 장치가 변경되는 경우 기존에 서버와 확립된 세션을 유지하는 전자 장치 및 그의 제어 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 실시예에 따른 전자 장치는, 음성 인식 서버와 통신하는 통신부 및 제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 음성 인식 서버와 세션이 확립되도록 상기 통신부를 제어하고, 상기 세션이 확립된 상태에서 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 확립된 세션을 유지하고, 상기 유지된 세션을 이용하여 상기 제2 외부 장치로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리하는 프로세서를 포함한다.

여기서, 상기 프로세서는 상기 제1 외부 장치와 상기 제2 외부 장치가 동일 사용자인지 여부를 판단하고, 동일 사용자인 경우 상기 확립된 세션을 유지하고, 동일 사용자가 아닌 경우 상기 확립된 세션을 차단하고 새로운 세션을 확립할 수 있다.

또한, 상기 프로세서는 상기 동일 사용자인지 여부를 상기 제1 외부 장치에서 수신되는 제1오디오 데이터의 음성과 상기 제2 외부 장치에서 수신되는 제2오디오 데이터의 음성을 비교하여 판단할 수 있다.

또한, 상기 프로세서는 동일 사용자의 인지 여부를 제1외부 장치의 ID 정보와 제2외부 장치의 ID정보를 비교하여 판단할 수 있다.

또한, 상기 프로세서는 상기 전자 장치의 음성 인식에 대한 정보를 이용하여 세션을 확립하고, 상기 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 음성 인식에 대한 정보를 유지하여 상기 확립된 세션을 유지할 수 있다.

또한, 상기 음성 인식에 대한 정보는 사용 약관, 계정 정보, 네트워크 상태, 음성 인식 파라미터 및 음성 인식 명령어 리스트 중 적어도 하나를 포함할 수 있다.

여기서, 상기 음성 인식 파라미터는 현재 입력된 소스 정보 및 장치 상태 중 적어도 하나를 포함할 수 있다. 그리고 상기 음성 인식 명령어 리스트는 상기 전자 장치에서 사용하는 어플리케이션 정보, 현재 입력된 소스의 EPG 데이터 및 상기 전자 장치에서 제공하는 기능에 대한 명령어 중 적어도 하나를 포함할 수 있다.

한편, 전자 장치는 제1외부 장치로부터 수신된 제1오디오 데이터를 저장하는 메모리를 더 포함하고 상기 프로세서는 상기 제1오디오 데이터를 상기 확립된 세션을 이용하여 상기 음성 인식 서버에 전송할 수 있고, 상기 제2 외부 장치에서 수신된 제2오디오 데이터를 상기 저장된 제1오디오 데이터와 병합하여 상기 음성 인식 서버에 전송할 수 있다.

한편, 전자 장치는 디스플레이를 더 포함하고, 상기 프로세서는 상기 제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보가 표시되도록 상기 디스플레이를 제어할 수 있다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 제1 외부 장치로부터 음성 입력 개시 신호를 수신하는 단계, 음성 인식 서버와 세션이 확립하는 단계, 상기 세션이 확립된 상태에서 제2 외부 장치로부터 음성 입력 개시 신호를 수신하는 단계, 상기 확립된 세션을 유지하는 단계 및 상기 유지된 세션을 이용하여 상기 제2 외부 장치로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리하는 단계를 포함한다.

또한, 상기 확립된 세션을 유지하기 전에 상기 확립된 세션을 유지할지 여부를 판단하는 단계를 더 포함하고, 상기 제1 외부 장치와 상기 제2 외부 장치가 동일 사용자인지 여부를 판단하고, 동일 사용자인 경우 상기 확립된 세션을 유지하고, 동일 사용자가 아닌 경우 상기 확립된 세션을 차단하고 새로운 세션을 확립할 수 있다.

한편, 상기 확립된 세션을 유지할지 여부를 판단하는 단계는 상기 동일 사용자인지 여부를 상기 제1 외부 장치에서 수신되는 제1오디오 데이터의 음성과 상기 제2 외부 장치에서 수신되는 제2오디오 데이터의 음성을 비교하여 판단할 수 있다.

또한, 상기 확립된 세션을 유지할지 여부를 판단하는 단계는 동일 사용자의 인지 여부를 제1외부 장치의 ID 정보와 제2외부 장치의 ID정보를 비교하여 판단할 수 있다.

한편, 상기 음성 인식 서버와 세션이 확립하는 단계는 상기 전자 장치의 음성 인식에 대한 정보를 이용하여 세션을 확립하고, 상기 확립된 세션을 유지하는 단계는 상기 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 음성 인식에 대한 정보를 유지하여 상기 확립된 세션을 유지할 수 있다.

한편, 상기 음성 인식에 대한 정보는 사용 약관, 계정 정보, 네트워크 상태, 음성 인식 파라미터 및 음성 인식 명령어 리스트 중 적어도 하나를 포함할 수 있다.

여기서, 상기 음성 인식 파라미터는 현재 입력된 소스 정보 및 장치 상태 중 적어도 하나를 포함할 수 있다.

또한, 상기 음성 인식 명령어 리스트는 상기 전자 장치에서 사용하는 어플리케이션 정보, 현재 입력된 소스의 EPG 데이터 및 상기 전자 장치에서 제공하는 기능에 대한 명령어 중 적어도 하나를 포함할 수 있다.

한편, 전자 장치의 제어 방법은 상기 제1 외부 장치로부터 수신된 제1오디오 데이터를 저장하는 단계, 상기 제1오디오 데이터를 상기 확립된 세션을 이용하여 상기 음성 인식 서버에 전송하는 단계 및 상기 제2 외부 장치에서 수신된 제2오디오 데이터를 상기 저장된 제1오디오 데이터와 병합하여 상기 음성 인식 서버에 전송하는 단계를 더 포함할 수 있다.

또한, 전자 장치의 제어 방법은 상기 제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보를 표시하는 단계를 더 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도,
도 3은 도 2의 전자 장치의 구체적인 구성을 설명하기 위한 블록도,
도 4는 본 개시의 일 실시 예에 따른 외부 장치를 설명하기 위한 블록도,
도 5는 도4의 외부 장치의 구체적인 구성을 설명하기 위한 블록도,
도 6은 스위칭 과정에서 세션을 유지하는 동작을 설명하기 위한 도면,
도 7은 본 개시의 일 실시 예에 따른 스위칭 과정을 설명하기 위한 도면,
도 8은 본 개시의 다른 실시 예에 따른 스위칭 과정을 설명하기 위한 도면,
도 9는 본 개시의 일 실시 예에 따른 전자 장치 제어 방법을 설명하기 위한 흐름도,
도 10은 본 개시의 일 실시 예에 따른 장치 전환 처리를 설명하기 위한 흐름도 그리고
도 11은 본 개시의 일 실시 예에 따른 전자 장치 제어 방법을 설명하기 위한 흐름도이다.

본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 실시예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 개시의 일 실시 예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.

도 1을 참고하면, 음성 인식 시스템(1000)은 전자 장치(100), 외부 장치(200) 및 음성 인식 서버(300)로 구성될 수 있다.

여기서, 전자 장치(100)는 컴퓨터, TV, 셋톱박스, 스마트폰, 스마트 워치 등 다양한 기기로 구현될 수 있다. 예를 들어 아날로그 TV, 디지털 TV, 3D-TV, 스마트 TV, LED TV, OLED TV, 플라즈마 TV, 모니터, 고정 곡률(curvature)인 화면을 가지는 커브드(curved) TV, 고정 곡률인 화면을 가지는 플렉시블(flexible) TV, 고정 곡률인 화면을 가지는 벤디드(bended) TV, 및/또는 수신되는 사용자 입력에 의해 현재 화면의 곡률을 변경 가능한 곡률 가변형 TV 등으로 구현될 수 있으나, 이에 한정되지 않는다.

한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 내장 마이크 또는 외부 장치에 내장된 마이크를 통해 음성을 입력 받아 직접 음성 인식을 할 수 있다.

전자 장치(100)가 직접 음성 인식을 수행하는 경우, 음성을 인식하기 위한 인공지능 시스템이 구비되어 있을 수 있다. 인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다. 인공 지능 기술 중에서 인간의 언어/문자를 인식하는 언어적 이해 기술을 통해 입력된 음성을 인식할 수 있다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다.

본 개시의 또 다른 실시예에 따르면, 마이크가 내장된 별도의 외부 장치가 존재하고, 외부 장치는 입력된 음성에 대한 음성 인식 처리를 하여 음성 인식 결과를 전자 장치(100)로 제공할 수 있다.

전자 장치(100)는 음성 인식 결과에 기초하여 제어될 수 있다. 예컨대, 음성 인식 결과가 "채널 추천해줘"를 포함하면, 선호 채널을 선정하여 선정된 선호 채널에 대한 정보를 출력부(130)를 통해 제공할 수 있다. 이 경우, 채널 대신에 특정 프로그램 또는 특정 컨텐츠일 수 있다.

외부 장치(200)는 전자 장치(100)를 제어 할 수 있는 원격 제어 장치 일 수 있으며, 모바일 기기와 같은 스마트폰 또는 웨어러블 기기일 수 있다. 예를 들어, 스마트폰에 내장되어 있는 마이크를 통하여 사용자는 오디오 데이터를 전자 장치(100)에 전송할 수 있다.

외부 장치(200)에서 음성 입력 개시 신호를 전자 장치(100)에 전송할 수 있다. 이 경우 전자 장치(100)와 외부 장치(200)사이에는 블루투스 방식으로 통신할 수 있다. 그리고 전자 장치(100)는 다시 외부 장치(200)로부터 오디오 데이터를 수신하여 음성 인식 서버(300)에 전송 할 수 있다. 음성 인식 서버(300)는 전송된 오디오 데이터를 분석하여 음성 인식에 대한 결과를 다시 전자 장치(100)에 전송할 수 있다.

한편, 본 음성 인식 처리를 위해 사용자가 음성 인식 서버(300)와 세션을 확립하는 것으로 기재하였지만 전자 장치(100)는 자체적으로 음성 인식을 처리할 수 있다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도이다.

도 2를 참고하면, 전자 장치(100)는 통신부(110), 프로세서(120) 및 메모리(140)로 구성될 수 있다.

통신부(110)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다.

통신부(110)는 전자 장치(100) 와 외부 장치(200)와 통신할 수 있다. 그리고, 통신부(110)는 전자 장치(100)와 음성 인식 서버(300)와 세션을 확립할 수 있다.

통신부(110)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷 망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다. 통신부(110)는 와이파이칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. 또한 통신부(110)는 외부장치로부터 제어신호(예를 들어 IR 펄스)를 수신할 수 있는 광 수신부를 포함할 수 있다. 통신부(110)를 통해 외부 장치에서 입력된 사용자 명령을 수신할 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작 및 전자 장치(100)의 내부 구성요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다.

프로세서(120)는 제1 외부 장치(200-1)로부터 음성 입력 개시 신호가 수신되면 음성 인식 서버(300)와 세션이 확립되도록 통신부(110)를 제어하고, 세션이 확립된 상태에서 제2 외부 장치(200-2)로부터 음성 입력 개시 신호가 수신되면 확립된 세션을 유지하고, 유지된 세션을 이용하여 제2 외부 장치(200-2)로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리할 수 있다.

여기서, 프로세서(120)는 제1 외부 장치(200-1)와 제2 외부 장치(200-2)가 동일 사용자인지 여부를 판단하고, 동일 사용자인 경우 확립된 세션을 유지하고, 동일 사용자가 아닌 경우 확립된 세션을 차단하고 새로운 세션을 확립할 수 있다.

한편, 프로세서(120)는 동일 사용자인지 여부를 제1 외부 장치(200-1)에서 수신되는 제1오디오 데이터의 음성과 제2 외부 장치(200-2)에서 수신되는 제2오디오 데이터의 음성을 비교하여 판단할 수 있다.

또한, 프로세서(120)는 동일 사용자의 인지 여부를 제1외부 장치의 ID 정보와 제2외부 장치의 ID정보를 비교하여 판단할 수 있다.

한편, 프로세서(120)는 전자 장치(100)의 음성 인식에 대한 정보를 이용하여 세션을 확립하고, 제2 외부 장치(200-2)로부터 음성 입력 개시 신호가 수신되면 음성 인식에 대한 정보를 유지하여 확립된 세션을 유지할 수 있다.

여기서, 음성 인식에 대한 정보는 사용 약관, 계정 정보, 네트워크 상태, 음성 인식 파라미터 및 음성 인식 명령어 리스트 중 적어도 하나를 포함할 수 있다.

여기서, 음성 인식 파라미터는 현재 입력된 소스 정보 및 장치 상태 중 적어도 하나를 포함할 수 있다. 그리고 음성 인식 명령어 리스트는 전자 장치(100)에서 사용하는 어플리케이션 정보, 현재 입력된 소스의 EPG 데이터 및 전자 장치(100)에서 제공하는 기능에 대한 명령어 중 적어도 하나를 포함할 수 있다. 전자 장치(100)는 기존의 세션에 대한 정보를 그대로 유지하기 때문에 세션에 대한 안정성을 확보할 수 있다.

한편, 프로세서(120)는 제1오디오 데이터를 확립된 세션을 이용하여 음성 인식 서버(300)에 전송할 수 있고, 제2 외부 장치(200-2)에서 수신된 제2오디오 데이터를 저장된 제1오디오 데이터와 병합하여 음성 인식 서버(300)에 전송할 수 있다.

한편, 전자 장치(100)는 디스플레이를 더 포함할 수 있고, 프로세서(120)는 제1 외부 장치(200-1)로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보가 표시되도록 디스플레이를 제어할 수 있다.

한편, 전자 장치(100)가 별도의 디스플레이 장치와 연결되는 경우 프로세서(120)는 디스플레이 장치에 음성 인식 진행 상태에 대한 정보가 표시되도록 제어하는 신호를 디스플레이 장치에 전송할 수 있다. 이와 관련하여 도 3에서 후술한다.

메모리(140)는 전자 장치(100)에서 처리되는 데이터를 저장할 수 있다. 구체적으로, 외부 장치(200)에서 수신되는 오디오 데이터를 저장할 수 있다. 또한, 메모리(140)는 음성 인식 서버(300)로부터 수신되는 음성 인식 결과에 대한 내용을 저장할 수 있다. 그리고, 메모리(140)는 제1외부 장치(200-1)로부터 수신된 제1오디오 데이터를 저장할 수 있다.

메모리(140)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 한편, 메모리는 전자 장치내의 저장 매체뿐만 아니라, 외부 저장 매체, 예를 들어, micro SD 카드, USB 메모리 또는 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 직접 STT(Speech To Text) 기능을 수행할 수 있다. 전자 장치(100)는 디지털 음성 신호를 텍스트 정보로 변환하고 변환된 텍스트 정보를 음성 인식 서버에 전송할 수 있다. 이 경우 음성 인식 서버는 검색 기능만을 수행할 수 있다. 그리고 음성 인식 서버는 변환된 텍스트 정보에 대응되는 정보를 검색하고 전자 장치(100)에 전송할 수 있다.

한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 음성 인식 서버로 수신된 디지털 음성 신호를 전송할 수 있다. 그리고 음성 인식 서버는 디지털 음성 신호를 텍스트 정보로 변환하는 STT(Speech To Text)기능을 수행할 수 있다. 음성 인식 서버는 STT기능을 수행하여 디지털 음성 신호를 텍스트 정보로 변환하고 변환된 텍스트 정보에 대응되는 정보를 검색할 수 있다. 그리고 음성 인식 서버는 변환된 텍스트 정보에 대응되는 정보를 전자 장치(100)에 전송할 수 있다. 상술한 음성 인식 서버는 STT(Speech To Text) 기능 및 검색 기능을 동시에 수행할 수 있다.

한편, 음성 인식 서버에서는 STT(Speech To Text) 기능만을 수행하고 검색 기능은 별도의 서버에서 수행할 수 있다. 이 경우, STT(Speech To Text) 기능을 수행하는 서버에서 디지털 음성 신호를 텍스트 정보로 변환하고 변환된 텍스트 정보를 검색 기능을 수행하는 별도의 서버에 전송할 수 있다.이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)는, 스위칭 동작이 있는 경우 새로운 세션을 확립하지 않고 기존에 확립된 세션에 대한 정보를 이용하여 확립된 세션을 유지할 수 있는바, 불필요한 처리 시간과 서버 접속을 위한 트래픽을 낭비하지 않을 수 있다.

한편, 이상에서는 통신부(110), 프로세서(120) 및 메모리(140)를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 3을 참조하여 이하에서 설명한다.

도 3은 도 2의 전자 장치의 구체적인 구성을 설명하기 위한 블록도이다.

도 3을 참고하면, 전자 장치(100)는 통신부(110), 프로세서(120), 출력부(130), 메모리(140), 튜너(150), 마이크(160), 포트부(170), 조작 입력부(180)를 포함할 수 있다.

한편, 통신부(110) 및 메모리(140)의 동작에 대해서는 도 2와 관련하여 앞서 설명 하였는바, 중복 설명은 생략한다.

프로세서(120)는 RAM(121), ROM(122), CPU(123), GPU(124) 및 버스(125)를 포함할 수 있다. RAM(121), ROM(122), CPU(123), GPU(124) 등은 버스(125)를 통해 서로 연결될 수 있다. 프로세서(120)는 SoC(System On Chip)로 구현될 수 있다.

프로세서(120)의 GPU(124)가 영상을 분석하고 CPU(123)는 전체적인 동작을 제어할 수 있다.

CPU(123)는 메모리(140)에 액세스하여, 메모리(140)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 메모리(140)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다. CPU(123)는 도 1과 관련하여 설명한 프로세서(120)의 동작을 수행할 수 있다.

GPU(124)는 디스플레이 장치(100)의 부팅이 완료되면, 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성할 수 있다. 이러한, GPU 구성은 영상 처리부와 같은 별도의 구성으로 구성될 수 있으며, 프로세서(120) 내의 CPU와 결합된 SoC와 같은 구성으로 구현될 수도 있다.

ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, CPU(123)는 ROM(122)에 저장된 명령어에 따라 메모리(140)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(123)는 메모리(140)에 저장된 각종 애플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 애플리케이션 프로그램을 실행시켜 각종 동작을 수행한다. 프로세서(120)는 메모리(140)에 저장된 모듈을 이용하여 다양한 동작을 수행할 수 있다.

출력부(130)는 영상을 출력하기 위한 디스플레이(131), 오디오를 출력하기 위한 스피커(132)를 포함할 수 있다.

디스플레이(131)는 프로세서(120)가 제공하는 선호 컨텐츠를 사용자가 볼 수 있도록 영상을 표시할 수 있다. 또한, 영상을 표시하면서 추가로 사용자에게 UI 요소를 표시할 수 있다. 이 경우, UI 요소는 사용자에게 선택을 요청하는 문구일 수 있고, 복수의 선호 컨텐츠를 표시하는 메뉴일 수 있다. UI 요소는 어느 특정의 내용에 한정되지 않고 컨텐츠와 별도로 인식 가능한 인터페이스일 수 있다.

디스플레이(131)는 LCD(Liquid Crystal Display), PDP(plasma display panel), OLED(organic light emitting diodes) 등으로 구현될 수 있고 터치 스크린으로 구현될 수 있다.

이 경우, 디스플레이(131)는 전자 장치(100)에 포함된 구성요소일 수 있다. 프로세서(120)는 전자 장치(100)에 포함된 디스플레이(131)에 음성 인식 진행 상태에 대한 정보가 표시되도록 디스플레이(131)를 제어할 수 있다.

한편, 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 디스플레이를 포함하지 않고 별도의 디스플레이 장치에 연결될 수 있다. 이 경우, 프로세서(120)는 별도의 디스플레이 장치에 비디오 및 오디오 신호를 전송하기 위하여 통신부(110)를 제어할 수 있다.

또한, 프로세서(120)는 외부 장치(200)로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보가 표시되도록 하는 제어 신호를 디스플레이 장치에 전송하도록 통신부(110)를 제어할 수 있다.

한편 본 개시의 또 다른 실시 예에 따른 전자 장치(100)는 디스플레이(131)를 포함하지 않고 별도의 디스플레이 장치와 연결될 수 있다. 이 경우, 디스플레이 장치는 전자 장치(100)와 연결되어 비디오 및 오디오 신호를 수신할 수 있다. 디스플레이 장치는 비디오 및 오디오 신호를 수신하여 출력 할 수 있도록 디스플레이 및 오디오 출력부를 포함할 수 있다. 오디오 출력부는 오디오 데이터를 출력하기 위한 스피커, 헤드폰 출력 단자 또는 S/PDIF 출력 단자를 포함할 수 있다.

이 경우, 전자 장치(100)는 비디오 및 오디오 신호를 디스플레이 장치에 전송하기 위한 출력 포트를 구비할 수 있다. 여기서, 전자 장치(100)의 출력 포트는 비디오 및 오디오 신호를 동시에 전송할 수 있는 포트 일 수 있다. 예를 들어, 출력 포트는 HDMI(High Definition Multimedia Interface), DP(Display Port), 썬더볼트(Thunderbolt) 중 하나의 인터페이스일 수 있다.

한편, 전자 장치(100)의 출력 포트는 비디오 및 오디오 신호를 각각 전송할 수 있도록 별개의 포트로 구성될 수 있다.

또한, 전자 장치(100)는 비디오 및 오디오 신호를 디스플레이 장치에 전달하기 위해 무선 통신 모듈을 이용할 수 있다. 무선 통신 모듈이란, WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수 있다.

스피커(132)는 오디오를 출력하는 구성이다. 스피커(132)는 전기신호를 진동판의 진동으로 바꾸어 공기에 소밀파를 발생시켜 음파를 복사하는 음향기기이며, 음성 데이터를 출력할 수 있다.

튜너(150)는 사용자 입력에 대응되는 채널 번호에 대응되는 주파수 대역에서 비디오, 오디오 및 데이터를 수신할 수 있다.

튜너(150)는 지상파 방송, 케이블 방송, 또는, 위성 방송 등과 같이 다양한 소스에서부터 방송 신호를 수신할 수 있다. 튜너(150)는 다양한 소스에서부터 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.

튜너(150)는 전자 장치(100)와 일체형(all-in-one)으로 구현되거나 또는 전자 장치(100)와 전기적으로 연결되는 튜너 유닛을 가지는 별개의 장치(예를 들어, 셋톱박스(set-top box), 포트부(170)에 연결되는 튜너)로 구현될 수 있다.

튜너(150)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance) 등을 통하여 많은 전파 성분 중에서 전자 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 비디오(video), 오디오(audio) 및 부가 데이터(예를 들어, EPG(Electronic Program Guide)를 포함할 수 있다.

마이크(160)는 음성을 입력 받아 직접 음성 인식을 하거나, 음성 인식을 수행하는 외부의 서버로 입력된 음성을 전달하여 음성 인식 결과를 수신할 수 있다. 또한, 마이크(160)는 사람의 음성뿐만 아니라 사운드 신호를 수신할 수 있다. 마이크(160)에서 전송된 사운드 신호를 수신할 수 있고 가청 영역의 사운드 신호뿐만 아니라 비가청 영역의 사운드 신호를 수신할 수 있다.

마이크(160)는 수신된 소리에 관한 정보를 전기 신호로 변환할 수 있다.

마이크(160)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.

포트부(170)는 외부 장치와 연결되기 위한 구성이다. 포트부(170)는 HDMI 입력 포트(High-Definition Multimedia Interface port, 171), 컴포넌트 입력 잭(172), 및 USB 포트(173) 중 적어도 하나를 포함할 수 있다. 도시한 것 이외에도 포트부(170)는 RGB, DVI, HDMI, DP, 썬더볼트 등의 포트 중 적어도 하나를 포함할 수 있다. 포트부(170)를 통해 외부 장치로 추천 서비스에 대한 정보가 전달되는 것이 가능하다.

조작 입력부(180)는 디스플레이(131)에 표시된 선호 컨텐츠에 대한 사용자의 선택을 입력 받을 수 있다. 조작 입력부(180)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다.

도 4는 본 개시의 일 실시 예에 따른 외부 장치를 설명하기 위한 블록도이다.

도 4를 참조하면, 외부 장치(200)는 통신부(210), 마이크(223) 및 프로세서(230)로 구성될 수 있다.

여기서 외부 장치(200)는 전자 장치와 통신할 수 있는 제어 장치 일 수 있다. 구체적으로, 외부 장치(200)는 블루투스 방식을 이용해서 전자 장치와 무선 연결을 확립할 수 있다.

통신부(210)는 전자 장치(100)에 음성 입력 개시 신호를 전송할 수 있다. 또한, 전자 장치(100)로부터 마이크 입력 개시 신호를 수신할 수 있다. 그리고 통신부(210)는 마이크(223)를 통해 수신된 사용자의 오디오 데이터를 전자 장치(100)에 전송할 수 있다.

통신부(210)는 무선랜 유닛(211)과 근거리 통신 유닛(212) 중 적어도 하나를 포함할 수 있다. 예를 들어, 무선랜 유닛(211) 및 근거리 통신 유닛(212) 중 하나, 또는 무선랜 유닛(211)과 근거리 통신 유닛(212)을 모두 포함할 수 있다.

여기서, 무선랜 유닛(211)은 제어 유닛의 제어에 따라 AP(access point)가 설치된 장소에서 무선을 이용하여 AP와 연결될 수 있다. 무선랜 유닛(211)은 미국전기전자학회(IEEE)의 무선랜 규격(IEEE802.11x)을 지원한다. 또한, 근거리 통신 유닛(212)은 제어 유닛의 제어에 따라 AP없이 무선으로 휴대 장치와 외부 장치 사이에 근거리 통신을 할 수 있다. 근거리 통신은 블루투스(bluetooth), 블루투스 저 에너지(bluetooth low energy), IR 통신(적외선 통신)(IrDA, infrared data association), 와이파이(Wi-Fi), UWB(Ultra Wideband) 및 NFC(Near Field Communication) 등을 포함할 수 있다.

통신부(210)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(210)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다. 통신부(210)는 와이파이칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행할 수 있다.

와이파이 칩, 블루투스 칩은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행한다. 와이파이 칩이나 블루투스 칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.

마이크(223)는 음성을 입력 받을 수 있다. 또한, 마이크(223)는 음성뿐만 아니라 특정 사운드를 수신할 수 있다. 마이크(223)는 전자 장치(100)에서 전송된 특정 사운드를 수신할 수 있다. 여기서, 특정 사운드는 가청 영역의 사운드뿐만 아니라 비가청 영역의 사운드일 수 있다. 마이크(223)에서 감지한 사운드를 기초로 프로세서(230)는 외부 장치(200)와 사운드를 출력한 전자 장치(100)간의 거리를 계산할 수 있으며 구체적인 동작은 후술한다.

마이크(223)는 수신된 사운드에 관한 데이터를 전기 신호로 변환할 수 있다.

마이크(223)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.

프로세서(230)는 외부 장치(200)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(230)는 외부 장치(200)에 연결 가능한 전자 장치(100)들을 판단할 수 있다.

한편, 이상에서는 외부 장치(200)를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 5를 참조하여 이하에서 설명한다.

도 5는 도4의 외부 장치의 구체적인 구성을 설명하기 위한 블록도이다.

도 5를 참조하면, 전자 장치(100)를 제어하는 외부 장치(200)는 통신부(210), 조작 입력부(220), 프로세서(230), 광 출력 유닛(240), 메모리(250) 및 전원부(260)로 구성될 수 있다.

한편, 통신부(210) 및 조작 입력부(220)의 마이크(223)의 동작에 대해서는 도 4와 관련하여 앞서 설명 하였는바, 중복 설명은 생략한다.

조작 입력부(220)는 키(221), 터치패드(222), 마이크(223) 및 센서(224) 등을 포함할 수 있다.

키(221)는 사용자의 입력을 수신하는 물리적인 구성일 수 있으며, 사용자가 설정 또는 선택할 수 있는 다수의 기능키일 수 있다.

터치패드(222)는 사용자의 입력을 수신하는 물리적인 구성요소이며 마우스를 대신하는 포인팅 장치에 해당할 수 있다. 또한, 터치패드(222)는 터치 스크린 등과 같이 입력과 출력이 동시에 구현되는 장치로 실행될 수 있다.

센서(224)는 물리량을 계측하거나 전자 장치의 작동 상태를 감지하여 계측 또는 감지된 데이터를 전기 신호로 변환할 수 있다. 또한, 센서(224)는 모션(motion)을 검출하는 센서(예를 들어, 모션 센서, 자이로 센서, 가속도 센서, 중력 센서 등)을 포함할 수 있다.

조작 입력부(220)는 수신된 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 신호(예를 들어, 아날로그 신호 또는 디지털 신호)를 제어 유닛으로 출력할 수 있다.

프로세서(230)는 RAM(231), ROM(232), CPU(233) 및 버스(234)를 포함한다. RAM(231), ROM(232), CPU(233) 등은 버스(234)를 통해 서로 연결될 수 있다. 프로세서(230)는 SoC(System On Chip)로 구현될 수 있다.

RAM(231)은 프로세서(230)에서 수행되는 다양한 동작에 필요한 데이터를 복사해 임시 저장할 수 있으며 임시 저장된 데이터를 다시 프로세서(230)에 전달할 수 있다.

ROM(232)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, CPU(233)는 ROM(232)에 저장된 명령어에 따라 메모리(250)에 저장된 O/S를 RAM(231)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(233)는 메모리(250)에 저장된 각종 애플리케이션 프로그램을 RAM(231)에 복사하고, RAM(231)에 복사된 애플리케이션 프로그램을 실행시켜 각종 동작을 수행한다. 프로세서(230)는 메모리(250)에 저장된 모듈을 이용하여 다양한 동작을 수행할 수 있다.

CPU(233)는 메모리(250)에 액세스하여, 메모리(250)에 저장된 O/S를 이용하여 부팅을 수행한다. CPU(233)는 도 1과 관련하여 설명한 프로세서(230)의 동작을 수행할 수 있다.

광 출력 유닛(240)은 제어 유닛의 제어에 따라 수신된 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호(예를 들어, 제어 신호를 포함)를 전자 장치(100)의 광 수신 유닛으로 출력한다. 외부 장치(200)에서 사용되는 리모컨 코드 포맷은 제조사 전용인 리모콘 코드 포맷 및 상용 리모콘 코드 포맷 중 하나를 사용할 수 있다. 리모컨 코드 포맷은 리더 코드(leader code) 및 데이터 영역(data word)을 포함할 수 있다. 출력되는 광신호는 반송파(carrier wave)에 변조되어 출력될 수 있다. 제어 신호는 메모리(250)에 저장되어 있거나 또는 제어 유닛에 의해 생성될 수도 있다. 외부 장치(200)는 IR-LED(infrared-laser emitting diode)포함할 수 있다.

메모리(250)는 제어 유닛의 제어에 의해 외부 장치(200)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 메모리(250)는 통신부(210), 광 출력 유닛(240), 및 전원부(260)의 구동에 대응되는 입력, 또는 출력되는 신호 또는 데이터를 저장할 수 있다. 메모리(250)는 제어 유닛의 제어에 따라 수신된 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 제어 신호를 저장할 수 있다.

메모리(250)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 한편, 메모리(250)는 전자 장치(100)내의 저장 매체뿐만 아니라, 외부 저장 매체, 예를 들어, micro SD 카드, USB 메모리 또는 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다.

전원부(260)는 제어 유닛의 제어에 의해 외부 장치(200) 내부의 구성 요소(210 내지 250)에 전원을 공급한다. 전원부(260)은 외부 장치(200) 내부에 위치하는 하나 또는 둘 이상의 배터리(도시되지 아니함)에서부터 전원을 내부의 구성 요소(210 내지 250)에 공급할 수 있다. 배터리는 외부 장치(200)의 표면에 있는 키(221) 및 터치 패드(222)와 후면 커버(도시되지 아니함) 사이에 위치할 수 있다.

도 5의 외부 장치(200)에 도시된 구성 요소들은 외부 장치(200)의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 위치는 외부 장치(200)의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.

도 6은 스위칭 과정에서 세션을 유지하는 동작을 설명하기 위한 도면이다.

도 6을 참고하면, 종래 기술에서의 스위칭 과정과 본 개시의 스위칭 과정을 비교할 수 있다.

종래에는 제1 외부 장치(200-1)로부터 음성 인식 개시 명령이 있는 경우, 음성 인식 서버(300)와 세션을 확립하였다. 그리고 제1 외부 장치(200-1)로부터 오디오 데이터를 수신하여 음성 인식 과정을 수행하였다. 여기서, 제 2외부 장치(200-2)로부터 음성 입력 개시 신호가 수신되는 스위칭이 있다고 가정한다. 종래에는 스위칭이 있는 경우 제1 외부 장치(200-1)로부터 수신되는 오디오 데이터에 대하여 음성 인식을 종료하고 기존 음성 인식 서버(300)와의 세션을 차단하였다. 여기서 세션을 차단한다는 의미는 세션을 닫는다는 의미로 사용될 수 있다. 그리고 제 2외부 장치(200-2)로부터 수신되는 오디오 데이터에 대하여 음성 인식을 시작하고 음성 인식 서버(300)와 새로운 세션을 확립하고 음성 인식 과정을 수행하였다. 즉, 종래에는 제1 외부 장치(200-1)에서 제 2외부 장치(200-2)로 음성 인식이 되는 스위칭이 있는 경우 기존 세션을 차단하고 새로운 세션을 연결하였다.

하지만 본 개시의 일 실시 예에 따른 전자 장치(100)는 기존의 세션을 유지할 수 있다. 구체적으로, 전자 장치(100)는 제1 외부 장치(200-1)에서 수신되는 오디오 데이터에 대하여 음성 인식 과정을 수행하면서 스위칭이 있어도 기존의 세션을 유지하기 때문에 제 2외부 장치(200-2)에서 수신되는 오디오 데이터에 대하여 음성 인식을 연속하여 수행할 수 있다.

도 6을 참고하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 종래 기술보다 제1 외부 장치(200-1)와 음성 인식을 종료하는 동작, 제1 외부 장치(200-1)에서 수신되는 오디오 데이터 처리를 위해 확립했던 기존의 세션을 차단하는 동작 및 제 2외부 장치(200-2)에서 수신되는 오디오 데이터 처리를 위해 새로운 세션을 확립하는 동작이 생략될 수 있다.

따라서, 전자 장치(100)는 생략되는 동작의 시간만큼 전체 음성 인식 과정의 처리 시간이 단축 될 수 있다. 이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)는, 스위칭 동작이 있는 경우 새로운 세션을 확립하지 않고 기존에 확립된 세션에 대한 정보를 이용하여 확립된 세션을 유지할 수 있는바, 불필요한 처리 시간과 서버 접속을 위한 트래픽을 낭비하지 않을 수 있다.

도 7은 본 개시의 일 실시 예에 따른 스위칭 과정을 설명하기 위한 도면이다.

도 7을 참고하면, 사용자는 제1 외부 장치(200-1)에서 음성 인식을 하다가 제 2외부 장치(200-2)에서 음성 인식을 하는 스위칭 동작을 가정한다.

전자 장치(100)는 스위칭 동작이라고 판단하기 위해서 동일한 사용자인지 여부를 판단하여야 한다. 동일한 사용자라고 판단되면 음성 인식을 연속하여 진행하고 동일한 사용자가 아니라면, 음성 인식 과정을 분리하여 진행할 수 있다.

전자 장치(100)는 동일한 사용자인지 여부를 판단하기 위하여 외부 장치(200)에서 수신되는 오디오 데이터를 분석할 수 있다. 구체적으로, 전자 장치(100)는 제1 외부 장치(200-1)와 제 2외부 장치(200-2)에서 각각 수신되는 오디오 데이터를 분석하여 동일한 사용자인지 여부를 분석할 수 있다. 여기서, 전자 장치(100)는 사람들의 목소리 패턴, 크기 및 주파수 중 적어도 하나를 이용하여 동일한 사용자의 음성인지 여부를 판단할 수 있다.

한편, 전자 장치(100)는 외부 장치(200)의 ID 정보를 이용하여 동일한 사용자 인지 여부를 판단할 수 있다. 전자 장치(100)는 사용자가 사용한 이력이 있는 외부 장치(200)의 ID 정보를 메모리(140)에 저장할 수 있다. 전자 장치(100)는 한번 사용한 이력이 있는 외부 장치(200)들 사이에 스위칭이 일어나면 동일한 사용자로 판단할 수 있다. 그리고 전자 장치(100)는 한번도 사용 이력이 없는 외부 장치(200)가 인식되면 동일한 사용자가 아니라고 판단할 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치(100)는 동일한 사용자인지 여부를 판단하는 동작을 설명하였지만, 전자 장치는 동일한 사용자인지 여부를 판단하지 않을 수 있다.

도 7을 참고하면, 전자 장치(100)는 스위칭이 동일한 사용자에 의하여 발생했다고 판단하면, 제1 외부 장치(200-1)에서 수신한 제1오디오 데이터를 "samsung"과 제 2외부 장치(200-2)에서 수신한 제2오디오 데이터"electronics"를 연속하여 하나의 음성 인식으로 처리할 수 있다.

구체적으로, 전자 장치(100)가 제1 오디오 데이터 "samsung"을 제1 외부 장치(200-1)로부터 수신하면, 전자 장치(100)는 제1오디오 데이터 "samsung"을 메모리(140)에 저장할 수 있다.

전자 장치(100)는 제 2외부 장치(200-2)에서 수신한 제2오디오 데이터 "electronics"가 수신되기 전에 제1오디오 데이터 "samsung"을 음성 인식 서버(300)에 전송할 수 있다. 이 경우, 전자 장치(100)는 제2오디오 데이터 "electronics"가 수신되면 "electronics"가 아닌 "samsung"과 "electronics"를 결합하여 음성 인식 서버(300)에 전송할 수 있다.

전자 장치(100)는 제 2외부 장치(200-2)에서 수신한 제2오디오 데이터 "electronics"가 수신되기 전에 제1오디오 데이터 "samsung"을 음성 인식 서버(300)에 전송하지 않았을 수 있다. 이 경우, 전자 장치(100)는 제1오디오 데이터 "samsung"을 메모리(140)에 저장할 수 있다. 그리고 제 2외부 장치(200-2)에서 수신한 제2오디오 데이터 "electronics"가 수신되면, 제1오디오 데이터 "samsung"과 제2오디오 데이터 "electronics"을 결합하여 음성 인식 서버(300)에 전송할 수 있다.

그리고 전자 장치(100)는 이러한 음성 인식 과정에 대하여 전자 장치(100)의 디스플레이(131)에 표시할 수 있다.

도 8은 본 개시의 다른 실시 예에 따른 스위칭 과정을 설명하기 위한 도면이다.

도 7에서는 스위칭 동작이 제1 외부 장치(200-1)에서 제 2외부 장치(200-2)로 이루어지는 것으로 설명 하였지만, 외부 장치가 아니라 전자 장치(100)의 내부 장치에 의하여 스위칭 동작이 있을 수 있다. 전자 장치(100)에 포함되어 있는 마이크(160)를 통해 음성 인식이 가능하므로, 스위칭 동작은 외부 장치(200) 및 내부 장치 사이에서 있을 수 있다.

구체적으로, 제1 외부 장치(200-1)에서 제1오디오 데이터 "samsung"을 수신하고 내부 장치인 전자 장치(100)에서 제2오디오 데이터 "electronics"을 결합하여 음성 인식 서버(300)에 전송할 수 있다. 또한, 전자 장치(100)는 이러한 음성 인식 과정을 전자 장치(100)의 디스플레이(131)에 표시할 수 있다.

도 8을 설명함에 있어, 사용자 동일 여부 판단 및 음성 인식 서버(300)에 오디오 데이터를 전송하는 구체적인 과정을 생략하였으나, 도 7에서와 설명한 것과 같이 동일하게 진행될 수 있다.

한편, 스위칭 동자이 외부 장치에서 내부 장치로 이루어지는 경우를 설명하였지만 반대로 내부 장치에서 외부 장치로 이루어질 수 있다.

도 9는 본 개시의 일 실시 예에 따른 전자 장치 제어 방법을 설명하기 위한 흐름도,

도 9를 참고하면, 전자 장치(100)는 음성 인식 조건을 판단할 수 있다(S905).

그리고 전자 장치(100)는 음성 인식에 필요한 파라미터를 수집하고(S910) 인식 명령어 리스트를 제작할 수 있다(S915).

그리고 전자 장치(100)는 음성 인식 서버(300)와 세션을 확립할 수 있다(S920).

그리고 전자 장치(100)는 사용자의 음성 인식과 관련한 오디오 데이터를 수신할 수 있고 이를 음성 인식 서버(300)에 전송할 수 있다(S9925).

그리고 전자 장치(100)는 전자 장치(100)에 오디오 데이터를 전송하는 장치가 변경되었는지 여부를 판단할 수 있다. 즉, 새로운 장치가 연결되어 있는지 여부를 판단할 수 있다(S930).

만약, 새로운 장치가 전자 장치(100)에 연결되었으면 장치 전환 처리를 수행할 수 있으며(S935), 장치 전환 처리와 관련하여 구체적인 설명은 도 10에서 후술하겠다.

그리고 만약, 새로운 장치가 전자 장치(100)에 연결되지 않고 기존의 장치가 계속하여 전자 장치(100)에 연결되어 있을 수 있다. 이 경우, 전자 장치(100)는 음성 인식이 종료되었는지 여부를 판단할 수 있다(S940).

음성 인식이 종료되지 않은 경우, 전자 장치(100)는 계속하여 사용자의 오디오 데이터를 음성 인식 서버(300)에 전송할 수 있다.

그러나, 음성 인식이 종료된 경우, 전자 장치(100)는 음성 데이터 전송을 정지하고 음성 인식 결과에 대한 처리를 할 수 있다(S945). 음성 인식 결과에 대한 처리란 음성 인식 서버(300)에서 오디오 데이터에 대한 검색 결과를 수신하여 사용자에게 제공하는 동작을 의미할 수 있다. 즉, 전자 장치(100)는 음성 인식이 종료되었다고 판단하면, 음성 인식 서버(300)로부터 최종 음성 인식에 대한 결과를 수신하고 사용자에게 제공할 수 있다.

그리고 전자 장치(100)는 음성 인식 동작을 종료하고(S950) 음성 인식 서버(300)와 확립한 세션을 차단할 수 있다(S955).

도 10은 본 개시의 일 실시 예에 따른 장치 전환 처리를 설명하기 위한 흐름도이다.

도 10을 참고하면, 전자 장치(100)는 새로운 장치가 전자 장치(100)에 연결되었다고 판단하면, 음성 인식 결과를 수신하기 위해 대기하고 있는 상태인지 여부를 판단할 수 있다(S1005).

여기서, 음성 인식 결과를 수신하기 위해 대기하고 있지 않은 경우 전자 장치(100)는 바로 음성 인식 서버(300)에 음성 인식을 중단하도록 요청할 수 있다(S1020).

여기서, 음성 인식 결과가 수신되지 않은 경우 전자 장치(100)는 음성 인식 결과가 수신되었는지 여부를 판단하고(S1010) 음성 인식 결과가 수신될 때까지 대기하고, 음성 인식 결과가 수신되면 음성 인식 결과를 메모리(140)에 저장할 수 있다(S1015). 그리고 전자 장치(100)는 전자 장치(100)는 바로 음성 인식 서버(300)에 음성 인식을 중단하도록 요청할 수 있다(S1020).

전자 장치(100)는 기존에 확립된 세션에서 이용한 음성 인식 파라미터를 재사용 할 수 있고 일부 파라미터에 대하여는 변경 또는 가공하여 이용할 수 있다(S1025). 이 경우, 가공되는 파라미터는 현재시간 또는 장치의 ID정보일 수 있다. 또한, 전자 장치(100)는 기존에 확립된 세션에서 이용한 인식 명령어를 재사용 할 수 있다(S1030). 전자 장치(100)는 기존의 세션에 대한 정보를 그대로 유지하기 때문에 세션에 대한 안정성을 확보할 수 있다.

전자 장치(100)는 음성 인식 서버(300)에서 음성 인식이 중단되었는지 여부를 판단할 수 있다(S1035). 음성 인식 서버(300)에서 음성 인식이 중단되면 전자 장치(100)는 오디오 소스 변환 동작을 수행할 수 있다(S1040). 오디오 소스 변환 동작은 오디오 데이터를 수신하기 위한 것일 수 있고 이는 소프트웨어에 대한 조건의 변경 또는 마이크와 같은 하드웨어를 제어하는 동작일 수 있다.

도 11은 본 개시의 일 실시 예에 따른 전자 장치 제어 방법을 설명하기 위한 흐름도이다.

도 11을 참고하면, 본 개시의 일 실시 예에 따른 전자 장치(100)의 제어 방법은 제1 외부 장치(200-1)로부터 음성 입력 개시 신호를 수신하는 단계(S1105), 음성 인식 서버(300)와 세션이 확립하는 단계(S1110)를 포함할 수 있다.

한편, 음성 인식 서버(300)와 세션이 확립하는 단계는 전자 장치(100)의 음성 인식에 대한 정보를 이용하여 세션을 확립하고, 확립된 세션을 유지하는 단계는 제2 외부 장치(200-2)로부터 음성 입력 개시 신호가 수신되면 음성 인식에 대한 정보를 유지하여 확립된 세션을 유지할 수 있다.

한편, 음성 인식에 대한 정보는 사용 약관, 계정 정보, 네트워크 상태, 음성 인식 파라미터 및 음성 인식 명령어 리스트 중 적어도 하나를 포함할 수 있다.

여기서, 음성 인식 파라미터는 현재 입력된 소스 정보 및 장치 상태 중 적어도 하나를 포함할 수 있다.

또한, 음성 인식 명령어 리스트는 전자 장치(100)에서 사용하는 어플리케이션 정보, 현재 입력된 소스의 EPG 데이터 및 전자 장치(100)에서 제공하는 기능에 대한 명령어 중 적어도 하나를 포함할 수 있다.

또한, 전자 장치(100)의 제어 방법은 세션이 확립된 상태에서 제2 외부 장치(200-2)로부터 음성 입력 개시 신호를 수신하는 단계(S1115), 확립된 세션을 유지하는 단계(S1120) 및 유지된 세션을 이용하여 제2 외부 장치(200-2)로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리하는 단계(S1125)를 포함할 수 있다.

또한, 확립된 세션을 유지하기 전에 확립된 세션을 유지할지 여부를 판단하는 단계를 더 포함하고, 제1 외부 장치(200-1)와 제2 외부 장치(200-2)가 동일 사용자인지 여부를 판단하고, 동일 사용자인 경우 확립된 세션을 유지하고, 동일 사용자가 아닌 경우 확립된 세션을 차단하고 새로운 세션을 확립할 수 있다.

한편, 확립된 세션을 유지할지 여부를 판단하는 단계는 동일 사용자인지 여부를 제1 외부 장치(200-1)에서 수신되는 제1오디오 데이터의 음성과 제2 외부 장치(200-2)에서 수신되는 제2오디오 데이터의 음성을 비교하여 판단할 수 있다.

또한, 확립된 세션을 유지할지 여부를 판단하는 단계는 동일 사용자의 인지 여부를 제1외부 장치의 ID 정보와 제2외부 장치의 ID정보를 비교하여 판단할 수 있다.

한편, 전자 장치(100)의 제어방법은 제1 외부 장치(200-1)로부터 수신된 제1오디오 데이터를 저장하는 단계, 제1오디오 데이터를 확립된 세션을 이용하여 음성 인식 서버(300)에 전송하는 단계 및 제2 외부 장치(200-2)에서 수신된 제2오디오 데이터를 저장된 제1오디오 데이터와 병합하여 음성 인식 서버(300)에 전송하는 단계를 더 포함할 수 있다.

또한, 전자 장치(100)의 제어방법은 제1 외부 장치(200-1)로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보를 표시하는 단계를 더 포함할 수 있다.

이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)의 제어 방법은, 스위칭 동작이 있는 경우 새로운 세션을 확립하지 않고 기존에 확립된 세션에 대한 정보를 이용하여 확립된 세션을 유지할 수 있는바, 불필요한 처리 시간과 서버 접속을 위한 트래픽을 낭비하지 않을 수 있다.

한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.

비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

전자 장치: 100 외부 장치: 200
음성 인식 서버: 300 통신부: 110
프로세서: 120 메모리: 140

Claims

전자 장치에 있어서,
음성 인식 서버와 통신하는 통신부; 및
제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 음성 인식 서버와 세션이 확립되도록 상기 통신부를 제어하고, 상기 세션이 확립된 상태에서 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 확립된 세션을 유지하고, 상기 유지된 세션을 이용하여 상기 제2 외부 장치로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리하는 프로세서;를 포함하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 제1 외부 장치와 상기 제2 외부 장치가 동일 사용자인지 여부를 판단하고, 동일 사용자인 경우 상기 확립된 세션을 유지하고, 동일 사용자가 아닌 경우 상기 확립된 세션을 차단하고 새로운 세션을 확립하는 전자 장치.
제2항에 있어서,
상기 프로세서는,
상기 동일 사용자인지 여부를 상기 제1 외부 장치에서 수신되는 제1오디오 데이터의 음성과 상기 제2 외부 장치에서 수신되는 제2오디오 데이터의 음성을 비교하여 판단하는 전자 장치.
제2항에 있어서,
상기 프로세서는,
동일 사용자의 인지 여부를 제1외부 장치의 ID 정보와 제2외부 장치의 ID정보를 비교하여 판단하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 전자 장치의 음성 인식에 대한 정보를 이용하여 세션을 확립하고,
상기 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 음성 인식에 대한 정보를 유지하여 상기 확립된 세션을 유지하는 전자 장치.
제5항에 있어서,
상기 음성 인식에 대한 정보는 사용 약관, 계정 정보, 네트워크 상태, 음성 인식 파라미터 및 음성 인식 명령어 리스트 중 적어도 하나를 포함하는 전자 장치.
제6항에 있어서,
상기 음성 인식 파라미터는 현재 입력된 소스 정보 및 장치 상태 중 적어도 하나를 포함하는 전자 장치.
제6항에 있어서,
상기 음성 인식 명령어 리스트는 상기 전자 장치에서 사용하는 어플리케이션 정보, 현재 입력된 소스의 EPG 데이터 및 상기 전자 장치에서 제공하는 기능에 대한 명령어 중 적어도 하나를 포함하는 전자 장치.
제1항에 있어서,
제1외부 장치로부터 수신된 제1오디오 데이터를 저장하는 메모리;를 더 포함하고
상기 프로세서는,
상기 제1오디오 데이터를 상기 확립된 세션을 이용하여 상기 음성 인식 서버에 전송하고,
상기 제2 외부 장치에서 수신된 제2오디오 데이터를 상기 저장된 제1오디오 데이터와 병합하여 상기 음성 인식 서버에 전송하는 전자 장치.
제1항에 있어서,
디스플레이;를 더 포함하고,
상기 프로세서는,
상기 제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보가 표시되도록 상기 디스플레이를 제어하는 전자 장치.
전자 장치의 제어 방법에 있어서,
제1 외부 장치로부터 음성 입력 개시 신호를 수신하는 단계;
음성 인식 서버와 세션이 확립하는 단계;
상기 세션이 확립된 상태에서 제2 외부 장치로부터 음성 입력 개시 신호를 수신하는 단계;
상기 확립된 세션을 유지하는 단계; 및
상기 유지된 세션을 이용하여 상기 제2 외부 장치로부터 수신되는 오디오 데이터에 대한 음성 인식을 처리하는 단계;를 포함하는 제어 방법.
제11항에 있어서,
상기 확립된 세션을 유지하기 전에 상기 확립된 세션을 유지할지 여부를 판단하는 단계;를 더 포함하고,
상기 제1 외부 장치와 상기 제2 외부 장치가 동일 사용자인지 여부를 판단하고, 동일 사용자인 경우 상기 확립된 세션을 유지하고, 동일 사용자가 아닌 경우 상기 확립된 세션을 차단하고 새로운 세션을 확립하는 제어 방법.
제 12항에 있어서,
상기 확립된 세션을 유지할지 여부를 판단하는 단계는,
상기 동일 사용자인지 여부를 상기 제1 외부 장치에서 수신되는 제1오디오 데이터의 음성과 상기 제2 외부 장치에서 수신되는 제2오디오 데이터의 음성을 비교하여 판단하는 제어 방법.
제12항에 있어서,
상기 확립된 세션을 유지할지 여부를 판단하는 단계는,
동일 사용자의 인지 여부를 제1외부 장치의 ID 정보와 제2외부 장치의 ID정보를 비교하여 판단하는 제어 방법.
제11항에 있어서,
상기 음성 인식 서버와 세션이 확립하는 단계는,
상기 전자 장치의 음성 인식에 대한 정보를 이용하여 세션을 확립하고,
상기 확립된 세션을 유지하는 단계는,
상기 제2 외부 장치로부터 음성 입력 개시 신호가 수신되면 상기 음성 인식에 대한 정보를 유지하여 상기 확립된 세션을 유지하는 제어 방법.
제15항에 있어서,
상기 음성 인식에 대한 정보는 사용 약관, 계정 정보, 네트워크 상태, 음성 인식 파라미터 및 음성 인식 명령어 리스트 중 적어도 하나를 포함하는 제어 방법.
제16항에 있어서,
상기 음성 인식 파라미터는 현재 입력된 소스 정보 및 장치 상태 중 적어도 하나를 포함하는 제어 방법.
제16항에 있어서,
상기 음성 인식 명령어 리스트는 상기 전자 장치에서 사용하는 어플리케이션 정보, 현재 입력된 소스의 EPG 데이터 및 상기 전자 장치에서 제공하는 기능에 대한 명령어 중 적어도 하나를 포함하는 제어 방법.
제11항에 있어서,
상기 제1 외부 장치로부터 수신된 제1오디오 데이터를 저장하는 단계;
상기 제1오디오 데이터를 상기 확립된 세션을 이용하여 상기 음성 인식 서버에 전송하는 단계; 및
상기 제2 외부 장치에서 수신된 제2오디오 데이터를 상기 저장된 제1오디오 데이터와 병합하여 상기 음성 인식 서버에 전송하는 단계;를 더 포함하는 제어 방법.
제 11항에 있어서,
상기 제1 외부 장치로부터 음성 입력 개시 신호가 수신되면 음성 인식 진행 상태에 대한 정보를 표시하는 단계;를 더 포함하는 제어 방법.