KR20140112364A

KR20140112364A - 디스플레이 장치 및 디스플레이 장치의 제어방법

Info

Publication number: KR20140112364A
Application number: KR20130125435A
Authority: KR
Inventors: M 리비에르 에스코베도 크리스토퍼; 천싱 청
Original assignee: 삼성전자주식회사
Priority date: 2013-03-13
Filing date: 2013-10-21
Publication date: 2014-09-23
Also published as: US20140278427A1

Abstract

본 발명에 따른 디스플레이 장치는, 사용자의 음성명령을 수신하는 음성수신부와; 복수의 어플리케이션과 통신하는 인터페이스부와; 사용자의 음성명령이 수신되면, 외부서버로부터 복수의 어플리케이션 중 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신하도록 제어하고, 수신한 어플리케이션을 실행하도록 제어하고, 실행된 어플리케이션을 이용하여 상기 수신한 음성명령에 대응하는 동작을 수행하도록 제어하는 제어부를 포함한다.
이에 따라, 대화형 음성인식 기능을 제공하는 디스플레이 장치를 사용함에 있어 사용자의 음성 요청에 대응하는 어플리케이션을 자동으로 실행하여 음성 인식 기능을 제공할 수 있다.

Description

디스플레이 장치 및 디스플레이 장치의 제어방법{DISPLAY APPARATUS AND CONTROL METHOD THEREOF}

본 발명은 디스플레이 장치 및 디스플레이 장치의 제어방법에 관한 것으로서, 보다 상세하게는 사용자의 음성 요청에 대응하는 어플리케이션을 이용하여 대화형 음성인식 기능을 제공하는 디스플레이 장치 및 디스플레이 장치의 제어방법에 관한 것이다.

자동 음성 인식(Automatic Speech Recognition, ASR) 기술은 사용자 등이 입력하는 음성을 집음하여 획득한 음성신호를 텍스트와 같이 소정 언어에 대응되는 데이터로 인식하는 기술로 다양한 분야에 활용될 수 있다. 특히, 음성인식기술은 손가락 등을 통해 특정 버튼을 누르는 등의 종래의 입력방식에 비해 간편하므로, 종래의 입력방식을 대체하는 수단으로 TV, 휴대폰 등의 디스플레이기기에 활용되고 있다. 또한, 음성인식 기술이 발달함에 따라 음성인식엔진을 통해 인식 가능한 음성신호의 범위도 확장되고 있는데, 종래에는 한정된 수의 정해진 단어만을 인식할 수 있는 정도에 불과하였으나, 최근에는 비교적 긴 문장을 인식할 수 있으며 그 정확도 또한 향상된 음성인식엔진이 상용화되고 있는 추세이다.

한편, 대화형 음성인식 시스템에서 사용자의 음성요청을 인식하기 위한 기술로서 자동음성인식(ASR) 기술을 이용한다. 또한, 대화형 음성인식 시스템은 사용자에게 TTS(text-to-speech) 기술을 이용한 시스템 응답의 형태로 오디오 피드백을 제공한다. 이러한 대화형 음성인식 시스템을 위한 어플리케이션들은 특정 서비스 영역에 한정되어 제공되고(예를 들면 호텔예약이나 영화예매 등), 디스플레이 장치에 독립적으로 설치될 수 있다. 그러나, 설치되어 있는 어플리케이션 이외에 다른 서비스 영역의 음성인식 기능을 제공받기 위해서는 별도의 어플리케이션을 설치해야 하는 불편함이 있다.

따라서 본 발명의 목적은, 대화형 음성인식 기능을 제공하는 디스플레이 장치를 사용함에 있어 사용자의 음성 요청에 대응하는 어플리케이션을 자동으로 실행하여 음성 인식 기능을 제공하는 디스플레이 장치의 제어방법을 제공하는 것이다.

상기 목적은, 본 발명에 따라, 디스플레이 장치의 제어방법에 있어서, 사용자의 음성명령을 수신하는 단계와; 외부 서버로부터 복수의 어플리케이션 중 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신하는 단계와; 수신한 어플리케이션을 실행하는 단계와; 실행된 어플리케이션을 이용하여 수신한 음성명령에 대응하는 동작을 수행하는 단계를 포함하는 디스플레이 장치의 제어방법에 의해서 달성될 수 있다.

여기서, 상기 사용자의 음성명령을 수신하는 단계는, 사용자가 상기 디스플레이 장치 및 외부 장치 중 어느 하나에서 음성을 입력하는 단계를 포함할 수 있다.

여기서, 상기 어플리케이션은, 상기 사용자의 음성명령을 상기 어플리케이션이 이해할 수 있는 단어로 생성하기 위한 소정의 생성규칙을 포함할 수 있다.

또한, 상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 유사도 분석정보를 포함할 수 있다.

또한, 상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 상기 어플리케이션의 실행을 위한 순차적인 구조를 포함할 수 있고, 상기 사용자의 음성명령에 대응하는 상기 어플리케이션의 실행을 위한 트리(Tree) 구조를 포함할 수 있다.

상기 목적은, 본 발명에 따라, 디스플레이 장치에 있어서, 사용자의 음성명령을 수신하는 음성수신부와; 복수의 어플리케이션과 통신하는 인터페이스부와; 사용자의 음성명령이 수신되면, 외부서버로부터 복수의 어플리케이션 중 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신하도록 제어하고, 수신한 어플리케이션을 실행하도록 제어하고, 실행된 어플리케이션을 이용하여 수신한 음성명령에 대응하는 동작을 수행하도록 제어하는 제어부를 포함하는 디스플레이 장치에 의해서도 달성될 수 있다.

여기서, 상기 음성수신부는, 상기 디스플레이 장치 및 외부 장치 중 어느 하나로부터 사용자의 음성명령을 수신할 수 있다.

상기한 바와 같이, 본 발명에 의하면, 대화형 음성인식 기능을 제공하는 디스플레이 장치를 사용함에 있어 사용자의 음성 요청에 대응하는 어플리케이션을 자동으로 실행하여 음성 인식 기능을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른, 통신 네트워크를 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 전자 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 전자 장치의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른, 전자 장치에서 대화형 음성인식 기능을 제공하는 프로세스를 도시한 것이다.
도 5 및 6은 본 발명의 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 자연어 이해(NLU) 정보를 도시한 것이다.
도 7은 본 발명의 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 대화 관리자(DM) 정보를 도시한 것이다.
도 8은 본 발명의 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행 이전의 대화 관리자(DM) 정보를 도시한 것이다.
도 9 및 10은 본 발명의 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행에 따른 확장된 자연어 이해(NLU) 정보를 도시한 것이다.
도 11은 본 발명의 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행에 따른 확장된 대화 관리자(DM) 정보를 도시한 것이다.
도 12는 본 발명의 일 실시예에 따른, 컴퓨팅 시스템을 포함하는 전자 장치의 고차원 블록도이다.
도 13은 본 발명의 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 디스플레이 장치의 블록도이다.
도 14는 본 발명의 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 디스플레이 장치의 흐름도이다.

이하, 첨부도면을 참조하여 본 발명의 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예들에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙이도록 한다.

이하, 실시예들은 대체적으로 대화 시스템(DS)을 위한 대화 에이전트(예. 제3자 에이전트) 확장에 관한 것이다. 여기서 대화시스템(DS)은 대화형 음성인식 기능을 제공하기 위해 전자 장치에 설치되는 소프트웨어 및 어플리케이션을 포함한다. 일 실시예는 전자 장치의 DS로 제3자 대화 에이전트들을 위한 대화 에이전트 정보 통합을 제공한다.(여기서, 대화 에이전트는 외부서버로부터 수신되는 복수의 어플리케이션을 포함한다.)일 실시예에 있어서, 상기 전자 장치는 무선 통신 링크와 같은 통신 링크를 통해 데이터 통신이 가능한 이동가능한 전자 장치를 포함한다. 이러한 이동가능한 장치의 예들은 휴대폰 장치, 휴대용 태블릿 장치 등을 포함한다. 고정된 장치들의 예들은 텔레비젼들, 프로젝터 시스템들 등을 포함한다. 본 발명의 전자 장치는, 이에 한정되지 않고 다른 전자장치의 실시예에도 적용될 수 있고, 디스플레이 장치에도 적용될 수 있다.

일 실시예에 있어서, 전자 장치를 위한 대화 에이전트 통합을 위한 방법을 제공한다. 여기서 대화 에이전트의 통합은 대화형 음성인식 기능을 제공하기 위해 외부서버로부터 어플리케이션을 다운로드하여 설치한 후 실행하는 과정을 포함할 수 있다. 이 때, 대화 에이전트의 통합에 있어, 사용자의 음성명령에 대응하는 어플리케이션을 수신하여 실행하는 일련의 과정이 사용자의 개입 없이 자동으로 이루어지도록 구현된다. 따라서 본 발명은 사용자의 대화 요청에 대응하는 어플리케이션의 선택과 다운로드 및 실행의 모든 단계가 사용자의 동작 없이 자동으로 이루어지므로 전자 장치의 음성인식 기능의 제공이 매우 효율적으로 이루어진다.

일 실시예는 대화 요청에 필요한 대화 에이전트를 발견하는 단계를 포함하는데, 상기 대화 에이전트는 상기 대화 요청에 필요한 서비스 도메인에 있어서 오디오 피드백에 필요한 용어들을 포함하는 대화 정보를 포함한다. 일 실시예에 있어서, 상기 대화 정보는 상기 발견된 대화 에이전트로부터 추출된다. 일 실시예에 있어서, 상기 대화 정보는 전자 장치에 대화 기능을 제공하는 대화 시스템(DS)의 현존하는 대화 정보에 통합된다. 일 실시예에 있어서, 상기 DS의 서비스 도메인 대화 기능은 상기 통합된 대화 정보를 가지고 확장된다.

일 실시예에 있어서, 대화 에이전트들(예. 제3자 대화 에이전트들)의 예들은 예약 서비스들(예. 호텔/모텔, 여행, 차 렌탈, 비행기, 식당 등), 주문 서비스들(예. 음식 배달, 상품 등), 약속 서비스들(예. 병원 예약, 사적 약속들, 업무적 약속 등) 등과 같은, 서비스 도메인들에 대한 대화 에이전트들을 포함할 수 있다. 일 실시예에 있어서, 상기 대화 에이전트는 연관된 특정 서비스 도메인에 대한 응답 및 문법적 정보를 포함한다. 제3자 대화 에이전트 정보는 특정 단어, 문법, 응답들을 포함할 수 있고 매우 동적일 수 있다. 일 실시예는 추가적인 대화 에이전트들을 통합하는 것에 의해 특징들이 동적으로 확장될 수 있는 DS를 포함하는 전자 장치를 제공한다.

일 실시예로서, 본 발명은 복수의 대화 기능들을 포함하는 서비스 도메인들을 위한 새로운 대화 에이전트들을 통합함에 의해 확장된 DS를 제공한다. 일 실시예에 있어서, 에이전트는 음성 어플리케이션의 일부로서 포함되거나 별도의 모듈로서 제공될 수 있다. 일 예에 있어서, '호텔 예약' 대화 음성 어플리케이션은 상기 DS가 호텔 예약과 관련 있는 사용자의 발화를 이해하도록 허용하는 "호텔 예약" 에이전트를 포함할 수 있다. 일 실시예에 있어서, 상기 대화 에이전트에 있어 특정 서비스 도메인에 대한 사용자의 발화를 취급할 수 있는 제3자 대화 에이전트들을 통합함에 의해 새로운 기능이 DS에 부가된다. 일 실시예에 있어서, 상기 대화 에이전트들은 상기 DS 아키텍쳐에 종속하는 시스템 특정 툴킷들(toolkits)을 적용하는 것에 의해 생성될 수 있다. 이러한 툴킷들은 제3자가 상기 DS와 통합되는 데 필요한 최소 기능을 구현하는 대화 에이전트를 제공하는 것을 허용한다. 일 예에 있어서, "간단 호텔 예약" 대화 에이전트는 이 대화 에이전트가 이해할 수 있는 언어를 생성하는 자연어 이해 (NLU) 문법을 포함할 수 있다. 호텔 예약에 특정되는 대화 흐름을 제어하기 위해, 이 대화 에이전트는 상기 사용자로부터 입력을 획득하는 데 사용될 수 있는 대화 관리자(DM)을 포함한다. 일 실시예에 있어서, 대화 에이전트는 상기 대화 에이전트의 서비스 도메인에 관련된 시스템 응답들의 목록을 제공한다. 일 실시예에 있어서, 상기 응답들은 자연어 생성 (NLG) 정보 또는 모듈을 이용해 자동으로 생성될 수 있다.

도 1은 일 실시예에 따른, 통신 네트워크를 도시한 것이다. 통신 시스템(10)은 나가는 통신 작업을 시작하는 통신 장치(전송 장치(12)) 및 통신 네트워크(110)를 포함하는데, 이 통신 장치(12)는 통신 네트워크(110) 안의 다른 통신 장치들과 통신 작업들을 시작하고 수행하는 데 사용될 수 있다. 예를 들어, 통신 시스템(10)은 상기 전송 장치(12)로부터 통신 작업을 수신하는 통신 장치(수신 장치(11))를 포함할 수 있다. 통신 시스템(10)은 수 개의 전송 장치들(12) 및 수신 장치들(11)을 포함할 수 있지만, 도면을 단순화하기 위해 도 1에는 그 각각에 대해 단지 하나만 도시되어 있다.

통신 네트워크를 생성하는 데 사용될 수 있는 적절한 회로, 장치, 시스템 또는 이들의 조합(예. 통신 탑들 및 원거리통신 서버들을 포함하는 무선 통신 인프라스트럭쳐)이 통신 네트워크(110)를 생성하는 데 사용될 수 있다. 통신 네트워크(110)는 적절한 통신 프로토콜을 이용해 통신을 제공할 수 있다. 몇몇의 실시예들에 있어서, 통신 네트워크(110)는 예를 들어, 전통적인 전화선들, 케이블 TV, WiFi(예. 802.11 프로토콜), 블루투스, 고주파 시스템(예. 900 MHz, 2.4 GHz, 및 5.6 GHz 통신 시스템들), 적외선, 다른 상대적으로 지엽적인 무선 통신 프로토콜, 또는 이들의 조합을 지원할 수 있다. 몇몇의 실시예들에 있어서, 통신 네트워크(110)는 무선 및 셀 방식의 전화들 및 사적인 이메일 장치들(예. 블랙베리)에 의해 사용되는 프로토콜들을 지원할 수 있다. 이러한 프로토콜들은 예를 들어, GSM, GSM + EDGE, CDMA, 쿼드밴드, 및 다른 셀 방식의 프로토콜들을 포함할 수 있다. 다른 예에 있어서, 광범위 통신 프로토콜은 WiFi 및 VOIP 또는 LAN을 이용해 콜(call)를 배치하거나 또는 수신할 수 있는 프로토콜들을 포함할 수 있다. 전송 장치(12) 및 수신 장치(11)는, 통신 네트워크(110) 안에 위치될 때, 경로(13)와 같은 양방향 통신 경로를 통해 통신할 수 있다. 전송 장치(12) 및 수신 장치(11) 통신 작업을 시작하고 시작된 통신 작업을 수신할 수 있다.

전송 장치(12) 및 수신 장치(11)는 통신 작업들을 송신하고 수신하는 데 필요한 적절한 장치를 포함할 수 있다. 예를 들어, 전송 장치(12) 및 수신 장치(11)는 미디어 플레이어, 셀 방식의 전화기 또는 지상선 전화기, 오디오 및/또는 비디오 능력들을 가지는 사적 이메일 또는 메세징 장치, 캘리포니아주 파로 알토의 휴렛 패커드 사에 의해 이용가능한 iPAQ 포켓 PC와 같은 포켓 크기의 컴퓨터들, 디지털 보조장치들(personal digital assistants, PDAs), 데스크탑 컴퓨터, 랩탑 컴퓨터 및 무선(무선통신을 위한 악세서리 장치 포함) 또는 유선 경로(예. 전통적인 전화선)를 통해 통신가능한 다른 장치를 포함할 수 있다. 상기 통신 작업들은 예를 들어, 음성 통신(예. 전화 통화), 데이터 통신(예. 이메일, 문자 메시지, 미디어 메시지), 또는 이들의 조합(예. 비디오 회의)을 포함하는, 적절한 형태의 통신을 포함할 수 있다.

도 2는 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 전자 장치의 블록도이다. 전송 장치(12) 및 수신 장치(11) 모두는 전자 장치(120)의 특징들 중 일부 또는 그 전부를 포함할 수 있다. 일 실시예에 있어서, 상기 전자 장치(120)는 디스플레이(121), 마이크로폰(122), 오디오 출력(123), 입력 메커니즘(124), 통신 회로(125), 제어 회로(126), 카메라(127), GPS(global positioning system) 수신기 모듈(118), ASR 엔진(135) 및 DS(140), 및 다른 적절한 구성요소들을 포함할 수 있다. 일 실시예에 있어서, 대화 에이전트1(147) 내지 대화 에이전트N(160)이 제3자 제공자들에 의해 제공되고 클라우드 또는 네트워크(130), 통신 네트워크(110) 등으로부터 획득될 수 있고, 이때 N은 1과 같거나 이보다 큰 양의 정수이다.

일 실시예에 있어서, 오디오 출력(123), 디스플레이(121), 입력 메커니즘(124), 통신 회로(125) 및 마이크로폰(122)에 의해 채용된 어플리케이션들 모두는, 서로 연결되어 있고 제어 회로(126)에 의해 관리된다. 일 예에 있어서, 음악파일을 다른 장치들(tuning devices)로 전송할 수 있는 휴대용 음악 재생기는 상기 전자 장치(120)로 통합될 수 있다.

일 실시예에 있어서, 오디오 출력(123)은 전자 장치(120)의 사용자에게 오디오를 제공하는 적절한 오디오 구성요소를 포함할 수 있다. 예를 들어, 오디오 출력(123)은 전자 장치(120)에 만들어진 하나 또는 그 이상의 스피커들(예. 모노 또는 스테레오 스피커들)을 포함할 수 있다. 몇몇의 실시예들에 있어서, 오디오 출력(123)은 전자 장치(120)에 원격으로 결합된 오디오 구성요소를 포함할 수 있다. 예를 들어, 오디오 출력(123)은 통신 장치에 유선(예. 잭으로 전자 장치(120)에 결합되는) 또는 무선(예. 블루투스 헤드폰 또는 블루투스 헤드셋)으로 결합될 수 있는 헤드셋, 헤드폰들 또는 이어폰들을 포함할 수 있다.

일 실시예에 있어서, 디스플레이(121)는 사용자에게 보여질 수 있는 디스플레이를 제공하는 적절한 스크린 또는 프로젝션 시스템을 포함할 수 있다. 예를 들어, 디스플레이(121)는 전자 장치(120)에 결합되어 있는 스크린(예. LCD 스크린)을 포함할 수 있다. 다른 예로, 디스플레이(121)는 전자 장치(120)로부터 멀리 떨어진 표면 상에 컨텐츠의 디스플레이를 제공하는, 움직일 수 있는 디스플레이 또는 프로젝팅 시스템(예. 비디오 프로젝터)을 포함할 수 있다. 디스플레이(121)는 제어 회로(126)의 지시 하에서 컨텐츠(예. 통신 작업들에 관한 정보 또는 이용가능한 미디어 선택들에 관한 정보)를 디스플레이하도록 작동될 수 있다.

일 실시예에 있어서, 입력 메커니즘(124)은 전자 장치(120)에 사용자 입력들 또는 지시들을 제공하기 위한 적절한 메커니즘 또는 사용자 인터페이스일 수 있다. 입력 메커니즘(124)은 버튼, 키패드, 다이얼, 클릭 휠, 또는 터치 스크린과 같은, 다양한 형태를 취할 수 있다. 상기 입력 메커니즘(124)은 멀티-터치 스크린을 포함할 수 있다. 상기 입력 메커니즘은 터치 스크린 상에 또는 클릭 휠 또는 다른 사용자 입력 장치와 스크린의 조합으로 구현될 수 있는, 회전식 전화기 또는 멀티-버튼 키패드를 흉내낼 수 있는 사용자 인터페이스를 포함할 수 있다.

일 실시예에 있어서, 통신 회로(125)는 통신 네트워크(예. 통신 네트워크(110), 도 1)에 연결되고 또한 상기 전자 장치(120)로부터 상기 통신 네트워크 안의 다른 장치들로 미디어 및 통신 작업들을 전송하도록 작동되는 적절한 통신 회로일 수 있다. 통신 회로(125)는 적절한 통신 프로토콜, 예를 들어 Wi-Fi(예. 802.11 프로토콜), 블루투스, 고주파 시스템들(예. 900 MHz, 2.4GHz, 및 5.6 GHz 통신 시스템들), 적외선, GSM, GSM + EDGE, CDMA, 쿼드밴드, 및 다른 셀 방식의 프로토콜들, VOIP, 또는 다른 적절한 프로토콜을 이용해 상기 통신 네트워크에 인터페이스하도록 작동될 수 있다.

몇몇의 실시예들에 있어서, 통신 회로(125)는 적절한 통신 프로토콜을 이용해 통신 네트워크를 생성하도록 작동될 수 있다. 예를 들어, 통신 회로(125)는 다른 통신 장치들에 연결하기 위해 단거리 통신 네트워크를 생성할 수 있다. 예를 들어, 통신 회로(125)는 블루투스 헤드셋으로 상기 전자 장치(120)에 결합되는 블루투스 프로토콜을 이용해 지엽적인 통신 네트워크를 생성하도록 작동될 수 있다.

일 실시예에 있어서, 제어 회로(126)는 상기 전자 장치(120)의 수행(performance) 및 작업들을 제어하도록 작동될 수 있다. 제어 회로(126)는 예를 들어, 프로세서, (예. 상기 전자 장치(120)의 다른 구성요소들로 지시들을 전달하기 위한) 버스, 메모리, 저장장치, 또는 상기 전자 장치(120)의 작업들을 제어하기 위한 다른 적절한 구성요소를 포함할 수 있다. 몇몇의 실시예들에 있어서, 프로세서는 디스플레이를 구동하고 상기 사용자 인터페이스로부터 수신된 입력들을 처리할 수 있다. 상기 메모리 및 저장장치는, 예를 들어, 캐쉬, 플래쉬 메모리, ROM, 및/또는 RAM을 포함할 수 있다. 몇몇의 실시예들에 있어서, 메모리는(예. 운영 시스템, 사용자 인터페이스 기능들 및 프로세서 기능들과 같은 장치 어플리케이션들을 위한) 저장 펌웨어로 특히 전용될 수 있다. 몇몇의 실시예들에 있어서, 메모리는 상기 전자 장치(120)와 통신 작업들을 수행하는 다른 장치들에 관한 정보를 저장하도록 (예. 통신 작업들에 관한 접촉 정보를 저장하거나 또는 상기 사용자에 의해 선택된 미디어 항목들 및 다른 미디어 타입들에 관한 정보를 저장하도록) 작동될 수 있다.

일 실시예에 있어서, 상기 제어 회로(126)는 상기 전자 장치(120) 상에 구현된 하나 또는 그 이상의 어플리케이션들의 작업들을 수행하도록 작동될 수 있다. 적절한 수 또는 종류의 어플리케이션들이 구현될 수 있다. 이하의 설명은 서로 다른 어플리케이션들을 열거하지만, 이 어플리케이션들 중 일부 또는 모두는 하나 또는 그 이상의 어플리케이션들에 결합될 수 있다. 예를 들어, 상기 전자 장치(120)는 ASR 어플리케이션, 대화 어플리케이션, 맵 어플리케이션, 미디어 어플리케이션(예. QuickTime, MobileMusic.app, 또는 MobileVideo.app)을 포함할 수 있다. 몇몇의 실시예들에 있어서, 상기 전자 장치(120)는 통신 작업들을 수행하도록 작동되는 하나 또는 수 개의 어플리케이션들을 포함할 수 있다. 예를 들어, 상기 전자 장치(120)는 메세징 어플리케이션, 메일 어플리케이션, 전화기 어플리케이션, 보이스메일 어플리케이션, (예. 채팅을 위한) 인스턴트 메세징 어플리케이션, 비디오컨퍼런싱 어플리케이션, 팩스 어플리케이션, 또는 적절한 통신 작업을 수행하기 위한 다른 적절한 어플리케이션을 포함할 수 있다.

몇몇의 실시예들에 있어서, 상기 전자 장치(120)는 마이크로폰(122)을 포함할 수 있다. 예를 들어, 전자 장치(120)는 통신 작업 동안 또는 통신 작업을 설립하기 위한 수단으로서 또는 물리적 사용자 인터페이스를 이용하는 대신 사용자가 오디오(예. 음성 오디오)를 전송하도록 허용하는 마이크로폰(122)을 포함할 수 있다. 마이크로폰(122)은 전자 장치(120)에 통합될 수 있거나, 또는 상기 전자 장치(120)에 원격으로 결합될 수 있다. 예를 들어, 마이크로폰(122)은 유선 헤드폰에 결합될 수 있거나, 또는 마이크로폰(122)은 무선 헤드셋에 결합될 수 있다.

일 실시예에 있어서, 상기 전자 장치(120)는 통신 작업을 수행하는 데 적절한 다른 구성요소를 포함할 수 있다. 예를 들어, 상기 전자 장치(120)는 전원 공급부, 호스트 장치에 결합하기 위한 인터페이스들 또는 포트들, 이차적인 입력 메커니즘(예. ON/OFF 스위치), 또는 다른 적절한 구성요소를 포함할 수 있다.

일 실시예에 있어서, 사용자는 적절한 접근을 이용해 통신 작업을 수행하도록 전자 장치(120)를 안내할 수 있다. 일 예로, 사용자는 다른 장치로부터 통신 요청(예. 걸려오는 전화 통화, 이메일 또는 문자 메시지, 인스턴트 메시지)을 수신할 수 있고, 상기 통신 요청을 받아들이는 것에 의해 통신 작업을 시작할 수 있다. 다른 예로, 사용자는 다른 통신 장치를 확인하고 통신 작업을 시작하기 위한 요청(예. 전화 번호 누름, 이메일 전송, 문자 메시지 쓰기, 또는 챗 스크린 명칭 선택 및 챗 요청 전송)을 전송하는 것에 의해 통신 작업을 시작할 수 있다.

일 실시예에 있어서, 상기 전자 장치(120)는 상기 디스플레이(121), 상기 GPS 수신기 모듈(132), 상기 카메라(131), 나침반 모듈, 및 가속계 및 자이로스코프 모듈을 포함하는, 하드웨어 기능을 이용할 수 있는, 이동가능한 장치를 포함할 수 있다. 상기 GPS 수신기 모듈(132)은 상기 이동가능한 장치(즉, 사용자)의 현재 위치를 확인하는 데 사용될 수 있다. 상기 나침반 모듈은 상기 이동가능한 장치의 방향을 확인하는 데 사용될 수 있다. 상기 가속계 및 자이로스코프 모듈은 상기 이동가능한 장치의 틸트를 확인하는 데 사용된다. 다른 실시예들에 있어서, 상기 전자 장치는 텔레비전 또는 텔레비전 구성요소 시스템을 포함할 수 있다.

일 실시예에 있어서, 상기 ASR 엔진(135)은 상기 단어 어플리케이션들에 기초하여 상기 마이크로폰(122)을 통해 들어오는 음성 신호들을 단어들로 변환하는 것에 의해 음성 인식을 제공한다. 일 실시예에 있어서, 상기 대화 에이전트1(147) 내지 대화 에이전트N(160)은 상기 ASR 엔진(135)이 올바른 음성 인식을 제공하기 위해, 특정 단어 어플리케이션들을 필요로 하는 문법 및 응답어를 포함할 수 있다. 일 실시예에 있어서, 상기 전자 장치(120)는 음성 인식 결과들을 제공하기 위해 제3자 단어 어플리케이션들의 음성 인식 통합을 제공하기 위한 ASR(135)을 사용한다. 일 실시예에 있어서, 상기 제3자 단어 어플리케이션은 특정 서비스 도메인 대화 에이전트와 동일한 제공자에 의해 제공될 수 있다. 일 실시예에 있어서, 제3자 단어 어플리케이션은 상기 특정 서비스 도메인 대화 에이전트를 포함할 수 있다.

하지만, 수신자와 통신 작업을 시작하고 통신 작업 동안 대화 세션을 실행하는 것이 어려울 수 있다. 예를 들어, 사용자가 친구에게 전화를 할 수 있고 이들 두 명에 대한 비행기 예약을 하기를 원할 수 있다. 상기 사용자는 동일한 토신 장치를 이용해 제3자 대화 서비스와 통신하기 위해 통화를 종료해야만 할 수 있다. 이러한 상황을 방지하기 위해, 실시예들은 사용자가 통신 작업을 시작하거나 또는 받아들이는 것을 허용할 수 있고, 상기 통신 작업이 설립되기만 하면, 동일한 통신 장치를 이용하는 상기 통신 작업 동안 대화 세션을 실행하는 것을 허용할 수 있다.

일 실시예에 있어서, 상기 DS(140)는 DS 에이전트 인터페이스(129), NLU 모듈(141), NLG 모듈(142), DM 모듈(143) 및 TTS 엔진(144)을 포함한다. 일 실시예에 있어서, 상기 NLU 모듈(141)은 NLU가 요청한 행동들을 포함하는 하나 또는 그 이상의 파일들 및 음성 응답들을 나타내는 노드들에 연결되는 브랜치들을 포함한다.

일 실시예에 있어서, 상기 대화 에이전트1(147)은 NLU 정보(148), NLG 정보(149) 및 DM 정보(150)를 포함하고, 또한 대화 에이전트N(160)는 NLU 정보(161), NLG 정보(162), 및 DM 정보(163)를 포함한다. 일 실시예에 있어서, 상기 대화 에이전트1(147)로부터의 상기 대화 정보(즉, NLU(148), NLG(149) 및 DM(150))의 상기 현존하는 대화 정보(즉, 상기 DS(140)의 NLU, NLG 및 DM 파일들)로의 통합은, 상기 대화 에이전트1(147)으로부터의 NLU 정보를 상기 NLU 모듈(141)의 상기 NLU 정보에 부가하는 것, 상기 대화 에이전트1(147)으로부터의 상기 NLG 정보(149)를 상기 NLG 모듈(142)의 NLG 정보에 부가하는 것; 및 상기 대화 에이전트1(147)으로부터의 상기 DM 정보(150)를 상기 DM 모듈(143)의 상기 DM 정보에 부가하는 것을 포함한다. 일 실시예에 있어서, 상기 대화 에이전트1(147)으로부터의 상기 대화 정보는 상기 DS(140)의 상기 현존하는 대화 정보에 통합되거나 부가된다.

일 실시예에 있어서, 상기 대화 에이전트N(160)로부터의 상기 대화 정보(즉, NLU(161), NLG(162) 및 DM(163))의 상기 현존하는 대화 정보(즉, 상기 DS(140)의 NLU, NLG 및 DM 파일들)로의 통합은, 상기 대화 에이전트N(160)으로부터의 NLU 정보(161)를 상기 NLU 모듈(141)의 상기 NLU 정보에 부가하는 것, 상기 대화 에이전트N(160)으로부터의 상기 NLG 정보(162)를 상기 NLG 모듈(142)의 NLG 정보에 부가하는 것; 및 상기 대화 에이전트N(160)으로부터의 상기 DM 정보(163)를 상기 DM 모듈(143)의 상기 DM 정보에 부가하는 것을 포함한다. 일 실시예에 있어서, 상기 대화 에이전트1(147)의 상기 대화 정보가 상기 DS(140)의 상기 현존하는 대화 정보에 통합되거나 부가된 후, 상기 대화 에이전트N(160)의 상기 대화 정보는 상기 통합된 대화 에이전트1(147) 대화 정보로부터 상기 통합/부가된 대화 정보를 포함하는 상기 DS(140)의 상기 현존하는 대화 정보에 통합되거나 부가된다. 일 실시예에 있어서, 상기 DS(140)가 사용자 발화에 대한 적당한 응답을 결정하기만 하면, 그 결과는 상기 출력이 상기 오디오 출력(123)으로 전송되는, 음성으로의 변환을 위한 TTS 엔진(144)으로 전달되어, 상기 사용자가 그 응답을 들을 수 있다. 일 실시예에 있어서, 상기 결과들은 사용자들이 그 응답을 읽을 수 있도록 상기 디스플레이(121)로 전달된다.

도 3은 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 전자 장치의 흐름도이다. 일 실시예에 있어서, 상기 프로세스(200)는 상기 프로세스(200)가 시작되는 블록 201로부터 시작된다. 일 실시예에 있어서, 상기 프로세스(200)는 상기 입력 메커니즘(124)(예. 디스플레이 스크린 상의 두드림(tapping), 버튼 누름, 리모콘 이용, 대화 어플리케이션의 론칭 등)을 이용해 사용자가 음성 인식 어플리케이션을 이동가능한 또는 고정된 전자 장치들(예. 전자 장치(120))에 론칭하는 것에 의해 시작할 수 있다. 일 실시예에 있어서, 마이크로폰(예. 마이크로폰(122))을 통해 들어오는 음성 신호들은 ASR(예. ASR(135))에 의해 처리되고 상기 프로세스(200)를 위한 초기 발화로 블록 202로 입력된다.

일 실시예에 있어서, 블록 203에서, 상기 DS(예. DS(140))가 상기 DS의 대화 정보(예. NLU, NLG,및 DM 정보) 안에 이미 설치/통합되어 있는 입력된 발화를 취급하는 대화 에이전트를 포함하는지 여부가 판단된다. 상기 입력된 발화를 취급하는 데 필요한 상기 대화 에이전트가 이미 상기 DS 안에 설치/통합되어 있는 것으로 판단되면, 그후 프로세스(200)은 블록 209로 계속되고, 그렇지 않다면 프로세스(200)은 블록 204로 계속된다. 일 실시예에 있어서, 블록 204에서, DS(예. DS(140))는 멀리 떨어진 적절한 서비스 도메인(상기 클라우드/네트워크(130), 어플리케이션 스토어 등)에서 상기 입력된 발화를 취급할 수 있는 대화 에이전트를 위치/발견할 수 있는지 여부를 자동으로 체크한다. 다른 실시예에 있어서, 사용자는 상기 DS를 적절한 서비스 도메인에서 상기 입력된 발화를 취급할 수 있는 대화 에이전트를 발견하기 위한 원격 위치를 수동으로 탐색하기 위해 사용할 수 있다.

일 실시예에 있어서, 블록 205에서, 상기 사용자 요청을 취급할 수 있는 대화 에이전트가 존재하는 것으로 발견된 것으로 판단되면, 프로세스(200)는 블록 206으로 계속되고, 그렇지 않다면 프로세스(200)는 블록 207로 계속된다. 일 실시예에 있어서, 블록 206에서, 상기 DS 시스템은 상기 사용자가 새로운 대화 에이전트를 상기 DS에 설치하는 것을 원하는지 여부를 요청한다. 상기 새로운 대화 에이전트가 설치되기를 원하는 것으로 판단되면, 프로세스(200)는 블록 208로 계속되고, 그렇지 않다면 프로세스(200)는 블록 207로 계속된다. 일 실시예에 있어서, 블록 208에서, 상기 새로운 대화 에이전트가 상기 DS로 통합되는데, 상기 새로운 에이전트로부터의 NLU, NLG, 및 DM 정보가 상기 DS의 현존하는 NLU, NLG 및 DM 정보로 통합/부가된다. 프로세스(200)는 상기 새로이 부가된 대화 에이전트가 사용자의 대화 서비스들의 요청을 취급하는 블록 209로 계속된다. 블록 210에서, 프로세스(200)는 그후 상기 대화 세션의 완료로 종료된다.

일 실시예에 있어서, 블록 207에서, 상기 사용자에게 대화 서비스들에 대한 요청을 취급할 능력이 없음이 통지되고, 프로세스(200)은 프로세스(200)이 종료되는 블록 210으로 계속된다. 일 실시예에 있어서, 상기 프로세스(200)은 새로운 대화 에이전트들을 부가하는 목적을 달성하기 위한 프로세싱 또는 다른 기능을 포함할 수 있다. 일 실시예에 있어서, 새로운 대화 에이전트를 통합하기 위한 프로세스는 상기 새로운 대화 에이전트를 상기 DS에 등록하고, 그 대화 기능들(NLU, NLG, 및 DM)을 가능한 방법으로 상기 DS에 부가하는 것을 포함한다.

도 4는 일 실시예에 따른, 전자 장치에서 대화형 음성인식 기능을 제공하는 프로세스를 도시한 것이다. 일 실시예에 있어서, 상기 프로세스(300)는 시스템 레벨 부분(310), ASR 엔진(예. ASR 엔진(135)을 통한) 부분(320), 및 상기 DS와 상호작용을 포함하는 제3자 어플리케이션 부분(330)으로 분할된다. 일 실시예에 있어서, 상기 프로세스(300)는 음성이 상기 마이크로폰(122)으로 들어와서 음성 신호들(312)로 변환되는 블록 310에서 시작한다.

일 실시예에 있어서, 상기 음성 신호들(212)은 블록 320에서 상기 ASR(135)로 들어가서 단어들로 변환된다. 프로세스(300)는 상기 NLU 파일(들) 안에서 이로부터 결정된(또는 프로세스(200)로 새로운 대화 에이전트로서 추가된) 적절한 대화 에이전트의 NLU 정보를 이용하는 것에 기초하여 이해될 수 있는 요청을 형성하기 위해 상기 인식된 단어들이 자연어 모델 및 문법 모듈(351)로 들어가는 곳으로 계속된다. 일 실시예에 있어서, 상기 새로운 대화 정보는 제3자 어플리케이션들(345)로부터 프로세스(200)를 이용해 탐색된다. 프로세스(300)는 상기 이해된 단어들이 블록 353에서 상기 DM 구조(예. 트리 구조, 순차적인 구조, 다른 적절한 구조 등)를 통해 대화가 진행되도록 하고, 상기 NLG 정보에 기초하여 상기 자연어 응답이 블록 353에서 리턴된다. 프로세스(300)는 상기 ASR(135)에 대한 특정 단어를 결정하기 위해 상기 DS(140)로부터의 자연어 응답들이 블록 340으로 전달된다. 일 실시예에 있어서, TTS 어플리케이션(예. TTS 엔진(144))이 그후 상기 응답 단어들을 전자 장치(예. 디스플레이 장치(120))의 상기 오디오 출력(예. 오디오 출력(123))으로 출력하기 위한 음성 변환을 위해 사용된다.

도 5는 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 자연어 이해(NLU) 정보를 도시한 것이다. 상기 NLU 정보(400)의 예에 있어서, 상기 컨텐츠들은 CFG 해석기(partser)가 각각의 대화 에이전트를 위한 생성 규칙의 위치에 기초하여 발화를 검출하는 곳에서 단어정의(notation) 형식으로 호텔/모델 객실 예약 대화 에이전트에 적절한 용어들/단어들을 포함한다. 일 실시예에 있어서, 각각의 생성 규칙은 PCFG와 연관되는데, 상기 ASR(135)로부터 상기 DS(140)로의 음성 입력의 가장 유사한 해석을 확인하는 데 사용된다.

일 실시예에 있어서, 상기 DS(140)의 CFG 해석기는 사용자의 발화를 분석하는 것에 의해 상기 NLU 정보(400)의 좌측에서 시작한다. 일 실시예에 있어서, 생성에 있어서 몇몇의 단어들은 일부의 정보가 소실되거나 상기 ASR(135)에 의해 틀리게 제공될 수 있는 경우들을 취급하기 위해 상기 DS(140)에 유연성을 부가한다(즉, "?"를 이용해 지시된다). 일 실시예에 있어서, 사용자의 발화가 상기 규칙을 이용해 해석될 수 있다면, 그때 대응하는 에이전트는 상기 사용자의 대화 요청을 취급할 수 있다.

도 6은 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 자연어 이해(NLU) 정보를 도시한 것이다. 일 예에 있어서, 상기 대화 에이전트(예. 상기 호텔/모텔 객실 예약 대화 에이전트)에 의해 받아들여질 수 있는 입력은 "I want to reserve a room(방을 예약하고 싶어요)", "Book one hotel(호텔 예약)", "I need to locate an inn(숙소의 위치를 알고 싶어요)"의 상기 NLU 정보 안의 단어들의 조합과 같은, 사용자 발화들을 포함한다. 일반적인 CFG 해석기는 예약 에이전트를 위한 주요 생성 규칙이 사용자 발화를 검출하기 위해 사용될 수 있다. 이 경우에 있어서, 상기 CFG 해석기가 사용자의 입력으로부터 "BookReservation"생성 규칙을 검출하면, 그후 상기 대화 시스템은 "간단 호텔 에이전트"와 같은 대화 에이전트를 실행해야 한다는 것을 안다. 일 실시예에 있어서, 각각의 생성이 가능성(예. PCFG)을 가지면, 그후 각각의 가능한 해석의 가능성은 상기 사용자의 발화의 가장 유사한 해석을 확인하는 데 사용될 수 있다. 이것은 복수의 대화 에이전트들이 소정의 사용자 발화를 취급할 수 있을 때 충돌들(conflicts)을 해결하는 데 유용할 수 있다.

일 실시예에 있어서, NLG 정보에 대해, 대화 에이전트는 각각의 지원되는 행동들에 연관된 가능한 시스템 응답들을 단순히 열거할 수 있다 일 예에 있어서, 상기 간단 호텔 에이전트가 활성화된 후, 상기 대화 에이전트는 이하의 질문, "어디 가십니까?" 를 상기 TTS엔진(144)로 전달하는 것에 의해 추가적인 정보를 요청하는 것에 의해 사용자에게 응답할 수 있다. 다른 가능한 시스템 응답들은, "호텔 A, B, C를 찾았습니다. 어느 것을 선택하시겠습니까?"; "죄송합니다만, 이 호텔은 만실입니다."; 또는 "예약이 완료되었습니다. 감사합니다."이다.

도 7은 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 대화 관리자(DM) 정보를 도시한 것이다. 일 실시예에 있어서, 대화 구조(예. 트리 구조, 순차적인 구조, 다른 적절한 구조 등)는 사용자의 대화 목적을 달성하기 위해 상기 DM 정보를 구현하기 위한 추가적인 정보를 수집하기 위해 제공될 수 있다. 몇몇의 실시예들에 있어서, 상기 DM의 구현은 DS마다 다양할 수 있다. 일 실시예에 있어서, 대화의 DM의 기본적인 설계는 트리 구조를 반영할 수 있다. 일 구현에 있어서, 상기 DM은 루트 노드를 포함하는데, 이것은 실행을 위해 이미 선택된 대화를 어떻게 진행하는지에 대한 정보를 상기 DS에 제공한다. 가장 낮은 수준의 트리는 추가적인 대화를 필요로 할 수 있는 행동들을 열거한다. 만약 더 많은 대화가 필요하면, 상기 추가적인 기능을 제공하는 것은 에이전트의 DM에 달려 있다.

일 실시예에 있어서, 상기 제3자 에이전트 "Simple Hotel Agent, 간단 호텔 에이전트"(710)는 이하에서 연결되는 행동들(721, 722, 723)을 가지는 노드로서 도시된다. 일 예에 있어서, 행동 721은 예약 행동과 연관되고; 행동 722는 취소 예약 행동과 연관되고; 행동 723은 체크 예약 상태 행동과 연관된다. 상기 행동들 721, 722, 723 각각은 하부행동들 731, 732, 733에 대한 노드들이다. 일 예에 있어서, 하부행동 731은 목적지 요청, 날짜 요청, 사용자 결과들 보여줌, 및 예약 확인을 위한 하부행동들을 포함할 수 있다. 일 예에 있어서, 하부행동 732는 예약확인(ID) 받기 및 취소 확인을 위한 하부행동들을 포함할 수 있다. 일 예에 있어서, 하부행동 733은 예약 ID 받기, 및 사용자에게 상태 설명하기를 위한 하부행동들을 포함할 수 있다. 일 실시예에 있어서, DM 정보(700) 안의 상기 행동들 및 하부행동들 각각은 상기 NLG 정보에 유지되는 가능한 응답들에 연관된다.

이 예에 있어서, 상기 간단 호텔 에이전트(710)는 예약, 취소, 및 호텔 예약들의 상태를 체크할 수 있다. 예약을 하려고 할 때, 추가적인 상세사항이 이 작업을 완료하기 위해 요구된다. 상기 DM 모듈(143)은 사용자가 어디로 가고 싶어하는지 사용자가 언제 예약을 하고 싶어하는지 판단한다. 일 실시예에 있어서, 사용자에게 질문하기 위해 필요한 추가적인 대화는 NLG 템플릿들로부터 획득되고, 상기 NLU 정보는 추가적인 문법으로부터 획득된다. 상기 대화 에이전트 구조(700)는 단지 하나의 에이전트의 상기 대화 구조(예. 트리 구조, 순차적인 구조, 다른 적절한 구조 등)를 포함한다는 것에 유의해야 한다. 하지만 일 실시예에 있어서, 상기 DS(140)는 상기 시스템에 추가적인 기능을 부가하는 복수의 하부구조들을 포함할 수 있다.

도 8은 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행 이전의 대화 관리자(DM) 정보를 도시한 것이다. 일 실시예에 있어서, 상기 사용자 발화(312)는 상기 루트 노드(810)로 시작하는 상기 구조(800)를 지나가는 데 사용될 수 있다. 일 구현에 있어서, 제1레벨은 상기 대화 에이전트의 주요 행동들을 포함한다. 일 실시예에 있어서, 이 트리 구조의 잎들은 주요 행동을 달성하는 데 필요한 하부행동들이다.

일 실시예에 있어서, 상기 구조(800)는 대화 에이전트 821(인사 에이전트), 대화 에이전트 822(사진 에이전트), 및 대화 823(달력 에이전트)를 포함하는 상기 현존하는 DM 정보(예. 상기 DM 모듈(143)로부터, 도 2)를 보여준다. 일 예에 있어서, 상기 대화 에이전트 821은 "환영합니다." 및 "사용자 업데이트"와 같은, 상기 행동들 831을 포함한다. 일 예에 있어서, 상기 대화 에이전트 822는 "사용자 사진을 찍으세요" 및 "간단 사진 편집"과 같은, 상기 행동들 832을 포함한다. 일 예에 있어서, 상기 대화 에이전트 823는 "이벤트 설정" 및 "이벤트 삭제"와 같은 행동들 833을 포함한다.

도 9는 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행에 따른 확장된 자연어 이해(NLU) 정보를 도시한 것이다. 일 실시예에 있어서, 상기 확장된 NLU 정보(900)는, 인사 대화 에이전트를 위한 NLU 정보 921; 간단 사진 편집 대화 에이전트를 위한 NLU 정보 922; 달력 대화 에이전트를 위한 NLU 정보 923; 및 모텔/호텔 예약 대화 에이전트를 위한 NLU 정보 924를 포함한다. 일 실시예에 있어서, 상기 DS에 대한 추가된 추가적인 문법이 사용자의 발화를 이해하기 위해 제공된다. 상기 문법 파일은 이제 4개의 문법 규칙들을 포함하는데, 이것은 어떤 대화 에이전트가 활성화되어야 하는지 판단하기 위해 호환가능한 CFG 해석기에 의해 사용될 수 있다.

일 실시예에 있어서, 상기 현존하는 NLU 정보는 처음에 대화 에이전트들 921, 922, 및 923으로 구성되고 그후 상기 NLU 정보 924가 상기 현존하는 NLU 정보에 통합/부가되어 상기 NLU 정보(900)로 귀결된다. 일 예에 있어서, 상기 인사 에이전트는 사용자의 인사에 응답하고 상기 DS에 대한 사용자에 대한 정보를 업데이트할 수 있다. 상기 사진 에이전트는 사진을 찍고 간단한 사진 편집을 하기 위해 내장 카메라 장치를 사용할 수 있다. 상기 달력 에이전트는 사용자의 달력에 이벤트들을 설정 및 삭제할 수 있다. 일 구현에 있어서, 상기 대화 에이전트들의 예는 각각의 행동들에 연관된 문법 및 응답들을 포함한다. 각각의 행동은 상기 대화 에이전트들의 DM이 취급할 수 있는 하부 대화들을 필요로 할 수 있다.

도 10은 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행에 따른 확장된 자연어 이해(NLU) 정보를 도시한 것이다. 일 실시예에 있어서, 픽쳐 형태(1000)에 도시된 상기 확장된 NLU 정보는 인사 대화 에이전트를 위한 NLU 정보 1021; 간단 사진 편집 대화 에이전트를 위한 NLU 정보 1022; 달력 대화 에이전트를 위한 NLU 정보 1023; 및 모텔/호텔 예약 대화 에이전트를 위한 NLU 정보 1024를 포함한다.

도 11은 일 실시예에 따른, 전자 장치를 위한 어플리케이션의 실행에 따른 확장된 대화 관리자(DM) 정보를 도시한 것이다. 일 실시예에 있어서, 상기 DM 정보에 대해, 상기 DM들은 구조들(예. 트리구조, 순차적인 구조, 다른 적절한 구조 등)로서 표현되기 때문에, 상기 통합은 다른 브랜치를 상기 DS에 부가하는 것을 필요로 한다. 일 구현에 있어서, 다른 브랜치를 상기 DS에 부가한 후, 사용자는 상기 하부구조들(예. 하부트리들, 다른 적절한 하부구조들 등) 중 어느 하나에 의해 이해되는 어떠한 발화를 요청할 수 있다. 일 예에 있어서, 사용자가 "사진을 편집하고 싶어요." 하고 말하면, 이 발화는 상기 대화 구조(예. 트리, 다른 적절한 구조 등)의 루트에서 시작할 것이다. 일 예에 있어서, 상기 NLU 모듈은 사용자의 발화를 해석하고 상기 사진 에이전트에 포함되는 생성 규칙이 이 발화에 일치하는지 판단한다. 일 예에 있어서, 상기 대화 구조(예. 트리, 다른 적절한 구조 등)에서, 상기 사진 에이전트의 "간단 사진 편집" 행동이 실행된다. 이 행동의 완료 후, 상기 사용자는 "모텔이 필요해요"와 같은, 다른 요청을 말할 수 있다. 일 예에 있어서, 상기 간단 호텔 에이전트는 상기 DS에 통합되어 있기 때문에, 상기 발화는 상기 "예약" 규칙에 일치할 수 있고, 상기 간단 호텔 에이전트는 대응하는 "예약" 행동을 실행할 것이다. 상기 사용자가 상기 간단 호텔 에이전트를 가지고 있지 않다면, 상기 DS는 이 서비스 도메인에 대한 상기 대화 특정 기능을 놓칠 수 있기 때문에 상기 발화는 이해될 수 없을 것이다.

일 실시예에 있어서, 상기 확장된 대화 에이전트 구조(1100) 안의 상기 현존하는 DM 정보는 대화 에이전트 구조(800)를 포함한다. 상기 간단 호텔 에이전트(1124)가 통합/부가된 후, 확장된 대화 에이전트 구조(1100)는 상기 대화 에이전트들 821, 822, 823, 및 1124를 포함한다. 일 예에 있어서, 상기 추가된 대화 에이전트(1124)를 위한 행동들 1134는, 예약, 취소 예약, 및 체크 예약 상태를 포함한다.

도 12는 일 실시예로서, 컴퓨팅 시스템을 포함하는 전자 장치의 고차원 블록도이다. 상기 시스템(500)은 하나 또는 그 이상의 프로세서들(511)(예. ASIC, CPU, 등)을 포함하고, (그래픽, 문자, 및 다른 데이터를 디스플레이하기 위한) 디스플레이 장치(512), 메인 메모리(513)(예. 랜덤 억세스 메모리, RAM), 저장 장치(514)(예. 하드 디스크 드라이브), 제거가능한 저장 장치(515)(예. 저장 드라이브, 메모리 모듈, 자기 테이프 드라이브, 광학 디스크 드라이브, 컴퓨터 소프트웨어, 데이터를 저장하고 있는 컴퓨터로 판독가능한 매체), 사용자 인터페이스 장치(516)(예. 키보드, 타치 스크린, 키패드, 포인팅 장치) 및 통신 인터페이스(517)(예. 모뎀, (WiFi, 셀 방식과 같은) 무선 송수신기, (이더넷 카드와 같은) 네트워크 인터페이스, 통신 포트, 또는 PCMCIA 슬롯 및 카드)를 더 포함할 수 있다. 상기 통신 인터페이스(517)는 소프트웨어 및 데이터가 상기 컴퓨터 시스템과 외부 장치들 사이에서 전송되도록 허용한다. 상기 시스템(500)은 상기에서 언급된 장치들/모듈들(511 내지 517)에 연결되는 통신 인프라스트럭쳐(518)(예. 통신 버스, 크로스-오버 바, 또는 네트워크)를 더 포함한다.

통신 인터페이스(517)를 통해 전달되는 정보는 전자신호, 전자기신호, 광학신호, 또는 통신 인터페이스(517)에 의해 수신될 수 있는 다른 신호들과 같은 형태일 수 있고, 유선 또는 케이블, 광섬유, 전화선, 셀 방식의 전화 링크, 무선주파수(RF) 링크, 및/또는 다른 통신 채널들을 이용해 구현될 수 있다.

휴대폰과 같은 이동가능한 무선 장치에서 구현된 일 예에 있어서, 상기 시스템(500)은 카메라(15)와 같은 이미지 캡쳐 장치(520)를 더 포함한다. 상기 시스템(500)은 MMS 모듈(521), SMS 모듈(522), 이메일 모듈(523), 소셜 네트워크 인터페이스(SNI) 모듈(524), 오디오/비디오(AV) 플레이어(525), 웹 브라우저(526), 이미지 캡쳐 모듈(527) 등과 같은 어플리케이션 모듈들을 더 포함할 수 있다.

상기 시스템(500)은 일 실시예에 따라, 여기서 설명한 것과 같은 발견 모듈(11)을 더 포함한다. 대화 에이전트 통합 프로세스들(530)의 일 구현에 있어서, 운영 시스템(529)과 함께 상기 시스템(500)의 메모리에 상주하는 실행 코드로서 구현될 수 있다. 다른 실시예에 있어서, 이러한 모듈들은 펌웨어 등에 있다.

이하에서, 도 13 및 14는 도 1 내지 12에 도시된 구성의 일실시예를 보여준다. 도 1 내지 12에서 설명한 내용이 도 13 및 14에서도 마찬가지로 적용될 수 있다.

도 13은 본 발명의 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 디스플레이 장치의 블록도이다. 도 13에 도시된 구성은 도2에 도시된 구성과 연결되어 설명될 수 있다. 도 13에 도시된 바와 같이, 디스플레이 장치(120)는 음성수신부(110), 제어부(126), 인터페이스부(129a), 음성출력부(123), 디스플레이부(121)를 포함하고, 디스플레이 장치(120)는 음성수신부(110)를 통해 음성입력부(200)와 연결되고, 인터페이스부(129a)를 통해 외부 서버(155)와 연결될 수 있다. 음성수신부(110)는 음성입력부(200)으로부터 사용자의 음성명령을 수신하고, 음성입력부(200)는 디스플레이 장치(120)에 구비된 마이크로폰(122)이나 사용자의 유무선 전화 등에 의해서 구현될 수 있다. 인터페이스부(129a)는 도 2에서의 DS 에이전트 인터페이스(129)를 포함하며 외부 서버(155)로부터 복수의 어플리케이션과 통신하고, 복수의 어플리케이션은 도 2에서의 대화 에이전트1 내지 N를 포함한다. 제어부(126)는 사용자의 음성명령이 수신되면, 외부 서버(155)로부터 복수의 어플리케이션 중 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신하도록 제어하고, 수신한 어플리케이션을 실행하도록 제어하고, 실행된 어플리케이션을 이용하여 수신한 음성명령에 대응하는 동작을 수행하도록 제어한다. 다른 실시예로서, 실행된 어플리케이션을 이용하여 수신한 음성명령에 대응하는 응답정보를 디스플레이 장치(120)의 음성출력부(123)와 외부 장치 중 적어도 하나로 음성 출력할 수 있다. 디스플레이부(121)는 사용자의 음성명령에 대응하는 어플리케이션의 실행 및 응답정보를 화면에 표시할 수 있다.

도 14은 본 발명의 일 실시예에 따른, 대화형 음성인식 기능을 제공하는 디스플레이 장치의 흐름도이다. 도 14에 도시된 구성은 도3에 도시된 구성과 연결되어 설명될 수 있다.먼저, 동작 S110에서, 사용자의 음성명령을 수신한다.(도 3의 동작 202에 해당함) 다음으로, 동작 S120에서, 외부 서버로부터 복수의 어플리케이션 중 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신한다. 다음으로, 동작 S130에서, 수신한 어플리케이션을 실행하고, 동작 S140에서, 실행된 어플리케이션을 이용하여 상기 수신한 음성명령에 대응하는 동작을 수행한다. 다른 실시예로서, 실행된 어플리케이션을 이용하여 수신한 음성명령에 대응하는 응답정보를 음성으로 출력하는 동작을 포함할 수 있다.(동작 S120, S130, S140은 도 3의 동작 204 내지 209에 해당함)

당업자에게 알려진 바와 같이, 상기 아키텍쳐들에 따라, 상기에서 언급한 아키텍쳐들의 예는, 프로세서에 의한 실행을 위한 프로그램 지시들, 소프트웨어 모듈들, 마이크로코드, 컴퓨터로 판독가능한 매체 상의 컴퓨터 프로그램 생성물, 아날로그/로직 회로들, 어플리케이션 특정 집적 회로들, 펌웨어, 소비자의 전자 장치들, AV 장치들, 무선/유선 송신기들, 무선/유선 수신기들, 네트워크들, 멀티미디어 장치들 등과 같이, 다양한 방법으로 구현될 수 있다. 나아가, 이러한 아키텍쳐의 실시예들은 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예 또는 하드웨어 및 소프트웨어 요소들을 포함하는 실시예의 형태를 취할 수 있다.

상기 실시예들은 방법 흐름도, 장치 블록도 및 컴퓨터 프로그램들을 참조하여 설명되었다. 이러한 도면들의 각각의 블록, 또는 그 조합들은 컴퓨터 프로그램 지시들에 의해 구현될 수 있다. 상기 컴퓨터 프로그램 지시들은 프로세서에 제공될 때 기계를 생성하여, 상기 지시들이 상기 흐름도 및/또는 블록도에 특정된 상기 기능들/작동들을 구현하기 위한 상기 프로세서 생성 수단을 통해 실행된다. 상기 흐름도/블록도들에 있는 각각의 블록은 하나 또는 그 이상의 실시예들을 구현하는, 하드웨어 및/또는 소프트웨어 모듈 또는 로직을 표현할 수 있다. 다른 실시예들에 있어서, 상기 블록들에 기재된 기능들은 상기 도면들에 기재된 순서와 달리, 동시에 등으로 일어날 수 있다.

"컴퓨터 프로그램 매체", "컴퓨터 사용가능한 매체", "컴퓨터로 판독가능한 매체" 및 "컴퓨터 프로그램 생성물" 용어들은 대체적으로 메인 메모리, 부가 메모리, 제거가능한 저장 드라이브, 하드 디스크 드라이브에 인스톨된 하드 디스크와 같은 매체를 지칭하기 위해 사용된다. 이러한 컴퓨터 프로그램 생성물들은 컴퓨터 시스템에 소프트웨어를 제공하기 위한 수단이다. 상기 컴퓨터로 판독가능한 매체는 상기 컴퓨터 시스템이 데이터, 지시들, 메시지들 또는 메시지 패킷들, 및 상기 컴퓨터로 판독가능한 매체로부터 다른 컴퓨터로 판독가능한 정보를 판독하도록 허용한다. 상기 컴퓨터로 판독가능한 매체는, 예를 들어, 플로피 디스크, ROM, 플래쉬 메모리, 디스크 드라이브 메모리, CD-ROM 및 다른 영구 저장장치와 같은, 비휘발성 메모리를 포함할 수 있다. 이것은 예를 들어, 데이터 및 컴퓨터 지시들과 같은, 정보를 컴퓨터 시스템들 사이에서 이동시킬 때 유용하다. 컴퓨터 프로그램 지시들은 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치, 또는 특정 방식으로 가능하는 다른 장치들로 안내할 수 있는 컴퓨터로 판독가능한 매체에 저장될 수 있어, 상기 컴퓨터로 판독가능한 매체에 저장된 상기 지시들은 흐름도 및/또는 블록도 블록 또는 블록들에 특정되는 기능/작동을 구현하는 지시들을 포함하는 제조 품목을 생성한다.

여기의 상기 블록도 및/또는 흐름도들을 나타내는 컴퓨터 프로그램 지시들은 컴퓨터로 구현되는 프로세스를 생성하기 위해 수행되는 일련의 작업들을 야기하기 위해, 컴퓨터, 프로그램 가능한 데이터 처리 장치, 또는 처리 장치들에 적재될 수 있다. 컴퓨터 프로그램들(즉, 컴퓨터 제어 로직)은 메인 메모리 및/또는 부가 메모리에 저장된다. 컴퓨터 프로그램들은 또한 통신 인터페이스를 통해 수신될 수 있다. 이러한 컴퓨터 프로그램들은, 실행될 때, 상기 컴퓨터 시스템이 여기서 논의된 하나 또는 그 이상의 실시예들의 특징들을 수행하도록 할 수 있다. 특히, 상기 컴퓨터 프로그램들은, 실행될 때, 상기 프로세서 및/또는 멀티-코어 프로세서가 상기 컴퓨터 시스템의 특징들을 수행하도록 할 수 있다. 이러한 컴퓨터 프로그램들은 상기 컴퓨터 시스템의 컨트롤러들을 나타낸다. 컴퓨터 프로그램 생성물은 컴퓨터 시스템에 의해 판독가능하고 하나 또는 그 이상의 실시예들의 방법을 수행하기 위해 상기 컴퓨터 시스템에 의한 실행을 위한 지시들을 저장하는 실체적인 저장 매체를 포함한다.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 특허청구범위 내에서 다양하게 실시될 수 있다.

120 : 디스플레이 장치
110 : 음성수신부
121 : 디스플레이부
123 : 음성출력부
126 : 제어부
129a : 인터페이스부
155 : 외부 서버
200 : 음성입력부

Claims

디스플레이 장치의 제어방법에 있어서,
사용자의 음성명령을 수신하는 단계와;
외부 서버로부터 복수의 어플리케이션 중 상기 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신하는 단계와;
상기 수신한 어플리케이션을 실행하는 단계와;
상기 실행된 어플리케이션을 이용하여 상기 수신한 음성명령에 대응하는 동작을 수행하는 단계를 포함하는 디스플레이 장치의 제어방법.
제 1항에 있어서,
상기 사용자의 음성명령을 수신하는 단계는,
사용자가 상기 디스플레이 장치 및 외부 장치 중 어느 하나에서 음성을 입력하는 단계를 포함하는 디스플레이 장치의 제어방법.
제 1항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령을 상기 어플리케이션이 이해할 수 있는 단어로 생성하기 위한 소정의 생성규칙을 포함하는 디스플레이 장치의 제어방법.
제 1항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 유사도 분석정보를 포함하는 디스플레이 장치의 제어방법.
제 1항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 상기 어플리케이션의 실행을 위한 순차적인 구조를 포함하는 디스플레이 장치의 제어방법.
제 1항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 상기 어플리케이션의 실행을 위한 트리(Tree) 구조를 포함하는 디스플레이 장치의 제어방법.
디스플레이 장치에 있어서,
사용자의 음성명령을 수신하는 음성수신부와;
복수의 어플리케이션과 통신하는 인터페이스부와;
상기 사용자의 음성명령이 수신되면, 외부서버로부터 복수의 어플리케이션 중 상기 수신된 음성명령에 대응하는 적어도 하나의 어플리케이션을 수신하도록 제어하고, 상기 수신한 어플리케이션을 실행하도록 제어하고, 상기 실행된 어플리케이션을 이용하여 상기 수신한 음성명령에 대응하는 동작을 수행하도록 제어하는 제어부를 포함하는 디스플레이 장치.
제 7항에 있어서,
상기 음성수신부는, 상기 디스플레이 장치 및 외부 장치 중 어느 하나로부터 사용자의 음성명령을 수신하는 것을 특징으로 하는 디스플레이 장치.
제 7항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령을 상기 어플리케이션이 이해할 수 있는 단어로 생성하기 위한 소정의 생성규칙을 포함하는 디스플레이 장치.
제 7항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령을 상기 어플리케이션이 이해할 수 있는 단어로 생성하기 위한 소정의 생성규칙을 포함하는 디스플레이 장치.
제 7항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 상기 어플리케이션의 실행을 위한 순차적인 구조를 포함하는 디스플레이 장치.
제 7항에 있어서,
상기 어플리케이션은, 상기 사용자의 음성명령에 대응하는 상기 어플리케이션의 실행을 위한 트리(Tree) 구조를 포함하는 디스플레이 장치.