WO2021149921A1

WO2021149921A1 - 디스플레이 장치 및 그 제어방법

Info

Publication number: WO2021149921A1
Application number: PCT/KR2020/018679
Authority: WO
Inventors: 강동훈; 김수향
Original assignee: 삼성전자주식회사
Priority date: 2020-01-21
Filing date: 2020-12-18
Publication date: 2021-07-29
Also published as: EP4044018A1; EP4044018A4; US20220270608A1; KR20210094251A

Abstract

개시된 일 실시예에 따른 디스플레이 장치는, 사용자의 입력을 수신하는 사용자 입력 수신부; 상기 사용자의 발화 음성을 수신하는 음성 수신부; 상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및 상기 사용자 입력 수신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함한다.

Description

디스플레이 장치 및 그 제어방법

개시된 실시예는 인공 지능 대화 서비스를 제공하는 디스플레이 장치 및 디스플레이 장치의 제어방법에 관한 것이다.

인공지능 시스템이 다양한 분야에서 이용되고 있다. 인공지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고, 업데이트를 수행하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되므로, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

이러한 인공지능 시스템은 다양한 분야에서 이용된다. 예를 들어 인공지능 시스템은 언어적 이해, 시각적 이해, 추론 예측 및 동작 제어에 이용될 수 있다. 구체적으로 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

구체적으로 언어적 이해에 적용되는 인공지능 시스템은, 스피커를 비롯하여 스마트 폰(Smart Phone), 태블릿(tablet), 웨어러블 장치(wearable device), TV, 사운드바(Soundbar) 등 많은 제품에서 적용된다. 또한, 전 세계적으로 삼성의 빅스비(Bixby), 아마존의 알렉사(Alexa), 구글의 구글 어시스턴스(Google Assistance) 등 많은 인공지능 대화 서비스가 사용되고 있다.

최근에는 이러한 다양한 인공지능 대화 서비스를 동시에 이용할 수 있는 제품의 개발이 진행되고 있다.

개시된 일 측면은, PTT(Push To Talk) 기능을 수행하는 입력 버튼으로 인공지능 대화 서비스를 연결하는 설정 정보를 사용자의 호출어 발화를 통해 변경시킴으로써, 사용자의 불편함을 감소시키고, 인공지능 대화 서비스의 실행에 용이한 디스플레이 장치 및 그 제어방법에 관한 것이다.

상기 프로세서는, 상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보의 변경 여부를 결정할 수 있다.

상기 프로세서는,상기 음성 수신부에서 수신된 상기 사용자의 발화 음성의 전처리를 수행하고, 상기 전처리된 상기 사용자의 발화 음성을 상기 제2 VA 어플리케이션으로 전송할 수 있다.

상기 복수 개의 VA 어플리케이션은, 대화 정책을 상기 메모리에 저장하고, 상기 사용자의 발화 음성 및 상기 대화 정책에 기초하여 음성 메시지를 생성하고, 연계된 상기 VA 서버를 통해 상기 대화 정책을 업데이트할 수 있다.

상기 음성 메시지를 출력하는 소리 출력부;를 더 포함하고, 상기 프로세서는, 상기 제2 VA 어플리케이션이 생성하는 상기 음성 메시지에 기초하여 상기 소리 출력부를 제어할 수 있다.

사용자 인터페이스를 표시하는 영상 출력부;를 더 포함하고, 상기 프로세서는, 상기 영상 출력부를 통해 상기 설정 정보의 활성화 여부에 관한 사용자 인터페이스를 표시할 수 있다.

상기 프로세서는, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고, 미리 설정된 시간에 기초하여 상기 전처리된 사용자 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식할 수 있다.

상기 프로세서는, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고, 상기 전처리된 사용자의 발화 음성에서 상기 제2 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단할 수 있다.

상기 프로세서는, 상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보의 변경을 결정할 수 있다.

상기 프로세서는, 노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 상기 사용자 발화 음성의 전처리를 수행할 수 있다.

개시된 다른 실시예에 따른 디스플레이 장치는, 리모트 컨트롤러와 통신하는 통신부; 상기 사용자의 발화 음성을 수신하는 음성 수신부; 상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및 상기 통신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함한다.

개시된 또 다른 실시예에 따른 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA 어플리케이션을 저장하는 메모리;를 포함하는 디스플레이 장치의 제어방법은 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력 또는 상기 사용자의 발화 음성을 수신하고;

상기 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행하도록 결정하고; 및 상기 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 것;을 포함한다.

상기 변경하는 것은, 상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보를 변경 여부를 결정하는 것;을 포함할 수 있다.

상기 사용자의 발화 음성의 전처리를 수행하고; 및 상기 전처리된 음성 명령을 상기 제2 VA 어플리케이션으로 전송하는 것;을 더 포함할 수 있다.

상기 제2 VA 어플리케이션이 생성하는 음성 메시지를 출력하는 것;을 더 포함할 수 있다.

상기 설정 정보의 활성화 여부에 관한 사용자 인터페이스를 표시하는 것;을 더 포함할 수 있다.

상기 사용자의 발화 음성의 전처리를 수행하는 것;을 더 포함하고, 상기 변경하는 것은, 미리 설정된 시간에 기초하여 상기 전처리된 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식하는 것;을 포함할 수 있다.

상기 인식하는 것은, 상기 전처리된 발화 음성에서 상기 복수 개의 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단하는 것;을 포함할 수 있다.

상기 변경하는 것은, 상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보를 변경하는 것;을 포함할 수 있다.

상기 전처리를 수행하는 것은, 노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 상기 전처리를 수행하는 것;을 포함할 수 있다.

개시된 디스플레이 장치 및 그 제어방법은, PTT(Push To Talk) 기능을 수행하는 입력 버튼으로 인공지능 대화 서비스를 연결하는 설정 정보를 사용자의 호출어 발화를 통해 변경시킴으로써, 사용자의 불편함을 감소시키고, 인공지능 대화 서비스의 실행을 용이하게 할 수 있다.

도 1은 디스플레이 장치가 TV로 구현되는 경우 TV의 외관을 도시한 도면이다.

도 2는 다양한 실시예에 따른 디스플레이 장치 및 대화 서비스를 실행하는 방법을 설명하기 위한 도면이다.

도 3은 일 실시예에 따른 디스플레이 장치의 제어 블록도이다.

도 4 내지 도 6은 다른 실시예에 따라 디스플레이 장치가 사용자 단말로 구현되는 경우, 디스플레이 장치의 동작을 설명하기 위한 도면이다.

도 7은 설정 정보의 활성화 여부에 관한 사용자 인터페이스의 일 예이다.

도 8은 일 실시예에 따른 디스플레이 장치의 제어방법에 관한 순서도이다.

도 9는 디스플레이 장치가 설정 정보를 변경하는 다양한 방법을 설명하기 위한 순서도이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.

도 1을 참조하면, 디스플레이 장치(1)는 TV(TeleVision, 1a)으로 구현될 수 있다. TV(1a)는 디스플레이 패널(2)과 디스플레이 패널(2)을 지지하는 하우징(3) 및 지지대(4)를 포함할 수 있다.

하우징(3)은 TV(1a)의 외장을 형성하며, 내측에 TV(1a)가 각종 화상을 표시하거나 또는 각종 기능을 수행할 수 있도록 하기 위한 부품을 내장시킨다. 하우징(3)는 디스플레이 패널(2)과 일체형으로 형성될 수도 있고, 전면 하우징 및 배면 하우징의 조합으로 이루어진 것일 수도 있다.

지지대(4)는 하우징(3)을 지지한다. 지지대(4)는, 설계자의 선택에 따라서, 다양한 형상을 가질 수 있으며, 필요에 따라서 생략될 수도 있다. 지지대(4)는 필요에 따라서 하우징(3)에 부착되거나 또는 이탈될 수 있다.

디스플레이 패널(2)은, 하우징(3)의 정면에 설치되고 각종 화상을 외부에 표시할 수 있다. 구체적으로 디스플레이 패널(2)은 정지 화상 또는 동화상을 적어도 하나 이상 표시할 수 있다. 디스플레이 패널(2)은 필요에 따라서 터치 패널 등과 같이 별도의 부품을 더 이용하여 구현될 수 있다.

디스플레이 패널(2)에는 복수의 픽셀이 형성되며, 디스플레이 패널(2)을 통해서 표시되는 영상은 복수의 픽셀(P)로부터 출사된 광의 조합에 의하여 형성될 수 있다. 예를 들어, 복수의 픽셀(P)가 방출하는 광이 모자이크(mosaic)와 같이 조합됨으로써 스크린(102) 상에 하나의 영상(I)이 형성될 수 있다.

디스플레이 패널(2)이 표시하는 영상은 다양한 사용자 인터페이스(10)를 포함할 수 있다. 사용자 인터페이스는 디스플레이 장치(1)의 여러 기능을 나타낼 수 있는 아이콘 및 형상을 포함할 수 있다.

한편, 개시된 디스플레이 장치(1)는 빅스비(Bixby), 알렉사(Alexa) 및 구글 어시스턴스(Google Assistance) 등 다양한 대화 서비스를 실행할 수 있다. 이를 위해서 디스플레이 장치(1)는 각각의 대화 서비스를 실행하기 위한 VA(Voice Assistance) 어플리케이션을 메모리에 저장하고, 대화 서비스를 실행하는 VA 서버와 통신을 수행할 수 있다.

도 1에서 도시된 바와 같이, 사용자(U)는 복수 개의 VA 어플리케이션 중 적어도 하나의 VA 어플리케이션을 실행시키기 위한 발화 음성(U1: 안녕 A)를 TV(1a)에 입력시킬 수 있다. TV(1a)는 사용자(U)의 발화 음성의 전처리를 수행하고, 변환된 전기 신호를 복수 개의 VA 어플리케이션에 전송한다. 만약 복수 개의 VA 어플리케이션 중 제1 VA 어플리케이션이 A를 호출어(Wake Up Word)로 설정하는 경우, 제1 VA 어플리케이션이 동작한다. TV(1a)는 제1 VA 어플리케이션이 생성하는 음성 메시지(D1: 네 안녕하세요 무엇을 도와드릴까요?)를 스피커를 통해 출력할 수 있다. 사용자(U)는 추가적으로 TV(1a)를 동작시키기 위한 발화 음성을 입력하고, TV(1a)제1 VA 어플리케이션이 처리하는 대화 정책 및 제어 신호에 기초하여 사용자(U)가 원하는 동작을 수행할 수 있다. 이러한 예를 통해서 TV(1a)는 사용자(U)에게 대화 서비스를 제공할 수 있다.

TV(1a)는 사용자(U)와 대화 서비스를 실행하는데 필요한 다양한 설정 정보를 사용자 인터페이스로써 표시할 수 있다. 만약 사용자(U)가 리모트 콘트롤러(190, 도 3 참조)에 마련된 버튼을 통해 PTT(Push To Talk) 기능을 실행하면, TV(1a)는 미리 설정된 VA 어플리케이션을 실행시킬 수 있다.

종래 디스플레이 장치는 사용자(U)가 PTT 기능을 실행시키면, 미리 설정된 대화 서비스를 수행하는 하나의 VA 어플리케이션만을 실행시켰다. 또한, 종래 디스플레이 장치는, 미리 설정된 VA 어플리케이션을 변경시키기 위해서 사용자(U)가 설정 정보를 변경시키는 사용자 인터페이스를 실행시키고, 수동적인 조작에 따라 설정 정보의 변경이 가능하였다.

개시된 디스플레이 장치(1)는 복수 개의 VA 어플리케이션 중 하나의 VA 어플리케이션을 지정하는 설정 정보를 사용자(U)의 발화 음성을 인식하여 변경시킴으로써, 전술한 문제점을 해결한다. 디스플레이 장치(1)가 설정 정보를 변경시키는 구체적인 방법은 이하의 다른 도면을 통해 후술한다.

디스플레이 장치(1)는 도 1의 실시예로 설명한 TV(1a)이외에 도 2에서 도시된 다양한 제품(20, 30)에도 적용될 수 있다. 구체적으로 디스플레이 장치(1)는 스마트 폰(Smart Phone, 20a) 및 테블릿 PC(Tablet PC, 20b)와 같은 사용자 단말(20)과 사운드 바(30)와 같은 인공지능 스피커에 적용될 수 있다.

사용자 단말(20)은 네트워크를 통해 대화 서비스를 수행하는 클라언트 서버(200)에 접속할 수 있는 휴대용 단말기로 구현될 수 있다. 구체적으로 사용자 단말(20)은 PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.

사운드 바(30)는 휴대용이 아니라 고정식으로 설치되며, 연결되는 홈 네트워크를 통해 다양한 전자 제품을 제어할 수 있는 콘솔의 역할을 수행하는 장치이다. 또한, 사운드 바(30)는 사용자(U)의 발화 음성을 처리할 수 있는 디스플레이 패널과 스피커를 포함할 수 있으며, 사용자(U)의 발화 음성에 대한 음성 메시지를 출력한다. 만약 사용자(U)가 호출어를 포함한 발화 음성을 입력하면, 사운드 바(30)는 대기 모드에서 활성 모드로 전환된다. 사운드 바(30)는 사용자(U)의 추가적인 발화 음성에 포함된 제어 명령에 따라 네트워크로 연결된 전자 제품에 전송하고, 전자 제품이 사용자(U)의 제어 명령을 처리할 수 있도록 한다.

이처럼 TV(1a), 사용자 단말(20) 및 사운드 바(30)에 적용될 수 있는 디스플레이 장치(1)는 네트워크를 통해 외부의 서버(200a, 200b, 200c)로 연결된다. 외부 서버(200a, 200b, 200c)는 디스플레이 장치(1)내에 포함된 복수 개의 VA 어플리케이션와 연계된 대화 서비스에 대한 서버이다.

구체적으로 VA 어플리케이션은 디스플레이 장치(1)에 포함된 메모리를 이용하여 대화 정책을 통해 대화 서비스를 실행할 수 있다. VA 어플리케이션은 대화 정책을 통해 사용자(U)의 발화 음성에 대응한 음성 메시지를 출력한다. 그러나 VA 어플리케이션은 내장되는 메모리의 한계로 인해 다양한 대화 정책을 전부 저장할 수 없다. 또한, 계속적으로 학습할 수 있는 대화 정책을 수립하기 위해서 VA 어플리케이션은 외부 서버(200a, 200b, 200c)와 통신을 수행하고, 대화 정책을 계속적으로 업데이트할 수 있다. 예를 들어, VA 어플리케이션은 호출어 입력에 대응하는 음성 메시지의 출력과 같이 간단한 대화 정책을 디스플레이 장치(1)에 저장하고, 사용자(U)가 입력하는 다양한 발화 음성에 대응한 구체적인 대화 정책을 서버(200a, 200b, 200c)로부터 수신할 수도 있다.

디스플레이 장치(1)에 포함된 복수 개의 VA 어플리케이션은 각각의 서버(200a, 200b, 200c)와 통신을 수행할 수 있다. 예를 들어, 디스플레이 장치(1)가 3개의 VA 어플리케이션을 포함하면, 디스플레이 장치(1)와 연결되는 외부 서버(200a, 200b, 200c)도 3개 이상일 수 있다.

도 3을 참조하면, 디스플레이 장치(1)는 사용자(U)로부터 입력을 수신하는 입력 수신부(110)와, 사용자(U)의 발화 음성을 수신하는 음성 수신부(120)와, 사용자(U)의 제스처를 감지하는 센서(130)와, 상기 발화 음성의 전처리를 수행하고, 상기 전처리된 발화 음성에서 호출어를 인식하고, 상기 인식된 호출어에 대응하는 VA 어플리케이션(150)을 연결하는 프로세서(140), 도 1 및 도 2에서 전술한 대화 서비스를 실행하는 복수 개의 VA 어플리케이션(150), 프로세서(140) 및 VA 어플리케이션(150)이 요구 또는 처리하는 데이터를 외부로 전송하는 통신부(160) 및 프로세서(140)및 VA 어플리케이션(150)가 처리하는 음성 메시지와 영상을 출력하는 출력부(170) 및 설정 정보와, 프로세서(140)의 동작에 필요한 데이터를 저장하는 메모리(180)을 포함한다.

구체적으로 사용자 입력 수신부(110)는 사용자(U)가 입력하는 다양한 명령을 수신하는 입력 버튼을 포함할 수 있다. 일 예에 따라 디스플레이 장치(1)가 사용자 단말(20)에 마련되는 경우, 입력 버튼은 외관에 마련된 버튼일 수 있다. 이러한 입력 버튼은 PTT 기능을 수신하는 장치로 사용될 수 있다. 사용자(U)가 PTT 기능을 수행하는 입력 버튼을 푸쉬하면, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(150) 중 미리 설정된 제1 VA 어플리케이션(151)을 연결할 수 있다.

이외에도 사용자 입력 수신부(110)는 디스플레이 장치(1)를 턴온 또는 턴오프시키기 위한 전원 버튼, 복수의 소스 디바이스 중 하나의 소스 디바이스를 선택하기 위한 소스 선택 버튼, 디스플레이 장치(1)가 출력하는 음향 볼륨을 조절하기 위한 음향 조절 버튼 등을 포함할 수 있다. 이러한 다양한 버튼은 푸시 스위치, 터치 스위치, 다이얼, 슬라이드 스위치, 토글 스위치 등 다양한 입력 수단에 의해서 구현될 수 있다.

음성 수신부(120)는 사용자(U)의 발화 음성을 수신하는 장치로써, 음향을 입력 받아 전기적인 신호로 변환하여 출력하는 마이크로폰을 포함할 수 있다. 음성 수신부(120)는 효과적인 음성 입력을 위해서 복수 개의 마이크로폰으로 구성될 수 있다. 일 예로 디스플레이 장치(1)가 TV(1a)에 마련되는 경우, 복수 개의 마이크로폰은 하우징(3)의 서로 다른 위치에 마련될 수 있다.

센서(130)는 디스플레이 장치(1)가 동작할 수 있는 다양한 정보를 수집하기 위해 마련된 하드웨어적 장치이다. 예를 들어 디스플레이 장치(1)가 사용자의 제스처를 감지하는 경우, 센서(130)는 카메라를 포함할 수 있다. 다른 예로 디스플레이 장치(1)가 웨어러블 장치 등에 마련되는 경우, 초음파 센서, IR 센서, 가속도 센서 또는 자이로 센서 등 다양한 센서를 포함할 수도 있다.

VA 어플리케이션(150)은 사용자(U)의 발화 음성을 처리하고, 대화 정책에 따라 음성 메시지를 생성하며, 사용자(U)의 발화 음성에 포함된 제어 명령을 이해할 수 있다. VA 어플리케이션(150)은 발화 음성에 포함된 제어 명령에 따른 동작을 수행하기 위해서 디스플레이 장치(1)를 제어한다.

구체적으로 VA 어플리케이션(150)은 음성 인식 엔진(speech recognition engine)을 포함하고, 음성 인식 엔진은 입력된 발화 음성에서 음성 인식 알고리즘을 적용하여 사용자(U)가 발화한 음성을 인식한다. VA 어플리케이션(150)은 음성 신호로부터 시작 지점과 끝 지점을 검출하여 입력된 음성에 포함된 실제 음성 구간을 검출 EPD(End Point Detection)을 수행할 수 있고, 필터링을 통해 인식 결과를 발화문 형태로 생성한다. 발화문은 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)에 의해서 구현될 수 있다.

음성 인식 결과인 발화문을 통해 VA 어플리케이션(150)은 자연어 이해를 수행한다. 자연어 이해는 발화문에 대한 형태소 분석, 개체명 인식, 화행 분석 등 다양한 분석을 수행하고, 발화 음성의 의도를 해석한다. 의도가 해석되면, VA 어플리케이션(150)은 의도에 따른 대화 정책을 대응시키고, 대화 정책 내에 저장된 음성 메시지를 생성한다. 생성되는 음성 메시지에는 자연어 이해에서 분석되었던 개체명 등 입력된 단어가 사용될 수도 있다.

VA 어플리케이션(150)은 대화 정책을 통신부(160)를 통해 업데이트한다. 구체적으로 VA 어플리케이션(150)은 사용자(U)가 발화 음성을 처리한 결과를 서버(200)로 전송할 수 있다. 서버(200)는 다양하게 수집된 사례를 입력값을 인공 지능 신경망에 입력한다. 서버(200)는 입력값을 기초로 출력된 결과를 통해 대화 정책을 업데이트할 수 있다. 서버(200)는 업데이트된 대화 정책을 VA 어플리케이션(150)으로 전송하고, 추후 VA 어플리케이션(150)은 사용자(U)와의 대화에서 업데이트된 대화 정책을 사용할 수 있다.

한편, VA 어플리케이션(150)이 서버(200)로부터 업데이트하는 것은 반드시 대화 정책에만 한정되는 것은 아니다. VA 어플리케이션(150)은 전술한 음성 인식 엔진에 포함된 알고리즘을 서버(200)를 통해 업데이트할 수 있으며, 다양한 업데이트를 통해 사용자(U)의 대화 서비스를 수행할 수 있다.

VA 어플리케이션(150)은 복수 개의 VA 어플리케이션(151, 152, 153)을 포함하고, 각각의 VA 어플리케이션(151, 152, 153)은 제작된 제조사에 의해서 서로 다른 인식 알고리즘, 자연어 이해, 대화 정책을 포함할 수 있다. 또한, 제조사에 의해서 마련된 각각의 서버(200a, 200b, 200c)도 서로 다른 인공지능을 통해 대화 정책 등을 업데이트할 수 있다. 즉, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(151, 152, 153)을 포함하고, 사용자(U)에게 서로 다양한 대화 서비스를 제공할 수 있다.

프로세서(140)는 VA 어플리케이션(150)으로 입력되는 사용자의 발화 음성의 전처리를 수행하는 구성이다.

구체적으로 음성 수신부(120)는 사용자(U)의 발화 음성을 수신하고, 이를 전기적 신호로 변경한다. 음성 수신부(120)는 전기적 신호를 프로세서(140)로 전송하고, 프로세서(140)는 VA 어플리케이션(150)으로 전기적 신호를 전송하기 전, 음성 인식 엔진이 음성을 인식할 수 있도록 노이즈 제거, 에코 캔슬링 또는 빔포밍과 같은 전처리를 수생한다.

노이즈 제거는 음성 수신부(120)에서 입력되는 다양한 소리 중 사용자(U)의 발화 이외의 다양한 노이즈를 제거하는 전처리 과정이다. 일 예로 노이즈 제거는 미리 설정된 주파수 대역의 신호를 제거함으로써 수행될 수 있다.

에코 캔슬링은, 소음으로 처리되는 음파와 정반대의 음파를 생성해 상쇄 간섭을 일으키는 전처리이다. 프로세서(140)는 음성 수신부(120)를 제어해 에코 캔슬링을 수행할 수 있다.

빔포밍은, 음성 수신부(120)가 복수 개의 마이크로폰을 포함하는 경우, 하나의 사용자(U)의 발화 음성으로 인해 생성되는 복수 개의 전기적 신호에 대한 시간 지연 등 동기화를 수행하는 전처리 과정이다.

프로세서(140)는 전술한 전처리 이외에도 다양한 음성 입력의 전처리를 수행한 후, VA 어플리케이션(150)로 사용자(U)의 발화 음성을 전달한다.

한편, 개시된 일 실시예에 따른 프로세서(140)는 VA 어플리케이션(150)로 전처리된 발화 음성을 전달하기 전, 호출어를 추출할 수 있다. 프로세서(140)는 추출된 호출어를 인식하고, 인식된 호출어에 기초하여 복수 개의 VA 어플리케이션 중 적어도 하나의 VA 어플리케이션을 실행시킬 수 있다.

구체적으로 프로세서(140)는 PTT 기능에 대응하는 사용자 입력을 기초로 제1 VA 어플리케이션(151)을 동작시킨다. 즉, 프로세서(140)는 메모리(180)에 저장된 복수 개의 VA 어플리케이션 중 사용자 입력 수신부(110)가 수신한 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 제1 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션을 실행시킨다.

한편, 프로세서(140)는 사용자(U)의 발화 음성을 전처리하는 과정에서 제2 VA 어플리케이션(152)을 호출하는 호출어를 수신할 수 있다. 프로세서(140)는 인식된 호출어에 기초하여 설정 정보를 제1 VA 어플리케이션(151)에서 제2 VA 어플리케이션(152)로 변경시킬 수 있다. 설정 정보가 변경된 후, 다시 PTT 기능에 대한 입력 명령이 입력되면, 프로세서(140)는 입력 명령에 따라 제2 VA 어플리케이션(152)으로 전처리된 발화 음성을 전달할 수 있다. 이를 통해서 개시된 디스플레이 장치(1)는 사용자(U)가 사용자 인터페이스를 통해 설정 정보를 일일이 변경시켜야 하는 불편함을 감소시키고, 인공지능 대화 서비스의 실행에 용이함을 증가시킬 수 있다.

프로세서(140)는 사용자(U)의 발화 음성에 대한 전처리를 수행하는 칩으로 마련될 수 있다. 즉, 프로세서(140)는 VA 어플리케이션(150)과 음성 수신부(120)를 연결하면 충분하다. 다만, 프로세서(140)는 디스플레이 장치(1)을 전반적으로 제어하는 메인 보드에 마련될 수도 있다.

통신부(160)는 유선 통신 모듈(161) 및 무선 통신 모듈(162)을 포함할 수 있다.

유선 통신 모듈(161)은 다양한 종류의 영상 전송 케이블을 통하여 소스 디바이스로부터 디스플레이 장치(1)가 영상 데이터를 수신하는 모듈을 의미한다. 일 예로, 디스플레이 장치(1)가 TV(1a)로 마련되는 경우, 유선 수신 모듈(161)은 컴포넌트(component, YPbPr/RGB) 케이블 또는 컴포지트 (composite video blanking and sync, CVBS) 케이블 또는 고화질 멀티미디어 인터페이스 (High Definition Multimedia Interface, HDMI) 케이블 또는 범용 직렬 버스(Universal Serial Bus, USB) 케이블 또는 이더넷(Ethernet, IEEE 802.3 기술 표준) 케이블 등을 통하여 소스 디바이스로부터 영상 데이터를 수신할 수 있다.

무선 수신 모듈(162)은 다양한 무선 통신 표준을 이용하여 외부와 무선 통신을 수행하는 모듈로써, 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.

일 실시예에 따른 디스플레이 장치(1)가 TV(1a)로 마련되는 경우, 디스플레이 장치(1)는 리모트 컨트롤러(190)와 무선 통신을 수행할 수 있다. 리모트 컨트롤러(190)는 발화 음성을 사용자(U) 가까이에서 수신할 수 있다. 리모트 컨트롤러(190)는 발화 음성을 무선 신호로 변환시키고, 무선 통신 모듈(162)로 전송할 수도 있다.

리모트 컨트롤러(190)는 다양한 입력 버튼을 포함할 수 있다. 디스플레이 장치(1)는 리모트 컨트롤러(190)ㅇ에 PTT 기능을 수행하는 입력 버튼을 마련할 수 있다. 즉, 리모트 컨트롤러(190)는 입력 버튼을 무선 신호로 변경하고, 무선 통신 모듈(162)에 전송한다. 디스플레이 장치(1)는 통신부(160)가 수신한 무선 신호에 기초하여 설정 정보를 변경시키고, 제2 VA 어플리케이션(152)에 사용자의 발화 음성을 전달할 수 있다.

출력부(170)는 VA 어플리케이션(150)이 생성한 음성 메시지 및 음향 데이터를 출력하는 소리 출력부(171)와 VA 어플리케이션(150)이 대화 정책에 따라 생성한 영상 데이터, 설정 정보를 포함하는 사용자 인터페이스 및 소스 디바이스나 외부에서 수신되는 영상 신호를 프레임 형식으로 마련된 영상 데이터를 출력하는 영상 출력부(172)를 포함할 수 있다.

소리 출력부(171)는 음향을 증폭하는 오디오 앰프(미도시)와, 증폭된 음향을 청각적으로 출력하는 스피커(미도시)를 포함할 수 있다.

소리 출력부(171) 오디오 앰프를 통해서 출력된 음향 신호를 증폭시킬 수 있다. 또한, 스피커는 오디오 앰프에 의해서 증폭된 음향 신호를 음향(음파)으로 변환할 수 있다. 예를 들어, 스피커는 전기적 음향 신호에 따라 진동하는 박막을 포함할 수 있으며, 박막의 진동에 의하여 음파가 생성될 수 있다.

영상 출력부(172)는, 영상을 시각적으로 표시하는 디스플레이 패널(2)과, 디스플레이 패널(2)을 구동하는 디스플레이 드라이버(미도시)를 포함할 수 있다.

일 실시예에 따라 디스플레이 장치(1)가 TV(1a)로 구현되는 경우, 디스플레이 패널(2)의 각각의 픽셀은 디스플레이 드라이버로부터 영상을 나타내는 전기적 신호를 수신하고, 수신된 전기적 신호에 대응하는 광학 신호를 출력할 수 있다. 복수의 픽셀이 출력하는 광학 신호가 조합됨으로써 영상이 디스플레이 패널(2)에 표시될 수 있다. 디스플레이 패널(2)은 액정 디스플레이 패널(Liquid Crystal Display Panel, LCD Panel), 발광 다이오드 패널(Light Emitting Diode Panel, LED Panel) 또는 유기 발광 다이오드 패널(Organic Light Emitting Diode Panel, OLED Panel)을 등 다양한 타입의 패널에 의하여 구현될 수 있다.

메모리(180)는 디스플레이 장치(1)에 포함된 구성들을 제어하기 위한 프로그램 및 데이터를 저장하고, 설정 정보를 저장한다.

설정 정보는 PTT 기능에 대응하는 입력 명령이 수신되면, 사용자(U)의 발화 음성을 제1 VA 어플리케이션(151)로 전송하는 것을 의미한다. 이러한 설정 정보는 제조사 또는 사용자(U)의 구체적인 선택에 의해서 결정되고, 메모리(180)에 저장된다. 개시된 실시예에서 디스플레이 장치(1)가 사용자(U)의 발화 음성에서 제2 VA 어플리케이션(152)의 호출어를 인식하면, 저장된 설정 정보는 변경될 수 있다.

한편, 도 2에서 도시된 VA 어플리케이션은 대화 서비스를 실행하는 소프트웨어로 구현될 수 있다. VA 어플리케이션이 소프트웨어로 구현되는 경우, 복수 개의 VA 어플리케이션은 메모리(180)에 프로그램으로 저장될 수 있다. 프로세서(140)는 발화 음성의 전처리를 수행한 후, 호출어에 대응되는 VA 어플리케이션을 메모리(180)로부터 읽어내어, 실행시킴으로써 대화 서비스를 구현할 수 있다.

메모리(180)는 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 플래시 메모리 등의 비휘발성 메모리와, 데이터를 일시적으로 기억하기 위한 S-램(Static Random Access Memory, S-RAM), D-램(Dynamic Random Access Memory) 등의 휘발성 메모리로 마련될 수 있다. 메모리(180)는 프로세서(140)와 별개의 칩으로 구현된 메모리일 수 있고, 프로세서(140)와 단일 칩으로 구현될 수도 있다.

한편, 디스플레이 장치(1)는 전술한 구성 이외에도 다양한 구성을 더 포함하거나 생략할 수 있으며, 적용되는 실시예에 따라 전술한 구성의 위치 및 연결 관계가 변경될 수 있다.

도 2에서 전술한 바와 같이, 디스플레이 장치(1)는 사용자 단말 중 스마트 폰(20a)에 마련될 수 있다. 도 4 내지 도 7에서는 디스플레이 장치(1)를 스마트 폰(20a)으로 설명한다.

도 4를 먼저 참조하면, 사용자(U)는 사용자 입력 수신부(110) 중 적어도 하나의 버튼(110a)를 통해 PTT 기능에 관한 입력을 스마트 폰(20a)으로 전송할 수 있다.

스마트 폰(20a)은 미리 저장된 설정 정보에 의해서 제1 VA 어플리케이션(151)을 실행시킬 수 있다. 제1 VA 어플리케이션(151)은 PTT 기능에 대응하는 입력에 대응하는 대화 정책에 기초하여 음성 메시지를 출력할 수 있다.

구체적으로 스마트 폰(20a)은 제1 VA 어플리케이션(151)에 대응하는 호출어(A)를 포함한 음성 메시지, 즉 "안녕하세요 A 입니다." 및 "오늘은 어떤 일을 함께 해 볼까요"를 소리로 출력할 수 있다. 또한, 스마트 폰(20a)은 "안녕하세요 A 입니다." 및 "오늘은 어떤 일을 함께 해 볼까요" 디스플레이 패널(2)에 표시할 수 있다.

사용자(U)는 음성 메시지의 출력 후, 추가적인 발화 음성을 입력하고, 제1 VA 어플리케이션(151)은 추가적인 발화 음성으로부터 사용자의 의도를 파악한 후, 의도에 기초한 기능을 수행할 수 있다.

도 5를 참조하면, 사용자(U)는 입력 버튼(110a)의 조작 없이, 발화 음성을 입력할 수 있다. 일 예로, 발화 음성은, "Hi~ B" 및 "B로 연결해줘"를 포함할 수 있다.

스마트 폰(20a)은 "Hi~ B" 및 "B로 연결해줘"를 포함한 발화 음성을 전처리한다. 또한, 스마트 폰(20a)는 전처리한 발화 음성을 복수 개의 VA 어플리케이션(150)에 전송한다. 만약 "Hi~ B" 또는 호출어 B가 제2 VA 어플리케이션(152)의 동작 실행에 조건이면, 제2 VA 어플리케이션(152)이 동작할 것이다. 제2 VA 어플리케이션(152)은 대화 정책에 따라 사용자(U)의 발화 음성에 대응하는 음성 메시지를 출력할 수 있다. 일 예로, 스마트 폰(20a)은 제2 VA 어플리케이션(152)이 생성한 음성 메시지, 즉 "네 B입니다. 무엇을 도와 드릴까요"를 출력할 수 있다.

한편, 스마트 폰(20a)은 제2 VA 어플리케이션(152)의 동작과 관계없이, 전처리 과정에서 호출어 B를 인식할 수 있다. 스마트 폰(20a)은 호출어 B에 대응하는 제2 VA 어플리케이션(152)이 PTT 기능에 대한 연결 어플리케이션에 포함될 수 있도록, 설정 정보를 변경할 수 있다. 즉, 도 5의 실시예에 따른 사용자(U)의 발화 음성에 기초하여, 스마트 폰(20a)은 설정 정보에 포함된 제1 VA 어플리케이션(151)을 제2 VA 어플리케이션(152)으로 변경시킨다.

스마트 폰(20a)은 설정 정보가 변경되었음을 사용자에게 공지하기 위해서 음성 메시지 출력 없이, 디스플레이 패널(2)에 "PTT를 B로 자동 연결합니다"라는 안내 문구를 표시할 수 있다.

도 6을 참조하면, 설정 정보가 변경된 후, 사용자(U)는 입력 버튼(110a)를 통해 PTT 기능을 실행할 수 있다. 스마트 폰(20a)은 입력 명령에 기초하여 제2 VA 어플리케이션(152)을 동작시키고, 제2 VA 어플리케이션(152)은 대화 정책에 기초하여 "네 B입니다. 무엇을 도와 드릴까요"를 출력할 수 있다.

한편, 도 4 내지 도 6에 포함된 음성 메시지와 표시 문구는 일 예에 불과하다. 즉, 디스플레이 장치(1)는 전술한 다양한 방법 이외의 음성 메시지와 출력 문구를 출력할 수도 있다.

디스플레이 장치(1)는 설정 정보를 자동으로 변경하는 기능의 활성화 여부를 선택하는 사용자 인터페이스를 표시할 수 있다. 디스플레이 장치(1)가 스마트 폰(20a)으로 구현되는 경우, 스마트 폰(20a)은 도 7에 도시된 바와 같이 "자동연결 활성화"라는 문자(D2)를 출력하면서, 사용자(U)의 선택을 유도할 수 있다.

만약 사용자(U)가 자동연결 활성화를 켜짐으로 선택하는 경우, 스마트 폰(20a)은 사용자(U)의 발화 음성에서 인식된 호출어에 대응하여 설정 정보를 자동으로 변경할 수 있다.

만약 사용자(U)가 자동연결 활성화를 꺼짐으로 선택하는 경우, 스마트 폰(20a)은 사용자(U)의 발화 음성에서 제2 VA 어플리케이션(152)에 대한 호출어가 포함되더라도, 설정 정보의 변경을 수행하지 않을 수 있다. 이 경우, PTT 기능에 대한 입력 명령이 다시 입력되더라도, 스마트 폰(20a)은 제1 VA 어플리케이션(151)을 실행시킨다.

한편, 도 7에서 도시된 실시예는, 설명의 편의를 위한 것일 뿐, 다양한 사용자 인터페이스가 가능하다. 예를 들어 "자동연결 활성화"라는 문구도 얼마든지 변경될 수 있다.

도 8을 참조하면, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(150) 중 제1 VA 어플리케이션(151)과 사용자(U)의 입력을 연결하는 설정 정보를 저장한다(300).

설정 정보는 메모리(180)에 저장될 수 있으며, 사용자(U)의 입력에 의해서 변경될 수 있다.

디스플레이 장치(1)는 발화 음성을 수신한다(310).

디스플레이 장치(1)는 마이크로폰과 같은 음성 수신부(120)를 통해서 발화 음성을 수신하다. 음성 수신부(120)는 발화 음성을 전기적 신호로 변경하고, 프로세서(140)로 전달한다.

디스플레이 장치(1)는 발화 음성의 전처리를 수행한다(320).

구체적으로 프로세서(140)는 노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 발화 음성의 전처리를 수행한다.

디스플레이 장치(1)는 전처리된 발화 음성에서 호출어를 인식한다(330).

즉, 프로세서(140)는 전처리된 발화 음성을 복수 개의 VA 어플리케이션(150)으로 전달하기 전, 전처리된 발화 음성에서 호출어를 인식한다.

디스플레이 장치(1)는 인식된 호출어에 대응하는 제2 VA 어플리케이션(152)을 결정한다(340).

예를 들어, 사용자(U)의 발화에서 제2 VA 어플리케이션(152)의 호출어(B)가 인식되면, 디스플레이 장치(1)는 호출어(B)에 대응하는 제2 VA 어플리케이션(152)을 결정한다.

디스플레이 장치(1)는 설정 정보에 포함된 제1 VA 어플리케이션(151)을 제2 VA 어플리케이션(152)으로 변경한다(350).

구체적으로 디스플레이 장치(1)는 호출어에 대응하는 제2 VA 어플리케이션(152)과 설정 정보에 포함된 제1 VA 어플리케이션(151)을 비교한다. 만약 호출어가 'A'로 인식되면, 디스플레이 장치(1)는 제1 VA 어플리케이션(151)을 결정한다. 설정 정보에 포함된 제1 VA 어플리케이션(151)과 결정된 제1 VA 어플리케이션(151)이 동일하므로, 디스플레이 장치(1)는 설정 정보를 변경하지 않는다. 다른 예로, 제3 VA 어플리케이션(153)이 인식되면, 디스플레이 장치(1)는 저장된 설정 정보를 제1 VA 어플리케이션(151)에서 제3 VA 어플리케이션(153)로 변경할 수 있다.

도 9를 참조하면, 디스플레이 장치(1)는 복수 개의 VA 어플리케이션(150) 중 제1 VA 어플리케이션(151)과 입력 명령을 연결하는 설정 정보를 저장한다(400).

디스플레이 장치(1)는 발화 음성을 수신하고(410), 발화 음성의 전처리를 수행한다(420). 그리고 디스플레이 장치(1)는 미리 설정된 시간 동안 호출어를 인식한다(430).

디스플레이 장치(1)는 미리 설정된 시간동안 발화 음성이 입력되는지 여부를 판단할 수 있다. 일 예로, 사용자(U)는 호출어를 포함하지 않는 발화 음성을 입력시킬 수 있다. 호출어가 포함되는지 여부를 정확하게 인식하기 위해, 디스플레이 장치(1)는 미리 설정된 시간동안 다른 발화 음성이 입력되는지 여부를 기다릴 수 있다.

미리 설정된 시간이 경과한 후, 디스플레이 장치(1)는 그 동안 입력된 발화 음성에서 호출어를 인식한다. 만약 인식된 발화 음성에 제1 VA 어플리케이션의 호출어가 포함되면(440의 예), 디스플레이 장치(1)는 제1 VA 어플리케이션(151)의 대화 서비스를 실행시킨다.

즉, 설정 정보에 포함된 제1 VA 어플리케이션(151)의 호출어가 발화 음성에서 인식된 호출어와 동일하므로, 디스플레이 장치(1)는 설정 정보의 변경없이, 제1 VA 어플리케이션(151)을 동작시킨다.

만약 인식된 발화 음성에 제1 VA 어플리케이션의 호출어가 포함되지 않으면(440의 아니오), 디스플레이 장치(1)는 인식된 호출어가 제2 VA 어플리케이션(151)의 호출어와 동일한지 여부를 판단한다.

만약 인식된 호출어에 제2 VA 어플리케이션의 호출어가 포함되지 않으면(450의 아니오), 디스플레이 장치(1)는 다시 발화 음성을 인식하기 위해서 대기할 수 있다(430).

만약 인식된 호출어에 제2 VA 어플리케이션의 호출어가 포함되면(450의 예), 디스플레이 장치(1)는 전처리된 발화 음성에 호출어가 몇 번이나 포함되는지 여부를 판단한다(460).

잘못된 한번의 호출어의 입력으로, 설정 정보가 변경되는 것을 방지하기 위해서 디스플레이 장치(1)는 미리 설정된 횟수 이상의 호출어가 입력될 때, 설정 정보를 변경할 수 있다.

만약 미리 설정된 횟수 이상의 호출어가 인식되면(460의 예), 디스플레이 장치(1)는 인식된 호출어에 대응하는 제2 VA 어플리케이션(152)으로 설정 정보를 변경하고(470), 제2 VA 어플리케이션(152)이 사용자(U)의 발화를 처리할 수 있도록 제2 VA 어플리케이션(152)의 대화 서비스를 실행한다(480).

만약 미리 설정된 횟수 이상의 호출어가 인식되지 않으면(460의 아니오), 디스플레이 장치(1)는 설정 정보의 변경 없이(470). 제2 VA 어플리케이션(152)이 사용자(U)의 발화를 처리할 수 있도록 제2 VA 어플리케이션(152)의 대화 서비스를 실행한다(480).

이를 통해서 개시된 디스플레이 장치는 PTT기능을 수행하는 입력 버튼으로 대화 서비스를 연결하는 설정 정보를 사전에 인식한 호출어의 음성을 통해 변경시킴으로써, 사용자(U)의 불편함을 감소시키고, 대화 서비스의 실행을 용이하게 할 수 있다.

한편, 본 문서에 개시된 다양한 실시예들에 따른 방법은 기기로 읽을 수 있는 저장매체에 포함되어 제공될 수 있다

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어 ^TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims

사용자의 입력을 수신하는 사용자 입력 수신부;

상기 사용자의 발화 음성을 수신하는 음성 수신부;

상기 사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA(Voice Assistance) 서버와 연계된 복수 개의 VA 어플리케이션을 저장하는 메모리; 및

상기 사용자 입력 수신부를 통해 적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 상기 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행되도록 결정하고, 상기 음성 수신부를 통해 수신한 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 프로세서;를 포함하는 디스플레이 장치.
제 1항에 있어서,

상기 프로세서는,

상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보의 변경 여부를 결정하는 디스플레이 장치.
제 1항에 있어서,

상기 프로세서는,

상기 음성 수신부에서 수신된 상기 사용자의 발화 음성의 전처리를 수행하고,

상기 전처리된 상기 사용자의 발화 음성을 상기 제2 VA 어플리케이션으로 전송하는 디스플레이 장치.
제 1항에 있어서,

상기 복수 개의 VA 어플리케이션은,

대화 정책을 상기 메모리에 저장하고, 상기 사용자의 발화 음성 및 상기 대화 정책에 기초하여 음성 메시지를 생성하고, 연계된 상기 VA 서버를 통해 상기 대화 정책을 업데이트하는 디스플레이 장치.
제 4항에 있어서,

상기 음성 메시지를 출력하는 소리 출력부;를 더 포함하고,

상기 프로세서는,

상기 제2 VA 어플리케이션이 생성하는 상기 음성 메시지에 기초하여 상기 소리 출력부를 제어하는 디스플레이 장치.
제 1항에 있어서,

사용자 인터페이스를 표시하는 영상 출력부;를 더 포함하고,

상기 프로세서는,

상기 영상 출력부를 통해 상기 설정 정보의 활성화 여부에 관한 사용자 인터페이스를 표시하는 디스플레이 장치.
제 1항에 있어서,

상기 프로세서는,

상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고,

미리 설정된 시간에 기초하여 상기 전처리된 사용자 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식하는 디스플레이 장치.
제 1항에 있어서,

상기 프로세서는,

상기 음성 수신부를 통해 수신한 사용자의 발화 음성의 전처리를 수행하고,

상기 전처리된 사용자의 발화 음성에서 상기 제2 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단하는 디스플레이 장치.
제 1항에 있어서,

상기 프로세서는,

상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보의 변경을 결정하는 디스플레이 장치.
제 1항에 있어서,

상기 프로세서는,

노이즈 제거, 에코 캔슬링 또는 빔포밍 중 적어도 하나에 기초하여 상기 사용자 발화 음성의 전처리를 수행하는 디스플레이 장치.
사용자의 발화 음성에 기초하여 대화 서비스를 제공하는 복수 개의 VA 어플리케이션을 저장하는 메모리;를 포함하는 디스플레이 장치의 제어방법에 있어서,

적어도 하나의 VA 어플리케이션의 실행을 위한 사용자 입력 또는 상기 사용자의 발화 음성을 수신하고;

상기 사용자 입력이 수신되면, 상기 메모리에 저장된 복수 개의 VA 어플리케이션 중 사용자 입력에 의해 자동으로 실행되는 것으로 지정된 VA 어플리케이션에 대한 설정 정보에 기초하여 제1 VA 어플리케이션이 실행하도록 결정하고;

상기 사용자의 발화 음성에서 상기 복수 개의 VA 어플리케이션 중 제2 VA 어플리케이션의 실행을 위한 호출어가 인식되는 것에 기초하여 상기 제2 VA 어플리케이션이 상기 사용자 입력에 의해 자동으로 실행되도록 상기 메모리에 저장된 설정 정보를 변경하는 것;을 포함하는 디스플레이 장치의 제어방법.
제 11항에 있어서,

상기 변경하는 것은,

상기 제1 VA 어플리케이션과 상기 제2 VA 어플리케이션을 비교하고, 상기 비교 결과에 기초하여 상기 설정 정보를 변경 여부를 결정하는 것;을 포함하는 디스플레이 장치의 제어방법.
제 11항에 있어서,

상기 사용자의 발화 음성의 전처리를 수행하는 것;을 더 포함하고,

상기 변경하는 것은,

미리 설정된 시간에 기초하여 상기 전처리된 발화 음성 중 상기 제2 VA 어플리케이션의 실행을 위한 호출어를 인식하는 것;을 포함하는 디스플레이 장치의 제어방법.
제 13항에 있어서,

상기 인식하는 것은,

상기 전처리된 발화 음성에서 상기 복수 개의 VA 어플리케이션의 실행을 위한 호출어가 포함되는지 여부를 판단하는 것;을 포함하는 디스플레이 장치의 제어방법.
제 13항에 있어서,

상기 변경하는 것은,

상기 제2 VA 어플리케이션의 실행을 위한 호출어의 반복 횟수에 기초하여 상기 설정 정보를 변경하는 것;을 포함하는 디스플레이 장치의 제어방법.