WO2022164192A1

WO2022164192A1 - 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법

Info

Publication number: WO2022164192A1
Application number: PCT/KR2022/001371
Authority: WO
Inventors: 김문조; 이호정
Original assignee: 삼성전자 주식회사
Priority date: 2021-01-28
Filing date: 2022-01-26
Publication date: 2022-08-04
Also published as: KR20220109238A

Abstract

사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법이 제공된다. 디바이스가 보이스 어시스턴트 서비스를 제공하는 방법은, 사용자의 발화 입력이 단발화 입력인지를 판단하는 동작; 상기 발화 입력이 단발화 입력임에 따라, 상기 디바이스에서 상기 사용자에 의해 실행된 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하는 동작; 상기 발화 입력 및 상기 획득된 애플리케이션 이력 데이터를 이용하여, 상기 발화 입력에 관련된 추천 발화 문장을 생성하는 동작; 및 상기 생성된 추천 발화 문장을 출력하는 동작;을 포함한다.

Description

사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법

본 개시는 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법에 관한 것이다. 보다 상세하게는, 본 개시는 사용자의 단발화 입력에 관련된 추천 발화 문장을 생성하고 제공하는 디바이스 및 방법에 관련된다.

멀티 미디어 기술 및 네트워크 기술이 발전함에 따라, 사용자는 디바이스를 통하여 다양한 서비스를 제공받을 수 있게 되었다. 특히, 음성 인식 기술이 발전함에 따라, 사용자는 디바이스에 음성(예를 들어, 발화)을 입력하고, 음성 또는 발화 입력에 따른 응답을 제공받을 수 있게 되었다.

하지만, 종래에는, 사용자의 발화 입력이 짧아서 사용자의 의도를 파악하기 힘든 경우에, 사용자의 의도를 반영하거나 이에 기초하여 보이스 어시스턴트 서비스를 사용자에게 제공하기 힘든 문제가 있었다. 이에 따라, 사용자의 짧은 발화 입력에 대하여도 사용자의 의도를 정확히 예측하고, 사용자의 의도에 따른 응답을 사용자에게 효과적으로 제공할 수 있는 기술이 요구되고 있다.

본 개시의 일 실시예는, 사용자에 의해 실행된 애플리케이션의 실행 이력을 고려하여 사용자의 단발화 입력에 관련된 추천 발화 문장을 제공할 수 있는 디바이스 및 방법을 제공할 수 있다.

또한, 본 개시의 일 실시예는, 사용자에 의해 실행된 애플리케이션의 실행 이력을 고려하여 보이스 어시스턴트 서비스에 의해 지원되는 추천 발화 문장을 제공할 수 있는, 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법을 제공할 수 있다.

추가적인 관점들은 다음의 설명에서 부분적으로 설명될 것이고, 부분적으로는 설명으로부터 명백할 것이고, 또는 제시된 실시예의 실행에 의해 학습될 수 있다.

본 개시의 한 측면은, 사용자의 발화 입력을 수신하는 동작; 상기 발화 입력이 단발화 입력인지를 판단하는 동작; 상기 발화 입력이 단발화 입력으로 판단됨에 기초하여, 상기 디바이스에서 상기 사용자에 의해 실행된 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하는 동작; 상기 발화 입력 및 상기 획득된 애플리케이션 이력 데이터를 이용하여, 상기 발화 입력에 관련된 추천 발화 문장을 생성하는 동작; 상기 추천 발화 문장이 상기 디바이스에 의해 제공되는 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하는 동작; 및 상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원된다고 판단됨에 기초하여, 상기 추천 발화 문장을 출력하는 동작;을 포함하는, 보이스 어시스턴트 서비스를 제공하는 디바이스가 사용자의 발화 입력에 관련된 추천 발화 문장을 제공하는 방법을 제공할 수 있다.

또한, 본 개시의 다른 측면은, 사용자의 발화 입력을 수신하는 마이크; 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행하는 프로세서;를 포함하며, 상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 발화 입력이 단발화 입력인지를 판단하고, 상기 발화 입력이 단발화 입력으로 판단됨에 기초하여, 상기 디바이스에서 상기 사용자에 의해 실행된 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하고, 상기 발화 입력 및 상기 획득된 애플리케이션 이력 데이터를 이용하여, 상기 발화 입력에 관련된 추천 발화 문장을 생성하고, 상기 추천 발화 문장이 상기 디바이스에 의해 제공되는 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하고, 상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원된다고 판단됨에 기초하여, 상기 추천 발화 문장을 출력하는, 보이스 어시스턴트 서비스를 제공하는 디바이스를 제공할 수 있다.

또한, 본 개시의 다른은, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

본 개시의 다른 측면에 의한 보이스 어시스턴트 서비스를 제공하기 위한 디바이스는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 하나 이상의 명령어를 실행하여 사용자의 발화 입력과 관련된 추천 발화 문장을 제공하는 프로세서;를 포함하며, 프로세서는, 사용자의 발화 입력을 획득하고, 발화 입력이 단발화 입력인지를 결정하고, 단발화 입력으로 결정된 발화 입력에 기초하여, 디바이스 또는 다른 디바이스 중 적어도 하나에서 사용자에 의해 실행된 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하고, 발화 입력 및 획득된 애플리케이션 이력 데이터를 이용하여, 발화 입력에 관련된 추천 발화 문장을 생성하고, 추천 발화 문장을 출력하도록 제어할 수 있다.

본 개시 내용의 특정 실시예의 상기 및 다른 관점, 특징 및 이점은 첨부 도면과 함께 취해진 다음의 설명으로부터 보다 명백해질 것이다.

도 1은 일 실시예에 따른 사용자의 단발화 입력에 대한 보이스 어시스턴트 서비스가 디바이스(1000)에 의해 제공되는 예시를 나타내는 도면이다.

도 2는 일 실시예에 따른 디바이스(1000)의 블록도이다.

도 3은 일 실시예에 따른 단발화 입력에 관련된 애플리케이션 이력 데이터가 생성되는 예시를 나타내는 도면이다.

도 4는 일 실시예에 따른 사용자의 애플리케이션 이력 데이터의 테이블의 일례를 나타내는 도면이다.

도 5는 일 실시예에 따른 동사인 단발화 입력에 대한 애플리케이션 이력 데이터를 추출하는 예시를 나타내는 도면이다.

도 6은 일 실시예에 따른 명사인 단발화 입력에 대한 애플리케이션 이력 데이터를 추출하는 예시를 나타내는 도면이다.

도 7은 일 실시예에 따른, 동사의 단발화 입력에 대한 추천 발화 문장을 생성하는 예시를 나타내는 도면이다.

도 8은 일 실시예에 따른, 명사의 단발화 입력에 대한 추천 발화 문장을 생성하는 예시를 나타내는 도면이다.

도 9는 일 실시예에 따른 서비스 발화 문장을 이용하여 발화 입력에 관련된 애플리케이션 이력 데이터를 검색하는 예시를 나타내는 도면이다.

도 10은 일 실시예에 따른, 보이스 어시스턴트 서비스의 서비스 발화 문장을 이용하여 애플리케이션 이력 데이터가 검색된 경우에, 추천 발화 문장이 생성되는 예시를 나타내는 도면이다.

도 11은 일 실시예에 따른 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터가 생성되는 예시를 나타내는 도면이다.

도 12는 일 실시예에 따른 디바이스(1000)가 단발화 입력에 관련된 추천 문장을 제공하는 방법의 흐름도이다.

명세서 전체에 걸쳐 "a, b 또는 c 중 적어도 하나"와 같은 표현은 a만, b만, c만, a와 b 모두, a와 c 모두, b와 c 모두, a, b 및 c 모두, 또는 이들의 변형을 나타낸다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략될 수 있으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함할 수 있다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에서, 단발화 입력은 하나의 용어(term)를 나타내는 짧은 발화에 의한 입력으로서, 하나의 단어 또는 하나의 어구로 이루어진 발화에 의한 입력일 수 있다. 단발화 입력은, 예를 들어, 명사로 이루어진 발화, 명사구로 이루어진 발화, 동사로 이루어진 발화 또는 동사구로 이루어진 발화를 포함할 수 있다.

애플리케이션 이력 데이터는 디바이스에서 실행된 애플리케이션의 실행 이력을 나타내는 데이터일 수 있다. 애플리케이션 이력 데이터는, 예를 들어, 애플리케이션의 식별 값 또는 정보, 애플리케이션의 종류, 애플리케이션에서 실행된 액션의 종류, 애플리케이션에서 실행된 액션에 관한 파라미터, 애플리케이션의 액션이 실행된 시각, 액션의 누적 실행 횟수 등에 관한 정보를 포함할 수 있다. 또한, 사용자에 의해 실행된 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터는 사용자로부터 디바이스에 입력된 사용자 입력을 바탕으로 애플리케이션에 의해 실행된 액션에 관한 이력 데이터일 수 있다.

서비스 발화 문장은, 보이스 어시스턴트 서비스를 위하여 사용자로부터 수신되는 발화 문장 및 사용자에게 제공되는 발화 문장일 수 있으며, 보이스 어시스턴트 서비스에 관련된 디바이스 및 다른 디바이스의 기능에 의해 지원되는 액션에 관련된 발화 문장일 수 있다.

이하 첨부된 도면을 참고하여 본 실시예를 상세히 설명하기로 한다.

본 개시의 특정 예들에서, 사용자는 사용자 디바이스(예를 들어, 모바일 전화 또는 컴퓨팅 디바이스), 또는 사용자 디바이스에 연결된 디바이스(예를 들어, 서버)에 의해 제공되는 기능, 동작, 서비스 등을 활용하기를 원할 수 있다. 다음에서, 기능에 대한 참조는 기능(들), 동작(들), 서비스(들) 등 중 하나 이상에 대한 참조를 포함할 수 있다.

기능을 활용하기 위해, 사용자는 사용자 디바이스에 사용자 입력을 제공할 수 있다. 사용자 입력은 가청 입력(audible input), 예를 들어 사운드 입력(예컨대, 하나 이상의 사운드 포함) 또는 음성 입력(vocal input)(예컨대, 하나 이상의 단어 및/또는 하나 이상의 구문 포함)일 수 있다. 음성(vocal)에는 "발화"가 포함될 수 있다. 그러나, 본 개시는 가청 입력(audible input)에 한정되지 않는다. 예를 들어, 사용자 입력은 텍스트 입력 또는 임의의 다른 적절한 유형의 입력일 수 있다.

특정 예에서, 특정 기능은 "기능 정보"의 하나 이상의 항목에 의해 정의될 수 있다. 예를 들어, 기능 정보는 (i) 수행될 기능, (ii) 기능을 수행할 수 있거나 수행해야 하는 애플리케이션 또는 서비스, (iii) 기능을 수행하는 디바이스, 및 (iv) 기능의 하나 이상의 파라미터 중 하나 이상을 정의할 수 있다. 예를 들어, 기능이 금융 거래와 관련된 경우, 파라미터(매개변수)는 거래의 금전적 금액을 정의할 수 있다. 기능이 데이터 전송과 관련된 경우, 파라미터는 데이터의 대상을 정의할 수 있다. 기능이 장치에 의해 수행될 작업과 관련된 경우, 파라미터는 작업을 수행할 장치를 지정할 수 있다. 본 개시는 이들 예에 제한되지 않으며, 통상의 기술자는 기능을 정의하는 기능 정보의 많은 다른 예를 용이하게 고려할 것이다.

사용자 입력은 사용자 입력의 특정 요소를 결정하기 위해 분석될 수 있다. 사용자 입력의 특정 요소는 "입력 요소(input elements)"(예컨대, 특정 소리, 단어 및/또는 구(phrases))로 참조될 수 있으며, 기능을 정의하는 기능 정보의 항목에 대응될 수 있다. 예를 들어, 사용자 입력이 "보내(send)", "$100", "엄마에게(to Mom)" 및 "삼성 페이를 사용하여(using Samsung pay)"라는 단어 또는 구(입력 요소) 중 하나 이상을 포함하는 경우 이러한 단어 또는 구 (입력 요소) 각각은 기능을 정의하는 기능 정보 항목에 해당한다.

각 입력 요소에 해당하는 기능 정보 항목의 유형은 분석의 일부로 결정될 수 있다. 예를 들어, 동사 형태의 입력 요소(예컨대, "보내(send)")는 수행할 기능을 정의하는 기능 정보 항목에 대응되도록 결정될 수 있다. 화폐 기호(예컨대, "$")를 포함하는 입력 요소는 화폐 금액을 정의하는 기능 정보 항목에 대응하도록 결정될 수 있다. "[명사]에게(to [명사])"(예컨대, 엄마에게("to Mom")) 형태의 입력 요소는 목적지를 정의하는 기능 정보 항목의 항목에 대응하도록 결정될 수 있다. 인식된 서비스(예컨대, 삼성 페이("Samsung Pay"))를 포함하는 입력 요소는 해당 기능을 수행할 수 있거나 수행해야 하는 서비스를 지정하는 기능 정보 항목에 해당하는 것으로 결정될 수 있다.

사용자 입력을 분석할 때 변형 및/또는 동의어가 고려될 수 있다. 예를 들어, "send", "transmit" 및 "transfer"라는 단어는 각각 동일한 "send" 기능에 대응하는 것으로 결정될 수 있다.

위에서 설명한 바와 같이, 사용자 입력은 하나 이상의 "입력 요소(input elements)"를 포함하는 반면, 기능은 "기능 정보"의 하나 이상의 항목으로 정의된다. 입력 요소는 사용자 입력에 대한 분석에 기초하여 기능 정보 항목에 매핑되어 사용자 입력에 대응하는 특정 기능을 결정할 수 있다.

어떤 경우에는 사용자 입력에는 수행할 기능을 완전히 정의하기에 충분한 정보가 포함될 수 있다. 예를 들어, 사용자 입력에서 파생된 입력 요소가 기능 정보 항목에 매핑되는 경우, 기능 정보 항목이 함께 기능을 수행할 수 있을 정도로 특정 기능을 정의할 수 있다. 이 경우 사용자 입력은 기능을 명확하게 정의한 것으로 간주할 수 있다. 한 예로 "삼성 페이로 엄마에게 100달러를 보내(send $100 to Mom using Samsung Pay)"라는 사용자 입력이 있을 수 있다.

한편, 다른 실시예에서, 사용자 입력이 수행할 기능을 완전히 정의하기에 불충분한 정보를 포함하는 경우도 있다. 예를 들어, 사용자 입력에서 파생된 입력 요소가 기능 정보 항목에 매핑될 때 기능을 수행하는 데 필요한 하나 이상의 기능 정보 항목이 누락(예컨대, 알 수 없거나(unknown) 정의되지 않음(undefined))되어 해당 기능을 수행하지 못할 수 있다. 이 경우, 사용자 입력에 대응하는 기능이 다소 모호할 수 있다. 예를 들어, 사용자 입력은 둘 이상의 가능한 대체 기능에 해당할 수 있다. 다양한 예로 "엄마에게 100달러 보내기", "삼성 페이로 엄마에게 보내기", "삼성 페이로 100달러 보내기", "100달러 보내기" 또는 "보내기"가 있다.

본 개시의 특정 예는 기능 정보의 누락 항목에 대한 가능한 후보를 결정할 수 있다. 예를 들어, "삼성 페이로 100 달러 보내(send $100 using Samsung Pay)"라는 사용자 입력이 주어지면 기능 정보의 누락 항목에 대한 가능한 후보는 "엄마에게", "아빠에게", "Avi에게" 등이 될 수 있다. 예를 들어, "삼성 페이로 엄마에게 보내"라는 사용자 입력이 주어지면 기능 정보의 누락 항목에 대한 가능한 후보는 "50달러", "100달러", "200달러" 등일 수 있다. 기능 정보 항목 중 2개 이상 누락된 경우, 누락된 각 항목에 대해 가능한 후보가 결정될 수 있다. 특정 예에서, 기능 정보의 누락 항목의 가능한 조합에 대한 후보가 결정될 수 있으며, 예를 들어 "엄마에게 100달러", "아빠에게 50달러", "Avi에게 200달러" 등이 있을 수 있다.

특정 예들에서, 하나 이상의 "향상된" 또는 "증강된" 입력에 대한 후보는 누락된 항목으로서 기능 정보의 하나 이상의 후보 항목, 또는 항목의 조합으로 원래의 사용자 입력을 보완함으로써 결정될 수 있다. 예를 들어, "삼성 페이로 보내(send using Samsung Pay)"라는 사용자 입력이 주어지면 후보 증강 입력의 예는 "삼성 페이로 엄마에게 100달러 보내(send $100 to Mom using Samsung Pay)"일 수 있다.

본 개시의 특정 예들은 기능 정보의 후보 항목들 중 2개 이상을 출력(예를 들어, 디스플레이를 통해 시각적으로, 또는 스피커를 통해 청각적으로)할 수 있다. 예를 들어, 기능 정보의 누락 항목마다 후보 항목 목록이 표시될 수 있다. 그런 다음 사용자는 후보 항목 중 하나 이상을 선택할 수 있고, 선택된 항목은 원래 사용자 입력을 보완하여 증강 입력을 생성하는 데 사용될 수 있다. 대안적으로, 본 개시의 특정 예들은 이전 단락에 따라 결정된 둘 이상의 후보 증강 입력들을 출력(예를 들어, 목록의 형태로)할 수 있다. 그런 다음 사용자는 후보 증강 입력을 선택할 수 있다. 두 경우 모두 결과로 생성된 증강 입력을 사용하여 기능을 수행할 수 있다.

위에서 설명된 바와 같이, 사용자 입력이 모호할 때, 본 개시의 특정 예는 누락된 항목들(또는 항목들의 조합)에 대한 하나 이상의 후보를 결정함으로써 기능 정보의 하나 이상의 누락된 항목이 완성되도록 허용한다. 둘 이상의 후보가 결정되면 사용자는 후보를 선택할 수 있다. 그 결과 모호하지 않은 입력은 기능을 수행하는 데 사용될 수 있다.

기능 정보의 누락된 항목들 또는 항목들의 조합에 대한 후보들은 임의의 적절한 기술을 사용하여 결정될 수 있다.

본 개시의 특정 실시예에서, 후보들은 이전에 수행된 기능들의 이력에 기초하여 결정될 수 있다. 예를 들어, 기능들이 수행될 때, 수행된 각 기능들에 대응하는 기능 정보의 항목들이 기록된다. 모호한 사용자 입력이 제공될 때, 사용자 입력을 기반으로 생성된 입력 요소들에 매핑되는 기능 정보의 항목들(이하, 기능 정보의 "누락 항목"과 대조적으로 기능 정보의 "현재 항목"이라고 함)은 저장된 정보와 비교되고, 비교를 기반으로 기능 정보의 누락 항목들에 대한 후보들이 결정된다.

예를 들어, 기능 정보의 누락 항목들에 대한 후보들은, 기록된 이력 내에서 기능 정보의 현재 항목들과 조합하여 비교적 자주 발생하는 항목들로 결정될 수 있다. 예를 들어, 기록된 이력에서, "엄마에게(to Mom)"와 "100달러"가 "삼성 페이로 쪋 보내(send쪋 using Samsung Pay)"와 함께 비교적 자주 나오는 경우, "엄마에게(to Mom)"와 "100달러"가 가 후보들로 결정될 수 있다. 따라서, "삼성 페이로 보내"라는 사용자 입력에 기초하여 "삼성 페이로 엄마에게 100달러 보내(send $100 to Mom using Samsung Pay)"라는 후보 증강 입력이 결정될 수 있다.

전술한 바와 같이, 각각의 이전에 수행된 기능에 대응하는 기능 정보 항목들이 저장될 수 있다. 예를 들어, 특정 이전에 수행된 기능에 대응하는 기능 정보 항목들의 세트는 대응하는 특정 엔트리 또는 테이블의 레코드로서 저장될 수 있다. 사용자 입력이 제공될 때, 사용자 입력으로부터 획득된 기능 정보의 항목들에 기초하여 하나 이상의 테이블 항목이 선택될 수 있고, 향상된 입력에 대한 하나 이상의 대응하는 후보들이 선택된 테이블 항목들에 기초하여 결정될 수 있다.

이하에서는 편의상, 현재 사용자 입력에 해당하는 기능 정보 항목은 "현재 항목"으로 지칭될 수 있고, 예를 들어 테이블의 해당 엔트리에 기록된 이전에 수행된 기능에 해당하는 기능 정보 항목은 "이전 항목"으로 지칭될 수 있다 따라서, 이전 항목을 포함하는 하나 이상의 테이블 엔트리들이 하나 이상의 현재 항목에 기초하여 선택될 수 있다. 예를 들어, 하나 이상의 현재 항목과 일치하는 하나 이상의 이전 항목을 포함하는 테이블 엔트리들이 선택될 수 있다. 어떤 경우에는 모든 현재 항목과 일치하는 이전 항목을 포함하는 테이블 엔트리들만이 선택될 수 있다. 그러한 테이블 엔트리들이 존재하지 않으면, 하나 이상의 현재 항목과 일치하는 이전 항목의 가장 높은 수를 포함하는 테이블 엔트리들이 선택될 수 있다.

특정 예에서, 테이블 엔트리는 하나 이상의 인자(factor)에 기초하여 순위가 매겨질 수 있다.

하나의 인자(factor)는 얼마나 많은 이전 항목이 현재 항목과 일치하는지에 기반할 수 있다. 예를 들어, 현재 항목과 일치하는 더 많은 수의 이전 항목을 포함하는 테이블 엔트리들은 상대적으로 더 높은 순위가 매겨질 수 있다.

또 다른 인자는 기능이 얼마나 최근에 수행되었는지에 기초할 수 있다. 예를 들어, 가장 최근에 수행된 기능에 해당하는 테이블 엔트리들이 상대적으로 더 높은 순위를 가질 수 있다.

또 다른 인자는 기능이 얼마나 자주 수행되었는지에 기초할 수 있다. 예를 들어, 더 자주 수행되는 기능에 해당하는 테이블 엔트리들이 상대적으로 더 높은 순위를 가질 수 있다.

또 다른 요인은 제공된 모호한 사용자 입력과 모호한 사용자 입력에 따라 결국 수행되는 기능 간의 대응 관계에 기초할 수 있다. 예를 들어, 특정 모호한 사용자 입력이 제공되고 여기에 설명된 기술의 결과로 완전히 정의된 특정 기능이 수행되도록 선택되면, 수행된 기능에 해당하는 테이블 엔트리는 모호한 사용자 입력을 지정하는 정보(예: 사용자 입력에 해당하는 (불완전한) 항목 기능 정보)를 포함할 수 있다. 이후 동일한 모호한 사용자 입력이 다시 제공되면, 모호한 사용자 입력을 지정하는 정보를 포함하는 테이블 엔트리들이 상대적으로 더 높은 순위를 가질 수 있다.

통상의 기술자는 본 개시 내용이 이들 인자에 제한되지 않고 다양한 다른 인자가 통상의 기술자에게 용이하게 발생할 것임을 이해할 것이다.

일부 인자가 다른 인자보다 순위에 더 많이 영향을 미치도록 다양한 인자가 가중될 수 있다.

순위에 이어, 가장 높은 순위의 테이블 엔트리 중 하나 이상이 향상된 입력에 대한 하나 이상의 대응하는 후보로서 선택될 수 있다.

본 개시의 일 실시 예는, 기능을 수행하기 위해 수정된 사용자 입력을 결정하기 위한 방법을 제공하며, 이 방법은 사용자 입력을 수신하는 동작; 사용자 입력으로부터 하나 이상의 입력 요소를 결정하기 위해 사용자 입력을 분석하는 동작; 하나 이상의 입력 요소에 대응하는 기능 정보의 하나 이상의 제1 항목을 결정하는 동작; 기능 정보의 하나 이상의 제2 항목을 결정하는 동작; 및 기능 정보의 제1 및 제2 항목에 기초하여 하나 이상의 수정된 사용자 입력을 결정하는 동작을 포함하되, 기능 정보의 하나 이상의 제2 항목은 기능 정보의 하나 이상의 제1 항목 및 이전에 수행된 기능들에 대응하는 기능 정보 항목들을 포함하는 미리 저장된 정보에 기초하여 결정된다.

특정 예에서, 사용자 입력은 음성 입력을 포함한다.

특정 예에서, 입력 요소는 하나 이상의 단어 및/또는 하나 이상의 구를 포함한다.

특정 예에서, 사용자 입력을 분석하는 동작은 사용자 입력을 파싱하는 동작을 포함한다.

특정 예에서, 기능 정보는 기능을 적어도 부분적으로 정의하는 정보 (예를 들어, (i) 수행할 기능, (ii) 기능을 수행할 수 있거나 수행해야 하는 애플리케이션 또는 서비스, (iii) 기능을 수행하는 장치, (iv) 기능의 하나 이상의 매개변수 중 하나 이상을 정의한 정보)를 포함한다.

특정 예에서, 방법은 하나 이상의 수정된 사용자 입력을 출력(예를 들어, 디스플레이)하는 동작; 및 출력된 하나 이상의 사용자 입력 중 하나를 선택하는 사용자 입력을 수신하는 동작을 더 포함한다.

특정 예에서, 방법은 하나 이상의 수정된 사용자 입력에 대응하는 하나 이상의 기능을 결정하는 동작을 더 포함한다.

특정 예에서, 방법은 수정된 사용자 입력에 대응하는 기능이 지원되는지 여부를 결정하는 동작을 포함할 수 있다.

본 개시의 일 실시 예는, 보이스 어시스턴트 서비스를 제공하는 디바이스가 사용자의 발화 입력에 관련된 추천 발화 문장을 제공하는 방법을 제공하며, 상기 방법은, 사용자의 발화 입력을 수신하는 동작; 사용자가 디바이스에서 실행한 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하는 동작; 및 발화 입력과 획득된 애플리케이션 이력 데이터를 이용하여 발화 입력과 관련된 추천 발화 문장을 생성하는 동작을 포함한다.

특정 예에서, 방법은 발화 입력이 단일 발화 입력인지 여부를 결정하는 동작을 더 포함할 수 있다.

특정 예에서, 애플리케이션 이력 데이터를 획득하는 동작은 발화 입력이 단일 발화 입력일 때 애플리케이션 이력 데이터를 획득하는 동작을 포함할 수 있다.

특정 예에서, 방법은 추천된 발화 문장이 디바이스에 의해 제공되는 보이스 어시스턴트 서비스에 의해 지원되는지 여부를 결정하는 동작을 더 포함할 수 있다.

특정 예에서, 방법은 디바이스의 스크린 상에 추천된 발화 문장을 디스플레이하는 동작을 더 포함할 수 있다.

특정 예에서, 추천 발화 문장을 표시하는 동작은 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되는 경우 추천 발화 문장을 표시하는 동작을 포함할 수 있다.

특정 예에서, 발화 입력 및 추천 발화 문장은 동등한 텍스트 입력 및 추천 텍스트 문장을 대안적으로 포함할 수 있다.

도 1을 참조하면, 디바이스(1000)는 사용자의 단발화 입력에 관련된 추천 발화 문장을 생성하고 제공함으로써, 사용자에게 보이스 어시스턴트 서비스를 제공할 수 있다.

디바이스(1000)는 사용자의 발화 입력을 수신하고, 수신된 발화 입력이 단발화 입력인지를 판단할 수 있으며, 사용자의 발화 입력이 단발화 입력인 경우에, 디바이스(1000)는 사용자의 애플리케이션 사용 이력을 이용하여, 사용자의 단발화 입력에 관련된 추천 발화 문장을 생성할 수 있다. 디바이스(1000)는, 단발화 입력에 포함된 단어를 이용하여, 사용자의 애플리케이션 이력 데이터 중에서 단발화 입력에 관련된 애플리케이션 이력 데이터를 검색할 수 있으며, 검색된 애플리케이션 이력 데이터를 이용하여 보이스 어시스턴트 서비스에 의해 지원되는 추천 발화 문장을 사용자에게 제공할 수 있다.

도 2는 일 실시예에 따른 디바이스(1000)의 블록도이다.

도 2를 참조하면, 일 실시예에 따른 디바이스(1000)는 사용자 입력부(1100)(예를 들어, 사용자 입력 디바이스 또는 인터페이스), 디스플레이부(1200), 마이크(1300), 스피커(1400), 통신 인터페이스(1500), 저장부(1600) 및 프로세서(1700)를 포함할 수 있다.

사용자 입력부(1100)는, 사용자가 디바이스(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠 또는 조그 스위치 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 사용자 입력부(1100)는 사용자의 발화 입력에 대응되는 발화 문장을 결정하기 위한 사용자 입력을 수신할 수 있다.

디스플레이부(1200)는 디바이스(1000)에서 처리되는 정보를 표시한다. 예를 들어, 디스플레이부(1200)는, 사용자에게 보이스 어시스턴트 서비스를 제공하기 위한 정보를 제공하기 위한 GUI를 디스플레이할 수 있다.

한편, 디스플레이부(1200)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1200)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1200)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 디바이스(1000)의 구현 형태에 따라 디바이스(1000)는 디스플레이부(1200)를 2개 이상 포함할 수도 있다.

마이크(1300)는 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 마이크(1300)는 보이스 어시스턴트 서비스를 위한 사용자의 발화 입력을 수신할 수 있다.

스피커(1400)는 통신 인터페이스(1500)로부터 수신되거나 저장부(1600)에 저장된 오디오 데이터를 출력한다. 스피커(1400)는 보이스 어시스턴트 서비스의 응답 메시지의 사운드를 출력할 수 있다.

통신 인터페이스(1500)는 다른 디바이스) 및/또는 서버와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신 인터페이스(1500)는, 근거리 통신부, 이동 통신부 및 방송 수신부를 포함할 수 있다. 근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 방송 수신부는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 또한, 통신 인터페이스(1500)는 보이스 어시스턴트 서비스를 제공하기 위한 정보를 외부 디바이스(미도시) 및 서버(미도시)와 송수신할 수 있다.

저장부(1600)는 후술할 프로세서(1700)에 의해 실행될 프로그램을 저장할 수 있고, 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수 있다.

저장부(1600)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

저장부(1600)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, 단발화 입력 처리 모듈(1610), 보이스 어시스턴트 모듈(1620), DB(1630)를 포함할 수 있다. 단발화 입력 처리 모듈(1610)은 단발화 입력 판단 모듈(1611), 애플리케이션 이력 데이터 생성 모듈(1612), 애플리케이션 이력 데이터 추출 모듈(1613), 추천 발화 문장 생성 모듈(1614), 추천 발화 문장 평가 모듈(1615) 및 추천 발화 문장 표시 모듈(1616)을 포함할 수 있다. 보이스 어시스턴트 모듈(1620)은 NLU 모델(1621), 응답 정보 생성 모듈(1622) 및 NLG 모델(1623)을 포함할 수 있다. DB(1630)는 애플리케이션 이력 데이터 DB(1631), 발화 이력 데이터 DB(1632), 단어 DB(1633) 및 기능 DB(1634)를 포함할 수 있다.

프로세서(1700)는 디바이스(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1700)는, 저장부(1600)에 저장된 프로그램들 (예를 들어, 모듈들)을 실행함으로써, 사용자 입력부(1100), 디스플레이부(1200), 마이크(1300), 스피커(1400), 통신 인터페이스(1500) 및 저장부(1600) 등을 전반적으로 제어할 수 있다.

일부 실시예에 따르면, 프로세서(1700)는 저장부(1600)에 저장된 단발화 입력 처리 모듈(1610)을 실행함으로써, 사용자의 발화 입력이 단발화 입력임을 판단하고, 단발화 입력에 관련된 추천 발화 문장을 생성하여 제공할 수 있다. 단발화 입력 처리 모듈(1610)은 단발화 입력 판단 모듈(1611), 애플리케이션 이력 데이터 생성 모듈(1612), 애플리케이션 이력 데이터 추출 모듈(1613), 추천 발화 문장 생성 모듈(1614), 추천 발화 문장 평가 모듈(1615) 및 추천 발화 문장 표시 모듈(1616)을 포함할 수 있다.

일부 실시예에 따르면, 프로세서(1700)는 단발화 입력 판단 모듈(1611)을 실행함으로써, 사용자의 발화 입력이 단발화 입력인지를 판단할 수 있다. 단발화 입력은 하나의 용어(term)을 나타내는 짧은 발화에 의한 입력으로서, 하나의 단어 또는 하나의 어구로 이루어진 발화에 의한 입력일 수 있으며, 예를 들어, 명사로 이루어진 발화, 명사구로 이루어진 발화, 동사로 이루어진 발화 또는 동사구로 이루어진 발화를 포함할 수 있다. 단발화 입력 판단 모듈(1611)은 사용자의 발화 입력이 나타내는 용어에 대응되는 품사가 기설정된 품사이며, 사용자의 발화 입력이 나타내는 용어의 길이가 기설정된 임계치 이하인 경우에 사용자의 발화 입력을 단발화 입력으로 판단할 수 있다. 예를 들어, 단발화 입력 판단 모듈(1611)은 POS Tagger(Part Of Speech Tagger)를 이용하여 사용자의 발화 입력에 대응되는 용어의 품사가 명사인지, 동사인지, 명사구인지 또는 동사구인지를 판단할 수 있다. 또한, 예를 들어, 단발화 입력에 대응되는 용어의 길이가 미리 설정될 수 있으며, 단발화 입력 판단 모듈(1611)은 사용자의 발화 입력에 대응되는 용어의 길이가 미리 설정된 길이(예를 들어, 미리 설정된 단어 수 및/또는 미리 설정된 음절 수)보다 작은 지를 판단할 수 있다.

일부 실시예에 따르면, 프로세서(1700)는 애플리케이션 이력 데이터 생성 모듈(1612)을 실행함으로써, 사용자에 의해 실행된 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터를 생성 또는 획득할 수 있다. 애플리케이션 이력 데이터는 디바이스(1000)에서 실행된 애플리케이션의 실행 이력을 나타내는 데이터일 수 있다. 애플리케이션 이력 데이터는, 예를 들어, 애플리케이션의 식별 값, 애플리케이션의 종류, 애플리케이션에서 실행된 액션의 종류, 애플리케이션에서 실행된 액션에 관한 파라미터, 애플리케이션의 액션이 실행된 시각, 액션의 누적 실행 횟수 등에 관한 정보를 포함할 수 있다. 애플리케이션 이력 데이터는, 보이스 어시스턴트 서비스와 무관하게 또는 독립적으로 또는 보이스 어시스턴트 서비스만을 통하지 않고, 디바이스(1000)에서 사용자 입력에 의해 실행된 애플리케이션의 실행 이력에 관한 정보를 포함할 수 있다. 또한, 애플리케이션 이력 데이터는 디바이스(1000)가 단발화 입력을 수신하기 이전에 미리 생성되어 저장부(1600)에 저장될 수 있다.

프로세서(1700)는, 특정 품사를 가지는 용어에 관련된 애플리케이션 이력 데이터를 수집함으로써, 사용자의 애플리케이션 이력 데이터를 생성할 수 있다. 프로세서(1700)는 예를 들어, 동사 또는 동사구에 관련된 애플리케이션 이력 데이터로서, 애플리케이션의 Intent, 애플리케이션의 특정 기능의 사용 이력, 애플리케이션의 GUI의 특정 버튼의 선택 이력 등에 기초하여 사용자의 애플리케이션 이력 데이터를 생성할 수 있다. 프로세서(1700)는, 예를 들어, 명사 또는 명사구에 관련된 애플리케이션 이력 데이터로서, 해당 명사 또는 명사구의 명칭을 가지는 애플리케이션의 사용 이력, 해당 명사 또는 명사구를 키워드로 이용한 사용자 동작에 관한 이력 등에 기초하여 사용자의 애플리케이션 이력 데이터를 생성할 수 있다.

한편, 상기에서는 프로세서(1700)가 보이스 어시스턴트 서비스와 무관하게 애플리케이션 이력 데이터를 생성하여 저장부(1600)에 저장하는 것으로 설명되었지만, 이에 제한되지 않는다. 프로세서(1700)는 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터를 저장부(1600)에 저장할 수도 있다.

이 경우, 프로세서(1700)는 보이스 어시스턴트 서비스에 의해 이용되는 서비스 발화 문장들로부터 쿼리문들을 미리 생성할 수 있으며, 쿼리문들 및 서비스 발화 문장들을 매칭하여 저장할 수 있다. 서비스 발화 문장은, 보이스 어시스턴트 서비스를 위하여 사용자로부터 수신되는 발화 문장 및 사용자에게 제공되는 발화 문장일 수 있으며, 보이스 어시스턴트 서비스에 관련된 디바이스(1000) 및/또는 다른 디바이스의 기능에 의해 지원되는 액션에 관련된 발화 문장일 수 있다. 또한, 프로세서(1700)는 생성된 애플리케이션 이력 데이터를 서비스 발화 문장으로부터 생성된 쿼리문과 비교하여, 보이스 어시스턴트 서비스에 의해 지원된다고 판단된 애플리케이션 이력 데이터를 선택하여 저장부(1600)에 저장할 수 있다. 또한, 프로세서(1700)는 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터를 저장하는 경우에, 애플리케이션 이력 데이터에 대응되는 쿼리문을 서비스 발화 문장으로부터 생성된 쿼리문의 형식으로 변환하여 저장할 수 있다.

일부 실시예에 따르면, 프로세서(1700)는, 애플리케이션 이력 데이터 추출 모듈(1613)을 실행함으로써, 저장부(1600)에 저장된 애플리케이션 이력 데이터 중에서 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 추출할 수 있다. 저장부(1600)에 저장된 애플리케이션 이력 데이터는, 예를 들어, 디바이스(1000) 또는 다른 디바이스에서 생성된 애플리케이션 이력 데이터 및 서버에 의해 생성된 애플리케이션 이력 데이터를 포함할 수 있다. 프로세서(1700)는, 사용자의 발화 입력이 단발화 입력이라고 판단되는 경우에, 사용자의 발화 입력에 대한 추천 발화 문장을 생성하기 위하여, 저장부(1600)에 저장된 애플리케이션 이력 데이터 중에서 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 검색하고 추출할 수 있다.

또한, 프로세서(1700)는 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 검색하기 위한 검색 쿼리를 생성할 수 있다. 예를 들어, 사용자의 발화 입력이 동사 또는 동사구의 단발화 입력인 경우에, 프로세서(1700)는 디바이스(1000) 내의 애플리케이션에서 실행된 액션을 검색하기 위한 검색 쿼리를 생성할 수 있다. 이 경우, 사용자의 발화 입력에 대응되는 단어가 "보내(send)"인 경우에, 프로세서(1700)는 애플리케이션 이력 데이터 내의 액션을 검색하기 위한 "Action/send"를 검색 쿼리로 생성할 수 있다 또한, 예를 들어, 사용자의 발화 입력이 명사 또는 명사구인 단발화 입력인 경우에, 프로세서(1700)는 애플리케이션의 명칭 및 애플리케이션에서 실행된 액션에 관한 파라미터를 검색하기 위한 검색 쿼리를 생성할 수 있다. 이 경우, 예를 들어, 사용자의 발화 입력에 대응되는 단어가 "TV"인 경우에, 프로세서(1700)는 애플리케이션 이력 데이터 내의 애플리케이션 명칭을 검색하기 위한 "App/TV", 및 애플리케이션 이력 데이터 내의 애플리케이션의 액션에 관한 파라미터를 검색하기 위한 "Para/TV"를 검색 쿼리로 생성할 수 있다.

한편, 상기에서는, 발화 입력된 단어를 검색 쿼리로 이용하여, 발화 입력에 관련된 애플리케이션 이력 데이터가 검색되는 것으로 설명되었지만, 이에 제한되지 않는다. 예를 들어, 프로세서(1700)는 발화 입력된 단어와 유사한 단어들을 유사 단어 DB(1633)로부터 추출하고, 발화 입력된 단어 및 추출된 유사 단어를 이용하여 검색 쿼리를 생성할 수 있다.

또한, 보이스 어시스턴트 서비스에 의해 제공된 서비스 발화 문장을 이용하여 검색 쿼리가 생성될 수 있다. 이 경우, 프로세서(1700)는 발화 입력된 단어와 관련된 서비스 발화 문장을 획득할 수 있다. 프로세서(1700)는, 예를 들어, 머신 러닝 기반의 분류 알고리즘을 활용하여 발화 입력에 관련된 서비스 발화 문장을 획득하거나, 발화 입력된 단어와 TF-IDF(Term Frequency - Inverse Document Frequency)가 유사한 단어를 포함하는 서비스 발화 문장을 획득할 수 있다. 또한, 프로세서(1700)는 발화 입력과 관련된 서비스 발화 문장으로부터 애플리케이션 이력 데이터를 검색하기 위한 쿼리문을 생성할 수 있다. 이 경우, 생성되는 쿼리문은, 애플리케이션 이력 데이터의 포맷을 가지도록 생성될 수 있다.

프로세서(1700)는 생성된 검색 쿼리를 이용하여 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 검색할 수 있다. 검색 쿼리가 "Action/send"인 경우에, 프로세서(1700)는 애플리케이션 이력 데이터 중에서, "Action"에 대응되는 값이 "send"인 이력 데이터를 검색할 수 있다. 예를 들어, 검색 쿼리가 "App/TV" 및 "Para/TV"인 경우에, 프로세서(1700)는 애플리케이션 이력 데이터 중에서, "App"에 대응되는 값이 "TV"인 이력 데이터, 및 "Para" 값들 중에서 "TV"를 포함하는 이력 데이터를 검색할 수 있다. 또한, 프로세서(1700)는 검색된 이력 데이터들 중에서 소정 임계치 이상으로 실행된 이력 데이터를 필터링하여 선택할 수 있다.

일부 실시예에 따라, 프로세서(1700)는, 추천 발화 문장 생성 모듈(1614)을 실행함으로써, 사용자의 발화 입력에 관련된 추천 발화 문장을 생성할 수 있다. 프로세서(1700)는 발화 입력된 단어 이외에 추천 발화 문장의 생성을 위한(예를 들어, 생성하는데 필요한) 단어를 결정할 수 있다. 발화 입력된 단어 이외에 추천 발화 문장의 생성을 위한 단어는, 예를 들어, 발화 입력된 단어의 품사와 다른 품사의 단어일 수 있다. 프로세서(1700)는 발화 입력된 단어와 관련된 애플리케이션 이력 데이터를 분석하여 추천 발화 문장의 생성을 위한 단어를 선택할 수 있다. 예를 들어, 발화 입력된 단어가 "보내"인 경우에, 프로세서(1700)는 "보내"와 관련된 애플리케이션 이력 데이터로부터 "보내"의 품사와 다른 품사의 단어들인 "갤러리 애플리케이션" 및 "사진"을 추천 발화 문장의 생성을 위한 단어들로서 선택할 수 있다. 또한, 예를 들어, 발화 입력된 단어가 "보내"인 경우에, 프로세서(1700)는 "보내"와 관련된 애플리케이션 이력 데이터로부터 "보내"의 품사와 다른 품사의 단어들인 "삼성 페이" 및 "돈"을 추천 발화 문장의 생성을 위한 단어들로서 선택할 수 있다.

또한, 프로세서(1700)는 발화 입력된 단어 및/또는 애플리케이션 이력 데이터로부터 결정된 단어를 조합하여 추천 발화 문장을 생성할 수 있다. 예를 들어, 프로세서(1700)는 발화 입력된 단어인 "보내"를 애플리케이션 이력 데이터로부터 결정된 단어들인 "갤러리 애플리케이션" 및 "사진"과 조합하여, "갤러리 애플리케이션에서 사진을 보내."라는 추천 발화 문장을 생성할 수 있다. 다른 예를 들어, 프로세서(1700)는 발화 입력된 단어인 "보내"를 애플리케이션 이력 데이터로부터 결정된 단어들인 "삼성 페이" 및 "돈"과 조합하여, "삼성 페이로 돈을 보내"라는 추천 발화 문장을 생성할 수 있다.

이 경우, 추천 발화 문장의 일부 단어가 유사 단어로 수정될 수 있다. 예를 들어, "갤러리 애플리케이션에서 사진을 보내."는 "갤러리 애플리케이션을 통해 사진을 전송해."로 수정되고, "삼성 페이로 돈을 보내."는 "삼성 페이로 돈을 송금해"로 수정될 수 있다.

한편, 보이스 어시스턴트 서비스의 서비스 발화 문장을 이용하여 애플리케이션 이력 데이터가 검색된 경우에, 프로세서(1700)는 서비스 발화 문장 및 애플리케이션 이력 데이터를 이용하여, 추천 발화 문장을 생성할 수 있다. 프로세서(1700)는 서비스 발화 문장으로부터 생성된 쿼리문 내에 포함된 엔터티의 값(value)를 애플리케이션 이력 데이터 내의 엔터티의 값(value)으로 변경함으로써, 추천 발화 문장을 생성할 수 있다. 예를 들어, 서비스 발화 문장으로부터 생성된 쿼리문이 "{App: Message} & {what: Text} & {Action: Send} & {to: Person}"이고, 애플리케이션 이력 데이터로부터 검색된 이력 데이터로부터 생성된 문장 데이터가 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}-{value:엄마}"인 경우에, 프로세서(1700)는 서비스 발화 문장 내의 엔터티인 "{to: Person}"에 대응되는 값을 "{value:엄마}"로 결정할 수 있다. 또한, 프로세서(1700)는 서비스 발화 문장 내의 쿼리문을 수정함으로써 생성된 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}-{value:엄마}"를 이용하여 "엄마에게 문자 보내줘"라는 추천 발화 문장을 생성할 수 있다.

한편, 프로세서(1700)는 보이스 어시스턴트 서비스에 의해 지원되는 신규 기능을 이용하여 추천 발화 문장을 수정할 수도 있다. 프로세서(1700)는 사용자가 자주 사용하지 않는 애플리케이션의 기능 또는 애플리케이션의 신규 기능 중 적어도 하나를 고려하여, 생성된 추천 발화 문장을 수정할 수 있다. 이 경우, 프로세서(1700)는 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터로부터 사용자의 발화 입력에 관련된 기능을 식별하고, 식별된 기능과 관련된 애플리케이션의 신규 기능이 있는 경우에, 신규 기능에 기초하여 추천 발화 문장을 생성할 수도 있다. 예를 들어, 생성된 추천 발화 문장이 "메신저 애플리케이션으로 문자를 보내."인 경우에, 프로세서(1700)는 추천 발화 문장을 수정하여 "카카오톡 애플리케이션으로 문자를 보내."를 생성할 수 있다. 또한, 프로세서(1700)는, 예를 들어, "삼성 페이로 돈을 송금해."라는 추천 발화 문장을 "카카오 페이로 돈을 송금해"로 수정할 수 있다.

일부 실시예에 따라, 프로세서(1700)는, 추천 발화 문장 평가 모듈(1615)을 실행함으로써, 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되는지를 판단할 수 있다. 프로세서(1700)는 추천 발화 문장에 대응되는 기능이 보이스 어시스턴트 서비스에 관련된 디바이스(1000) 또는 다른 디바이스에 의해 실행되는 지를 식별할 수 있다. 이를 위하여, 프로세서(1700)는 보이스 어시스턴트 서비스에서 제공된 서비스 발화 문장들을 추천 발화 문장과 비교함으로써, 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되는지를 판단할 수 있다. 프로세서(1700)는 보이스 어시스턴트 서비스에서 제공된 서비스 발화 문장들 중에서 추천 발화 문장에 관련된 서비스 발화 문장을 선택할 수 있다. 또한, 프로세서(1700)는 선택된 서비스 발화 문장 및 추천 발화 문장의 유사도를 산출하고, 산출된 유사도가 기설정된 임계치보다 큰 경우에 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원된다고 판단할 수 있다. 예를 들어, 프로세서(1700)는 TF-IDF (Term Frequency - Inverse Document Frequency) 기반의 Cosine Similarity 기법을 이용하여, 추천 발화 문장과 서비스 발화 문장의 유사도를 산출할 수 있다.

복수의 추천 발화 문장이 생성된 경우에, 프로세서(1700)는 유사도에 기초하여 복수의 추천 발화 문장들 중에서 사용자에게 제공할 추천 발화 문장을 선택할 수 있다. 예를 들어, 프로세서는 복수의 추천 발화 문장 중에서 유사도가 가장 높은 추천 발화 문장(또는 소정 개수의 추천 발화 문장)을 선택할 수 있다.

일부 실시예에 따라, 프로세서(1700)는, 추천 발화 문장 표시 모듈(1616)을 실행함으로써, 추천 발화 문장을 디바이스(1000)의 디스플레이부(1200) 상에 디스플레이할 수 있다. 프로세서(1700)는 보이스 어시스턴트 서비스에 의해 지원되는 추천 발화 문장을 포함하는 소정의 GUI를 디스플레이부(1200) 상에 디스플레이하고, 사용자의 피드백 입력을 수신할 수 있다.

프로세서(1700)는 사용자의 피드백 입력에 따라, 추천 발화 문장을 수정할 수 있다. 이 경우, 프로세서(1700)는 추천 발화 문장을 수정하기 위한 GUI를 디스플레이부(1200) 상에 디스플레이하고, 디스플레이된 GUI를 통한 사용자 입력에 따라 추천 발화 문장을 수정할 수 있다. 또는, 프로세서(1700)는 추천 발화 문장을 수정하기 위한 사용자의 발화를 수신하고, 사용자의 발화에 기초하여 추천 발화 문장을 수정할 수 있다.

또한, 프로세서(1700)는, 추천 발화 문장에 대응되는 보이스 어시스턴트 서비스의 기능을 실행할 수 있다. 만약, 추천 발화 문장이 사용자에 의해 수정된 경우에는, 프로세서(1700)는 수정된 추천 발화 문장에 대응되는 보이스 어시스턴트 서비스의 기능을 수행할 수 있다.

일부 실시예에 따라, 프로세서(1700)는 보이스 어시스턴트 모듈(1620)을 실행함으로써 사용자에게 보이스 어시스턴트 서비스를 제공할 수 있다. 보이스 어시스턴트 모듈(1620)은 보이스 어시스턴트 서비스를 위한 사용자 입력을 해석하고, 사용자 입력에 대한 응답 정보를 생성할 수 있다. 보이스 어시스턴트 모듈(1620)은 NLU 모델(1621), 응답 정보 생성 모듈(1622) 및 NLG 모델(1623)을 포함할 수 있다.

프로세서(1700)는 NLU 모델(1621)을 실행함으로써, 사용자의 발화 입력으로부터 생성되는 문장 또는 사용자의 단발화 입력에 관련된 추천 발화 문장을 해석할 수 있다. NLU 모델(1621)은 사용자 입력에 대응되는 텍스트를 해석하여 사용자의 의도에 관련된 인텐트 및 파라미터를 출력할 수 있다. 인텐트는 NLU 모델(1621)을 이용하여 텍스트를 해석함으로써 결정되는 정보로서, 예를 들어, 사용자의 의도를 나타낼 수 있다. 인텐트는, 사용자의 의도를 나타내는 의도 정보뿐 아니라, 사용자의 의도를 나타내는 정보에 대응하는 수치 값을 포함할 수 있다. 수치 값은, 텍스트가 특정 의도를 나타내는 정보와 관련될 확률을 나타낼 수 있다. 예를 들어, NLU 모델(1621)을 이용하여 텍스트를 해석한 결과, 사용자의 의도를 나타내는 정보가 복수 개 획득되는 경우, 각 의도 정보에 대응되는 수치 값이 최대인 의도 정보가 인텐트로 결정될 수 있다. 또한, 파라미터는 인텐트와 관련된 세부 정보를 나타낼 수 있다. 파라미터는 인텐트와 관련된 정보로서, 하나의 인텐트에 복수 종류의 파라미터가 대응될 수 있다.

프로세서(1700)는 응답 정보 생성 모듈(1622)을 실행함으로써, 텍스트의 해석 결과에 기초하여 텍스트에 대한 응답 정보를 생성할 수 있다. 응답 정보는, 텍스트에 대한 응답에 관련된 데이터로서, 예를 들어, 디바이스(1000)의 응답 동작을 위한 데이터, 및 다른 디바이스 및/또는 서버에게 제공되는 데이터를 포함할 수 있다. 응답 정보 생성 모듈(1622)은 NLU 모델(1621)의 출력 값에 기초하여 사용자의 의도에 따른 디바이스(1000) 및 다른 디바이스의 액션들을 플래닝할 수 있다. 예를 들어, 응답 정보 생성 모듈(1622)은 텍스트의 해석 결과, DB(1630)에 저장된 발화 데이터 및 액션 데이터를 이용하여, 사용자의 의도에 따른 디바이스(1000) 및/또는 다른 디바이스의 액션들을 플래닝할 수 있다. 또한, 응답 정보 생성 모듈(1622)은 사용자의 의도에 따른 디바이스(1000) 및/또는 다른 디바이스의 액션들을 플래닝함으로써, 사용자 입력에 대응되는 텍스트에 대한 응답 정보를 생성할 수 있다. 예를 들어, 응답 정보 생성 모듈(1622)은 NLG 모델(1623)을 이용하여 사용자의 의도에 따른 응답 메시지를 생성할 수 있다. 또한, 예를 들어, 응답 정보 생성 모듈(1622)은 텍스트, 이미지, 동영상 등과 같이, 사용자에 제공할 응답 컨텐츠를 획득할 수 있다. 또한, 예를 들어, 응답 정보 생성 모듈(1622)은 사용자의 디바이스(1000) 및/또는 다른 디바이스의 동작들을 결정하고, 디바이스(1000) 및/또는 다른 디바이스를 제어하기 위한 제어 명령을 생성할 수도 있다.

DB(1630)는 애플리케이션 이력 데이터 DB(1631), 발화 이력 데이터 DB(1632), 단어 DB(1633) 및 기능 DB(1634)를 포함할 수 있다. 애플리케이션 이력 데이터(1631)는 디바이스(1000)에서 실행된 애플리케이션의 실행 이력에 관한 애플리케이션 이력 데이터를 저장할 수 있다. 발화 이력 데이터 DB(1632)는 보이스 어시스턴트 서비스를 위하여 사용자로부터 수신되는 발화 문장 및 사용자에게 제공되는 발화 문장을 저장할 수 있다. 단어 DB(1633)는 단어 및 유사 단어에 관한 정보를 저장할 수 있다. 기능 DB(1634)는 디바이스(1000)의 기능 및/또는 다른 디바이스의 기능에 관한 정보를 저장할 수 있다. 기능 DB(1634)는 디바이스(1000)의 신규 기능 및 다른 디바이스(미도시)의 신규 기능에 관한 정보가 추가됨으로써 업데이트될 수 있다.

한편, 디바이스(1000)는 서버와 연동 또는 통신함으로써 사용자에게 추천 발화 문장을 제공할 수 있다. 이 경우, 디바이스(1000)는 사용자의 단발화 입력에 관련된 추천 발화 문장을 서버에게 요청할 수 있으며, 서버는 본 명세서에 기재된 디바이스(1000)가 추천 발화 문장을 생성하기 위한 동작들 중 적어도 일부를 수행할 수 있다. 또한, 서버는 본 명세서에 기재된 디바이스(1000)가 애플리케이션 이력 데이터를 생성하고 관리하기 위한 동작들 중 적어도 일부를 수행할 수 있다. 이를 위하여, 서버의 저장부는 도 2에 도시된 디바이스(1000)의 저장부(1610)에 저장된 명령어들 중 적어도 일부를 저장하며, 서버의 프로세서는 서버의 저장부에 저장된 명령어들을 실행함으로써, 추천 발화 문장의 생성을 위한 동작, 및 애플리케이션 이력 데이터의 생성 및 관리를 위한 동작을 수행할 수 있다.

예를 들어, 디바이스(1000)는 단발화 입력의 텍스트를 서버에게 제공하고, 서버는 디바이스(1000)로부터 수신된 단발화 입력의 텍스트에 기초하여, 사용자의 단발화 입력에 관련된 애플리케이션 이력 데이터를 획득할 수 있다. 이 경우, 서버는 서버의 저장부에 미리 저장된 사용자의 애플리케이션 이력 데이터 중에서, 사용자의 단발화 입력에 관련된 애플리케이션 이력 데이터를 검색할 수 있다. 서버의 저장부에 저장되는 애플리케이션 이력 데이터는, 예를 들어, 사용자의 디바이스(1000)에서 실행된 애플리케이션의 실행 이력을 나타내는 데이터 및 사용자의 다른 디바이스에서 실행된 애플리케이션의 실행 이력을 나타내는 데이터를 포함할 수 있다. 서버에 저장되는 애플리케이션 이력 데이터는, 예를 들어, 디바이스(1000)에서 생성된 이력 데이터, 다른 디바이스에서 생성된 이력 데이터 또는 서버에 의해 생성된 이력 데이터 중 적어도 하나를 포함할 수 있다. 또한, 서버는 단발화 입력에 관련된 애플리케이션 이력 데이터를 이용하여 사용자의 단발화 입력에 관련된 추천 발화 문장을 생성하고, 생성된 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되는지를 판단할 수 있다. 서버는 보이스 어시스턴트 서비스에 등록된 사용자의 디바이스(1000) 및 다른 디바이스에서 추천 발화 문장에 관련된 동작을 지원하는 지를 판단할 수 있다. 또한, 서버는, 서버의 통신 인터페이스를 통하여, 보이스 어시스턴트 서비스에 의해 지원되는 추천 발화 문장을 디바이스(1000)에게 제공할 수 있다.

도 3은 본 개시의 일 실시예에 따른 단발화 입력에 관련된 애플리케이션 이력 데이터가 생성되는 예시를 나타내는 도면이다.

도 3을 참조하면, 특정 품사를 가지는 용어에 관련된 애플리케이션 이력이 분석됨으로써, 단발화 입력에 관련된 사용자의 애플리케이션 이력 데이터가 생성될 수 있다.

디바이스(1000)는 단발화 입력의 종류에 따라 미리 설정된 종류의 사용자 이력을 수집하여, 사용자의 애플리케이션 이력 데이터를 생성할 수 있다. 예를 들어, 단발화 입력의 종류가 동사인 경우에, 디바이스(1000)는 사용자의 애플리케이션의 액티비티, 애플리케이션의 특정 기능 및 애플리케이션 내의 intent 등을 수집하고 분석할 수 있다. 예를 들어, "보내"라는 동사에 관련된 사용자의 애플리케이션 이력 데이터를 생성하기 위하여, 디바이스(1000)는 애플리케이션 이력 데이터 생성 모듈(1612)을 실행함으로써, 동사에 관련된 사용자 이력을 수집하고 분석할 수 있다. 디바이스(1000)는 사용자에 의해 실행된 애플리케이션 내의 intent 사용 이력 (예컨대, ACTION_SEND / ACTION_SENDTO)을 수집하고, 디바이스(1000)에서 실행된 공유 기능의 사용 이력(예컨대, ShareVia 기능의 사용 이력)을 수집하고, 디바이스(1000)의 데이터 전송에 관련된 GUI의 사용 이력 등을 수집할 수 있다. 또한, 디바이스(1000)는 수집된 데이터를 분석함으로써, 동사 "보내"에 관련된 사용자의 애플리케이션 이력 데이터를 생성할 수 있다.

예를 들어, 단발화 입력의 종류가 명사인 경우에, 디바이스(1000)는 명사 키워드가 애플리케이션에서 사용된 이력, 기기의 명칭, 애플리케이션의 명칭, 콘텐트의 명칭 등을 수집하고 분석할 수 있다. 예를 들어, "텔레비전"이라는 명사에 관련된 사용자의 애플리케이션 이력 데이터를 생성하기 위하여, 디바이스(1000)는 애플리케이션 이력 데이터 생성 모듈(1612)을 실행함으로써, 명사에 관련된 사용자 이력을 수집하고 분석할 수 있다. 이 경우, 디바이스(1000)는 사용자가 텔레비전을 사용한 이력, 사용자가 텔레비전이라는 키워드를 이용하여 지식 검색을 수행한 이력, 및 사용자가 텔레비전 애플리케이션을 사용한 이력 등을 수집할 수 있다. 디바이스(1000)는 수집된 데이터를 분석함으로써, 명사 "텔레비전"에 관련된 사용자의 애플리케이션 이력 데이터를 생성할 수 있다.

디바이스(1000)가 수집하는 애플리케이션 이력 데이터는 디바이스(1000) 및/또는 하나 이상의 다른 디바이스에서 실행된 애플리케이션에 관련된 이력 데이터일 수 있으며, 단발화 입력의 종류에 따라 수집되는 사용자 이력의 종류가 다양하게 설정될 수 있다. 또한, 디바이스(1000)는 다양한 단발화 입력에 대한 응답을 효율적으로 제공하기 위하여, 여러 용어에 관련된 사용자의 애플리케이션 이력 데이터를 미리 생성하여 DB(1630)에 저장해둘 수 있다.

도 4는 본 개시의 일 실시예에 따른 사용자의 애플리케이션 이력 데이터의 테이블의 일례를 나타내는 도면이다.

도 4를 참조하면, 본 개시의 일 실시예에 따른 사용자의 애플리케이션 이력 데이터의 테이블은 App 필드(40), Action 필드(41), Parameter 필드(42), Time 필드(43) 및 Count 필드(44)를 포함할 수 있다.

App 필드(40)는 사용자에 의해 실행된 애플리케이션의 식별값이 기록될 수 있다. 예를 들어, App 필드(40)에는, Message, SamsungPay, ShareVia, Internet, Smartthings 등이 기록될 수 있다.

Action 필드(41)에는 사용자에 의해 실행된 애플리케이션의 액션이 기록될 수 있다. 예를 들어, Action 필드(41)에는, Send, Search, Up, Off 등의 액션을 식별하기 위한 값이 기록될 수 있다.

Parameter 필드(42)에는 사용자에 의해 실행된 애플리케이션의 액션에 관한 세부 정보가 기록될 수 있다. 예를 들어, Parameter 필드(42)에는, Message 애플리케이션의 Send와 관련하여 {what: Text, to: 엄마}가 기록되고, SamsungPay 애플리케이션의 Send와 관련하여 {what: Money, to: 아빠}가 기록될 수 있다.

또한, Time 필드(43)에는 애플리케이션의 액션의 실행 시간이 기록되며, Count 필드(44)에는 애플리케이션의 액션의 누적 실행 횟수가 기록될 수 있다.

도 5는 본 개시의 일 실시예에 따른 동사인 단발화 입력에 대한 애플리케이션 이력 데이터를 추출하는 예시를 나타내는 도면이다.

도 5를 참조하면, "보내"라는 단발화 입력이 디바이스(1000)에 입력되면, 디바이스(1000)는 단발화 입력 판단 모듈(1611)을 실행함으로써 "보내"라는 입력이 단발화 입력인지를 판단할 수 있다. 단발화 입력 판단 모듈(1611)은 Pos Tagger(50) 및 VerbNoun Detector(51)를 이용하여 "보내"라는 입력이 동사 또는 명사의 단발화 입력인지를 판단하고, "보내"라는 입력의 길이가 기설정된 수치 이하인지를 판단(52)할 수 있다.

디바이스(1000)는 애플리케이션 이력 데이터 추출 모듈(1612)을 실행함으로써, "보내"라는 단발화 입력에 관련된 애플리케이션 이력 데이터를 DB(1630)로부터 추출할 수 있다. 애플리케이션 이력 데이터 추출 모듈(1612)은 Log Converter(53)를 이용하여 "보내"에 관련된 애플리케이션 이력 데이터를 검색하기 위한 검색 쿼리(Send/Action)를 생성할 수 있다. 애플리케이션 이력 데이터 추출 모듈(1612)은, 생성된 검색 쿼리를 이용하여 Log filtering(54)을 수행함으로써, Send인 Action 필드의 값을 가지는 애플리케이션 이력 데이터(55)를 애플리케이션 이력 데이터 테이블에서 검색할 수 있다.

또한, 애플리케이션 이력 데이터 추출 모듈(1612)은 검색된 애플리케이션 이력 데이터(55) 중에서 최근 및/또는 자주 실행된 동작에 관한 데이터를 추출하기 위하여, 검색된 애플리케이션 이력 데이터(55)를 평가할 수 있다(56). 애플리케이션 이력 데이터 추출 모듈(1612)은 검색된 애플리케이션 이력 데이터(55)를 평가하기 위하 다양한 기준을 이용할 수 있으며, 평가 점수(57)에 기초하여 Message에 관한 이력 데이터(58) 및 ShareVia에 관한 이력 데이터(59)를 선택할 수 있다. Message에 관한 이력 데이터(58) 및 ShareVia에 관한 이력 데이터(59)는, "보내"라는 발화 입력에 대한 추천 발화 문장을 생성하는데 이용될 수 있다.

도 6은 본 개시의 일 실시예에 따른 명사인 단발화 입력에 대한 애플리케이션 이력 데이터를 추출하는 예시를 나타내는 도면이다.

도 6을 참조하면, "텔레비전"이라는 단발화 입력이 디바이스(1000)에 입력되면, 디바이스(1000)는 단발화 입력 판단 모듈(1611)을 실행함으로써 "텔레비전"이라는 입력이 단발화 입력인지를 판단할 수 있다. 단발화 입력 판단 모듈(1611)은 POS Tagger(60) 및 VerbNoun Detector(61)를 이용하여 "텔레비전"이라는 입력이 동사 또는 명사의 단발화 입력인지를 판단하고, "텔레비전"이라는 입력의 길이가 기설정된 수치 이하인지를 판단(62)할 수 있다.

디바이스(1000)는 애플리케이션 이력 데이터 추출 모듈(1612)을 실행함으로써, "텔레비전"이라는 단발화 입력에 관련된 애플리케이션 이력 데이터를 DB(1630)로부터 추출할 수 있다. 애플리케이션 이력 데이터 추출 모듈(1612)은 Log Converter(63)를 이용하여 "텔레비전"에 관련된 애플리케이션 이력 데이터를 검색하기 위한 검색 쿼리(TV/App, TV/Parameter)를 생성할 수 있다. 애플리케이션 이력 데이터 추출 모듈(1612)은, 생성된 검색 쿼리를 이용하여 Log filtering(64)을 수행함으로써, TV인 App 필드의 값에 TV가 포함되거나 Parameter 필드 값에 TV가 포함되는 애플리케이션 이력 데이터(65)를 애플리케이션 이력 데이터 테이블에서 검색할 수 있다.

또한, 애플리케이션 이력 데이터 추출 모듈(1612)은 검색된 애플리케이션 이력 데이터(65) 중에서 최근 많이 실행된 동작에 관한 데이터를 추출하기 위하여, 검색된 애플리케이션 이력 데이터(65)를 평가할 수 있다(66). 애플리케이션 이력 데이터 추출 모듈(1612)은 검색된 애플리케이션 이력 데이터(65)를 평가하기 위하 다양한 기준을 이용할 수 있으며, 평가 점수(67)에 기초하여 SmartThings에 관한 이력 데이터(68)을 선택할 수 있다. SmartThings에 관한 이력 데이터(68)는, "텔레비전"이라는 발화 입력에 대한 추천 발화 문장을 생성하는데 이용될 수 있다.

도 7은 본 개시의 일 실시예에 따른, 동사의 단발화 입력에 대한 추천 발화 문장을 생성하는 예시를 나타내는 도면이다.

도 7을 참조하면, 디바이스(1000)는 추천 발화 문장 생성 모듈(1614)을 실행함으로써, 단발화 입력인 "보내"에 관련된 추천 발화 문장을 생성할 수 있다. 추천 발화 문장 생성 모듈(1614)은 단발화 입력의 품사와 다른 품사에 관련된 애플리케이션 이력 데이터를 애플리케이션 이력 데이터 DB(1631)로부터 추출할 수 있다. 예를 들어, 추천 발화 문장 생성 모듈(1614)은 "보내"의 품사인 동사와 다른 품사인 명사에 관련된 애플리케이션 이력 데이터를 애플리케이션 이력 데이터 DB(1631)로부터 추출할 수 있다. 이 경우, 추천 발화 문장 생성 모듈(1614)은, "보내"와 관련하여 애플리케이션 이력 데이터 생성 모듈(1612)에 의해 선택된 애플리케이션 이력 데이터를 이용하여, "보내"와 관련된 명사를 포함하는 애플리케이션 이력 데이터를 애플리케이션 이력 데이터 DB(1631)로부터 추출할 수 있다.

또한, 추천 발화 문장 생성 모듈(1614)은 명사와 관련된 애플리케이션 이력 데이터 및 단발화 입력인 "보내"를 이용하여, 추천 발화 문장에 포함될 단어들을 결정할 수 있다. 이 경우, 단발화 입력의 품사와 다른 품사의 단어가 추천 발화 문장에 포함될 단어로 결정될 수 있으며, 추천 발화 문장에 포함될 단어의 종류 및 개수는 다양한 기준에 따라 결정될 수 있다. 예를 들어, 추천 발화 문장 생성 모듈(1614)은, 발화 입력(동사), App 명(명사) 및 Content(명사)를 추천 발화 문장에 포함될 단어들의 종류로 결정할 수 있다.

또한, 추천 발화 문장 생성 모듈(1614)은 결정된 단어들의 종류들에 각각 대응되는 단어들을 결정하고, 결정된 단어들을 포함하는 추천 발화 문장을 생성할 수 있다. 예를 들어, 추천 발화 문장 생성 모듈(1614)은 결정된 단어들의 종류에 대응되는 단어를 결정하기 위하여, "보내"와 관련된 애플리케이션 이력 데이터를 이용할 수 있으며, "갤러리(App 명)에서 사진(Content)을 보내줘(발화 입력)."를 추천 발화 문장으로 생성할 수 있다.

이 경우, 추천 발화 문장 생성 모듈(1614)은 발화 문장 생성을 위하여 미리 설정된 템플릿을 이용하여 추천 발화 문장을 생성할 수 있다. 발화 문장 생성을 위한 템플릿은 애플리케이션 이력 데이터에 포함된 항목들에 따라 각각 상이하게 설정될 수 있다. 예를 들어, 애플리케이션 이력 데이터 내의 APP 명, Action, 및 파라미터들의 조합에 대응되는 템플릿이 미리 저장될 수 있다.

이후, 추천 발화 문장 평가 모듈(1615)은 서비스 발화 문장을 추천 발화 문장과 비교함으로써, 서비스 발화 문장과 추천 발화 문장의 유사도를 산출할 수 있다. 추천 발화 문장 평가 모듈(1615)은, 예를 들어, TF-IDF 기반의 Cosine Similarity 기법을 이용하여 서비스 발화 문장과 추천 발화 문장의 유사도를 산출할 수 있다. 또한, 추천 발화 문장 평가 모듈(1615)은, 산출된 유사도에 기초하여, 추천 발화 문장을 사용자에게 제공할 지를 결정할 수 있다.

도 8은 본 개시의 일 실시예에 따른, 명사의 단발화 입력에 대한 추천 발화 문장을 생성하는 예시를 나타내는 도면이다.

도 8을 참조하면, 디바이스(1000)는 추천 발화 문장 생성 모듈(1614)을 실행함으로써, 단발화 입력인 "텔레비전"에 관련된 추천 발화 문장을 생성할 수 있다. 추천 발화 문장 생성 모듈(1614)은 단발화 입력의 품사와 동일한 품사 및 단발화 입력의 품사와 다른 품사에 관련된 애플리케이션 이력 데이터를 애플리케이션 이력 데이터 DB(1631)로부터 추출할 수 있다. 예를 들어, 추천 발화 문장 생성 모듈(1614)은 "텔레비전"의 품사인 명사와 동일한 품사인 명사 및 "텔레비전"의 품사인 명사와 다른 품사인 동사에 관련된 애플리케이션 이력 데이터를 애플리케이션 이력 데이터 DB(1631)로부터 추출할 수 있다. 이 경우, 추천 발화 문장 생성 모듈(1614)은, "텔레비전"과 관련하여 애플리케이션 이력 데이터 생성 모듈(1612)에 의해 선택된 애플리케이션 이력 데이터를 이용하여, "텔레비전"과 관련된 명사 및 동사를 포함하는 애플리케이션 이력 데이터를 애플리케이션 이력 데이터 DB(1631)로부터 추출할 수 있다.

또한, 추천 발화 문장 생성 모듈(1614)은 명사 및 동사와 관련된 애플리케이션 이력 데이터 및 단발화 입력인 "텔레비전"을 이용하여, 추천 발화 문장에 포함될 단어들을 결정할 수 있다. 이 경우, 단발화 입력의 품사와 다른 품사의 단어가 추천 발화 문장에 포함될 단어로 결정될 수 있으며, 추천 발화 문장에 포함될 단어의 종류 및/또는 개수는 다양한 기준에 따라 결정될 수 있다. 예를 들어, 추천 발화 문장 생성 모듈(1614)은, 발화 입력(명사), Sub 기능(명사) 및 Action(동사)를 추천 발화 문장에 포함될 단어들의 종류로 결정할 수 있다.

또한, 추천 발화 문장 생성 모듈(1614)은 결정된 단어들의 종류들에 각각 대응되는 단어들을 결정하고, 결정된 단어들을 포함하는 추천 발화 문장을 생성할 수 있다. 예를 들어, 추천 발화 문장 생성 모듈(1614)은 결정된 단어들의 종류에 대응되는 단어들을 결정하기 위하여, "텔레비전"와 관련된 애플리케이션 이력 데이터를 이용할 수 있으며, "텔레비전(입력 발화)에서 볼륨(Sub 기능)을 올려줘(Action)."를 추천 발화 문장으로 생성할 수 있다. 이 경우, 추천 발화 문장 생성 모듈(1614)은 발화 문장 생성을 위하여 미리 설정된 템플릿을 이용하여 추천 발화 문장을 생성할 수 있다. 발화 문장 생성을 위한 템플릿은 애플리케이션 이력 데이터에 포함된 항목들에 따라 각각 상이하게 설정될 수 있다. 예를 들어, 애플리케이션 이력 데이터 내의 APP 명, Action, 및 파라미터들의 조합에 대응되는 템플릿이 미리 저장될 수 있다.

도 9는 본 개시의 일 실시예에 따른 서비스 발화 문장을 이용하여 발화 입력에 관련된 애플케이션 이력 데이터를 검색하는 예시를 나타내는 도면이다.

도 9를 참조하면, 애플리케이션 이력 데이터 추출 모듈(1612)은 보이스 어시스턴트 서비스를 통해 제공되는 서비스 발화 문장을 이용하여 애플리케이션 이력 데이터 DB(1631)로부터 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 추출할 수 있다.

예를 들어, 사용자의 발화 입력이 "보내"인 경우에, 애플리케이션 이력 데이터 추출 모듈(1612)은 IntentClassifier(90)를 이용하여 보이스 어시스턴트 서비스의 서비스 발화 문장들 중에서 "보내"에 연관된 Intent를 가지는 서비스 발화 문장을 추출할 수 있다. IntentClassifier(90)는 머신 러닝 기법의 Classification 알고리즘을 이용하거나 TF-IDF를 이용하여 "보내"와 유사한 단어를 포함하는 서비스 발화 문장을 발화 이력 데이터 DB(1632)로부터 추출할 수 있다. 애플리케이션 이력 데이터 추출 모듈(1612)은, 예를 들어, "메시지에서 문자 보내줘.", "사진을 카카오톡으로 공유해줘.", 및 "삼성 페이에서 송금해줘."를 발화 이력 데이터 DB(1632)로부터 추출할 수 있다.

또한, 애플리케이션 이력 데이터 추출 모듈(1612)은 LogQueryGenerator(91)를 이용하여, 추출된 서비스 발화 문장으로부터 발화 입력에 관련된 애플리케이션 이력 데이터를 검색하기 위한 검색 쿼리를 생성할 수 있다. 애플리케이션 이력 데이터 추출 모듈(1612)은, 예를 들어, "메시지에서 문자 보내줘."로부터 "{App:Message} & {what: Text} & {Action: Send}"를 검색 쿼리로 생성할 수 있다. 또한, 애플리케이션 이력 데이터 추출 모듈(1612)은, 예를 들어, "홍길동에게 문자 보내줘."로부터 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}"를 검색 쿼리로 생성할 수 있다. 또한, 애플리케이션 이력 데이터 추출 모듈(1612)은, 예를 들어, "사진을 카카오톡으로 공유해줘."로부터 "{App:ShareVia} & {what: Picture} & {Action: Send} & {to: AppName}" 를 검색 쿼리로 생성할 수 있다. 또한, 애플리케이션 이력 데이터 추출 모듈(1612)은, 예를 들어, "삼성 페이에서 송금해줘."로부터 "{App:SamsungPay} & {what: Money} & {Action: Send}"를 검색 쿼리로 생성할 수 있다. 이 경우, 생성된 검색 쿼리는, 애플리케이션 이력 데이터의 포맷을 가질 수 있다.

또한, 애플리케이션 이력 데이터 추출 모듈(1612)은 생성된 검색 쿼리를 이용하여 Logfiltering(92)을 수행함으로써, 애플리케이션 이력 데이터 중에서 "보내"에 관련된 애플리케이션 이력 데이터(93)을 추출할 수 있다.

도 10은 본 개시의 일 실시예에 따른, 보이스 어시스턴트 서비스의 서비스 발화 문장(100)을 이용하여 애플리케이션 이력 데이터(102)가 검색된 경우에, 추천 발화 문장이 생성되는 예시를 나타내는 도면이다.

도 10을 참조하면, 추천 발화 문장 생성 모듈(1614)은 서비스 발화 문장(100) 및 애플리케이션 이력 데이터(102)를 이용하여, 추천 발화 문장을 생성할 수 있다. 추천 발화 문장 생성 모듈(1614)은, EntityConverter를 이용하여 애플리케이션 이력 데이터(102) 내의 엔터티의 값(value)을 반영하는 문장 데이터(103)을 생성하고, LogQueryGenerator를 이용하여 서비스 발화 문장(100)으로부터 검색 쿼리를(101) 생성할 수 있다. 또한, 추천 발화 문장 생성 모듈(1614)은 생성된 문장 데이터(103) 및 검색 쿼리(101)의 유사도에 기초하여, 서비스 발화 문장(100)으로부터 생성된 검색 쿼리(101) 내에 포함된 엔터티의 값(value)을 애플리케이션 이력 데이터(102) 내의 엔터티의 값(value)으로 변경함으로써, 추천 발화 문장을 생성할 수 있다.

예를 들어, 서비스 발화 문장(100)으로부터 생성된 쿼리문이 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}"이고, 애플리케이션 이력 데이터(102)로부터 검색된 이력 데이터로부터 생성된 문장 데이터(103)가 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}-{value:엄마}"인 경우에, 추천 발화 문장 생성 모듈(1614)은 서비스 발화 문장(100) 내의 엔터티인 "{to: Person}"에 대응되는 값을 "{value:엄마}"로 결정할 수 있다. 또한, 추천 발화 문장 생성 모듈(1614)은 서비스 발화 문장(100) 내의 쿼리문을 수정함으로써 생성된 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}-{value:엄마}"를 이용하여 "엄마에게 문자 보내줘"라는 추천 발화 문장을 생성할 수 있다.

도 11은 본 개시의 일 실시예에 따른 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터(114)가 생성되는 예시를 나타내는 도면이다.

도 11을 참조하면, 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터(114)가 미리 생성될 수 있으며, 디바이스(1000)는 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터(114)를 이용하여 생성되는 추천 발화 문장을, 서비스 발화 문장과 비교하지 않고서도, 사용자에게 제공할 수 있다.

보이스 어시스턴트 서비스의 서비스 발화 문장으로부터 생성된 검색 쿼리를 나타내는 검색 쿼리 테이블(110) 및 보이스 어시스턴트 서비스를 통해 제공된 서비스 발화 문장을 나타내는 서비스 발화 문장 테이블(112)이 발화 이력 데이터 DB(1632)에 저장될 수 있다. 검색 쿼리 테이블(110)에는 서비스 발화 문장으로부터 생성된 검색 쿼리, 및 검색 쿼리에 대응되는 서비스 발화 문장의 인덱스 값이 기록될 수 있으며, 서비스 발화 문장 테이블(112)에는 서비스 발화 문장들이 누적하여 저장될 수 있다. 검색 쿼리 테이블(110) 및 서비스 발화 문장 테이블(112)은 단발화 입력에 대한 보이스 어시스턴트 서비스를 제공하기 위하여 미리 생성되고 저장될 수 있다.

또한, 사용자가 디바이스(1000)를 사용함에 따라 애플리케이션 이력 데이터 생성 모듈(1612)은 애플리케이션 이력 데이터(114)를 생성하고, 생성된 애플리케이션 이력 데이터(100)가 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단할 수 있다. 애플리케이션 이력 데이터 생성 모듈(1612)은 생성된 애플리케이션 이력 데이터(114)를 검색 쿼리 테이블(110) 내의 검색 쿼리들과 비교함으로써, 생성된 애플리케이션 이력 데이터(114)가 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단할 수 있다. 또한, 애플리케이션 이력 데이터 생성 모듈(1612)은 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터(114)를 애플리케이션 이력 데이터 DB(1631)에 저장할 수 있다. 애플리케이션 이력 데이터 생성 모듈(1612)은 보이스 어시스턴트 서비스에 의해 지원되는 애플리케이션 이력 데이터(114)를 저장하는 경우에, 애플리케이션 이력 데이터(114)에 대응되는 쿼리문을 서비스 발화 문장으로부터 생성된 쿼리문의 형식으로 변환하여 저장(예를 들어, 검색어 테이블(110)에 또는 별도의 테이블 및/또는 DB에 저장)할 수 있다.

이후, 디바이스(1000)는 사용자의 단발화 입력이 수신되면, 보이스 어시스턴트에 의해 지원되는 애플리케이션 이력 데이터(114) 중에서 단발화 입력에 관련된 애플리케이션 이력 데이터를 추출하고, 추출된 애플리케이션 이력 데이터에 기초하여 추천 발화 문장을 획득할 수 있다.

도 12는 본 개시의 일 실시예에 따른 디바이스(1000)가 단발화 입력에 관련된 추천 문장을 제공하는 방법의 흐름도이다.

동작 S1200에서 디바이스(1000)는 사용자의 발화 입력을 수신할 수 있다. 디바이스(1000)는 마이크(1300)을 통하여 보이스 어시스턴트 서비스를 위한 사용자의 발화 입력을 수신할 수 있다.

동작 S1205에서 디바이스(1000)는 사용자의 발화 입력이 단발화 입력인지를 판단할 수 있다. 디바이스(1000)는 사용자의 발화 입력이 나타내는 용어에 대응되는 품사가 기설정된 품사이며, 사용자의 발화 입력이 나타내는 용어의 길이가 기설정된 임계치 이하인 경우에 사용자의 발화 입력을 단발화 입력으로 판단할 수 있다. 예를 들어, 디바이스(1000)는 POS Tagger(Part Of Speech Tagger)를 이용하여 사용자의 발화 입력에 대응되는 용어의 품사가 명사인지, 동사인지, 명사구인지 또는 동사구인지를 판단할 수 있다. 또한, 예를 들어, 단발화 입력에 대응되는 용어의 길이가 미리 설정될 수 있으며, 디바이스(1000)는 사용자의 발화 입력에 대응되는 용어의 길이가 미리 설정된 길이보다 작은 지를 판단할 수 있다.

동작 S1205에서의 판단 결과, 사용자의 발화 입력이 단발화 입력이 아니라고 판단되면 (또는 판단에 기초하여), 동작 S1210에서 디바이스(1000)는 발화 입력에 따른 보이스 어시스턴트 서비스를 제공할 수 있다. 이 경우, 디바이스(1000)는 NLU 모델(1621)을 이용하여 사용자의 발화 입력을 해석하고, 해석 결과에 관련된 보이스 어시스턴트 서비스를 사용자에게 제공할 수 있다.

동작 S1205에서의 판단 결과, 사용자의 발화 입력이 단발화 입력이라고 판단되면 (또는 판단에 기초하여), 동작 S1215에서 디바이스(1000)는 사용자가 하나 이상의 애플리케이션을 실행한 이력을 나타내는 애플리케이션 이력 데이터로부터 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 선택할 수 있다.

디바이스(1000)는 저장부(1600)에 저장된 애플리케이션 이력 데이터 중에서 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 추출할 수 있다. 디바이스(1000)는 사용자의 발화 입력에 대한 추천 발화 문장을 생성하기 위하여, 저장부(1600)에 저장된 애플리케이션 이력 데이터 중에서 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 검색하고 추출할 수 있다.

또한, 디바이스(1000)는, 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 검색하기 위한 검색 쿼리를 생성할 수 있다. 예를 들어, 사용자의 발화 입력이 동사 또는 동사구의 단발화 입력인 경우에, 디바이스(1000)는 디바이스(1000) 내의 애플리케이션에서 실행된 액션을 검색하기 위한 검색 쿼리를 생성할 수 있다. 이 경우, 사용자의 발화 입력에 대응되는 단어가 "보내(send)"인 경우에, 디바이스(1000)는 애플리케이션 이력 데이터 내의 액션을 검색하기 위한 "Action/send"를 검색 쿼리로 생성할 수 있다. 또한, 예를 들어, 사용자의 발화 입력이 명사 또는 명사구인 단발화 입력인 경우에, 디바이스(1000)는 애플리케이션의 명칭 및 애플리케이션에서 실행된 액션에 관한 파라미터를 검색하기 위한 검색 쿼리를 생성할 수 있다. 예를 들어, 사용자의 발화 입력에 대응되는 단어가 "TV"인 경우에, 디바이스(1000)는 애플리케이션 이력 데이터 내의 애플리케이션 명칭을 검색하기 위한 "App/TV", 및 애플리케이션 이력 데이터 내의 애플리케이션의 액션에 관한 파라미터를 검색하기 위한 "Para/TV"를 검색 쿼리로 생성할 수 있다.

한편, 상기에서는, 발화 입력된 단어를 검색 쿼리로 이용하여, 발화 입력에 관련된 애플리케이션 이력 데이터가 검색되는 것으로 설명되었지만, 이에 제한되지 않는다. 예를 들어, 디바이스(1000)는 발화 입력된 단어와 유사한 단어들을 유사 단어 DB(1633)로부터 추출하고, 발화 입력된 단어 및 추출된 유사 단어를 이용하여 검색 쿼리를 생성할 수 있다.

또한, 예를 들어, 보이스 어시스턴트 서비스에 의해 제공된 서비스 발화 문장을 이용하여 검색 쿼리가 생성될 수 있다. 이 경우, 디바이스(1000)는 발화 입력된 단어와 관련된 서비스 발화 문장을 획득할 수 있다. 디바이스(1000)는, 예를 들어, 머신 러닝 기반의 분류 알고리즘을 활용하여 발화 입력에 관련된 서비스 발화 문장을 획득하거나, 발화 입력된 단어와 TF-IDF(Term Frequency - Inverse Document Frequency)가 유사한 단어를 포함하는 서비스 발화 문장을 획득할 수 있다. 또한, 디바이스(1000)는 발화 입력과 관련된 서비스 발화 문장으로부터 애플리케이션 이력 데이터를 검색하기 위한 쿼리문을 생성할 수 있다. 이 경우, 생성되는 쿼리문은, 애플리케이션 이력 데이터의 포맷(예: 애플리케이션 이력 데이터를 검색하거나 쿼링할 수 있는 포맷, 애플리케이션 이력 데이터에 대응되는 필드를 가지는 형식 등)을 가지도록 생성될 수 있다.

또한, 디바이스(1000)는 생성된 검색 쿼리를 이용하여 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 검색할 수 있다. 예를 들어, 검색 쿼리가 "Action/send"인 경우에, 디바이스(1000)는 애플리케이션 이력 데이터 중에서, "Action"에 대응되는 값이 "send"인 이력 데이터를 검색할 수 있다. 검색 쿼리가 "App/TV" 및 "Para/TV"인 경우에, 디바이스(1000)는 애플리케이션 이력 데이터 중에서, "App"에 대응되는 값이 "TV"인 이력 데이터, 및 "Para" 값들 중에서 "TV"를 포함하는 이력 데이터를 검색할 수 있다. 또한, 디바이스(1000)는 검색된 이력 데이터들 중에서 소정 임계치 이상으로 실행된 이력 데이터를 필터링하여 선택할 수 있다.

동작 S1220에서 디바이스(1000)는 선택된 애플리케이션 이력 데이터에 기초하여 사용자의 발화 입력에 관련된 추천 발화 문장을 생성할 수 있다. 디바이스(1000)는 발화 입력된 단어 이외에 추천 발화 문장의 생성을 위한 단어를 결정할 수 있다. 발화 입력된 단어 이외에 추천 발화 문장의 생성을 위한 단어는, 예를 들어, 발화 입력된 단어의 품사와 다른 품사의 단어일 수 있다. 디바이스(1000)는 발화 입력된 단어와 관련된 애플리케이션 이력 데이터를 분석하여 추천 발화 문장의 생성을 위한 단어를 선택할 수 있다. 예를 들어, 발화 입력된 단어가 "보내"인 경우에, 프로세서(1700)는 "보내"와 관련된 애플리케이션 이력 데이터로부터 "보내"의 품사와 다른 품사의 단어들인 "갤러리 애플리케이션" 및 "사진"을 추천 발화 문장의 생성을 위한 단어들로서 선택할 수 있다. 또한, 예를 들어, 발화 입력된 단어가 "보내"인 경우에, 디바이스(1000)는 "보내"와 관련된 애플리케이션 이력 데이터로부터 "보내"의 품사와 다른 품사의 단어들인 "삼성 페이" 및 "돈"을 추천 발화 문장의 생성을 위한 단어들로서 선택할 수 있다.

디바이스(1000)는 발화 입력된 단어 및 애플리케이션 이력 데이터로부터 결정된 단어를 조합하여 추천 발화 문장을 생성할 수 있다. 예를 들어, 디바이스(1000)는 발화 입력된 단어인 "보내"를 애플리케이션 이력 데이터로부터 결정된 단어들인 "갤러리 애플리케이션" 및 "사진"과 조합하여, "갤러리 애플리케이션에서 사진을 보내."라는 추천 발화 문장을 생성할 수 있다. 또한, 디바이스(1000)는 발화 입력된 단어인 "보내"를 애플리케이션 이력 데이터로부터 결정된 단어들인 "삼성 페이" 및 "돈"과 조합하여, "삼성 페이로 돈을 보내"라는 추천 발화 문장을 생성할 수 있다.

한편, 보이스 어시스턴트 서비스의 서비스 발화 문장을 이용하여 애플리케이션 이력 데이터가 검색된 경우에, 디바이스(1000)는 서비스 발화 문장 및 애플리케이션 이력 데이터를 이용하여, 추천 발화 문장을 생성할 수 있다. 디바이스(1000)는 서비스 발화 문장으로부터 생성된 쿼리문 내에 포함된 엔터티의 값(value)를 애플리케이션 이력 데이터 내의 엔터티의 값(value)으로 변경함으로써, 추천 발화 문장을 생성할 수 있다. 예를 들어, 서비스 발화 문장으로부터 생성된 쿼리문이 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}"이고, 애플리케이션 이력 데이터로부터 검색된 이력 데이터로부터 생성된 문장 데이터가 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}-{value:엄마}"인 경우에, 프로세서(1700)는 서비스 발화 문장 내의 엔터티인 "{to: Person}"에 대응되는 값을 "{value:엄마}"로 결정할 수 있다. 또한, 프로세서(1700)는 서비스 발화 문장 내의 쿼리문을 수정함으로써 생성된 "{App:Message} & {what: Text} & {Action: Send} & {to: Person}-{value:엄마}"를 이용하여 "엄마에게 문자 보내줘"라는 추천 발화 문장을 생성할 수 있다.

한편, 디바이스(1000)는 보이스 어시스턴트 서비스에 의해 지원되는 신규 기능을 이용하여 추천 발화 문장을 수정할 수도 있다. 디바이스(1000)는 사용자가 자주 사용하지 않는 애플리케이션의 기능 또는 애플리케이션의 신규 기능 중 적어도 하나를 고려하여, 생성된 추천 발화 문장을 수정할 수 있다. 이 경우, 디바이스(1000)는 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터로부터 사용자의 발화 입력에 관련된 기능을 식별하고, 식별된 기능과 관련된 애플리케이션의 신규 기능이 있는 경우에, 신규 기능에 기초하여 추천 발화 문장을 생성할 수도 있다. 예를 들어, 생성된 추천 발화 문장이 "메신저 애플리케이션으로 문자를 보내."인 경우에, 디바이스(1000)는 추천 발화 문장을 수정하여 "카카오톡 애플리케이션으로 문자를 보내."를 생성할 수 있다. 또한, 디바이스(1000)는 예를 들어, "삼성 페이로 돈을 송금해."라는 추천 발화 문장을 "카카오 페이로 돈을 송금해"로 수정할 수 있다.

동작 S1225에서 디바이스(1000)는 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되는지를 판단할 수 있다. 디바이스(1000)는 추천 발화 문장에 대응되는 기능이 보이스 어시스턴트 서비스에 관련된 디바이스(1000) 및/또는 다른 디바이스에 의해 실행가능한 지를 식별할 수 있다. 이를 위하여, 디바이스(1000)는 보이스 어시스턴트 서비스에서 제공된 서비스 발화 문장들을 추천 발화 문장과 비교함으로써, 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되는지를 판단할 수 있다. 디바이스(1000)는 보이스 어시스턴트 서비스에서 제공된 서비스 발화 문장들 중에서 추천 발화 문장에 관련된 서비스 발화 문장을 선택할 수 있다. 또한, 디바이스(1000)는 선택된 서비스 발화 문장 및 추천 발화 문장의 유사도를 산출하고, 산출된 유사도가 기설정된 임계치보다 큰 경우에 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원된다고 판단할 수 있다. 예를 들어, 프로세서(1700)는 TF-IDF (Term Frequency - Inverse Document Frequency) 기반의 Cosine Similarity 기법을 이용하여, 추천 발화 문장과 서비스 발화 문장의 유사도를 산출할 수 있다.

동작 S1225에서의 판단 결과, 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원되지 않는다고 판단되면 (또는 판단에 기초하여), 디바이스(1000)는 다른 추천 발화 문장을 생성 또는 선택할 수 있다.

동작 S1225에서의 판단 결과, 추천 발화 문장이 보이스 어시스턴트 서비스에 의해 지원된다고 판단되면 (또는 판단에 기초하여), 동작 S1230에서 디바이스(1000)는 추천 발화 문장을 디바이스(1000)의 화면 상에 디스플레이할 수 있다. 보이스 어시스턴트 서비스에 의해 지원되는 복수의 추천 발화 문장이 생성된 경우에 (또는 생성에 기초하여), 디바이스(1000)는 유사도에 기초하여 복수의 추천 발화 문장들 중에서 사용자에게 제공할 추천 발화 문장을 선택할 수 있다.

디바이스(1000)는 보이스 어시스턴트 서비스에 의해 지원되는 추천 발화 문장을 포함하는 소정의 GUI를 디스플레이부(1200) 상에 디스플레이(및/또는 보이스 어시스턴트 서비스에 의해 지원되는 추천 발화 문장을 포함하는 오디오 쿼리 또는 신호를 출력)하고, 사용자의 피드백 입력을 수신할 수 있다.

디바이스(1000)는 사용자의 피드백 입력에 따라, 추천 발화 문장을 수정할 수 있다. 이 경우, 디바이스(1000)는 추천 발화 문장을 수정하기 위한 GUI를 디스플레이부(1200) 상에 디스플레이하고, 디스플레이된 GUI를 통한 사용자 입력에 따라 추천 발화 문장을 수정할 수 있다. 또는, 디바이스(1000)는 추천 발화 문장을 수정하기 위한 사용자의 발화를 수신하고, 사용자의 발화에 기초하여 추천 발화 문장을 수정할 수 있다.

또한, 디바이스(1000)는, 추천 발화 문장에 대응되는 보이스 어시스턴트 서비스의 기능을 실행할 수 있다. 만약, 추천 발화 문장이 사용자에 의해 수정된 경우에는, 디바이스(1000)는 수정된 추천 발화 문장에 대응되는 보이스 어시스턴트 서비스의 기능을 수행할 수 있다.

하나 이상의 실시예에서 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

본 개시에 따른 보이스 어시스턴트 서비스에서, 사용자의 음성을 인식하고 사용자의 의도를 해석하기 위한 방법으로, 디바이스는 마이크를 통해 아날로그 신호인 음성 신호를 수신하고, ASR(Automatic Speech Recognition)모델을 이용하여 음성 부분을 컴퓨터로 판독 가능한 텍스트로 변환할 수 있다. 자연어 이해(Natural Language Understanding, NLU) 모델을 이용하여 변환된 텍스트를 해석하여, 사용자의 발화 의도를 획득할 수 있다. 여기서 ASR 모델 또는 NLU 모델은 인공지능 모델일 수 있다. 인공지능 모델은 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서에 의해 처리될 수 있다. 인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다.

언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리(Natural Language Processing), 기계 번역(Machine Translation), 대화 시스템(Dialog System), 질의 응답(Question Answering), 음성 인식/합성(Speech Recognition/Synthesis) 등을 포함한다.

하나 이상의 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.

또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

하나 이상의 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 개시의 범위는 적어도 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims

보이스 어시스턴트 서비스를 제공하는 디바이스가 사용자의 발화 입력에 관련된 추천 발화 문장을 제공하는 방법에 있어서,

사용자의 발화 입력을 수신하는 동작;

상기 발화 입력이 단발화 입력인지를 판단하는 동작;

상기 발화 입력이 단발화 입력으로 판단됨에 기초하여, 상기 디바이스에서 상기 사용자에 의해 실행된 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하는 동작;

상기 발화 입력 및 상기 획득된 애플리케이션 이력 데이터를 이용하여, 상기 발화 입력에 관련된 추천 발화 문장을 생성하는 동작;

상기 추천 발화 문장이 상기 디바이스에 의해 제공되는 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하는 동작; 및

상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원된다고 판단됨에 기초하여, 상기 추천 발화 문장을 출력하는 동작;

을 포함하는, 방법.
제1 항에 있어서,

상기 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하는 동작은,

상기 발화 입력에 포함된 단어를, 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 상기 애플리케이션 이력 데이터 내의 파라미터와 비교하는 동작;

상기 비교에 기초하여, 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하는 동작;

을 포함하며,

상기 추천 발화 문장을 생성하는 동작은, 상기 추출된 애플리케이션 이력 데이터를 이용하여 상기 추천 발화 문장을 생성하는 동작을 포함하는, 방법.
제2 항에 있어서,

상기 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하는 동작은,

상기 발화 입력에 관련된 애플리케이션 이력 데이터에 대응되는 동작의 실행 빈도에 기초하여, 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하는 동작을 포함하는, 방법.
제1 항에 있어서,

상기 발화 입력이 상기 단발화 입력인지를 판단하는 동작은, 상기 발화 입력에 포함된 단어의 품사 또는 상기 발화 입력의 길이 중 적어도 하나에 기초하여 상기 발화 입력이 상기 단발화 입력인지를 판단하는 동작을 포함하는, 방법.
제1 항에 있어서,

상기 추천 발화 문장을 생성하는 동작은,

상기 발화 입력에 포함된 단어의 품사를 식별하는 동작;

상기 애플리케이션 이력 데이터에 기초하여, 상기 식별된 품사와 다른 품사에 대응되는 추천 단어를 생성하는 동작; 및

상기 발화 입력에 포함된 단어 및 상기 생성된 추천 단어를 이용하여, 상기 추천 발화 문장을 생성하는 동작;

을 포함하는, 방법.
제1 항에 있어서,

상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하는 동작은, 상기 추천 발화 문장에 대응되는 기능이 상기 보이스 어시스턴트 서비스에 관련된 상기 디바이스 또는 다른 디바이스 중 적어도 하나에 의해 제공되는 지를 식별하는 동작을 포함하는, 방법.
제1 항에 있어서,

상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하는 동작은,

상기 보이스 어시스턴트 서비스에서 제공된 서비스 발화 문장들 중에서 상기 추천 발화 문장에 관련된 서비스 발화 문장을 획득하는 동작;

상기 획득된 서비스 발화 문장 및 상기 추천 발화 문장의 유사도를 획득하는 동작; 및

상기 획득된 유사도에 기초하여, 상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하는 동작;

을 포함하는, 방법.
제1 항에 있어서,

상기 출력된 추천 발화 문장에 대한 사용자의 선택 입력을 수신하는 동작; 및

상기 출력된 추천 발화 문장이 상기 사용자에 의해 선택됨에 따라, 상기 선택된 추천 발화 문장에 기초하여, 상기 보이스 어시스턴트 서비스를 제공하는 동작;

을 더 포함하는, 방법.
제1 항에 있어서,

상기 하나 이상의 애플리케이션의 상기 실행 이력을 나타내는 상기 애플리케이션 이력 데이터는, 상기 발화 입력이 수신되기 이전에 상기 디바이스에 의해 미리 생성된 것인, 방법.
제1 항에 있어서,

상기 디바이스에서 상기 사용자에 의해 실행된 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 상기 애플리케이션 이력 데이터를 생성하는 동작;

상기 생성된 애플리케이션 이력 데이터 중에서, 상기 보이스 어시스턴트 서비스에 의해 지원되는 동작에 관련된 애플리케이션 이력 데이터를 선택하는 동작; 및

상기 선택된 애플리케이션 이력 데이터를 상기 디바이스의 메모리에 저장하는 동작;

을 더 포함하며,

상기 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하는 동작은, 상기 메모리에 저장된 애플리케이션 이력 데이터 중에서 상기 사용자의 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하는 동작을 포함하는, 방법.
보이스 어시스턴트 서비스를 제공하는 디바이스에 있어서,

사용자의 발화 입력을 수신하는 마이크로폰;

하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 하나 이상의 인스트럭션을 실행하여 상기 사용자의 발화 입력과 관련된 추천 발화 문장 제공하는 프로세서;

를 포함하며,

상기 프로세서는, 상기 발화 입력이 단발화 입력인지를 판단하고, 상기 발화 입력이 단발화 입력임으로 판단됨에 기초하여, 상기 디바이스에서 상기 사용자에 의해 실행된 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 획득하고, 상기 발화 입력 및 상기 획득된 애플리케이션 이력 데이터를 이용하여, 상기 발화 입력에 관련된 추천 발화 문장을 생성하고, 상기 추천 발화 문장이 상기 디바이스에 의해 제공되는 상기 보이스 어시스턴트 서비스에 의해 지원되는 지를 판단하고, 상기 추천 발화 문장이 상기 보이스 어시스턴트 서비스에 의해 지원된다고 판단됨에 기초하여, 상기 추천 발화 문장을 출력하는, 디바이스.
제11 항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 발화 입력에 포함된 단어를, 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 상기 애플리케이션 이력 데이터 내의 파라미터와 비교하고, 상기 비교에 기초하여, 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하고, 상기 추출된 애플리케이션 이력 데이터를 이용하여 상기 추천 발화 문장을 생성하는 것인, 디바이스.
제12 항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 발화 입력에 관련된 애플리케이션 이력 데이터에 대응되는 동작의 실행 빈도에 기초하여, 상기 하나 이상의 애플리케이션의 실행 이력을 나타내는 애플리케이션 이력 데이터 중에서, 상기 발화 입력에 관련된 애플리케이션 이력 데이터를 추출하는 것인, 디바이스.
제11 항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 발화 입력에 포함된 단어의 품사 또는 상기 발화 입력의 길이 중 적어도 하나에 기초하여 상기 발화 입력이 상기 단발화 입력인지를 판단하는 것인, 디바이스.
제1 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.