WO2020180001A1

WO2020180001A1 - 전자 장치 및 이의 제어 방법

Info

Publication number: WO2020180001A1
Application number: PCT/KR2020/000261
Authority: WO
Inventors: 이재훈; 이윤수; 황태호; 이현석; 정미래
Original assignee: 삼성전자주식회사
Priority date: 2019-03-07
Filing date: 2020-01-07
Publication date: 2020-09-10
Also published as: KR20200115695A; US20220059088A1

Abstract

전자 장치가 개시된다. 본 개시의 전자 장치는, 마이크, 적어도 하나의 명령을 포함하는 메모리 및 마이크 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하고, 프로세서는, 적어도 하나의 명령을 실행함으로써, 마이크를 통해 사용자 음성이 입력되면, 입력된 사용자 음성으로부터 키워드를 추출하고, 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하고, 추출된 키워드 및 컨텍스트 정보에 기초하여 사용자 음성과 관련된 객체(object) 및 객체에 대한 지식 정보를 획득하고, 객체에 대한 지식 정보를 바탕으로 에 저장된 지식 데이터베이스를 업데이트한다. 특히, 전자 장치가 사용자 문의에 대한 응답을 제공하는 방법의 적어도 일부는 기계학습, 신경망 또는 딥러닝 알고리즘 중 적어도 하나에 따라 학습된 인공지능 모델을 이용할 수 있다.

Description

전자 장치 및 이의 제어 방법

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 컨텍스트 정보를 이용하여 사용자 문의에 대한 응답을 제공하는 전자 장치 및 이의 제어 방법에 관한 것이다.

근래에는 인공 지능 시스템이 다양한 분야에서 이용되고 있다. 인공 지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.

인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공 지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 오브젝트 인식, 오브젝트 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

한편, 근래에는 사용자 문의에 대한 답변을 제공하는 인공지능 에이전트(예로, 빅스비 ^TM, 어시스턴트 ^TM, 알렉사 ^TM 등)를 이용한 다양한 서비스들이 제공되고 있다. 다만, 인공지능 에이전트를 이용할 때, 사용자가 개인적으로 사용하는 용어 또는 일반적으로 사용되지 않는 용어에 대해서는 인공지능 에이전트가 이해하지 못해 중요한 정보임에도 답변으로 제공하지 못하는 한계가 존재한다. 즉, 인공지능 에이전트와 대화를 수행할 때, 종래에는 일반적이고 명확한 일부 용어만을 이용하여 대화를 수행해야 하므로, 인공지능 에이전트와 어색한 대화를 수행할 수 밖에 없는 한계가 존재한다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 컨텍스트 정보를 이용하여 지식 데이터베이스를 구축하고, 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공함으로써, 인공지능 에이전트와 자연스러운 대화를 제공할 수 있는 전자 장치 및 이의 제어 방법을 제공함에 있다.

본 개시의 일 실시 예에 따른 전자 장치는, 마이크, 적어도 하나의 명령을 포함하는 메모리 및 상기 마이크 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 명령을 실행함으로써, 상기 마이크를 통해 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하고, 상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하고, 상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하고, 상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 상기 메모리에 저장된 지식 데이터베이스를 업데이트한다.

이 경우, 상기 지식 데이터베이스는, 지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장할 수 있다.

이 경우, 상기 프로세서는, 상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트할 수 있다.

한편, 상기 프로세서는, 상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트할 수 있다.

한편, 상기 메모리는, 상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 인공지능 모델을 더 포함하고, 상기 프로세서는, 상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득할 수 있다.

한편, 상기 프로세서는, 사용자 문의가 입력되면, 상기 업데이트된 지식 데이터베이스를 이용하여 상기 사용자 문의에 대한 응답을 획득하고, 상기 획득된 응답을 출력할 수 있다.

한편, 통신 인터페이스를 더 포함하고, 상기 프로세서는, 상기 통신 인터페이스를 통해 외부 서버에 상기 업데이트된 지식 데이터베이스를 전송하고, 상기 외부 서버로부터 타 사용자의 지식 데이터베이스를 수신받을 수 있다.

한편, 상기 프로세서는, 상기 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 상기 컨텍스트 정보로 획득할 수 있다.

한편, GPS 센서를 더 포함하고, 상기 프로세서는, 상기 사용자 음성이 입력된 시점에 상기 GPS 센서에 의해 센싱된 위치 정보를 상기 컨텍스트 정보로 획득하고, 상기 추출된 키워드, 상기 획득된 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 상기 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다.

한편, 통신 인터페이스를 더 포함하고, 상기 프로세서는, 상기 통신 인터페이스를 통해 외부 서버로부터 상기 사용자 음성이 입력된 시점의 날씨 정보를 상기 컨텍스트 정보로 획득하고, 상기 추출된 키워드 및 상기 획득된 날씨 정보에 기초하여 상기 객체에 대한 사용자의 선호 정보를 상기 지식 정보로 획득할 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하는 단계, 상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하는 단계, 상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계 및 상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 기저장된 지식 데이터베이스를 업데이트하는 단계를 포함한다.

이 경우, 상기 업데이트하는 단계는, 상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트할 수 있다.

한편, 상기 업데이트하는 단계는, 상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트할 수 있다.

한편, 상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 기저장된 인공지능 모델을 학습하는 단계를 더 포함하고, 상기 객체 및 상기 객체에 대한 지식 정보를 획득하는 단계는, 상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득할 수 있다.

한편, 사용자 문의가 입력되면, 상기 업데이트된 지식 데이터베이스를 이용하여 상기 사용자 문의에 대한 응답을 획득하는 단계 및 상기 획득된 응답을 출력하는 단계를 더 포함할 수 있다.

한편, 상기 컨텍스트 정보를 획득하는 단계는, 상기 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 상기 컨텍스트 정보로 획득할 수 있다.

이 경우, 상기 컨텍스트 정보를 획득하는 단계는, 상기 사용자 음성이 입력된 시점에 GPS 센서에 의해 센싱된 위치 정보를 상기 컨텍스트 정보로 획득하고, 상기 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계는, 상기 추출된 키워드, 상기 획득된 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 상기 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다.

한편, 상기 컨텍스트 정보를 획득하는 단계는, 외부 서버로부터 상기 사용자 음성이 입력된 시점의 날씨 정보를 상기 컨텍스트 정보로 획득하고, 상기 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계는, 상기 추출된 키워드 및 상기 획득된 날씨 정보에 기초하여 상기 객체에 대한 사용자의 선호 정보를 상기 지식 정보로 획득할 수 있다.

한편, 전자 장치의 제어 방법을 실행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서, 전자 장치의 제어 방법은, 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하는 단계, 상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하는 단계, 상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계 및 상기 객체에 대한 지식 정보를 바탕으로 기저장된 지식 데이터베이스를 업데이트하는 단계를 포함한다.

이상과 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치는 컨텍스트 정보를 이용하여 지식 데이터베이스를 구축하고, 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다.

도 1은 본 개시의 일 실시 예에 따른, 사용자 문의에 따른 응답을 제공하는 인공지능 에이전트 기능을 포함하는 전자 장치의 사용도,

도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,

도 3은 도 2의 전자 장치의 구성을 구체적으로 도시한 블록도,

도 4는 본 개시의 일 실시 예에 따른, 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 도면,

도 5는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 음성을 입력받는 동작을 설명하기 위한 도면,

도 6은 본 개시의 일 실시 예에 따른 전자 장치가 입력된 사용자 음성에 기초하여 객체 및 객체에 대한 정보를 획득하는 동작을 설명하기 위한 도면,

도 7은 본 개시의 일 실시 예에 따라 인공지능 모델을 이용하는 전자 장치의 동작을 설명하기 위한 도면,

도 8은 도 7의 따른 인공지능 모델의 동작을 설명하기 위한 도면,

도 9는 본 개시의 일 실시 예에 따른 지식 데이터베이스의 업데이트 동작을 설명하기 위한 도면,

도 10은 본 개시의 일 실시 예에 따른 전자 장치가 사용자 문의에 대한 응답을 출력하는 동작을 설명하기 위한 도면, 그리고,

도 11은 본 개시의 일 실시 예에 따른 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 흐름도이다.

이하, 본 문서의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 부프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서의 다양한 실시 예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시 예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시 예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다.

본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

이하에서는 도면을 참조하여 본 발명에 대해 상세히 설명하기로 한다.

도 1은 본 개시의 일 실시 예에 따른, 사용자 문의에 따른 응답을 제공하는 인공지능 에이전트 기능을 포함하는 전자 장치의 사용도이다.

인공지능 에이전트 시스템은 도 1에 도시된 바와 같이, 전자 장치(100) 및 응답 제공 서버(200)를 포함할 수 있다. 전자 장치(100)는 인공지능 에이전트 프로그램을 이용하여 사용자에게 사용자 문의에 대한 응답을 제공할 수 있다.

이때, 전자 장치(100)는 메모리에 지식 데이터베이스를 저장할 수 있다. 이때, 지식 데이터베이스는 전자 장치(100)를 사용하는 각 사용자에 대한 지식 정보를 저장하는 데이터베이스이다. 그리고, 지식 데이터베이스는 전자 장치(100)를 사용하는 사용자가 전자 장치(100)에 입력한 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 등과 같은 다양한 사용자 정보를 바탕으로 학습될 수 있다.

지식 데이터베이스는 사용자의 다양한 정보에 의해 학습된 지식 정보들을 온톨로지(ontology) 형태로 저장할 수 있다. 온톨로지 형태로 지식 정보들을 저장하는 경우 새로운 지식 정보가 획득되면, 전자 장치(100)는 획득된 추가 정보와 새로운 지식 정보들 간의 관계를 업데이트하여 저장할 수 있다. 이때, 지식 정보들 간의 관계는 다양한 기준에 의해 형성될 수 있다. 예를 들어, 특정 지식 정보에 대해 위치, 선호 여부, 유형, 유사, 분위기를 기준으로 다른 지식 정보가 연결될 수 있다.

한편, 온톨로지 형태의 지식 정보의 저장 형태는 일 실시 예에 불과할 뿐, 지식 정보들은 그래프 모델(graph model) 형태 등으로도 저장될 수 있다. 또한, 지식 데이터베이스는 사용자의 다양한 정보에 의해 학습된 지식 정보들을 데이터셋(dataset) 형태로 저장할 수 있다. 한편, 지식 데이터베이스를 구성하고 있는 요소인 각 지식 정보들은 엔티티(entity), 파라미터(parameter), 슬롯(slot) 등으로 불리울 수 있다.

전자 장치(100)는 사용자(10)로부터 사용자 문의를 입력받을 수 있다. 이때, 전자 장치(100)는 도 1에 도시된 바와 같이, 사용자 음성을 통해 사용자 문의를 입력받을 수 있으나, 이는 일 실시예에 불과할 뿐, 터치 입력, 키보드 입력 등과 같은 다양한 입력 방식을 통해 사용자 문의를 입력받을 수 있다.

구체적으로, 전자 장치(100)는 사용자 문의를 입력받기 이전에 인공지능 에이전트 프로그램을 활성화하기 위한 트리거 단어를 포함하는 사용자 음성을 입력받을 수 있다. 예로, 전자 장치(100)는 사용자 문의를 입력받기 이전에 "빅스비"와 같은 트리거 단어를 포함하는 사용자 음성을 입력받을 수 있다. 트리거 단어를 포함하는 사용자 음성이 입력되면, 전자 장치(100)는 인공지능 에이전트 프로그램을 실행 또는 활성화시키고, 사용자 문의의 입력을 대기할 수 있다. 인공지능 에이전트 프로그램은 사용자 문의 및 응답을 자연어로 처리할 수 있는 대화 시스템을 포함할 수 있다.

전자 장치(100)는 사용자 문의를 포함하는 사용자 음성을 입력받을 수 있다. 예로, 전자 장치(100)는 사용자로부터 "부모님이랑 저녁 먹을만한데 없나?"라는 사용자 문의를 입력받을 수 있다.

이때, 전자 장치(100)는 사용자 문의에 포함된 텍스트 중 "부모님" 및 "저녁"을 키워드로 추출하고, 지식 데이터베이스에 저장된 지식 정보들을 바탕으로 저녁 메뉴, 장소, 분위기 등을 고려한 응답을 제공할 수 있다.

구체적으로, 전자 장치(100)는 사용자 음성에서 추출된 키워드 뿐만 아니라, 다양한 컨텍스트 정보를 이용하여 키워드를 확장하고, 확장된 키워드를 바탕으로 응답을 생성할 수 있다. 이때, 전자 장치(100)는 사용자 프로필 정보(예로, 사용자의 선호 정보, 검색 정보 등), 전자 장치(100)가 센싱한 센싱 정보(예로, 위치 정보 등), 전자 장치(100)가 외부 서버로부터 수신한 정보(예로, 날씨 정보 등) 중 적어도 하나를 더 고려하여 키워드를 확장 또는 변경할 수 있다. 예를 들어, 전자 장치(100)는 사용자 문의가 수신된 시점의 컨텍스트 정보 및 사용자의 프로필 정보에 기초하여, 사용자 문의로부터 추출된 키워드인 "부모님", "저녁"을 "한식", "조용", "강남", "주말"로 변경 또는 확장할 수 있다.

그리고, 전자 장치(100)는 추출된 키워드, 확장된 키워드를 바탕으로 지식 데이터베이스에 포함된 엔티티를 검색하고, 검색 결과를 응답으로 사용자에게 제공할 수 있다.

예를 들어, 전자 장치(100)는 "AA 국수 가게 강남점이 조용해요"라는 응답을 사용자에게 제공할 수 있다. 예를 들어, 전자 장치(100)는 응답을 음성 또는 메시지 형태로 출력할 수 있다.

한편, 상술한 실시 예에서는 전자 장치(100) 내에 저장된 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공하였으나, 이는 일 실시 예에 불과할 뿐, 전자 장치(100)가 외부의 서버로부터 사용자 문의에 대한 응답을 수신할 수도 있다.

또한, 상술한 실시예에서는 전자 장치(100) 내에 지식 데이터베이스가 저장된 것으로 설명하였으나, 이는 일 실시예에 불과한 뿐, 별도의 외부 서버에 지식 데이터베이스가 저장될 수 있다. 이때, 외부 서버에 저장된 지식 데이터베이스는 별도의 사용자 계정에 의해 로그인되었을 경우에만 전자 장치(100)가 액세스할 수 있다.

한편, 전자 장치(100)는 상술한 바와 같은 사용자 문의에 대한 응답을 제공하기 위하여 인공지능 에이전트(Artificial intelligence agent)를 이용할 수 있다. 이때, 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램으로서, 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다. 특히, 인공지능 에이전트는 후술할 다양한 모듈(예로, 대화 시스템)을 제어할 수 있다.

구체적으로, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러진 경우, 인공지능 에이전트가 동작할 수 있다. 그리고, 인공지능 에이전트는 지식 데이터베이스를 바탕으로 사용자 문의에 포함된 키워드 및 사용자 문의가 입력된 시점의 컨텍스트 정보를 바탕으로 사용자 문의에 대한 응답을 제공할 수 있다.

물론, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지면 인공지능 에이전트가 동작할 수도 있다. 또한, 인공지능 에이전트는 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 이전에 기 실행된 상태일 수 있다. 이 경우, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러진 이후에는 전자 장치(100)의 인공지능 에이전트가 사용자 문의에 대한 응답을 제공할 수 있다. 예를 들어, 인공지능 에이전트가 AI 전용 프로세서에 의해 실행되는 경우, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 전에는 범용 프로세서에 의해 전자 장치(100)의 기능이 실행되며, 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러진 이후에는 AI 전용 프로세서에 의해 전자 장치(100)의 기능이 실행될 수 있다.

또한, 인공지능 에이전트는 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 이전에 대기 상태일 수 있다. 여기서 대기 상태란, 인공지능 에이전트의 동작 시작을 제어하기 위해 미리 정의된 사용자 입력이 수신되는 것을 감지하는 상태이다. 인공지능 에이전트가 대기 상태인 동안 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지면, 전자 장치(100)는 인공지능 에이전트를 동작시키고, 동작된 인공지능 에이전트를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다.

또한, 인공지능 에이전트는 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지기 이전에 종료된 상태일 수 있다. 인공지능 에이전트가 종료된 상태에서 기설정된 사용자 음성(예를 들어, "빅스비" 등)가 입력되거나 전자 장치(100)에 구비된 버튼(예를 들어, 인공지능 에이전트를 실행하기 위한 버튼)이 눌러지면, 전자 장치(100)는 인공지능 에이전트를 실행시키고, 실행된 인공지능 에이전트를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다.

한편, 인공지능 에이전트는 후술할 다양한 장치 또는 모듈을 제어할 수 있다. 이에 대해서는 추후 상세히 설명하기로 한다.

또한, 전자 장치(100) 및 서버 간의 학습된 다양한 모델을 이용하여 사용자 문의에 포함된 텍스트를 변경 또는 확장하고, 변경된 텍스트를 이용하여 응답을 제공하는 구체적인 예들은 이하 다양한 실시 예들을 통하여 후술된다.

도 2는 본 개시의 일 실시 예에 따른, 전자 장치의 간략한 구성을 도시한 블록도이다.

도 2를 참조하면, 전자 장치(100)는 마이크(110). 메모리(120) 및 프로세서(130)를 포함한다. 그러나, 상술한 구성에 한정되는 것은 아니며, 전자 장치의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다.

마이크(110)는 사용자가 발화하는 사용자 음성을 입력받기 위한 구성이다. 마이크(110)는 프로세서(130)의 제어에 의해 외부에서부터 수신되는 음성(voice) 또는 사운드(sound)를 전기적인 신호로 생성(또는, 변환)한다. 마이크(110)에서 생성된 전기적인 신호는 프로세서(130)의 제어에 의해 변환되어 메모리(120)에 저장될 수 있다.

메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.

또한, 메모리(120)는 대화 시스템을 동작하기 위한 인공지능 에이전트를 저장할 수 있다. 구체적으로, 전자 장치(100)는 사용자 발화에 대한 응답으로 자연어를 생성하기 위하여 인공지능 에이전트(Artificial intelligence agent)를 이용할 수 있다. 이때, 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램이다. 특히, 인공지능 에이전트는 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다.

또한, 메모리(120)는 대화 시스템을 구성하는 복수의 구성(또는 모듈)을 포함할 수 있다. 특히, 메모리(120)는 전자 장치(100)를 사용하는 사용자에 의해 학습된 지식 데이터베이스를 포함할 수 있다. 이때, 지식 데이터 베이스는 지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장한 것일 수 있다.

또한, 메모리(120)에는 전자 장치(100)에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치(100)가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 인공지능 모델이 더 저장될 수 있다. 이러한 인공지능 모델은 사용자의 성향, 선호도 등을 학습하는 것으로, 마이크(110)를 통해 입력된 사용자 음성에서 추출된 키워드가 인공지능 모델에 입력되면, 사용자 음성과 관련된 객체 또는 객체에 대한 지식 정보가 출력될 수 있다. 이때, 인공지능 모델에는 키워드 뿐만 아니라, 사용자 음성 입력 시점의 컨텍스트 정보가 더 입력될 수도 있다. 인공지능 모델을 이용하는 실시 예는 이하 도 7을 참조하여 보다 자세히 설명하기로 한다.

프로세서(130)는 마이크(110) 및 메모리(120)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(130)는 메모리(120)에 저장된 적어도 하나의 명령어를 실행함으로써, 마이크(110)를 통해 사용자 음성이 입력되면, 입력된 사용자 음성으로부터 키워드를 추출할 수 있다.

이때, 프로세서(130)는 마이크(110)를 통해 입력된 사용자 음성을 음성 인식(automatic speech recognition, ASR) 모듈에 입력하여 사용자 음성을 텍스트로 변환할 수 있다. 이때, 프로세서(130)는 마이크(110)를 통해 트리거링 워드(triggering word)가 포함된 사용자 음성 신호가 수신되면, 입력된 사용자 음성 신호를 음성 인식 모듈에 입력할 수 있다.

자동 음성 인식(automatic speech recognition)(ASR) 모듈은, 입력된 사용자 음성(특히, 사용자 문의)을 텍스트 데이터로 변환할 수 있다. 예를 들어, 자동 음성 인식 모듈은 발화 인식 모듈을 포함할 수 있다. 상기 발화 인식 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. 발화 인식 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다. 음향 모델 및 언어 모델에 대한 정보는, 예를 들어, 자동 음성 인식 데이터베이스(automatic speech recognition database)(ASR DB)에 저장될 수 있다.

그리고, 프로세서(130)는 사용자 음성을 변환한 텍스트에서 키워드를 추출할 수 있다. 이때, 키워드는 텍스트 문장에 포함된 명사, 대명사, 형용사 등일 수 있다.

그리고, 프로세서(130)는 사용자 음성이 수신된 시점의 컨텍스트 정보를 획득할 수 있다. 여기서, 컨텍스트 정보는 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나일 수 있다. 여기서, 시간 정보는 사용자 음성이 입력된 시점의 날짜, 요일, 시간과 관련된 정보일 수 있다. 컨텍스트 정보를 획득하는 동작에 대해서는 이하 도 3을 참조하여 보다 자세히 설명하기로 한다.

그리고, 프로세서(130)는 추출된 키워드 및 컨텍스트 정보에 기초하여 사용자 음성과 관련된 객체(object) 및 객체에 대한 지식 정보를 획득할 수 있다. 여기서, 객체라 함은 사용자 음성에 포함된 지식 정보의 대상을 의미하는 것일 수 있다. 이때, 획득된 객체 및 객체에 대한 지식 정보는 추출된 키워드일 수도 있고, 컨텍스트 정보에 기초하여 추출된 키워드가 변경 또는 확장된 것일 수도 있다.

이때, 프로세서(130)는 메모리(110)에 저장된 인공지능 모델을 이용하여 입력된 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 이때, 인공지능 모델은 전자 장치(100)에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 것일 수 있다.

구체적으로, 프로세서(130)는 추출된 키워드를 학습된 인공지능 모델에 입력하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 또 다른 실시 예로, 프로세서(130)는 사용자 음성이 입력된 시점의 컨텍스트 정보를 학습된 인공지능 모델에 더 입력하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수도 있다.

한편, 추출된 키워드, 컨텍스트 정보 및 인공지능 모델 중 적어도 하나에 기초하여 객체 및 객체에 대한 지식 정보를 획득하는 실시 예는 이하 도 6 및 도 7을 참조하여 보다 자세히 설명하기로 한다.

그리고, 프로세서(130)는 획득된 객체 및 객체에 대한 지식 정보를 바탕으로 메모리(110)에 저장된 지식 데이터베이스를 업데이트할 수 있다.

구체적으로, 프로세서(130)는 지식 데이터베이스 내에 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단할 수 있다. 여기서, 객체와 관련된 엔티티라 함은, 객체에 대응되는 엔티티, 객체의 상위 개념의 엔티티 및 객체의 하위 개념의 엔티티 중 적어도 하나를 포함할 수 있다.

이때, 지식 데이터베이스 내에 획득된 객체와 관련된 엔티티가 존재하는 경우, 프로세서(130)는 해당 엔티티에 객체에 대한 지식 정보를 추가하여 지식 데이터베이스를 업데이트할 수 있다. 엔티티에 획득된 지식 정보를 추가하여 지식 데이터베이스를 업데이트하는 실시 예는 도 9를 참조하여 보다 자세히 설명하기로 한다.

한편, 지식 데이터베이스 내에 획득된 객체와 관련된 엔티티가 존재하지 않는 경우, 프로세서(130)는 획득된 객체에 대응되는 새로운 엔티티를 생성하여 지식 데이터베이스를 업데이트할 수 있다.

그리고, 프로세서(130)는 사용자 문의가 입력되면, 업데이트된 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 획득할 수 있다.

구체적으로, 프로세서(130)는 사용자 문의가 입력되면, 메모리(120)에 저장된 대화 시스템을 이용하여 사용자 문의에 대한 응답을 획득할 수 있다. 대화 시스템은 가상의 인공지능 에이전트와 자연어를 통해 대화를 수행하기 위한 구성으로서, 본 개시의 일 실시 예에 따르면, 대화 시스템은 전자 장치(100)의 메모리(120) 내에 저장될 수 있다. 그러나, 이는 일 실시 예에 불과할 뿐, 대화 시스템에 포함된 적어도 하나는 외부의 적어도 하나의 서버에 포함될 수 있다.

대화 시스템은 자동 음성 인식(automatic speech recognition)(ASR) 모듈, 자연어 이해(natural language understanding)(NLU) 모듈, 대화 매니저(dialogue manager)(DM) 모듈, 자연어 생성(natural language generator)(NLG) 모듈 및 텍스트 음성 변환(text to speech)(TTS) 모듈을 포함할 수 있다. 그 밖에 대화 시스템은 패스 플래너(path planner) 모듈 또는 액션 플래너(action planner) 모듈을 더 포함할 수 있다.

우선, 프로세서(130)는 사용자 음성이 입력되면 자동 음성 인식 모듈에 입력하여 텍스트 데이터로 변환할 수 있다. 자동 음성 인식 모듈은 상술하였는 바, 중복된 설명은 생략한다.

그리고, 프로세서(130)는 변환된 텍스트 데이터를 자연어 이해 모듈에 입력하여 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 문법적 분석은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해 모듈은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 얻을 수 있다.

자연어 이해 모듈은 도메인(domain), 의도(intend) 및 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 상기 하나의 도메인(예: 식당)은 복수의 의도(예: 식당 검색, 식당 추천 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 장소, 맛, 분위기 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 매칭 규칙은 자연어 인식 데이터베이스(natural language understanding database)(NLU DB)에 저장될 수 있다.

자연어 이해 모듈은 형태소, 구 등의 언어적 특징(예: 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는 지를 계산하여 사용자 의도를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈은 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터베이스를 이용하여 사용자의 의도를 결정할 수 있다.

자연어 이해 모듈은 사용자 별로 학습된 인공지능 모델을 이용하여 사용자 문의를 이해할 수 있다. 특히, 자연어 이해 모듈은 사용자 문의의 키워드 및 사용자 문의 시점의 컨텍스트 정보를 인공지능 모델에 입력하여 사용자 문의와 관련된 객체 및 사용자의 선호 조건 정보를 출력할 수 있다. 이때, 인공지능 모델은 전자 장치(100)에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 전자 장치(100)가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습될 수 있다.

자연어 이해 모듈은 학습된 인공지능 모델을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, 자연어 이해 모듈은 사용자 정보(예: 선호 문구, 선호 메뉴, 선호 시간, 사용자 성향 등)를 이용하여 사용자의 의도를 결정할 수 있다. 일 실시 예에 따르면, 자연어 이해 모듈뿐만 아니라 자동 음성 인식 모듈도 인공지능 모델을 참고하여 사용자의 음성을 인식할 수 있다.

대화 매니저 모듈은 자연어 이해 모듈에 의해 파악된 사용자의 의도가 명확한지 여부를 판단할 수 있다. 예를 들어, 대화 매니저 모듈은 파라미터의 정보가 충분하지 여부에 기초하여 사용자의 의도가 명확한지 여부를 판단할 수 있다. 대화 매니저 모듈은 자연어 이해 모듈에서 파악된 파라미터가 태스크를 수행하는데 충분한지 여부를 판단할 수 있다. 일 실시 예에 따르면, 대화 매니저 모듈은 사용자의 의도가 명확하지 않은 경우 사용자에게 필요한 정보를 요청하는 피드백을 수행할 수 있다. 예를 들어, 대화 매니저 모듈은 사용자의 의도를 파악하기 위한 파라미터에 대한 정보를 요청하는 피드백을 수행할 수 있다. 또한, 대화 매니저 모듈은 자연어 이해 모듈에 의해 변경된 텍스트를 포함하는 사용자 문의를 확인하기 위한 메시지를 생성하여 출력할 수 있다.

일 실시 예에 따르면, 대화 매니저 모듈은 컨텐츠 제공(content provider) 모듈을 포함할 수 있다. 컨텐츠 제공 모듈은 자연어 이해 모듈(1220)에서 파악된 의도 및 파라미터에 기초하여 동작을 수행할 수 있는 경우, 사용자 입력에 대응되는 태스크를 수행한 결과를 생성할 수 있다.

다른 실시 예에 따르면, 대화 매니저 모듈은 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 제공할 수 있다. 이때, 지식 데이터베이스는 전자 장치(100) 내에 포함될 수 있으나, 이는 일 실시 예에 불과할 뿐, 외부 서버에 포함될 수 있다.

자연어 생성 모듈(NLG 모듈)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는, 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보(예: 사용자 입력에 대한 피드백 정보)일 수 있다. 상기 텍스트 형태로 변경된 정보는 전자 장치(100)의 디스플레이(도 3의 150))에 표시되거나, 텍스트 음성 변환 모듈(TTS 모듈)에 의해 음성 형태로 변경될 수 있다.

텍스트 음성 변환 모듈(TTS 모듈)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. 텍스트 음성 변환 모듈은 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 스피커(도 3의 170)로 출력할 수 있다.

자연어 이해 모듈 및 대화 매니저 모듈은 하나의 모듈로 구현될 수 있다. 예를 들어, 자연어 이해 모듈 및 대화 매니저 모듈은 하나의 모듈로 구현되어 사용자의 의도 및 파라미터를 결정하고, 상기 결정된 사용자의 의도 및 파라미터에 대응되는 응답(예로, 패스 룰)을 획득할 수 있다. 또 다른 예로, 자연어 이해 모듈 및 대화 매니저 모듈은 학습된 인공지능 모델을 바탕으로 사용자 문의에 포함된 키워드를 변환 또는 확장하여 객체 및 객체에 대한 조건 정보를 획득하고, 획득된 객체, 객체에 대한 조건 정보 및 지식 데이터베이스를 바탕으로 사용자 문의에 대한 응답을 획득할 수 있다.

한편, 이상에서는 마이크(110)를 통한 사용자 음성이 입력되면, 사용자 음성이 입력된 시점의 컨텍스트 정보를 더 이용하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득하는 내용으로 한정하여 기재하였다. 그러나, 실제 구현시에는 사용자 음성 입력이 수행되지 않더라도, 사용자가 어플리케이션을 통한 텍스트 입력을 수행한 경우, 텍스트가 입력된 시점의 컨텍스트 정보를 이용하여 입력된 텍스트와 관련된 객체 및 객체에 대한 지식 정보를 획득할 수도 있다. 이하에서 사용자 음성이 입력되는 경우 수행되는 전자 장치(100)의 동작은 사용자가 텍스트를 입력한 경우에도 동일하게 수행될 수 있다. 또는, 사용자 음성 입력과 텍스트 입력이 기설정된 시간 범위 이내에 수행된 경우, 사용자 음성 및 텍스트가 입력된 시간 범위의 컨텍스트 정보를 이용하여 사용자 음성 및 텍스트와 관련된 객체 및 객체에 대한 지식 정보를 획득할 수도 있다.

도 3은 도 2의 전자 장치의 구성을 구체적으로 도시한 블록도이다.

도 3을 참조하면, 전자 장치(100)는 마이크(110), 메모리(120), 프로세서(130), 통신 인터페이스(140) 디스플레이(150), GPS 센서(160), 기타 센서(165) 및 스피커(170)를 포함할 수 있다.

*여기서, 마이크(110), 메모리(120) 및 프로세서(130)의 일부 구성은 도 2에 도시된 구성과 동일한 바, 중복된 기재는 생략한다.

통신 인터페이스(140)는 외부 전자 장치와 통신을 수행할 수 있다. 통신 인터페이스(140)는 외부 장치와 통신을 수행하기 위한 구성이다. 한편, 통신 인터페이스(140)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다. 무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 일 실시예에 따르면, 무선 통신은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 무선 통신 또는 유선 통신이 수행되는 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.

또한, 통신 인터페이스(140)는 외부의 서버와 통신을 수행하여 인공지능 에이전트 서비스를 제공할 수 있다. 특히, 통신 인터페이스(140)는 외부 서버로 변경된 텍스트를 포함하는 사용자 문의를 전송할 수 있으며, 사용자 문의에 대한 응답을 획득할 수 있다.

한편, 프로세서(130)는 외부 서버로부터 수신된 정보를 이용하여 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득할 수 있다. 예를 들어, 프로세서(130)는 외부 서버로부터 사용자 음성이 입력된 시점의 날씨 정보를 컨텍스트 정보로 획득하고, 추출된 키워드 및 획득된 날씨 정보에 기초하여 객체에 대한 사용자의 선호 정보를 지식 정보로 획득할 수 있다. 예를 들어, 사용자가 비오는 날에 "오늘 같은 날은 맥주를 먹고 싶어"라는 음성을 입력한 경우, 프로세서(130)는 외부 서버로부터 수신된 오늘의 날씨 정보를 컨텍스트 정보로 획득하고, 키워드인 "오늘 같은 날" 및 날씨 정보에 기초하여, 객체를 "비오는 날"로 획득할 수 있다. 그리고, 프로세서(130)는 사용자는 비오는 날에는 "맥주"를 "선호"한다는 정보를 획득하고, 이를 객체인 "비오는 날"에 대한 지식 정보로 획득할 수 있다.

한편, 프로세서(130)는 통신 인터페이스(140)를 통해 외부 서버에 업데이트된 지식 데이터베이스를 전송할 수 있다. 그리고, 프로세서(130)는 통신 인터페이스(140)를 통해 외부 서버로부터 타 사용자의 지식 데이터베이스를 수신받을 수 있다. 이때, 프로세서(130)는 기설정된 조건이 만족되면 외부 서버와 지식 데이터베이스를 송신 또는 수신할 수 있다. 예를 들어, 프로세서(130)는 기설정된 주기 또는 와이파이 등과 같은 네트워크에 연결되면, 외부 서버와 지식 데이터베이스를 송신 또는 수신할 수 있다. 이와 같이, 기설정된 조건을 만족하는 경우에만 외부 서버와 송수신하여 리소스를 감소시키면서도, 보다 광범위한 데이터베이스 확보를 통해 정확한 응답을 사용자에게 제공할 수 있게 된다.

한편, 일 실시 예로 외부 서버와의 지식 데이터베이스의 동기화 여부는 사용자가 동기화를 허용한 경우에만 수행될 수도 있다.

디스플레이(150)는 디스플레이(150)는 프로세서(130)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(150)는 사용자가 입력한 사용자 음성 또는 텍스트와 관련된 객체가 사용자가 의도한 객체인지 확인하기 위한 메시지를 표시할 수 있다. 예를 들어, "오늘 같은 날은 맥주를 먹고 싶어"라는 사용자 음성이 입력된 경우, 프로세서(130)는 학습된 인공지능 모델을 이용하여 "오늘 같은 날"이 "비오는 날"인 것으로 판단하고, "오늘 같은 날은 비오는 날을 말하는 것인가요?"라는 메시지를 디스플레이(150)에 표시하여 사용자의 의도를 확인할 수 있다.

또한, 디스플레이(150)는 사용자 문의에 대한 응답을 표시할 수 있다. 디스플레이(150)는 터치 패널과 함께 터치 스크린으로 구현될 수 있다. 이 경우, 프로세서(130)는 디스플레이(150)의 터치 패널을 통해 입력된 텍스트를 바탕으로 객체 및 객체에 대한 정보를 획득할 수 있다.

GPS(Global Positioning System) 센서(160)는 위치 정보를 감지할 수 있는 센서이다. 구체적으로, 프로세서(130)는 GPS 센서(160)를 통해 전자 장치(100)의 위치 좌표를 획득할 수 있다. 특히, 프로세서(130)는 사용자 음성이 입력될 시점에 GPS 센서(160)를 통해 센싱된 위치 정보를 컨텍스트 정보로 획득할 수 있다. 그리고, 프로세서(130)는 추출된 키워드, 획득된 위치 정보를 바탕으로 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다. 이때, 일 실시 예로 프로세서(130)는 웹 정보를 더 이용하여 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득할 수 있다. 예를 들어, 사용자가 AA 국수 가게 강남점에서 "이 국수 가게는 조용하네"라고 입력한 경우, 프로세서(130)는 "이 국수 가게"라는 키워드와, 사용자 음성이 입력된 시점에 GPS 센서(160)에 의해 획득된 위치 정보를 이용하여 사용자 음성이 입력된 장소와 관련된 객체로 "AA 국수 가게 강남점"을 획득할 수 있다. 그리고, 프로세서(130)는 객체인 "AA 국수 가게 강남점"에 대한 지식 정보로 "분위기"가 "조용"하다는 정보를 획득할 수 있다.

이때, 프로세서(130)는 웹 정보를 더 이용하여 사용자 음성과 관련된 객체를 획득할 수도 있다. 예를 들어, 프로세서(130)는 추출된 키워드 및 위치 정보를 통해 사용자 음성이 'AA 국수 가게'와 관련된 것이고, 웹 정보를 통해 획득된 위치 정보에 위치한 'AA 국수 가게'의 체인점은 '강남점'임을 획득하고, 이를 바탕으로 사용자 음성이 입력된 장소와 관련된 객체를 'AA 국수 가게 강남점'으로 획득할 수 있다.

한편, 프로세서(130)는 기저장된 일정 정보를 컨텍스트 정보로 획득할 수도 있다. 이때, 기저장된 일정 정보는 전자 장치(100)에 저장된 것이거나, 외부 서버로부터 수신된 것일 수 있다. 그리고, 프로세서(130)는 입력된 사용자 음성에서 추출된 키워드 및 일정 정보를 바탕으로 사용자 음성과 관련된 객체를 획득할 수 있다. 이때, 사용자 음성과 관련된 객체는 사용자 음성이 임력된 장소와 관련된 객체일 수 있다. 예를 들어, 어느 토요일의 일정 정보에 "친구 B와 점심"이 포함된 날, 사용자가 AA 국수 가게 강남점에서 "여기는 좀 시끄럽네"라고 음성을 입력한 경우, 프로세서(130)는 입력된 사용자 음성에서 키워드로 "여기", "시끄럽네"를 추출할 수 있다. 그리고, 프로세서(130)는 기저장된 일정 정보에 기초하여 "주말", "점심", "식당"을 컨텍스트 정보로 획득할 수 있다. 그리고, GPS 센서(160)에 의해 센싱된 위치 정보 및 웹 정보 중 적어도 하나를 컨텍스트 정보로 획득할 수 있다.

그리고, 프로세서(130)는 키워드인 "여기" 및 획득된 컨텍스트 정보들을 바탕으로 사용자 음성이 입력된 장소와 관련된 객체로 "AA 국수 가게 강남점"을 획득할 수 있다. 그리고, 객체인 "AA 국수 가게 강남점"에 대한 지식 정보로 "주말"에는 "분위기"가 "시끄럽다"는 정보를 획득할 수 있다.

그리고, 프로세서(130)는 지식 데이터베이스에 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 관련된 엔티티가 존재하면 획득된 지식 정보를 해당 엔티티에 추가하여 지식 데이터베이스를 업데이트할 수 있다. 한편, 관련된 엔티티가 존재하지 않으면, 획득된 객체 및 객체에 대한 지식 정보를 바탕으로 새로운 엔티티를 생성하여 지식 데이터베이스를 업데이트할 수 있다.

한편, 기타 센서(165)는 전자 장치(100)의 다양한 상태 정보를 감지할 수 있다. 예로, 센서(165)는 전자 장치(100)의 움직임 정보를 감지할 수 있는 움직임 센서(예로, 자이로 센서, 가속도 센서 등)를 포함할 수 있으며, 전자 장치(100) 주위의 환경 정보를 감지할 수 있는 센서(예로, 온도 센서, 습도 센서, 기압 센서 등), 전자 장치(100)의 사용자 정보를 감지할 수 있는 센서(예로, 혈압 센서, 혈당 센서, 맥박수 센서 등) 등을 포함할 수 있다. 그 밖에, 센서(165)는 전자 장치(100)의 외부를 촬영하기 위한 이미지 센서 등을 더 포함할 수 있다. 프로세서(130)는 기타 센서(165)에 의해 센싱된 센싱 정보 또한 컨텍스트 정보로 획득할 수 있다.

스피커(170)는 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 스피커(170)는 사용자 문의에 대한 응답을 자연어 형태의 음성 메시지로 출력할 수 있다. 한편, 오디오를 출력하기 위한 구성은 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

상술한 바와 같이, 사용자 음성이 수신되는 시점의 컨텍스트 정보를 이용함으로 인해, 사용자가 추상적인 용어를 이용하여 발화하였음에도 불구하고, 사용자의 의도를 정확히 파악하고, 지식 데이터베이스에 기저장된 엔티티에 대한 업데이트를 수행할 수 있으므로, 추후 사용자 문의가 입력된 경우 보다 정확한 응답 제공이 가능하게 된다.

한편, 도 3에는 도시되지 않았지만, 실시 예에 따라 전자 장치(100)는 외부 단자와 연결하기 위한 다양한 외부 입력 포트, 사용자 조작을 입력받을 수 있는 버튼 등을 더 포함할 수 있음은 물론이다.

도 4는 본 개시의 일 실시 예에 따른, 전자 장치의 지식 데이터베이스를 업데이트하는 동작을 설명하기 위한 도면이다.

도 4를 참조하면, 전자 장치의 메모리(120)에는 다양한 모듈이 저장될 수 있다. 이때, 전자 장치의 프로세서는 메모리(120)에 저장된 다양한 모듈을 이용하여 동작할 수 있다.

구체적으로, 사용자(10)가 사용자 음성을 입력하면, 음성 지식화 모듈(410)은 입력된 사용자 음성으로부터 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 이때, 음성 지식화 모듈(410)은 사용자 음성이 입력되는 시점의 컨텍스트 정보를 더 이용하여 사용자 음성으로부터 객체 및 객체에 대한 지식 정보를 획득할 수 있다. 이때, 음성 지식화 모듈(410)은 Random Forest, logistic regression 등 다양한 기계 학습 기법을 활용하여 객체 및 지식 정보를 획득할 수 있다.

그리고, 지식 데이터베이스 검색 모듈(420)은 음성 지식화 모듈(410)에서 획득된 객체 및 객체에 대한 지식 정보를 바탕으로 지식 데이터베이스(430)에서 타겟 엔티티를 검색할 수 있다. 이때, 지식 데이터베이스 검색 모듈(420)은 지식 데이터베이스(430)에 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 구체적으로, 지식 데이터베이스 검색 모듈(420)은 Probabilistic logistic regression 등의 기계 학습 기법, LSTM 등 딥 러닝 기법 등을 활용하여 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 그리고, 지식 데이터베이스 검색 모듈(420)은 검색 결과와 객체에 대한 지식 정보를 지식 데이터베이스 업데이트 모듈(440)로 출력할 수 있다.

지식 데이터베이스 업데이트 모듈(440)은 지식 데이터베이스 검색 모듈(420)롤부터 획득된 엔티티 및 지식 정보를 바탕으로 지식 데이터베이스(430)를 업데이트할 수 있다. 구체적으로, 지식 데이터베이스 업데이트 모듈(440)은 객체와 관련된 엔티티가 존재하면, 객체에 대한 지식 정보를 엔티티에 추가하여 지식 데이터베이스(430)을 업데이트하고, 지식 데이터베이스 업데이트 모듈(440)은 객체와 관련된 엔티티가 존재하지 않으면, 객체에 대응되는 새로운 엔티티를 생성하여 지식 데이터베이스(430)을 업데이트할 수 있다.

도 5는 본 개시의 일 실시 예에 따른 전자 장치가 사용자 음성을 입력받는 동작을 설명하기 위한 도면이다.

도 5를 참조하면, 사용자(10)는 전자 장치(100)에 사용자 음성을 입력할 수 있다. 이때, 사용자(10)는 인공지능 에이전트를 실행하기 위해 버튼을 누르고 사용자 음성을 입력하거나, 트리거링 워드(예로, 빅스비)를 포함하는 사용자 음성을 입력할 수 있다.

예를 들어, 사용자(10)가 "빅스비, 여기 국수 가게는 조용해서 오늘 같은 날 오기 좋네"라고 입력하면, 전자 장치(100)는 사용자 음성 입력이 정상적으로 완료되었음을 알리는 피드백 음성으로 "네 알겠습니다"를 출력할 수 있다. 이때, 실시 예에 따라 피드백 음성은 출력되지 않을 수도 있다.

그리고, 전자 장치는 도 6에 도시된 바와 같이, 입력된 사용자 음성(61)으로부터 키워드인 '여기 국수 가게'(62) 및 '오늘 같은 날'(63)을 추출할 수 있다. 그리고, 전자 장치는 추출된 키워드 및 사용자 음성이 입력된 시점의 컨텍스트 정보를 이용하여 객체 및 객체에 대한 지식 정보를 획득할 수 있다.

예를 들어, 전자 장치는 사용자 음성이 입력된 시점에 GPS 센서에 의해 센싱된 위치 정보를 컨텍스트 정보 1(64)로 획득할 수 있다. 그리고, 전자 장치는 키워드인 '여기 국수 가게'(62) 및 컨텍스트 정보 1(64)을 바탕으로, 사용자 음성과 관련된 객체가 'AA 국수 가게 강남점'(65)임을 획득할 수 있다. 이때, 전자 장치는 웹 정보를 더 이용하여 사용자 음성이 입력된 장소와 관련된 객체를 획득할 수도 있다.

한편, 전자 장치는 사용자 음성이 입력된 시점의 시간 정보, 날씨 정보를 컨텍스트 정보 2(66)로 획득할 수 있다. 그리고, 전자 장치는 키워드인 '오늘 같은 날'(63) 및 컨텍스트 정보 2(66)를 바탕으로 객체에 대한 지식 정보가 '주말, 비오는 날'(67)임을 획득할 수 있다.

한편, 이상에서는 도 6의 컨텍스트 정보 1(64)와 컨텍스트 정보 2(66)가 다른 정보를 포함하는 것으로 설명하였으나, 적어도 일부가 동일할 수 있다.

한편, 도 6에는 도시되지는 않았지만, 전자 장치는 입력된 사용자 음성에서 '좋네'를 더 키워드로 추출할 수 있으며, 이를 객체인 'AA 국수 가게 강남점'에 대한 지식 정보로 획득할 수도 있다.

한편, 전자 장치는 도 7에 도시된 바와 같이 인공지능 모델을 더 이용하여 객체에 대한 지식 정보를 획득할 수도 있다.

도 7을 참조하면, 전자 장치는 인공지능 모델(121)에 키워드인 '오늘 같은 날'(71)을 입력하여 객체에 대한 지식 정보인 '주말, 비오는 날'(73)을 획득할 수 있다. 실시 예에 따라, 전자 장치는 인공지능 모델(121)을 이용하여 '오늘 같은 날'(71)이 주말인지, 비오는 날인지, 주말이면서 비오는 날인지 판단할 수 있다.

이때, 전자 장치는 인공지능 모델(121)에 키워드(71)와 함께 컨텍스트 정보(72)를 더 입력하여 객체에 대한 지식 정보를 획득할 수 있다. 도 7에서는 인공지능 모델(121)을 이용하여 객체에 대한 지식 정보를 획득하는 내용만이 도시되었으나, 실제 구현시에는 인공지능 모델(121)은 객체를 획득하는 데 이용될 수도 있다.

이때, 인공지능 모델은 사용자의 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 것일 수 있다.

구체적으로 도 8을 참조하면, 전자 장치의 메모리에 저장된 인공지능 모델(121)은 학습부(122) 및 획득부(123)를 포함할 수 있다. 그리고, 프로세서(130)는 메모리(120)에 저장된 학습부(122)를 실행함으로써, 사용자 의도에 대응되는 자연어를 생성하는 기준을 갖도록 학습시킬 수 있다. 특히, 본 개시에 따른 학습부(122)는 음성 인식에 따른 목적을 가지도록 음성 인식 모델을 학습시킬 수 있다. 또는, 본 개시에 따른 학습부(122)는 사용자 의도에 대응되는 자연어를 생성하도록 자연어 생성 모델을 학습시킬 수 있다. 본 개시에 따른 학습부(122)는 사용자 문의에 포함된 텍스트를 다른 텍스트로 변경 또는 확장하기 위해 모델을 학습시킬 수 있다. 구체적으로, 학습부(122)는 사용자의 인터렉션, 사용자의 검색 히스토리, 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 사용자의 성향 정보 또는 선호 정보 등을 획득할 수 있다.

프로세서(130)는 메모리(120)에 저장된 획득부(123)를 실행함으로써, 인공지능 에이전트가 입력 데이터인 키워드에 기초하여 객체 또는 객체에 대한 지식 정보를 획득할 수 있다. 획득부(123)는 학습된 인공지능 모델을 이용하여, 소정의 입력 데이터로부터 사용자의 성향 정보 또는 선호 정보를 반영하여 객체 또는 객체에 대한 지식 정보를 획득할 수 있다. 이때, 획득부(123)는 자연어 생성 모델을 이용하여 응답을 자연어 형태로 제공할 수 있다. 또한, 획득부(123)는 사용자 문의에 포함된 키워드의 텍스트를 변경 또는 확장하여 객체 또는 객체에 대한 지식 정보를 획득할 수 있다.

또한, 획득부(123)는 기 설정된 기준에 따라 소정의 입력 데이터를 획득하고, 획득된 입력 데이터를 입력 값으로 하여 인공지능 모델에 적용함으로써, 소정의 입력 데이터에 기초한 소정의 출력을 판단할 수 있다(또는, 추정(estimate)할 수 있다). 또한, 획득된 입력 데이터를 입력 값으로 인공 지능 모델에 적용하여 출력된 결과 값은, 인공지능 모델을 갱신하는데 이용될 수 있다.

한편, 학습부(122)의 적어도 일부 및 획득부(123)의 적어도 일부는, 소프트웨어 모듈로 구현되거나 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(122) 및 획득부(123) 중 적어도 하나는 인공지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 서버에 탑재될 수도 있다. 이때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다. 학습부(122) 및 획득부(123)가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

또한, 학습부(122) 및 획득부(123)는 하나의 서버에 탑재될 수도 있으며, 또는 별개의 서버들에 각각 탑재될 수도 있다. 예를 들어, 학습부(122) 및 획득부(123) 중 하나는 제1 서버에 포함되고, 나머지 하나는 제2 서버에 포함될 수 있다. 또한, 학습부(122) 및 획득부(123)는 유선 또는 무선으로 통하여, 학습부(122)가 구축한 모델 정보를 획득부(123)로 제공할 수도 있고, 획득부(123)로 입력된 데이터가 추가 학습 데이터로서 학습부(122)로 제공될 수도 있다.

또한, 인공지능 모델은 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인공지능 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 인공지능 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있다. 인공지능 모델은 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 인공지능 모델은, 일 예로, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), LSTM(Long Short Term Memory network)과 같은 모델이 인공지능 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

도 9는 본 개시의 일 실시 예에 따른 지식 데이터베이스의 업데이트 동작을 설명하기 위한 도면이다. 이때, 지식 데이터베이스에 업데이트 되는 지식 정보는 도 6에 도시된 동작에 의해 획득된 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보일 수 있다.

우선, 전자 장치는 획득된 객체와 관련된 엔티티가 지식 데이터베이스에 존재하는지 여부를 판단할 수 있다. 이때, 도 9에 도시된 바와 같이, 획득된 객체인 'AA 국수 가게 강남점'과 관련된 엔티티인 'AA 국수 가게'가 지식 데이터베이스에 존재하는 경우, 전자 장치는 획득된 객체 및 객체에 대한 지식 정보(810)를 엔티티인 'AA 국수 가게'에 추가하여 지식 데이터베이스를 업데이트할 수 있다.

도 9에서는 설명의 편의를 위하여 엔티티를 'AA 국수 가게'만인 것으로 한정하여 도시 및 설명하였으나, 실제 구현시에는 지식 데이터베이스에서 'AA 국수 가게'뿐만 아니라, '주말' 및 '조용'과 관련된 엔티티를 검색하여 지식 정보를 업데이트할 수도 있다.

한편, 획득된 객체인 'AA 국수 가게 강남점'과 관련된 엔티티가 지식 데이터베이스에 존재하지 않는 경우, 전자 장치는 'AA 국수 가게 강남점'에 대응되는 새로운 엔티티를 생성하여 지식 데이터베이스를 업데이트할 수 있다.

도 10은 본 개시의 일 실시 예에 따른 전자 장치가 사용자 문의에 대한 응답을 출력하는 동작을 설명하기 위한 도면이다.

도 10을 참조하면, 사용자(10)가 사용자 문의를 입력하면, 음성 쿼리화 모듈(910) 입력된 사용자 문의 음성으로부터 사용자 의도와 관련된 쿼리를 획득할 수 있다. 이때, 음성 쿼리화 모듈(910)은 사용자 문의가 입력되는 시점의 컨텍스트 정보를 더 이용하여 사용자 음성으로부터 쿼리를 획득할 수 있다. 여기서, 쿼리에는 사용자 문의와 관련된 객체 및 객체에 대한 조건 정보를 획득할 수 있다. 이때, 음성 쿼리화 모듈(910)은 Random Forest, logistic regression 등 다양한 기계 학습 기법을 활용하여 객체 및 조건 정보를 획득할 수 있다.

그리고, 지식 데이터베이스 검색 모듈(420)은 음성 쿼리화 모듈(910)에서 획득된 객체 및 객체에 대한 조건 정보를 바탕으로 지식 데이터베이스(430)에서 타겟 엔티티를 검색할 수 있다. 이때, 지식 데이터베이스(430)는 이전 입력된 사용자 음성 및 사용자 음성 입력 시점의 컨텍스트 정보에 기초하여 업데이트된 것일 수 있다.

지식 데이터베이스 검색 모듈(420)은 지식 데이터베이스(430)에 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 구체적으로, 지식 데이터베이스 검색 모듈(420)은 Probabilistic logistic regression 등의 기계 학습 기법, LSTM 등 딥 러닝 기법 등을 활용하여 획득된 객체와 관련된 엔티티가 존재하는지 검색할 수 있다. 그리고, 지식 데이터베이스 검색 모듈(420)은 엔티티 검색 결과와 객체에 대한 조건 정보를 지식 쿼리 모듈(920)로 출력할 수 있다.

지식 쿼리 모듈(920)은 지식 데이터베이스 검색 모듈(420)롤부터 획득된 엔티티 및 조건 정보를 바탕으로 쿼리 결과를 획득할 수 있다. 그리고, 지식 쿼리 모듈(920)은 사용자 문의와 관련된 쿼리 및 조건 정보를 획득된 엔티티에 대한 정보에 추가하여 지식 데이터베이스(430)를 업데이트할 수 있다.

그리고, 지식 쿼리 모듈(920)은 획득된 쿼리 결과를 사용자(10)에게 제공할 수 있다.

도 11을 참조하면, 전자 장치는 사용자 음성이 입력되면, 입력된 사용자 음성으로부터 키워드를 추출할 수 있다(S1010). 구체적으로, 전자 장치는 사용자 음성을 음성 인식 모듈에 입력하여 텍스트로 변환하고, 변환된 텍스트에서 명사, 대명사, 형용사 등을 키워드로 추출할 수 있다.

그리고, 전자 장치는 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득할 수 있다(S1020). 이때, 컨텍스트 정보는 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 포함할 수 있다. 이러한 컨텍스트 정보는, 전자 장치에 구비된 GPS 센서, 외부 서버, 기저장된 일정 정보 등에서 획득될 수 있다.

그리고, 전자 장치는 추출된 키워드 및 컨텍스트 정보에 기초하여 사용자 음성과 관련된 객체 및 객체에 대한 지식 정보를 획득할 수 있다(S1030). 예를 들어, 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 사용자 음성이 입력된 장소와 관련된 객체를 획득할 수 있다. 다른 실시 예로, 전자 장치는 날씨 정보를 바탕으로 객체에 대한 사용자의 선호 정보를 지식 정보로 획득할 수 있다. 이때, 실시 예에 따라 전자 장치는 인공지능 모델을 이용하여 객체 및 객체에 대한 지식 정보 중 적어도 하나를 획득할 수 있다.

그리고, 전자 장치는 획득된 객체 및 객체에 대한 지식 정보에 기초하여 지식 데이터베이스를 업데이트할 수 있다(S1040). 구체적으로, 전자 장치는 획득된 객체와 관련된 엔티티가 지식 데이터베이스에 존재하는지 여부를 판단할 수 있다. 이때, 지식 데이터베이스에 획득된 객체와 관련된 엔티티가 존재하면, 전자 장치는 엔티티에 획득된 객체에 대한 지식 정보를 추가하여 지식 데이터베이스를 업데이트할 수 있다. 한편, 지식 데이터베이스에 획득된 객체와 관련된 엔티티가 존재하지 않으면, 전자 장치는 획득된 객체와 대응되는 새로운 엔티티를 생성하여 저장함으로써 지식 데이터베이스를 업데이트할 수 있다.

도 11에 도시되지는 않았지만, 이후 사용자 문의가 입력되면, 전자 장치는 업데이트된 지식 데이터베이스를 이용하여 사용자 문의에 대한 응답을 획득하고, 획득된 응답을 출력할 수 있다.

상술한 바와 같은 본 개시의 다양한 실시 예에 따르면, 사용자 음성이 수신되는 시점의 컨텍스트 정보를 이용함으로 인해, 사용자가 추상적인 용어를 이용하여 발화하였음에도 불구하고, 사용자의 의도를 정확히 파악하고, 지식 데이터베이스에 기저장된 엔티티에 대한 업데이트를 수행할 수 있으므로, 추후 사용자 문의가 입력된 경우 보다 정확한 응답 제공이 가능하게 된다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

전자 장치에 있어서,

마이크;

적어도 하나의 명령을 포함하는 메모리; 및

상기 마이크 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,

상기 프로세서는, 상기 적어도 하나의 명령을 실행함으로써,

상기 마이크를 통해 사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하고,

상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하고,

상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하고,

상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 상기 메모리에 저장된 지식 데이터베이스를 업데이트하는 전자 장치.
제1항에 있어서,

상기 지식 데이터베이스는,

지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고,

상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트하는 전자 장치.
제1항에 있어서,

상기 메모리는,

상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 학습되는 인공지능 모델을 더 포함하고,

상기 프로세서는,

상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

사용자 문의가 입력되면, 상기 업데이트된 지식 데이터베이스를 이용하여 상기 사용자 문의에 대한 응답을 획득하고, 상기 획득된 응답을 출력하는 전자 장치.
제1항에 있어서,

통신 인터페이스;를 더 포함하고,

상기 프로세서는,

상기 통신 인터페이스를 통해 외부 서버에 상기 업데이트된 지식 데이터베이스를 전송하고, 상기 외부 서버로부터 타 사용자의 지식 데이터베이스를 수신받는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 음성이 입력된 시점의 시간 정보, 위치 정보, 날씨 정보 및 일정 정보 중 적어도 하나를 상기 컨텍스트 정보로 획득하는 전자 장치.
제8항에 있어서

GPS 센서;를 더 포함하고,

상기 프로세서는,

상기 사용자 음성이 입력된 시점에 상기 GPS 센서에 의해 센싱된 위치 정보를 상기 컨텍스트 정보로 획득하고,

상기 추출된 키워드, 상기 획득된 위치 정보 및 기저장된 일정 정보 중 적어도 하나를 바탕으로 상기 사용자 음성이 입력된 장소(place)와 관련된 객체를 획득하는 전자 장치.
제8항에 있어서,

통신 인터페이스;를 더 포함하고,

상기 프로세서는,

상기 통신 인터페이스를 통해 외부 서버로부터 상기 사용자 음성이 입력된 시점의 날씨 정보를 상기 컨텍스트 정보로 획득하고,

상기 추출된 키워드 및 상기 획득된 날씨 정보에 기초하여 상기 객체에 대한 사용자의 선호 정보를 상기 지식 정보로 획득하는 전자 장치.
전자 장치의 제어 방법에 있어서,

사용자 음성이 입력되면, 상기 입력된 사용자 음성으로부터 키워드를 추출하는 단계;

상기 사용자 음성이 입력된 시점의 컨텍스트 정보를 획득하는 단계;

상기 추출된 키워드 및 컨텍스트 정보에 기초하여 상기 사용자 음성과 관련된 객체(object) 및 상기 객체에 대한 지식 정보를 획득하는 단계; 및

상기 객체 및 상기 객체에 대한 지식 정보를 바탕으로 기저장된 지식 데이터베이스를 업데이트하는 단계;를 포함하는 전자 장치의 제어 방법.
제11항에 있어서,

상기 지식 데이터베이스는,

지식 정보들 사이의 관계를 온톨로지(ontology) 형태로 저장하는 전자 장치의 제어 방법.
제12항에 있어서,

상기 업데이트하는 단계는,

상기 지식 데이터베이스 내에 상기 획득된 객체와 관련된 엔티티가 존재하는지 여부를 판단하고, 상기 객체와 관련된 엔티티가 존재하는 경우, 상기 엔티티에 상기 객체에 대한 지식 정보를 추가하여 상기 지식 데이터베이스를 업데이트하는 전자 장치의 제어 방법.
제12항에 있어서,

상기 업데이트하는 단계는,

상기 객체와 관련된 엔티티가 존재하지 않는 경우, 상기 객체에 대응되는 새로운 엔티티를 생성하여 상기 지식 데이터베이스를 업데이트하는 전자 장치의 제어 방법.
제11항에 있어서,

상기 전자 장치에 입력된 사용자 인터렉션, 사용자의 검색 히스토리, 상기 전자 장치가 센싱한 센싱 정보, 외부 장치로부터 수신된 사용자 정보 중 적어도 하나를 바탕으로 기저장된 인공지능 모델을 학습하는 단계;를 더 포함하고,

상기 객체 및 상기 객체에 대한 지식 정보를 획득하는 단계는,

상기 추출된 키워드를 상기 인공지능 모델에 입력하여 상기 사용자 음성과 관련된 객체 및 상기 객체에 대한 지식 정보를 획득하는 전자 장치의 제어 방법.