WO2023058982A1

WO2023058982A1 - 전자 장치 및 이의 제어 방법

Info

Publication number: WO2023058982A1
Application number: PCT/KR2022/014458
Authority: WO
Inventors: 최형탁; 고현묵; 김문조; 류성한; 곽세진; 라부루로힛; 신익희; 양해훈
Original assignee: 삼성전자주식회사
Priority date: 2021-10-08
Filing date: 2022-09-27
Publication date: 2023-04-13
Also published as: US20230259545A1; CN117999557A; KR20230050807A; US11880654B2; EP4336401A1

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 디스플레이, 적어도 하나의 인스트럭션을 저장하는 메모리 및 프로세서를 포함하고, 프로세서는, 적어도 하나의 인스트럭션을 실행함으로써, 메시지 어플리케이션의 대화창에 디스플레이되는 복수의 텍스트를 추출하여 수집하고, 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 복수의 텍스트를 순서대로 정렬하고, 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하고, 식별 결과에 기초하여 복수의 텍스트로부터 이벤트 정보를 획득한다.

Description

전자 장치 및 이의 제어 방법

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 메시지 어플리케이션에 포함된 텍스트를 바탕으로 이벤트 정보를 추출하여 사용자에게 이벤트 정보에 대응되는 서비스를 제공하는 전자 장치 및 이의 제어 방법에 관한 것이다.

근래의 스마트 폰과 같은 전자 장치는 메시지 어플리케이션(혹은, 메신저 어플리케이션, 채팅 어플리케이션)을 통해 입력된 텍스트(이미지, 이모티콘 포함)로부터 이벤트 정보를 추출하여 추출된 이벤트 정보에 대응되는 서비스(예를 들어, 스케줄 관리 서비스, 예약 서비스, 쇼핑 서비스 등)를 제공하고 있다.

그러나, 써드 파티에서 제공하는 메시지 어플리케이션(예로, 카카오톡^TM, 라인^TM, Whats App^TM 등)의 경우, 플랫폼(예로, OS(Operating system)) 단에서는 어플리케이션에 저장된 정보를 접근할 수 없으므로, 메시지 어플리케이션의 대화창 화면 상에서 디스플레이되는 텍스트 정보를 추출하여 관리해야 한다.

이때, 사용자 인터렉션에 의해 대화창 화면이 이동하는 경우 혹은 새로운 대화창 화면으로 이동하는 경우, 플랙폼에서 추출되는 텍스트의 순서가 흐트러지는 문제점이 발생한다. 예를 들어, 도 1에 도시된 바와 같이, 디스플레이가 제1 화면(10)을 디스플레이하는 동안에는 제1 화면(10)에 포함된 순서대로 텍스트가 추출될 수 있다. 즉, 제1 화면(10)이 디스플레이되는 동안, 플랫폼은 도 1의 좌측 하단(20)에 도시된 바와 같이, 텍스트 1내지 텍스트 5 순으로 텍스트를 추출할 수 있다. 그러나, 사용자에 의해 아랫 방향으로 대화창 화면을 스크롤하는 인터렉션이 입력되면, 디스플레이는 제1 화면(10)에 디스플레이된 텍스트 1 내지 텍스트 5의 이전 텍스트인 텍스트 -2 내지 텍스트 0이 새롭게 포함된 제2 화면(11)을 디스플레이할 수 있다. 디스플레이가 제2 화면(11)을 디스플레이하는 동안 플랫폼은 텍스트 0 내지 텍스트 -2를 새롭게 추출할 수 있다. 즉, 제2 화면(11)이 디스플레이되는 동안 플랫폼은 도 1의 하단 중앙(21)에 도시된 바와 같이, 텍스트 4, 텍스트 5, 텍스트 0, 텍스트 -1, 텍스트 -2 순으로 텍스트를 추출할 수 있다. 또한, 사용자에 의해 위 방향으로 대화창 화면을 스크롤하는 인터렉션이 입력되면, 디스플레이는 제2 화면(11)에 디스플레이된 텍스트 -2 내지 텍스트 2의 이후 텍스트인 텍스트 3 및 텍스트 4가 새롭게 포함된 제3 화면(12)을 디스플레이할 수 있다. 디스플레이가 제3 화면(12)을 디스플레이하는 동안 플랫폼은 텍스트 3 및 텍스트 4를 새롭게 추출할 수 있다. 즉, 제3 화면(12)이 디스플레이되는 동안 플랫폼은 도 1의 우측 하단(22)에 도시된 바와 같이, 텍스트 0, 텍스트 -1, 텍스트 -2, 텍스트 3, 텍스트 4 순으로 텍스트를 추출할 수 있다. 도 1에 도시된 바와 같이, 사용자 인터렉션에 따라 추출되는 텍스트의 순서가 변경되는 경우, 유의미한 이벤트 정보를 추출할 수 없거나 잘못된 이벤트 정보를 추출하는 문제점이 발생할 수 있다.

뿐만 아니라, 플랫폼에 의해 추출된 현재 디스플레이되는 대화창 화면의 텍스트가 대화의 일부분인 경우, 유의미한 이벤트 정보를 추출하기 어려우므로, 원할한 서비스를 제공할 수 없는 한계가 존재한다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 메시지 어플리케이션의 대화창 화면으로부터 추출된 복수의 텍스트의 순서를 정렬하고, 정렬된 복수의 텍스트로부터 이벤트 정보를 생성하기 위한 추가 정보가 필요한지 여부를 식별하며, 식별 결과에 기초하여 이벤트 정보를 획득하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

본 개시의 일 실시예에 따른, 전자 장치는, 디스플레이; 적어도 하나의 인스트럭션을 저장하는 메모리; 및 프로세서;를 포함하고, 상기 프로세서는, 적어도 하나의 인스트럭션을 실행함으로써, 메시지 어플리케이션의 대화창에 디스플레이되는 복수의 텍스트를 추출하여 수집하고, 상기 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 상기 복수의 텍스트를 순서대로 정렬하고, 상기 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하고, 상기 식별 결과에 기초하여 상기 복수의 텍스트로부터 이벤트 정보를 획득한다.

그리고, 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요 없는 것으로 식별되면, 상기 획득된 복수의 텍스트만을 이용하여 상기 이벤트 정보를 획득할 수 있다.

또한, 상기 프로세서는, 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트를 학습된 제3 신경망 모델에 입력하여 상기 추가 정보를 획득하기 위한 복수의 후보 텍스트를 획득하고, 상기 복수의 후보 텍스트 중 적어도 하나의 선택하며, 상기 복수의 텍스트 및 상기 선택된 적어도 하나의 후보 텍스트를 이용하여 상기 이벤트 정보를 획득할 수 있다.

그리고, 상기 프로세서는, 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트의 이전 또는 이후 중 추가 정보가 존재하는 방향을 식별하고, 상기 식별된 방향으로 스크롤하기 위한 UI를 제공하도록 상기 디스플레이를 제어할 수 있다.

또한, 상기 프로세서는, 상기 UI에 기초한 스크롤 인터렉션이 감지되면, 상기 스크롤 인터렉션에 따라 대화창 화면을 스크롤하고, 상기 복수의 텍스트 및 상기 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 상기 이벤트 정보를 획득할 수 있다.

그리고, 상기 프로세서는 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 추가 정보를 획득하기 위한 질문 텍스트를 생성하고, 상기 질문 텍스트에 대한 응답 텍스트를 획득하고, 상기 복수의 텍스트 및 상기 응답 텍스트를 이용하여 상기 이벤트 정보를 획득할 수 있다.

또한, 상기 제1 신경망 모델은, 상기 복수의 텍스트 중 두 개의 텍스트를 입력하여 상기 두 개의 텍스트 사이의 선후 관계를 판단하는 문장 선후 예측 모델 및 상기 복수의 텍스트를 입력하여 상기 복수의 텍스트들 사이의 순서를 판단하는 문장 순서 예측 모델 중 적어도 하나를 포함할 수 있다.

그리고, 상기 프로세서는, 상기 메시지 어플리케이션의 대화창을 캡쳐하고, 상기 캡쳐된 대화창 이미지에 대해 OCR(Optical character recognition)을 수행하여 상기 대화창에 디스플레이되는 복수의 텍스트를 추출할 수 있다.

또한, 상기 프로세서는, 상기 복수의 텍스트로부터 상기 이벤트 정보에 대응되는 요약 문장을 획득하고, 상기 획득된 요약 문장을 포함하는 알림 메시지를 제공하도록 상기 디스플레이를 제어할 수 있다.

또한, 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법은, 메시지 어플리케이션의 대화창에 디스플레이되는 복수의 텍스트를 추출하여 수집하는 단계; 상기 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 상기 복수의 텍스트를 순서대로 정렬하는 단계; 상기 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하는 단계; 및 상기 식별 결과에 기초하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하는 단계;를 포함한다.

또한, 상기 획득하는 단계는, 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트를 학습된 제3 신경망 모델에 입력하여 상기 추가 정보를 획득하기 위한 복수의 후보 텍스트를 획득하는 단계; 상기 복수의 후보 텍스트 중 적어도 하나의 선택하는 단계; 및 상기 복수의 텍스트 및 상기 선택된 적어도 하나의 후보 텍스트를 이용하여 상기 이벤트 정보를 획득하는 단계;를 포함할 수 있다.

그리고, 상기 획득하는 단계는, 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트의 이전 또는 이후 중 추가 정보가 존재하는 방향을 식별하는 단계; 및 상기 식별된 방향으로 스크롤하기 위한 UI를 제공하는 단계;를 포함할 수 있다.

또한, 상기 획득하는 단계는, 상기 UI에 기초한 스크롤 인터렉션이 감지되면, 상기 스크롤 인터렉션에 따라 대화창 화면을 스크롤하는 단계; 및 상기 복수의 텍스트 및 상기 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 상기 이벤트 정보를 획득하는 단계;를 포함할 수 있다.

그리고, 상기 획득하는 단계는, 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 추가 정보를 획득하기 위한 질문 텍스트를 생성하는 단계; 상기 질문 텍스트에 대한 응답 텍스트를 획득하는 단계; 및 상기 복수의 텍스트 및 상기 응답 텍스트를 이용하여 상기 이벤트 정보를 획득하는 단계;를 포함할 수 있다.

그리고, 상기 수집하는 단계는, 상기 메시지 어플리케이션의 대화창을 캡쳐하는 단계; 및 상기 캡쳐된 대화창 이미지에 대해 OCR(Optical character recognition)을 수행하여 상기 대화창에 디스플레이되는 복수의 텍스트를 추출하는 단계;를 포함할 수 있다.

또한, 상기 복수의 텍스트로부터 상기 이벤트 정보에 대응되는 요약 문장을 획득하는 단계; 및 상기 획득된 요약 문장을 포함하는 알림 메시지를 제공하는 단계;를 포함할 수 있다.

상술한 바와 같은 본 개시의 일 실시예에 의해, 전자 장치는 메시지 어플리케이션의 대화창 화면 상에 포함된 복수의 텍스트를 이용하여 유의미한 이벤트 정보를 제공할 수 있게 된다.

도 1은 종래에 플랫폼이 텍스트를 추출하는 순서를 설명하기 위한 도면,

도 2은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 나타내는 블럭도,

도 3은 본 개시의 일 실시예에 따른, 메시지 어플리케이션 화면 상에 디스플레이되는 복수의 텍스트에 기초하여 이벤트 정보를 제공하는 구성을 나타내는 블럭도,

도 4a 및 도 4b는 본 개시의 일 실시예에 따른, 문장 선후 예측 모델을 설명하기 위한 도면,

도 5a 및 도 5b는 본 개시의 일 실시예에 따른, 문장 완결 예측 모델을 설명하기 위한 도면,

도 6은 본 개시의 일 실시예에 따른, 복수의 후보 텍스트에 기초하여 완결된 대화문을 획득하는 방법을 설명하기 위한 흐름도,

도 7a은 본 개시의 다른 실시예에 따른, 스크롤 UI를 이용하여 완결된 대화문을 획득하는 방법을 설명하기 위한 흐름도,

도 7b는 본 개시의 다른 실시예에 따른, 스크롤 UI를 설명하기 위한 도면,

도 8a은 본 개시의 또 다른 실시예에 따른, 질문 텍스트에 대한 응답 텍스트에 기초하여 완결된 대화문을 획득하는 방법을 설명하기 위한 흐름도,

도 8b는 본 개시의 다른 실시예에 따른, 질문 텍스트를 포함하는 UI를 설명하기 위한 도면,

도 9는 본 개시의 일 실시예에 따른, 이벤트 정보를 획득하는 구성을 나타내는 블럭도,

도 10은 본 개시의 일 실시예에 따른, 이벤트 정보를 포함하는 UI를 도시한 도면, 그리고,

도 11은 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.

덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.

본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 어떤 구성요소와 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다.

대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.

이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 도시한 블럭도이다. 도 2에 도시된 바와 같이, 전자 장치(100)는 디스플레이(110), 스피커(120), 통신 인터페이스(130), 메모리(140), 입력 인터페이스(150), 센서(160) 및 프로세서(170)를 포함할 수 있다. 이때, 전자 장치(100)는 스마트 폰으로 구현될 수 있다. 다만, 본 개시에 따른 전자 장치(100)가 특정 유형의 장치에 국한되는 것은 아니며, 태블릿 PC 및 디지털 카메라 등과 같이 다양한 종류의 전자 장치(100)로 구현될 수도 있다.

디스플레이(110)는 다양한 소스로부터 제공되는 영상을 디스플레이할 수 있다. 특히, 디스플레이(110)는 메시지 어플리케이션의 대화창 화면을 디스플레이할 수 있다. 또한, 디스플레이(110)는 대화창 화면 상에 스크롤을 안내하기 위한 UI, 이벤트 정보를 포함하는 UI 등을 디스플레이할 수 있다.

한편, 디스플레이(110)는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으며, 또한 디스플레이(110)는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다. 다만, 본 개시에 따른 디스플레이(110)가 특정한 종류에 한정되는 것은 아니다.

스피커(120)는 음성 메시지를 출력할 수 있다. 특히, 스피커(120)는 외부 단말로부터 메시지가 수신된 경우 메시지 수신을 안내하기 위하여, 음성 메시지 형태로 제공할 수 있다. 이때, 스피커(120)는 전자 장치(1000) 내부에 포함될 수 있으나, 이는 일 실시예에 불과할 뿐, 전자 장치(100)와 전기적으로 연결되어 외부에 위치할 수 있다.

통신 인터페이스(130)는 회로를 포함하며, 외부 장치와의 통신을 수행할 수 있다. 구체적으로, 프로세서(170)는 통신 인터페이스(130)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다.

통신 인터페이스(130)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다. 구체적으로, WiFi 모듈과 Bluetooth 모듈 각각은 WiFi 방식, Bluetooth 방식으로 통신을 수행할 수 있다. WiFi 모듈이나 Bluetooth 모듈을 이용하는 경우에는 SSID 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.

또한, 무선 통신 모듈은 IEEE, Zigbee, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), 5G(5th Generation) 등과 같은 다양한 통신 규격에 따라 통신을 수행할 수 있다. 그리고, NFC 모듈은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 통신을 수행할 수 있다.

특히, 본 개시에 따른 다양한 실시 예에 있어서, 통신 인터페이스(130)는 다양한 신경망 모델에 관련된 데이터 등과 같은 다양한 종류의 정보를 외부 장치로부터 수신할 수 있다. 또한, 통신 인터페이스(130)는 외부 장치로부터 메시지를 수신할 수 있으며, 외부 장치로 메시지를 전송할 수 있다.

메모리(140)는 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션을 저장할 수 있다. 특히, 메모리(140)는 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 모듈이 각종 동작을 수행하기 위해 필요한 데이터를 저장할 수 있다. 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 모듈은 데이터 수집 모듈(315), 대화 구성 모듈(325), 문장 선후 예측 모듈(330), 문장 순서 예측 모듈(340), 대화 완결 예측 모듈(350), 대화 완결 모듈(360), 이벤트 정보 획득 모듈(370), 정보 추출 모듈(910), 추천 판단 모듈(920) 등을 포함할 수 있다. 또한, 메모리(140)는 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 복수의 언어 모델인 신경망 모델을 저장할 수 있다.

한편, 메모리(140)는 전력 공급이 중단되더라도 저장된 정보를 유지할 수 있는 비휘발성 메모리 및 저장된 정보를 유지하기 위해서는 지속적인 전력 공급이 필요한 휘발성 메모리를 포함할 수 있다. 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 데이터는 비휘발성 메모리에 저장될 수 있다. 그리고, 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 복수의 신경망 모델 역시 비휘발성 메모리에 저장될 수 있다.

그 밖에, 메모리(140)는 데이터 수집 모듈(315)로부터 추출된 텍스트 정보를 저장하는 데이터 수집 DB(320) 및 대화 구성 모듈(325)로부터 획득된 완결된 대화문을 저장하는 대화 DB(365)를 포함할 수 있다.

입력 인터페이스(150)는 회로를 포함하며, 프로세서(160)는 입력 인터페이스(150)를 통해 전자 장치(100)의 동작을 제어하기 위한 사용자 명령을 입력 받을 수 있다. 구체적으로, 입력 인터페이스(150)는 터치 스크린으로서 디스플레이(110)에 포함된 형태로 구현될 수 있으나, 이는 일 실시예에 불과한 뿐, 버튼, 마이크 및 리모컨 신호 수신부(미도시) 등과 같은 구성으로 이루어 질 수 있다.

특히, 본 개시에 따른 다양한 실시 예에 있어서, 입력 인터페이스(150)는 대화창 화면에 메시지를 입력하기 위한 사용자 명령, 대화창 화면을 스크롤하기 위한 사용자 명령, 응답 텍스트를 입력하기 위한 사용자 명령 및 이벤트 정보를 등록하기 위한 사용자 명령 등과 같은 다양한 사용자 명령을 입력받을 수 있다.

센서(160)는 전자 장치(100)와 관련된 다양한 정보를 획득할 수 있다. 특히, 센서(160)는 전자 장치(100)의 위치 정보를 획득할 수 있는 GPS를 포함할 수 있으며, 전자 장치(100)를 사용하는 사용자의 생체 정보를 획득하기 위한 생체 센서(예로, 심박수 센서, PPG 센서 등), 전자 장치(100)의 움직임을 감지하기 위한 움직임 센서 등과 같은 다양한 센서를 포함할 수 있다. 또한, 센서(160)는 이미지를 획득하기 위한 이미지 센서, 적외선 센서 등을 포함할 수 있다.

프로세서(170)는 메모리(140)와 전기적으로 연결되어 전자 장치(100)의 전반적인 기능 및 동작을 제어할 수 있다.

프로세서(170)는 메시지 어플리케이션을 실행하기 위한 사용자 명령(또는 이벤트 정보를 획득하기 위한 사용자 명령 등)이 입력되면, 비휘발성 메모리에 저장되어 있는 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 모듈이 각종 동작을 수행하기 위한 데이터를 휘발성 메모리로 로딩(loading)할 수 있다. 그리고, 프로세서(170)는 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하기 위한 복수의 신경망 모델을 휘발성 메모리로 로딩할 수 있다. 프로세서(170)는 휘발성 메모리로 로딩된 데이터에 기초하여 각종 모듈 및 신경망 모델을 통해 각종 동작을 수행할 수 있다. 여기서, 로딩이란 프로세서(170)가 엑세스할 수 있도록 비휘발성 메모리에 저장된 데이터를 휘발성 메모리에 불러들여 저장하는 동작을 의미한다.

특히, 프로세서(170)는 메시지 어플리케이션의 대화창에 출력되는 복수의 텍스트를 추출하여 수집하고, 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 복수의 텍스트를 순서대로 정렬하고, 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하고, 식별 결과에 기초하여 복수의 텍스트로부터 이벤트 정보를 획득한다.

구체적으로, 프로세서(170)는 메시지 어플리케이션으로부터 대화창에 디스플레이되는 복수의 텍스트를 제공받거나 OCR 인식을 통해 메시지 어플리케이션의 대화창에 포함된 복수의 텍스트를 추출할 수 있다. 이때, 텍스트는 문장, 단어, 구, 음절 등을 포함할 수 있다.

프로세서(170)는 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 복수의 텍스트를 순서대로 정렬할 수 있다. 이때, 제1 신경망 모델은 복수의 텍스트 중 두 개의 텍스트를 입력하여 두 개의 텍스트 사이의 선후 관계를 판단하는 문장 선후 예측 모델 및 복수의 텍스트를 입력하여 복수의 텍스트들 사이의 순서를 판단하는 문장 순서 예측 모델 중 적어도 하나를 포함할 수 있다.

프로세서(170)는 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델예로, 대화 완결 예측 모델)에 입력하여 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별할 수 있다. 이때, 프로세서(170)는 제2 신경망 모델을 통해 복수의 텍스트 이전 또는 이후에 추가 정보가 필요한지 여부를 식별할 수 있다.

복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요 없는 것으로 식별되면, 프로세서(170)는 획득된 복수의 텍스트만을 이용하여 이벤트 정보를 획득할 수 있다. 이때, 이벤트 정보는 전자 장치(100) 내의 플랫폼, 어플리케이션 또는 써드 파트에서 제공하는 서비스를 수행하기 위한 정보로서, 스케줄 관리 서비스, 쇼핑 서비스, 예약 서비스 등과 관련된 정보일 수 있다.

복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 프로세서(170)는 대화문을 완성하여 이벤트 정보를 획득하기 위한 추가 정보를 획득할 수 있다.

일 실시예로, 프로세서(170)는 복수의 텍스트를 학습된 제3 신경망 모델(예로, 후보 텍스트 생성 모델)에 입력하여 추가 정보를 획득하기 위한 복수의 후보 텍스트를 획득할 수 있다. 그리고, 프로세서(170)는 복수의 후보 텍스트 중 적어도 하나의 선택할 수 있다. 이때, 프로세서(170)는 복수의 후보 텍스트 중 확률이 가장 후보 텍스트를 선택할 수 있으나, 이는 일 실시예에 불과할 뿐, 사용자 선택에 의해 복수의 후보 텍스트 중 하나의 후보 텍스트를 선택할 수 있다. 프로세서(170)는 복수의 텍스트 및 선택된 적어도 하나의 후보 텍스트를 이용하여 이벤트 정보를 획득할 수 있다.

다른 실시예로, 프로세서(170)는 대화 완결 예측 모델에 의해 출력된 정보를 바탕으로 복수의 텍스트의 이전 또는 이후 중 추가 정보가 존재하는 방향을 식별하고, 식별된 방향으로 스크롤하기 위한 UI를 제공하도록 디스플레이(110)를 제어할 수 있다. 그리고, UI에 기초한 스크롤 인터렉션이 감지되면, 프로세서(170)는 스크롤 인터렉션에 따라 대화창 화면을 스크롤하도록 디스플레이(110)를 제어하고, 복수의 텍스트 및 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 이벤트 정보를 획득할 수 있다.

또 다른 실시예로, 프로세서(170)는 복수의 텍스트를 제4 신경망 모델(예로 질문 텍스트 생성 모델)에 입력하여 추가 정보를 획득하기 위한 질문 텍스트를 생성하고, 질문 텍스트에 대한 응답 텍스트를 획득하며, 복수의 텍스트 및 응답 텍스트를 이용하여 이벤트 정보를 획득할 수 있다.

그리고, 프로세서(170)는 획득된 이벤트 정보를 바탕으로 다양한 서비스를 제공할 수 있다. 예를 들어, 프로세서(170)는 이벤트 정보에 기초하여 캘린더 어플리케이션에 스케줄을 등록할 수 있고, 쇼핑 어플리케이션에서 쇼핑을 수행할 수 있으며, 예약 어플리케이션에서 예약을 수행할 수 있다.

또한, 프로세서(170)는 복수의 텍스트로부터 상기 이벤트 정보에 대응되는 요약 문장을 획득하고, 획득된 요약 문장을 포함하는 알림 메시지를 제공하도록 디스플레이(110)를 제어할 수 있다.

이하에서는 도 3을 참조하여 프로세서(170)에 포함된 다양한 모듈을 이용하여 텍스트를 추출하고 추출된 텍스트의 순서를 정렬하고 정렬된 텍스트를 이용하여 이벤트 정보를 획득하는 방법에 대해 설명하기로 한다.

메시지 어플리케이션(305)은 외부 장치로부터 수신되거나 사용자에 의해 입력된 대화 관련 데이터를 저장할 수 있다. 이때, 메시지 어플리케이션(305)은 사용자 입력에 따라 디스플레이(110) 상에 표시될 대화 관련 데이터를 제공할 수 있다. 대화 관련 데이터에는 텍스트 뿐만 아니라 이모티콘, 이미지 등이 포함될 수 있다.

플랫폼(310)은 디스플레이(110) 상에 표시되는 메시지 어플리케이션(305)의 대화창 화면 내의 대화 관련 데이터를 추출할 수 있다. 일 실시예로, 플랫폼(310)은 대화 관련 데이터가 디스플레이(110) 상에 표시되는 동안 디스플레이(110) 상에 표시되는 대화 관련 데이터를 메시지 어플리케이션(305)을 통해 획득할 수 있다. 또 다른 실시예로, 플랫폼(310)은 대화 관련 데이터를 포함하는 메시지 어플리케이션의 대화창 화면을 캡쳐하고, 캡쳐된 대화창 화면에 대해 OCR(Optical character recognition)을 수행하여 대화창에 디스플레이되는 복수의 텍스트를 추출할 수 있다.

데이터 수집 모듈(315)은 플랫폼(310)으로부터 추출된 대화 관련 데이터를 획득할 수 있다. 이때, 데이터 수집 모듈(315)은 획득된 대화 관련 데이터 중 복수의 텍스트를 데이터 수집 DB(320)에 저장할 수 있다. 그리고, 데이터 수집 모듈(315)은 획득된 텍스트를 대화 구성 모듈(325)로 제공할 수 있다.

대화 구성 모듈(325)은 복수의 텍스트를 순서대로 정렬하고, 추가 정보가 필요한지 여부를 판단하기 위하여 대화문이 완결되었는지 여부를 판단하며, 완결된 대화문을 생성할 수 있다.

구체적으로, 대화 구성 모듈(325)은 문장 선후 예측 모듈(330) 및 문장 순서 예측 모듈(340)을 이용하여 복수의 텍스트를 순서대로 정렬할 수 있다.

대화 구성 모듈(325)은 문장 선후 예측 모델(330)로 두 개의 텍스트를 입력할 수 있다. 문장 선후 예측 모듈(330)은 두 개의 텍스트를 문장 선후 예측 모델(335)에 입력하여 두 개의 텍스트의 선후를 판단할 수 있다. 이때, 문장 선후 예측 모델(330)은 두 개의 텍스트의 순서를 변경하여 문장 선후 예측 모델(335)에 입력할 수 있다. 예를 들어, 문장 선후 예측 모듈(330)은 문장 구성 모듈(325)로부터 두 개의 텍스트("I completed high school", "Then, I joined undergrad")를 획득할 수 있다. 문장 선후 예측 모듈(330)은 도 4a에 도시된 바와 같이, "I completed high school", "Then, I joined undergrad" 순서대로 두개의 텍스트(410)를 문장 선후 예측 모델(335)에 입력하여 두 문장의 순서가 맞을 제1 확률(420)을 획득할 수 있다. 또한, 문장 선후 예측 모듈(330)은 도 4b에 도시된 바와 같이, 두 개의 텍스트의 순서를 변경하여 "Then, I joined undergrad", "I completed high school" 순서대로 두 개의 텍스트(430)를 문장 선후 예측 모델(335)에 입력하여 두 문장의 순서가 맞을 제2 확률(440)을 획득할 수 있다. 그리고, 문장 선후 예측 모듈(330)은 제1 확률(420) 및 제2 확률(440)을 비교하여 두 문장의 순서를 판단할 수 있다. 예를 들어, 제1 확률(420)이 제2 확률(440)보다 높다면, 문장 선후 예측 모듈(330)은 두 텍스트의 순서가 "I completed high school", "Then, I joined undergrad"임을 판단할 수 있다.

또한, 대화 구성 모듈(325)은 문장 순서 예측 모델(340)로 세 개 이상의 텍스트를 입력할 수 있다. 문장 순서 예측 모듈(340)은 세 개 이상의 텍스트를 문장 순서 예측 모델(345)에 입력하여 세 개 이상의 텍스트의 순서를 예측할 수 있다. 이때, 문장 순서 예측 모델(345)은 복수의 텍스트 사이의 관계를 예측하고 복수의 텍스트의 순서를 판단하여 정렬하도록 학습된 신경망 모델일 수 있다.

한편, 본 개시의 일 실시예는 텍스트의 순서를 판단하는 정확성을 높이기 위하여, 대화 구성 모듈(325)이 문장 선후 예측 모듈(330)과 문장 순서 예측 모듈(340)을 모두 이용하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 처리 속도를 향상시키기 위하여 문장 선후 예측 모듈(330)과 문장 순서 예측 모듈(340) 중 하나만을 이용할 수 있다. 문장 선후 예측 모듈(330)만을 이용할 경우, 대화 구성 모듈(325)은 복수의 텍스트들을 두 개씩 페어링하여 문장 선후 예측 모듈(330)에 입력하여 페어링된 두 개의 텍스트의 선후 순서를 판단하고, 복수의 페어링된 텍스트들의 선후에 기초하여 복수의 텍스트들을 순서대로 정렬할 수 있다.

대화 구성 모듈(325)은 대화 완결 예측 모듈(350)을 이용하여 순서대로 정렬된 복수의 텍스트이 완결된 대화문인지 여부를 판단할 수 있다. 이때, 완결된 대화문은 이벤트 정보를 획득할 수 있는 대화문으로서, 미완결된 대화문은 이벤트 정보를 획득하기 위한 추가 정보가 필요할 수 있다.

대화 구성 모듈(325)은 대화 완결 예측 모듈(350)에 정렬된 복수의 텍스트를 입력할 수 있다. 대화 완결 예측 모듈(350)은 대화 완결 예측 모델(355)을 이용하여 정렬된 복수의 텍스트의 이전 또는 이후에 추가 정보가 있는지 여부를 판단할 수 있다. 이때, 대화 완결 예측 모듈(350)은 복수의 텍스트와 가상의 이전 텍스트를 대화 완결 예측 모델(355)에 입력하여 복수의 텍스트 이전에 추가 정보가 존재하는지 여부를 판단할 수 있으며, 복수의 텍스트와 가상의 이후 텍스트를 대화 완결 예측 모델(355)에 입력하여 복수의 텍스트 이후에 추가 정보가 존재하는지 여부를 판단할 수 있다. 이때, 가상의 이전 텍스트 또는 가상의 이후 텍스트는 블랭크 문장(blank sentence)일 수 있다.

예를 들어, 도 5a에 도시된 바와 같이, 대화 완결 예측 모듈(350)은 복수의 텍스트와 가상의 이전 텍스트로 구성된 제1 대화문(510)을 대화 완결 예측 모델(355)에 입력하여 복수의 텍스트 이전에 추가 정보가 있을 제3 확률(520)을 획득할 수 있으며, 도 5b에 도시된 바와 같이, 대화 완결 예측 모듈(350)은 복수의 텍스트와 가상의 이후 텍스트로 구성된 제2 대화문(530)을 대화 완결 예측 모델(355)에 입력하여 복수의 텍스트 이후에 추가 정보가 있을 제4 확률(540)을 획득할 수 있다.

대화 완결 예측 모듈(350)은 제3 확률(520) 및 제4 확률(540)에 기초하여 대화문이 완결되었는지 여부(즉, 추가 정보가 필요한지 여부)에 대한 정보 및 추가 정보가 있는 위치에 대한 정보를 획득할 수 있다. 구체적으로, 대화 완결 예측 모듈(350)은 제3 확률(520) 및 제4 확률(540)이 임계값을 초과하는지 여부를 판단할 수 있다. 예를 들어, 제3 확률(520) 및 제4 확률(540)이 임계값 이하인 경우, 대화 완결 예측 모듈(350)은 복수의 텍스트를 완결된 대화문으로 판단할 수 있다. 그러나, 제3 확률(520) 및 제4 확률(540) 중 적어도 하나가 임계값 초과인 경우, 대화 완결 예측 모듈(350)은 복수의 텍스트가 미완결 대화문으로 판단할 수 있다. 이때, 제3 확률(520)이 임계값 초과인 경우, 대화 완결 예측 모듈(350)은 복수의 텍스트 이전에 추가 정보가 있다고 판단하며, 제4 확률(540)이 임계값 초과인 경우, 대화 완결 예측 모듈(350)은 복수의 텍스트 이후에 추가 정보가 있다고 판단할 수 있다. 특히, 도 5a 및 도 5b의 실시예의 경우, 제3 확률(520)이 임계값 이하이며 제4 확률(540)이 임계값 초과인 경우, 대화 완결 예측 모듈(350)은 복수의 텍스트 이후에 추가 정보가 있는 것으로 판단할 수 있다.

대화 완결 예측 모듈(350)에 의해 복수의 텍스트가 완결된 대화문이라고 판단되면, 이벤트 정보를 획득하기 위한 추가 정보가 필요없으므로, 대화 구성 모듈(325)은 완결된 대화문을 대화 DB(365) 및 이벤트 정보 획득 모듈(370)로 출력할 수 있다.

대화 완결 예측 모듈(350)에 의해 복수의 텍스트가 미완결된 대화문이라고 판단되면, 대화 구성 모듈(325)은 이벤트 정보를 획득하기 위한 추가 정보를 획득하기 위하여 대화 완결 모듈(360)에 정렬된 복수의 텍스트를 입력할 수 있다.

대화 완결 모듈(360)은 이벤트 정보를 획득하기 위한 추가 정보를 획득하여 완결된 대화문을 획득할 수 있다. 대화 완결 모듈(360)이 추가 정보를 획득하여 완결된 대화문을 획득하는 방법에 대해서는 도 6 내지 도 8b을 참조하여 설명하기로 한다.

도 6은 본 개시의 일 실시예에 따른, 복수의 후보 텍스트에 기초하여 완결된 대화문을 획득하는 방법을 설명하기 위한 흐름도이다.

대화 완결 모듈(360)은 대화 구성 모듈(325)로부터 복수의 텍스트를 획득하여 복수의 텍스트를 후보 텍스트 생성 모델에 입력할 수 있다(S610). 이때, 후보 텍스트 생성 모델은 복수의 텍스트의 이전 또는 이후 텍스트를 예측하여 복수의 후보 텍스트를 생성하도록 학습된 신경망 모델일 수 있다.

대화 완결 모듈(360)은 후보 텍스트 생성 모델을 통해 복수의 후보 텍스트를 생성할 수 있다(S620). 예를 들어, 대화 완결 모듈(360)은 도 5b에 도시된 같은 복수의 텍스트를 후보 텍스트 생성 모델에 입력하여 "How about meeting at Gangnam Station?", "I will go to your office", "anywhere" 등과 같은 후보 텍스트를 생성할 수 있다. 이때, 후보 텍스트 생성 모델은 사용자 히스토리 기반으로 후보 텍스트를 생성하도록 학습될 수 있다.

대화 완결 모듈(360)은 복수의 후보 텍스트 중 적어도 하나를 선택할 수 있다(S630). 일 실시예로, 대화 완결 모듈(360)은 복수의 후보 텍스트를 선택 모델에 입력하여 복수의 후보 텍스트 중 확률이 가장 높은 텍스트를 선택할 수 있다. 또 다른 실시예로, 대화 완결 모듈(360)은 복수의 후보 텍스트를 디스플레이(110) 상에 디스플레이하고, 복수의 후보 텍스트 중 사용자 입력에 따른 적어도 하나의 후보 텍스트를 선택할 수 있다. 예를 들어, 대화 완결 모듈은 확률이 가장 높거나 사용자에 의해 선택된 "How about meeting at Gangnam Station?"를 선택할 수 있다.

대화 완결 모듈(360)은 복수의 텍스트 및 선택된 적어도 하나의 후보 텍스트를 이용하여 완결된 대화문 획득할 수 있다(S640). 대화 완결 모듈(360)은 완결된 대화문을 대화 구성 모듈(325)로 출력할 수 있다.

도 7a은 본 개시의 다른 실시예에 따른, 스크롤 UI를 이용하여 완결된 대화문을 획득하는 방법을 설명하기 위한 흐름도이다.

대화 완결 모듈(360)은 대화 구성 모듈(325)로부터 복수의 텍스트를 획득할 수 있다(S710). 이때, 대화 완결 모듈(360)은 복수의 텍스트 뿐만 아니라 추가 정보가 복수의 텍스트 이전 또는 이후에 존재하는지 여부에 대한 정보를 획득할 수 있다.

대화 완결 모듈(360)은 추가 정보가 복수의 텍스트 이전 또는 이후에 존재하는지 여부에 대한 정보에 기초하여 추가 정보가 포함된 방향을 식별할 수 있다(S720).

대화 완결 모듈(360)은 식별된 방향으로 스크롤하기 위한 UI를 제공할 수 있다(S730). 구체적으로, 복수의 텍스트 이전 방향에 추가 정보가 포함된 것으로 식별되면, 대화 완결 모듈(360)은 대화창 화면 상에 윗 방향으로 스크롤하기 위한 UI를 제공할 수 있으며, 복수의 텍스트 이후 방향에 추가 정보가 포함된 것으로 식별되면, 대화 완결 모듈(360)은 대화창 화면 상에 아랫 방향으로 스크롤하기 위한 UI를 제공할 수 있다. 예를 들어, 복수의 텍스트 이후 방향에 추가 정보가 포함된 것으로 판단되면, 대화 완결 모듈(360)은 도 7b에 도시된 바와 같이, 대화창 화면 상에 아랫 방향의 스크롤을 나타내는 인디케이터와 안내 메시지를 포함하는 UI(760)를 제공하도록 디스플레이(110)를 제어할 수 있다.

프로세서(170)는 스크롤 인터렉션에 따라 대화창 화면을 스크롤할 수 있다(S740). 이때, 화면이 스크롤되면, 대화 구성 모듈(325)은 앞서 설명한 바와 같이, 스크롤된 대화창 화면 내에서 추가 텍스트를 추출하고, 문장 선후 예측 모듈(330) 및 문장 순서 예측 모듈(340)을 통해 복수의 텍스트 및 추가 텍스트를 순서대로 정렬하며, 문장 완결 예측 모듈(350)을 통해 복수의 텍스트 및 추가 텍스트가 완결된 대화문인지 여부를 판단할 수 있다.

대화 완결 모듈(360)은 복수의 텍스트 및 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 완결된 대화문 획득할 수 있다(S750). 이때, 대화 완결 모듈(360)은 완결된 대화문을 대화 구성 모듈(325)로 출력할 수 있다.

도 8a는 본 개시의 또 다른 실시예에 따른, 질문 텍스트에 대한 응답 텍스트에 기초하여 완결된 대화문을 획득하는 방법을 설명하기 위한 흐름도이다.

대화 완결 모듈(360)은 대화 구성 모듈(325)로부터 복수의 텍스트를 획득하여 복수의 텍스트를 질문 텍스트 생성 모델에 입력할 수 있다(S810). 이때, 질문 텍스트 생성 모델은 복수의 텍스트의 이전 또는 이후의 추가 정보를 획득하기 위한 질문을 생성하도록 학습된 신경망 모델일 수 있다.

대화 완결 모듈(360)은 질문 텍스트 생성 모델을 통해 질문 텍스트를 생성할 수 있다(S820). 예를 들어, 대화 완결 모듈(360)은 도 5b에 도시된 같은 복수의 텍스트를 질문 텍스트 생성 모델에 입력하여 "Where will I meet Jane at this Thursday?Where will I meet Jane at this Thursday" 등과 같은 질문 텍스트를 생성할 수 있다.

대화 완결 모듈(360)은 질문 텍스트에 대한 응답 텍스트를 획득할 수 있다(S830). 구체적으로, 대화 완결 모듈(360)은 도 8b에 도시된 바와 같은 질문 텍스트를 포함하는 UI(850)를 제공하도록 디스플레이(110)를 제어할 수 있으며, 질문 텍스트에 대한 응답 텍스트를 획득할 수 있다. 이때, 응답 텍스트는 사용자의 터치 입력에 의해 획득될 수 있으나, 이는 일 실시예에 불과할 뿐, 음성 입력에 의해 획득될 수 있다 또한, 질문 텍스트 역시 UI(850)가 아닌 음성 메시지 형태로 제공될 수 있다. 예를 들어, 대화 완결 모듈(360)은 터치 입력 또는 음성 입력을 통해 "Gangnam Station"이라는 응답 텍스트를 획득할 수 있다.

대화 완결 모듈(360)은 복수의 텍스트 및 응답 텍스트를 이용하여 완결된 대화문 획득할 수 있다(S840). 대화 완결 모듈(360)은 완결된 대화문을 대화 구성 모듈(325)로 출력할 수 있다.

대화 구성 모듈(360)은 도 6 내지 도 8b와 같은 방법을 이용하여 획득한 완결된 대화문을 대화 DB(365) 및 이벤트 정보 획득 모듈(370)로 출력할 수 있다.

대화 DB(365)에 저장된 완결된 대화문은 추후 다양한 신경망 모델의 학습에 이용되거나 사용자 히스토리 정보를 획득하는데 이용될 수 있다.

이벤트 정보 획득 모듈(370)은 대화 구성 모듈(325)로부터 완결된 대화문을 획득할 수 있다. 이때, 이벤트 정보 획득 모듈(370)은 완결된 대화문으로부터 각종 서비스를 제공하기 위한 이벤트 정보를 획득할 수 있다.

이벤트 정보 획득 모듈(370)이 이벤트 정보를 획득하고, 서비스를 제공하는 방법에 대해서는 도 9를 참조하여 설명하기로 한다. 우선, 이벤트 정보 획득 모듈(370)은 완결된 대화문을 정보 추출 모듈(910)로 출력할 수 있다. 정보 추출 모듈(910)은 정보 추출 모델(915)에 완결된 대화문을 입력하여 이벤트 정보를 추출할 수 있다. 예를 들어, 정보 추출 모듈(910)은 정보 추출 모델(915)에 완결된 대화문을 입력하여 시간 정보, 장소 정보, 스케줄 내용 정보 등을 포함하는 스케줄 관리 서비스를 수행하기 위한 이벤트 정보를 획득할 수 있다. 또한, 정보 추출 모듈(910)은 완결된 대화문을 정보 추출 모델(915)에 입력하여 완결된 대화문의 요약 문장을 획득할 수 있다. 이때, 획득된 요약 문장은 서비스를 수행하기 위한 알림 메시지에 포함되어 사용자에게 제공될 수 있다.

추천 판단 모듈(920)은 획득된 이벤트 정보에 대응되는 서비스를 사용자에게 추천할지 여부를 판단할 수 있다. 구체적으로, 추천 판단 모듈(920)은 획득된 이벤트 정보를 추천 모델(925)에 입력하여 이벤트 정보에 대응되는 서비스를 사용자에게 추천할지 여부에 대한 확률값을 획득할 수 있으며, 확률값이 임계값을 초과하였는지 여부에 따라 획득된 이벤트 정보에 대응되는 서비스를 사용자에게 추천할지 여부를 판단할 수 있다.

이벤트 정보 획득 모듈(370)은 추천 판단 모듈(920)의 판단 결과에 기초하여 이벤트 정보에 대응되는 서비스를 플랫폼(310)이나 다른 어플리케이션에 요청할 수 있다. 일 실시예로, 플랫폼(310)은 완결된 대화문으로부터 획득된 이벤트 정보에 대응되는 서비스를 수행할지 여부에 대해 사용자에게 문의하는 알람 메시지를 제공하도록 디스플레이(110)를 제어할 수 있다. 예를 들어, 플랫폼(310)은 도 10에 도시된 바와 같이, 이벤트 정보로부터 획득된 서비스인 스케줄 관리 서비스를 수행하기 위한 알람 메시지(1010)를 대화창 화면 상에 디스플레이하도록 디스플레이(110)를 제어할 수 있다. 다른 실시예로, 캘린더 어플리케이션은 이벤트 정보로부터 획득된 스케줄을 캘린더에 등록할 수 있다.

한편, 상술한 실시예에서는 알림 메시지(1010)를 대화창 화면 상에 디스플레이하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 다른 방법(예를 들어, 복수의 알림 메시지를 제공하는 알림 UI 화면, 화면 상단의 알림창 등)으로 사용자에게 제공될 수 있다.

그러나, 도 10에서 설명한 바와 같은 스케줄 관리 서비스는 일 실시예에 불과할 뿐, 이벤트 정보를 통해 쇼핑 서비스, 예약 서비스 등과 같은 다양한 서비스가 제공될 수 있다.

전자 장치(100)는 메시지 어플리케이션의 대화창에 디스플레이되는 복수의 텍스트를 추출하여 수집한다(S1110). 이때, 전자 장치(100)는 어플리케이션 단에서 복수의 텍스트를 추출할 수 있으나, 이는 일 실시예에 불과할 뿐, 대화창 화면을 캡쳐하고, 캡쳐된 이미지에 대해 OCR을 수행하여 복수의 텍스트를 추출할 수 있다.

전자 장치(100)는 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 복수의 텍스트를 순서대로 정렬한다(S1120). 이때, 제1 신경망 모델은 복수의 텍스트 중 두 개의 텍스트를 입력하여 두 개의 텍스트 사이의 선후 관계를 판단하는 문장 선후 예측 모델 및 복수의 텍스트를 입력하여 복수의 텍스트들 사이의 순서를 판단하는 문장 순서 예측 모델 중 적어도 하나를 포함할 수 있다.

전자 장치(100)는 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별한다(S1130).

전자 장치(100)는 식별 결과에 기초하여 복수의 텍스트로부터 이벤트 정보를 획득한다(S1140). 구체적으로, 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요 없는 것으로 식별되면, 전자 장치(100)는 획득된 복수의 텍스트를 완결된 대화문으로 판단하여 복수의 텍스트만을 이용하여 이벤트 정보를 획득할 수 있다. 그러나, 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 전자 장치(100)는 다양한 방법으로 추가 정보를 획득하여 완결된 대화문을 획득할 수 있다. 일 실시예로, 전자 장치(100)는 복수의 텍스트를 학습된 제3 신경망 모델에 입력하여 상기 추가 정보를 획득하기 위한 복수의 후보 텍스트를 획득하고, 복수의 후보 텍스트 중 적어도 하나의 선택하며, 복수의 텍스트 및 선택된 적어도 하나의 후보 텍스트를 이용하여 이벤트 정보를 획득할 수 있다. 다른 실시예로, 전자 장치(100)는 복수의 텍스트의 이전 또는 이후 중 추가 정보가 존재하는 방향을 식별하고, 식별된 방향으로 스크롤하기 위한 UI를 제공하며, UI에 기초한 스크롤 인터렉션에 따라 대화창 화면을 스크롤하고, 복수의 텍스트 및 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 이벤트 정보를 획득할 수 있다. 또 다른 실시예로, 전자 장치(100)는 추가 정보를 획득하기 위한 질문 텍스트를 생성하고, 질문 텍스트에 대한 응답 텍스트를 획득하며, 복수의 텍스트 및 응답 텍스트를 이용하여 이벤트 정보를 획득할 수 있다.

그리고, 전자 장치(100)는 이벤트 정보를 이용하여 다양한 서비스를 제공할 수 있다. 예를 들어, 전자 장치(100)는 이벤트 정보를 통해 스케줄 관리 서비스, 쇼핑 서비스, 예약 서비스 등을 제공할 수 있다. 또한, 전자 장치(100)는 복수의 텍스트로부터 이벤트 정보에 대응되는 요약 문장을 획득하고, 이벤트 정보에 대응되는 서비스를 수행하기 위한 알림 메시지를 제공할 수 있다. 이때, 알림 메시지는 요약 문장을 포함할 수 있다.

한편, 이상에서 상술한 바와 같은 신경망 모델에 관련된 기능은 메모리 및 프로세서를 통해 수행될 수 있다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP 등과 같은 범용 프로세서, GPU. VPU 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 비휘발성 메모리 및 휘발성 메모리에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기 정의된 동작 규칙 또는 인공 지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.

여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기 정의된 동작 규칙 또는 인공 지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공 지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.

인공 지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN(Generative Adversarial Networks) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시 예에 따르면, 본 개시에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상에서 상술한 바와 같은 본 개시의 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다.

다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다.

상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

Claims

전자 장치에 있어서,

디스플레이;

적어도 하나의 인스트럭션을 저장하는 메모리; 및

프로세서;를 포함하고,

상기 프로세서는, 적어도 하나의 인스트럭션을 실행함으로써,

메시지 어플리케이션의 대화창에 디스플레이되는 복수의 텍스트를 추출하여 수집하고,

상기 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 상기 복수의 텍스트를 순서대로 정렬하고,

상기 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하고,

상기 식별 결과에 기초하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하는 전자 장치.
제1항에 있어서,

상기 프로세서는

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요 없는 것으로 식별되면, 상기 획득된 복수의 텍스트만을 이용하여 상기 이벤트 정보를 획득하는 전자 장치.
제1항에 있어서,

상기 프로세서는

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트를 학습된 제3 신경망 모델에 입력하여 상기 추가 정보를 획득하기 위한 복수의 후보 텍스트를 획득하고,

상기 복수의 후보 텍스트 중 적어도 하나의 선택하며,

상기 복수의 텍스트 및 상기 선택된 적어도 하나의 후보 텍스트를 이용하여 상기 이벤트 정보를 획득하는 전자 장치.
제1항에 있어서,

상기 프로세서는

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트의 이전 또는 이후 중 추가 정보가 존재하는 방향을 식별하고,

상기 식별된 방향으로 스크롤하기 위한 UI를 제공하도록 상기 디스플레이를 제어하는 전자 장치.
제4항에 있어서,

상기 프로세서는,

상기 UI에 기초한 스크롤 인터렉션이 감지되면, 상기 스크롤 인터렉션에 따라 대화창 화면을 스크롤하고,

상기 복수의 텍스트 및 상기 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 상기 이벤트 정보를 획득하는 전자 장치.
제1항에 있어서,

상기 프로세서는

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 추가 정보를 획득하기 위한 질문 텍스트를 생성하고,

상기 질문 텍스트에 대한 응답 텍스트를 획득하고,

상기 복수의 텍스트 및 상기 응답 텍스트를 이용하여 상기 이벤트 정보를 획득하는 전자 장치.
제1항에 있어서,

상기 제1 신경망 모델은,

상기 복수의 텍스트 중 두 개의 텍스트를 입력하여 상기 두 개의 텍스트 사이의 선후 관계를 판단하는 문장 선후 예측 모델 및 상기 복수의 텍스트를 입력하여 상기 복수의 텍스트들 사이의 순서를 판단하는 문장 순서 예측 모델 중 적어도 하나를 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 메시지 어플리케이션의 대화창을 캡쳐하고,

상기 캡쳐된 대화창 이미지에 대해 OCR(Optical character recognition)을 수행하여 상기 대화창에 디스플레이되는 복수의 텍스트를 추출하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 복수의 텍스트로부터 상기 이벤트 정보에 대응되는 요약 문장을 획득하고,

상기 획득된 요약 문장을 포함하는 알림 메시지를 제공하도록 상기 디스플레이를 제어하는 전자 장치.
전자 장치의 제어 방법에 있어서,

메시지 어플리케이션의 대화창에 디스플레이되는 복수의 텍스트를 추출하여 수집하는 단계;

상기 수집된 복수의 텍스트를 학습된 제1 신경망 모델에 입력하여 상기 복수의 텍스트를 순서대로 정렬하는 단계;

상기 순서대로 정렬된 복수의 텍스트를 학습된 제2 신경망 모델에 입력하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한지 여부를 식별하는 단계; 및

상기 식별 결과에 기초하여 상기 복수의 텍스트로부터 이벤트 정보를 획득하는 단계;를 포함하는 제어 방법.
제10항에 있어서,

상기 획득하는 단계는,

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요 없는 것으로 식별되면, 상기 획득된 복수의 텍스트만을 이용하여 상기 이벤트 정보를 획득하는 제어 방법.
제10항에 있어서,

상기 획득하는 단계는,

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트를 학습된 제3 신경망 모델에 입력하여 상기 추가 정보를 획득하기 위한 복수의 후보 텍스트를 획득하는 단계;

상기 복수의 후보 텍스트 중 적어도 하나의 선택하는 단계; 및

상기 복수의 텍스트 및 상기 선택된 적어도 하나의 후보 텍스트를 이용하여 상기 이벤트 정보를 획득하는 단계;를 포함하는 제어 방법.
제10항에 있어서,

상기 획득하는 단계는,

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 복수의 텍스트의 이전 또는 이후 중 추가 정보가 존재하는 방향을 식별하는 단계; 및

상기 식별된 방향으로 스크롤하기 위한 UI를 제공하는 단계;를 포함하는 제어 방법.
제13항에 있어서,

상기 획득하는 단계는,

상기 UI에 기초한 스크롤 인터렉션이 감지되면, 상기 스크롤 인터렉션에 따라 대화창 화면을 스크롤하는 단계; 및

상기 복수의 텍스트 및 상기 스크롤된 화면 상에 디스플레이된 텍스트를 이용하여 상기 이벤트 정보를 획득하는 단계;를 포함하는 제어 방법.
제10항에 있어서,

상기 획득하는 단계는,

상기 복수의 텍스트로부터 이벤트 정보를 획득하기 위한 추가 정보가 필요한 것으로 식별되면, 상기 추가 정보를 획득하기 위한 질문 텍스트를 생성하는 단계;

상기 질문 텍스트에 대한 응답 텍스트를 획득하는 단계; 및

상기 복수의 텍스트 및 상기 응답 텍스트를 이용하여 상기 이벤트 정보를 획득하는 단계;를 포함하는 제어 방법.