KR20180097117A

KR20180097117A - 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체

Info

Publication number: KR20180097117A
Application number: KR1020170150794A
Authority: KR
Inventors: 이현우; 김지만; 박찬종; 양도준
Original assignee: 삼성전자주식회사
Priority date: 2017-02-22
Filing date: 2017-11-13
Publication date: 2018-08-30
Also published as: KR102484257B1; US20200004493A1; US11556302B2; US20200371741A1; US10768887B2

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 특히, 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체가 제공된다. 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(AI) 시스템 및 그 응용에 관한 것이다. 본 개시의 일 실시 예에 따른 전자 장치는, 문서를 표시하는 디스플레이부, 사용자의 음성을 입력받는 마이크 및 상기 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하고, 상기 인식된 음성 입력을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하며, 상기 매칭된 토픽을 포함하는 페이지를 표시하도록 상기 디스플레이부를 제어하는 프로세서를 포함할 수 있다.

Description

전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체{ELECTRONIC APPARATUS, DOCUMENT DISPLAYING METHOD OF THEREOF AND NON-TRANSITORY COMPUTER READABLE RECORDING MEDIUM}

본 개시는 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체에 관한 것으로, 더욱 구체적으로 사용자 음성으로부터 문맥을 파악하여 문서의 대응되는 부분을 표시할 수 있는 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체에 관한 것이다.

또한, 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존의 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자의 취향을 더욱 정확하게 이해할 수 있게 된다. 따라서, 기존의 규칙 기반 스마트 시스템은 점차 딥러닝 기반의 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(ex. 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계 학습은 입력 데이터들의 특징을 스스로 분류하여 학습하는 알고리즘 기술이다. 요소 기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성될 수 있다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론/예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험 정보를 지식 데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임 등을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

기존의 기계 학습 방법으로는 사용자 음성에 특정 단어가 포함되어 있지 않으면, 문서에서 사용자 음성과 대응되는 부분을 찾기 어려웠다. 기존의 기계 학습으로는 문맥이나 동영상의 내용을 인식하여 처리할 수 없었기 때문이다.

따라서, 발표자에게는 발표 자료를 넘기는 별도의 하드웨어나 보조자가 반드시 필요하였다. 또한, 발표를 듣는 사람은 설명을 놓치게 되면 발표자가 발표 자료의 어느 부분을 설명하는지 알기 어려운 문제가 발생하였다.

본 개시는 상술한 문제점을 해결하기 위한 것으로, 사용자 발화 내용을 파악하여 문서에서 발화 내용과 대응되는 부분을 표시해주는 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체를 제공함을 목적으로 한다.

상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 문서를 표시하는 디스플레이부, 사용자의 음성을 입력받는 마이크 및 상기 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하고, 상기 마이크를 통해 입력된 음성을 인식하며, 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하고, 상기 매칭된 토픽을 포함하는 페이지를 표시하도록 상기 디스플레이부를 제어하는 프로세서를 포함할 수 있다.

그리고 상기 프로세서는, 상기 복수의 페이지 사이의 거리 및 상기 획득된 적어도 하나의 토픽을 기초로, 상기 복수의 페이지 사이의 관계를 식별하고, 상기 매칭된 토픽을 포함하는 페이지가 복수 개 존재하면, 상기 식별된 페이지 사이의 관계를 기초로 표시될 페이지를 결정할 수 있다.

또한, 메모리를 더 포함하고, 상기 프로세서는, 상기 포함된 컨텐츠가 동영상이면 동영상을 구성하는 프레임 단위로 상기 컨텐츠를 분석하여 적어도 하나의 토픽을 획득하고, 상기 획득된 적어도 하나의 토픽 각각에 대한 내용이 재생 시작되는 프레임의 정보를 상기 메모리에 저장할 수 있다.

그리고 상기 프로세서는, 상기 메모리에 저장된 정보를 이용하여, 상기 매칭된 토픽에 대한 내용이 재생 시작되는 프레임부터 상기 동영상을 재생하도록 상기 디스플레이부를 제어할 수 있다.

또한, 상기 프로세서는, 상기 표시된 페이지에서 상기 매칭된 토픽에 대응되는 컨텐츠를 하이라이트 표시하도록 상기 디스플레이부를 제어할 수 있다.

그리고 사용자의 모션을 인식하는 모션 센서를 더 포함하고, 상기 프로세서는, 상기 인식된 모션이 가리키는 컨텐츠를 하이라이트 표시하도록 상기 디스플레이부를 제어할 수 있다.

또한, 사용자의 모션을 인식하는 모션 센서를 더 포함하고, 상기 프로세서는, 상기 음성에서 상기 사용자가 원하는 제어 동작을 판단하고, 상기 음성이 존재할 때의 사용자의 모션을 인식하도록 상기 모션 센서를 제어하며, 상기 인식된 사용자의 모션을 상기 판단된 제어 동작과 매칭하여 학습하고, 상기 학습된 사용자의 모션이 인식되면 상기 매칭된 제어 동작을 수행할 수 있다.

그리고 상기 프로세서는, 상기 인식된 음성에 페이지를 나타내는 단어가 포함되었는지 식별하고, 상기 단어가 포함된 것으로 식별되면 매칭 없이 상기 식별된 단어가 나타내는 페이지를 바로 표시하도록 상기 디스플레이부를 제어하며, 상기 단어가 포함되지 않은 것으로 식별되면 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치의 문서 표시 방법은, 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하는 단계, 사용자의 음성을 인식하는 단계, 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하는 단계 및 상기 매칭된 토픽을 포함하는 페이지를 표시하는 단계를 포함할 수 있다.

그리고 상기 복수의 페이지 사이의 거리 및 상기 획득된 적어도 하나의 토픽을 기초로, 상기 복수의 페이지 사이의 관계를 식별하는 단계를 더 포함하고, 상기 표시하는 단계는, 상기 매칭된 토픽을 포함하는 페이지가 복수 개 존재하면, 상기 식별된 페이지 사이의 관계를 기초로 표시될 페이지를 결정할 수 있다.

또한, 상기 획득하는 단계는, 상기 포함된 컨텐츠가 동영상이면 동영상을 구성하는 프레임 단위로 상기 컨텐츠를 분석하여 적어도 하나의 토픽을 획득하고, 상기 획득된 적어도 하나의 토픽 각각에 대한 내용이 재생 시작되는 프레임의 정보를 저장할 수 있다.

그리고 상기 표시하는 단계는, 상기 저장된 정보를 이용하여, 상기 매칭된 토픽에 대한 내용이 재생 시작되는 프레임부터 상기 동영상을 재생할 수 있다.

또한, 상기 표시된 페이지에서 상기 매칭된 토픽에 대응되는 컨텐츠를 하이라이트 표시하는 단계를 더 포함할 수 있다.

그리고 사용자의 모션을 인식하는 단계 및 상기 인식된 모션이 가리키는 컨텐츠를 하이라이트 표시하는 단계를 더 포함할 수 있다.

또한, 상기 음성에서 상기 사용자가 원하는 제어 동작을 판단하는 단계, 상기 음성이 존재할 때의 사용자의 모션을 인식하는 단계, 상기 인식된 사용자의 모션을 상기 판단된 제어 동작과 매칭하여 학습하는 단계 및 상기 학습된 사용자의 모션이 인식되면, 상기 매칭된 제어 동작을 수행하는 단계를 더 포함할 수 있다.

그리고 상기 인식된 음성에 페이지를 나타내는 단어가 포함되었는지 식별하는 단계를 더 포함하고, 상기 매칭하는 단계는, 상기 단어가 포함된 것으로 식별되면 매칭 없이 상기 식별된 단어가 나타내는 페이지를 바로 표시하고, 상기 단어가 포함되지 않은 것으로 식별되면 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치의 문서 표시 방법을 실행하기 위한 프로그램을 포함하는 비일시적 컴퓨터 판독가능 기록매체는, 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하는 단계, 사용자의 음성을 인식하는 단계, 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하는 단계 및 상기 매칭된 토픽을 포함하는 페이지를 표시하는 단계를 포함하는 문서 표시 방법을 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른, 인공지능 신경망(Neural Network) 모델을 이용한 지능형 비서 전자 장치는, 문서를 표시하는 디스플레이부; 마이크; 및 인공지능 신경망 모델을 이용하여 상기 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하고, 상기 마이크를 통해 입력된 음성을 인식하며, 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하고, 상기 매칭된 토픽을 포함하는 페이지를 표시하도록 상기 디스플레이부를 제어하는 프로세서;를 포함할 수 있다.

그리고, 상기 프로세서는, 인공지능 신경망을 이용하여 상기 사용자 음성에 대한 음성 인식을 수행할 수 있다.

또한, 사용자의 모션을 인식하는 모션 센서;를 더 포함하고, 상기 프로세서는, 상기 음성에서 상기 사용자가 원하는 제어 동작을 판단하고, 상기 음성이 존재할 때의 사용자의 모션을 인식하도록 상기 모션 센서를 제어하며, 상기 인식된 사용자의 모션을 상기 판단된 제어 동작과 매칭하여 학습하고, 상기 학습된 사용자의 모션이 인식되면 상기 매칭된 제어 동작을 수행할 수 있다.

이상과 같은 본 개시의 다양한 실시 예에 따르면, 다른 조작 없이도 사용자의 발화와 대응되는 내용이 기재된 페이지를 표시할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 개략적인 블록도,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 설명하기 위한 블록도,
도 3은 본 개시의 일부 실시 예에 따른 프로세서의 블록도,
도 4a는 본 개시의 일부 실시 예에 따른 데이터 학습부의 블록도,
도 4b는 본 개시의 일부 실시 예에 따른 데이터 인식부의 블록도,
도 5는 본 개시의 일 실시 예에 따른 문서에 포함된 토픽을 추출하는 모델을 도시한 도면,
도 6은 본 개시의 일 실시 예에 따른 사용자 음성에서 토픽을 추출하는 모델을 도시한 도면,
도 7은 복수의 페이지를 갖는 문서에서 토픽을 추출하는 예를 도시한 도면,
도 8은 본 개시의 일 실시 예에 따른 발표 자료를 설명하면 관련된 페이지를 자동으로 표시하는 방법 설명하기 위한 도면,
도 9는 문서에 동영상 컨텐츠가 포함된 경우에 토픽을 획득하는 방법을 설명하기 위한 도면,
도 10은 본 개시의 일 실시 예에 따른 페이지 사이의 관계를 이용하여 표시할 페이지를 결정하는 내용을 설명하기 위한 도면,
도 11은 본 개시의 일 실시 예에 따른 매칭된 토픽과 대응되는 컨텐츠를 하이라이트 표시하는 방법을 설명하기 위한 도면,
도 12a 및 도 12b는 본 개시의 일 실시 예에 따른 사용자 모션에 대응한 하이라이트 또는 포인터 표시를 도시한 도면,
도 13a 내지 도 13c는 본 개시의 일 실시 예에 따른 사용자 모션과 제어 동작을 매칭하여 학습하는 것을 설명하기 위한 도면, 그리고,
도 14 내지 도 16은 본 개시의 일 실시 예에 따른 전자 장치의 문서 표시 방법을 설명하기 위한 흐름도이다.

이하에서는 본 개시의 바람직한 실시 예가 첨부된 도면을 참조하여 상세히 설명한다. 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.

본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 숫자, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 또는 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

이하에서는 첨부된 도면을 이용하여 본 개시에 대하여 구체적으로 설명한다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치(100)의 구성을 설명하기 위한 개략적인 블록도이다. 전자 장치(100)는 PC, 스마트 TV, 스마트폰, 타블렛 PC, 전자 액자, 키오스크 등 다양한 장치로 구현될 수 있다. 도 1을 참조하면, 전자 장치(100)는 마이크(110), 디스플레이부(120) 및 프로세서(130)를 포함할 수 있다.

마이크(110)는 사용자가 발화한 음성을 수신할 수 있다. 예를 들어, 마이크는 전자 기기(100)에 내장되어 일체형을 이루거나, 분리된 형태로 구현될 수 있다.

디스플레이부(120)는 문서를 표시할 수 있다. 예를 들어, 문서는 발표 자료, e-book, 전자 문서(예를 들어, PDF 파일) 등을 포함할 수 있다. 문서는 복수의 페이지로 구성될 수 있으며, 각각의 페이지에는 텍스트뿐만 아니라 스틸 이미지, 동영상, URL 등이 포함될 수 있다.

프로세서(130)는 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득할 수 있다. 프로세서(130)는 문서에 포함된 각각의 컨텐츠에 대한 토픽을 획득할 수 있다. 컨텐츠에는 텍스트, 스틸 이미지, 동영상 등이 포함될 수 있다. 프로세서(130)는 텍스트 분석, 스틸 이미지 분석, 동영상을 구성하는 각 프레임 분석, 프레임들간의 관계 분석을 위한 기준을 학습하고, 학습된 기준을 바탕으로 각 컨텐츠의 토픽을 인식할 수 있다.

프로세서(130)는 마이크(110)를 통해 수신된 사용자의 음성을 인식할 수 있다. 그리고 프로세서(130)는 인식된 음성을 획득된 토픽과 매칭할 수 있다. 또한, 프로세서(130)는 매칭된 토픽을 포함하는 페이지를 표시하도록 디스플레이부(120)를 제어할 수 있다.

이와 같이 전자 장치(100)는 추가적인 조작 없이 사용자가 발화하는 내용과 대응되는 문서의 부분이 표시하여, 사용자 편의성을 향상시킬 수 있다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치(100)의 구성을 상세히 설명하기 위한 블록도이다. 도 2를 참조하면, 전자 장치(100)는 마이크(110), 디스플레이부(120), 프로세서(130), 메모리(140), 모션 센서(150) 및 통신부(160)를 포함할 수 있다. 도 2의 실시 예에 도시된 구성 요소 이외에도 전자 장치(100)는 영상 수신부(미도시), 영상 처리부(미도시), 전원부(미도시) 등 다양한 구성을 포함할 수 있다. 또한, 전자 장치(100)가 반드시 도 2에 도시된 구성을 모두 포함하여 구현되는 것으로 한정되지 않음은 물론이다.

마이크(110)는 사용자의 음성을 입력받을 수 있다. 또한, 마이크(110)는 수신된 사용자의 음성 신호를 처리할 수 있다. 예를 들어, 마이크(110)는 사용자의 음성에서 노이즈를 제거할 수 있다.

구체적으로, 마이크(110)는 아날로그 형태의 사용자 음성이 입력되면, 이를 샘플링하여 디지털 신호로 변환할 수 있다. 그리고, 마이크(110)는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단할 수 있다. 디지털 신호의 에너지가 기설정된 값 이상인 경우, 마이크(110)는 디지털 신호에서 노이즈 성분을 제거하여 프로세서(130)로 전달할 수 있다. 예를 들어, 노이즈 성분은 주변 환경에서 발생할 수 있는 돌발성 잡음일 수 있다.

디스플레이부(120) 문서를 표시할 수 있다. 디스플레이부(120)는 텍스트와 스틸 이미지로 구성된 일반적인 문서뿐 아니라, 동영상, URL, UI 등이 포함된 문서를 표시할 수 있다.

디스플레이(120)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 전자 장치(100)를 통해 제공 가능한 다양한 화면을 표시할 수 있다.

메모리(140)는 전자 장치(100)를 구동하기 위한 다양한 모듈, 소프트웨어, 데이터를 저장할 수 있다. 예를 들어, 메모리(140)에는 인식된 음성 정보, 획득된 토픽 정보, 토픽과 토픽 사이의 관계 정보, 문서를 구성하는 복수의 페이지 간의 관계 정보, 동영상 컨텐츠의 프레임 정보 등을 저장할 수 있다.

다른 예로, 메모리(140)에는 사용자의 음성을 인식하는데 이용될 수 있는 음향 모델(Acoustic Model, AM) 및 언어 모델(Language Model, LM)이 저장될 수 있다. 또한, 메모리(160)에는 영상 분석을 위한 학습 모델이 저장될 수 있다.

메모리(140)는 전자 장치(100)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로서, 플래쉬 메모리, HDD(Hard Disk Drive), SSD (Solid State Drive) 등의 형태로 구현 가능하다. 예를 들어, 메모리(140)는 전자 장치(100)의 동작 수행을 위한 프로그램을 저장하기 위한 ROM, 전자 장치(100)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM을 구비할 수 있다.

메모리(140)에는 디스플레이(120)에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터가 저장될 수 있다. 또한, 메모리(140)에는 특정 서비스를 수행하기 위한 프로그램, 어플리케이션 및 데이터가 저장될 수 있다.

모션 센서(150)는 사용자의 모션을 인식할 수 있다. 예를 들어, 모션 센서(150)는 사용자를 촬영하거나 반사광을 수신하는 방식으로 3차원 움직임을 인식할 수 있다.

통신부(160) 외부 장치와 통신을 수행한다. 예를 들어, 외부 장치는 서버, 클라우드 저장소, 네트워크 등으로 구현될 수 있다. 전자 장치(100)는 음성 인식, 영상 분석 등을 직접 수행할 수도 있고, 외부 장치에 데이터를 전송하여 음성 인식, 영상 분석 등의 수행을 요청할 수도 있다. 예를 들어, 통신부(160)는 외부 장치에 입력된 음성 데이터를 송신하고, 음성 인식 결과를 외부 장치로부터 수신할 수 있다.

이를 위해, 통신부(160)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스(Bluetooth), 지그비(Zigbee) 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, WiFi direct, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution), LTE-A(LTE Advanced) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

프로세서(130)는 전자 장치(100)의 상술한 구성들을 제어할 수 있다. 예를 들어, 프로세서(130)는 인식된 사용자의 음성과 대응되는 내용을 갖는 페이지를 표시하도록 디스플레이부(120)를 제어할 수 있다.

프로세서(130)는 단일 CPU로 구현되어 음성 인식 동작, 언어 이해 동작, 스틸 이미지 분석 동작, 동영상 분석 동작 등을 수행할 수도 있고, 복수의 프로세서 및 특정 기능을 수행하는 IP로 구현될 수도 있다. 예를 들어, 프로세서(130)는 전통적인 은닉 마코프 모델(Hidden Markov Model, HMM) 기반의 음성 인식을 수행할 수도 있고, 딥 신경망(Deep Neural Network, DNN)과 같은 딥러닝 기반의 음성 인식을 수행할 수도 있다.

프로세서(130)는 문서에 포함된 컨텐츠를 분석하고, 각각의 컨텐츠에 대한 토픽을 획득할 수 있다. 또한, 프로세서(130)는 토픽 간의 관계를 인식할 수 있다. 인식된 관계를 기초로, 프로세서(130)는 문서의 각 페이지들 사이의 연관관계를 학습할 수 있다. 이를 통해, 프로세서(130)는 문서의 내용을 미리 인식할 수 있다.

프로세서(130)는 사용자가 발화한 음성을 인식할 수 있다. 그리고 프로세서(130)는 인식된 사용자 음성의 내용과 대응되는 문서의 페이지를 결정할 수 있다. 특히 사용자가 페이지와 관련된 단어를 발화하지 않더라도, 프로세서(130)는 발화 내용을 인식하고 획득된 문서의 토픽과 매칭하여 표시되어야 할 페이지를 결정할 수 있다.

프로세서(130)는 결정된 페이지를 표시하도록 디스플레이부(120)를 제어할 수 있다. 즉, 프로세서(130)는 사용자가 발화한 음성의 내용과 대응되는 토픽을 갖는 문서의 페이지를 표시할 수 있다. 나아가 프로세서(130)는 대응되는 문서의 페이지에 포함된 컨텐츠들 중 토픽과 대응되는 컨텐츠를 하이라이트 표시하도록 디스플레이부(120)를 제어할 수 있다.

더욱 구체적인 프로세서(130)의 동작에 대해서는 이하에서 예시 도면과 함께 다시 설명하기로 한다.

도 3은 본 개시의 일부 실시 예에 따른 프로세서(130)의 블록도이다. 도 3을 참조하면, 일부 실시 예에 따른 프로세서(130)는 데이터 학습부(131) 및 데이터 인식부(132)를 포함할 수 있다.

데이터 학습부(131)는 음성 인식, 언어 이해, 텍스트 인식, 이미지 인식, 동영상 내용 인식을 위한 기준을 학습할 수 있다. 프로세서(130)는 학습된 기준에 따라 문서에 포함된 텍스트, 이미지, 동영상과 같은 컨텐츠의 내용을 인식할 수 있다. 그리고 프로세서(130)는 인식된 내용을 바탕으로 각 컨텐츠의 토픽을 획득할 수 있다. 또한, 프로세서(130)는 입력된 사용자 음성을 분석하여 토픽을 획득할 수 있다. 프로세서(130)는 입력된 사용자 음성 자체를 분석할 수도 있고, 사용자 음성을 텍스트로 변환하여 텍스트를 분석할 수도 있다. 데이터 학습부(131)는 컨텐츠를 인식하기 위하여 어떠한 데이터를 이용할 것인지 결정할 수 있다. 데이터 학습부(131)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써 음성 인식, 언어 이해, 컨텐츠 인식을 위한 기준을 학습할 수 있다.

데이터 인식부(132)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식부(132)는 학습에 의한 기설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용할 수 있다. 예를 들어, 학습된 음향 모델 및 언어 모델을 이용하여, 데이터 인식부(132)는 입력된 사용자 음성을 인식할 수 있다. 또한, 데이터 인식부(132)는 학습된 이미지 인식 모델을 이용하여 문서에 포함된 이미지 및 동영상의 내용을 인식할 수 있다. 이미지 분석, 동영상 분석, 텍스트 분석 및 음성 인식 결과로 획득된 데이터를 재차 입력 값으로 이용하여, 데이터 인식부(132)는 데이터 인식 모델을 갱신할 수 있다. 이와 같이, 데이터 인식부(132)는 컨텐츠 인식 및 토픽 추출 등에 빅데이터 및 사용자 입력 데이터를 이용할 수 있다.

데이터 학습부(131) 및 데이터 인식부(132) 중 적어도 하나는, 하나 또는 복수의 하드웨어 칩 형태로 제작되어 전자 장치(100)에 탑재될 수 있다. 예를 들어, 데이터 학습부(131) 및 데이터 인식부(132) 중 적어도 하나는 인공 지능(Artifical Intelligence, AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 기존의 범용 프로세서(예를 들어, CPU 또는 application processor) 또는 특정 기능을 위한 IP의 일부로 제작되어 전술한 각종 전자 장치(100)에 탑재될 수도 있다.

도 3의 실시 예에서는 데이터 학습부(131) 및 데이터 인식부(132)가 모두 전자 장치(100)에 탑재된 경우를 도시하였으나, 이들은 각각 별개의 장치에 탑재될 수도 있다. 예를 들어, 데이터 학습부(131) 및 데이터 인식부(132) 중 하나는 전자 장치(100)에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한 데이터 학습부(131) 및 데이터 인식부(132)는 서로 유선 또는 무선으로 연결되어, 데이터 학습부(131)가 구축한 모델 정보가 데이터 인식부(132)로 제공될 수 있고, 데이터 인식부(132)로 입력된 데이터가 추가 학습 데이터로 데이터 학습부(131)로 제공될 수도 있다.

한편, 데이터 학습부(131) 및 데이터 인식부(132) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(131) 및 데이터 인식부(132) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 비일시적 컴퓨터 판독가능 기록매체에 저장될 수 있다. 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는 적어도 하나의 소프트웨어 모듈 중 일부는 OS에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수도 있다.

도 4a는 본 개시의 일부 실시 예에 따른 데이터 학습부(131)의 블록도이다. 도 4a를 참조하면, 일부 실시 예에 따른 데이터 학습부(131)는 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5)를 포함할 수 있다.

데이터 획득부(131-1)는 상황 판단에 필요한 데이터를 획득할 수 있다. 데이터 획득부(131-1)는 문서에 포함된 컨텐츠(예를 들어, 텍스트, 이미지, 동영상)를 획득할 수 있다. 그리고, 데이터 획득부(131-1)는 마이크(110)를 통해 입력된 사용자 음성 신호를 디지털 신호로 변환하여 음성 데이터를 획득할 수 있다. 데이터 획득부(131-1)는 서버 또는 인터넷과 같은 네트워크에서 학습용 데이터를 수신할 수도 있다. 예를 들어, 데이터 획득부(131-1)는 카테고리별로 구분된 빅데이터 이미지를 학습용 데이터로서 수신할 수 있다.

전처리부(131-2)는 상황 판단을 위한 학습에 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(131-2)는 후술할 모델 학습부(131-4)가 상황 판단을 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기설정된 포맷으로 가공할 수 있다. 예를 들어, 전처리부(131-2)는 문서에 포함된 이미지에 대한 블러 제거, 배경 구분 등을 수행할 수 있다.

학습 데이터 선택부(131-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(131-4)에 제공될 수 있다. 학습 데이터 선택부(131-3)는 상황 판단을 위한 기설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(131-3)는 후술할 모델 학습부(131-4)에 의한 학습에 의해 기설정된 기준에 따라 데이터를 선택할 수도 있다.

예를 들어, 학습 초기에는 학습 데이터 선택부(131-3)가 이미지 데이터들 중 유사도가 높은 카테고리들의 이미지 데이터를 제거할 수 있다. 즉, 초기 학습을 위하여 학습 데이터 선택부(131-3)는 구분하기 쉬운 기준을 학습하도록 유사도가 낮은 카테고리들에 포함된 이미지 데이터를 선택할 수 있다.

그리고, 학습 데이터 선택부(131-3)는 학습에 의해 기설정된 기준 중 하나를 공통으로 만족하는 카테고리의 이미지 데이터를 선택할 수 있다. 이를 통해, 모델 학습부(131-4)는 이미 학습된 기준과는 상이한 다른 기준을 학습할 수 있다.

모델 학습부(131-4)는 학습 데이터에 기초하여 무슨 토픽에 대한 컨텐츠인지를 구분할 수 있는 기준을 학습할 수 있다. 또한, 모델 학습부(131-4)는 토픽 추출을 위하여 어떤 학습 데이터를 이용해야 하는지에 대한 기준을 학습할 수도 있다.

모델 학습부(131-4)는 상황 판단에 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 문서에 포함된 이미지 데이터 등)을 입력 받아 미리 구축된 모델일 수 있다. 다른 예로, 데이터 인식 모델은 빅데이터를 이용하여 미리 구축된 이미지 분석 모델, 텍스트 분석 모델일 수 있다. 다른 예로, 데이터 인식 모델은 음성 인식 모델일 수 있다.

데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 인공지능 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

다양한 실시 예에 따르면, 모델 학습부(131-4)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입별로 기분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기분류되어 있을 수 있다.

또한, 모델 학습부(131-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.

예를 들어, 모델 학습부(131-4)는 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여 데이터 인식 모델을 학습시킬 수 있다. 다른 예로, 모델 학습부(131-4)는 별도의 지도 없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또 다른 예로, 모델 학습부(131-4)는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.

또한, 데이터 인식 모델이 학습되면, 모델 학습부(131-4)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(131-4)는 학습된 데이터 인식 모델을 전자 장치(100)의 메모리(140)에 저장할 수 있다. 또는, 모델 학습부(131-4)는 학습된 데이터 인식 모델을 전자 장치(100)와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리(140)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리(160)는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 예를 들어, 프로그램은 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

모델 평가부(131-5)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(131-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기설정된 데이터일 수 있다.

초기 인식 모델 구성 단계에서, 평가 데이터는 물리적 특징이 상이한 이미지 데이터일 수 있다. 이후에 평가 데이터는 유사도가 점점 일치하는 이미지 데이터 세트로 대체될 수 있다. 이를 통해 모델 평가부(131-5)는 데이터 인식 모델의 성능을 점차적으로 검증할 수 있다.

예를 들어, 모델 평가부(131-5)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(131-5)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(131-5)는 각각의 학습된 동영상 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(131-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.

한편, 데이터 학습부(131) 내의 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 application processor) 또는 특정 기능을 위한 IP의 일부로 제작되어 전술한 각종 전자 장치(100)에 탑재될 수도 있다.

또한, 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5) 중 일부는 전자 장치(100)에 포함되고, 나머지 일부는 서버(200)에 포함될 수 있다.

한편, 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(131-1), 전처리부(131-2), 학습 데이터 선택부(131-3), 모델 학습부(131-4) 및 모델 평가부(131-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 비일시적 컴퓨터 판독가능 기록매체에 저장될 수 있다. 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는 적어도 하나의 소프트웨어 모듈 중 일부는 OS에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수도 있다.

도 4b는 본 개시의 일부 실시 예에 따른 데이터 인식부(132)의 블록도이다. 도 4b를 참조하면, 일부 실시 예에 따른 데이터 인식부(132)는 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5)를 포함할 수 있다

데이터 획득부(132-1)는 상황 판단에 필요한 데이터를 획득할 수 있으며, 전처리부(132-2)는 상황 판단을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(132-2)는 후술할 인식 결과 제공부(132-4)가 상황 판단을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기설정된 포맷으로 가공할 수 있다.

인식 데이터 선택부(132-3)는 전처리된 데이터 중에서 상황 판단에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(132-4)에게 제공될 수 있다. 인식 데이터 선택부(132-3)는 상황 판단을 위한 기설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(132-3)는 후술할 모델 학습부(142-4)에 의한 학습에 의해 기설정된 기준에 따라 데이터를 선택할 수도 있다.

인식 결과 제공부(132-4)는 선택된 데이터를 데이터 인식 모델에 적용하여 상황을 판단할 수 있다. 인식 결과 제공부(132-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(132-4)는 인식 데이터 선택부(132-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.

예를 들어, 인식 결과 제공부(132-4)는 입력된 사용자 발화를 데이터 인식 모델에서 결정된 구분 기준에 따라 인식할 수 있다. 또한, 데이터 인식 모델을 이용하여, 인식 결과 제공부(132-4)는 문서에 포함된 컨텐츠를 인식하고, 토픽을 추출할 수 있다. 인식된 사용자 음성 및 추출된 토픽을 이용하여, 프로세서(130)는 사용자 음성과 대응되는 내용을 갖는 토픽을 결정할 수 있다.

모델 갱신부(132-5)는 인식 결과 제공부(132-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부(132-5)는 인식 결과 제공부(132-4)에 의해 제공되는 인식 결과를 모델 학습부(131-4)에게 제공함으로써, 모델 학습부(131-4)가 데이터 인식 모델을 갱신하도록 할 수 있다.

한편, 데이터 인식부(132) 내의 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 application processor) 또는 특정 기능을 위한 IP의 일부로 제작되어 전술한 각종 전자 장치(100)에 탑재될 수도 있다.

또한, 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5) 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5) 중 일부는 전자 장치(100)에 포함되고, 나머지 일부는 서버(200)에 포함될 수 있다.

한편, 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(132-1), 전처리부(132-2), 인식 데이터 선택부(132-3), 인식 결과 제공부(132-4) 및 모델 갱신부(132-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 비일시적 컴퓨터 판독가능 기록매체에 저장될 수 있다. 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는 적어도 하나의 소프트웨어 모듈 중 일부는 OS에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수도 있다.

본 개시의 일 실시 예에 따른 전자 장치(100)는 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득할 수 있다. 도 5에 도시된 바와 같이, 문서(510)는 이미지(511), 동영상(513) 및 텍스트(515)의 형태를 갖는 컨텐츠를 포함할 수 있다. 프로세서(130)는 이미지(511), 동영상(513) 및 텍스트(515)로부터 각각 토픽(521, 523, 525)을 추출할 수 있다.

프로세서(130)는 딥러닝과 같은 학습 기법을 이용하여 컨텐츠의 토픽을 획득할 수 있다. 프로세서(130)는 이미지 그룹을 특정 토픽으로 분류하여 학습시키는 방식으로 이미지 분석 모델을 구축할 수 있다. 프로세서(130)는 단순히 특징 매칭을 통한 이미지의 동일 여부를 판단하는 것이 아니며, 구축된 이미지 분석 모델을 이용하여 이미지에 포함된 내용, 문맥을 이해할 수 있다.

프로세서(130)는 이미지 분석의 연장선상에서 동영상 분석 모델을 구축할 수 있다. 프로세서(130)는 동영상의 특정 구간에 대한 이미지 프레임들을 종합하여 동영상의 내용을 이해할 수 있다. 예를 들어, 선수가 다이빙을 하여 공을 잡은 후 2루로 송구하는 동영상을 분석하여, 프로세서(130)는 해당 동영상이 외야수의 수비에 관한 내용을 포함하고 있음을 판단할 수 있다.

프로세서(130)는 텍스트 요약 분석에 있어서도 딥러닝과 같은 학습 기법을 이용할 수 있다. 기존의 텍스트 요약 분석의 경우에는 특정 단어가 등장하지 않을 경우 문맥을 파악하여 토픽을 도출하기 어려웠다. 하지만, 프로세서(130)는 텍스트 요약 분석 모델을 구축하여 특정 단어가 등장하지 않는 경우에도 토픽을 추출할 수 있다. 예를 들어, 페이지를 나타내는 단어가 등장하지 않더라도, 프로세서(130)는 어느 페이지에 대한 설명을 하고 있는 텍스트인지 판단할 수 있다.

이러한 방식을 통하여 프로세서(130)는 문서(510)에 포함된 이미지(511), 동영상(513) 및 텍스트(515)에서 각각의 토픽(521, 523, 525)을 추출할 수 있다. 그리고 프로세서(130)는 추출된 토픽(521, 523, 525)을 다시 하나의 토픽으로 통합할 수도 있다.

본 개시의 일 실시 예에 따르면, 프로세서(130)는 사용자의 음성을 인식할 수 있다. 도 6에 도시된 바와 같이, 프로세서(130)는 수신된 사용자 음성(610)을 텍스트(620)로 전환할 수 있다. 그리고 프로세서(130)는 텍스트 요약 분석 모델을 이용하여 전환된 텍스트(620)에서 토픽(630)을 추출할 수 있다.

다른 예로, 프로세서(130)는 텍스트(620)로의 전환 없이 바로 수신된 사용자 음성(610)을 음성 인식 모델을 이용하여 인식할 수 있다. 그리고 프로세서(130)는 인식된 사용자 음성(610)에서 토픽(630)을 추출할 수 있다. 음성 인식 모델은 사용자 음성의 내용을 인식함에 더하여, 텍스트로 표현되지 않는 음성의 억양, 떨림 등에서 사용자의 감정 상태를 인식할 수 있다. 인식된 사용자의 감정 상태는 사용자 음성의 문맥을 파악하는데 이용될 수 있다.

프로세서(130)는 사용자의 음성에서 추출된 토픽(630)을 문서(510)에서 획득된 토픽(521, 523, 525) 중 하나와 매치할 수 있다. 그리고 프로세서(130)는 매칭된 토픽이 포함된 문서의 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다.

도 7은 본 개시의 일 실시 예에 따른 전자 장치(100)가 문서에서 토픽을 추출하는 것을 예시한 도면이다. 도 7의 왼쪽에는 5페이지로 구성된 문서가 도시되어 있다. 그리고 도 7의 오른쪽에는 각각의 페이지에서 획득한 토픽이 도시되어 있다.

문서의 제1 페이지(710)는 자율 주행 차량 이미지 및 자율 주행 차량의 정의에 대한 텍스트를 포함한다. 프로세서(130)는 제1 페이지(710)에 포함된 컨텐츠(이미지 및 텍스트)에서 토픽(715)을 추출할 수 있다. 예를 들어, 딥러닝 방식으로 학습된 이미지 분석 모델을 이용하여, 프로세서(130)는 제1 페이지(710)에 포함된 이미지가 자율 주행 차량에 대한 이미지임을 인식할 수 있다. 그리고 딥러닝 방식으로 학습된 텍스트 요약 분석 모델을 통해, 프로세서(130)는 제1 페이지(710)에 포함된 텍스트가 자율 주행 차량의 정의에 대한 텍스트임을 인식할 수 있다. 프로세서(130)는 이미지 및 텍스트에서 추출된 토픽들을 종합하여 하나의 토픽으로 정리할 수 있다. 프로세서(130)는 제1 페이지(710)에 포함된 컨텐츠들을 분석하여 'What is Self-Driving Car?'라는 토픽(715)을 추출할 수 있다.

문서의 제2 페이지(720)는 'Company A'에서 생산한 자율 주행 차량의 이미지와 Company A의 역사에 관한 텍스트를 포함한다. 프로세서(130)는 제2 페이지(720)에 포함된 컨텐츠(이미지 및 텍스트)에서 토픽(725)을 추출할 수 있다. 예를 들어, 딥러닝 방식으로 학습된 이미지 분석 모델을 이용하여, 프로세서(130)는 제2 페이지(720)에 포함된 이미지가 자율 주행 차량에 대한 이미지이며, Compnay A의 제품에 대한 이미지임을 인식할 수 있다. 그리고 딥러닝 방식으로 학습된 텍스트 요약 분석 모델을 통해, 프로세서(130)는 제2 페이지(720)에 포함된 텍스트가 Company A와 관련된 내용을 갖는 텍스트임을 인식할 수 있다. 이미지 및 텍스트에서 추출된 토픽들을 종합하여, 프로세서(130)는 제2 페이지(720)에서 'Famous Self-Driving Car Company A'라는 토픽(725)을 추출할 수 있다.

문서의 제3 페이지(730)은 핵심 기술과 생산 프로세스에 대한 텍스트를 포함한다. 프로세서(130)는 제3 페이지(730)에 포함된 컨텐츠(텍스트)에서 토픽(735)을 추출할 수 있다. 예를 들어, 딥러닝 방식으로 학습된 텍스트 요약 분석 모델을 통해, 프로세서(130)는 제3 페이지(730)에 포함된 텍스트가 주요 기술 및 자율 주행 차량을 생산하는 과정과 관련된 내용을 갖는 텍스트임을 인식할 수 있다. 텍스트에서 추출된 복수의 토픽을 종합하여, 프로세서(130)는 제3 페이지(730)에서 'Process of making Self-Driving Car'라는 토픽(735)을 추출할 수 있다.

문서의 제4 페이지(740)는 자율 주행 차량에 대한 연구원의 인터뷰 동영상을 포함한다. 프로세서(130)는 제4 페이지(740)에 포함된 컨텐츠(동영상)에서 토픽(745)을 추출할 수 있다. 예를 들어, 딥러닝 방식으로 학습된 동영상 분석 모델을 이용하여, 프로세서(130)는 제4 페이지(740)에 포함된 동영상의 각 프레임을 분석할 수 있다. 그리고 동영상의 각 프레임의 내용 및 시간 순서를 고려하여, 프로세서(130)는 동영상이 자율 주행 기술을 연구하는 연구원의 인터뷰 동영상임을 인식할 수 있다. 이를 통해, 프로세서(130)는 제4 페이지(740)에 포함된 동영상으로부터 'Researcher's Interview Video'라는 토픽(745)을 추출할 수 있다.

문서의 제5 페이지(750)는 자율 주행 차량의 주행 동영상을 포함한다. 프로세서(130)는 제5 페이지(750)에 포함된 컨텐츠(동영상)에서 토픽(755)을 추출할 수 있다. 예를 들어, 딥러닝 방식으로 학습된 동영상 분석 모델을 이용하여, 프로세서(130)는 제5 페이지(750)에 포함된 동영상의 각 프레임을 분석할 수 있다. 이를 통해, 프로세서(130)는 주행 동영상에 나타난 차량이 'A'사에서 제작한 자율 주행 차량임을 인식할 수 있다. 그리고 프로세서(130)는 제5 페이지(750)에 포함된 동영상으로부터 'Video of Self-Driving Car which is made by company A'라는 토픽(755)을 추출할 수 있다.

본 개시의 일 실시 예에 따른 프로세서(130)는 사용자 음성을 인식하여 문서의 각 페이지에서 획득된 토픽과 매칭할 수 있다. 그리고 프로세서(130)는 매칭된 토픽을 포함하는 페이지를 표시하도록 디스플레이부(120)를 제어할 수 있다. 이하에서는 도 7을 참조하여 매칭 동작을 설명하기로 한다.

예를 들어, 사용자로부터 "자율 주행 자동차의 예시로는 A사의 차량이 있습니다."라는 음성이 입력되면, 프로세서(130)는 사용자의 음성을 분석하여 문서에서 추출된 토픽들과 비교할 수 있다. 음성을 분석한 내용을 기초로, 프로세서(130)는 입력된 음성의 내용과 제2 페이지(720)의 'Famous Self-Driving Car Company A'라는 토픽(725)이 매칭됨을 확인할 수 있다. 매칭 결과에 대응하여 프로세서(130)는 제2 페이지(720)를 표시하도록 디스플레이부(120)를 제어할 수 있다.

이어서, 사용자로부터 "A사의 자율 주행 차량의 퍼포먼스는 어떨까요"라는 음성이 입력되면, 프로세서(130)는 사용자의 음성을 분석하여 문서에서 추출된 토픽들과 비교할 수 있다. 음성을 분석한 내용을 기초로, 프로세서(130)는 입력된 음성의 내용과 제5 페이지(750)의 'Video of Self-Driving Car which is made by company A'라는 토픽(755)이 매칭됨을 확인할 수 있다. 매칭 결과에 대응하여 프로세서(130)는 현재 표시된 제2 페이지(720)에서 제5 페이지(750)로 표시 화면이 전환되도록 디스플레이부(120)를 제어할 수 있다.

그리고 사용자로부터 "자율 주행 차량 기술에 대한 동영상을 살펴보도록 합시다."라는 음성이 입력되면, 프로세서(130)는 사용자의 음성을 분석하여 문서에서 추출된 토픽들과 비교할 수 있다. 프로세서(130)는 입력된 음성의 내용이 제4 페이지(740)의 동영상 내용과 매칭됨을 확인할 수 있다. 매칭 결과에 대응하여 프로세서(130)는 현재 표시된 제5 페이지(750)에서 제4 페이지(740)로 표시 화면이 전환되도록 디스플레이부(120)를 제어할 수 있다.

도 8은 본 개시의 일 실시 예에 따른 발표 자료를 설명하면 관련된 페이지를 자동으로 표시하는 전자 장치(100)를 설명하기 위한 도면이다.

프로세서(130)는 문서의 각 페이지에 포함된 컨텐츠로부터 토픽을 추출할 수 있다. 이를 통해 프로세서(130)는 문서의 페이지와 토픽(또는 컨텐츠)을 짝지은 정보를 생성할 수 있다. 프로세서(130)는 딥러닝과 같은 방법을 이용하여 학습된 음성 모델을 이용하여 사용자 음성을 인식할 수 있다. 사용자 음성의 문맥을 파악할 수 있기 때문에, 프로세서(130)는 페이지나 토픽에 해당하는 단어가 포함되어 있지 않아도 문서에서 추출된 토픽 중 하나와 인식된 음성을 매칭할 수 있다. 매칭 결과를 이용하여 프로세서(130)는 사용자가 발표 자료를 설명하면 설명 내용과 관련된 페이지를 표시하도록 디스플레이부(120)를 제어할 수 있다.

도 8을 예로 들면, 문서(810)는 이미지, 동영상, 텍스트 등의 컨텐츠를 포함하는 복수의 페이지로 구성될 수 있다. 문서(810)의 각 페이지는 각각 다른 컨텐츠를 포함하는 것으로 가정하였다. 딥러닝 방식으로 문서(810)를 분석하여, 프로세서(130)는 문서(810)의 다섯 페이지로부터 각기 다른 5개의 토픽을 추출할 수 있다. 그리고 프로세서(130)는 추출된 토픽과 대응되는 페이지 정보를 저장할 수 있다.

마이크(110)를 통해 사용자가 문서(810)의 내용을 설명하는 사용자 음성(820)이 입력될 수 있다. 프로세서(130)는 사용자 음성을 인식하여 추출된 적어도 하나의 토픽과의 매칭 여부를 판단할 수 있다. 또한 프로세서(130)는 토픽과 매칭되지 않더라도 페이지 정보를 알 수 있는 사용자 음성으로부터 표시할 페이지를 결정할 수 있다.

"시작하겠습니다."라는 사용자 음성이 입력되면, 프로세서(130)는 입력된 사용자 음성을 인식하여 제1 페이지가 표시되어야 함을 알 수 있다. 프로세서(130)는 문서(810)의 제1 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다.

이어서 프로세서(130)는 입력된 사용자 음성을 인식하여 추출된 토픽과 매칭할 수 있다. 예를 들어, 프로세서(130)는 입력된 사용자 음성을 분석하여 토픽 3에 대한 내용임을 인식할 수 있다. 인식 결과를 기초로 프로세서(130)는 사용자 음성과 토픽 3을 매칭할 수 있다. 그리고 프로세서(130)는 토픽 3이 포함된 제3 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다. 이어서 토픽 5에 대한 내용을 설명하는 사용자 음성이 입력되면, 프로세서(130)는 토픽 5가 포함된 제5 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다.

페이지를 명시적으로 나타내는 단어가 사용자 음성에 포함되어 있지 않더라도, 전자 장치(100)는 사용자로부터 순차적으로 입력된 음성을 분석하여 대응되는 내용을 포함하는 페이지가 표시되도록 할 수 있다. 따라서, 사용자는 추가적인 하드웨어 조작이나 보조자 없이도 설명중인 내용과 관련된 발표 자료가 표시되도록 할 수 있다.

도 9는 문서에 동영상 컨텐츠가 포함된 경우에 토픽을 획득하는 방법을 설명하기 위한 도면이다. 프로세서(130)는 문서에 포함된 컨텐츠가 동영상이면 동영상을 구성하는 프레임 단위로 컨텐츠를 분석할 수 있다. 그리고, 프로세서(130)는 동영상에서 적어도 하나의 토픽을 획득할 수 있다. 프로세서(130)는 획득된 적어도 하나의 토픽에 대한 내용이 재생되는 프레임의 정보를 저장할 수 있다. 예를 들어, 프로세서(130)는 복수의 토픽에 대한 내용이 재생되기 시작하는 프레임의 정보를 저장할 수 있다. 저장된 프레임 정보를 이용하여, 프로세서(130)는 매칭된 토픽에 대한 내용이 재생되기 시작하는 프레임으로부터 동영상을 재생하도록 디스플레이부(120)를 제어할 수 있다.

도 9를 예로 들면, 프로세서(130)는 동영상 컨텐츠를 구성하는 프레임들을 분석하여 4개의 토픽을 획득할 수 있다. 도 9에서의 동영상 컨텐츠는 150개의 프레임으로 구성된 것으로 가정한다. 프로세서(130)는 딥러닝 방식으로 학습된 기준에 따라 각각의 프레임들을 분석하여 토픽 단위로 프레임들을 구분할 수 있다.

예를 들어, 프로세서(130)는 하나의 동영상 컨텐츠를 축구 선수들의 트레이닝 장면을 포함하는 프레임 그룹 1(910, 프레임 1~30), A 선수의 인터뷰 장면을 포함하는 프레임 그룹 2(920, 프레임 31-90), A 선수의 골 장면을 포함하는 프레임 그룹 3(930, 프레임 91-120) 및 A 선수가 넘어지는 장면을 포함하는 프레임 그룹 4(940, 프레임 121-150)로 구분할 수 있다.

프로세서(130)는 각각의 토픽에 대한 내용이 시작되는 프레임인 프레임 1, 31, 91, 121의 정보를 토픽과 짝지어 저장할 수 있다. 또한, 프로세서(130)는 각각의 토픽에 대한 내용이 끝나는 프레임인 프레임 30, 90, 120, 150)의 정보를 토픽과 짝지어 저장할 수도 있다. 예를 들어, 프레임의 정보는 전체 동영상 컨텐츠에서의 시간적 위치일 수 있다.

프로세서(130)는 입력된 사용자 음성과 매칭되는 토픽에 대한 내용이 시작되는 프레임부터 동영상이 재생되도록 디스플레이부(120)를 제어할 수 있다. 예를 들어, "골 장면을 다시 한번 살펴보겠습니다."라는 사용자 음성이 입력되면, 프로세서(130)는 입력된 사용자 음성과 프레임 그룹 3의 토픽이 매칭됨을 판단할 수 있다. 프로세서(130)는 문서의 복수의 페이지 중 동영상 컨텐츠가 포함된 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다. 그리고 프로세서(130)는 동영상 컨텐츠가 처음부터 재생되는 것이 아닌 매칭된 토픽과 대응되는 내용이 시작되는 프레임인 프레임 91부터 재생되도록 디스플레이부(120)를 제어할 수 있다. 한편, 프로세서(130)는 매칭된 토픽에 대한 내용이 끝나는 프레임 120까지만 동영상 컨텐츠를 재생하도록 디스플레이부(120)를 제어할 수도 있다.

다른 예로, "오늘의 승리는 선수들의 피나는 연습이 있었기 때문입니다."라는 사용자 음성이 입력되면, 프로세서(130)는 입력된 사용자 음성과 프레임 그룹 1의 토픽이 매칭됨을 판단할 수 있다. 프로세서(130)는 동영상 컨텐츠가 매칭된 토픽과 대응되는 내용이 시작되는 프레임인 프레임 1부터 재생되도록 디스플레이부(120)를 제어할 수 있다. 한편, 프로세서(130)는 매칭된 토픽에 대한 내용이 끝나는 프레임 30까지만 동영상 컨텐츠를 재생하도록 디스플레이부(120)를 제어할 수도 있다.

도 10은 본 개시의 일 실시 예에 따른 페이지 사이의 관계를 이용하여 표시할 페이지를 결정하는 내용을 설명하기 위한 도면이다. 동영상 컨텐츠만이 존재하는 페이지의 경우, 프로세서(130)는 동영상 분석을 통해 토픽을 추출할 수 있다. 하지만, 프로세서(130)는 동영상 분석 없이도 인접한 페이지와의 관계를 고려하여 동영상의 내용을 유추할 수 있다. 또한, 프로세서(130)는 인접한 페이지에서 추출한 토픽을 동영상 컨텐츠의 토픽을 추출하는데 이용할 수도 있다.

도 10을 예에서 문서의 제3 페이지(1010)는 1953년의 역사에 대한 텍스트를 포함할 수 있다. 문서의 제5 페이지(1030)는 2030년의 미래를 예측한 것에 대한 텍스트를 포함할 수 있다. 그리고 문서의 제4 페이지(1020) 및 제6 페이지(1040)에는 각각 동영상 컨텐츠가 포함될 수 있다. 제4 페이지(1020)에는 1953년의 시대상을 촬영한 동영상이 포함될 수 있고, 제6 페이지(1040)에는 2030년의 시대상을 예측한 동영상이 포함될 수 있다.

예를 들어, 프로세서(130)는 문서의 제4 페이지(1020)에 포함된 동영상 컨텐츠를 독립적으로 분석하여 토픽을 추출할 수 있다.

다른 예로, 프로세서(130)는 문서의 제4 페이지(1020)에 인접한 제3 페이지(1010) 및 제5 페이지(1030)의 텍스트를 먼저 분석할 수 있다. 그리고 프로세서(130)는 제3 페이지(1010) 및 제5 페이지(1030)에서 추출된 토픽에 가중치를 주어 제 4 페이지(1020)에 포함된 동영상 컨텐츠를 분석할 수 있다.

또 다른 예로, 문서의 구성이 텍스트-동영상-텍스트-동영상 순서인 것으로부터, 프로세서(130)는 텍스트 및 동영상의 순서로 동일한 토픽을 갖는 컨텐츠가 배치된 것으로 판단할 수 있다. 텍스트 분석이 동영상 분석보다 적은 자원으로 수행 가능한바, 프로세서(130)는 텍스트 분석을 우선 수행하여 동영상의 내용을 유추할 수 있다.

도 11은 본 개시의 일 실시 예에 따른 발표 자료를 설명하면 관련된 페이지를 자동으로 표시하고, 매칭된 토픽과 대응되는 컨텐츠를 하이라이트 표시하는 전자 장치(100)를 설명하기 위한 도면이다.

프로세서(130)는 문서의 각 페이지에 포함된 컨텐츠로부터 토픽을 추출할 수 있다. 프로세서(130)는 문서의 페이지와 토픽을 짝지은 정보뿐 아니라, 각 페이지의 컨텐츠와 토픽을 짝지은 정보를 생성할 수 있다.

프로세서(130)는 딥러닝 방식을 이용하여 학습된 음성 모델을 이용하여 사용자 음성을 인식할 수 있다. 사용자 음성을 실시간으로 인식할 수 있기 때문에, 프로세서(130)는 토픽에 대응되는 페이지를 판단할 수 있다. 또한, 프로세서(130)는 페이지에 포함된 복수의 컨텐츠 중 하나와 인식된 사용자 음성을 매칭할 수 있다. 매칭 결과를 이용하여 프로세서(130)는 사용자가 발표 자료를 설명하면 설명 내용과 관련된 페이지를 표시하고, 페이지에 포함된 복수의 컨텐츠 중 사용자 음성과 매칭된 컨텐츠를 하이라이트 표시할 수 있다. 이를 통해 발표자의 추가 조작 없이도, 발표를 듣는 청중은 현재 발표자가 설명하는 부분이 어느 부분인지 명확히 알 수 있다.

도 11을 예로 들면, 문서(1110)는 이미지, 동영상, 텍스트 등의 컨텐츠를 포함하는 복수의 페이지로 구성될 수 있다. 또한, 문서(1110)의 일부 페이지에는 복수의 컨텐츠가 포함될 수 있다. 딥러닝 방식을 이용하여 컨텐츠를 분석함으로써, 프로세서(130)는 문서(1110)의 다섯 페이지로부터 각각 토픽을 추출할 수 있다. 그리고 프로세서(130)는 추출된 토픽과 대응되는 페이지 정보 및 컨텐츠 정보를 저장할 수 있다.

마이크(110)를 통해 사용자가 문서(1110)의 내용을 설명하는 사용자 음성(1120)이 입력될 수 있다. 프로세서(130)는 사용자 음성을 인식하여 추출된 적어도 하나의 토픽과의 매칭 여부를 판단할 수 있다. 또한, 프로세서(130)는 매칭된 토픽과 대응되는 페이지에 포함된 복수의 컨텐츠 중 어느 컨텐츠에 대해 설명하는 사용자 음성이 입력된 것인지 판단할 수 있다.

"시작하겠습니다."라는 사용자 음성이 입력되면, 프로세서(130)는 입력된 사용자 음성을 인식하여 제1 페이지가 표시되어야 함을 알 수 있다. 프로세서(130)는 문서(1110)의 제1 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다.

이어서 프로세서(130)는 입력된 사용자 음성을 인식하여 추출된 토픽과 매칭할 수 있다. 예를 들어, 토픽 3에 대한 내용을 설명하는 사용자 음성이 입력되면, 프로세서(130)는 사용자 음성과 토픽 3을 매칭하고, 토픽 3이 포함된 제3 페이지가 표시되도록 디스플레이부(120)를 제어할 수 있다.

또한, 프로세서(130)는 사용자 음성을 실시간으로 인식하여 제3 페이지에 포함된 컨텐츠 중 어느 것을 설명하고 있는지를 결정할 수 있다. 예를 들어, 제3 페이지의 이미지 컨텐츠에 대한 내용을 설명하는 사용자 음성이 입력되면, 프로세서(130)는 이미지 컨텐츠(1130)를 하이라이트 표시할 수 있다. 이어서, 제3 페이지의 텍스트 컨텐츠에 대한 내용을 설명하는 사용자 음성이 입력되면, 프로세서(130)는 텍스트 컨텐츠(1140)를 하이라이트 표시할 수 있다.

본 개시의 일 실시 예에 따르면, 프로세서(130)는 모션 센서(150)에서 인식된 사용자 모션이 가리키는 컨텐츠를 하이라이트 표시하거나 포인터를 표시할 수 있다. 도 12a를 참조하면, 사용자는 문서에 포함된 복수의 컨텐츠 중 하나를 손바닥으로 받치는 모션을 취할 수 있다. 모션 센서(150)에 의해 인식된 사용자 모션을 기초로, 프로세서(130)는 사용자가 강조하고자 하는 컨텐츠가 무엇인지 판단할 수 있다. 프로세서(130)는 손의 방향, 위치, 각도, 형태 등을 통해 문서의 어느 지점을 사용자가 가리키고 있는지 판단할 수 있다. 프로세서(130)는 판단된 컨텐츠를 하이라이트 표시하도록 디스플레이부(120)를 제어할 수 있다.

도 12b를 참조하면, 사용자는 문서에 포함된 복수의 컨텐츠 중 하나를 손가락으로 가리키는 모션을 취할 수 있다. 모션 센서(150)에 의해 인식된 사용자 모션을 기초로, 프로세서(130)는 사용자가 가리키는 컨텐츠가 무엇인지 판단할 수 있다 그리고 프로세서(130)는 판단된 컨텐츠에 포인터를 표시하도록 디스플레이부(120)를 제어할 수 있다.

도 12a 및 도 12b의 실시 예에서, 특정 모션이 하이라이트 표시나 포인터 표시와 대응되는 것으로 설명하였으나, 이는 예시에 불과할 뿐 반드시 상술한 모션과 동작이 대응되는 것으로 한정되지 않는다. 즉, 손가락으로 가리키는 모션에 대응하여 프로세서(130)가 컨텐츠에 포인터를 표시하도록 디스플레이부(120)를 제어하는 것 역시 가능하다.

본 개시의 일 실시 예에 따르면 프로세서(130)는 입력된 음성을 기초로 사용자가 원하는 제어 동작을 판단할 수 있다. 그리고 프로세서(130)는 해당 음성이 입력될 때의 사용자 모션과 판단된 제어 동작을 매칭하여 학습할 수 있다. 이를 통해 프로세서(130)는 개인화된 모션 제어 모델을 구축할 수 있다. 학습된 사용자 모션이 인식되면, 프로세서(130)는 모션 제어 모델을 이용하여 매칭된 제어 동작을 수행할 수 있다. 도 13a 내지 도 13c는 사용자 모션과 제어 동작의 매칭을 예시한 도면이다.

초기에 사용자는 "볼륨을 조정하겠습니다.", "잘 들리지 않나요?", "너무 소리가 크네요."와 같은 음성을 발화하며, 도 13a에 도시된 것과 같은 사용자 모션을 취할 수 있다. 프로세서(130)는 입력된 사용자 음성의 내용이 모두 볼륨 조정에 관한 것임을 인식할 수 있다. 그리고 프로세서(130)는 도 13a에 도시된 사용자 모션이 취해지면 사용자가 볼륨 조정을 하고자 하는 것임을 학습할 수 있다.

또한, 사용자는 "동영상을 본 후 설명을 계속하겠습니다.", "잠깐 중지해주세요.", "다시 재생해주세요."와 같은 음성을 발화하며, 도 13b에 도시된 것과 같은 사용자 모션을 취할 수 있다. 프로세서(130)는 입력된 사용자 음성의 내용이 동영상 재생/중단에 관한 것임을 인식할 수 있다. 프로세서(130)는 도 13b에 도시된 사용자 모션과 동영상 재생/중단 제어 동작을 매칭할 수 있다.

그리고 사용자는 "사진을 자세히 살펴볼까요?", "좌측 하단 부분을 집중하여 살펴보겠습니다."와 같은 음성을 발화하며, 도 13c에 도시된 것과 같은 사용자 모션을 취할 수 있다. 프로세서(130)는 입력된 사용자 음성의 내용이 확대/축소에 관한 것임을 인식할 수 있다. 그리고 프로세서(130)는 도 13c에 도시된 사용자 모션이 취해지면 사용자가 자료를 확대/축소 하고자 하는 것임을 학습할 수 있다.

발표 도중 사용자의 모션이 인식되면, 프로세서(130)는 인식된 모션과 학습된 모션의 매칭 여부를 판단할 수 있다. 그리고 학습된 모션과 매칭되는 것으로 판단되면, 프로세서(130)는 학습된 모션과 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 인식된 모션이 도 13b의 모션과 매칭된다고 판단되면, 프로세서(130)는 동영상 재생을 시작하도록 디스플레이부(120)를 제어할 수 있다.

본 개시의 일 실시 예에 따르면 프로세서(130)는 우선 인식된 음성에 페이지를 나타내는 단어가 포함되었는지 식별할 수 있다. 만일 페이지를 나타내는 단어가 포함된 것으로 식별되면, 프로세서(130)는 문서에서 추출된 토픽과 인식된 음성의 매칭을 수행하지 않을 수 있다. 매칭 과정 없이 프로세서(130)는 식별된 단어가 나타내는 페이지를 표시하도록 디스플레이부(120)를 제어할 수 있다. 반대로 페이지를 나타내는 단어가 포함되지 않은 것으로 식별되면, 프로세서(130)는 인식된 음성을 문서에서 획득한 적어도 하나의 토픽과 매칭할 수 있다.

예를 들어, "다음 장을 보시겠습니다.", "4 페이지를 살펴보겠습니다."와 같은 사용자 음성이 입력되면, 프로세서(130)는 "다음 장", "4 페이지"와 같은 페이지를 나타내는 단어가 포함되어 있음을 식별할 수 있다. 이러한 경우 프로세서(130)는 토픽 매칭 과정 없이 바로 단어로부터 알 수 있는 페이지(현재 페이지의 다음 페이지, 4 페이지)를 표시하도록 디스플레이부(120)를 제어할 수 있다.

본 개시의 일 실시 예에 따르면 프로세서(130)는 발표 연습 데이터를 이용하여 사용자 음성과 문서에서 획득한 토픽을 매칭할 수 있다. 프로세서(130)는 사용 가능한 데이터에 따라 상이한 방식으로 표시할 페이지를 결정할 수 있다. 예를 들어, 발표 연습 데이터는 사전에 발표자가 발표 자료의 페이지를 넘긴 순서, 각 페이지가 표시된 시점에 발표자가 발화한 음성에 관한 데이터일 수 있다.

프로세서(130)는 발표자가 발화한 음성을 발표 연습 데이터에 포함된 음성과 매칭할 수 있다. 발표 연습 데이터에 포함된 음성은 발표 자료의 페이지와 연관되어 있는바, 프로세서(130)는 문서를 분석하여 토픽을 획득하는 과정 없이도 표시할 페이지를 결정할 수 있다. 즉, 문서에서 획득한 토픽과 입력된 사용자 음성을 매칭하여 표시할 페이지를 결정하는 대신에, 프로세서(130)는 발표 연습 데이터에 포함된 음성과 입력된 사용자 음성을 매칭하여 표시할 페이지를 결정할 수 있다.

발표 연습 데이터를 이용하더라도 사용자 음성이 발표 연습 데이터에 포함된 음성과 매칭되지 않으면, 프로세서(130)는 문서에서 획득한 토픽과 입력된 사용자 음성을 매칭하여 표시할 페이지를 결정할 수 있다.

상술한 바와 같은 본 개시의 다양한 실시 예에 따르면, 전자 장치(100)는 딥러닝과 같은 학습 알고리즘에 의해 문서의 내용 및 사용자 음성을 인식할 수 있다. 그리고 전자 장치(100)는 인식 결과를 바탕으로 사용자 음성의 내용과 대응되는 내용이 포함된 문서의 특정 페이지가 표시되도록 할 수 있다.

도 14는 본 개시의 일 실시 예에 따른 전자 장치(100)의 문서 표시 방법을 설명하기 위한 흐름도이다. 도 14를 참조하면, 전자 장치(100)는 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득할 수 있다(S1410). 전자 장치(100)는 딥러닝 방식과 같은 인공지능을 이용하여 동영상, 이미지, 텍스트와 같은 다양한 종류의 컨텐츠를 분석할 수 있다.

예를 들어, 전자 장치(100)는 동영상 컨텐츠를 프레임 단위로 분석하여 적어도 하나의 토픽을 획득할 수 있다. 그리고 전자 장치(100)는 획득된 각각의 토픽에 대한 내용이 재생 시작되는 프레임 및 끝나는 프레임의 정보를 저장할 수 있다.

그리고 전자 장치(100)는 사용자의 음성을 인식할 수 있다(S1420). 전자 장치(100)는 딥러닝 방식으로 학습되어 구축된 음성 인식 모델을 이용하여, 사용자 음성의 맥락을 이해할 수 있다. 즉, 전자 장치(100)는 특정 토픽을 나타내는 특정 단어가 포함되어 있지 않더라도, 사용자 음성의 맥락으로부터 토픽을 획득할 수 있다.

도 14에 도시된 바와 같이 토픽을 획득하는 과정(S1410)이 반드시 사용자 음성을 인식하는 과정(S1420)보다 먼저 수행되어야 하는 것은 아니다. 예를 들어, 사용자 음성을 먼저 인식할 수도 있고, 사용자 음성 인식과 토픽 획득이 병렬적으로 수행될 수도 있다.

전자 장치(100)는 인식된 사용자 음성과 문서에서 획득한 토픽을 매칭할 수 있다(S1430). 전자 장치(100)는 사용자 음성을 실시간으로 인식하여 토픽과 매칭함으로써, 문서의 어느 부분에 대해 발표자가 설명하고 있는지 판단할 수 있다. 그리고 전자 장치(100)는 매칭된 토픽을 포함하는 페이지를 표시할 수 있다(S1440).

도 15는 본 개시의 일 실시 예에 따른 전자 장치(100)의 문서 표시 방법을 설명하기 위한 흐름도이다. 전자 장치(100)는 사용자 음성을 인식할 수 있다(S1510). 그리고 전자 장치(100)는 인식된 사용자 음성에 페이지를 나타내는 단어가 포함되어 있는지 판단할 수 있다(S1520). 페이지를 나타내는 단어의 예로는 "제 23페이지", "다음 페이지", "마지막 페이지" 등이 있다.

만일 인식된 사용자 음성에 페이지를 나타내는 단어가 포함되어 있지 않으면(S1520-N), 전자 장치(100)는 도 14에 도시된 실시 예와 같이 토픽 매칭을 통해 표시할 페이지를 결정할 수 있다. 즉, 전자 장치(100)는 문서에서 토픽을 획득하고(S1540), 인식된 음성과 획득된 토픽을 매칭할 수 있다(S1550). 그리고 전자 장치(100)는 매칭된 토픽을 포함하는 페이지를 표시할 수 있다(S1560).

반대로 인식된 사용자 음성에 페이지를 나타내는 단어가 포함되어 있으면(S1520-Y), 전자 장치(100)는 토픽 매칭 과정 없이 바로 표시할 페이지를 결정할 수 있다. 즉, 전자 장치(100)는 식별된 단어가 나타내는 페이지를 표시할 수 있다(S1530).

도 16은 본 개시의 일 실시 예에 따른 전자 장치(100)의 문서 표시 방법을 설명하기 위한 흐름도이다. 도 16의 실시 예는 발표 연습 데이터가 존재하는 경우에 전자 장치(100)가 표시할 페이지를 결정하는 방법을 도시한 것이다. 발표 연습 데이터는 사전에 발표자가 발표 자료의 페이지를 넘긴 순서, 각 페이지가 표시된 시점에 발표자가 발화한 음성에 관한 데이터일 수 있다.

도 16을 참조하면, 전자 장치(100)는 사용자 음성을 인식할 수 있다(S1610). 그리고 전자 장치(100)는 발표 연습 데이터에 포함된 음성과 인식된 사용자 음성이 매칭되는지 판단할 수 있다(S1620).

만일 인식된 사용자 음성이 발표 연습 데이터에 포함된 음성과 매칭되지 않으면(S1620-N), 전자 장치(100)는 도 14에 도시된 실시 예와 같이 토픽 매칭을 통해 표시할 페이지를 결정할 수 있다. 즉, 전자 장치(100)는 문서에서 토픽을 획득하고(S1640), 인식된 음성과 획득된 토픽을 매칭할 수 있다(S1650). 그리고 전자 장치(100)는 매칭된 토픽을 포함하는 페이지를 표시할 수 있다(S1660).

반대로 인식된 사용자 음성이 발표 연습 데이터에 포함된 음성과 매칭되면(S1520-Y), 전자 장치(100)는 토픽 매칭 과정 없이 발표 연습 데이터를 기초로 표시할 페이지를 결정할 수 있다(S1630). 발표 연습 데이터에는 사용자 음성이 발화되어 입력된 때에 표시되었던 페이지 정보가 포함될 수 있다. 따라서, 전자 장치(100)는 매칭된 음성이 입력된 시점에 표시되었던 페이지를 표시할 페이지로 결정할 수 있다.

그 밖의 전자 장치(100)의 문서 표시 방법의 실시 예들에 대한 설명은 전자 장치(100)에 대한 설명과 중복되는바 생략하기로 한다.

상기에서 설명된 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기의 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 개시는 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 개시는 상기의 실시 예에 한정되는 것은 아니며, 본 개시가 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 전자 장치 110: 마이크
120: 디스플레이부 130: 프로세서
140: 메모리 150: 모션 센서
160: 통신부

Claims

전자 장치에 있어서,
문서를 표시하는 디스플레이부;
사용자의 음성을 입력받는 마이크; 및
상기 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하고, 상기 마이크를 통해 입력된 음성을 인식하며, 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하고, 상기 매칭된 토픽을 포함하는 페이지를 표시하도록 상기 디스플레이부를 제어하는 프로세서;를 포함하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 페이지 사이의 거리 및 상기 획득된 적어도 하나의 토픽을 기초로, 상기 복수의 페이지 사이의 관계를 식별하고,
상기 매칭된 토픽을 포함하는 페이지가 복수 개 존재하면, 상기 식별된 페이지 사이의 관계를 기초로 표시될 페이지를 결정하는 전자 장치.
제1항에 있어서,
메모리;를 더 포함하고,
상기 프로세서는,
상기 포함된 컨텐츠가 동영상이면 동영상을 구성하는 프레임 단위로 상기 컨텐츠를 분석하여 적어도 하나의 토픽을 획득하고, 상기 획득된 적어도 하나의 토픽 각각에 대한 내용이 재생 시작되는 프레임의 정보를 상기 메모리에 저장하는 전자 장치.
제3항에 있어서,
상기 프로세서는,
상기 메모리에 저장된 정보를 이용하여, 상기 매칭된 토픽에 대한 내용이 재생 시작되는 프레임부터 상기 동영상을 재생하도록 상기 디스플레이부를 제어하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 표시된 페이지에서 상기 매칭된 토픽에 대응되는 컨텐츠를 하이라이트 표시하도록 상기 디스플레이부를 제어하는 전자 장치.
제1항에 있어서,
사용자의 모션을 인식하는 모션 센서;를 더 포함하고,
상기 프로세서는,
상기 인식된 모션이 가리키는 컨텐츠를 하이라이트 표시하도록 상기 디스플레이부를 제어하는 전자 장치.
제1항에 있어서,
사용자의 모션을 인식하는 모션 센서;를 더 포함하고,
상기 프로세서는,
상기 음성에서 상기 사용자가 원하는 제어 동작을 판단하고, 상기 음성이 존재할 때의 사용자의 모션을 인식하도록 상기 모션 센서를 제어하며, 상기 인식된 사용자의 모션을 상기 판단된 제어 동작과 매칭하여 학습하고, 상기 학습된 사용자의 모션이 인식되면 상기 매칭된 제어 동작을 수행하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 인식된 음성에 페이지를 나타내는 단어가 포함되었는지 식별하고, 상기 단어가 포함된 것으로 식별되면 매칭 없이 상기 식별된 단어가 나타내는 페이지를 바로 표시하도록 상기 디스플레이부를 제어하며, 상기 단어가 포함되지 않은 것으로 식별되면 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하는 전자 장치.
전자 장치의 문서 표시 방법에 있어서,
문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하는 단계;
사용자의 음성을 인식하는 단계;
상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하는 단계; 및
상기 매칭된 토픽을 포함하는 페이지를 표시하는 단계;를 포함하는 문서 표시 방법.
제9항에 있어서,
상기 복수의 페이지 사이의 거리 및 상기 획득된 적어도 하나의 토픽을 기초로, 상기 복수의 페이지 사이의 관계를 식별하는 단계;를 더 포함하고,
상기 표시하는 단계는,
상기 매칭된 토픽을 포함하는 페이지가 복수 개 존재하면, 상기 식별된 페이지 사이의 관계를 기초로 표시될 페이지를 결정하는 문서 표시 방법.
제9항에 있어서,
상기 획득하는 단계는,
상기 포함된 컨텐츠가 동영상이면 동영상을 구성하는 프레임 단위로 상기 컨텐츠를 분석하여 적어도 하나의 토픽을 획득하고, 상기 획득된 적어도 하나의 토픽 각각에 대한 내용이 재생 시작되는 프레임의 정보를 저장하는 문서 표시 방법.
제11항에 있어서,
상기 표시하는 단계는,
상기 저장된 정보를 이용하여, 상기 매칭된 토픽에 대한 내용이 재생 시작되는 프레임부터 상기 동영상을 재생하는 문서 표시 방법.
제9항에 있어서,
상기 표시된 페이지에서 상기 매칭된 토픽에 대응되는 컨텐츠를 하이라이트 표시하는 단계;를 더 포함하는 문서 표시 방법.
제9항에 있어서,
사용자의 모션을 인식하는 단계; 및
상기 인식된 모션이 가리키는 컨텐츠를 하이라이트 표시하는 단계;를 더 포함하는 문서 표시 방법.
제9항에 있어서,
상기 음성에서 상기 사용자가 원하는 제어 동작을 판단하는 단계;
상기 음성이 존재할 때의 사용자의 모션을 인식하는 단계;
상기 인식된 사용자의 모션을 상기 판단된 제어 동작과 매칭하여 학습하는 단계; 및
상기 학습된 사용자의 모션이 인식되면, 상기 매칭된 제어 동작을 수행하는 단계;를 더 포함하는 문서 표시 방법.
제9항에 있어서,
상기 인식된 음성에 페이지를 나타내는 단어가 포함되었는지 식별하는 단계;를 더 포함하고,
상기 매칭하는 단계는,
상기 단어가 포함된 것으로 식별되면 매칭 없이 상기 식별된 단어가 나타내는 페이지를 바로 표시하고, 상기 단어가 포함되지 않은 것으로 식별되면 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하는 문서 표시 방법.
전자 장치의 문서 표시 방법을 실행하기 위한 프로그램을 포함하는 비일시적 컴퓨터 판독가능 기록매체에 있어서,
상기 문서 표시 방법은
문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하는 단계;
사용자의 음성을 인식하는 단계;
상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하는 단계; 및
상기 매칭된 토픽을 포함하는 페이지를 표시하는 단계;를 포함하는 비일시적 컴퓨터 판독가능 기록매체.
인공지능 신경망(Neural Network) 모델을 이용한 지능형 비서 전자 장치에 있어서,
문서를 표시하는 디스플레이부;
마이크; 및
인공지능 신경망 모델을 이용하여 상기 문서를 구성하는 복수의 페이지에 포함된 컨텐츠에서 적어도 하나의 토픽을 획득하고,
상기 마이크를 통해 입력된 음성을 인식하며, 상기 인식된 음성을 상기 획득된 적어도 하나의 토픽 중 하나와 매칭하고,
상기 매칭된 토픽을 포함하는 페이지를 표시하도록 상기 디스플레이부를 제어하는 프로세서;를 포함하는 지능형 비서 전자 장치.
제18항에 있어서,
상기 프로세서는,
인공지능 신경망을 이용하여 상기 사용자 음성에 대한 음성 인식을 수행하는 것을 특징으로 하는 지능형 비서 전자 장치.
제18항에 있어서,
사용자의 모션을 인식하는 모션 센서;를 더 포함하고,
상기 프로세서는,
상기 음성에서 상기 사용자가 원하는 제어 동작을 판단하고, 상기 음성이 존재할 때의 사용자의 모션을 인식하도록 상기 모션 센서를 제어하며,
상기 인식된 사용자의 모션을 상기 판단된 제어 동작과 매칭하여 학습하고,
상기 학습된 사용자의 모션이 인식되면 상기 매칭된 제어 동작을 수행하는 지능형 비서 전자 장치.