WO2019050265A1

WO2019050265A1 - 영상 표시 장치 및 그 동작 방법

Info

Publication number: WO2019050265A1
Application number: PCT/KR2018/010350
Authority: WO
Inventors: 조은애; 김진현; 박기훈; 권재욱
Original assignee: 삼성전자 주식회사
Priority date: 2017-09-05
Filing date: 2018-09-05
Publication date: 2019-03-14

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 일 실시예에 따른 영상 표시 장치는, 사용자가 시청한 컨텐트에 기초하여 사용자 인증을 수행한다.

Description

영상 표시 장치 및 그 동작 방법

개시된 다양한 실시예들은 영상 표시 장치 및 그 동작 방법에 관한 것으로서, 보다 상세하게는, 영상 표시 장치가 사용자를 인증하는 방법에 관한 것이다.

통신 기술이 발전함에 따라, 다양한 보안 시스템이 요구되고 있다. 전자 장치 또는 네트워크에 안전하게 액세스하기 위하여, PIN(Personal Identification Number)을 이용하여 사용자를 인증하는 방법이 널리 사용되었다. 그러나, 사용자가 PIN을 잊어버릴 수 있기 때문에, PIN을 이용하여 사용자를 인증하는 방법은 사용자에게 불편함을 초래할 수 있다. 이에 따라, 최근에는, 사용자가 별도의 정보를 암기할 필요 없이, 사용자를 인증할 수 있는 다양한 방법이 연구되고 있다.

특히, 인공지능 기술이 발전됨에 따라, 인공지능 기술에 기초하여, 허가된 사용자임을 나타낼 수 있는 다양한 컨텍스트를 수집하고, 분석하여 사용자 인증을 수행함으로써, 사용자 인증을 보다 편리하고 안전하게 수행할 수 있는 방법이 연구되고 있다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

개시된 다양한 실시예들은 사용자가 시청한 컨텐트에 기초하여 사용자 인증을 수행하는 영상 표시 장치 및 영상 표시 장치의 동작 방법을 제공하기 위한 것이다.

개시된 다양한 실시예들은 사용자가 시청한 컨텐트로부터 인식된 객체에 기초하여 생성된 인증용 이미지 세트를 이용하여 사용자 인증을 수행함으로써, 사용자 측면에서 보다 편리한 사용자 인증 방법을 제공하기 위한 것이다.

일 실시예에 따른 영상 표시 장치는, 디스플레이, 하나 이상의 인스트럭션을 저장하는 메모리, 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고, 사용자 인증을 요청하는 입력이 수신된 것에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행할 수 있다.

일 실시예에 따른 제1 컨텐트는, 사용자 인증을 요청하는 입력이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트이고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는 제1 컨텐트로부터 추출된 이미지를 포함할 수 있다.

일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 사용자 인증을 요청하는 입력이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 객체를 인식하고, 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 상기 거짓 이미지로 획득할 수 있다.

일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써,하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로서 저장할 수 있다.

일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 수행함으로써,데이터베이스에 저장된 복수의 거짓 이미지를 기설정된 주기마다 갱신할 수 있다.

일 실시예에 따른 학습 모델은, 하나 이상의 뉴럴 네트워크에 복수의 학습 이미지가 입력된 것에 응답하여, 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습함으로써 결정될 수 있다.

일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트를 구성하는 복수의 프레임으로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체 중에서, 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 이미지를 상기 데이터베이스에 참 이미지로서 저장할 수 있다.

일 실시예에 따른 프로세서는 하나 이상의 인스트럭션을 수행함으로써,데이터베이스에 저장된 복수의 거짓 이미지 및 학습 모델 중 적어도 하나를 외부 서버로부터 수신할 수 있다.

일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써, 인증 이미지 세트로부터 하나 이상의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 사용자 인증을 요청한 사용자를 허가받은 사용자로 판단할 수 있다.

일 실시예에 따른 프로세서는, 하나 이상의 인스트럭션을 실행함으로써,인증 이미지 세트에 포함된 하나 이상의 참 이미지를 모두 선택하는데 것에 실패한 사용자 입력에 응답하여, 새로운 인증 이미지 세트를 출력하도록 디스플레이를 제어할 수 있다.

일 실시예에 따른 영상 표시 장치의 동작 방법은, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치의 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하는 단계, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하는 단계, 사용자 인증을 요청하는 입력이 수신된 것에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하는 단계, 및 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행하는 단계를 포함할 수 있다.

전술한 바와 같이, 본 개시의 일 또는 다른 실시예는 사용자가 시청하였던 컨텐트에 포함되는 객체를 인식하고, 인식된 객체가 포함된 이미지를 하나 이상 포함하는 인증 이미지 세트를 이용하여 사용자 인증을 수행함으로써, 높은 보안도를 유지하면서 영상 표시 장치(예를 들어, 201)의 사용자가 적법한 권한을 가지는 사용자인지를 확인할 수 있다.

또한, 본 개시의 일 또는 다른 실시예는, 대립적 사례 기법을 이용하여 인증 이미지 세트에 포함될 하나 이상의 이미지를 변형함으로써, AI 기반 해킹 공격을 막을 수 있으며 그에 따라서 보안 성능을 증가시킬 수 있다.

도 1은 일 실시예에 따른 영상 표시 장치를 설명하기 위한 도면이다.

도 2는 일 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.

도 3은 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.

도 4는 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.

도 5는 다른 실시예에 따른 영상 표시 장치의 구성을 나타내는 블록도이다.

도 6은 일 실시예에 따라 컨텐트로부터 객체를 인식하는 방법을 학습하는 뉴럴 네트워크(neural network)의 예시를 나타내는 도면이다.

도 7은 일 실시예에 따른 영상 표시 장치가 사용자 인증에 사용되는 이미지 데이터베이스를 생성하는 과정을 나타내는 흐름도이다.

도 8은 일 실시예에 따른 영상 표시 장치가 사용자 인증에 사용되는 참 이미지와 거짓 이미지를 수집하는 예시를 나타내는 도면이다.

도 9 및 도 10은 일 실시예에 따른 영상 표시 장치가 참 이미지와 거짓 이미지를 수집하는 과정을 설명하기 위한 도면이다.

도 11 및 도 12는 일 실시예에 따른 영상 표시 장치가 인증 이미지 세트를 이용하여 사용자 인증을 수행하는 예시를 나타내는 도면이다.

도 13은 일 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다.

도 14는 일 실시예에 따른 프로세서의 구성을 나타내는 블록도이다.

도 15는 일 실시예에 따른 데이터 학습부의 구성을 나타내는 블록도이다.

도 16은 일 실시예에 따른 데이터 인식부의 구성을 나타내는 블록도이다.

도 17은 일 실시예에 따른 서버의 구성을 나타내는 블록도이다.

도 18은 일 실시예에 따른 영상 표시 장치 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.

도 19는 다른 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다.

도 20은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 일 도면이다.

도 21은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 다른 도면이다.

도 22는 본 개시의 다른 실시예에 따른 영상 표시 장치에 변형된 이미지를 생성하는 동작을 설명하기 위한 도면이다.

도 23은 본 개시의 다른 실시예에 따른 영상 표시 장치에서 생성된 변형된 이미지를 이용한 인증 동작을 설명하기 위한 도면이다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.

또한, 본 개시에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다. 단수의 표현은 문맥상 명백하게 단수를 뜻하지 않는 한, 복수의 의미를 포함한다. 또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

본 명세서, 특히, 특허 청구 범위에서 사용된 상기 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.

본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. 매커니즘, 요소, 수단 및 구성등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 영상 표시 장치가 사용자 인증을 수행하는 예시를 나타내는 도면이다.

도 1을 참조하면, 영상 표시 장치(100)는 TV일 수 있으나, 이에 한정되지 않으며, 디스플레이를 포함하는 전자 장치로 구현될 수 있다. 예를 들어, 영상 표시 장치(100)는 휴대폰, 태블릿 PC, 디지털 카메라, 캠코더, 노트북 컴퓨터(laptop computer), 태블릿 PC, 데스크탑, 전자책 단말기, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어, 착용형 기기(wearable device) 등과 같은 다양한 전자 장치로 구현될 수 있다. 또한, 영상 표시 장치(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 방송 수신기일 수 있다.

영상 표시 장치(100)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 영상 표시 장치(100)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.

영상 표시 장치(100)는 제어 장치(101)에 의해 제어될 수 있으며, 제어 장치(101)는 리모컨 또는 휴대폰과 같이 영상 표시 장치(100)를 제어하기 위한 다양한 형태의 장치로 구현될 수 있다. 또는 영상 표시 장치(100)의 디스플레이부가 터치스크린으로 구현되는 경우 제어 장치(101)는 사용자의 손가락이나 입력 펜 등으로 대체될 수 있다.

또한, 제어 장치(101)는 적외선(infrared) 또는 블루투스(bluetooth)를 포함하는 근거리 통신을 이용하여 영상 표시 장치(100)를 제어할 수 있다. 제어 장치(101)는 구비된 키(버튼을 포함), 터치 패드(touchpad), 사용자의 음성의 수신이 가능한 마이크(도시되지 아니함), 및 제어 장치(101)의 모션 인식이 가능한 센서(도시되지 아니함) 중 적어도 하나를 이용하여 영상 표시 장치(100)의 기능을 제어할 수 있다.

제어 장치(101)는 영상 표시 장치(100)의 전원을 온(on)시키거나 오프(off)시키기 위한 전원 온/오프 버튼을 포함할 수 있다. 또한, 제어 장치(101)는 사용자 입력에 의해 영상 표시 장치(100)의 채널 변경, 음량 조정, 지상파 방송/케이블 방송/위성 방송 선택, 또는 환경 설정(setting)을 할 수 있다.

또한, 제어 장치(101)는 포인팅 장치일 수도 있다. 예를 들어, 제어 장치(101)는, 특정 키 입력을 수신하는 경우에 포인팅 장치로 동작할 수 있다.

본 명세서의 실시예에서 사용자라는 용어는 제어 장치(101)를 이용하여 영상 표시 장치(100)의 기능 또는 동작을 제어하는 사람을 의미하며, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.

일 실시예에 따른, 영상 표시 장치(100)는, 사용자가 시청한 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 이용하여, 사용자 인증을 수행할 수 있다. 예를 들어, 영상 표시 장치(100)가 방송 기능뿐만 아니라 인터넷을 통하여 컨텐트를 제공할 수 있는 스마트 TV일 때, 영상 표시 장치(100)를 통해 인터넷에 액세스하려는 외부 입력이 수신되면, 영상 표시 장치(100)를 이용할 수 있는 정당한 권한이 있는 사용자로부터 수신된 입력인지 확인할 필요가 있다. 예를 들어, 해커와 같이 정당한 권한이 없는 사용자가 영상 표시 장치(100)를 이용할 경우, 정당한 권한이 없는 사용자가 영상 표시 장치(100)에 저장된 개인 정보에 접근함으로써, 개인 정보가 유출될 수 있다. 또한, 정당한 권한이 없는 사용자가 영상 표시 장치(100)를 이용하여 악의적인 행위를 할 수 있다.

다른 예로서, 영상 표시 장치(100)를 통해 디스플레이되는 컨텐트가 연령 제한(예를 들어, 15세 이상 관람가)이 있는 컨텐트일 때, 허가된 연령 미만의 사용자(예를 들어, 12세의 사용자)가 해당 컨텐트를 시청하지 못하도록 차단할 필요가 있다. 따라서, 영상 표시 장치(100)에서 효율적으로 사용자를 인증할 수 있는 방법이 필요할 수 있다.

일 실시예에 따른 영상 표시 장치(100)는, 사용자가 오늘 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체를 나타내는 이미지를 포함하는 인증 이미지 세트를 이용하여, 사용자 인증을 수행할 수 있다. 인증 이미지 세트는, 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함할 수 있다.

참 이미지는 사용자가 허가받은 사용자, 영상 표시 장치(100)를 이용할 수 있는 정당한 권한이 있는 사용자, 또는 영상 표시 장치(100)에서 표시하는 특정 컨텐트를 이용할 수 있는 권한이 있는 사용자인지 판단하기 위해 사용되는 이미지로서, 예를 들어, 사용자가 오늘 시청한 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 포함할 수 있다. 또한, 거짓 이미지는 허가받지 않은 사용자, 영상 표시 장치(100)를 이용할 수 있는 정당한 권한이 없는 사용자, 영상 표시 장치(100)를 통해 소정의 컨텐트를 이용할 수 있는 권한이 없는 사용자(예를 들어, 해커), 또는 허가받지 않은 사용자에 의해 제어되는 컴퓨터를 필터링하기 위해 사용되는 이미지로서, 예를 들어, 사용자가 어제 시청한 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 포함할 수 있다.

도 1을 참조하면, 영상 표시 장치(100)는, 복수의 참 이미지와 복수의 거짓 이미지를 포함하는 9개의 이미지로 구성된 인증 이미지 세트를 디스플레이하고, 사용자가 디스플레이된 인증 이미지 세트에서 참 이미지를 모두 선택하도록 할 수 있다. 허가받지 않은 사용자(예를 들어, 해커)는, 허가받은 사용자가 오늘 시청한 제1 컨텐트와 어제 시청한 제2 컨텐트를 구분하기 어렵기 때문에, 인증 이미지 세트에 포함된 참 이미지와 거짓 이미지를 구분하기 어렵다. 그러나, 영상 표시 장치(100)를 통해 오늘 제1 컨텐트를 시청한 사용자는, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 용이하게 식별할 수 있다. 인증 이미지 세트에서 참 이미지를 모두 선택하는 사용자 입력이 수신되면, 영상 표시 장치(100)는, 해당 사용자를 허가받은 사용자인 것으로 판단할 수 있다. 이에 따라, 영상 표시 장치(100)는, 편리하고 용이하게 허가받은 사용자를 구별할 수 있다.

PIN(Personal Identification Number)을 사용하여 사용자 인증을 수행하는 경우, 사용자가 PIN을 잊어버릴 가능성이 있기 때문에, 사용자 인증 과정에서 사용자에게 불편함을 초래할 수 있다. 이와 달리, 사용자가 시청한 컨텐트로부터 인식된 객체에 기초하여 생성된 인증용 이미지 세트를 이용하여 사용자 인증을 수행하는 경우, 사용자는 참 이미지를 별도로 기억하고 있을 필요가 없다. 제1 컨텐트를 시청한 사용자는, 제1 컨텐트에 등장한 객체를 용이하게 구별할 수 있을 것이므로, 제1 컨텐트로부터 인식된 객체를 나타내는 참 이미지를 용이하게 선택함으로써, 사용자 인증 과정을 통과할 수 있다. 이에 따라, 영상 표시 장치(100)는, 사용자 측면에서 보다 편리하게 사용자 인증을 수행할 수 있다.

도 2에 도시된 영상 표시 장치(100a)는 도 1에 도시된 영상 표시 장치(100)의 일 실시예일 수 있다. 도 2를 참조하면, 일 실시예에 따른 영상 표시 장치(100a)는 메모리(210), 프로세서(220), 및 디스플레이(230)를 포함할 수 있다. 그러나, 영상 표시 장치(100a)는, 도시된 구성요소보다 많은 구성요소에 의해 구현될 수 있으며, 전술한 예에 한정되지 않는다.

이하 상기 구성요소들에 대해 차례로 살펴본다.

일 실시예에 따른 메모리(210)는, 프로세서(220)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 영상 표시 장치(100a)로 입력되거나 영상 표시 장치(100a)로부터 출력되는 데이터를 저장할 수 있다.

메모리(210)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

일 실시예에 따른 프로세서(220)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(미도시)에 참 이미지로서 저장시킬 수 있다. 여기서, 데이터베이스(미도시)는 영상 표시 장치(100a) 내에 구비되는 메모리(예를 들어, 210) 또는 프로세서(220) 내에 형성될 수 있다. 또는, 데이터베이스(미도시)는 영상 표시 장치(100a)와 유무선의 통신 네트워크를 통하여 연결 가능한 외부 장치(예를 들어, 서버(예를 들어, 500 또는 2000) 등) 내에 형성될 수도 있을 것이다. 그리고, 프로세서(220)는 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행하는 하나 이상의 인스트럭션(instruction)을 포함하는 모듈을 포함할 수 있다.

여기서, 사용자 인증 요청은 사용자로부터 입력될 수 있다.

또한, 프로세서(220)는 영상 표시 장치(100a) 내에 소정 이벤트가 발행하면, 사용자 인증이 요청된 것으로 인식할 수 있다. 예를 들어, 영상 표시 장치(100a) 에서 인터넷을 액세스 하려는 입력이 수신되면, 이를 사용자 인증 요청이 입력된 것으로 인식하고, 사용자 인증 요청에 대응되는 동작(예를 들어, 전술한 인증 이미지 세트를 출력하기 위한 동작 등)을 수행할 수 있다. 또 다른 예로, 영상 표시 장치(100a)를 턴 온 시키기 위한 입력이 수신되면, 영상 표시 장치(100a)는 상기 턴 온 입력을 입력한 사용자가 영상 표시 장치(100a)를 이용할 수 있는 정당한 권원이 있는 사용자 인지 판단하기 위해서 사용자 인증 요청이 입력된 것으로 인식하고, 용자 인증 요청에 대응되는 동작을 수행할 수 있다. 또 다른 예로, 영상 표시 장치(100a)를 통하여 재생이 요청된 컨텐트가 연령 제한(예를 들어, 15세 이상 관람가)이 있는 컨텐트일 경우, 허가된 연령 미만의 사용자가 해당 컨텐트를 시청하지 못하도록 차단할 필요가 있다. 이러한 경우, 영상 표시 장치(100a)는 연령 제한(예를 들어, 15세 이상 관람가)이 있는 컨텐트의 재생이 요청된 경우, 이를 사용자 인증 요청이 입력된 것으로 인식하고, 사용자 인증 요청에 대응되는 동작을 수행할 수 있다.

또 다른 예로, 영상 표시 장치(100a)를 원격으로 제어하기 위한 원격 제어 장치(미도시)를 통하여 사용자 인증 요청이 입력될 수도 있을 것이다.

본 개시의 실시예에서, 프로세서(220)는 메모리(210)에 저장된 하나 이상의 인스트럭션을 실행하여, 전술한 동작들이 수행되도록 제어할 수 있다. 이 경우, 메모리(210)는 프로세서(220)에 의해서 실행가능한 하나 이상의 인스트럭션을 저장하고 있을 수 있다.

또한, 본 개시의 실시예에서, 프로세서(220)는 내부적으로 구비되는 메모리(미도시)에 하나 이상의 인스트럭션을 저장하고, 내부적으로 구비되는 메모리(미도시)에 저장된 하나 이상의 인스트럭션을 실행하여 전술한 동작들이 수행되도록 제어할 수 있다. 즉, 프로세서(220)는 프로세서(220)의 내부에 구비되는 내부 메모리(미도시) 또는 메모리(210)에 저장된 적어도 하나의 인스트럭션 또는 프로그램을 실행하여 소정 동작을 수행할 수 있다.

또한, 본 개시의 실시예에서, 프로세서(220)는 비디오에 대응되는 그래픽 처리를 위한 그래픽 프로세서(Graphic Processing Unit, 미도시)를 포함할 수 있다. 프로세서(미도시)는 코어(core, 미도시)와 GPU(미도시)를 통합한 SoC(System On Chip)로 구현될 수 있다. 프로세서(미도시)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.

일 실시예에 따른 메모리(210)는, 사용자가 시청한 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 저장할 수 있다. 예를 들어, 메모리(210)는, 프로세서(220)의 제어에 따라서, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장할 수 있다. 또한, 메모리(210)는, 사용자 인증을 요청하는 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 거짓 이미지로서 저장할 수 있다. 데이터베이스는 메모리(210)에 포함될 수 있거나 또는 외부 저장 장치에 위치할 수 있다.

프로세서(220)는 영상 표시 장치(100a)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(220)는, 메모리(210)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 디스플레이(230)를 제어할 수 있으며, 도 1 내지 도 18에 기재된 영상 표시 장치(100a)의 기능을 수행할 수 있다.

또한, 도 2에서는 하나의 프로세서(220)를 도시하였으나, 복수개의 프로세서(미도시)가 구비될 수도 있을 것이다. 이 경우, 본 개시의 실시예에 따른 영상 표시 장치에서 수행되는 동작들 각각은 복수개의 프로세서(미도시) 중 적어도 하나를 통하여 수행될 수 있다.

일 실시예에 따른 프로세서(220)는, 하나 이상의 뉴럴 네트워크(neural network)를 이용한 학습 모델을 이용하여, 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식한다.

뉴럴 네트워크는, 인공지능(Artificial Intelligence)에 기초하여 뉴럴 네트워크에 입력된 소정의 이미지로부터 객체를 인식하는 방법을 학습하는 알고리즘의 집합일 수 있다. 예를 들어, 뉴럴 네트워크는, 소정의 이미지를 입력 값으로 하는 지도 학습(supervised learning), 별다른 지도 없이 이미지로부터 객체를 인식하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 이미지로부터 객체를 인식하기 위한 패턴을 발견하는 비지도 학습(unsupervised learning)에 기초하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있다. 또한, 예를 들어, 뉴럴 네트워크는, 학습에 따라 객체를 인식한 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 이용하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있다.

또한, 뉴럴 네트워크는 인공 지능(AI) 기술에 따른 추론 및 예측을 위한 연산을 수행한다. 구체적으로, 뉴럴 네트워크는 복수의 계층들을 통한 연산을 수행하는 딥 뉴럴 네트워크(DNN: Deep Neural Network)가 될 수 있다. 뉴럴 네트워크는 연산을 수행하는 내부의 계층(layer)의 개수에 따라서 계층의 개수가 복수일 경우, 즉 연산을 수행하는 뉴럴 네트워크의 심도(depth)가 증가하는 경우, 딥 뉴럴 네트워크(DNN)로 분류될 수 있다. 또한, 딥 뉴럴 네트워크(DNN) 연산은 컨볼루션 뉴럴 네트워크(CNN: Convolution Neural Network) 연산 등을 포함할 수 있다. 즉, 제어부(220)는 예시된 뉴럴 네트워크를 통하여 객체를 인식하기 위한 데이터 인식 모델을 구현하고, 구현된 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 그리고, 학습된 데이터 인식 모델을 이용하여 입력되는 데이터인 이미지를 분석 또는 분류하여, 이미지 내에 포함되는 객체가 무엇인지를 분석 및 분류할 수 있다.

본 개시의 실시예에서 이용되는 뉴럴 네트워크를 통하여 수행되는 동작들은 이하에서 도 23을 참조하여 상세히 설명한다.

예를 들어, 프로세서(220)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트에 등장한 하나 이상의 얼굴을 인식할 수 있다. 예를 들어, 프로세서(220)는 딥 뉴럴 네트워크를 통한 연산을 수행하여, 제1 컨텐트에 등장한 하나 이상의 객체, 예를 들어, 등장 인물의 얼굴을 인식할 수 있다.

또한, 프로세서(220)는, 학습 모델을 이용하여, 제1 컨텐트에 등장한 얼굴이 누구의 얼굴인지 인식할 수 있다. 또는, 실시예에 따라, 프로세서(220)는, 제1 컨텐트에 등장한 하나 이상의 물건(예를 들어, 자동차, 가방, 전자 장치 등)을 인식할 수 있다. 또한, 프로세서(220)는 제1 컨텐트에 등장하는 배경 또는 장소를 인식할 수 있다. 또한, 프로세서(220)가 인식하는 것은 제1 컨텐트에 등장하였으며 사용자가 독립된 객체로 인지할 수 있는 것을 포함할 수 있으며, 전술한 예에 한정되지 않는다. 이때, 제1 컨텐트는, 사용자가 시청한 복수의 컨텐트 중에서, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트를 의미할 수 있다. 사용자는, 컨텐트를 시청한 이후 시간이 경과함에 따라, 특정 객체가 시청했던 컨텐트에 등장한 객체인지 식별하기 어려울 수 있다. 이에 따라, 영상 표시 장치(100)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간(예를 들어, 3시간) 이내에 시청된 컨텐트로부터 인식된 객체를 나타내는 이미지를 참 이미지로 저장할 수 있다.

또는, 제1 컨텐트는 가장 최근에 사용자가 시청한 컨텐트가 될 수 있다.

또한, 제1 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하는 경우 해당 컨텐트가 되며, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하지 않는 경우 가장 최근에 사용자가 시청한 컨텐트가 될 수 있을 것이다.

또한, 제1 컨텐트는 소정 시간 이상 시청된 컨텐트가 될 수 있다. 사용자가 제1 컨텐트를 짧은 시간, 예를 들어, 10분 또는 30분 이내 시청한 경우, 해당 컨텐트에 등장하는 객체들을 전체적으로 인식할 수 없을 수 있다. 따라서, 제1 컨텐트는 소정 시간 이상 시청된 컨텐트로 설정될 수 있을 것이다.

또한, 제1 컨텐트에 등장하는 객체들 중 참 이미지에 포함되는 객체는, 사용자가 시청한 시간 동안에 재생된 제1 컨텐트에 포함되는 객체가 될 수 있다. 예를 들어, 제1 컨텐트의 총 재생 시간이 2시간 인 경우, 사용자가 컨텐트 재생 시작 시점부터 1시간 30분 동안 제1 컨텐트를 시청하고, 제1 컨텐트가 종료되기 전 30분에 대응되는 영상은 시청하지 않은 경우가 있을 수 있다. 이 경우, 제1 컨텐트에 있어서, 재생 시작 시점부터 1시간 30분 동안에 재생된 영상들에서 등작한 객체를 참 이미지에 포함되는 객체로 설정할 수 있을 것이다.

이하에서는, 설명의 편의 상, 제1 컨텐트가 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간(예를 들어, 3시간, 6시간 등) 이내에 시청된 컨텐트인 경우를 예로 들어 설명한다.

제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는, 제1 컨텐트로부터 추출된 이미지를 포함할 수 있으며, 제1 컨텐트로부터 인식된 객체가 등장한 다른 컨텐트로부터 추출된 이미지를 포함할 수 있다. 예를 들어, 프로세서(220)는, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.

또한, 본 개시의 실시예에서, 객체의 인식은 제1 컨텐트에 포함되는 단위 이미지 단위로 수행될 수 있다. 여기서, 여기서, 단위 이미지는 프레임(frame), 씬(scene) 또는 GOP(Group Of Picture) 등이 될 수 있다. 이하에서는, 설명의 편의 상, 단위 이미지가 프레임인 경우를 예로 들어 설명하도록 하겠다.

구체적으로, 프로세서(220)는 제1 컨텐트를 형성하는 프레임 단위로, 객체 인식을 수행할 수 있다. 예를 들어, 프로세서(220)는, 제1 컨텐트를 형성하는 복수의 프레임에서 이미징된 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.

그리고, 일 실시예에 따른 프로세서(220)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이(230)를 제어할 수 있다.

데이터베이스는, 복수의 참 이미지와 복수의 거짓 이미지를 저장할 수 있다. 거짓 이미지는, 예를 들어, 사용자가 시청한지 기설정된 시간 이상(예를 들어, 24시간 이상) 경과한 제2 컨텐트로부터 인식된 객체를 나타내는 이미지를 포함할 수 있다.

또한, 제2 컨텐트는 제1 컨텐트의 재생이 시작되는 시점을 기준으로, 소정 시간, 예를 들어, 24시간 또는 일주일 등과 같이 설정된 시간 이전에 재생된 컨텐트가 될 수 있다. 예를 들어, 사용자 인증 요청이 2017년 7월 5일 20시에 입력되었으며, 제1 컨텐트가 2017년 7월 5일 17시-18시 동안에 시청된 컨텐트인 경우, 제2 컨텐트는 제1 컨텐트의 재생 시작 시점인 2017년 7월 5일 17시부터 24시간 이전에 재생된 컨텐트가 될 수 있을 것이다. 또한, 24시간 또는 일주일 등과 같이 설정된 시간의 구체적인 값은 사용자 또는 영상 표시 장치(100)의 자체 설정에 따라서 달라질 수 있을 것이다.

또한, 영상 표시 장치(100)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기(예를 들어, 하루에 한번)마다 갱신할 수 있다. 데이터베이스에 저장된 거짓 이미지가 고정되어 있을 경우, 허가를 받지 않은 외부 사용자에 의해 제어되는 전자 장치가 데이터베이스에 저장된 거짓 이미지를 학습할 수 있다. 따라서, 영상 표시 장치(100)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기마다 갱신함으로써, 허가를 받은 사용자를 보다 효과적으로 식별하도록 할 수 있다.

일 실시예에 따른 프로세서(220)는, 디스플레이된 인증 이미지 세트에서 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인증받은 사용자로 판단할 수 있다. 전술한 바와 같이, 인증받은 사용자는, 영상 표시 장치(100)를 사용할 수 있는 정당한 권한을 갖는 사용자, 영상 표시 장치(100)를 통해 디스플레이되는 컨텐트를 시청할 수 있는 권한이 있는 사용자를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 3개의 참 이미지와 6개의 거짓 이미지를 포함하는 인증 이미지 세트가 디스플레이 될 때, 프로세서(220)는 3개의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인증받은 사용자로 판단할 수 있다. 이에 따라, 프로세서(220)는, 인증받은 사용자임을 나타내는 메시지를 출력하도록 디스플레이(230)를 제어할 수 있으나, 이에 한정되지 않는다.

그러나, 사용자 입력이 인증 이미지 세트에서 참 이미지를 모두 선택하는데 실패한 경우, 프로세서(220)는 새로운 인증 이미지 세트를 출력하도록 디스플레이(230)를 제어할 수 있다. 또한, 실시예에 따라, 프로세서(220)는, 인증 이미지 세트에서 참 이미지를 모두 선택하는데 실패한 사용자 입력이 기설정된 횟수 이상 반복될 경우, 사용자 인증에 실패했음을 나타내는 메시지를 출력하도록 디스플레이(230)를 제어할 수 있다.

일 실시예에 따른 디스플레이(230)는, 사용자 인증에 사용되는 인증 이미지 세트를 디스플레이할 수 있다. 인증 이미지 세트에 포함되는 이미지 개수는 실시예에 따라 달라질 수 있다. 예를 들어, 디스플레이(230)는, 사용자가 제어 장치(101)의 숫자 버튼(0 내지 9)을 이용하여 이미지를 선택하기 용이하도록, 9개의 이미지를 3x3 매트릭스 형태로 디스플레이할 수 있으나, 이에 한정되지 않는다.

일 실시예에 따른 디스플레이(230)는, 인증 이미지 세트에서 참 이미지를 모두 선택하는 것에 실패한 사용자 입력에 응답하여, 새로운 이미지 세트를 출력할 수 있다. 또한, 디스플레이(230)는, 사용자 인증 결과를 나타내는 메시지를 출력할 수 있다.

디스플레이(230)가 터치 스크린으로 구현되는 경우, 디스플레이(230)는 출력 장치 이외에 입력 장치로 사용될 수 있다. 예를 들어, 디스플레이(230)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기 영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고, 영상 표시 장치(100a)의 구현 형태에 따라, 영상 표시 장치(100a)는 디스플레이(230)를 2개 이상 포함할 수 있다.

도 3 에 있어서, 도 2 에서와 동일한 구성은 동일한 도면기호를 이용하여 도시하였다. 따라서, 영상 표시 장치(201)를 설명하는데 있어서 도 1 내지 도 2 에서와 중복되는 설명은 생략한다. 도 3을 참조하면, 도 3에 도시된 영상 표시 장치(201)는 도 2 에 도시된 영상 표시 장치(100a)에 비하여 통신부(240) 및 사용자 인터페이스(250)를 더 포함할 수 있다.

통신부(240)는 유무선의 네트워크를 통하여 외부 장치(미도시)들과 통신할 수 있다. 구체적으로, 통신부(240)는 프로세서(220)의 제어에 따라서 유무선의 네트워크를 통하여 연결되는 외부 장치(미도시)와 데이터를 송수신할 수 있다. 여기서, 외부 장치(미도시)는 영상 표시 장치(201)가 디스플레이하는 컨텐트를 제공하는 서버, 전자 장치 등이 될 수 있다. 예를 들어, 외부 장치(미도시)는 소정 컨텐트를 디스플레이 장치(200)로 송신할 수 있는 장치로, 방송국 서버, 컨텐트 제공자 서버, 컨텐트 저장 장치 등이 포함될 수 있을 것이다.

본 개시의 실시예에서, 제1 컨텐트 및/또는 제2 컨텐트를 통신부(240)를 통하여 외부 장치(미도시)로부터 수신될 수 있다. 또한, 통신부(240)는 참 이미지 및/또는 거짓 이미지를 제공할 수 있는 서버(미도시)와 유무선의 네트워크를 통하여 통신할 수 있다.

또한, 본 개시의 실시예에서, 통신부(240)와 연결될 수 있는 외부 장치(미도시)는 참 이미지 및/또는 거짓 이미지에서 객체를 인식하고 인식된 객체를 포함하는 이미지를 생성할 수 있는 서버 또는 전자 장치가 될 수 있다.

또한, 통신부(210)는, 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등과 같은 적어도 하나의 통신 모듈을 포함한다. 여기서, 적어도 하나의 통신 모듈은 방송 수신을 수행하는 튜너, 블루투스, WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), CDMA, WCDMA 등과 같은 통신 규격을 따르는 네트워크를 통하여 데이터 송수신을 수행할 수 있는 통신 모듈을 뜻한다.

사용자 인터페이스(250)는 영상 표시 장치(201)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 인터페이스(250)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch) 등을 포함하는 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다. 또한, 영상 표시 장치(201)가 원격 제어 장치(remote controller)(미도시)에 의해서 조작되는 경우, 사용자 인터페이스(250)는 원격 제어 장치(미도시)로부터 수신되는 제어 신호를 수신할 수도 있을 것이다.

본 개시의 실시예에서, 사용자 인터페이스(250)는 사용자 인증 요청에 대응되는 사용자 입력을 수신할 수 있다. 또한, 사용자 인터페이스(250)는 인증 이미지 세트로부터 하나 이상의 참 이미지를 선택하는 사용자 입력을 수신할 수 있다.

도 4 에 있어서, 도 3 에서와 동일한 구성은 동일한 도면기호를 이용하여 도시하였다. 따라서, 영상 표시 장치(202)를 설명하는데 있어서 도 1 내지 도 3 에서와 중복되는 설명은 생략한다.

도 4를 참조하면, 도 3에 도시된 영상 표시 장치(202)는 도 3 에 도시된 영상 표시 장치(201)에 비하여 뉴럴 네트워크 프로세서(260)을 더 포함할 수 있다.

영상 표시 장치(100a 또는 201)에서는 뉴럴 네트워크를 통한 연산을 수행하여 소정 동작을 실행되도록 제어하는 동작을 프로세서(220)에서 수행하였다. 본 개시의 다른 실시예에 따른 영상 표시 장치(202)는 뉴럴 네트워크를 통하여 연산을 수행하기 위해서 별도의 프로세서인 뉴럴 네트워크 프로세서(260)를 포함할 수 있다.

뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크를 통한 연산을 수행할 수 있다. 구체적으로, 본 개시의 실시예에서, 뉴럴 네트워크 프로세서(260)는 하나 상의 인스트럭션을 실행하여 뉴럴 네트워크를 통한 연산이 수행되도록 할 수 있다.

구체적으로, 뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크를 통한 연산을 수행하여, 소정 이미지에서의 객체 인식을 수행할 수 있다. 예를 들어, 뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크를 통한 연산을 수행하여 제1 컨텐트에 등장한 하나 이상의 얼굴을 인식할 수 있다.

도 5에 도시된 바와 같이, 영상 표시 장치(300)는, 메모리(210), 프로세서(220), 및 디스플레이(230) 이외에, 튜너부(140), 통신부(150), 감지부(160), 입/출력부(170), 비디오 처리부(180), 오디오 처리부(1150), 오디오 출력부(125), 및 사용자 입력부(190)를 더 포함할 수 있다.

메모리(210), 프로세서(220), 및 디스플레이(230)에 대하여, 도 2에서 설명한 내용과 동일한 내용은 도 5에서 생략한다. 또한, 도 3에서 설명한 통신부(240)는 튜너부(140) 및 통신부(150) 중 적어도 하나에 대응될 수 있다. 또한, 영상 표시 장치(300)는 도 5에 도시된 구성들 이외에, 도 3에서 설명한 사용자 인터페이스(250)에 대응되는 구성을 더 포함할 수 있다.

따라서, 도 5에 도시된 영상 표시 장치(300)를 설명하는데 있어서, 도 1 내지 도 4와 중복되는 설명은 생략한다.

튜너부(140)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 영상 표시 장치(300)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 오디오(audio), 비디오(video) 및 부가 정보(예를 들어, EPG(Electronic Program Guide))를 포함한다.

튜너부(140)를 통해 수신된 방송 신호는 디코딩(decoding, 예를 들어, 오디오 디코딩, 비디오 디코딩 또는 부가 정보 디코딩)되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(220)의 제어에 의해 메모리(210)에 저장될 수 있다.

영상 표시 장치(300)의 튜너부(140)는 하나이거나 복수일 수 있다. 튜너부(140)는 영상 표시 장치(300)와 일체형(all-in-one)으로 구현되거나 또는 영상 표시 장치(300)와 전기적으로 연결되는 튜너부를 가지는 별개의 장치(예를 들어, 셋탑박스(set-top box, 도시되지 아니함), 입/출력부(170)에 연결되는 튜너부(도시되지 아니함))로 구현될 수 있다.

통신부(150)는 프로세서(220)의 제어에 의해 영상 표시 장치(300)를 외부 장치(예를 들어, 오디오 장치 등)와 연결할 수 있다. 프로세서(220)는 통신부(150)를 통해 연결된 외부 장치로 컨텐트를 송/수신, 외부 장치에서부터 어플리케이션(application)을 다운로드하거나 또는 웹 브라우징을 할 수 있다.

통신부(150)는 영상 표시 장치(300)의 성능 및 구조에 대응하여 무선 랜(151), 블루투스(152), 및 유선 이더넷(Ethernet, 153) 중 하나를 포함할 수 있다. 또한, 통신부(150)는 무선랜(151), 블루투스(152), 및 유선 이더넷(Ethernet, 153)의 조합을 포함할 수 있다. 통신부(150)는 프로세서(220)의 제어에 의해 제어 장치(101)의 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다.

통신부(150)는 블루투스 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 도시되지 아니함), BLE(bluetooth low energy, 도시되지 아니함)를 더 포함할 수 있다.

일 실시예에 따른 통신부(150)는, 외부 서버로부터 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 수신할 수 있다. 또한, 통신부(150)는, 데이터베이스에 저장된 거짓 이미지를 갱신하기 위하여, 외부 서버로부터 기설정된 주기마다 새로운 거짓 이미지들을 수신할 수 있다.

감지부(160)는 사용자의 음성, 사용자의 영상, 또는 사용자의 인터랙션을 감지하며, 마이크(161), 카메라부(162), 및 광 수신부(163)를 포함할 수 있다.

마이크(161)는 사용자의 발화(utterance)된 음성을 수신한다. 마이크(161)는 수신된 음성을 전기 신호로 변환하여 프로세서(220)로 출력할 수 있다.

카메라부(162)는 카메라 인식 범위에서 제스처를 포함하는 사용자의 모션에 대응되는 영상(예를 들어, 연속되는 프레임)을 수신할 수 있다.

광 수신부(163)는, 제어 장치(101)에서부터 수신되는 광 신호(제어 신호를 포함)를 수신한다. 광 수신부(163)는 제어 장치(101)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(220)의 제어에 의해 제어 신호가 추출될 수 있다.

일 실시예에 따른 광 수신부(163)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 대응되는 광 신호를 제어 장치(101)로부터 수신할 수 있다.

입/출력부(170)는 프로세서(220)의 제어에 의해 영상 표시 장치(300)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입/출력부(170)는 HDMI 포트(High-Definition Multimedia Interface port, 171), 컴포넌트 잭(component jack, 172), PC 포트(PC port, 173), 및 USB 포트(USB port, 174) 중 하나를 포함할 수 있다. 입/출력부(170)는 HDMI 포트(171), 컴포넌트 잭(172), PC 포트(173), 및 USB 포트(174)의 조합을 포함할 수 있다.

일 실시예에 따른 메모리(210)는, 프로세서(220)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 영상 표시 장치(300)로 입력되거나 영상 표시 장치(300)로부터 출력되는 데이터를 저장할 수 있다. 또한, 메모리(210)는 영상 처리 장치(300)의 동작에 필요한 데이터들을 저장할 수 있다.

또한, 메모리(210)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있다. 구체적으로, 메모리(210)는 뉴럴 네트워크를 이용하여 소정 동작을 수행하기 위한 하나 이상의 프로그램을 저장할 수 있다. 예를 들어, 메모리(210)에 저장되는 하나 이상의 프로그램은 학습 모듈(211)과 인증 모듈(212) 등으로 분류될 수 있다.

학습 모듈(211)은, 하나 이상의 뉴럴 네트워크에 복수의 학습 이미지가 입력된 것에 응답하여 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습하여 결정되는 학습 모델을 포함할 수 있다. 학습 모델은 외부 서버로부터 수신될 수 있으며, 수신된 학습 모델은 학습 모듈(211)에 저장될 수 있다.

인증 모듈(212)은, 프로세서(220)가 하나 이상의 인스트럭션을 수행함으로써, 인증 이미지 세트를 이용하여 사용자 인증을 수행하도록 하는 프로그램을 저장할 수 있다. 예를 들어, 인증 모듈(212)은, 프로세서(2200가 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이(230)를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여 사용자 인증을 수행하도록 하는 프로그램을 저장할 수 있다.

또한, 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 프로그램, 또는 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 인스트럭션은 프로세서(220)에 포함되는 내부 메모리(미도시)에 저장될 수도 있을 것이다.

프로세서(220)는 영상 표시 장치(300)의 전반적인 동작 및 영상 표시 장치(300)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행한다. 프로세서(220)는 사용자의 입력이 있거나 기설정되어 저장된 조건을 만족하는 경우, 메모리(210)에 저장된 OS(Operation System) 및 다양한 애플리케이션을 실행할 수 있다.

일 실시예에 따른 프로세서(220)는, 메모리(210)에 저장된 하나 이상의 인스트럭션을 수행함으로써, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 디스플레이상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 디스플레이를 제어하고, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.

또한, 프로세서(220)는 내부 메모리(미도시)를 포함할 수 있을 것이다. 이 경우, 메모리(210)에 저장되는 데이터, 프로그램, 및 인스트럭션 중 적어도 하나가 프로세서(220)의 내부 메모리(미도시)에 저장될 수 있다. 예를 들어, 프로세서(220)의 내부 메모리(미도시)는 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 프로그램, 또는 뉴럴 네트워크를 이용하여 소정 동작들을 수행하기 위한 하나 이상의 인스트럭션은 저장할 수 있다.

비디오 처리부(180)는, 디스플레이(230)에 의해 표시될 영상 데이터를 처리하며, 영상 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및 해상도 변환 등과 같은 다양한 영상 처리 동작을 수행할 수 있다.

디스플레이(230)는 프로세서(220)의 제어에 의해 튜너부(140)를 통해 수신된 방송 신호에 포함된 비디오를 화면에 표시할 수 있다. 또한, 디스플레이(230)는 통신부(150) 또는 입/출력부(170)를 통해 입력되는 컨텐트(예를 들어, 동영상)를 표시할 수 있다. 디스플레이(230)는 프로세서(220)의 제어에 의해 메모리(210)에 저장된 영상을 출력할 수 있다.

오디오 처리부(115)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(115)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.

오디오 출력부(125)는 프로세서(220)의 제어에 의해 튜너부(140)를 통해 수신된 방송 신호에 포함된 오디오, 통신부(150) 또는 입/출력부(170)를 통해 입력되는 오디오, 메모리(210)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(125)는 스피커(126), 헤드폰 출력 단자(127) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(128) 중 적어도 하나를 포함할 수 있다.

사용자 입력부(190)는, 사용자가 영상 표시 장치(300)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(190)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드, 조그 휠, 조그 스위치 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

또한, 사용자 입력부(190)는, 전술한 제어 장치(101)의 구성요소일 수 있고, 영상 표시 장치(300)의 구성요소일 수 있다.

일 실시예에 따른 사용자 입력부(190)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 입력을 수신할 수 있다. 예를 들어, 사용자 입력부(190)가 키 패드 또는 돔 스위치로 구성되는 경우, 인증 이미지 세트의 각 이미지에 대응하는 숫자 키를 클릭(click)하거나 누르는 입력, 또는 방향 키를 클릭하거나 누르는 입력을 통해 하나 이상의 이미지를 선택할 수 있으나, 전술한 예에 한정되지 않는다.

한편, 도 2 및 도 5에 도시된 영상 표시 장치(100a 및 300)의 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 영상 표시 장치(100a 및 300)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 예를 들어, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분화되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.

도 6은 일 실시예에 따라 이미지로부터 객체를 인식하는 방법을 학습하는 뉴럴 네트워크(neural network)의 예시를 나타내는 도면이다.

도 6을 참조하면, 뉴럴 네트워크(400)는, 복수의 학습 이미지(411 내지 416)을 입력 값으로 하여 이미지로부터 객체를 인식하는 방법을 학습할 수 있다. 예를 들어, 뉴럴 네트워크(400)는, 복수의 학습 이미지(411 내지 416)로부터 얼굴을 인식하는 방법을 학습할 수 있다. 이때, 복수의 학습 이미지(411 내지416)는, 사용자가 영상 표시 장치(100)를 통해 시청하는 복수의 동영상 컨텐트(예를 들어, 드라마, 스포츠 경기, 영화 등)로부터 추출된 이미지, 화보 이미지, 광고 이미지 등을 포함할 수 있으나, 이에 한정되지 않는다.

하나 이상의 뉴럴 네트워크는, 복수의 학습 이미지가 입력된 것에 응답하여, 복수의 학습 이미지에 포함된 하나 이상의 객체를 인식하는 방법을 학습할 수 있으며, 학습된 결과에 기초하여 학습 모델(420)이 생성될 수 있다.

여기서, 학습 모델(420)은 뉴럴 네트워크를 통하여 목적하는 결과를 획득될 수 있도록 하는, 학습된 뉴럴 네트워크 자체가 될 수 있다. 구체적으로, 객체 인식을 위하여, 복수의 학습 이미지를 이용하여 뉴럴 네트워크를 훈련(training)하여, 뉴럴 네트워크를 형성하는 복수개의 노드(node)들 각각에 적용되는 복수개의 가중치(weight)의 값을 설정할 수 있다. 여기서, 가중치는 뉴럴 트워크의 각 노드들 간의 연결 강도를 의미할 수 있다. 가중치 값은 반복적인 학습을 통하여 최적화될 수 있으며, 결과의 정확도가 소정의 신뢰도를 만족할 때까지 반복적으로 수정될 수 있다. 학습 모델(420)는 최종적으로 설정된 가중치 값들에 의해서 형성된 뉴럴 네트워크가 될 수 있다.

일부 실시예에 따르면, 하나 이상의 뉴럴 네트워크(400)를 이용하여 이미지로부터 객체를 인식하는 방법을 학습하는 동작은, 사전에 수행될 수 있다. 또한, 복수의 학습 이미지 중 일부가 변경됨에 따라, 학습 모델(420)이 업데이트될 수 있다. 예를 들어, 사용자가 영상 표시 장치(100)를 통해 컨텐트를 시청함에 따라, 시청한 컨텐트로부터 추출된 이미지가 학습 이미지로 사용될 수 있다. 또한, 소정의 주기(예를 들어, 24시간) 단위로, 사용자가 시청한 컨텐트로부터 하나 이상의 이미지가 추출될 수 있으며, 추출된 이미지가 학습 이미지로 사용할 수 있다. 새로운 학습 이미지가 추가되면, 하나 이상의 뉴럴 네트워크(400)는 이미지로부터 객체를 인식하는 방법을 다시 학습할 수 있으며, 이에 따라 학습 모델이 업데이트될 수 있다.

또한, 하나 이상의 뉴럴 네트워크(400)를 이용하여 이미지로부터 객체를 인식하는 방법을 학습하는 동작은, 영상 표시 장치(100)에서 수행될 수 있으며, 실시예에 따라 외부 서버에서 수행될 수 있다. 예를 들어, 하나 이상의 뉴럴 네트워크(400)를 이용하여 이미지로부터 객체를 인식하는 방법을 학습하는 동작은, 상대적으로 복잡한 연산량을 필요로 할 수 있다. 이에 따라, 외부 서버가 학습하는 동작을 수행하고, 영상 표시 장치(100)는 외부 서버로부터 학습 모델(420)을 수신함으로써, 영상 표시 장치(100)에서 수행되어야 하는 연산량을 줄일 수 있다. 영상 표시 장치(100)는, 학습 모델(420)을 외부 서버로부터 사전에 수신하여 메모리에 저장하고, 저장된 학습 모델(420)을 이용하여 이미지로부터 하나 이상의 객체를 인식할 수 있다.

또한, 본 개시의 다른 실시예에서, 영상 표시 장치(202)는 뉴럴 네트워크(400)를 통한 학습 동작을 수행하는 별도의 전용 프로세서인 뉴럴 네트워크 프로세서(260)를 포함할 수 있다. 그리고, 뉴럴 네트워크 프로세서(260)는 뉴럴 네트워크(400)를 통한 학습을 수행하여, 학습 모델(420)을 결정할 수 있으며, 결정된 학슥 모델(420)을 통하여 객체 인식을 수행할 수 있을 것이다.

뉴럴 네트워크(400)를 통한 연산을 수행하는 동작은 이하에서 도 23을 참조하여 추가적으로 설명하도록 한다.

이하에서는, 본 개시의 실시예들에 있어서, 도 3 에 도시된 영상 표시 장치(201)를 참조하여, 본 개시의 실시예에서 수행되는 구체적인 동작들을 설명하도록 한다.

도 7은 일 실시예에 따라 사용자 인증에 사용되는 데이터베이스를 생성하는 과정을 나타내는 흐름도이다. 또한, 도 7에 도시된 서버(500)는 뉴럴 네트워크를 통하여 객체 인식을 수행할 수 있는 서버가 될 수 있다. 또한, 서버(500)는 영상 표시 장치(201)와 별도로 형성될 수 있으며, 영상 표시 장치(201)의 통신부(240)를 통하여 연결될 수 있다.

도 7을 참조하면, S510 단계에서, 서버(500)는, 사용자가 어제 시청한 제2 컨텐트로부터 하나 이상의 단위 이미지를 추출할 수 있다. 여기서, 단위 이미지는 프레임(frame), 씬(scene) 또는 GOP(Group Of Picture) 등이 될 수 있다. 이하에서는, 설명의 편의 상, 단위 이미지가 프레임인 경우를 예로 들어 설명하도록 하겠다. 제2 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 컨텐트일 수 있으며, 사용자가 어제 시청한 컨텐트에 한정되지 않는다. 동영상 컨텐트는 복수의 프레임을 포함하며, 영상 표시 장치(201)는 거짓 이미지를 수집하기 위하여, 제2 컨텐트로부터 하나 이상의 프레임을 추출할 수 있다. 이때, 영상 표시 장치(201)는, 기설정된 시간 단위로 제2 컨텐트의 프레임을 캡쳐할 수 있으나, 이에 한정되지 않는다.

S511 단계에서, 서버(500)는, 제2 컨텐트로부터 추출된 프레임을 분석하여, 학습 이미지를 생성할 수 있다. 예를 들어, 영상 표시 장치(201)는, 프레임을 분석하여, 프레임에 사람의 얼굴이 등장하는지 여부를 판단할 수 있고, 사람의 얼굴이 등장하는 프레임에 기초하여 학습 이미지를 생성할 수 있다. 생성된 학습 이미지는, 제2 컨텐트의 특정 프레임을 캡쳐한 이미지일 수도 있으며, 제2 컨텐트의 특정 프레임을 캡쳐한 이미지를 소정의 기준에 따라 편집한 이미지일 수 있으나, 이에 한정되지 않는다.

또한, S520 단계에서, 일 실시예에 따른 서버(500)는, 외부로부터 복수의 학습 이미지를 획득할 수 있다. 예를 들어, 복수의 학습 이미지는, 서버(500)에 기저장된 이미지, 외부 장치로부터 수신된 이미지일 수 있으나, 이에 한정되지 않는다. 서버(500)는, 복수의 학습 이미지를 외부 장치로부터 미리 수신할 수 있으며, 외부 장치로부터 기설정된 주기마다 새로운 학습 이미지를 수신함으로써 복수의 학습 이미지를 갱신할 수 있다.

S521 단계에서, 서버(500)는, 하나 이상의 뉴럴 네트워크를 이용하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있다. 하나 이상의 뉴럴 네트워크가 획득한 복수의 학습 이미지 및 제2 컨텐트에 기초하여 생성된 학습 이미지가 입력된 것에 응답하여, 이미지로부터 객체를 인식하는 방법을 학습할 수 있으며, 이미지로부터 객체를 인식하는 방법을 학습한 결과에 기초하여, 학습 모델이 생성될 수 있다. 서버(500)는, 생성된 학습 모델을 영상 표시 장치(201)에 전송하고, 영상 표시 장치(201)는 수신된 학습 모델을 이용하여 데이터베이스에 저장할 참 이미지를 수집할 수 있다.

S522 단계에서, 서버(500)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제2 컨텐트에 기초하여 생성된 학습 이미지 또는 복수의 학습 이미지로부터 하나 이상의 객체를 인식할 수 있고, 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 거짓 이미지로 저장할 수 있다. 예를 들어, 학습 모델이 사람의 얼굴을 인식하는 경우, 학습 모델은 인식된 얼굴이 누구의 얼굴인지 판단할 수 있다. 거짓 이미지는, 제2 컨텐트로부터 추출된 이미지(예를 들어, 제2 컨텐트의 프레임을 캡쳐한 이미지)로서, 제2 컨텐트에서 인식된 얼굴을 포함하는 이미지일 수 있다. 또한, 거짓 이미지는, 제2 컨텐트로부터 인식된 얼굴에 대응하는 사람의 광고 이미지, 화보 이미지 등일 수 있으나, 이에 한정되지 않는다.

S530 단계에서, 영상 표시 장치(201)는, 오늘 시청한 제1 컨텐트로부터 하나 이상의 프레임을 추출할 수 있다. 제1 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 내에 시청된 컨텐트(예를 들어, 6시간 내에 시청된 컨텐트)일 수 있으며, 사용자가 오늘 시청한 컨텐트에 한정되지 않는다. 또한, 제1 컨텐트는 가장 최근에 사용자가 시청한 컨텐트가 될 수 있다. 또한, 제1 컨텐트는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하는 경우 해당 컨텐트가 되며, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트가 존재하지 않는 경우 가장 최근에 사용자가 시청한 컨텐트가 될 수 있을 것이다.

S531 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 추출된 프레임을 분석하여, 학습 이미지를 생성할 수 있다. 생성된 학습 이미지는, 제1 컨텐트의 특정 프레임을 캡쳐한 이미지일 수도 있으며, 제1 컨텐트의 특정 프레임을 캡쳐한 이미지를 소정의 기준에 따라 편집한 이미지일 수 있으나, 이에 한정되지 않는다.

S532 단계에서, 영상 표시 장치(201)는, 서버(500)로부터 수신된 학습 모델을 이용하여, 제1 컨텐트에 기초하여 생성된 학습 이미지로부터 하나 이상의 객체를 인식할 수 있다. 학습 모델은 기설정된 주기마다 서버(500)에서 업데이트될 수 있으며, 영상 표시 장치(201)는 업데이트된 학습 모델을 서버(500)로부터 수신할 수 있다.

S533 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 객체가 제1 컨텐트에 기설정된 횟수 이상 등장하는지 여부, 제1 컨텐트로부터 인식된 객체가 식별력이 있는지 여부 중 적어도 하나를 판단할 수 있다. 예를 들어, 제1 컨텐트로부터 인식된 객체가 가로등, 버스, 가로수 등과 같이 복수의 컨텐트에 빈번하게 등장하는 객체인 경우, 사용자는 해당 객체가 제1 컨텐트에 등장한 것인지 여부를 판단하기 어려울 수 있다. 따라서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체 중에서, 사용자가 제1 컨텐트에 등장한 객체임을 용이하게 판단할 수 있도록, 식별력이 있는 객체를 나타내는 이미지를 참 이미지로 저장할 수 있다. 예를 들어, 제1 컨텐트가 영화일 때, 영상 표시 장치(201)는, 제1 컨텐트에 등장하는 주인공들의 얼굴을 인식할 수 있으나, 이에 한정되지 않는다.

S534 단계에서, 영상 표시 장치(201)는, 복수의 참 이미지와 복수의 거짓 이미지를 데이터베이스에 저장할 수 있다. 영상 표시 장치(201)는, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지를 사용자 인증을 수행하는데 사용할 수 있다. 예를 들어, 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다. 그리고, 영상 표시 장치(201)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.

일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간(예를 들어, 3시간, 6시간 등) 이내에 시청된 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.

예를 들어, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 3시간 이내에 시청된 제1 컨텐트로부터 하나 이상의 이미지를 추출할 수 있다. 영상 표시 장치(201)는, 추출된 하나 이상의 이미지로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다. 이때, 참 이미지는, 제1 컨텐트로부터 추출된 장면을 나타내는 이미지일 수 있으며, 다른 컨텐트로부터 추출된 이미지로서 해당 객체를 포함하는 이미지를 포함할 수 있으나, 이에 한정되지 않는다. 또한, 실시예에 따라, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날에 사용자가 시청한 제1 컨텐트로부터 하나 이상의 이미지를 추출할 수 있으나, 이에 한정되지 않는다.

도 8을 참조하면, 영상 표시 장치(201)는, 사용자 인증을 요청하는 입력이 수신된 날에 사용자가 시청한 예능 프로그램으로부터 하나 이상의 이미지(631, 632)를 추출할 수 있다. 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 추출된 이미지(631, 632) 로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(640)에 참 이미지로서 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 추출된 하나 이상의 이미지(631, 632)로부터 하나 이상의 얼굴을 인식할 수 있으며, 인식된 하나 이상의 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스(640)에 참 이미지로서 저장할 수 있으나, 이에 한정되지 않는다.

또한, 일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 거짓 이미지로 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 24시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 이미지를 추출하고, 추출된 하나 이상의 이미지로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(620)에 거짓 이미지로 저장할 수 있다. 또는, 실시예에 따라, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날 이전에 시청된 제2 컨텐트로부터 하나 이상의 이미지를 추출할 수 있으나, 이에 한정되지 않는다.

예를 들어, 도 8을 참조하면, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날 이전에 시청된 드라마 A와 스포츠 경기로부터 각각 하나 이상의 이미지(601, 602, 611, 612)를 추출할 수 있다. 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 추출된 이미지(601, 602, 611, 612)로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스(620)에 거짓 이미지로서 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 추출된 하나 이상의 이미지(601, 602, 611, 612)로부터 하나 이상의 얼굴을 인식할 수 있으며, 인식된 하나 이상의 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스(620)에 거짓 이미지로서 저장할 수 있으나, 이에 한정되지 않는다.

일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트에서 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 거짓 이미지로 저장할 수 있다.

예를 들어, 도 9를 참조하면, 영상 표시 장치(201)는, 사용자 인증 요청 입력이 수신된 날 이전에 시청된 제2 컨텐트로부터 하나 이상의 이미지(701, 702, 703, 704)를 추출할 수 있다. 이때, 제2 컨텐트는, 사용자 인증 요청 입력이 수신된 날 이전에 사용자가 시청한 적어도 하나 이상의 컨텐트를 포함할 수 있다. 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델(710)을 이용하여, 제2 컨텐트로부터 추출된 하나 이상의 이미지(701, 702, 703, 704)로부터 하나 이상의 객체를 인식할 수 있다. 이때, 인식되는 하나 이상의 객체는 사람의 얼굴을 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 영상 표시 장치(201)는, 제2 컨텐트로부터 추출된 하나 이상의 이미지(701, 702, 703, 704)로부터 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)를 인식할 수 있다. 영상 표시 장치(201)는, 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)를 나타내는 이미지들을 데이터베이스(730)에 거짓 이미지로 저장할 수 있다. 이때, 거짓 이미지는, 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)를 포함하는 이미지로서, 제2 컨텐트로부터 추출된 이미지 또는 다른 컨텐트로부터 추출된 이미지를 포함할 수 있다. 예를 들어, 거짓 이미지는, 사용자가 시청한 제2 컨텐트로부터 운동선수 A(721)가 등장한 장면을 추출한 이미지, 운동선수 A(721)가 등장한 다른 스포츠 경기 영상으로부터 추출된 이미지를 포함할 수 있다. 또한, 실시예에 따라, 거짓 이미지는, 운동선수 A(721), 운동선수 B(722), 영화배우 C(723), 영화배우 D(724), 및 영화배우 E(725)가 등장하는 광고 이미지, 화보 이미지 등을 포함할 수 있으나, 이에 한정되지 않는다.

일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 내에 시청된 제1 컨텐트에서 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다.

예를 들어, 도 10을 참조하면, 영상 표시 장치(201)는, 사용자 인증 요청이 수신된 날에 사용자가 시청한 제1 컨텐트로부터 하나 이상의 이미지(741,742, 743)를 추출할 수 있다. 그리고, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델(750)을 이용하여, 제1 컨텐트로부터 추출된 하나 이상의 이미지(741, 742, 743)로부터 하나 이상의 객체를 인식할 수 있다. 예를 들어, 영상 표시 장치(201)는, 제1 컨텐트로부터 추출된 하나 이상의 이미지(741, 742, 743)로부터 가수 F(761), 가수 G(762), 가수 H (763), 가수 I(764), 및 가수 J(765)를 인식할 수 있다.

일 실시예에 따른 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체 중에서, 제1 컨텐트에 기설정된 횟수 이상 등장하는 객체를 나타내는 이미지를 데이터베이스(780)에 참 이미지로 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 제1 컨텐트를 구성하는 복수의 프레임으로부터 하나 이상의 객체를 인식하고, 인식된 하나 이상의 객체 중에서, 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 데이터베이스(780)에 참 이미지로서 저장할 수 있다.

사용자가 시청한 제1 컨텐트가 영화인 경우, 사용자는 영화에 등장하는 모든 인물들을 식별하기 어렵다. 예를 들어, 사용자는, 시청한 영화의 한 장면에만 등장하는 인물을 식별하기 어려울 수 있다. 따라서, 영상 표시 장치(201)는, 사용자가 시청한 영화로부터 인식된 인물들 중에서, 해당 영화에 기설정된 횟수 이상 등장한 인물을 나타내는 이미지를 데이터베이스(780)에 참 이미지로서 저장할 수 있다. 이에 따라, 영상 표시 장치(201)는, 사용자가 시청한 영화에서 상대적으로 비중이 높은 인물을 나타내는 이미지를 참 이미지로 저장함으로써, 사용자 인증 결과에 대한 신뢰도를 높일 수 있다.

도 11 및 도 12는 일 실시예에 따른 영상 표시 장치(201)가 인증 이미지 세트를 이용하여 사용자 인증을 수행하는 예시를 나타내는 도면이다.

도 11을 참조하면, 일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지(801, 802, 803)와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다.

예를 들어, 사용자가 제어 장치(101)의 숫자 키를 이용하여 인증 이미지 세트에서 하나 이상의 이미지를 용이하게 선택할 수 있도록, 영상 표시 장치(201)는 9개의 이미지를 포함하는 인증 이미지 세트를 디스플레이할 수 있다. 인증 이미지 세트는, 도 11에 도시된 바와 같이, 그리드(grid) 형태로 디스플레이될 수 있으나, 이에 한정되지 않는다.

일 실시예에 따른 영상 표시 장치(201)는, 인증 이미지 세트를 구성하는 각 이미지를 숫자에 매핑함으로써, 사용자가 제어 장치(101)의 숫자키를 선택하여 인증 이미지 세트에서 하나 이상의 이미지를 용이하게 선택하도록 할 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 인증 이미지 세트가 9개의 이미지를 포함하는 경우, 영상 표시 장치(201)는 이미지가 디스플레이된 위치에 따라 각 이미지를 숫자 1 내지 9에 매핑할 수 있다.

일 실시예에 따른 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 사용자에게 참 이미지를 모두 선택하도록 하는 메시지(810)와 함께 인증 이미지 세트를 디스플레이할 수 있다. 예를 들어, 도 11에 도시된 바와 같이 오늘 시청한 프로그램에 등장한 인물들을 모두 고르세요라는 메시지(810)와 함께 인증 이미지 세트가 출력되면, 사용자는 오늘 시청한 컨텐트에 등장한 인물들을 나타내는 이미지(801, 802, 803)를 모두 선택함으로써, 사용자 인증에 성공할 수 있다.

일 실시예에 따른 영상 표시 장치(201)는, 디스플레이된 인증 이미지 세트로부터 참 이미지(801, 802, 803)를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인증받은 사용자(authorized user)로 판단할 수 있다.

그러나, 사용자가 인증 이미지 세트에서 참 이미지(801, 802, 803)를 모두 선택하지 못한 경우, 영상 표시 장치(201)는 해당 사용자를 인증받지 못한 사용자(unauthorized user)로 판단할 수 있다. 예를 들어, 도 12를 참조하면, 사용자가 1개의 참 이미지(802)와 2개의 거짓 이미지(804, 805)를 선택한 경우, 영상 표시 장치(201)는 사용자 인증이 실패한 것으로 인식하고, 새로운 인증 이미지 세트를 다시 디스플레이할 수 있다. 또한, 기설정된 횟수 이상 사용자 인증에 실패하는 경우, 영상 표시 장치(201)는 해당 사용자를 인증받지 못한 사용자로 판단하고, 사용자 인증이 실패하였음을 나타내는 메시지를 출력할 수 있다.

도 13은 일 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다. 도 13에 도시된 영상 표시 장치의 동작 방법(900)은 도 1 내지 도 12를 참조하여 설명한 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)에서 수행되는 동작들을 포함할 수 있다. 따라서, 영상 표시 장치의 동작 방법(900)의 상세 동작들에 있어서, 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)에서 수행되는 동작들과 중복되는 상세 설명은 생략한다.

설명의 편의 상, 이하에서는 영상 표시 장치(201)를 참조하여 영상 표시 장치의 동작 방법(900)을 설명하도록 하겠다.

S900 단계에서, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치(201)의 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식한다. 구체적으로, S900 단계의 동작을 프로세서(220)의 제어에 따라서 수행될 수 있다. 또한, S900 단계에서 객체 인식 및/또는 객체 인식을 위한 학습 모델 획득 동작은 도 17 내지 도 18을 참조하여 설명한 서버(2000)에서 수행될 수도 있다.

예를 들어, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 제1 컨텐트에 등장한 하나 이상의 얼굴을 인식할 수 있으며, 실시예에 따라, 프로세서(220)는, 제1 컨텐트에 등장한 하나 이상의 물건(예를 들어, 자동차, 가방, 전자 장치 등)을 인식할 수 있다. 제1 컨텐트는, 사용자가 시청한 복수의 컨텐트 중에서, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트를 의미할 수 있다.

S910 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장한다.

영상 표시 장치(201)는, 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내(예를 들어, 3시간 이내)에 시청된 컨텐트로부터 인식된 객체를 나타내는 이미지를 참 이미지로 저장할 수 있다. 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는, 제1 컨텐트로부터 추출된 이미지를 포함할 수 있으며, 제1 컨텐트로부터 인식된 객체가 등장한 다른 컨텐트로부터 추출된 이미지를 포함할 수 있다. 예를 들어, 영상 표시 장치(201)는, 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고, 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 데이터베이스에 참 이미지로 저장할 수 있다. 이때, 영상 표시 장치(201)는, 이미지에서 인식된 객체에 관한 정보를 함께 저장할 수 있다. 예를 들어, 제1 컨텐트로부터 인식된 얼굴이 영화배우 A일 때, 영상 표시 장치(201)는 영화배우 A를 포함하는 이미지를 참 이미지로 저장하면서, 영화배우 A에 관한 이미지라는 것을 나타내는 정보를 함께 저장할 수 있다. 예를 들어, 영상 표시 장치(201)는, 영화배우 A임을 나타내는 정보를 이미지의 태그 정보로 저장할 수 있으나, 이에 한정되지 않는다.

S920 단계에서, 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여, 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 포함하는 인증 이미지 세트를 출력한다.

인증 이미지 세트에 포함되는 이미지 개수는 실시예에 따라 달라질 수 있다. 예를 들어, 영상 표시 장치(201)는, 사용자가 제어 장치(101)의 숫자 버튼(0 내지 9)을 이용하여 이미지를 선택하기 용이하도록, 9개의 이미지를 3x3 매트릭스 형태로 디스플레이할 수 있으나, 이에 한정되지 않는다.

영상 표시 장치(201)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기(예를 들어, 하루에 한번)마다 갱신할 수 있다. 데이터베이스에 저장된 거짓 이미지가 고정되어 있을 경우, 허가를 받지 않은 외부 사용자에 의해 제어되는 전자 장치가 고정된 거짓 이미지를 학습할 수 있다. 이에 따라, 영상 표시 장치(201)는, 데이터베이스에 저장된 거짓 이미지를 기설정된 주기마다 갱신함으로써, 적법한 권한을 가진 사용자를 보다 효과적으로 식별하도록 할 수 있다.

S930 단계에서, 영상 표시 장치(201)는, 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.

일 실시예에 따른 영상 표시 장치(201)는, 인증 이미지 세트에서 하나 이상의 참 이미지를 모두 선택하는 사용자 입력에 응답하여, 해당 사용자를 인가된 사용자로 판단할 수 있다.

또한, 사용자가 인증 이미지 세트에서 하나 이상의 참 이미지를 모두 선택하지 못하면, 영상 표시 장치(201)는 사용자 인증이 실패한 것으로 인식하고, 새로운 인증 이미지 세트를 디스플레이 할 수 있다. 실시예에 따라, 사용자가 인증 이미지 세트에 포함된 복수의 참 이미지에서 기설정된 수 이상 선택할 때, 영상 표시 장치(201)가 해당 사용자를 인가된 사용자로 판단할 수 있다. 예를 들어, 인증 이미지 세트에서 4개의 참 이미지가 포함된 경우, 영상 표시 장치(201)는 사용자가 참 이미지를 3개 이상 선택할 때, 해당 사용자를 인가된 사용자로 판단할 수 있으나, 이에 한정되지 않는다.

도 14를 참조하면, 일 실시예에 따른 프로세서(220)는 데이터 학습부(1010) 및 데이터 인식부(1020)를 포함할 수 있다.

데이터 학습부(1010)는 이미지로부터 객체를 인식하기 위한 기준을 학습할 수 있다. 데이터 학습부(1010)는 이미지로부터 객체를 판단하기 위해 이미지의 어떤 정보를 이용하는지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1010)는 이미지의 정보를 이용하여 객체를 어떻게 인식하는지에 관한 기준을 학습할 수 있다. 데이터 학습부(1010)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 사용자의 상태를 판단하기 위한 기준을 학습할 수 있다.

데이터 인식부(1020)는 이미지로부터 하나 이상의 객체를 인식하고, 인식된 결과를 출력할 수 있다. 데이터 인식부(1020)는 학습된 데이터 인식 모델을 이용하여, 소정의 이미지로부터 하나 이상의 객체를 인식할 수 있다. 데이터 인식부(1020)는 학습에 의한 기 설정된 기준에 따라 이미지를 데이터를 획득하고, 획득된 컨텍스트 데이터를 입력 값으로 하여 데이터 인식 모델을 이용할 수 있다. 또한, 데이터 인식부(1020)는 데이터 인식 모델을 이용함으로써, 이미지로부터 하나 이상의 객체를 인식할 수 있다. 또한, 획득된 이미지를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 업데이트하는데 이용될 수 있다.

데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

이 경우, 데이터 학습부(1010) 및 데이터 인식부(1020)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1010) 및 데이터 인식부(1020) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1010) 및 데이터 인식부(1020)는 유선 또는 무선으로 통하여, 데이터 학습부(1010)가 구축한 모델 정보를 데이터 인식부(1020)로 제공할 수도 있고, 데이터 인식부(1020)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1010)로 제공될 수도 있다.

한편, 데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1010) 및 데이터 인식부(1020) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 15는 일 실시예에 따른 데이터 학습부의 블록도이다.

도 15를 참조하면, 일 실시예에 따른 데이터 학습부(1010)는 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015)를 포함할 수 있다.

데이터 획득부(1011)는 이미지로부터 객체를 인식하기 위한 학습을 위해 필요한 데이터를 획득할 수 있다. 데이터 획득부(1011)는 소셜 네트워크 서버(social network server), 클라우드 서버(cloud server) 또는 콘텐트 제공 서버 등의 외부 서버로부터 데이터를 획득할 수 있다.

데이터 획득부(1011)는, 이미지로부터 객체를 인식하기 위한 학습을 위해 필요한 이미지를 획득할 수 있다. 예를 들어, 데이터 획득부(1011)는, 네트워크를 통해 영상 표시 장치(201)에 연결된 적어도 하나의 외부 장치로부터 이미지를 획득할 수 있으며, 사용자가 시청한 컨텐트로부터 하나 이상의 장면을 추출하여 이미지를 획득할 있다.

전처리부(1012)는 이미지로부터 하나 이상의 객체를 인식하기 위한 학습에 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1012)는 후술할 모델 학습부(1014)가 이미지로부터 하나 이상의 객체를 인식하는 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. 예를 들어, 전처리부(1012)는, 획득한 이미지를 분석하여, 이미지의 속성 정보를 검출할 수 있으나, 이에 한정되지 않는다.

학습 데이터 선택부(1013)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1014)에 제공될 수 있다. 학습 데이터 선택부(1013)는 이미지로부터 객체를 인식하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1013)는 후술할 모델 학습부(1014)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.

모델 학습부(1014)는, 이미지로부터 객체를 인식하기 위하여, 어떤 학습 데이터를 이용해야 하는지에 대한 기준을 학습할 수 있다. 예를 들어, 모델 학습부(1014)는, 이미지로부터 객체를 인식하는데 이용되는 이미지 속성들의 종류, 개수, 또는 수준 등을 학습할 수 있다.

또한, 모델 학습부(1014)는, 이미지로부터 하나 이상의 객체를 식별하기 위해 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.

데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.

다양한 실시예에 따르면, 모델 학습부(1014)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(1014)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.

또한, 모델 학습부(1014)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1014)는, 예를 들어, 별다른 지도 없이 사용자의 상태를 판단하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 사용자의 상태를 판단하기 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1014)는, 예를 들어, 학습에 따라 사용자의 상태를 판단한 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.

또한, 데이터 인식 모델이 학습되면, 모델 학습부(1014)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1014)는 학습된 데이터 인식 모델을 데이터 인식부(1020)를 포함하는 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1014)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1020)를 포함하는 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1014)는 학습된 데이터 인식 모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.

모델 평가부(1015)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1014)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다.

예를 들어, 모델 평가부(1015)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1015)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(1015)는 각각의 학습된 데이터 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1015)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.

한편, 데이터 학습부(1010) 내의 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1011), 전처리부(1012), 학습 데이터 선택부(1013), 모델 학습부(1014) 및 모델 평가부(1015) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 16을 참조하면, 일부 실시예에 따른 데이터 인식부(1020)는 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025)를 포함할 수 있다.

데이터 획득부(1021)는 이미지로부터 객체를 인식하는데 필요한 데이터를 획득할 수 있으며, 전처리부(1022)는 이미지로부터 객체를 인식하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1022)는 후술할 인식 결과 제공부(1024)가 이미지로부터 객체를 인식하기 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.

인식 데이터 선택부(1023)는 전처리된 데이터 중에서 이미지로부터 객체를 인식하기 위해 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1024)에게 제공될 수 있다. 인식 데이터 선택부(1023)는 이미지로부터 객체를 인식하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다.

인식 결과 제공부(1024)는 선택된 데이터를 데이터 인식 모델에 적용하여 이미지로부터 객체를 인식할 수 있다. 인식 결과 제공부(1024)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1024)는 인식 데이터 선택부(1023)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.

인식 결과 제공부(1024)는, 이미지로부터 인식된 하나 이상의 객체를 나타내는 식별 정보를 제공할 수 있다. 예를 들어, 인식 결과 제공부(1024)는, 식별된 객체가 포함되는 카테고리, 식별된 객체가 사람인 경우 식별된 사람의 이름 등에 관한 정보를 제공할 수 있다.

모델 갱신부(1025)는 인식 결과 제공부(1024)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1025)는 인식 결과 제공부(1024)에 의해 제공되는 인식 결과를 모델 학습부(1014)에게 제공함으로써, 모델 학습부(1014)가 데이터 인식 모델을 갱신하도록 할 수 있다.

한편, 데이터 인식부(1020) 내의 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.

또한, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1021), 전처리부(1022), 인식 데이터 선택부(1023), 인식 결과 제공부(1024) 및 모델 갱신부(1025) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 17을 참조하면, 일 실시예에 따른 서버(2000)는, DB(2100), 통신부(2200), 및 프로세서(2300)를 포함할 수 있다. 도 17에 도시된 서버(2000)는 본 개시의 실시예에 따른 영상 표시 장치(예를 들어, 201)와 연동하여 동작할 수 있으며, 객체 인식, 참 이미지 생성, 및 거짓 이미지 생성 동작 중 적어도 하나를 수행할 수 있다.

DB(2100)는 사용자가 시청한 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 저장할 수 있다.

통신부(2200)는 영상 표시 장치(201)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다.

프로세서(2300)는 통상적으로 서버(2000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(2300)는, 서버(2000)의 DB(2100)에 저장된 프로그램들을 실행함으로써, DB(2100) 및 통신부(2200) 등을 전반적으로 제어할 수 있다. 프로세서(2300)는 DB(2100)에 저장된 프로그램들을 실행함으로써, 도 1 내지 도 16에서의 영상 표시 장치(100)의 동작의 일부를 수행할 수 있다.

프로세서(2300)는, 도 1 내지 도 16에서 영상 표시 장치(201)가 수행하는 기능인, 이미지로부터 하나 이상의 객체를 인식하는 기능을 수행할 수 있다.

도 18을 참조하면, 서버(2000)는, 이미지로부터 하나 이상의 객체를 인식하기 위한 기준을 학습할 수 있다. 서버(2000)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 데이터 인식 모델에 적용함으로써, 이미지로부터 하나 이상의 객체를 인식하기 위한 기준을 학습할 수 있다.

이 경우, 서버(2000)의 모델 학습부(2104)는 도 15에 도시된 데이터 학습부(1010)의 기능을 수행할 수 있다. 서버(2000)의 모델 학습부(2104)는 이미지로부터 객체를 인식하기 위하여 어떤 데이터를 이용할 것인지에 관한 기준을 학습할 수 있다. 또한, 서버(2000)의 모델 학습부(2104)는 데이터를 이용하여 이미지로부터 객체를 어떻게 인식할 것인지에 관한 기준을 학습할 수 있다. 모델 학습부(2104)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 데이터 인식 모델에 적용함으로써, 이미지로부터 객체를 인식하기 위한 기준을 학습할 수 있다.

또한, 영상 표시 장치(100)의 인식 결과 제공부(1024)는, 인식 데이터 선택부(1023)에 의해 선택된 데이터를 서버(2000)에 의해 생성된 데이터 인식 모델에 적용하여, 이미지로부터 객체를 인식할 수 있다. 예를 들어, 인식 결과 제공부(1024)는, 인식 데이터 선택부(1023)에 의해 선택된 데이터를 서버(2000)에게 전송하고, 서버(2000)가 인식 데이터 선택부(1023)에 의해 선택된 데이터를 인식 모델에 적용하여 이미지로부터 객체를 인식할 것을 요청할 수 있다.

또는, 영상 표시 장치(100)의 인식 결과 제공부(1024)는 서버(2000)에 의해 생성된 인식 모델을 서버(2000)로부터 수신하고, 수신된 인식 모델을 이용하여 이미지로부터 객체를 인식할 수 있다. 이 경우, 영상 표시 장치(100)의 인식 결과 제공부(1024)는, 인식 데이터 선택부(1023)에 의해 선택된 데이터를 서버(2000)로부터 수신된 데이터 인식 모델에 적용하여, 이미지로부터 객체를 인식할 수 있다.

또한, 영상 표시 장치(100) 및 서버(2000)는 데이터 인식 모델의 학습 및 데이터 인식을 위한 작업을 효과적으로 분배하여 수행할 수 있으며, 이를 통하여, 사용자의 의도에 부합하는 서비스를 제공하기 위하여 데이터 처리를 효율적으로 수행하고, 사용자의 프라이버시를 효과적으로 보호할 수 있다.

AI 기반의 사물 인터넷(IoT: Internet on Things)으로 연결되는 전자 기기들이 증가하는 현재에는, 카메라를 장착하고 장착된 카메라를 컴퓨터 비전(CV: Computer vision) 기반의 서비스를 제공할 수 있는 전자 기기들이 개발 및 보급되고 있다.

컴퓨터 비전(CV) 기반의 서비스를 제공할 수 있는 전자 기기(이하 'CV 기반 전자 기기')는 해킹 등에 악용될 수 있다. 예를 들어, CV 기반 전자 기기는 전술한 인증 이미지 세트를 촬영하고, 촬영된 인증 이미지 세트를 AI 기반의 인식 모델을 통하여 객체 인식을 수행하여 참 이미지에 해당하는 이미지들을 선택할 수 있다. 이러한 경우, 따라서, CV 기반 전자 기기가 악용되어, 인증 이미지 세트를 통한 인증을 CV 기반 전자 기기가 자체적으로 수행하는 경우가 발생할 수 있다. 그러한 경우, 영상 표시 장치(예를 들어, 201)의 적법한 사용자가 아님에도 불구하고 영상 표시 장치(201)는 적법한 사용자의 인증이 완료된 것으로 인식하여 CV 기반 전자 기기가 요청하는 동작을 수행하게 된다.

CV 기반 전자 기기 등과 같이, 적법한 사용자(사람)가 아닌 경우에, 전술한 예시와 같이 발생 가능한 문제점(구체적으로, AI 기반의 해킹)을 극복하여 영상 표시 장치(201)의 보안을 유지할 수 있도록 하는 방법을 개발할 필요가 있다.

이하에서는, 도 19 내지 도 23을 참조하여, 도 1 내지 도 18을 참조하여 설명한 본 개시의 일 또는 다른 실시예에서 보안 성능을 높이기 위해 수행되는 추가적인 동작들을 상세히 설명하도록 한다.

도 19는 다른 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도이다. 구체적으로, 도 19는 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)에서 수행되는 동작들을 포함하는 흐름도이다. 또한, 도 19는 본 개시의 일 또는 다른 실시예에 따른 영상 표시 장치(예를 들어, 100, 100a, 201, 202 또는 300)를 통하여 수행될 수 있는 본 개시의 다른 실시예에 따른 영상 표시 장치의 동작 방법을 나타내는 흐름도를 나타낸다.

또한, 도 19에 도시된 영상 표시 장치의 동작 방법(1500)에 포함되는 객체 인식 단계(S1510), 참 이미지 저장 단계(S1520), 및 사용자 인증 수행 단계(S1560)는 각각 도 13에 도시된 영상 표시 장치의 동작 방법(900)에 포함되는 S900, S910 및 S930 단계에 동일 대응될 수 있다. 또한, 영상 표시 장치의 동작 방법(1500)에 포함되는 인증 이미지 세트의 출력 단계(S1525)는 영상 표시 장치의 동작 방법(900)에 포함되는 인증 이미지 세트의 출력 단계(S920)에 대응될 수 있다.

따라서, 영상 표시 장치의 동작 방법(1500)을 설명하는데 있어서, 도 1 내지 도 18에서와 중복되는 상세 설명은 생략한다.

또한, 이하에서는 영상 표시 장치(201)를 참조하여 영상 표시 장치의 동작 방법(900)을 설명하도록 하겠다.

도 19를 참조하면, S1510 단계에서, 영상 표시 장치(201)는, 하나 이상의 뉴럴 네트워크를 통하여, 영상 표시 장치(201)의 디스플레이(230) 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식한다.

S1520 단계에서, 영상 표시 장치(201)는, 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장한다.

S1525 단계에서, 영상 표시 장치(201)는, 사용자 인증 요청에 응답하여 인증 이미지 세트를 생성 및 출력하는 동작을 수행할 수 있다. 구체적으로, S1525 단계의 동작은 프로세서(220)의 제어에 따라서 수행될 수 있다.

구체적으로, 영상 표시 장치(201)는 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 선택 및 획득할 수 있다(S1530). 이하에서는 설명의 편의 상, 선택된 하나 이상의 참 이미지와 하나 이상의 거짓 이미지를 각각 하나 이상의 제1 참 이미지 및 하나 이상의 제1 거짓 이미지라 칭하겠다. 즉, 데이터베이스에 저장된 복수의 참 이미지 중 하나 이상을 선택하여 하나 이상의 제1 참 이미지를 획득할 수 있다. 그리고, 데이터베이스에 저장된 복수의 참 이미지 중 하나 이상을 선택하여 하나 이상의 제1 거짓 이미지를 획득할 수 있다.

계속하여, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하고(S1540), 상기 변형에 근거하여 인증 이미지 세트를 출력한다(S1550).

구체적으로, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하여 하나 이상의 변형된 이미지를 생성한다(S1540). 구체적으로, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 대립적 사례(AE: adversarial example) 기법을 통하여 변형하여 하나 이상의 변형된 이미지를 생성할 수 있다.

여기서, 대립적 사례(AE) 기법은 자연적인 데이터에 소량의 변경을 가함으로써, 사람은 정상적으로 인식 가능하나 AI 를 포함하는 기계 학습 모델은 오인식하게 하는 방법이다. 구체적으로, 대립적 사례(AE) 기법으로는 CNN variation 등을 예로 들 수 있다. 구체적으로, 대립적 사례(AE) 기법은 S1530 단계에서 획득된 적어도 하나의 이미지 각각의 적어도 일부 영역에 잡음(noise) 신호를 추가하여 변형된 이미지를 생성할 수 있다.

계속하여, 'S1540 단계에서 획득된 하나 이상의 변형된 이미지', 및 'S1530 획득된 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 S1540 단계에서 변형되지 않은 나머지'를 포함하는 인증 이미지 세트를 생성 및 출력한다(S1550 단계).

S1560 단계에서, 영상 표시 장치(201)는, S1550 단계에서 출력되는 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 사용자 인증을 수행할 수 있다.

구체적으로, 하나의 제1 참 이미지를 대립적 사례 기법을 통하여 변형하여 하나의 변형된 이미지를 생성한 경우를 예로 들자. 이 경우, AI 를 포함하는 기계 학습 모델(또는, 'AI 기반의 인식 모델'), 예를 들어, 뉴럴 네트워크를 이용한 모델에서 변형된 이미지에 포함되는 객체를 인식할 경우, 뉴럴 네트워크를 이용한 모델은 객체 인식 결과 변형된 이미지를 거짓 이미지로 인식하게 된다. 그리고, 영상 표시 장치의 사용자인 사람은 변형된 이미지를 참 이미지로 인식하게 된다.

즉, 본 개시의 실시예에서 대립적 사례 기법을 통하여 제1 참 이미지를 변형할 경우, 사람은 변형된 제1 참 이미지를 여전히 참 이미지로 인식하나, AI 를 포함하는 기계 학습 모델은 변형된 제1 참 이미지를 참 이미지가 아닌 거짓 이미지로 인식하게 된다.

또한, 본 개시의 실시예에서 대립적 사례 기법을 통하여 제1 거짓 이미지를 변형할 경우, 사람은 변형된 제1 거짓 이미지를 여전히 거짓 이미지로 인식하나, AI 를 포함하는 기계 학습 모델은 변형된 제1 거짓 이미지를 거짓 이미지가 아닌 참 이미지로 인식할 수 있다.

즉, S1540 단계에서는, 대립적 사례 기법을 이용하여, 사람은 변형 전과 변형 후의 이미지에 포함되는 객체를 모두 동일한 객체로 인식하나, AI 기반의 인식 모델은 변형 전과 변형 후의 이미지에 포함되는 객체를 서로 다른 객체로 인식하도록, 이미지, 구체적으로, 이미지 내에 포함되는 객체를 변형할 수 있다.

도 11에서 도시된 인증 이미지 세트에서와 같이, S1530 단계에서 3개의 참 이미지를 선택하고 5개의 거짓 이미지를 선택한 경우를 예로 들자. 즉, 인증 이미지 세트에 포함되는 제1 참 이미지는 3개이고 제1 거짓 이미지는 5가 된다. 도 11 에 도시된 실시예에서, 사용자 인증이 성공하려면, 3개의 참 이미지들(801, 802, 803)이 선택되어야만 한다.

S1530 단계에서, 선택된 3개의 제1 참 이미지들(801, 802, 803)와 5개의 제1 거짓 이미지들 중에서, 하나의 제1 참 이미지(예를 들어, 801)을 대립적 사례 기법을 통하여 변형하였다 하자. 그러면, 사용자인 사람은 여전히 변형된 제1 참 이미지(801)을 참 이미지로 인식한다. 그에 따라서, 사용자는 출력된 인증 이미지 세트에서 참 이미지로 3 개의 참 이미지(801, 802, 803)를 선택할 수 있다. 그러나, AI 를 포함하는 기계 학습 모델을 통하여 객체 인식을 수행하면, 변형된 제1 참 이미지(801)는 거짓 이미지로 인식된다. 즉, CV 기반 전자 기기가 인증 이미지 세트를 촬영하고 촬영된 인증 이미지를 객체 인식할 경우, CV 기반 전자 기기는 변형된 제1 참 이미지(801)을 참 이미지가 아닌 거짓 이미지로 인식하게 된다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트에서 2개의 참 이미지(802, 803)를 선택할 수 있다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트를 통한 인증을 완료할 수 없게 된다.

또 다른 예로, S1530 단계에서, 선택된 3개의 제1 참 이미지들(801, 802, 803)와 5개의 제1 거짓 이미지들 중에서, 하나의 제1 거짓 이미지(예를 들어, 805)을 대립적 사례 기법을 통하여 변형하였다 하자. 그러면, 사용자인 사람은 여전히 변형된 제1 거짓 이미지(805)을 거짓 이미지로 인식한다. 그에 따라서, 사용자는 출력된 인증 이미지 세트에서 참 이미지로 3 개의 참 이미지(801, 802, 803)를 선택할 수 있다. 그러나, AI 를 포함하는 기계 학습 모델을 통하여 객체 인식을 수행하면, 변형된 제1 거짓 이미지(805)는 참 이미지로 인식된다. 즉, CV 기반 전자 기기가 인증 이미지 세트를 촬영하고 촬영된 인증 이미지를 객체 인식할 경우, CV 기반 전자 기기는 변형된 제1 거짓 이미지(805)는 참 이미지로 인식하게 된다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트에서 4개의 참 이미지(801, 802, 803, 805)를 선택할 수 있다. 그에 따라서, CV 기반 전자 기기는 인증 이미지 세트를 통한 인증을 완료할 수 없게 된다.

도 20은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 일 도면이다. 도16에 도시된 흐름도에 있어서, 도 19에 도시된 구성과 동일한 구성은 동일한 도면기호를 이용하여 도시하였다. 구체적으로, 도 20의 S1640 단계는 도 19의 S1540 단계에 대응될 수 있다. 또한, S1640 단계의 동작은 프로세서(220)의 제어에 따라서 수행될 수 있다.

도 20을 참조하면, S1530 단계에서 획득된 하나 이상 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하여 하나 이상의 변형된 이미지를 생성한다(S1640).

예를 들어, S1530 단계에서 획득된 하나 이상의 제1 참 이미지 중에서 선택된 하나 이상의 참 이미지를 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 제2 참 이미지를 생성할 수 있다. 이 경우, 제2 참 이미지를 뉴럴 네트워크를 통하여 객체 인식을 수행하는 경우(즉, AI 기반의 객체 인식을 수행하는 경우) 객체 인식의 결과는 사람의 판단과 달라지게 된다. 그리고, 하나 이상의 제2 참 이미지, 하나 이상의 제1 참 이미지 중에서 상기 선택된 하나 이상의 참 이미지(구체적으로, 상기 하나 이상의 제2 참 이미지에 대응되는 하나 이상의 이미지)를 제외한 나머지, 및 상기 하나 이상의 제1 거짓 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다.

또 다른 예를 들어, S1530 단계에서 획득된 하나 이상의 제1 거짓 이미지 중에서 선택된 하나 이상의 거짓 이미지를 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 제2 거짓 이미지를 생성할 수 있다. 이 경우, 제2 거짓 이미지를 뉴럴 네트워크를 통하여 객체 인식을 수행하는 경우(즉, AI 기반의 객체 인식을 수행하는 경우) 객체 인식의 결과는 사람의 판단과 달라지게 된다. 그리고, 하나 이상의 제2 거짓 이미지, 하나 이상의 제2 참 이미지 중에서 상기 선택된 하나 이상의 거짓 이미지(구체적으로, 상기 하나 이상의 제2 거짓 이미지에 대응되는 하나 이상의 이미지)를 제외한 나머지, 및 상기 하나 이상의 제1 참 이미지를 포함하는 인증 이미지 세트를 출력할 수 있다.

도 22를 참조하면, 변형 전의 이미지(1810)과 대립적 사례 기법을 통하여 변형된 이미지(1830)가 도시된다. 또한, 이미지(1810)에 포함되는 객체는 판다가 될 수 있다.

구체적으로, 이미지(1810)의 적어도 일부 영역에 잡음(noise) 신호(1820)를 추가하여 변형된 이미지(1830)를 생성할 수 있다. 구체적으로, 이미지(1810)에 포함되는 객체인 판다를 이미징한 적어도 일부의 영역에 잡음 신호(1820)를 추가하여 변형된 이미지(1830)을 생성할 수 있다.

잡음 신호(1820)은 AI 기반 인식 모델이 이미지(1810) 내에 포함되는 객체를 오인식 하도록, 소정 형태, 양, 및/또는 적용 영역을 가질 수 있다. 또한, 잡음 신호(1820)는 변형 전 이미지(1810)에 포함되는 객체를 AI 기반 인식 모델이 다르게 인식하도록 만드는 잡음 성분을 갖는 모든 잡음 신호가 될 수 있다. 예를 들어 AI 기반 인식 모델을 통한 객체 인식에 있어서, 이미지(1810)에 포함되는 객체가 '판다'로 인식되도록 하는 이미지(1810) 내의 적어도 일부 영역에서의 영상 성분을 약화시키고 이미지에 포함되는 객체가 '긴팔 원숭이'로 인식되도록 하는 이미지(1810) 내의 적어도 일부 영역에서의 영상 성분이 강화되도록, 잡음 신호(1820)를 설정할 수 있을 것이다. 또한, 잡음 신호(1820)는, AI 기반 객체 인식 모델이 이미지(1810) 내에 포함되는 객체를 다르게 인식하도록 이미지(1810)를 변형시킬 수 있는 모든 잡음 성분을 가질 수 있으므로, 매우 다양한 형태, 양, 및 또는 적용 영역을 갖도록 설정될 수 있다.

또한, 도 22에서는 이미지(1810)와 동일한 적용 영역을 가지는 잡음 신호(1820)가 이미지(1810)에 추가되는 경우를 예로 들어 설명하였으나, 이미지(1810) 내에 포함되는 객체의 일부 영역(1811)에 대응되는 적용 영역(1821)을 가지는 잡음 신호가 이미지(1810)에 추가될 수도 있다.

전술한 바와 같이, 본 개시의 실시예에서는, AI 기반 인식 모델을 이용하여 객체 인식을 하였을 경우, 객체 인식의 결과가 달라지도록 만드는 잡음 신호(예를 들어, 1820)를 이미지(1810)에 추가함으로써, 변형된 이미지(1830)을 생성한다.

이미지(1810)을 잡은 신호를 추가하는 대립적 사례 기법을 통하여 변형한 경우, 사람은 변형된 이미지(1830)를 여전히 변형 전의 이미지(1810)에서와 동일하게 인식한다. 즉, 사람은 변형 전의 이미지(1810)과 변형된 이미지(1830)에 포함되는 객체를 모두 판다로 인식하게 된다. 그러나, AI 기반 인식 모델을 통하여 객체 인식을 수행하는 경우, 변형 전의 이미지(1810)에 포함되는 객체는 판다로 인식되나, 변형된 이미지(1830)에 포함되는 객체는 긴팔 원숭이(gibbon)으로 인식되게 된다.

이하에서, 도 23를 참조하여, AI 기반 인식 모델을 통하여 객체 인식을 수행하는 동작을 좀 더 상세히 설명하도록 하겠다.

도 23은 본 개시의 다른 실시예에 따른 영상 표시 장치에서 생성된 변형된 이미지를 이용한 인증 동작을 설명하기 위한 도면이다. 구체적으로, 도 23은 AI 기반의 인식 모델인 뉴럴 네트워크를 통한 객체 인식을 수행하는 경우를 예로 들어 도시한다. 구체적으로, 도 23에서는 뉴럴 네트워크의 숨은 층(hidden layer)의 심도가 3개의 심도(depth)를 가지는 딥 뉴럴 네트워크(DNN)(1900)인 경우를 예로 들어 도시하였다. 또한, 도 23에서는 딥 뉴럴 네트워크(1900)로 도 22에서 설명한 변형된 이미지(1830)이 입력되는 경우를 예로 들어서 설명하도록 하겠다.

의료 영상 처리 장치(예를 들어, 201) 또는 서버(예를 들어, 500)는 심층 신경망(1900)을 통한 연산을 수행하여 객체 인식을 수행할 수 있다.

도 23을 참조하면, 딥 뉴럴 네트워크(1900)는 학습 데이터를 통한 학습을 수행할 수 있다. 그리고, 학습된 딥 뉴럴 네트워크(1900)는 객체 인식을 위한 연산인 추론 연산을 수행할 수 있다. 여기서, 딥 뉴럴 네트워크(1900)는 모델의 구현 방식(예를 들어, CNN(Convolution Neural Network) 등), 결과의 정확도, 결과의 신뢰도, 프로세서의 연산 처리 속도 및 용량 등에 따라 매우 다양하게 설계될 수 있다.

딥 뉴럴 네트워크(1900)은 입력 계층(1911), 숨은 계층(hidden layer)(1920) 및 출력 계층(1930)을 포함 하여, 객체 인식을 위한 연산을 수행할 수 있다. 또한, 딥 뉴럴 네트워크(1900)은 입력 계층(1911)과 제1 숨은 계층(HIDDEN LAYER1) 간에 형성되는 제1 계층(Layer 1)(1951), 제1 숨은 계층(HIDDEN LAYER1)과 제2 숨은 계층(HIDDEN LAYER2) 간에 형성되는 제2 계층(Layer 2)( 1952), 및 제2 숨은 계층(HIDDEN LAYER2)과 제3 숨은 계층(HIDDEN LAYER3) 간에 형성되는 제3 계층(Layer 3)( 1953), 및 제3 숨은 계층(HIDDEN LAYER3)과 출력 계층(OUTPUT LAYER(550) 간에 형성되는 제4 계층(Layer 4)( 1954)으로 형성될 수 있다.

또한, 딥 뉴럴 네트워크(1900)을 형성하는 복수개의 계층들 각각은 하나 이상의 노드를 포함할 수 있다. 예를 들어, 입력 계층(1911)은 데이터를 수신하는 하나 이상의 노드(node)(예를 들어, 1910)들을 포함할 수 있다. 도 23에서는 입력 계층(1911)이 복수개의 노드들을 포함하는 경우를 예로 들어 도시하였다. 그리고, 복수개의 노드(1910)로 이미지(1830)를 스케일링(scaling)하여 획득한 복수개의 이미지들이 입력될 수 있다. 구체적으로, 이미지(1830)를 주파수 대역 별로 스케일링하여 획득한 복수개의 이미지들이 복수개의 노드(1910)로 입력될 수 있다.

여기서, 인접한 두 개의 계층들은 도시된 바와 같이 복수개의 엣지(edge)들(예를 들어, 1912)로 연결된다. 각각의 노드들은 대응되는 가중치값을 가지고 있어서, 딥 뉴럴 네트워크(1900)는 입력된 신호와 가중치 값을 연산, 예를 들어, 곱하기 연산한 값에 근거하여, 출력 데이터를 획득할 수 있다.

딥 뉴럴 네트워크(1900)는 복수의 학습 이미지에 근거하여 학습되어, 이미지 내에 포함되는 객체를 인식하는 객체 인식 모델로서 구축할 수 있다. 구체적으로, 딥 뉴럴 네트워크(1900)를 통하여 출력되는 결과의 정확도를 높이기 위해서, 복수의 학습 이미지에 근거하여 출력 계층(1930)에서 입력 계층(1911) 방향으로 학습(training)을 반복적으로 수행하며 출력 결과의 정확도가 높아지도록 가중치값들을 수정할 수 있다.

그리고, 최종적으로 수정된 가중치값들을 가지는 딥 뉴럴 네트워크(1900)는 객체 인식 모델로 이용될 수 있다. 구체적으로, 딥 뉴럴 네트워크(1900)는 입력 데이터인 복수의 학습 이미지에 포함되는 정보를 분석하여 학습 이미지에 포함되는 객체가 무엇인지를 나타내는 결과를 출력할 수 있다.

딥 뉴럴 네트워크(1900)가 이미지를 입력받고 이미지에 포함되는 객체를 인식하도록 학습(training)된 경우, 딥 뉴럴 네트워크(1900)가 변형되기 이전의 이미지(예를 들어, 1811)를 입력받으면, 딥 뉴럴 네트워크(1900)는 이미지(1811)을 분석하여 이미지 내에 포함되는 객체가 '판다'라는 결과를 출력할 수 있다.

그리고, 딥 뉴럴 네트워크(1900)가 변형된 이미지(예를 들어, 1830)를 입력받으면, 딥 뉴럴 네트워크(1900)는 이미지(1830)을 분석하여 이미지 내에 포함되는 객체가 '긴팔 원숭이(gibbon)'이라는 결과를 출력할 수 있다. 즉, 사용자는 변형된 이미지(1830)에 포함되는 객체를 '판다'로 인식할 수 있으나, AI 기반 객체 인식 모델인 딥 뉴럴 네트워크(1900)는 변형된 이미지(1830)에 포함되는 객체를 '긴팔 원숭이(gibbon)'로 인식하게 된다.

본 개시의 실시예에서는, 인증 이미지 세트에 포함되는 하나 이상의 이미지를 대립적 사례 기법에 따라서 변형시킴으로써, AI 기반의 해킹을 방지하여 보안 성능을 높일 수 있다.

도 21은 도 19에 도시된 다른 실시예에 따른 영상 표시 장치의 동작 방법을 더욱 상세히 설명하기 위한 다른 도면이다. 구체적으로, 도 19에서 설명한 이미지의 변형 단계(S1540)는 S1735 단계 및 S1740 단계를 포함할 수 있다.

본 개시의 실시예에서, 프로세서(220)는 사용자 인증 요청에 응답하여 잡음 정보를 결정할 수 있다(S1735). 그리고, 결정된 잡음 정보에 근거하여 하나 S1530 단계에서 획득된 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중에서, 하나 이상을 변형하여 하나 이상의 변형된 이미지 생성할 수 있다(S1740).

여기서, S1735 단계에서 결정되는 잡음 정보는 변형 대상이 되는 이미지, 예를 들어, 도 22의 이미지(1810)에 추가되는 잡음 신호(에를 들어, 1820)에 대한 정보가 될 수 있다. 구체적으로, 잡음 정보는 변형의 대상이 되는 하나 이상의 이미지에 적용될 잡음 신호의 생성 방법, 잡음 신호의 형태, 및 잡음 신호의 양 중 적어도 하나에 대한 정보를 포함할 수 있다.

본 개시의 실시예에서, 잡음 정보는 사용자 인증 요청이 발생할 때마다 변경될 수 있다. 사용자 인증 요청이 발생할 때마다 잡음 정보를 갱신하고, 갱신된 잡음 정보를 이용하여 이미지를 변형하면, 변형된 이미지를 포함하는 인증 이미지 세트는 더 높은 보안성을 가질 수 있다.

전술한 바와 같이, 본 개시의 일 또는 다른 실시예는 사용자가 시청하였던 컨텐트에 포함되는 객체를 인식하고, 인식된 객체가 포함된 이미지를 하나 이상 포함하는 인증 이미지 세트를 이용하여 사용자 인증을 수행함으로써, 높은 보안도를 유지하면서 영상 표시 장치(예를 들어, 201)의 사용자가 적법한 권한을 가지는 사용자인지를 확인할 수 있다. 또한, 본 개시의 일 또는 다른 실시예는, 대립적 사례 기법을 이용하여 인증 이미지 세트에 포함될 하나 이상의 이미지를 변형함으로써, AI 기반 해킹 공격을 막을 수 있으며 그에 따라서 보안 성능을 증가시킬 수 있다.

일부 실시예에 따른 영상 표시 장치 및 그 동작 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

또한, 본 명세서에서, 부는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

또한, 전술한 본 개시의 실시예에 따른 영상 표시 장치 및 그 동작 방법은 다중언어로 구성된 문장을 획득하는 동작; 및 다중언어 번역 모델을 이용하여, 상기 다중언어로 구성된 문장에 포함되는 단어들 각각에 대응하는 벡터 값들을 획득하고, 상기 획득한 벡터 값들을 목표 언어에 대응하는 벡터 값들로 변환하며, 상기 변환된 벡터 값들에 기초하여, 상기 목표 언어로 구성된 문장을 획득하는 동작을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

디스플레이;

하나 이상의 인스트럭션을 저장하는 메모리; 및

상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서;를 포함하고,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하고,

상기 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하고,

사용자 인증 요청에 응답하여, 상기 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지를 선택하고, 선택된 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지를 포함하는 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하고,

상기 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 상기 사용자 인증을 수행하는, 영상 표시 장치.
제 1항에 있어서,

상기 제1 컨텐트는, 상기 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이내에 시청된 컨텐트이고,

상기 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지는, 상기 제1 컨텐트로부터 추출된 이미지를 포함하는, 영상 표시 장치.
제 1항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 수행함으로써,

상기 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 사용자 인증 요청이 수신된 시점으로부터 기설정된 시간 이전에 시청된 제2 컨텐트로부터 하나 이상의 객체를 인식하고,

상기 제2 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 상기 거짓 이미지로 획득하는, 영상 표시 장치.
제 1항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 수행함으로써,

상기 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 제1 컨텐트로부터 하나 이상의 얼굴을 인식하고,

상기 제1 컨텐트로부터 인식된 각 얼굴에 대응하는 사람을 나타내는 이미지를 상기 데이터베이스에 상기 참 이미지로서 저장하는, 영상 표시 장치.
제 1항에 있어서,

상기 객체는

상기 제1 컨텐트를 구성하는 복수의 프레임 중 적어도 하나의 프레임에 등장하는 사람, 배경, 및 사물 중 적어도 하나를 포함하는, 영상 표시 장치.
제 1항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 상기 제1 컨텐트를 구성하는 복수의 프레임으로부터 상기 하나 이상의 객체를 인식하고,

상기 인식된 하나 이상의 객체 중에서, 상기 복수의 프레임에 기설정된 횟수 이상 포함된 객체를 나타내는 이미지를 상기 데이터베이스에 상기 참 이미지로서 저장하는, 영상 표시 장치.
제 1항에 있어서, 상기 프로세서는

상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 하나 이상을 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 변형된 이미지를 생성하고,

상기 하나 이상의 변형된 이미지, 및 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 변형되지 않은 나머지를 포함하는 상기 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
제 7항에 있어서, 상기 프로세서는

상기 사용자 인증 요청에 응답하여 잡음 정보를 획득하고, 상기 획득된 잡음 정보에 근거하여 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 하나 이상을 변형하여 상기 하나 이상의 변형된 이미지 생성하는, 영상 표시 장치.
제 8항에 있어서, 상기 잡음 정보는

상기 변형의 대상이 되는 하나 이상의 이미지에 적용될 잡음 신호의 생성 방법, 상기 잡음 신호의 형태, 및 상기 잡음 신호의 양 중 적어도 하나에 대한 정보를 포함하는, 영상 표시 장치.
제 1항에 있어서, 상기 프로세서는

상기 하나 이상의 제1 참 이미지 중에서 선택된 하나 이상의 참 이미지를 대립적 사례(adversarial example) 기법을 통하여 변형하여 하나 이상의 제2 참 이미지를 생성하고, 상기 하나 이상의 제2 참 이미지, 상기 하나 이상의 제1 참 이미지 중 상기 선택된 하나 이상의 참 이미지를 제외한 나머지, 및 상기 하나 이상의 제1 거짓 이미지를 포함하는 상기 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
제 1항에 있어서, 상기 프로세서는

상기 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지 중 하나 이상에 잡음 신호를 추가하여 하나 이상의 변형된 이미지를 생성하고,

상기 하나 이상의 변형된 이미지, 및 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지 중 상기 잡음 신호가 추가되지 않은 나머지를 포함하는 상기 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
제 1항에 있어서,

상기 프로세서는 상기 하나 이상의 인스트럭션을 수행함으로써,

상기 데이터베이스에 저장된 복수의 거짓 이미지 및 상기 학습 모델 중 적어도 하나를 외부 서버로부터 수신하는, 영상 표시 장치.
제 1항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 인증 이미지 세트로부터 상기 하나 이상의 참 이미지를 모두 선택하는 상기 사용자 입력에 응답하여, 상기 사용자 인증을 요청한 사용자를 허가받은 사용자로 판단하는, 영상 표시 장치.
제 13항에 있어서,

상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,

상기 인증 이미지 세트로부터 상기 하나 이상의 참 이미지를 모두 선택하는데 실패한 사용자 입력에 응답하여, 새로운 인증 이미지 세트를 출력하도록 상기 디스플레이를 제어하는, 영상 표시 장치.
하나 이상의 뉴럴 네트워크를 이용한 학습 모델을 이용하여, 영상 표시 장치의 디스플레이 상에 출력되어 사용자가 시청한 제1 컨텐트로부터 하나 이상의 객체를 인식하는 단계;

상기 제1 컨텐트로부터 인식된 하나 이상의 객체를 나타내는 이미지를 데이터베이스에 참 이미지로서 저장하는 단계;

사용자 인증 요청에 응답하여, 상기 데이터베이스에 저장된 복수의 참 이미지와 복수의 거짓 이미지 중에서 하나 이상의 제1 참 이미지와 하나 이상의 제1 거짓 이미지를 선택하고, 선택된 상기 하나 이상의 제1 참 이미지와 상기 하나 이상의 제1 거짓 이미지를 포함하는 인증 이미지 세트를 출력하는 단계; 및

상기 인증 이미지 세트에서 하나 이상의 이미지를 선택하는 사용자 입력에 응답하여, 상기 사용자 인증을 수행하는 단계;

를 포함하는, 영상 표시 장치의 동작 방법.