KR20190049248A - 전자 장치 및 이의 제어방법 - Google Patents

전자 장치 및 이의 제어방법 Download PDF

Info

Publication number
KR20190049248A
KR20190049248A KR1020170144882A KR20170144882A KR20190049248A KR 20190049248 A KR20190049248 A KR 20190049248A KR 1020170144882 A KR1020170144882 A KR 1020170144882A KR 20170144882 A KR20170144882 A KR 20170144882A KR 20190049248 A KR20190049248 A KR 20190049248A
Authority
KR
South Korea
Prior art keywords
information
metadata
frame
image
extracted
Prior art date
Application number
KR1020170144882A
Other languages
English (en)
Other versions
KR102414783B1 (ko
Inventor
안영춘
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170144882A priority Critical patent/KR102414783B1/ko
Priority to US16/754,962 priority patent/US11367283B2/en
Priority to PCT/KR2018/012827 priority patent/WO2019088592A1/ko
Publication of KR20190049248A publication Critical patent/KR20190049248A/ko
Application granted granted Critical
Publication of KR102414783B1 publication Critical patent/KR102414783B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 복수의 프레임으로 구성된 영상을 수신하는 통신부, 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 감지된 프레임에서 정보를 추출하여 추출된 정보를 이용하여 메타 데이터를 생성하는 프로세서 및 생성된 메타 데이터를 저장하는 메모리를 포함한다.

Description

전자 장치 및 이의 제어방법{ELECTRONIC APPARATUS AND CONTROLLING METHOD THEREOF}
본 개시는 전자 장치 및 이의 제어방법에 관한 것으로, 더욱 상세하게는 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여 정보를 추출하는 전자 장치 및 이의 제어 방법에 관한 발명이다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다.
인공지능 기술은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 기계학습(딥러닝) 기술 및 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
요소기술들은, 예로, 인간의 언어/문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론/예측 기술, 인간의 경험 정보를 지식데이터로 처리하는 지식 표현 기술 및 차량의 자율 주행, 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 하나를 포함할 수 있다.
이러한 인공지능 기술의 활용의 일 예로서, 영상에 포함되어 있는 텍스트 정보나 이미지 정보를 추출하는 다양한 방법이 존재하였다. 하지만, 영상은 많은 프레임으로 이루어져 있어 모든 프레임에서 추출되는 데이터를 저장하는 것은 메모리의 용량에 한계가 있어 어려운 문제점이 있었으며, 클라우드 서버를 이용하여도 불필요한 정보까지 저장되는 문제점이 있었다.
또한, 모든 프레임에서 추출되는 데이터를 분석하는 것은 시간적으로 오래 걸리며 불필요한 정보까지 저장됨으로 인해 분석의 정확도를 떨어뜨리는 문제점이 있었다.
본 개시는 상술한 문제를 개선하기 위해 고안된 것으로, 본 개시의 목적은 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여 정보를 추출하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 실시예에 따른 전자 장치는 복수의 프레임으로 구성된 영상을 수신하는 통신부, 상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 상기 감지된 프레임에서 정보를 추출하여 상기 추출된 정보를 이용하여 메타 데이터를 생성하는 프로세서 및 상기 생성된 메타 데이터를 저장하는 메모리를 포함한다.
여기서, 상기 프로세서는 상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다.
또한, 상기 프로세서는 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다.
또한, 상기 프로세서는, 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단할 수 있다.
여기서, 상기 프로세서는 상기 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다.
상기 프로세서는 상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다.
여기서 상기 프로세서는, 상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출할 수 있다.
한편, 상기 프로세서는 상기 추출된 정보를 이용하여 업체 이름, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다.
또한, 상기 프로세서는 상기 영상에 포함된 메타 데이터를 검출하고, 상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정할 수 있다.
이 경우, 상기 프로세서는 상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정할 수 있다.
한편, 본 개시의 일 실시예에 따른 전자 장치의 제어 방법은 복수의 프레임으로 구성된 영상을 수신하는 단계, 상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하는 단계, 상기 감지된 프레임에서 정보를 추출하는 단계, 상기 추출된 정보를 이용하여 메타 데이터를 생성하는 단계 및 상기 생성된 메타 데이터를 저장하는 하는 단계를 포함할 수 있다.
이경우, 상기 감지하는 단계는 상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다.
한편, 상기 메타 데이터를 생성하는 단계는 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다.
여기서, 전자 장치의 제어 방법은 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단하는 단계를 더 포함할 수 있다.
또한, 상기 추출하는 단계는 상기 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다.
또한, 상기 추출하는 단계는 상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다.
또한, 상기 정보를 추출하는 단계는 상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출할 수 있다.
한편, 상기 생성하는 단계는 상기 추출된 정보를 이용하여 업체 이름, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다.
한편, 전자 장치의 제어 방법은 상기 영상에 포함된 메타 데이터를 검출하는 단계를 더 포함하고, 상기 생성하는 단계는 상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정할 수 있다.
또한, 전자 장치의 제어 방법은 상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정하는 단계를 더 포함할 수 있다.
도 1은 본 개시의 실시예에 따른 전자 장치의 구성을 간략히 도시한 블록도,
도 2는 본 개시의 실시예에 따른 전자 장치의 구성을 자세히 도시한 블록도,
도 3 내지 도 5는 영상에 포함된 기설정된 오브젝트를 설명하기 위한 도면,
도 6 내지 도 7은 본 개시의 실시예에 따른 메타데이터 생성 동작을 설명하기 위한 도면,
도 8은 특정 오브젝트가 고정된 위치에 표시되는 영상을 설명하기 위한 도면,
도 9는 본 개시의 실시예에 따른 선호 컨텐츠 추천 방법을 설명하기 위한 도면,
도 10은 본 개시의 일 실시예에 따른 학습 모델을 설명하기 위한 도면, 그리고
도 11은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 실시예들은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다." 또는 "구성되다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 실시예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
또한, 본 개시의 실시예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 개시의 실시예에 따른 전자 장치의 구성을 간략히 도시한 블록도이다.
도 1을 참고하면, 전자 장치(100)는 통신부(110), 프로세서(120) 및 메모리(140)로 구성될 수 있다.
여기서, 전자 장치(100)는 컴퓨터, TV, 셋톱박스, 스마트폰, 스마트 워치 등 다양한 기기로 구현될 수 있다. 예를 들어 아날로그 TV, 디지털 TV, 3D-TV, 스마트 TV, LED TV, OLED TV, 플라즈마 TV, 모니터, 고정 곡률(curvature)인 화면을 가지는 커브드(curved) TV, 고정 곡률인 화면을 가지는 플렉시블(flexible) TV, 고정 곡률인 화면을 가지는 벤디드(bended) TV, 및/또는 수신되는 사용자 입력에 의해 현재 화면의 곡률을 변경 가능한 곡률 가변형 TV 등으로 구현될 수 있으나, 이에 한정되지 않는다.
통신부(110)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(110)는 외부로부터 복수의 프레임으로 구성된 영상을 수신할 수 있다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지할 수 있다.
기설정된 오브젝트란 컨텐츠의 정보를 파악할 수 있는 특정 객체를 의미할 수 있다.
여기서 컨텐츠란 예컨대, 방송 채널, 방송 컨텐츠(예컨대, VoD, 스트리밍 컨텐츠(영상, 음악 등))일 수 있고, 또는 전자 장치(100)에서 실행될 수 있는 복수의 애플리케이션, 기능 등일 수 있다. 즉, 이력 정보는 예컨대, 특정 방송 채널이 언제 시청 되었는지, 얼마나 시청 되었는지에 대한 정보를 포함할 수 있고, 특정 애플리케이션이 언제 이용되었는지, 얼마나 이용되었는지에 대한 정보를 포함할 수 있고, 특정 컨텐츠가 언제 재생되었는지, 얼마나 재생되었는지에 대한 정보를 포함할 수 있다. 상술한 예시에 한정되는 것은 아니고, 전자 장치(100)가 어떤 컨텐츠를 제공하느냐에 따라 메모리(110)에는 다양한 이력 정보가 저장될 수 있다.
기설정된 오브젝트는 상술한 컨텐츠에 대한 정보를 포함하는 특정 오브젝트를 의미할 수 있다. 전자 장치(100)는 기설정된 오브젝트를 저장할 수 있고 저장 방법은 다양할 수 있다. 예를 들어, 기설정된 오브젝트는 사용자의 설정으로 저장될 수 있고 인공지능 학습을 통해 자동으로 저장될 수 있다. 인공지능 학습에 대한 구체적인 설명은 도 10에서 후술한다.
한편, 프로세서(120)는 기설정된 오브젝트를 미리 저장할 수 있다. 프로세서(120)는 바람직하게는 인공지능 학습을 통해 의미있는 정보를 포함하는 특정 객체를 메모리에 자동으로 저장할 수 있다.
본 개시의 또 다른 실시예에 따른 기설정된 오브젝트에 대하여 다양한 실험 데이터를 분석하고 일부분에 대하여 설명한다. 기설정된 오브젝트는 앞서 설명한 바 와 같이 의미있는 정보를 포함하는 객체를 의미하고 일반적으로 텍스트 정보를 포함하는 영역일 수 있다. 텍스트 정보를 포함하는 영역은 일반적으로 텍스트를 통해 사용자에게 정보를 전달하려는 의미가 있다. 따라서 텍스트 정보를 포함하는 영역은 의미있는 정보를 포함할 가능성이 높고 프로세서(120)는 텍스트 정보를 포함하는 영역을 기설정된 오브젝트로 저장할 수 있다.
텍스트 정보를 포함하는 영역이란 OCR 기술 등을 이용하여 텍스트의 내용을 정확히 파악하지 않아도 텍스트가 포함되어 있을 것으로 예측할 수 있는 객체를 의미한다. 예를 들어, 하나의 색정보를 갖는 픽셀값이 일정 부분 반복되어 나타나는 영역이 있다면 프로세서(120)는 이러한 부분을 텍스트 정보를 포함하는 영역으로 판단할 수 있다. 이 것을 예시적인 것에 불과하며 텍스트가 포함되어 있는 객체를 특정할 수 있다면 기설정된 오브젝트로 저장될 수 있다.
한편, 프로세서(120)는 프레임에서 에지 영역을 검출하고 검출된 에지 영역이 기설정된 길이 이상이면 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다. 에지 영역에 관련한 구체적인 설명은 도 3을 참고하여 후술한다.
여기서, 프로세서(120)는 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다. 프로세서(120)는 프레임에 포함된 객체 이미지를 추출하고, 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다. 여기서 프로세서(120)는, 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 프레임에 포함된 객체가 이미지이면 이미지가 의미하는 내용을 정보로 추출할 수 있다. 이미지 및 텍스트에 대한 정보를 추출하는 구체적인 방법은 도 3에서 후술한다.
또한, 프로세서(120)는 일정 시간동안 동일한 픽셀값을 갖는 오브젝트를 기설정된 오브젝트로 저장할 수 있다. 일반적으로 일정 시간동안 동일한 픽셀값을 갖는 오브젝트는 방송사를 나타내는 정보일 수 있다. 구체적인 설명은 도 8에서 후술하였다.
또한, 프로세서(120)는 이미지와 문자가 결합되어 있는 오브젝트를 기설정된 오브젝트로 저장할 수 있다. 일반적으로 이미지와 문자가 결합되어 있는 오브젝트는 상표에 해당할 수 있다. 따라서 프로세서(120)가 상표를 나타내는 특정 오브젝트를 기설정된 오브젝트로 저장하면 상표에 대한 정보를 추출할 가능성이 높을 수 있다.
또한, 프로세서(120)는, 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단할 수 있다. 구체적인 동작은 도 7에서 후술한다.
한편, 프로세서(120)는 감지된 프레임에서 정보를 추출하여 추출된 정보를 이용하여 메타 데이터를 생성할 수 있다. 이경우, 프로세서(120)는 추출된 정보를 이용하여 업체 이름, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다. 또한, 프로세서(120)는 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다. 메타 데이터 생성에 대한 구체적인 설명은 도 6에서 후술한다.
한편, 프로세서(120)는 영상에 포함된 메타 데이터를 수신할 수 있다. 영상에 포함된 메타 데이터는 EPG(Electronic Program Guide) 메타 데이터와 같이 컨텐츠에 대한 정보를 포함할 수 있다.
프로세서(120)는 수신된 영상에서 추출된 정보를 이용하여 전자 장치(100)에 수신되는 영상의 시작 시간 및 종료 시간을 파악할 수 있다. 구체적으로, 프로세서(120)는 전자 장치에 수신되는 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여 프레임에서 정보를 추출할 수 있다. 추출된 정보를 비교하면, 컨텐츠가 변경되었는지 여부를 확인할 수 있다.
예를 들어, 전자 장치(100)에 수신되는 영상에 "다음 이 시간에"라는 텍스트가 표시되었고 프로세서(120)가 이에 대한 정보를 추출하였다면, 프로세서(120)는 현재 전자 장치(100)에 수신되는 영상이 종료된 것으로 파악할 수 있다. 프로세서(120)는 일반적인 EPG 메타 데이터에 포함된 정보와 달리 현재 전자 장치(100)에서 수신하는 영상의 정확한 종료시간을 파악할 수 있다.
또한, 프로세서(120)가 전자 장치(100)에 수신되는 영상을 광고 컨텐츠로 파악하고 우측 상단에 컨텐츠 이름이 표시된 경우를 가정한다. 프로세서(120)는 전자 장치(100)에 수신되는 광고 영상의 우측 상단에 표시되는 컨텐츠 이름이 사라지면 컨텐츠가 곧 시작되는 것으로 파악할 수 있다. 프로세서(120)는 정확한 시작 시간을 파악하기 위하여 광고 영상의 우측 상단에 표시되는 컨텐츠 이름이 사라지고 광고 영상이 종료되는 시점에 새로운 컨텐츠가 시작되는 것으로 파악할 수 있다.
프로세서(120)는 상기 실시 예들 이외에 컨텐츠의 시작과 끝을 파악할 수 있는 다양한 오브젝트 또는 추출된 정보를 이용하여, 전자 장치(100)에 수신되는 컨텐츠의 시작 시간과 종료시간을 정확하게 파악할 수 있다.
프로세서(120)는 특정 컨텐츠의 시작 시간과 종료시간을 정확하게 파악하여 기존에 수신된 EPG 메타 데이터에 포함된 정보와 비교할 수 있다. 또한, 기존에 수신된 EPG 메타 데이터에 포함된 시간 정보가 틀리면, 프로세서(120)는 프로세서(120)가 파악한 시간 정보를 바탕으로 기존의 EPG 메타 데이터의 시간 정보를 수정할 수 있다.
한편, 상술한 예시에서는 시간 정보를 비교하여 수정하지만 이외의 정보에서도 비교 및 수정이 가능할 수 있다. 프로세서(120)는 EPG 메타 데이터에 포함된 정보를 비교할 수 있다. 구체적으로, 프로세서(120)는 수신된 메타 데이터에 포함된 정보와 수신된 영상에서 추출된 정보를 비교할 수 있다. 프로세서(120)는 수신된 메타 데이터에 포함된 정보가 수신된 영상에서 추출한 정보를 비교하여 차이가 있다면, 프로세서(120)는 수신된 영상에서 추출한 정보를 바탕으로 수신된 메타 데이터를 수정할 수 있다.
예를 들어, 프로세서(120)는 EPG 메타 데이터에 포함되어 있는 컨텐츠에 대한 정보를 추출할 수 있고 EPG 메타 데이터는 시간 정보 및 컨텐츠 정보가 포함되어 있을 수 있다. 프로세서(120)는 EPG 메타 데이터에 포함된 정보를 바탕으로 현재 전자 장치(100)에 제공하는 컨텐츠에 대한 내용을 예측 할 수 있다.
하지만, EPG 메타 데이터에 포함된 정보와 실제 전자 장치(100)에 수신되는 컨텐츠가 다른 경우가 있을 수 있다. 예를 들어, 토요일 오후 8시에 11번 채널에서 뉴스 프로그램이 시작하는 정보가 EPG 메타데이터에 포함되어 있는 경우를 가정한다. 또한, 11번 채널을 담당하는 방송사는 토요일 오후 8시에 11번 채널에서 뉴스 프로그램을 시작하려고 하였지만 토요일 오후 8시에 스포츠 경기를 생중계로 방송하기 위하여 뉴스 프로그램을 오후 9시로 연장하기로 가정한다.
사용자가 토요일 오후 8시에 11번 채널을 시청하는 경우, 사용자는 EPG 메타 데이터에 저장된 정보(뉴스 프로그램)와 다르게 스포츠 경기를 시청하게 된다. 따라서, EPG 메타 데이터에 저장된 정보와 실제 전자 장치에 수신되는 컨텐츠 사이에 오차가 있을 수 있다.
프로세서(120)는 EPG 메타 데이터에 포함된 정보와 실제 전자 장치(100)에서 제공하는 컨텐츠를 비교할 수 있다. 구체적으로, 프로세서(120)는 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 감지된 프레임에서 정보를 추출하여 수신된 영상에 대응되는 EPG 메타 데이터의 정보와 비교할 수 있다.
상술한 예시에서, 토요일 오후 8시에 뉴스 프로그램이 시작된다는 EPG 메타 데이터에 포함된 정보를 전자 장치(100)가 수신하였다고 가정한다. 하지만, 전자 자치(100)에 수신된 실제 영상은 스포츠 경기이므로, 프로세서(120)는 수신된 영상에서 추출된 정보와 수신된 EPG 메타 데이터의 정보와 차이가 있음을 파악할 수 있다. 여기서, 프로세서(120)는 기존의 수신된 EPG 메타 데이터에 대한 정보를 수정할 수 있다. 구체적으로, 프로세서(120)는 기존의 토요일 오후 8시에 뉴스 프로그램이 시작되는 정보를 오후 8시에 스포츠 경기가 시작되는 정보로 수정이 가능하다.
또한, 프로세서(120)는 수정된 EPG 메타 데이터를 메모리(140)에 저장할 수 있다.
상술한 예시에서, EPG 메타 데이터에 포함된 정보(뉴스 프로그램)와 다르게 스포츠 경기를 생중계하는 상황을 가정하였지만, 이는 예시적인 일 실시 예에 불과하며 다양한 이유로 EPG 메타 데이터에 포함된 정보와 다른 영상이 전자 장치(100)에 수신될 수 있다. 예를 들어, EPG 메타 데이터의 오류, 방송사 컨텐츠 긴급 변경, 뉴스 긴급 속보 등 다양한 이유가 될 수 있으며 어느 특정 실시 예에 한정되지 않는다.
또한, 프로세서(120)는 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정할 수 있다. 구체적인 설명은 도 9에서 후술한다.
이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)는, 수신된 프레임 중에서 기설정된 오브젝트를 포함하는 프레임에서만 정보를 추출할 수 있는바, 프로세서(120) 및 메모리(140)의 부담을 줄일 수 있다.
그리고, 특정 프레임에 대해서만 정보를 추출하므로 불필요한 정보가 메모리(140)에 저장되지 않으므로 분석에 관한 결과(예를 들어, 메타데이터)의 정확도가 높아질 수 있다.
또한, 프로세서(120)는 외부에서 전송한 메타 데이터를 수정하는 동작을 통해 실시간으로 정확한 정보를 저장할 수 있다.
메모리(140)는 제어 유닛의 제어에 의해 원격 제어 장치(100)를 구동하고 제어하기 위한 다양한 데이터, 프로그램 또는 어플리케이션을 저장할 수 있다. 구체적으로, 메모리(140)는 프레임에서 추출된 텍스트 정보 또는 이미지 정보를 저장할 수 있다. 저장된 텍스트 정보 또는 이미지 정보는 메타 데이터 생성에 이용될 수 있다. 또는 외부에서 수신된 메타 데이터와의 비교에 이용될 수 있다.
또한, 메모리(140)는 프로세서(120)에 의해 생성된 메타 데이터를 저장할 수 있다.
또한, 메모리(140)에 사용자에게 추천할 선호 컨텐츠에 대한 정보를 저장할 수 있다. 특정 이벤트가 있는 경우, 프로세서(120)는 사용자에게 선호 컨텐츠를 제공할 수 있고 이 경우 전자 장치(100)는 메모리(140)에 저장되어 있는 선호 컨텐츠에 대한 정보를 이용할 수 있다.
한편, 도 1을 설명함에 있어서, 전자 장치(100)가 기설정된 오브젝트를 프레임이 포함하는지 여부를 판단하는 것으로 설명하였지만, 구현시에는 상기 판단 동작은 외부 서버에서 수행하는 형태로도 구현될 수 있다. 또한, 기설정된 오브젝트를 판단하는 동작 이외에도 특정 프레임에서 텍스트 및 이미지를 추출하는 동작도 외부 서버에서 수행하는 형태로도 구현될 수 있다.
구체적으로, 영상을 수신한 이후에 분석이 필요한 동작은 서버에서 수행하는 것으로 구현될 수 있다. 또한, 전자 장치(100)와 서버 사이에서 필요한 동작을 구분하여 일부는 전자 장치(100)에서 수행하고 일부는 서버에서 수행하는 형태로도 구현될 수 있다.
한편, 이상에서는 통신부(110), 프로세서(120) 및 메모리(140)를 구성하는 간단한 구성에 대해서만 도시하고 설명하였지만, 구현시에는 다양한 구성이 추가로 구비될 수 있다. 이에 대해서는 도 2를 참조하여 이하에서 설명한다.
도 2는 본 개시의 실시예에 따른 전자 장치의 구성을 자세히 도시한 블록도이다.
도 2를 참고하면, 전자 장치(100)는 통신부(110), 프로세서(120), 출력부(130), 메모리(140), 튜너(150), 마이크(160), 포트부(170), 조작 입력부(180)를 포함할 수 있다.
전자 장치(100)는 내장 마이크 또는 외부 장치에 내장된 마이크를 통해 음성을 입력 받아 직접 음성 인식을 하거나, 음성 인식을 수행하는 외부의 서버로 입력된 음성을 전달하여 음성 인식 결과를 수신할 수 있다.
전자 장치(100)가 직접 음성 인식을 수행하는 경우, 음성을 인식하기 위한 인공지능 시스템이 구비되어 있을 수 있다. 인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서 기계가 스스로 학습하고 판단하며, 사용할수록 인식률이 향상되는 시스템이다. 인공 지능 기술 중에서 인간의 언어/문자를 인식하는 언어적 이해 기술을 통해 입력된 음성을 인식할 수 있다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다.
본 개시의 또 다른 실시예에 따르면, 마이크가 내장된 별도의 외부 장치가 존재하고, 외부 장치는 입력된 음성에 대한 음성 인식 처리를 하여 음성 인식 결과를 전자 장치(100)로 제공할 수 있다.
전자 장치(100)는 음성 인식 결과에 기초하여 제어될 수 있다. 예컨대, 음성 인식 결과가 "채널 추천해줘"를 포함하면, 선호 채널을 선정하여 선정된 선호 채널에 대한 정보를 출력부(130)를 통해 제공할 수 있다. 이 경우, 채널 대신에 특정 프로그램 또는 특정 컨텐츠일 수 있다.
통신부(110)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(110)는 외부 서버로부터 전자 장치에서 제공하는 컨텐츠와 관련된 광고 정보를 수신할 수 있다.
통신부(110)는 근거리 통신망(LAN: Local Area Network) 또는 인터넷 망을 통해 외부 기기에 접속될 수 있고, 무선 통신(예를 들어, Z-wave, 4LoWPAN, RFID, LTE D2D, BLE, GPRS, Weightless, Edge Zigbee, ANT+, NFC, IrDA, DECT, WLAN, 블루투스, 와이파이, Wi-Fi Direct, GSM, UMTS, LTE, WiBRO 등의 무선 통신) 방식에 의해서 외부 기기에 접속될 수 있다. 통신부(110)는 와이파이칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다. 또한 통신부(110)는 외부장치로부터 제어신호(예를 들어 IR 펄스)를 수신할 수 있는 광 수신부를 포함할 수 있다. 통신부(110)를 통해 외부 장치에서 입력된 사용자 명령을 수신할 수 있으며, 통신부(110)를 통해 선정된 추천 서비스에 대한 정보를 외부의 사용자 단말로 전송할 수 있으며, 통신부(110)를 통해 서버(200)와 데이터 송수신을 할 수 있다.
프로세서(120)는 RAM(121), ROM(122), CPU(123), GPU(124) 및 버스(125)를 포함한다. RAM(121), ROM(122), CPU(123), GPU(124) 등은 버스(125)를 통해 서로 연결될 수 있다. 프로세서(120)는 SoC(System On Chip)로 구현될 수 있다.
프로세서(120)의 GPU(124)가 영상을 분석하고 CPU(123)는 전체적인 동작을 제어할 수 있다.
CPU(123)는 메모리(140)에 액세스하여, 메모리(140)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고 메모리(140)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다. CPU(123)는 도 1과 관련하여 설명한 프로세서(120)의 동작을 수행할 수 있다.
GPU(124)는 디스플레이 장치(100)의 부팅이 완료되면, 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성할 수 있다. 이러한, GPU 구성은 영상 처리부와 같은 별도의 구성으로 구성될 수 있으며, 프로세서(120) 내의 CPU와 결합된 SoC와 같은 구성으로 구현될 수도 있다.
ROM(122)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, CPU(123)는 ROM(122)에 저장된 명령어에 따라 메모리(140)에 저장된 O/S를 RAM(121)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, CPU(123)는 메모리(140)에 저장된 각종 애플리케이션 프로그램을 RAM(121)에 복사하고, RAM(121)에 복사된 애플리케이션 프로그램을 실행시켜 각종 동작을 수행한다. 프로세서(120)는 메모리(140)에 저장된 모듈을 이용하여 다양한 동작을 수행할 수 있다.
출력부(130)는 영상을 출력하기 위한 디스플레이(131), 오디오를 출력하기 위한 스피커(132)를 포함할 수 있다.
디스플레이(131)는 프로세서(120)가 제공하는 선호 컨텐츠를 사용자가 볼 수 있도록 영상을 표시할 수 있다. 또한, 영상을 표시하면서 추가로 사용자에게 UI 요소를 표시할 수 있다. 이 경우, UI 요소는 사용자에게 선택을 요청하는 문구일 수 있고, 복수의 선호 컨텐츠를 표시하는 메뉴일 수 있다. UI 요소는 어느 특정의 내용에 한정되지 않고 컨텐츠와 별도로 인식 가능한 인터페이스일 수 있다.
디스플레이(131)는 LCD(Liquid Crystal Display), PDP(plasma display panel), OLED(organic light emitting diodes) 등으로 구현될 수 있고 터치 스크린으로 구현될 수 있다.
스피커(132)는 오디오를 출력하는 구성이다. 스피커(132)는 전기신호를 진동판의 진동으로 바꾸어 공기에 소밀파를 발생시켜 음파를 복사하는 음향기기이며, 음성 데이터를 출력할 수 있다.
메모리(140)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 한편, 메모리는 전자 장치내의 저장 매체뿐만 아니라, 외부 저장 매체, 예를 들어, micro SD 카드, USB 메모리 또는 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다.
튜너(150)는 사용자 입력에 대응되는 채널 번호에 대응되는 주파수 대역에서 비디오, 오디오 및 데이터를 수신할 수 있다.
튜너(150)는 지상파 방송, 케이블 방송, 또는, 위성 방송 등과 같이 다양한 소스에서부터 방송 신호를 수신할 수 있다. 튜너(150)는 다양한 소스에서부터 아날로그 방송 또는 디지털 방송 등과 같은 소스로부터 방송 신호를 수신할 수도 있다.
튜너(150)는 전자 장치(100)와 일체형(all-in-one)으로 구현되거나 또는 전자 장치(100)와 전기적으로 연결되는 튜너 유닛을 가지는 별개의 장치(예를 들어, 셋톱박스(set-top box), 포트부(170)에 연결되는 튜너)로 구현될 수 있다.
튜너(150)는 유선 또는 무선으로 수신되는 방송 신호를 증폭(amplification), 혼합(mixing), 공진(resonance) 등을 통하여 많은 전파 성분 중에서 전자 장치(100)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 방송 신호는 비디오(video), 오디오(audio) 및 부가 데이터(예를 들어, EPG(Electronic Program Guide)를 포함할 수 있다.
마이크(160)는 음성을 입력 받아 직접 음성 인식을 하거나, 음성 인식을 수행하는 외부의 서버로 입력된 음성을 전달하여 음성 인식 결과를 수신할 수 있다. 또한, 마이크(160)는 사람의 음성 뿐만 아니라 사운드 신호를 수신할 수 있다. 마이크(160)에서 전송된 사운드 신호를 수신할 수 있고 가청 영역의 사운드 신호 뿐만 아니라 비가청 영역의 사운드 신호를 수신할 수 있다.
마이크(160)는 수신된 소리에 관한 정보를 전기 신호로 변환할 수 있다.
마이크(160)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.
포트부(170)는 외부 장치와 연결되기 위한 구성이다. 포트부(170)는 HDMI 입력 포트(High-Definition Multimedia Interface port, 171), 컴포넌트 입력 잭(172), 및 USB 포트(173) 중 적어도 하나를 포함할 수 있다. 도시한 것 이외에도 포트부(170)는 RGB, DVI, HDMI, DP, 썬더볼트 등의 포트 중 적어도 하나를 포함할 수 있다. 포트부(170)를 통해 외부 장치로 추천 서비스에 대한 정보가 전달되는 것이 가능하다.
조작 입력부(180)는 디스플레이(131)에 표시된 선호 컨텐츠에 대한 사용자의 선택을 입력 받을 수 있다. 조작 입력부(180)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다.
한편, 전자 장치(100)는 상술한 구성을 이용하여 영상을 수신하고 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하여, 감지된 프레임 중에 포함된 정보를 추출하는 동작을 수행할 수 있습니다. 도 3 내지 도 5에서는 기설정된 오브젝트를 감지하는 방법에 대하여 설명한다.
도 3 내지 도 5는 영상에 포함된 기설정된 오브젝트를 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시예에 따른 영상에 포함된 기설정된 오브젝트를 설명하기 위한 도면이다.
도 3을 참고하면, 수신된 영상에서 특정 프레임에는 컨텐츠를 제공하는 업체 이름(310), 에지 영역(320), 이미지(330), 텍스트(340,350) 등의 정보를 포함할 수 있다.
컨텐츠를 제공하는 업체 이름(310)은 일반적으로 동일한 위치에 존재할 수 있고 픽셀값도 동일하게 유지될 수 있다. 전자 장치(100)는 동일한 위치에 동일한 픽셀값으로 오랜 시간 프레임에서 검출되는 부분을 컨텐츠를 제공하는 업체 이름(310)으로 판단할 수 있다.
에지 영역(320)은 픽셀값이 불연속하는 윤관선을 의미하는 영역의 경계일 수 있다. 영상에서의 불연속점은 스텝 불연속점과 라인불연속점이 있다. 스텝 불연속점은 영상의 밝기가 갑자기 변하는 곳으로 이에 해당하는 윤곽선을 스텝 에지(step edge)라고 한다. 라인 불연속점은 영상의 밝기가 갑자기 변화하나 조금 지나면 다시 돌아오는 곳으로 이에 해당하는 연산을 라인 에지(line edge)라고 한다. 에지 영역(320)은 상술한 스텝 에지와 라인 에지를 모두 포함하는 의미일 수 있다.
전자 장치(100)는 이미지(330) 및 텍스트(340,350)를 파악하기 위하여 자동 컨텐츠 인식(ACR, Automatic Content Recognition) 기술을 이용할 수 있다.
이를 위하여 자동 컨텐츠 인식(ACR, Automatic Content Recognition)기술을 이용할 수 있다. 자동 컨텐츠 인식 기능이란, 스마트 TV, 스마트폰, 스마트 PC, 게임기 등을 이용하다가 시청자가 관심 있는 콘텐츠가 등장하면 제품의 가격, 제조사 등을 자동으로 찾아주고 구매할 수 있도록 해주는 기술이다. 자동 컨텐츠 인식 기능을 이용하면 사용자가 원하는 영상, 음성 등 콘텐츠를 찾을 수 있으며 동영상 등에 포함된 사전 입력 데이터를 기반으로 검색이 가능하다.
또한, 텍스트 정보를 추출하기 위해선 OCR(optical character reader) 기능을 이용할 수 있다. OCR 기능은 문자, 숫자 또는 다른 기호의 형태가 갖는 정보로부터 디지털 컴퓨터에 알맞는 부호화된 전기신호로 변환하는 기능을 의미한다.
한편, 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함할 수 있다.
한편, 이미지 정보를 추출하기 위해서 Neural Net 기반의 객체탐지 (object detection)기술을 활용할 수 있다.
객체 탐지 기술이란 객체 종류와 그 위치(bounding box)를 정확하게 찾기 위한 컴퓨터 비전(computer vision) 기술일 수 있다. 영상에서 관심 대상을 인식하기 위해 일반적으로 검출 대상에 대한 후보 영역을 찾고 그 후보 영역에 대한 객체의 종류와 위치를 학습된 모델을 통해 예측한다. 이 과정을 위해서 영상 및 영상 내의 객체 종류(class)와 객체 위치(bounding box) 정보가 필요하다. 얼굴, 도로상의 보행자 및 차량 등의 인식에 딥 러닝(deep learning) 기반의 객체 탐지 기술이 많이 이용될 수 있다.
본 전자 장치(100)는 이러한 객체 탐지 기술을 이용하여 수신된 영상의 이미지에 대한 정보를 추출할 수 있다.
도 8을 참조하면, 상술한 기술들을 이용하여 전자 장치(100)는 이미지(330)를 추출하여 우산, 여자, 비 등의 이미지 내용을 추출할 수 있다. 또한 텍스트 정보에 대하여 "BREAKING NEWS"(340)와 "POWER POWERFUL TYPHOON THREATENS EAST ASIA"(350)라는 텍스트를 추출할 수 있다. 또한, "Snews"에 대한 부분을 텍스트 정보로 추출할 수 있다. 전자 장치(100)는 "Snews"가 업체 이름(310)로 판단할 수 있다. 전자 장치(100)는 텍스트 정보 중에서 일정 시간동안 동일한 텍스트로 표시되는 부분을 업체 이름으로 판단할 수 있다.
한편, 도시하지 않았지만 "TM" "R" 등과 같이 상표에 대한 정보를 표시하거나 회사를 나타내는 표시등이 있는 경우에도 업체 이름 등으로 판단할 수 있다.
또한, 전자 장치(100)는 기저장된 데이터에 포함된 업체명과 추출된 정보를 비교하여 업체 이름을 판단할 수 있다.
한편, 전자 장치(100)는 텍스트 및 이미지 정보를 추출하기 전에 해당 프레임에 기설정된 오브젝트가 포함되어 있는지 여부를 확인하는 동작을 수행한다고 설명한 바 있다.
전자 장치(100)가 기설정된 오브젝트를 판단하는 이유는 모든 프레임이 아닌 특정한 프레임에 대하여 이미지 및 텍스트 정보를 추출하는 것이 메모리를 효율적으로 사용하는 것이기 때문이다.
도 3을 참고하면, 기설정된 오브젝트는 에지 영역(320)일 수 있다. 일반적으로 텍스트 정보를 표시하기 위해선 특정한 에지 영역(320)처럼 특정한 윤곽선안에 텍스트를 추가할 수 있다. 따라서 기설정된 오브젝트를 에지 영역(320)으로 설정하면 수신된 영상에서 에지 영역(320)이 검출된 경우에 한해서만 정보를 추출할 수 있다.
구체적으로, 에지 영역(320)이 있는 프레임만 정보를 추출하고 이외의 프레임은 정보를 추출하지 않을 수 있다. 하지만 이는 예시적인 것에 불과하고 기설정된 오브젝트는 에지 영역(320)이외에 다른 추가적인 오브젝트가 설정될 수 있다. 또한, 기설정된 오브젝트는 여러 개일 수 있다.
한편, 지금까지 기설정된 오브젝트가 에지 영역(320)이라고 표현하였지만 에지 영역(320)이 기설정된 길이 이상인 경우를 추가로 한정할 수 있으며, 에지 영역(320)이 일직선으로 형성된 경우를 의미할 수 있다.
도 4는 본 개시의 또 다른 실시예에 따른 기설정된 오브젝트를 설명하기 위한 도면이다.
도 4를 참조하면, 프레임에서 에지 영역이 검출되지 않은 영상이 수신될 수 있다. 기설정된 오브젝트를 에지 영역이라고만 설정했다면, 전자 장치(100)는 401 프레임에서 어느 정보도 추출하지 않을 수 있다.
한편, 402 프레임에서는 새로운 기준의 에지 영역을 설명한다. 일반적으로 에지 영역을 표현하는 윤곽선이 교차하여 표시될 수 있다. 전자 장치(100) 는 윤곽선이 교차하여 표시되는 오브젝트를 기설정된 오브젝트로 설정할 수 있다.
예를 들어, 에지 영역(320)을 나타내는 윤곽선들이 수직으로 교차하는 것이 감지되면, 전자 장치(100)는 해당 402 프레임에 대한 정보를 추출할 수 있다.
한편, 도 4의 402 프레임에서는 에지 영역만이 기설정된 오브젝트로 설정된 경우를 예시하였지만 이외의 다른 오브젝트 종류가 기설정된 오브젝트로 설정될 수 있다.
한편, 전자 장치(100)는 기설정된 오브젝트가 감지된 프레임에 대하여 정보를 추출할 수 있다. 전자 장치(100)는 기설정된 오브젝트가 감지된 프레임에 대하여 정보를 추출하여 메모리에 저장할 수 있다.
한편, 전자 장치(100)는 메모리에 저장된 정보를 분석하여 특정한 메타 데이터를 생성할 수 있다. 여기서 전자 장치(100)가 기설정된 오브젝트가 감지된 프레임마다 정보를 추출하고 정보를 추출할 때마다 메타 데이터를 생성한다면 많은 양의 메타 데이터가 생성되어 프로세서(120) 및 메모리(140)에 부담이 될 수 있다.
따라서 전자 장치(100)는 추출된 정보를 병합하여 메타 데이터를 생성할 수 있다. 상세한 설명을 도 5 및 도 6에서 설명한다.
도 5 및 도 6은 본 개시의 실시예에 따른 메타데이터 생성 동작을 설명하기 위한 도면이다.
도 5는 수신된 영상의 특정 프레임에서 20초 지난 뒤의 프레임을 설명하기 위한 도면이다.
전자 장치(100)는 우선 수신된 프레임에 기설정된 오브젝트가 있는지 여부를 판단할 수 있다. 도 5 및 도 6기설정된 오브젝트는 에지 영역으로 설정한 것을 가정한다. 도 5를 참고하면, 501 및 502 프레임 모두에 에지 영역이 있으므로 기설정된 오브젝트가 포함되어 있다고 판단할 수 있다.
전자 장치(100)는 501 프레임에 대하여 정보를 추출할 수 있다. 501 프레임에 대하여 전자 장치(100)는 우산, 여자, 비에 대한 이미지 정보와 "BREAKING NEWS", "POWER POWERFUL TYPHOON THREATENS EAST ASIA", "Snews"에 대한 텍스트 정보를 추출할 수 있다.
또한, 전자 장치(100)는 501 프레임이 수신된 이후 20초 뒤에 502 프레임에 대하여 정보를 추출할 수 있다. 502 프레임에 대하여 전자 장치(100)는 우산, 여자, 비에 대한 이미지 정보와 "BREAKING NEWS", "POWER POWERFUL TYPHOON KILL 30 PEOPLE", "Snews"에 대한 텍스트 정보를 추출할 수 있다.
501 프레임 및 502 프레임에서 추출된 정보를 이용하여 메타 데이터를 생성하는 동작을 설명한다.
도 6은 도 5에서 도시한 501 프레임 및 502 프레임에서 추출한 정보를 이용하여 메타데이터를 설명하기 위한 도면이다.
도 6을 참조하면, 601 표는 501 프레임에서 추출된 정보를 이용하여 생성된 메타 데이터일 수 있다. 메타 데이터는 컨텐츠 이름(610), 장르(620), 세부장르(630), 시청 시간(640), 텍스트(650), 이미지(660)에 대한 정보를 포함할 수 있다. 전자 장치(100)는 추출된 정보를 분석하여 장르(620) 및 세부 장르(630)를 결정할 수 있다. 예를 들어, 전자 장치(100)는 텍스트 정보인 "Snews"를 추출하였고 news라는 단어를 이용하여 장르를 뉴스로 결정할 수 있다.
또한, 도 6을 참조하면, 602 표는 502 프레임에서 추출된 정보를 이용하여 생성된 메타 데이터일 수 있다. 601 표와 비교하여 602 표는 텍스트 일부분이 다르게 추출될 수 있다. 따라서 602 표에는 "KILL 30 PEOPLE" 라는 텍스트가 새로 추출될 수 있다. 또한 501 프레임이 수신되고 20초 이후에 502 프레임이 수신되는 것이기 때문에 시간 정보(640)가 달라질 수 있다.
한편, 601 표와 602 표는 각각의 프레임에서 추출한 정보를 이용하여 개별적인 메타 데이터를 생성하는 동작을 설명하였다.
하지만, 도 6을 참고하면, 603 표는 일정한 시간동안 추출된 정보를 종합하여 하나의 메타 데이터일 수 있다. 구체적으로, 603 표는 501 프레임과 502 프레임에서 추출된 정보를 종합할 수 있다. 예를 들어, 501 프레임 과 502 프레임에 각각에 "Snews", "BREAKING NEWS", "POWER POWERFUL TYPHOON"가 중복 될 수 있다. 여기서, 전자 장치(100)는 중복되는 텍스트를 하나의 정보로 인식하여 메타 데이터를 생성할 수 있다.
전자 장치(100)는 기설정된 시간동안 추출된 정보를 종합하여 하나의 메타 데이터를 생성할 수 있다. 구체적으로, 전자 장치(100)는 특정 프레임에서 추출된 정보를 이용하여 바로 메타 데이터를 생성하지 않고 기설정된 시간동안 프레임에 대한 정보를 추출하고 추출된 정보를 바탕으로 메타 데이터를 생성할 수 있다.
또한, 전자 장치(100)는 프레임에 대한 정보를 추출하면서 추출된 정보들과 공통되는 정보들이 추출되는 경우 메타 데이터 생성을 보류할 수 있다. 그리고 전자 장치(100)는 새로 추출되는 정보가 기존에 추출된 정보와 공통되는 부분이 하나도 없으면 기존에 추출된 정보를 이용하여 메타 데이터를 생성할 수 있다. 구체적인 예시는 도 7과 함께 설명한다.
도 7은 수신된 영상의 종류가 변경되었을 때 전자 장치가 이를 인식하는 동작을 설명하기 위한 도면이다.
도 7을 설명함에 전자 장치(100)에서는 기설정된 오브젝트는 에지 영역과 텍스트 정보를 포함하는 영역이라고 가정한다. 도 8을 참고하면, 701 프레임은 에지 영역 및 텍스트 정보를 포함하는 영역을 포함하고 있으므로 전자 장치(100)는 701 프레임에 포함된 정보를 추출할 수 있다.
그리고 이러한 701 프레임에 대한 내용에서 새로운 텍스트가 검출되지 않고 20분이 경과하였다고 가정한다. 전자 장치(100)는 새로운 텍스트가 검출되지 않아 메타 데이터의 생성을 보류할 수 있다.
701 프레임이 수신된 이후 20분이 경과하고 새로운 종류의 703 프레임이 수신되었다고 가정한다. 전자 장치(100)는 텍스트 정보를 포함하는 영역이 있는 703 프레임에 대하여 정보를 추출할 수 있다.
703 프레임에서 추출된 정보는 텍스트인 "ABCD", "Golf is life" 및 이미지인 "골프", "남자", "<A><B><C><D>"일 수 있다.
전자 장치(100)는 기존까지 추출된 정보와 새로 추출된 정보를 비교하여 동일한 정보가 있는지 판단할 수 있다. 701 프레임에서 추출된 정보와 703 프레임에서 추출된 정보가 하나도 일치하지 않으므로 전자 장치(100)는 수신된 영상(또는 컨텐츠)의 종류가 변경되었다고 판단할 수 있다.
전자 장치(100)는 수신된 영상(또는 컨텐츠)의 종류가 변경되었다고 판단되면 기존에 추출된 정보에 대한 메타 데이터를 생성할 수 있다. 예를 들어, 701 프레임에 대하여 추출된 정보가 메모리에 저장되어 있다가 703 프레임을 통해 추출된 정보가 메모리에 저장되면 전자 장치(100)는 701 프레임에 대한 정보를 이용하여 메타 데이터(702)를 생성할 수 있다.
또한, 전자 장치(100)는 같은 방식으로 703 프레임에서 추출된 정보를 메모리에 저장할 수 있다. 이후 703 프레임에서 추출된 정보와 다른 정보가 추출되면 703 프레임에서 추출된 정보를 이용하여 메타 데이터(704)를 생성할 수 있다.
프레임마다 메타 데이터를 생성하지 않고 기설정된 기간 또는 특정 조건에서만 메타 데이터를 생성하는 이유는 프로세서(120) 및 메모리(140)에 대한 부담을 줄이기 위함이다. 물리적으로 프로세서(120) 및 메모리(140)에 대한 능력이 한정되어 있고 불필요한 정보를 프로세서(120) 및 메모리(140)가 처리하게 되면 성능이 저하될 가능성이 높을 수 있다.
한편, 프로세서(120) 및 메모리(140)에 대한 부담을 줄이기 위해서 또 다른 실시예를 설명한다.
도 8은 특정 오브젝트가 고정된 위치에 표시되는 영상을 설명하기 위한 도면이다.
도 8을 참조하면 801 프레임이 수신된 이후 20초 이후 802 프레임이 수신되며, 20초 간격으로 803 프레임 및 804 프레임이 수신된다고 가정한다. 801 내지 804프레임을 비교해 보면 "Snews"부분의 텍스트는 고정적으로 표시될 수 있다. 또한, 에지 영역들(820,830)이 반복적으로 표시되었다가 사라질 수 있다.
도 8을 설명할 때 기설정된 오브젝트는 에지 영역과 텍스트를 포함하는 영역이라고 가정한다.
801 프레임이 수신되면 전자 장치(100)는 텍스트를 포함하는 영역을 기설정된 오브젝트로 판단하고 정보를 추출할 수 있다. 이 경우, 전자 장치(100)는 "Snews"라는 텍스트 정보(810)를 추출할 수 있다.
또한, 전자 장치(100)는 802 프레임이 수신되면 텍스트를 포함하는 영역(810) 및 에지 영역(820)을 기설정된 오브젝트로 판단하고 정보를 추출할 수 있다. 이 경우, 전자 장치(100)는 "BREAKING NEWS", "POWER POWERFUL TYPHOON THREATENS EAST ASIA", "Snews"에 대한 텍스트 정보를 추출할 수 있다.
마찬가지로 803 및 804 프레임에서도 전자 장치(100)는 해당 영상의 컨텐츠가 제공되는 동안 계속하여 "Snews"에 대한 텍스트 정보(810)를 추출할 수 있다. 여기서, 기설정된 오브젝트를 텍스트 정보를 포함하는 영역으로 설정하였다고 가정 하였으므로 전자 장치(100)는 수신되는 모든 프레임에 대하여 정보를 추출할 수 있다. 이는 프로세서(120) 및 메모리(140)에 상당한 부담이 될 수 있으며 불필요한 정보가 계속하여 추출되는 동작이 될 수 있다.
따라서, 전자 장치(100)는 고정적으로 표시되는 특정 오브젝트에 대하여는 기설정된 오브젝트로 판단하지 않을 수 있다. 예를 들어, 전자 장치(100)가 텍스트를 포함하는 영역에 대해서 이미 텍스트 정보를 추출 하였다면, 전자 장치(100)는 동일한 영역에 대해서는 기설정된 오브젝트로 판단하지 않을 수 있다.
예를 들어, 전자 장치(100)가 801 프레임에서 "Snews"에 대한 텍스트 정보(810)를 추출하였다면, 해당 부분에 대한 픽셀값이 802 프레임에서도 감지되면 동일한 내용으로 추정할 수 있다. 전자 장치(100)는 802 프레임에 대해서는 "Snews"가 포함된 영역을 기설정된 오브젝트로 판단하지 않을 것이다.
802 프레임에서는 에지 영역(820)이 존재하므로 전자 장치(100)는 802 프레임에 대해서 정보를 추출할 수 있다. 하지만 803 프레임에 대해서는 "Snews"가 포함된 영역을 기설정된 오브젝트로 판단하지 않으므로 전자 장치(100)는 아무런 정보를 추출하지 않을 수 있다.
또한, 전자 장치(100)는 804 프레임에 대해서는 "Snews"가 포함된 영역을 기설정된 오브젝트로 판단하지 않지만 에지 영역(830)을 기설정된 오브젝트로 판단할 수 있다. 따라서 전자 장치(100)는 804 프레임에 대해서는 정보를 추출할 수 있다.
한편, 에지 영역들(820,830)은 "Snews"와 달리 고정적으로 프레임에 포함되지 않아 에지 영역들(820,830)은 계속하여 기설정된 오브젝트일 수 있다.
한편, 일반적으로 에지 영역은 고정적으로 표시된다 하여도 텍스트 정보는 계속 변경될 수 있으므로 사용자의 설정에 의해 기설정된 오브젝트에서 제외되지 않도록 설정할 수 있다.
도 9는 본 개시의 실시예에 따른 선호 컨텐츠 추천 방법을 설명하기 위한 도면이다.
도 9를 참고하면, 전자 장치(100)는 수신되는 영상(또는 컨텐츠)의 종류가 변경되면 사용자에게 선호 컨텐츠를 추천할 수 있다.
한편, 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다.
수신되는 영상(또는 컨텐츠)의 종류가 변경되는 것을 전자 장치(100)가 판단하는 동작에 관해서는 도 7에서 설명하였다.
도 7에서 설명한 방법을 이용하여 전자 장치(100)가 수신된 영상(또는 콘텐츠)이 변경되었음을 감지하면 전자 장치(100)는 전자 장치(100)는 새로운 컨텐츠에 대한 정보를 표시한 UI(910,920)를 제공할 수 있다. UI는 특정 프로그램(910)을 추천할 수 있고, 현재 방영중인 채널(920)을 추천할 수 있다.
한편, 지금까지 기설정된 오브젝트는 사용자가 특정 오브젝트를 기설정된 오브젝트로 저장한 실시예를 설명하였지만 기설정된 오브젝트는 인공지능 학습에 의해 저장될 수 있다.
도 10은 본 개시의 또다른 실시예에 따른 학습 모델을 설명하기 위한 도면이다.
도 10을 참조하면, 본 개시의 기설정된 오브젝트 설정은 머신 러닝 기반의 인식 시스템에 의해 수행될 수 있으며, 본 개시에서는 뉴럴 네트워크(Neural Networks)에 기반한 일련의 기계학습 알고리즘에 의한 분류 시스템으로서, 딥 러닝 기반의 인식 시스템을 예로서 설명한다.
구체적으로, 딥 러닝 기반의 인식 시스템은 적어도 하나의 분류기를 포함할 수 있으며, 분류기는 하나 또는 복수 개의 프로세서(120)에 해당할 수 있다. 프로세서(120)는 다수의 논리 게이트들의 어레이(Array)로 구현될 수 있고, 범용적인 마이크로 프로세서와 이 마이크로 프로세서에서 실행될 수 있는 프로그램이 저장된 메모리(130)의 조합으로 구현될 수도 있다. 분류기는 뉴럴 네트워크(Neural Network) 기반 분류기, SVM(Support Vector Machine), 에이다부스트 분류기(Adaboost Classifier), 베이지안 분류기(Bayesian Classifier) 및, 퍼셉트론 분류기(Perceptron Classifier) 등으로 구현될 수 있다. 이하, 본 개시의 분류기는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN) 기반 분류기로 구현되는 실시예에 대하여 설명한다. 뉴럴 네트워크 기반 분류기는, 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하도록 구현된 연산모델로서, 연결 강도(가중치)를 갖는 연결선을 통해 인간의 인지작용이나 학습과정을 수행하게 된다. 그러나, 본 개시의 분류기가 이에 한정되는 것은 아니며, 상술한 다양한 분류기로 구현될 수 있음은 물론이다.
일반적인 뉴럴 네트워크는 입력층(1010)(input layer), 은닉층(1020)(hidden layer) 및 출력층(1030)(output layer)을 포함하며, 은닉층(1020)은 필요에 따라서 1 이상의 층으로 구성될 수 있다. 이러한, 뉴럴 네트워크를 학습시키기 위한 알고리즘으로 역전파(Bak Propagation) 알고리즘을 이용할 수 있다.
분류기는 어떠한 데이터가 뉴럴 네트워크의 입력층(1010)에 입력되면, 입력된 학습 데이터에 대한 출력 데이터가 뉴럴 네트워크의 출력층(1030)으로 출력되도록 뉴럴 네트워크를 학습시킬 수 있다. 수신된 프레임으로부터 추출된 특징 정보가 입력되면, 뉴럴 네트워크를 이용하여 특징 정보의 패턴을 여러 클래스 중에서 어느 하나의 클래스로 분류하고, 분류 결과를 출력할 수 있다.
여기서, 입력층(1010)은 수신된 프레임의 다양한 객체일 수 있다. 예를 들어, 입력층(1010)의 노드들(1011,1012,1013)은 텍스트를 포함하는 영역을 나타내는 객체, 에지 영역을 나타내는 객체, 고정적인 텍스트 또는 이미지를 표시하는 객체 등이 될 수 있다. 상술한 입력층(1010)의 예시는 설명을 위한 것일 뿐, 이에 한정된다는 의미는 아니다. 즉, 입력층(1010)의 노드 수 는 사용자의 설정에 따라 변경될 수 있다.
도 10을 참조하면 입력층(1010)의 노드들(1011,1012,1013)은 3가지로 도시되어 있지만 이는 변경될 수 있다.
수신된 프레임에 포함된 다양한 객체는 입력층(1010)에 해당할 수 있다. 여기서, 출력층(1030)은 텍스트 또는 이미지 정보를 추출했는지 여부일 수 있다.
구체적으로, 전자 장치(100)는 수신된 영상에 포함된 다양한 객체를 통해 프레임에 포함되는 객체가 텍스트 또는 이미지 정보를 포함하고 있는지 여부를 확인할 수 있다.
여기서, 전자 장치(100)는 프레임에 포함되는 객체가 텍스트 또는 이미지 정보를 포함하고 있는지 여부를 기준으로 학습할 수 있다.
한편, 전자 장치(100)는 프레임에 포함된 객체를 기초로 텍스트 또는 이미지 정보를 포함하고 있는지 여부를 결정해야 하므로, 전자 장치(100)는 뉴럴 네트워크(Neural Networks)에 기반한 일련의 기계학습 알고리즘에 의한 분류 시스템으로서, 딥 러닝 기반의 인식 시스템을 이용할 수 있다.
또한, 도 10에는 은닉층(1020)을 2단계로 표현하였지만 1단계 은닉층으로만 이루어진 분류 시스템일 수 있다. 또한, 은닉층(1020)에 포함되는 노드 수 역시 변경될 수 있다.
도 10을 참고하면, 전자 장치(100)는 기설정된 오브젝트에 대해 사용자가 미리 설정하지 않아도 인공지능 기술에 의한 학습을 통해 자동으로 의미있는 오브젝트를 기설정된 오브젝트로 저장할 수 있다.
도 11은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 전자 장치(100)의 제어 방법은 복수의 프레임으로 구성된 영상을 수신할 수 있다(S1110).
또한, 전자 장치(100)의 제어 방법은 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지할 수 있다 (S1120). 이 경우, 프레임에서 에지 영역을 검출하고 검출된 에지 영역이 기설정된 길이 이상이면 기설정된 오브젝트가 포함되어 있는 것으로 판단할 수 있다.
또한, 전자 장치(100)의 제어 방법은 감지된 프레임에서 정보를 추출할 수 있다(S1130). 여기서, 전자 장치(100)의 제어 방법은 프레임에 포함된 텍스트를 감지하여 정보를 추출할 수 있다. 그리고 전자 장치(100)는 프레임에 포함된 객체 이미지를 추출하고, 추출된 객체 이미지에 대한 객체 정보를 정보로 추출할 수 있다. 또한, 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 프레임에 포함된 객체가 이미지이면 이미지가 의미하는 내용을 정보로 추출할 수 있다. 한편, 서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단할 수 있다.
또한, 전자 장치(100)의 제어 방법은 추출된 정보를 이용하여 메타 데이터를 생성할 수 있다(S1140). 한편, 전자 장치(100)의 제어 방법은 서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성할 수 있다. 여기서 전자 장치(100)의 제어 방법은 추출된 정보를 이용하여 업체 정보, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성할 수 있다.
한편, 전자 장치(100)의 제어 방법은 생성된 메타 데이터를 저장할 수 있다(S1150).
또한, 전자 장치(100)의 제어 방법은 영상에 포함된 메타 데이터를 검출하는 단계를 더 포함하고, 생성하는 단계는 검출된 메타 데이터 및 추출된 정보를 비교하여 검출된 메타 데이터를 수정할 수 있다.
한편, 전자 장치(100)의 제어 방법은 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정할 수 있다.
이상과 같이 본 개시의 일 실시 예에 따른 전자 장치(100)의 제어 방법은, 수신된 프레임 중에서 기설정된 오브젝트를 포함하는 프레임에서만 정보를 추출할 수 있는바, 프로세서(120) 및 메모리(140)의 부담을 줄일 수 있다.
그리고, 특정 프레임에 대해서만 정보를 추출하므로 불필요한 정보가 메모리(140)에 저장되지 않으므로 분석에 관한 결과(예를 들어, 메타데이터)의 정확도가 높아질 수 있다.
또한, 전자 장치(100)의 제어 방법은 외부에서 전송한 메타 데이터를 수정하는 동작을 통해 실시간으로 정확한 정보를 저장할 수 있다.
한편, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 프로세서(120) 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시예들에 따른 전자 장치(100)에서의 처리 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium) 에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 전자 장치(100)에서의 처리 동작을 상기 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100: 전자 장치 110: 통신부
120: 프로세서 140: 메모리

Claims (20)

  1. 전자 장치에 있어서,
    복수의 프레임으로 구성된 영상을 수신하는 통신부;
    상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하고, 상기 감지된 프레임에서 정보를 추출하여 상기 추출된 정보를 이용하여 메타 데이터를 생성하는 프로세서; 및
    상기 생성된 메타 데이터를 저장하는 메모리;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단하는 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성하는 전자 장치.
  4. 제2항에 있어서,
    상기 프로세서는,
    서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단하는 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 프레임에 포함된 텍스트를 감지하여 정보를 추출하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출하는 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출하는 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 추출된 정보를 이용하여 업체 정보, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성하는 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는, 상기 영상에 포함된 메타 데이터를 검출하고, 상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정하는 전자 장치.
  10. 제1항에 잇어서,
    상기 프로세서는,
    상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정하는 전자 장치.
  11. 전자 장치의 제어 방법에 있어서,
    복수의 프레임으로 구성된 영상을 수신하는 단계;
    상기 수신된 영상에서 기설정된 오브젝트를 갖는 프레임을 감지하는 단계;
    상기 감지된 프레임에서 정보를 추출하는 단계;
    상기 추출된 정보를 이용하여 메타 데이터를 생성하는 단계; 및
    상기 생성된 메타 데이터를 저장하는 하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 감지하는 단계는,
    상기 프레임에서 에지 영역을 검출하고 상기 검출된 에지 영역이 기설정된 길이 이상이면 상기 기설정된 오브젝트가 포함되어 있는 것으로 판단하는 제어 방법.
  13. 제11항에 있어서,
    상기 메타 데이터를 생성하는 단계는,
    서로 다른 프레임에서 추출된 정보를 병합하여 하나의 메타 데이터를 생성하는 제어 방법.
  14. 제12항에 있어서,
    서로 다른 프레임에서 추출된 정보를 비교하여 공통된 정보가 없으면 컨텐츠가 변경되었다고 판단하는 단계;를 더 포함하는 제어 방법.
  15. 제11항에 있어서,
    상기 추출하는 단계는,
    상기 프레임에 포함된 텍스트를 감지하여 정보를 추출하는 제어 방법.
  16. 제11항에 있어서,
    상기 추출하는 단계는,
    상기 프레임에 포함된 객체 이미지를 추출하고, 상기 추출된 객체 이미지에 대한 객체 정보를 정보로 추출하는 제어 방법.
  17. 제16항에 있어서,
    상기 정보를 추출하는 단계는,
    상기 프레임에 포함된 객체가 텍스트이면 텍스트 자체를 정보로 추출하고, 상기 프레임에 포함된 객체가 이미지이면 상기 이미지가 의미하는 내용을 정보로 추출하는 제어 방법.
  18. 제11항에 있어서,
    상기 생성하는 단계는,
    상기 추출된 정보를 이용하여 업체 정보, 시간 정보 및 장르 정보 중 적어도 하나를 포함하는 메타 데이터를 생성하는 제어 방법.
  19. 제11항에 있어서,
    상기 영상에 포함된 메타 데이터를 검출하는 단계;를 더 포함하고,
    상기 생성하는 단계는,
    상기 검출된 메타 데이터 및 상기 추출된 정보를 비교하여 상기 검출된 메타 데이터를 수정하는 제어 방법.
  20. 제11항에 있어서,
    상기 저장된 메타 데이터를 이용하여 선호 컨텐츠를 선정하는 단계;를 더 포함하는 제어 방법.

KR1020170144882A 2017-11-01 2017-11-01 전자 장치 및 이의 제어방법 KR102414783B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020170144882A KR102414783B1 (ko) 2017-11-01 2017-11-01 전자 장치 및 이의 제어방법
US16/754,962 US11367283B2 (en) 2017-11-01 2018-10-26 Electronic device and control method thereof
PCT/KR2018/012827 WO2019088592A1 (ko) 2017-11-01 2018-10-26 전자 장치 및 이의 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170144882A KR102414783B1 (ko) 2017-11-01 2017-11-01 전자 장치 및 이의 제어방법

Publications (2)

Publication Number Publication Date
KR20190049248A true KR20190049248A (ko) 2019-05-09
KR102414783B1 KR102414783B1 (ko) 2022-06-30

Family

ID=66333303

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170144882A KR102414783B1 (ko) 2017-11-01 2017-11-01 전자 장치 및 이의 제어방법

Country Status (3)

Country Link
US (1) US11367283B2 (ko)
KR (1) KR102414783B1 (ko)
WO (1) WO2019088592A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11678029B2 (en) * 2019-12-17 2023-06-13 Tencent Technology (Shenzhen) Company Limited Video labeling method and apparatus, device, and computer-readable storage medium
KR20220000758A (ko) * 2020-06-26 2022-01-04 삼성전자주식회사 영상 검출 장치 및 그 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061160A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 디지털 멀티미디어 방송 단말기에서의 텍스트 표시 장치 및그 방법
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
KR20150004681A (ko) * 2013-07-03 2015-01-13 삼성전자주식회사 미디어 정보 제공 서버, 미디어 콘텐츠와 관련된 미디어 정보를 검색하는 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
KR20150005131A (ko) * 2013-07-04 2015-01-14 엘지전자 주식회사 영상표시장치 및 영상표시장치 동작방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4937218B1 (ko) 1969-03-29 1974-10-07
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
KR20040033767A (ko) * 2002-10-15 2004-04-28 케이투아이엠에스 한국어 이미지 문자인식기능을 통한 뉴스 동영상의뉴스제목 자동추출방법
KR100589823B1 (ko) 2003-02-19 2006-06-14 비브콤 인코포레이티드 생방송 프로그램에 대한 빠른 메타데이터 서비스 제공방법, 하이라이트 실시간 생성 방법 및 방송 프로그램스트림 임의 접근 방법
JP4796377B2 (ja) 2005-11-07 2011-10-19 日本放送協会 コンテンツ提供サーバ及びコンテンツ提供プログラム
JP5010292B2 (ja) * 2007-01-18 2012-08-29 株式会社東芝 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
TW200834459A (en) * 2007-02-05 2008-08-16 Huper Lab Co Ltd Video object segmentation method applied for rainy situations
JP4937218B2 (ja) 2008-09-12 2012-05-23 株式会社東芝 メタデータ編集装置及びメタデータ生成方法
US8782709B2 (en) * 2009-02-19 2014-07-15 Hulu, LLC Method and apparatus for providing a program guide having search parameter aware thumbnails
US9098758B2 (en) * 2009-10-05 2015-08-04 Adobe Systems Incorporated Framework for combining content intelligence modules
US8890896B1 (en) * 2010-11-02 2014-11-18 Google Inc. Image recognition in an augmented reality application
KR20140029982A (ko) 2012-08-31 2014-03-11 삼성전자주식회사 디스플레이 장치, 셋톱박스 및 입체 영상 콘텐트 판단 방법
US9390513B2 (en) * 2013-10-29 2016-07-12 Hua Zhong University Of Science Technology Simultaneous metadata extraction of moving objects
GB2523311B (en) 2014-02-17 2021-07-14 Grass Valley Ltd Method and apparatus for managing audio visual, audio or visual content
KR102340196B1 (ko) * 2014-10-16 2021-12-16 삼성전자주식회사 동영상 처리 장치 및 방법
KR20160148875A (ko) 2015-06-17 2016-12-27 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
US10217001B2 (en) * 2016-04-14 2019-02-26 KickView Corporation Video object data storage and processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061160A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 디지털 멀티미디어 방송 단말기에서의 텍스트 표시 장치 및그 방법
KR100836197B1 (ko) * 2006-12-14 2008-06-09 삼성전자주식회사 동영상 자막 검출 장치 및 그 방법
KR20150004681A (ko) * 2013-07-03 2015-01-13 삼성전자주식회사 미디어 정보 제공 서버, 미디어 콘텐츠와 관련된 미디어 정보를 검색하는 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
KR20150005131A (ko) * 2013-07-04 2015-01-14 엘지전자 주식회사 영상표시장치 및 영상표시장치 동작방법

Also Published As

Publication number Publication date
US20200302182A1 (en) 2020-09-24
WO2019088592A1 (ko) 2019-05-09
KR102414783B1 (ko) 2022-06-30
US11367283B2 (en) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110088799B (zh) 图像处理设备和图像处理方法
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
US20190066158A1 (en) Method and electronic device for providing advertisement
US11294457B2 (en) Display apparatus and controlling method thereof
CN111567056B (zh) 视频播放装置及其控制方法
US11934953B2 (en) Image detection apparatus and operation method thereof
US11895375B2 (en) Display device and operation method thereof
US20190163702A1 (en) Image display apparatus and method of operating the same
US20220301312A1 (en) Electronic apparatus for identifying content based on an object included in the content and control method thereof
US11184670B2 (en) Display apparatus and control method thereof
US11367283B2 (en) Electronic device and control method thereof
US10997947B2 (en) Electronic device and control method thereof
US20190212887A1 (en) Electronic apparatus, user interface providing method and computer readable medium
US11257186B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium
KR20190047960A (ko) 전자 장치 및 이의 제어 방법
KR102494591B1 (ko) 전자 장치, 그 제어 방법 및 전자 시스템
US20230328298A1 (en) Display device and operation method thereof
KR20230022056A (ko) 디스플레이 장치 및 그 동작 방법
CN111782878A (zh) 服务器、显示设备及其视频搜索排序方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right