KR20180007783A - 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법 - Google Patents

디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법 Download PDF

Info

Publication number
KR20180007783A
KR20180007783A KR1020160089099A KR20160089099A KR20180007783A KR 20180007783 A KR20180007783 A KR 20180007783A KR 1020160089099 A KR1020160089099 A KR 1020160089099A KR 20160089099 A KR20160089099 A KR 20160089099A KR 20180007783 A KR20180007783 A KR 20180007783A
Authority
KR
South Korea
Prior art keywords
text
template
area
image
mask
Prior art date
Application number
KR1020160089099A
Other languages
English (en)
Other versions
KR102606435B1 (ko
Inventor
세르게이 수다코브
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160089099A priority Critical patent/KR102606435B1/ko
Priority to PCT/KR2017/005383 priority patent/WO2018012729A1/ko
Priority to US16/317,905 priority patent/US11170247B2/en
Publication of KR20180007783A publication Critical patent/KR20180007783A/ko
Application granted granted Critical
Publication of KR102606435B1 publication Critical patent/KR102606435B1/ko

Links

Images

Classifications

    • G06K9/3258
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

본 발명의 일 실시 예에 따른 디스플레이 장치는, 외부 전자 장치로부터 이미지를 수신하는 통신 인터페이스, 이미지를 표시하는 디스플레이 및 프로세서를 포함하고, 프로세서는, CNN(convolutional neural networks) 알고리즘을 이용하여 이미지에 포함된 복수의 영역이 UI(user interface)에 해당할 확률 정보를 포함하는 UI 마스크를 생성하고, UI 마스크를 이용하여 이미지에 포함된 UI 영역을 확인하고, UI 영역에 포함된 텍스트 영역을 확인하고, 텍스트 영역에 포함된 텍스트를 인식하도록 설정될 수 있다.

Description

디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법{DISPLAY APPARAUTS AND TEXT RECOGNIZING METHOD THEREOF}
본 발명은 이미지에 포함된 텍스트를 인식하는 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법에 관한 것이다.
디지털 기술의 발달에 힘입어 다양한 유형의 전자 제품들이 개발 및 보급되고 있으며, 전자 제품들의 다기능화에 따라 스마트 폰과 같이 하나의 장치로 여러 가지 서비스를 제공받을 수 있는 제품들이 등장하고 있다.
또한, 통신 기술의 발달에 따라 전자 장치들간의 연동하여 제공할 수 있는 서비스가 증가하고 있으며 특히, TV와 같은 디스플레이 장치는 스마트 폰, 셋탑 박스, 게임 콘솔 등의 주변 전자 장치와 연결되어 주변 전자 장치로부터 수신되는 다양한 컨텐츠를 제공할 수 있다.
디스플레이 장치가 주변 전자 장치로부터 컨텐츠를 수신할 때 주변 전자 장치로부터 컨텐츠에 대한 정보를 수신하지 않고 단순히 이미지만을 수신하여 표시할 수 있다.
이에 따라, 디스플레이 장치는 사용자가 시청하고 있는 컨텐츠에 대해 아무런 정보를 획득할 수 없으며, 컨텐츠 정보에 기반한 사용자 인터페이스(UI: user interface) 또는 사용자 경험(UX: user experience)을 제공하지 못하게 될 수 있다.
본 발명의 다양한 실시 예는 주변 전자 장치로부터 컨텐츠에 대한 정보를 수신하지 못하는 경우에도 이미지에 포함된 텍스트를 인식하여 컨텐츠에 대한 정보를 획득할 수 있는 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시 예에 따른 디스플레이 장치는, 외부 전자 장치로부터 이미지를 수신하는 통신 인터페이스, 상기 이미지를 표시하는 디스플레이 및 프로세서를 포함하고, 상기 프로세서는, CNN(convolutional neural networks) 알고리즘을 이용하여 상기 이미지에 포함된 복수의 영역이 UI(user interface)에 해당할 확률 정보를 포함하는 UI 마스크를 생성하고, 상기 UI 마스크를 이용하여 상기 이미지에 포함된 UI 영역을 확인하고, 상기 UI 영역에 포함된 텍스트 영역을 확인하고, 상기 텍스트 영역에 포함된 텍스트를 인식하도록 설정될 수 있다.
본 발명의 일 실시 예에 따른 디스플레이 장치의 텍스트 인식 방법은, 통신 인터페이스를 통해 외부 전자 장치로부터 이미지를 수신하는 동작, CNN(convolutional neural networks) 알고리즘을 이용하여 상기 이미지에 포함된 복수의 영역이 UI(user interface)에 해당할 확률 정보를 포함하는 UI 마스크를 생성하는 동작, 상기 UI 마스크를 이용하여 상기 이미지에 포함된 UI 영역을 확인하는 동작, 상기 UI 영역에 포함된 텍스트 영역을 확인하는 동작 및 상기 텍스트 영역에 포함된 텍스트를 인식하는 동작;을 포함할 수 있다.
본 발명의 일 실시 예에 따른 컴퓨터 판독 가능 기록매체는, 통신 인터페이스를 통해 외부 전자 장치로부터 이미지를 수신하는 동작, CNN 알고리즘을 이용하여 상기 이미지에 포함된 복수의 영역이 UI에 해당할 확률 정보를 포함하는 UI 마스크를 생성하는 동작, 상기 UI 마스크를 이용하여 상기 이미지에 포함된 UI 영역을 확인하는 동작, 상기 UI 영역에 포함된 텍스트 영역을 확인하는 동작 및 상기 텍스트 영역에 포함된 텍스트를 인식하는 동작을 포함하는 방법을 수행하는 프로그램이 기록될 수 있다.
본 발명의 다양한 실시 예에 따르면, 주변 전자 장치로부터 컨텐츠에 대한 정보를 수신하지 못하는 경우에도 외부 서버와의 연동 없이 이미지에 포함된 텍스트를 인식하여 컨텐츠에 대한 정보를 획득할 수 있다.
또한, 디스플레이 장치와 연결된 주변 전자 장치에 적응적으로 생성된 템플릿을 사용하여 텍스트를 인식함으로써 텍스트 인식의 정확성을 높일 수 있을 뿐만 아니라 텍스트 인식에 필요한 연산량을 감소시키고 텍스트 인식에 소요되는 시간을 단축시킬 수 있다.
도 1은 본 발명의 다양한 실시 예에 따른 디스플레이 시스템을 나타내는 도면이다.
도 2는 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다.
도 3은 본 발명의 다양한 실시 예에 따른 프로세서의 구성을 나타내는 블록도이다.
도 4는 본 발명의 다양한 실시 예에 따라 생성된 UI 마스크를 나타내는 도면이다.
도 5는 본 발명의 다양한 실시 예에 따라 UI 마스크를 이용하여 UI 영역을 확인하는 과정을 나타내는 도면이다.
도 6은 본 발명의 다양한 실시 예에 따른 텍스트 영역을 나타내는 도면이다.
도 7은 본 발명의 다양한 실시 예에 따른 템플릿을 나타내는 도면이다.
도 8은 본 발명의 다양한 실시 예에 따라 UI 템플릿을 이용하여 UI 영역을 확인하는 과정을 나타내는 도면이다.
도 9는 본 발명의 다양한 실시 예에 따라 텍스트 템플릿을 이용하여 텍스트 영역을 확인하는 과정을 나타내는 도면이다.
도 10은 본 발명의 다양한 실시 예에 따른 디스플레이 장치의 텍스트 인식 방법을 나타내는 흐름도이다.
도 11은 본 발명의 다양한 실시 예에 따른 디스플레이 장치의 텍스트 인식 방법을 나타내는 흐름도이다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
도 1은 본 발명의 다양한 실시 예에 따른 디스플레이 시스템을 나타내는 도면이다.
도 1을 참조하면, 디스플레이 시스템(1000)은 디스플레이 장치(100), 컨텐츠 제공 장치(200) 및 원격 제어 장치(300)를 포함할 수 있다.
일 실시 예에 따르면, 디스플레이 장치(100)는 외부 장치로부터 이미지를 수신할 수 있다. 예를 들어, 디스플레이 장치(100)는 방송망을 통해 방송국으로부터 방송 컨텐츠를 수신하거나 또는 인터넷 망을 통해 웹 서버로부터 웹 컨텐츠를 수신할 수 있다. 다른 예를 들어, 디스플레이 장치(100)는 유선 통신 인터페이스(예: HDMI(high definition multimedia interface) 또는 DVI(digital video/visual interactive), VGA(video graphics array) 등) 또는 근거리 무선 통신 인터페이스(예: 블루투스, NFC(near field communication) 또는 Wi-Fi(wireless- fidelity) 등)를 통해 컨텐츠 제공 장치(200)와 연결되어 컨텐츠 제공 장치(200)로부터 이미지를 수신할 수 있다. 컨텐츠 제공 장치(200)로부터 수신되는 이미지는 컨텐츠 이미지뿐만 아니라 컨텐츠 제공 장치(200)에 의해 생성된 UI 이미지를 포함할 수 있다. 컨텐츠는, 예를 들어, 영화, 드라마, 뉴스, 게임 등 이미지를 포함하는 컨텐츠 일 수 있다.
일 실시 예에 따르면, 디스플레이 장치(100)는 TV, 데스크 탑, 노트북 PC, 스마트폰, 태블릿 PC, 모니터, 전자 액자 등 외부 장치로부터 컨텐츠를 수신하여 디스플레이할 수 있는 다양한 장치로 구현될 수 있다.
일 실시 예에 따르면, 컨텐츠 제공 장치(200)는 외부 장치로부터 수신되거나 또는 내장(또는, 외장) 기록매체에 저장된 컨텐츠 이미지를 디스플레이 장치(100)로 전송할 수 있다. 예를 들어, 컨텐츠 제공 장치(200)는 방송망을 통해 방송국으로부터 방송 컨텐츠를 수신하거나 또는 인터넷 망을 통해 웹 서버로부터 웹 컨텐츠를 수신할 수 있다. 컨텐츠 제공 장치(200)는 기록매체에 저장된 컨텐츠를 재생하여 컨텐츠 이미지를 디스플레이 장치(100)로 전송할 수 있다. 기록매체는, 예를 들어, CD(compact disk), DVD(digital versatile disc), 하드디스크, 블루레이(bluelay) 디스크, 메모리 카드, USB 메모리 등을 포함할 수 있다.
일 실시 예에 따르면, 컨텐츠 제공 장치(200)가 디스플레이 장치(100)로 전송하는 이미지는 컨텐츠 이미지뿐만 아니라 컨텐츠 제공 장치(200)의 UI 이미지를 포함할 수 있다. 예를 들어, 컨텐츠 제공 장치(200)는 컨텐츠 이미지에 UI 이미지를 오버랩하여 디스플레이 장치(100)로 전송할 수 있다. UI 이미지에는, 예를 들어, 컨텐츠의 종류, 컨텐츠 제목, 방송 채널 등 컨텐츠에 대한 정보가 포함될 수 있다.
일 실시 예에 따르면, 컨텐츠 제공 장치(200)는 셋탑 박스, 게임 콘솔(예: Xbox™, PlayStation™ 등), 스마트폰, 태블릿 PC 등 컨텐츠를 수신 또는 저장하고, 디스플레이 장치(100)로 전송할 수 있는 다양한 장치로 구현될 수 있다.
일 실시 예에 따르면, 원격 제어 장치(300)는 사용자 입력을 수신하고, 수신된 사용자 입력에 대응하는 제어 신호를 디스플레이 장치(100) 또는 컨텐츠 제공 장치(200)로 전송할 수 있다. 원격 제어 장치(300)는 블루투스, NFC 또는 IR 송수신기 등 근거리 무선 통신 인터페이스를 통해 디스플레이 장치(100) 또는 컨텐츠 제공 장치(200)와 통신할 수 있다. 일 실시 예에 따르면, 원격 제어 장치(300)는 사용자 입력을 수신하기 위한 적어도 하나의 버튼, 터치 패널, 모션 인식 센서 또는 음성 인식 센서를 포함할 수 있다.
디스플레이 장치(100)가 컨텐츠 제공 장치(200)로부터 수신된 이미지를 표시할 때 컨텐츠 제공 장치(200)로부터 컨텐츠에 대한 정보(예를 들어, 컨텐츠의 종류, 컨텐츠 제목, 방송 채널 등)를 직접적으로 수신하지 않고 단순히 이미지만을 수신하여 디스플레이에 표시하는 상황이 발생할 수 있다. 이에 따라, 디스플레이 장치(100)는 사용자가 시청하고 있는 컨텐츠에 대해 아무런 정보를 획득할 수 없으며, 컨텐츠 정보에 기반한 사용자 인터페이스(UI: user interface) 또는 사용자 경험(UX: user experience)을 제공하지 못하게 될 수 있다. 본 발명의 다양한 실시 예에 따른 디스플레이 장치(100)는 컨텐츠 제공 장치(200)로부터 컨텐츠에 대한 정보를 수신하지 못하는 경우에도 외부 서버와의 연동 없이 자체적으로 이미지에 포함된 텍스트를 인식함으로써 컨텐츠와 관련된 정보를 획득할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블록도이다.
도 2를 참조하면, 디스플레이 장치(100)는 통신 인터페이스(110), 디스플레이(120), 메모리(130) 및 프로세서(140)를 포함할 수 있다.
통신 인터페이스(110)는 외부 장치와 통신할 수 있다. 예를 들어, 통신 인터페이스(110)는 컨텐츠 제공 장치(200)로부터 이미지(예: 비디오 이미지)를 수신할 수 있다. 일 실시 예에 따르면, 통신 인터페이스(110)는 유선 통신 인터페이스(111) 및 무선 통신 인터페이스(113)를 포함할 수 있다. 컨텐츠 제공 장치(200)로부터 수신되는 이미지는 컨텐츠 이미지뿐만 아니라 컨텐츠 제공 장치(200)에 의해 생성된 UI 이미지를 포함할 수 있다.
유선 통신 인터페이스(111)는 컨텐츠 제공 장치(200)와 유선 통신을 수행할 수 있다. 예를 들어, 유선 통신 인터페이스(111)는 컨텐츠 제공 장치(200)와 유선으로 연결되어 컨텐츠 제공 장치(200)로부터 이미지를 수신할 수 있다. 유선 통신 인터페이스(111)는, 예를 들어, HDMI 인터페이스, DVI 인터페이스 또는 VGA 인터페이스를 포함할 수 있다.
무선 통신 인터페이스(113)는 컨텐츠 제공 장치(200) 또는 원격 제어 장치(300)와 무선 통신을 수행할 수 있다. 예를 들어, 무선 통신 인터페이스(113)는 컨텐츠 제공 장치(200)와 무선으로 연결되어 컨텐츠 제공 장치(200)로부터 이미지를 수신할 수 있다. 다른 예를 들어, 무선 통신 인터페이스(113)는 원격 제어 장치(300)와 무선으로 연결되어 제어 신호를 전송 또는 수신할 수 있다. 무선 통신 인터페이스(113)는 예를 들어, 블루투스 인터페이스, NFC 인터페이스, Wi-Fi 인터페이스 또는 IR 인터페이스를 포함할 수 있다.
디스플레이(120)는 컨텐츠 제공 장치(200)로부터 수신된 이미지를 표시할 수 있다. 예를 들어, 디스플레이(120)는 지정된 프레임 레이트에 따라 컨텐츠 제공 장치(200)로부터 수신된 이미지를 표시할 수 있다.
메모리(130)는 템플릿을 저장할 수 있다. 예를 들어, 메모리(130)는 프로세서(140)에 의해 생성된 UI 템플릿 또는 텍스트 템플릿을 저장할 수 있다. 메모리(130)는, 예를 들어, 플래시 메모리, 하드 디스크와 같은 비휘발성 메모리 일 수 있다.
프로세서(140)는 디스플레이 장치(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(140)는 통신 인터페이스(110), 디스플레이(120) 및 메모리(130) 각각을 제어하여 본 발명의 다양한 실시 예에 따라 이미지의 UI 영역에 포함된 텍스트를 인식할 수 있다.
일 실시 예에 따르면, 디스플레이 장치(100)는 적어도 하나의 프로세서(140)를 포함할 수 있다. 예를 들어, 디스플레이 장치(100)는 적어도 하나의 기능을 수행할 수 있는 복수의 프로세서(140)를 포함할 수 있다. 일 실시 예에 따르면, 프로세서(140)는 CPU(central processing unit), GPU(graphic processing unit), 메모리 등을 포함하는 SoC(system on chip)으로 구현될 수도 있다.
도 3은 본 발명의 다양한 실시 예에 따른 프로세서의 구성을 나타내는 블록도이다.
도 3을 참조하면, 프로세서(140)는 신호 처리 모듈(141), UI(user interface) 인식 모듈(143), 텍스트 인식 모듈(145) 및 템플릿 관리 모듈(147)을 포함할 수 있다. 도 3에 도시된 프로세서(140)의 구성들은 각각 별도의 하드웨어 모듈이거나 또는 적어도 하나의 프로세서에 의해 구현되는 소프트웨어 모듈일 수 있다. 예를 들어, 프로세서(140)에 포함된 각각의 모듈들이 수행하는 기능은 하나의 프로세서에 의해 수행되거나 또는 각각 별도의 프로세서에 의해 수행될 수도 있다.
일 실시 예에 따르면, 신호 처리 모듈(141)은 통신 인터페이스(110)를 통해 컨텐츠 제공 장치(200)로부터 수신된 컨텐츠에 대한 신호 처리를 수행할 수 있다. 예를 들어, 신호 처리 모듈(141)은 수신된 컨텐츠에 포함된 이미지(예: 비디오 데이터)에 대한 신호 처리를 수행하여 복수의 이미지 프레임을 생성할 수 있다. 신호 처리 모듈(141)은, 예를 들어, 수신된 컨텐츠에 포함된 이미지에 대한 디코딩을 수행하는 디코더(미도시), 디스플레이(120)의 화면 사이즈에 맞추어 업 또는 다운 스케일링을 수행하는 스케일러(미도시)를 포함할 수 있다. 일 실시 예에 따르면, 신호 처리 모듈(141)은 생성된 이미지 프레임을 디스플레이(120)의 프레임 레이트에 맞춰 디스플레이(120)에 표시할 수 있다.
도 4는 본 발명의 다양한 실시 예에 따라 생성된 UI 마스크를 나타내는 도면이다.
일 실시 예에 따르면, UI 인식 모듈(143)은 컨텐츠 제공 장치(200)로부터 수신된 이미지(410)에 기초하여 UI(user interface) 마스크(420)를 생성할 수 있다. 일 실시 예에 따르면, UI 인식 모듈(143)은 신호 처리 모듈(141)에 의해 생성된 이미지 프레임을 이용하여 UI 마스크를 생성할 수 있다. 예를 들어, UI 인식 모듈(143)은 신호 처리 모듈(141)에 의해 연속적으로 생성되는 복수의 이미지 프레임 중 적어도 일부를 이용하여 UI 마스크를 생성할 수 있다.
일 실시 예에 따르면, UI 인식 모듈(143)은 제1 알고리즘을 이용하여 UI 마스크(420)를 생성할 수 있다. 예를 들어, 도 4를 참조하면, UI 인식 모듈(143)은 CNN(convolutional neural networks) 알고리즘(41)을 이용하여 UI 마스크(420)를 생성할 수 있다. CNN 알고리즘(41)은 합성곱 레이어(convolutional layer) 및 풀링 레이어(pooling layer)를 통해 이미지에 포함된 특징들을 분석하고, 완전 접속 레이어(fully-connected layer)를 통해 분석된 특징들에 대응되는 대상을 분류 또는 인식하는 알고리즘으로써 이미 공지된 알고리즘에 해당하므로 자세한 설명은 생략하기로 한다. 일반적으로 CNN 알고리즘은 이미지가 특정 대상에 해당하는지 여부(예를 들어, 이미지에 UI가 포함되어 있는지 여부)를 판단할 수 있으나, 본 발명의 일 실시 예에 따르면, UI 인식 모듈(143)은 CNN 알고리즘(41)을 이용하여 이미지에 포함된 복수의 영역이 UI에 해당할 확률 정보를 포함하는 UI 마스크(420)를 생성할 수 있다. 이미지(410)의 복수의 영역 각각은 UI 마스크(420)의 각각의 픽셀에 대응될 수 있다.
일 실시 예에 따르면, UI 인식 모듈(143)에 의해 생성된 UI 마스크(420)는 원본 이미지(410)보다 작은 해상도(또는, 크기)를 가질 수 있다. 예를 들어, 원본 이미지(410)가 FHD(full high definition) 해상도(예: 1920 pixels * 1080 pixels)를 가지는 경우 UI 인식 모듈(143)은 1/8로 축소된 해상도(예: 240 pixels * 135 pixels)를 가지는 UI 마스크(420)를 생성할 수 있다. UI 인식 모듈(143)은 이미지의 1/8뿐만 아니라 1/4, 1/16, 1/32 또는 1/64 등 다양한 비율로 축소된 UI 마스크를 생성하거나 또는 원본 이미지의 해상도와 관계없이 고정된 해상도를 가지는 UI 마스크를 생성할 수도 있다.
일 실시 예에 따르면, UI 인식 모듈(143)에 의해 생성된 UI 마스크(420)는 이미지(410)에 포함된 복수의 영역이 UI에 해당할 확률 정보를 포함할 수 있다. 예를 들어, 도 4를 참조하면, UI 마스크(420)에 포함된 확률 정보에 따라 UI 마스크(420)의 밝기를 나타내면, UI에 해당할 확률이 높은 영역은 상대적으로 밝게 나타나며, UI에 해당할 확률이 낮은 영역은 상대적으로 어둡게 나타날 수 있다.
일 실시 예에 따르면, UI 인식 모듈(143)은 제2 알고리즘을 이용하여 UI 마스크(420)의 확률 정보를 보정하여 UI 마스크(420)의 신뢰성을 향상시킬 수 있다. 예를 들어, UI 인식 모듈(143)은 HMM(hidden markov model) 알고리즘(43)을 이용하여 UI 마스크(420)의 확률 정보를 보정할 수 있다. HMM 알고리즘(43)은 과거의 정보에 기초하여 현재의 정보를 확률적으로 추정하는 알고리즘으로써 이미 공지된 알고리즘에 해당하므로 자세한 설명은 생략하기로 한다. UI 인식 모듈(143)은 HMM 알고리즘(43)을 이용하여 과거에 생성된 복수의 UI 마스크의 확률 정보에 기초하여 현재 생성된 UI 마스크(420)의 확률 정보를 추정할 수 있다. UI 인식 모듈(143)은 HMM 알고리즘(43)에 의해 추정된 확률 정보에 기초하여 CNN 알고리즘(41)에 의해 생성된 UI 마스크(420)의 확률 정보를 보정할 수 있다. 예를 들어, 컨텐츠 제공 장치(200)로부터 수신된 이미지에 UI와 유사한 특징을 가지는 오브젝트가 포함되어 있는 경우 CNN 알고리즘(41)에 의해 오브젝트에 대응되는 영역이 UI에 해당할 확률이 높게 분석될 수 있다. 만약, 과거에 오브젝트가 포함된 영역에 UI가 포함된 경우가 없으면 HMM 알고리즘(43)에 의해 오브젝트에 대응되는 영역이 UI에 해당할 확률이 낮게 분석될 수 있다. 이에 따라, UI 인식 모듈(143)은 오브젝트에 대응되는 영역의 확률을 낮출 수 있다.
일 실시 예에 따르면, UI 인식 모듈(143)은 UI 마스크(420)의 픽셀들의 위치에 관계없이 동일한 HMM 알고리즘(43)을 적용하거나 또는 UI 마스크(420)의 픽셀들의 위치에 따라 상이한 HMM 알고리즘(43)을 적용할 수 있다.
일 실시 예에 따르면, UI 인식 모듈(143)은 경우에 따라 HMM 알고리즘(43)을 이용하여 UI 마스크(420)의 확률 정보를 보정하는 과정을 생략할 수 있다. 예를 들어, UI 인식 모듈(143)은 지정된 주기로 UI 마스크(420)의 확률 정보를 보정하는 과정을 수행할 수 있다.
도 5는 본 발명의 다양한 실시 예에 따라 UI 마스크를 이용하여 UI 영역을 확인하는 과정을 나타내는 도면이다.
일 실시 예에 따르면, UI 인식 모듈(143)은 이미지(510)에 포함된 UI 영역을 확인할 수 있다. 일 실시 예에 따르면, UI 인식 모듈(143)은 UI 마스크(520)를 이용하여 이미지(510)에 포함된 UI 영역을 확인할 수 있다. 예를 들어, UI 인식 모듈(143)은 UI 마스크(520)의 확률 정보에 기초하여 이미지에 포함된 UI 영역을 확인할 수 있다. UI 인식 모듈(143)은 이미지에 포함된 복수의 영역 중 UI 마스크(520)의 확률 정보가 지정된 값 이상인 영역을 UI 영역이라고 판단하고, UI 마스크(520)의 확률 정보가 지정된 값 미만인 영역을 UI 영역이 아니라고 판단할 수 있다. 도 5를 참조하면, UI 인식 모듈(143)은 원본 이미지(510)에 UI 마스크(520)를 오버랩할 수 있다. UI 마스크(520)가 오버랩된 이미지(530)를 참조하면 원본 이미지(510)에서 UI 마스크(520)의 밝은 영역(즉, 확률 정보가 지정된 값 이상인 영역)(521)에 대응하는 UI 영역(531)을 확인할 수 있다.
도 6은 본 발명의 다양한 실시 예에 따른 텍스트 영역을 나타내는 도면이다.
일 실시 예에 따르면, 도 3의 텍스트 인식 모듈(145)은 UI 인식 모듈(143)에 의해 확인된 UI 영역에 포함된 텍스트 영역을 확인하고, 텍스트 영역에 포함된 텍스트를 확인할 수 있다. 일 실시 예에 따르면, 텍스트 인식 모듈(145)은 문자 인식 알고리즘을 이용하여 UI 영역에 포함된 텍스트 영역 및 텍스트를 확인할 수 있다. 예를 들어, 텍스트 인식 모듈(145)은 OCR(optical character reader) 알고리즘을 이용하여 UI 영역에 포함된 텍스트 영역 및 텍스트를 확인할 수 있다. 도 6을 참조하면, 텍스트 인식 모듈(145)은 이미지(610)에 포함된 UI 영역(611)에 대해 문자 인식(text recognition)을 수행할 수 있다. 문자 인식 결과 이미지(610)에 포함된 텍스트 영역(621)을 확인할 수 있으며, 텍스트 영역(621)에 포함된 텍스트를 인식할 수 있다.
도 7은 본 발명의 다양한 실시 예에 따른 템플릿을 나타내는 도면이다.
일 실시 예에 따르면, 도 3의 템플릿 관리 모듈(147)은 템플릿을 생성하고 관리할 수 있다. 일 실시 예에 따르면, 템플릿 관리 모듈(147)은 생성된 템플릿을 메모리(130)에 저장하고, 메모리(130)에 저장된 템플릿을 업데이트하거나 또는 삭제할 수 있다. 도 7을 참조하면, 템플릿 관리 모듈(147)에 의해 생성된 다양한 UI 템플릿(710, 720) 및 텍스트 템플릿(730, 740)이 도시되어 있다.
일 실시 예에 따르면, 템플릿 관리 모듈(147)은 컨텐츠 제공 장치(200)의 종류 또는 이미지를 수신하는 인터페이스의 종류에 따라 템플릿을 구분하여 저장 및 관리할 수 있다. 예를 들어, 템플릿 관리 모듈(147)은 셋탑 박스로부터 수신된 이미지에 기초하여 생성된 템플릿 및 게임 콘솔로부터 수신된 이미지에 기초하여 생성된 템플릿을 구분하여 관리할 수 있다. 다른 예를 들어, 템플릿 관리 모듈(147)은 제1 통신 인터페이스(예: HDMI 인터페이스)를 통해 수신된 이미지에 기초하여 생성된 템플릿 및 제2 인터페이스(예: DVI 인터페이스)를 통해 수신된 이미지에 기초하여 생성된 템플릿을 구분하여 관리할 수 있다.
일 실시 예에 따르면, 템플릿 관리 모듈(147)은 UI 마스크에 기초하여 UI 영역의 위치를 나타내는 UI 템플릿을 생성할 수 있다. UI 템플릿은, 예를 들어, UI 영역의 개수, 모양, 크기 및 위치에 대한 정보를 포함할 수 있다. 템플릿 관리 모듈(147)은 UI 인식 모듈(143)에 의해 생성된 복수의 UI 마스크의 확률 정보를 분석하여 UI 템플릿을 생성할 수 있다. 예를 들어, 복수의 UI 마스크의 확률 정보를 이용하여 UI 마스크의 픽셀별로 확률 정보의 대표값(예: 평균값 또는 최빈값)을 산출하고, 확률 정보의 대표값이 지정된 값 이상인 영역을 UI 영역으로 판단하고 UI 템플릿을 생성할 수 있다.
UI 인식 모듈(143)에 의해 새로운 UI 마스크가 생성될 때마다 확률 정보의 대표값이 달라질 수 있으며, 이에 따라 UI 템플릿의 UI 영역의 개수, 모양, 크기 또는 위치가 달라질 수 있다. 일 실시 예에 따르면, 템플릿 관리 모듈(147)은 UI 템플릿을 생성하는 중 UI 템플릿이 안정화되었다고 판단되면 UI 마스크의 분석을 종료하고 최종 UI 템플릿을 생성할 수 있다. 예를 들어, 템플릿 관리 모듈(147)은 지정된 시간 동안 UI 템플릿의 UI 영역이 변경되지 않으면 최종 UI 템플릿을 생성할 수 있다. 다른 예를 들어, 템플릿 관리 모듈(147)은 지정된 개수(예: 1000개)의 UI 마스크의 분석이 완료되면 최종 UI 템플릿을 생성할 수 있다. 또 다른 예를 들어, 템플릿 관리 모듈(147)은 UI 템플릿에서 UI 영역으로 판단된 영역의 경계에 위치하는 픽셀들과 UI 영역이 아니라고 판단된 인접한 픽셀들과의 확률 정보의 대표값을 비교하고, 대표값이 지정된 값(예: 0.5) 이상 차이가나면 최종 UI 템플릿을 생성할 수 있다.
일 실시 예에 따르면, 템플릿 관리 모듈(147)은 텍스트 인식 모듈(145)에 의해 확인된 텍스트 영역에 기초하여 텍스트 영역의 위치를 나타내는 텍스트 템플릿을 생성할 수 있다. 텍스트 템플릿은, 예를 들어, 텍스트 영역의 개수, 모양, 크기 및 위치에 대한 정보를 포함할 수 있다. 템플릿 관리 모듈(147)은 텍스트 인식 모듈(145)에 의해 확인된 복수의 이미지의 텍스트 영역을 분석하여 텍스트 템플릿을 생성할 수 있다. 예를 들어, 복수의 이미지에서 반복적으로(예를 들어, 지정된 비율 이상으로 또는 지정된 횟수 이상으로) 텍스트 영역으로 확인된 영역을 텍스트 영역으로 판단하고 텍스트 템플릿을 생성할 수 있다.
텍스트 인식 모듈(145)에 의해 새로운 이미지의 텍스트 영역이 확인될 때마다 텍스트 템플릿의 텍스트 영역의 개수, 모양, 크기 또는 위치가 달라질 수 있다. 일 실시 예에 따르면, 템플릿 관리 모듈(147)은 텍스트 템플릿을 생성하는 중 텍스트 템플릿이 안정화되었다고 판단되면 최종 텍스트 템플릿을 생성할 수 있다. 예를 들어, 템플릿 관리 모듈(147)은 지정된 시간 동안 텍스트 템플릿의 텍스트 영역이 변경되지 않으면 최종 텍스트 템플릿을 생성할 수 있다. 다른 예를 들어, 템플릿 관리 모듈(147)은 지정된 개수(예: 1000개)의 이미지의 텍스트 영역에 대한 분석이 완료되면 최종 텍스트 템플릿을 생성할 수 있다.
도 8은 본 발명의 다양한 실시 예에 따라 UI 템플릿을 이용하여 UI 영역을 확인하는 과정을 나타내는 도면이다.
일 실시 예에 따르면, UI 인식 모듈(143)은 템플릿 관리 모듈(147)에 의해 UI 템플릿이 생성되면 UI 마스크를 생성하는 과정 및 UI 마스크를 보정하는 과정을 생략하고, 메모리(130)에 저장된 UI 템플릿을 이용하여 이미지에 포함된 UI 영역을 확인할 수 있다. 예를 들어, 도 8을 참조하면 UI 인식 모듈(143)은 원본 이미지(810)에 UI 템플릿(820)를 오버랩할 수 있다. UI 템플릿(820)이 오버랩된 이미지(830)를 참조하면 원본 이미지(810)에서 UI 템플릿(820)의 UI 영역(821)에 대응하는 UI 영역(831)을 확인할 수 있다. 일 실시 예에 따르면, UI 인식 모듈(143)이 의해 UI 템플릿을 이용하여 UI 영역(831)을 확인한 후, 텍스트 인식 모듈(145)은 문자 인식 알고리즘을 이용하여 UI 영역에 포함된 텍스트 영역을 확인하고, 텍스트 영역에 포함된 텍스트를 확인할 수 있다. 상술한 실시 예에 따르면, 디스플레이 장치(100)는 UI 마스크를 생성하는 과정을 생략함으로써 프로세서의 연산량을 감소시키고 텍스트 인식에 소요되는 시간을 단축시킬 수 있다.
컨텐츠 제공 장치(200)의 소프트웨어 업데이트 등으로 인해 이미지에 포함된 UI 영역이 변경되면, 수신된 이미지의 UI 영역 및 UI 템플릿의 UI 영역이 상이할 수 있다. 템플릿 관리 모듈(147)은 텍스트 인식 모듈(145)이 UI 템플릿에 의해 확인된 UI 영역에서 지정된 시간 또는 지정된 횟수 이상 텍스트를 인식하지 못하면 UI 템플릿을 다시 생성할 수 있다.
도 9는 본 발명의 다양한 실시 예에 따라 텍스트 템플릿을 이용하여 텍스트 영역을 확인하는 과정을 나타내는 도면이다.
일 실시 예에 따르면, UI 인식 모듈(143)은 템플릿 관리 모듈(147)에 의해 텍스트 템플릿이 생성되면 UI 마스크를 생성하는 과정, UI 마스크를 보정하는 과정, UI 마스크를 이용하여 UI 영역을 확인하는 과정을 생략할 수 있다. 또한, 텍스트 인식 모듈(145)은 메모리(130)에 저장된 텍스트 템플릿을 이용하여 이미지에 포함된 텍스트 영역을 확인할 수 있다. 예를 들어, 도 9를 참조하면 텍스트 인식 모듈(145)은 원본 이미지(910)에 텍스트 템플릿(920)를 오버랩할 수 있다. 텍스트 템플릿(920)이 오버랩된 이미지(930)를 참조하면 원본 이미지(910)에서 텍스트 템플릿(920)의 텍스트 영역(921)에 대응하는 텍스트 영역(931)을 확인할 수 있다. 일 실시 예에 따르면, 텍스트 인식 모듈(145)은 텍스트 템플릿을 이용하여 UI 영역을 확인한 후 문자 인식 알고리즘을 이용하여 텍스트 영역(931)에 포함된 텍스트를 확인할 수 있다. 상술한 실시 예에 따르면, 디스플레이 장치(100)는 UI 마스크를 생성하고 UI 영역을 확인하는 과정을 생략함으로써 프로세서의 연산량을 감소시키고 텍스트 인식에 소요되는 시간을 단축시킬 수 있다.
컨텐츠 제공 장치(200)의 소프트웨어 업데이트 등으로 인해 이미지에 포함된 UI 영역 또는 UI 영역에 포함된 텍스트 영역이 변경되면, 수신된 이미지의 텍스트 영역 및 텍스트 템플릿의 텍스트 영역이 상이할 수 있다. 템플릿 관리 모듈(147)은 텍스트 인식 모듈(145)이 텍스트 템플릿에 의해 확인된 텍스트 영역에서 지정된 시간 또는 지정된 횟수 이상 텍스트를 인식하지 못하면 텍스트 템플릿을 다시 생성할 수 있다.
디스플레이 장치(100)는 컨텐츠 제공 장치(200)로부터 수신되는 이미지에 기초하여 템플릿을 생성함으로써 디스플레이 장치(100)와 연결된 컨텐츠 제공 장치(200)에 특화된 템플릿을 생성할 수 있다. 이에 따라, 텍스트 인식에 소요되는 시간을 단축시킬 수 있으며 텍스트 인식의 정확성을 향상시킬 수 있다.
디스플레이 장치(100)가 컨텐츠 제공 장치(200)로부터 수신하는 이미지에는 UI가 포함되지 않을 수 있으며, 컨텐츠 제공 장치(200)에서 수신되는 컨텐츠에 변화(예: 시청 중인 컨텐츠의 종료)가 발생하거나 또는 사용자 입력에 따라 원격 제어 장치(300)로부터 제어 신호(예: 방송 채널 변경을 위한 제어 신호)가 수신되는 등 특정 이벤트가 발생한 경우 이미지에 UI가 포함될 확률이 높아질 수 있다. 원격 제어 장치(300)는 제어 신호를 브로드캐스팅 방식으로 출력할 수 있으며, 이에 따라, 원격 제어 장치(300)에서 컨텐츠 제공 장치(200)로 전송되는 제어 신호를 디스플레이 장치(100)도 수신할 수 있다. 일 실시 예에 따르면, 프로세서(140)는 통신 인터페이스(110)(예: 무선 통신 인터페이스(113))를 통해 원격 제어 장치(300)로부터 제어 신호가 수신되면 지정된 시간(예: 10 초) 동안 이미지의 UI 영역에 포함된 텍스트를 인식할 수 있다. 예를 들어, 프로세서(140)는 제어 신호가 수신된 후 지정된 시간(예: 10 초) 동안 이미지의 UI 영역에 포함된 텍스트를 인식할 수 있다.
도 1 내지 도 9를 참조하여 설명한 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치(100)는 컨텐츠 제공 장치(200)로부터 컨텐츠에 대한 정보를 수신하지 못하는 경우에도 외부 서버와의 연동 없이 이미지에 포함된 텍스트를 인식하여 컨텐츠에 대한 정보를 획득할 수 있다.
도 10은 본 발명의 다양한 실시 예에 따른 디스플레이 장치의 텍스트 인식 방법을 나타내는 흐름도이다.
도 10에 도시된 흐름도는 상술한 디스플레이 장치(100)에서 처리되는 동작들로 구성될 수 있다. 따라서, 이하에서 생략된 내용이라 하더라도 도 1 내지 도 9를 참조하여 디스플레이 장치에 관하여 기술된 내용은 도 10에 도시된 흐름도에도 적용될 수 있다.
일 실시 예에 따르면, 1010 동작에서, 디스플레이 장치(100)는 외부 전자 장치(예: 컨텐츠 제공 장치(200))로부터 이미지를 수신할 수 있다. 외부 전자 장치로부터 수신되는 이미지는 컨텐츠 이미지뿐만 아니라 외부 전자 장치에 의해 생성된 UI 이미지를 포함할 수 있다.
일 실시 예에 따르면, 1020 동작에서, 디스플레이 장치(100)는 수신된 이미지에 기초하여 UI 마스크를 생성할 수 있다. 예를 들어, 디스플레이 장치(100)는 CNN(convolutional neural networks) 알고리즘을 이용하여 이미지에 포함된 복수의 영역이 UI에 해당할 확률 정보를 포함하는 UI 마스크를 생성할 수 있다. UI 마스크는 원본 이미지보다 작은 해상도(또는, 크기)를 가질 수 있다.
일 실시 예에 따르면, 1030 동작에서, 디스플레이 장치(100)는 UI 마스크의 확률 정보를 보정할 수 있다. 예를 들어, 디스플레이 장치(100)는 HMM(hidden markov model) 알고리즘을 이용하여 UI 마스크의 확률 정보를 보정할 수 있다. 일 실시 예에 따르면, UI 마스크의 확률 정보를 보정하는 1030 동작은 생략될 수도 있다.
일 실시 예에 따르면, 1040 동작에서, 디스플레이 장치(100)는 UI 템플릿을 생성할 수 있다. 일 실시 예에 따르면, 디스플레이 장치(100)는 UI 마스크에 기초하여 UI 영역의 위치를 나타내는 UI 템플릿을 생성할 수 있다. UI 템플릿은, 예를 들어, UI 영역의 개수, 모양, 크기 및 위치에 대한 정보를 포함할 수 있다. 디스플레이 장치(100)는 복수의 이미지에 기초하여 생성된 복수의 UI 마스크의 확률 정보를 분석하여 UI 템플릿을 생성할 수 있다. 일 실시 예에 따르면, UI 템플릿을 생성하는 1040 동작은 생략될 수도 있다.
일 실시 예에 따르면, 1050 동작에서, 디스플레이 장치(100)는 UI 마스크를 이용하여 이미지에 포함된 UI 영역을 확인할 수 있다. 예를 들어, 디스플레이 장치(100)는 이미지에 포함된 복수의 영역 중 UI 마스크의 확률 정보가 지정된 값 이상인 영역을 UI 영역이라고 판단하고, UI 마스크의 확률 정보가 지정된 값 미만인 영역을 UI 영역이 아니라고 판단할 수 있다.
일 실시 예에 따르면, 1060 동작에서, 디스플레이 장치(100)는 UI 영역에 포함된 텍스트 영역을 확인할 수 있다. 예를 들어, 디스플레이 장치(100)는 OCR(optical character reader) 알고리즘을 이용하여 UI 영역에 포함된 텍스트 영역을 확인할 수 있다.
일 실시 예에 따르면, 1070 동작에서, 디스플레이 장치(100)는 텍스트 템플릿을 생성할 수 있다. 일 실시 예에 따르면, 디스플레이 장치(100)는 확인된 텍스트 영역에 기초하여 텍스트 영역의 위치를 나타내는 텍스트 템플릿을 생성할 수 있다 텍스트 템플릿은, 예를 들어, 텍스트 영역의 개수, 모양, 크기 및 위치에 대한 정보를 포함할 수 있다. 템플릿 관리 모듈(147)은 텍스트 인식 모듈(145)에 의해 확인된 복수의 이미지의 텍스트 영역을 분석하여 텍스트 템플릿을 생성할 수 있다. 일 실시 예에 따르면, UI 템플릿을 생성하는 1070 동작은 생략될 수도 있다.
일 실시 예에 따르면, 1080 동작에서, 디스플레이 장치(100)는 텍스트 영역에 포함된 텍스트를 인식할 수 있다. 예를 들어, 디스플레이 장치(100)는 OCR(optical character reader) 알고리즘을 이용하여 텍스트 영역에 포함된 텍스트를 인식할 수 있다.
도 11은 본 발명의 다양한 실시 예에 따른 디스플레이 장치의 텍스트 인식 방법을 나타내는 흐름도이다.
도 11에 도시된 흐름도는 상술한 디스플레이 장치(100)에서 처리되는 동작들로 구성될 수 있으며, 디스플레이 장치(100)가 UI 템플릿 또는 텍스트 템플릿을 저장하고 있는 경우의 텍스트 인식 방법을 나타낸다. 따라서, 이하에서 생략된 내용이라 하더라도 도 1 내지 도 9를 참조하여 디스플레이 장치에 관하여 기술된 내용은 도 11에 도시된 흐름도에도 적용될 수 있다.
일 실시 예에 따르면, 1110 동작에서, 디스플레이 장치(100)는 외부 전자 장치(예: 컨텐츠 제공 장치(200))로부터 이미지를 수신할 수 있다. 외부 전자 장치로부터 수신되는 이미지는 컨텐츠 이미지뿐만 아니라 외부 전자 장치에 의해 생성된 UI 이미지를 포함할 수 있다.
일 실시 예에 따르면, 1120 동작에서, 디스플레이 장치(100)는 UI 템플릿을 이용하여 이미지에 포함된 UI 영역을 확인할 수 있다. 예를 들어, 디스플레이 장치(100)는 수신된 이미지에 UI 템플릿을 오버랩하고, 오버랩된 이미지를 이용하여 UI 영역을 확인할 수 있다.
일 실시 예에 따르면, 1130 동작에서, 디스플레이 장치(100)는 UI 영역에 포함된 텍스트 영역을 확인할 수 있다. 예를 들어, 디스플레이 장치(100)는 OCR(optical character reader) 알고리즘을 이용하여 UI 영역에 포함된 텍스트 영역을 확인할 수 있다.
일 실시 예에 따르면, 1140 동작에서, 디스플레이 장치(100)는 텍스트 템플릿을 이용하여 이미지에 포함된 텍스트 영역을 확인할 수 있다. 예를 들어, 디스플레이 장치(100)는 수신된 이미지에 텍스트 템플릿(920)를 오버랩하고, 오버랩된 이미지를 이용하여 텍스트 영역을 확인할 수 있다.
일 실시 예에 따르면, 1150 동작에서, 디스플레이 장치(100)는 텍스트 영역에 포함된 텍스트를 인식할 수 있다. 예를 들어, 디스플레이 장치(100)는 OCR(optical character reader) 알고리즘을 이용하여, 1130 동작 또는 1140 동작에서 확인된 텍스트 영역에 포함된 텍스트를 인식할 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.
다양한 실시예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(예: 자기테이프), 광기록 매체(예: CD-ROM, DVD, 자기-광 매체 (예: 플롭티컬 디스크), 내장 메모리 등을 포함할 수 있다. 명령어는 컴파일러에 의해 만들어지는 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 다양한 실시예에 따른 모듈 또는 프로그램 모듈은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 다른 구성요소를 더 포함할 수 있다.
다양한 실시예에 따른, 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다. 그리고 본 문서에 개시된 실시예는 개시된, 기술 내용의 설명 및 이해를 위해 제시된 것이며, 본 문서에서 기재된 기술의 범위를 한정하는 것은 아니다. 따라서, 본 문서의 범위는, 본 문서의 기술적 사상에 근거한 모든 변경 또는 다양한 다른 실시예를 포함하는 것으로 해석되어야 한다.

Claims (20)

  1. 디스플레이 장치에 있어서,
    외부 전자 장치로부터 이미지를 수신하는 통신 인터페이스;
    상기 이미지를 표시하는 디스플레이; 및
    프로세서;를 포함하고,
    상기 프로세서는,
    CNN(convolutional neural networks) 알고리즘을 이용하여 상기 이미지에 포함된 복수의 영역이 UI(user interface)에 해당할 확률 정보를 포함하는 UI 마스크를 생성하고, 상기 UI 마스크를 이용하여 상기 이미지에 포함된 UI 영역을 확인하고, 상기 UI 영역에 포함된 텍스트 영역을 확인하고, 상기 텍스트 영역에 포함된 텍스트를 인식하도록 설정된 디스플레이 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    HMM(hidden markov model) 알고리즘을 이용하여 상기 UI 마스크의 확률 정보를 보정하도록 설정된 디스플레이 장치.
  3. 제1항에 있어서,
    상기 UI 마스크는 상기 외부 전자 장치로부터 수신된 이미지보다 작은 해상도를 가지는 디스플레이 장치.
  4. 제1항에 있어서,
    메모리;를 더 포함하고,
    상기 프로세서는,
    상기 UI 마스크에 기초하여 UI 영역의 위치를 나타내는 UI 템플릿을 생성하고, 상기 UI 템플릿을 상기 메모리에 저장하도록 설정된 디스플레이 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 UI 템플릿이 생성되면 상기 UI 마스크의 생성을 생략하고, 상기 메모리에 저장된 UI 템플릿을 이용하여 상기 UI 영역을 확인하도록 설정된 디스플레이 장치.
  6. 제1항에 있어서,
    메모리;를 더 포함하고,
    상기 프로세서는,
    상기 확인된 텍스트 영역에 기초하여 텍스트 영역의 위치를 나타내는 텍스트 템플릿을 생성하고, 상기 텍스트 템플릿을 상기 메모리에 저장하도록 설정된 디스플레이 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 텍스트 템플릿이 생성되면 상기 UI 마스크의 생성 및 상기 UI 영역의 확인을 생략하고, 상기 메모리에 저장된 텍스트 템플릿을 이용하여 상기 텍스트 영역을 확인하도록 설정된 디스플레이 장치.
  8. 제6항에 있어서,
    상기 프로세서는,
    상기 텍스트 템플릿을 이용하여 지정된 시간 또는 지정된 횟수 이상 텍스트를 인식하지 못하면 상기 텍스트 템플릿을 다시 생성하도록 설정된 디스플레이 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 통신 인터페이스를 통해 원격 제어 장치로부터 제어 신호가 수신되면 지정된 시간 동안 상기 이미지에 포함된 텍스트를 인식하도록 설정된 디스플레이 장치.
  10. 디스플레이 장치의 텍스트 인식 방법에 있어서,
    통신 인터페이스를 통해 외부 전자 장치로부터 이미지를 수신하는 동작;
    CNN(convolutional neural networks) 알고리즘을 이용하여 상기 이미지에 포함된 복수의 영역이 UI(user interface)에 해당할 확률 정보를 포함하는 UI 마스크를 생성하는 동작;
    상기 UI 마스크를 이용하여 상기 이미지에 포함된 UI 영역을 확인하는 동작;
    상기 UI 영역에 포함된 텍스트 영역을 확인하는 동작; 및
    상기 텍스트 영역에 포함된 텍스트를 인식하는 동작;을 포함하는 방법.
  11. 제10항에 있어서,
    HMM(hidden markov model) 알고리즘을 이용하여 상기 UI 마스크의 확률 정보를 보정하는 동작;을 더 포함하는 방법.
  12. 제10항에 있어서,
    상기 UI 마스크는 상기 외부 전자 장치로부터 수신된 이미지보다 작은 해상도를 가지는 방법.
  13. 제10항에 있어서,
    상기 UI 마스크에 기초하여 UI 영역의 위치를 나타내는 UI 템플릿을 생성하는 동작; 및
    상기 UI 템플릿을 메모리에 저장하는 동작;을 더 포함하는 방법.
  14. 제13항에 있어서,
    상기 UI 템플릿이 생성되면 상기 UI 마스크의 생성을 생략하고, 상기 메모리에 저장된 UI 템플릿을 이용하여 상기 UI 영역을 확인하는 동작;을 더 포함하는 방법.
  15. 제10항에 있어서,
    상기 확인된 텍스트 영역에 기초하여 텍스트 영역의 위치를 나타내는 텍스트 템플릿을 생성하는 동작; 및
    상기 텍스트 템플릿을 메모리에 저장하는 동작;을 더 포함하는 방법.
  16. 제15항에 있어서,
    상기 텍스트 템플릿이 생성되면 상기 UI 마스크의 생성 및 상기 UI 영역의 확인을 생략하고 상기 메모리에 저장된 텍스트 템플릿을 이용하여 상기 텍스트 영역을 확인하는 동작;을 더 포함하는 방법.
  17. 제15항에 있어서,
    상기 텍스트 템플릿을 이용하여 지정된 시간 또는 지정된 횟수 이상 텍스트를 인식하지 못하면 상기 텍스트 템플릿을 다시 생성하는 동작;을 더 포함하는 방법.
  18. 통신 인터페이스를 통해 외부 전자 장치로부터 이미지를 수신하는 동작;
    CNN 알고리즘을 이용하여 상기 이미지에 포함된 복수의 영역이 UI에 해당할 확률 정보를 포함하는 UI 마스크를 생성하는 동작;
    상기 UI 마스크를 이용하여 상기 이미지에 포함된 UI 영역을 확인하는 동작;
    상기 UI 영역에 포함된 텍스트 영역을 확인하는 동작; 및
    상기 텍스트 영역에 포함된 텍스트를 인식하는 동작;을 포함하는 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.
  19. 제18항에 있어서,
    상기 방법은,
    HMM 알고리즘을 이용하여 상기 UI 마스크의 확률 정보를 보정하는 동작;을 더 포함하는 기록매체.
  20. 제18항에 있어서,
    상기 방법은,
    상기 UI 마스크에 기초하여 UI 영역의 위치를 나타내는 UI 템플릿을 생성하는 동작; 및
    상기 UI 템플릿을 메모리에 저장하는 동작;을 더 포함하는 기록매체.
KR1020160089099A 2016-07-14 2016-07-14 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법 KR102606435B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020160089099A KR102606435B1 (ko) 2016-07-14 2016-07-14 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법
PCT/KR2017/005383 WO2018012729A1 (ko) 2016-07-14 2017-05-24 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법
US16/317,905 US11170247B2 (en) 2016-07-14 2017-05-24 Display apparatus and text recognizing method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160089099A KR102606435B1 (ko) 2016-07-14 2016-07-14 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법

Publications (2)

Publication Number Publication Date
KR20180007783A true KR20180007783A (ko) 2018-01-24
KR102606435B1 KR102606435B1 (ko) 2023-11-28

Family

ID=60951834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160089099A KR102606435B1 (ko) 2016-07-14 2016-07-14 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법

Country Status (3)

Country Link
US (1) US11170247B2 (ko)
KR (1) KR102606435B1 (ko)
WO (1) WO2018012729A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210041330A (ko) * 2019-10-07 2021-04-15 현대자동차주식회사 체결공구 시스템 및 그 제어 방법
KR102476815B1 (ko) * 2022-09-21 2022-12-12 (주)슬레이트미디어 인공지능 기반 스톡 이미지 자동 추출 방법, 장치 및 시스템

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472191B (zh) * 2018-09-17 2020-08-11 西安电子科技大学 一种基于时空上下文的行人重识别与追踪方法
US11803058B1 (en) * 2020-04-16 2023-10-31 Snap Inc. Blind assist glasses with remote assistance
CN112329779B (zh) * 2020-11-02 2024-06-28 平安科技(深圳)有限公司 一种基于mask提高证件识别准确率的方法和相关装置
CN116087671B (zh) * 2023-04-10 2023-07-04 长沙艾克赛普仪器设备有限公司 一种基于机器视觉的自动化测试作业方法、机器人及系统
US12039431B1 (en) * 2023-09-27 2024-07-16 OpenAI Opco, LLC Systems and methods for interacting with a multimodal machine learning model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050116224A (ko) 2004-06-07 2005-12-12 삼성전자주식회사 배경영역 검출에 의한 문서의 타겟영역 추출 장치 및 그방법
KR20130071148A (ko) 2011-12-20 2013-06-28 엘지전자 주식회사 영상표시장치의 동작 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100683501B1 (ko) 2005-02-23 2007-02-15 인천대학교 산학협력단 신경망 기법을 이용한 뉴스 비디오의 앵커 화면 추출 장치및 그 방법
US20080098433A1 (en) * 2006-10-23 2008-04-24 Hardacker Robert L User managed internet links from TV
KR100903816B1 (ko) 2007-12-21 2009-06-24 한국건설기술연구원 정지영상에서의 얼굴추출시스템과 그 방법
KR101409340B1 (ko) 2013-03-13 2014-06-20 숭실대학교산학협력단 교통 표지 인식 방법 및 그 시스템
KR102123062B1 (ko) 2013-08-06 2020-06-15 삼성전자주식회사 콘텐츠에 관한 정보를 획득하는 방법 및 이를 이용한 영상 표시 장치, 그리고 콘텐츠에 관한 정보를 제공하는 서버 시스템.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050116224A (ko) 2004-06-07 2005-12-12 삼성전자주식회사 배경영역 검출에 의한 문서의 타겟영역 추출 장치 및 그방법
KR20130071148A (ko) 2011-12-20 2013-06-28 엘지전자 주식회사 영상표시장치의 동작 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210041330A (ko) * 2019-10-07 2021-04-15 현대자동차주식회사 체결공구 시스템 및 그 제어 방법
US11854236B2 (en) 2019-10-07 2023-12-26 Hyundai Motor Company Fastening tool system and control method thereof
KR102476815B1 (ko) * 2022-09-21 2022-12-12 (주)슬레이트미디어 인공지능 기반 스톡 이미지 자동 추출 방법, 장치 및 시스템

Also Published As

Publication number Publication date
US11170247B2 (en) 2021-11-09
US20210295084A1 (en) 2021-09-23
WO2018012729A1 (ko) 2018-01-18
KR102606435B1 (ko) 2023-11-28

Similar Documents

Publication Publication Date Title
KR20180007783A (ko) 디스플레이 장치 및 디스플레이 장치의 텍스트 인식 방법
CN108419105B (zh) 显示设备和替换广告的方法
US8879639B2 (en) Adaptive video capture decode system
TWI605712B (zh) 互動式媒體系統
US11924520B2 (en) Subtitle border-crossing processing method and apparatus, and electronic device
US20200058113A1 (en) Image processing apparatus and image processing method
CN114025219B (zh) 增强现实特效的渲染方法、装置、介质及设备
US20120301030A1 (en) Image processing apparatus, image processing method and recording medium
KR20190031032A (ko) 컨텐트를 실행하는 방법 및 장치
US10997947B2 (en) Electronic device and control method thereof
JP6058257B2 (ja) 画像出力装置、画像出力方法、およびプログラム
US11386659B2 (en) Electronic apparatus for identifying content based on an object included in the content and control method thereof
KR102414783B1 (ko) 전자 장치 및 이의 제어방법
US11810336B2 (en) Object display method and apparatus, electronic device, and computer readable storage medium
KR20210044375A (ko) 전자 장치 및 전자 장치의 제어 방법
US10771846B2 (en) Electronic apparatus for playing substitutional advertisement and method for controlling method thereof
KR102494591B1 (ko) 전자 장치, 그 제어 방법 및 전자 시스템
US20240129593A1 (en) Electronic apparatus and controlling method thereof
EP3568993B1 (en) Display device for recognizing user interface and controlling method thereof
US20230153419A1 (en) Display apparatus and operation method thereof
US20220301127A1 (en) Image processing pipeline for optimizing images in machine learning and other applications
CN109479161B (zh) 显示装置及其分离地显示用户界面的方法
KR20230050127A (ko) 디스플레이 장치 및 그 동작방법
KR20210017334A (ko) 디스플레이장치 및 그 제어방법
KR20240026000A (ko) 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant