KR20220114379A - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20220114379A
KR20220114379A KR1020210017815A KR20210017815A KR20220114379A KR 20220114379 A KR20220114379 A KR 20220114379A KR 1020210017815 A KR1020210017815 A KR 1020210017815A KR 20210017815 A KR20210017815 A KR 20210017815A KR 20220114379 A KR20220114379 A KR 20220114379A
Authority
KR
South Korea
Prior art keywords
image data
word
bias
electronic device
keyword list
Prior art date
Application number
KR1020210017815A
Other languages
English (en)
Inventor
김은향
김광윤
김성수
박준모
다이리아 샌디아나
한창우
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210017815A priority Critical patent/KR20220114379A/ko
Priority to PCT/KR2021/007818 priority patent/WO2022169038A1/ko
Priority to US17/430,614 priority patent/US11893980B2/en
Publication of KR20220114379A publication Critical patent/KR20220114379A/ko
Priority to US18/392,369 priority patent/US20240127805A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치 및 그 제어 방법이 개시된다. 전자 장치는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 통신 인터페이스, 단어 간의 연관성이 학습된 언어 컨텍스처 모델을 저장하는 메모리, 프로세서 및 디스플레이를 포함하고, 프로세서는 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고, 추출된 오브젝트의 이름 및 추출된 문자를 식별하며, 식별된 오브젝트의 이름 및 식별된 문자에 기초하여 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하고, 생성된 바이어스 키워드 리스트 및 학습된 언어 컨텍스처 모델에 기초하여 음성 데이터를 텍스트로 변환하며, 텍스트로 변환된 음성 데이터를 자막으로 표시하도록 디스플레이를 제어한다.

Description

전자 장치 및 그 제어 방법{ELECTRONIC APPARATUS AND CONTROL METHOD THEREOF}
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 컨텐츠의 음성 데이터를 자막으로 표시하는 전자 장치 및 그 제어 방법에 관한 것이다.
전자 장치가 컨텐츠를 재생할 때 사용자의 편의를 위해 온라인 캡션(Online captioning) 기능을 지원할 수 있다. 온라인 캡션이란 핸드폰이나 TV 등과 같은 전자 장치에서 임의의 동영상이 재생될 때, 실시간으로 자막을 생성하여 표시하는 기능을 의미한다. 이때 동영상은 임의의 경로를 통해 수신되고 재생될 수 있다. 따라서, 전자 장치는 동영상의 제목 등과 같은 메타데이터 등을 활용할 수 없다.
또한, 전자 장치에 임의의 동영상이 입력이 될 수 있기 때문에 전자 장치는 다양한 도메인(domain)에 대한 음성을 인식해야 하지만, 도메인은 아주 다양하기 때문에 각 도메인에 대한 개별적인 언어 모델(language model)을 생성하기 어려운 점이 있다.
따라서, 다양한 언어 모델이 없더라도 임의의 컨텐츠에 포함된 음성을 인식하고, 정확한 자막을 표시할 수 있는 기술에 대한 필요성이 존재한다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 컨텐츠에 포함된 정보를 이용하여 정확한 자막을 표시하는 전자 장치 및 그 제어 방법을 제공하기 위한 것이다.
본 개시의 일 실시 예에 따른 전자 장치는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 통신 인터페이스, 단어 간의 연관성이 학습된 언어 컨텍스처 모델을 저장하는 메모리, 프로세서 및 디스플레이를 포함하고, 상기 프로세서는 상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고, 상기 추출된 오브젝트의 이름 및 상기 추출된 문자를 식별하며, 상기 식별된 오브젝트의 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하고, 상기 생성된 바이어스 키워드 리스트 및 상기 학습된 언어 컨텍스처 모델에 기초하여 상기 음성 데이터를 텍스트로 변환하며, 상기 텍스트로 변환된 음성 데이터를 자막으로 표시하도록 상기 디스플레이를 제어한다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 단계, 상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하는 단계, 상기 추출된 오브젝트의 이름 및 상기 추출된 문자를 식별하는 단계, 상기 식별된 오브젝트의 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하는 단계, 상기 생성된 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델에 기초하여 상기 음성 데이터를 텍스트로 변환하는 단계 및 상기 텍스트로 변환된 음성 데이터를 자막으로 표시하는 단계를 포함한다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 수행하는 프로그램이 기록된 비일시적 컴퓨터 판독 가능 저장 매체는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 단계, 상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하는 단계, 상기 추출된 오브젝트의 이름 및 상기 추출된 문자를 식별하는 단계, 상기 식별된 오브젝트의 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하는 단계, 상기 생성된 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델에 기초하여 상기 음성 데이터를 텍스트로 변환하는 단계 및 상기 텍스트로 변환된 음성 데이터를 자막으로 표시하는 단계를 포함한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작 과정을 설명하는 도면이다.
도 4는 본 개시의 일 실시 예에 따른 자막을 표시하는 과정을 설명하는 도면이다.
도 5는 본 개시의 일 실시 예에 따른 장면의 변경을 식별하는 과정을 설명하는 도면이다.
도 6a는 본 개시의 일 실시 예에 따른 이미지 내의 오브젝트를 식별하는 과정을 설명하는 도면이다.
도 6b는 본 개시의 일 실시 예에 따른 이미지 내의 문자를 식별하는 과정을 설명하는 도면이다.
도 7은 본 개시의 일 실시 예에 따른 레이턴트 시맨틱 매핑(latent semantic mapping) 과정을 설명하는 도면이다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.
본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.
그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 1을 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130) 및 디스플레이(140)를 포함한다. 예를 들어, 전자 장치(100)는 스마트폰, 태블릿 PC, 네비게이션, 슬레이트 PC, 웨어러블 디바이스, 디지털 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 키오스크 등을 포함할 수 있다.
통신 인터페이스(110)는 외부 장치와 통신을 수행한다. 통신 인터페이스(110)는 프로세서(130)의 제어에 따라 컨텐츠를 수신할 수 있다. 컨텐츠는 이미지 데이터와 음성 데이터를 포함한다. 이미지 데이터는 정적 이미지 데이터 및 동적 이미지 데이터를 포함할 수 있다. 동적 이미지 데이터는 동영상을 포함할 수 있다. 즉, 통신 인터페이스(110)는 이미지 데이터와 음성 데이터를 포함하는 컨텐츠를 수신할 수 있다.
예를 들어, 통신 인터페이스(110)는 3G, LTE(Long Term Evolution), 5G, 와이파이, 블루투스, DMB(Digital Multimedia Broadcasting), ATSC(Advanced Television Systems Committee), DVB(Digital Video Broadcasting), LAN(Local Area Network), 지그비, 비콘, 적외선 통신 등의 방식으로 통신을 수행할 수 있는 모듈을 포함할 수 있다. 또한, 통신 인터페이스(110)는 통신 포트를 포함할 수 있다. 따라서, 통신 인터페이스(110)는 통신 포트를 통해 컨텐츠를 수신할 수 있다. 예를 들어, 통신 포트는 HDMI(High-Definition Multimedia Interface), DP(DisplayPort), RGB, DVI(Digital Visual Interface), USB(Universal Serial Bus), 썬더볼트, LAN 등의 포트를 포함할 수 있다. 외부 장치는 AV 수신기, 셋탑박스, 웹 서버, 클라우드 등을 포함할 수 있다. 외부 장치와 통신을 수행하는 통신 인터페이스는 통신부, 통신 모듈, 송수신부 등으로 불릴 수도 있다.
메모리(120)는 전자 장치(100)의 기능을 수행하는 데이터 및 알고리즘 등을 저장하고, 전자 장치(100)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 메모리(120)는 수신된 컨텐츠에 포함된 이미지 데이터 및 음성 데이터로부터 음성을 인식하고, 인식된 음성을 자막으로 표시하는 알고리즘을 저장할 수 있다. 메모리(120)에 저장된 자막 표시 알고리즘은 프로세서(130)의 제어에 의해 프로세서(130)로 로딩되어 자막을 표시하는 과정을 수행할 수 있다. 메모리(120)는 학습된 언어 컨텍스처 모델(language contextual model)을 저장할 수 있다. 언어 컨텍스처 모델은 러닝 머신을 통해 단어 및 단어 간의 유사도, 연관성 등에 대해 학습된 모델일 수 있다. 또한, 메모리(120)는 생성된 바이어스 키워드 리스트를 저장할 수 있다. 예를 들어, 메모리(120)는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다.
프로세서(130)는 전자 장치(100)의 각 구성을 제어할 수 있다. 예를 들어, 프로세서(130)는 컨텐츠를 수신하도록 통신 인터페이스(110)를 제어한다. 프로세서(130)는 수신된 컨텐츠에 포함된 이미지 데이터로부터 추출된 정보와 음성 데이터로부터 인식된 음성에 기초하여 자막을 표시하도록 디스플레이(140)를 제어한다.
구체적으로, 프로세서(130)는 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고, 추출된 오브젝트의 이름 및 문자를 식별한다. 프로세서(130)는 이미지 데이터의 각 프레임으로부터 오브젝트 및 문자를 추출할 수 있다. 오브젝트는 사물 뿐만 아니라 사람을 포함할 수 있다. 프로세서(130)는 추출된 오브젝트로부터 특징을 추출하고, 추출된 특징에 기초하여 오브젝트의 이름을 식별할 수 있다.
그리고, 프로세서(130)는 식별된 오브젝트의 이름 및 문자에 기초하여 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성할 수 있다. 바이어스 키워드 리스트는 일반적인 단어가 아닌 컨텐츠와 관련된 단어를 포함하는 리스트일 수 있다. 일반적인 단어는 범용적으로 학습된 언어 컨텍스처 모델로부터 쉽게 인식될 수 있다. 그러나, 사람 이름, 팀 이름 등과 같은 특정 컨텐츠에서만 자주 등장하는 단어는 범용적으로 학습된 언어 컨텍스처 모델로부터 인식되기 어려울 수 있다. 예를 들어, 컨텐츠의 음성 데이터에 ‘pattern’라는 단어가 포함된 경우, 전자 장치(100)의 언어 컨텍스처 모델은 ‘pattern’를 쉽게 식별할 수 있다. 즉, 전자 장치(100)는 ‘pat’라는 문자를 인식하면, ‘pattern’이라는 단어를 예측할 수 있다. 그러나, 컨텐츠의 음성 데이터에 ‘patrick’이라는 단어가 포함된 경우, 언어 컨텍스처 모델은 ‘patrick’이 아닌 ‘pattern’ 등과 같이 잘못된 단어로 예측할 가능성이 높다. 따라서, 본 개시는 이미지 데이터로부터 추출된 단어를 포함하는 바이어스 키워드 리스트를 생성하고, 생성된 바이어스 키워드 리스트에 기초하여 학습된 언어 컨텍스처 모델을 보완하기 위한 것이다.
프로세서(130)는 식별된 오브젝트의 이름 및 문자 간의 관계를 모델링하여 유사도를 식별할 수 있다. 식별된 오브젝트의 이름 및 문자는 이미지 데이터와 관련된 단어일 수 있다. 프로세서(130)는 이미지 데이터와 관련된 단어를 빈도에 따라 분류할 수 있다. 그리고, 프로세서(130)는 기 설정된 빈도 이상의 이미지 데이터와 관련된 단어를 제거하고, 바이어스 키워드 리스트를 생성할 수 있다. 전자 장치(100)가 이미지 데이터 및 음성 데이터로부터 실시간으로 음성을 인식하고, 자막으로 표시하기 위해서 빠르게 데이터를 처리해야 한다. 바이어스 키워드 리스트에 포함된 단어의 개수가 많은 경우, 프로세서(130)가 빠르게 처리하기 어렵기 때문에 바이어스 키워드 리스트의 단어는 일정 개수 이하로 유지하는 것이 필요하다. 일정 빈도 이상의 단어는 자주 출현하는 단어이므로 프로세서(130)가 쉽게 인식할 수 있다. 따라서, 프로세서(130)는 일정 빈도 이상의 단어를 제거하고 바이어스 키워드 리스트를 생성할 수 있다.
한편, 프로세서(130)는 컨텐츠의 프레임별로 이미지 데이터와 관련된 단어를 추출하여 바이어스 키워드 리스트에 추가할 수 있다. 프로세서(130)가 계속적으로 바이어스 키워드 리스트에 단어를 추가하면 바이어스 키워드 리스트에 포함된 단어가 매우 많아질 수 있다. 따라서, 프로세서(130)는 생성된 바이어스 키워드 리스트에 포함된 이미지 데이터와 관련된 단어의 개수가 기 설정된 개수를 초과하는 경우, 일정한 조건에 따라 바이어스 키워드 리스트에 포함된 단어를 제거할 수 있다. 예를 들어, 기 설정된 조건에 따른 상기 이미지 데이터와 관련된 단어는 기존 단어와 중복되는 단어, 음성 데이터에 포함된 단어와 유사도가 높은 단어, 바이어스 키워드 단어에 가장 최근에 추가된 단어 또는 빈도 수가 낮은 단어 등을 포함할 수 있다.
상술한 과정을 통해, 프로세서(130)는 이미지 데이터로부터 이미지 데이터와 관련된 단어를 추출하고, 바이어스 키워드 리스트를 생성할 수 있다. 그리고, 프로세서(130)는 생성된 바이어스 키워드 리스트 및 학습된 언어 컨텍스처 모델에 기초하여 컨텐츠에 포함된 음성 데이터를 텍스트로 변환할 수 있다. 예를 들어, 프로세서(130)는 음성 데이터를 인식한다. 프로세서(130)는 인식된 음성 데이터 중 바이어스 키워드 리스트에 포함된 단어와 유사도가 기 설정된 값 이상인 단어는 바이어스 키워드 리스트에 포함된 단어로 식별할 수 있다. 또는, 프로세서(130)는 유사도가 기 설정된 값 미만인 단어는 학습된 언어 컨텍스처 모델에 포함된 단어로 식별할 수 있다. 즉, 프로세서(130)는 바이어스 키워드 리스트 및 학습된 언어 컨텍스처 모델을 이용하여 단어를 식별하고, 식별된 단어를 기초로 인식된 음성 데이터를 텍스트로 변환할 수 있다. 그리고, 프로세서(130)는 텍스트로 변환된 음성 데이터를 자막으로 표시하도록 디스플레이(140)를 제어한다.
한편, 컨텐츠는 음성 데이터 및 이미지 데이터를 포함하는 동영상일 수 있다. 동영상은 장면(scene)이 완전히 바뀔 수 있다. 프로세서(130)는 이미지 데이터의 프레임의 PSNR(Peak Signal to Noise Ratio)이 기 설정된 값을 초과하는 경우, 이미지 데이터의 장면(scene)이 변경된 것으로 식별할 수 있다.
디스플레이(140)는 영상 처리가 수행된 영상 신호를 출력한다. 디스플레이(140)는 컨텐츠의 이미지 데이터와 함께 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다. 예를 들어, 디스플레이(140)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 플렉서블 디스플레이, 터치 스크린 등으로 구현될 수 있다. 디스플레이(140)가 터치 스크린으로 구현되는 경우, 디스플레이 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 2를 참조하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130), 디스플레이(140), 입력 인터페이스(150), 카메라(160), 스피커(170), 마이크(180), 센서(190)를 포함할 수 있다. 통신 인터페이스(110), 메모리(120) 및 디스플레이(140)는 도 1에서 설명한 바와 동일하므로 구체적인 설명은 생략한다.
입력 인터페이스(150)는 사용자로부터 제어 명령을 입력받을 수 있다. 예를 들어, 입력 인터페이스(150)는 키 패드, 터치 패드 등으로 구현될 수 있다. 입력 인터페이스(150)는 사용자로부터 명령을 입력받는 기능을 수행하며, 입력부, 입력 모듈 등으로 불릴 수도 있다.
한편, 입력 인터페이스(150)는 상술한 키 패드, 터치 패드 외에도 디스플레이(140), 카메라(160), 마이크(180) 또는 센서(190)로 구현될 수도 있다. 예를 들어, 디스플레이(140)가 터치 스크린으로 구현되는 경우, 전자 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다. 입력 인터페이스(150)가 카메라(160)로 구현되는 경우, 전자 장치(100)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(130)는 촬영된 표정이나 동작에 기초하여 제어 명령을 인식할 수 있다. 입력 인터페이스(150)가 마이크(180)로 구현되는 경우, 전자 장치(100)는 사용자의 음성을 입력받을 수 있다. 프로세서(130)는 입력된 음성에 기초하여 제어 명령을 인식할 수 있다. 입력 인터페이스(150)가 센서(190)로 구현되는 경우, 센서(190)는 사용자의 동작 또는 리모컨과 같은 외부 장치로부터 신호 등을 입력받을 수 있다. 프로세서(130)는 입력된 사용자의 동작 또는 신호에 기초하여 제어 명령을 인식할 수 있다.
카메라(160)는 주변 환경을 촬영할 수 있다. 또한, 카메라(160)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(130)는 촬영된 사용자의 표정이나 동작에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 카메라(160)는 CCD 센서, CMOS 센서를 포함할 수 있다. 또한, 카메라(160)는 RGB 카메라, 뎁스 카메라를 포함할 수도 있다.
스피커(170)는 사운드 처리가 수행된 사운드 신호를 출력한다. 예를 들어, 스피커(170)는 컨텐츠에 포함된 음성 데이터를 출력할 수 있다. 또한, 스피커(170)는 사용자의 입력 명령, 전자 장치(100)의 상태 관련 정보 또는 동작 관련 정보 등을 음성이나 알림음으로 출력할 수 있다.
마이크(180)는 오디오 신호를 입력받을 수 있다. 마이크(180)는 프로세서(130)의 제어에 따라 기 설정된 거리 이내에 위치한 사용자로부터 오디오 신호를 획득할 수 있다. 또한, 전자 장치(100)는 복수 개의 마이크를 포함할 수 있다. 전자 장치(100)가 복수 개의 마이크를 포함하는 경우, 프로세서(130)는 복수 개의 마이크로부터 획득된 오디오 신호의 방향, 크기, 위상 등에 기초하여 음원의 위치를 식별할 수 있다. 또한, 마이크(180)는 사용자의 음성을 입력받을 수 있다. 프로세서(130)는 입력된 음성에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다.
센서(190)는 전자 장치(100) 주변의 상태를 감지할 수 있다. 프로세서(130)는 감지된 신호에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 센서(190)는 가속도 센서, 중력 센서, 자이로 센서, 지자기 센서, 방향 센서, 모션 인식 센서, 근접 센서, 전압계, 전류계, 기압계, 습도계, 온도계, 조도 센서, 열 감지 센서, 터치 센서, 적외선 센서, 초음파 센서 등을 포함할 수 있다. 한편, 프로세서(130)가 카메라(160), 마이크(180)를 통해 획득된 정보에 기초하여 오브젝트의 위치를 식별하는 경우, 카메라(160) 또는 마이크(180)도 센서(190)의 일종이라고 볼 수 있다.
전자 장치(100)는 상술한 구성을 모두 포함할 수 있고, 일부 구성을 포함할 수도 있다. 또한, 전자 장치(100)는 상술한 구성 이외에도 다양한 기능을 수행하는 다른 구성을 더 포함할 수도 있다.
지금까지 전자 장치의 구성을 설명하였다. 아래에서는 전자 장치가 자막을 표시하는 구체적인 과정을 설명한다.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 동작 과정을 설명하는 도면이고, 도 4는 본 개시의 일 실시 예에 따른 자막을 표시하는 과정을 설명하는 도면이다. 도 3 및 도 4를 참조하여 설명한다.
도 3 및 도4를 참조하면, 전자 장치는 컨텐츠를 수신할 수 있다(310). 예를 들어, 컨텐츠는 동영상일 수 있고, 이미지 데이터 및 음성 데이터를 포함할 수 있다. 전자 장치는 일정한 주기로 이미지 데이터(10)의 프레임을 캡쳐하고, 장면(scene)의 변경 여부를 판단할 수 있다(320). 예를 들어, 전자 장치는 이미지 데이터를 20 프레임 간격으로 캡처할 수 있다. 일 실시 예로서, 컨텐츠는 야구 중계 방송일 수 있고, 캡처된 이미지 데이터(10)는 야구 경기 장면일 수 있다. 전자 장치는 캡처한 프레임의 PSNR(Peak Signal to Noise Ratio)과 기 설정된 임계 값을 비교할 수 있다(410). 캡처한 프레임의 PSNR이 임계 값을 초과하는 경우, 전자 장치는 장면이 변경된 것으로 판단할 수 있다.
전자 장치는 변경된 장면의 매 프레임마다 프레임에 포함된 오브젝트 및 문자를 감지할 수 있다(420). 예를 들어, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 오브젝트 및 문자를 감지할 수 있다. 전자 장치는 감지한 오브젝트로부터 특징을 추출하고, 추출된 특징에 기초하여 오브젝트의 이름을 식별할 수 있다. 또한, 전자 장치는 감지한 문자를 OCR(Optical Character Reader) 모델을 이용하여 식별할 수 있다(340, 430). 일 실시 예로서, 이미지 데이터의 프레임에 야구 선수와 함께 AAA 팀, BBB 팀, 5회초, out 등의 문자가 포함될 수 있다. 전자 장치는 야구 선수의 오브젝트로부터 특징을 추출하고, 추출된 특징으로부터 Michael이라는 야구 선수의 이름을 식별할 수 있다. 그리고, 전자 장치는 OCR 등의 방식을 이용하여 AAA, BBB, 5회초, out 등의 문자를 식별할 수 있다.
전자 장치는 식별된 오브젝트의 이름 및 식별된 문자에 기초하여 레이턴트 시맨틱 매핑(latent semantic mapping)을 수행할 수 있다(350, 440). 식별된 오브젝트의 이름 및 식별된 문자는 이미지 데이터와 관련된 단어일 수 있다. 레이턴트 시맨틱 매핑은 각 단어를 벡터로 변환하고, 변환된 벡터를 기초로 가까운 단어를 모음으로써 유사도(및 관련도)를 추론(inference)하는 것을 의미한다. 즉, 전자 장치는 식별된 오브젝트의 이름 및 식별된 문자(이미지 데이터와 관련된 단어) 간의 관계를 모델링하여 유사도를 식별할 수 있다. 일 실시 예로서, 전자 장치는 식별된 오브젝트의 이름 및 문자에 기초하여 KBO를 야구 경기, 프로 야구와 유사한 단어로 식별하고, BBB 팀을 프로야구 팀으로 식별하고, Michael을 야구 선수로 식별할 수 있다.
전자 장치는 유사도가 식별된 단어를 빈도에 따라 분류하고, 기 설정된 빈도 이상의 단어를 제거할 수 있다(360, 450). 전자 장치는 유사도가 식별된 단어를 이용하여 바이어스 키워드 리스트를 생성한다. 전자 장치는 생성된 바이어스 키워드 리스트를 음성 데이터를 자막으로 표시하기 위해 이용한다. 상술한 바와 같이, 컨텐츠는 동영상이고, 자막은 실시간으로 이미지와 함께 표시되어야 하므로 전자 장치는 음성 데이터의 인식 및 텍스트 변환 과정을 빨리 처리해야 한다. 따라서, 바이어스 키워드 리스트는 일정한 크기 이하이어야 한다. 따라서, 전자 장치는 기 설정된 빈도 이상의 단어를 제거하고 바이어스 키워드 리스트를 생성함으로써 생성되는 바이어스 키워드 리스트를 일정한 크기 이하로 유지할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 전자 장치의 기 설정된 빈도가 1000으로 설정되었다면, BBB, 선수 등의 단어는 제거될 수 있다. 그리고, 빈도가 1000 이하인 Michael, 5회초, AAA, KBO 등의 단어는 바이어스 키워드 리스트에 포함되어 바이어스 키워드 리스트가 생성될 수 있다(460). 한편, 전자 장치는 바이어스 키워드 리스트의 크기를 유지하기 위해 바이어스 키워드 리스트에 포함된 단어의 개수가 기 설정된 개수를 초과하는 경우, 기 설정된 조건에 따른 단어를 제거할 수 있다. 예를 들어, 기 설정된 조건에 따른 단어는 기존 단어와 중복되는 단어, 음성 데이터에 포함된 단어와 유사도가 높은 단어, 바이어스 키워드 단어에 가장 최근에 추가된 관련된 단어 또는 빈도 수가 낮은 단어 등을 포함할 수 있다.
전자 장치는 생성된 바이어스 키워드 리스트를 메모리에 저장하고(370), 저장된 바이어스 키워드 리스트 및 학습된 언어 컨텍스터 모델을 이용하여 컨텐츠에 포함된 음성 데이터를 인식하고 텍스트로 변환할 수 있다(380, 470). 전자 장치는 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다. 전자 장치는 일정한 주기로 음성 데이터를 캡처하고, 캡처된 음성 데이터와 동기화시켜 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다. 일 실시 예로서, 전자 장치는 음성 데이터를 사운드 신호로 출력함과 동시에 “AAA 대 BBB 경기 5회초 Michael 선수가 준비하고 있습니다.”라는 자막을 표시할 수 있다(480).
아래에서는 전자 장치의 각각의 동작 과정을 설명한다.
도 5는 본 개시의 일 실시 예에 따른 장면의 변경을 식별하는 과정을 설명하는 도면이다.
도 5를 참조하면, 현재 프레임의 MSE(Mean Square Error)를 계산하는 수식 및 PSNR을 계산하는 수식이 도시되어 있다. 전자 장치는 일정한 간격으로 이미지 데이터의 프레임을 캡처하고, 장면의 변경 여부를 판단할 수 있다. 전자 장치는 이전에 캡처한 이미지와 현재 캡처한 이미지 간의 MSE를 계산할 수 있다. 그리고, 전자 장치는 계산된 MSE에 기초하여 PSNR을 계산할 수 있다.
전자 장치는 계산된 PSNR과 기 설정된 임계 값을 비교할 수 있다. 전자 장치는 계산된 PSNR이 기 설정된 임계 값을 초과하는 경우 장면이 변경된 것으로 판단할 수 있다. 장면이 변경되면, 전자 장치는 변경된 장면에 기초하여 이미지 데이터로부터 오븝젝트 및 문자를 식별하고, 텍스트로 변환된 음성 데이터를 자막으로 표시하는 과정을 수행할 수 있다.
도 6a는 본 개시의 일 실시 예에 따른 이미지 내의 오브젝트를 식별하는 과정을 설명하는 도면이고, 도 6b는 본 개시의 일 실시 예에 따른 이미지 내의 문자를 식별하는 과정을 설명하는 도면이다. 도 6a 및 도 6b를 참조하여 설명한다.
도 6a를 참조하면, 이미지 데이터에 포함된 오브젝트를 추출하고, 오브젝트의 이름을 식별하는 과정이 도시되어 있다. 전자 장치는 이미지 데이터의 프레임으로부터 오브젝트를 판단할 수 있다. 그리고, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 판단된 오브젝트의 특징을 추출하고, 추출된 특징에 기초하여 오브젝트를 식별할 수 있다. 즉, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 오브젝트의 이름을 식별할 수 있다. 예를 들어, 오브젝트 감지 모델은 CNN 등의 인공지능 신경망으로 구현될 수 있다.
도 6b를 참조하면, 이미지 데이터에 포함된 문자를 추출하고, 문자를 식별하는 과정이 도시되어 있다. 일 실시 예로서, 이미지 데이터에는 “January 01, 2021”이라는 문자가 포함될 수 있다. 전자 장치는 학습된 OCR 모델을 이용하여 문자를 식별할 수 있다. 일 실시 예로서, OCR 모델은 CNN(Convolutional Neural Network), LSTM(Long Short-Term Memory), attention 기법을 조합하여 생성된 모델일 수 있다. 전자 장치는 도 6a 및 도 6b에 도시된 인공지능 신경망 및 인공지능 기법을 이용하여 이미지 데이터로부터 단어(키워드)를 추출할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 레이턴트 시맨틱 매핑(latent semantic mapping) 과정을 설명하는 도면이다.
전자 장치는 이미지 데이터로부터 추출된 단어에 대해 키워드 확장 과정을 수행할 수 있다. 예를 들어, 전자 장치는 다양한 말뭉치(corpus)에 대해 레이턴트 시맨틱 매핑을 수행하는 모델(예, word2vec 등)을 이용하여 추출된 단어와 유사한 의미의 단어와 빈번하게 같이 출현하는 단어들까지 키워드로 추가할 수 있다. 한편, 전자 장치는 언어 컨텍스처 모델의 훈련 세트에 이미 자주 출현했던 단어 또는 빈도가 높은 단어는 삭제하여 총 키워드를 줄일 수 있다.
한편, 일 실시 예로서, Word2vec모델을 사용하여 표현할 수 있는 레이턴트 시맨틱 매핑 모델은 한 단어의 임베딩 벡터가 관련된 단어들의 임베딩 벡터와 선형 조합(linear combination)으로 표현될 수 있도록 훈련된 1-projection-layer model일 수 있다. 예를 들어, 유사한 관련 단어(예, fat cat sat on the / fat cat sit on the)들은 자연스럽게 벡터 공간에서 가까운 곳으로 모이게 된다. Word2vec 모델은 아주 적은 계산량으로 유사 단어들 및 관련 단어들의 추론이 가능한 모델이다.
전자 장치는 상술한 과정을 거쳐 이미지 데이터로부터 식별된 단어들을 포함하는 바이어스 키워드 리스트를 생성할 수 있다. 전자 장치는 음성 데이터를 입력받으면 학습된 인공지능 모델을 이용하여 음성을 인식하고 텍스트로 변환할 수 있다. 예를 들어, 음성을 인식하는 인공지능 모델은 컨텍스처 RNN-T 또는 C-LAS 모델 등을 포함할 수 있다. 일반적인 음성 인식 인공지능 모델은 입력된 음성 데이터에 기초하여 인식된 단어의 다음 단어를 추출하는 방식으로 음성을 인식할 수 있다. 상술한 바와 같이, 일반적인 음성 인식 인공지능 모델은 학습되지 않은 단어가 입력되었을 때, 기존에 학습된 단어로 예측하고 인식할 수 있다. 일 실시 예로서, 일반적인 음성 인식 인공지능 모델은 입력된 ‘Patrick’이라는 사람 이름을 기존에 학습된 ‘pattern’, ‘patriot’ 등과 같이 인식할 수 있다. 따라서, 본 개시에서는 일반적인 음성 인식 인공지능 모델에 생성된 바이어스 키워드 리스트를 조합하여 음성을 인식할 수 있다. 즉, 전자 장치는 이미지 데이터로부터 상술한 과정을 통해 ‘Patrick’이라는 단어를 포함하는 바이어스 키워드 리스트를 생성할 수 있다. 전자 장치는 입력된 음성 데이터 중 바이어스 키워드 리스트에 포함된 단어와 유사도가 기 설정된 값 이상인 단어는 바이어스 키워드 리스트에 포함된 단어로 식별할 수 있다. 즉, 일 실시 예로서, 전자 장치에 ‘Patrick’이라는 사람 이름이 입력된 경우, 전자 장치는 바이어스 키워드 리스트에 포함된 단어에 기초하여 ‘Patrick’으로 예측하고 인식할 수 있다. 즉, 전자 장치는 학습되지 않은 단어에 대해서도 정확히 예측할 수 있다. 전자 장치는 생성된 바이어스 키워드 리스트가 조합된 음성 인식 인공지능 모델에 기초하여 음성 데이터의 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 그리고, 전자 장치는 텍스트로 변환된 음성 데이터를 자막으로 표시할 수 있다.
지금까지 이미지 데이터의 정보를 이용하여 자막을 표시하는 다양한 실시 예를 설명하였다. 아래에서는 전자 장치의 제어 방법을 설명한다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
도 8을 참조하면, 전자 장치는 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하고(S810), 전자 장치는 이미지 데이터에 포함된 오브젝트 및 문자를 추출한다(S820). 전자 장치는 이미지 데이터의 프레임의 PSNR이 기 설정된 값을 초과하는 경우, 이미지 데이터의 장면이 변경된 것으로 식별할 수 있다. 그리고, 전자 장치는 장면이 변경된 프레임에 기초하여 오브젝트 및 문자를 추출할 수 있다. 예를 들어, 전자 장치는 이미지 데이터의 각 프레임으로부터 오브젝트 및 문자를 추출할 수 있다.
전자 장치는 추출된 오브젝트의 이름 및 추출된 문자를 식별한다(S830). 전자 장치는 추출된 오브젝트로부터 특징을 추출하고, 추출된 특징에 기초하여 추출된 오브젝트의 이름을 식별할 수 있다. 예를 들어, 전자 장치는 학습된 오브젝트 감지 모델을 이용하여 오브젝트의 이름을 식별할 수 있다. 또한, 전자 장치는 학습된 OCR 모델을 이용하여 문자를 식별할 수 있다.
전자 장치는 식별된 오브젝트의 이름 및 식별된 문자에 기초하여 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성한다(S840). 예를 들어, 전자 장치는 식별된 오브젝트의 이름 및 식별된 문자 간의 관계를 모델링하여 유사도를 식별하고, 식별된 유사도에 기초하여 바이어스 키워드 리스트를 생성할 수 있다. 또는, 전자 장치는 단어를 빈도에 따라 분류하고, 기 설정된 빈도 이상의 단어를 제거하여 바이어스 키워드 리스트를 생성할 수 있다. 또한, 전자 장치는 생성된 바이어스 키워드 리스트에 포함된 단어의 개수가 기 설정된 개수를 초과하는 경우, 기 설정된 조건에 따른 단어를 제거할 수 있다. 일 실시 예로서, 기 설정된 조건에 따른 단어는 기존 단어와 중복되는 단어, 음성 데이터에 포함된 단어와 유사도가 높은 단어, 바이어스 키워드 단어에 가장 최근에 추가된 단어 또는 빈도 수가 낮은 단어 등을 포함할 수 있다.
전자 장치는 생성된 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델에 기초하여 음성 데이터를 텍스트로 변환한다(S850). 예를 들어, 전자 장치는 입력된 음성 데이터 중 바이어스 키워드 리스트에 포함된 단어와 유사도가 기 설정된 값 이상인 단어를 바이어스 키워드 리스트에 포함된 단어로 식별하고, 유사도가 기 설정된 값 미만인 단어는 학습된 언어 컨텍스처 모델에 포함된 단어로 식별하여 음성 데이터에 포함된 음성을 인식할 수 있다. 그리고, 전자 장치는 식별된 단어를 기초로 인식된 음성 데이터를 텍스트로 변환할 수 있다. 전자 장치는 텍스트로 변환된 음성 데이터를 자막으로 표시한다(S860).
상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100: 전자 장치
110: 통신 인터페이스 120: 메모리
130: 프로세서 140: 디스플레이

Claims (19)

  1. 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 통신 인터페이스;
    단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)을 저장하는 메모리;
    프로세서; 및
    디스플레이;를 포함하고,
    상기 프로세서는,
    상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하고,
    상기 추출된 오브젝트의 이름 및 상기 추출된 문자를 식별하며,
    상기 식별된 오브젝트의 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하고,
    상기 생성된 바이어스 키워드 리스트 및 상기 학습된 언어 컨텍스처 모델에 기초하여 상기 음성 데이터를 텍스트로 변환하며,
    상기 텍스트로 변환된 음성 데이터를 자막으로 표시하도록 상기 디스플레이를 제어하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 음성 데이터를 인식하고, 상기 인식된 음성 데이터 중 상기 바이어스 키워드 리스트에 포함된 상기 이미지 데이터와 관련된 단어와 유사도가 기 설정된 값 이상인 단어는 상기 이미지 데이터와 관련된 단어로 식별하고, 상기 유사도가 기 설정된 값 미만인 단어는 상기 학습된 언어 컨텍스처 모델에 포함된 단어로 식별하며, 상기 식별된 단어를 기초로 상기 인식된 음성 데이터를 텍스트로 변환하는, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 식별된 오브젝트의 이름 및 상기 식별된 문자 간의 관계를 모델링하여 유사도를 식별하고, 상기 식별된 유사도에 기초하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 이미지 데이터와 관련된 단어를 빈도에 따라 분류하고, 기 설정된 빈도 이상의 상기 이미지 데이터와 관련된 단어를 제거하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 생성된 바이어스 키워드 리스트에 포함된 상기 이미지 데이터와 관련된 단어의 개수가 기 설정된 개수를 초과하는 경우, 기 설정된 조건에 따른 상기 이미지 데이터와 관련된 단어를 제거하는, 전자 장치.
  6. 제5항에 있어서,
    상기 기 설정된 조건에 따른 상기 이미지 데이터와 관련된 단어는,
    기존 단어와 중복되는 상기 이미지 데이터와 관련된 단어, 상기 음성 데이터에 포함된 단어와 유사도가 높은 상기 이미지 데이터와 관련된 단어, 상기 바이어스 키워드 단어에 가장 최근에 추가된 상기 이미지 데이터와 관련된 단어 또는 빈도 수가 낮은 상기 이미지 데이터와 관련된 단어 중 적어도 하나인, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 이미지 데이터의 각 프레임으로부터 상기 오브젝트 및 문자를 추출하는, 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 추출된 오브젝트로부터 특징을 추출하고, 상기 추출된 특징에 기초하여 상기 추출된 오브젝트의 이름을 식별하는, 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 이미지 데이터의 프레임의 PSNR(Peak Signal to Noise Ratio)이 기 설정된 값을 초과하는 경우, 상기 이미지 데이터의 장면(scene)이 변경된 것으로 식별하는, 전자 장치.
  10. 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 단계;
    상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하는 단계;
    상기 추출된 오브젝트의 이름 및 상기 추출된 문자를 식별하는 단계;
    상기 식별된 오브젝트의 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하는 단계;
    상기 생성된 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)에 기초하여 상기 음성 데이터를 텍스트로 변환하는 단계; 및
    상기 텍스트로 변환된 음성 데이터를 자막으로 표시하는 단계;를 포함하는 전자 장치의 제어 방법.
  11. 제10항에 있어서,
    상기 음성 데이터를 텍스트로 변환하는 단계는,
    상기 음성 데이터를 인식하고, 상기 인식된 음성 데이터 중 상기 바이어스 키워드 리스트에 포함된 상기 이미지 데이터와 관련된 단어와 유사도가 기 설정된 값 이상인 단어는 상기 이미지 데이터와 관련된 단어로 식별하고, 상기 유사도가 기 설정된 값 미만인 단어는 상기 학습된 언어 컨텍스처 모델에 포함된 단어로 식별하며, 상기 식별된 단어를 기초로 상기 인식된 음성 데이터를 텍스트로 변환하는, 전자 장치의 제어 방법.
  12. 제10항에 있어서,
    상기 바이어스 키워드 리스트를 생성하는 단계는,
    상기 식별된 오브젝트의 이름 및 상기 식별된 문자 간의 관계를 모델링하여 유사도를 식별하고, 상기 식별된 유사도에 기초하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치의 제어 방법.
  13. 제10항에 있어서,
    상기 바이어스 키워드 리스트를 생성하는 단계는,
    상기 이미지 데이터와 관련된 단어를 빈도에 따라 분류하고, 기 설정된 빈도 이상의 상기 이미지 데이터와 관련된 단어를 제거하여 상기 바이어스 키워드 리스트를 생성하는, 전자 장치의 제어 방법.
  14. 제13항에 있어서,
    상기 바이어스 키워드 리스트를 생성하는 단계는,
    상기 생성된 바이어스 키워드 리스트에 포함된 상기 이미지 데이터와 관련된 단어의 개수가 기 설정된 개수를 초과하는 경우, 기 설정된 조건에 따른 상기 이미지 데이터와 관련된 단어를 제거하는, 전자 장치의 제어 방법.
  15. 제14항에 있어서,
    상기 기 설정된 조건에 따른 상기 이미지 데이터와 관련된 단어는,
    기존 단어와 중복되는 상기 이미지 데이터와 관련된 단어, 상기 음성 데이터에 포함된 단어와 유사도가 높은 상기 이미지 데이터와 관련된 단어, 상기 바이어스 키워드 단어에 가장 최근에 추가된 상기 이미지 데이터와 관련된 단어 또는 빈도 수가 낮은 상기 이미지 데이터와 관련된 단어 중 적어도 하나인, 전자 장치의 제어 방법.
  16. 제10항에 있어서,
    상기 오브젝트 및 문자를 추출하는 단계는,
    상기 이미지 데이터의 각 프레임으로부터 상기 오브젝트 및 문자를 추출하는, 전자 장치의 제어 방법.
  17. 제10항에 있어서,
    상기 식별하는 단계는,
    상기 추출된 오브젝트로부터 특징을 추출하고, 상기 추출된 특징에 기초하여 상기 추출된 오브젝트의 이름을 식별하는, 전자 장치의 제어 방법.
  18. 제10항에 있어서,
    상기 이미지 데이터의 프레임의 PSNR(Peak Signal to Noise Ratio)이 기 설정된 값을 초과하는 경우, 상기 이미지 데이터의 장면(scene)이 변경된 것으로 식별하는 단계;를 더 포함하는 전자 장치의 제어 방법.
  19. 이미지 데이터 및 음성 데이터를 포함하는 컨텐츠를 수신하는 단계;
    상기 이미지 데이터에 포함된 오브젝트 및 문자를 추출하는 단계;
    상기 추출된 오브젝트의 이름 및 상기 추출된 문자를 식별하는 단계;
    상기 식별된 오브젝트의 이름 및 상기 식별된 문자에 기초하여 상기 이미지 데이터와 관련된 단어를 포함하는 바이어스 키워드 리스트를 생성하는 단계;
    상기 생성된 바이어스 키워드 리스트 및 단어 간의 연관성이 학습된 언어 컨텍스처 모델(language contextual model)에 기초하여 상기 음성 데이터를 텍스트로 변환하는 단계; 및
    상기 텍스트로 변환된 음성 데이터를 자막으로 표시하는 단계;를 포함하는 전자 장치의 제어 방법을 수행하는 프로그램이 기록된 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020210017815A 2021-02-08 2021-02-08 전자 장치 및 그 제어 방법 KR20220114379A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210017815A KR20220114379A (ko) 2021-02-08 2021-02-08 전자 장치 및 그 제어 방법
PCT/KR2021/007818 WO2022169038A1 (ko) 2021-02-08 2021-06-22 전자 장치 및 그 제어 방법
US17/430,614 US11893980B2 (en) 2021-02-08 2021-06-22 Electronic apparatus and control method thereof
US18/392,369 US20240127805A1 (en) 2021-02-08 2023-12-21 Electronic apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210017815A KR20220114379A (ko) 2021-02-08 2021-02-08 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20220114379A true KR20220114379A (ko) 2022-08-17

Family

ID=82741246

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210017815A KR20220114379A (ko) 2021-02-08 2021-02-08 전자 장치 및 그 제어 방법

Country Status (3)

Country Link
US (2) US11893980B2 (ko)
KR (1) KR20220114379A (ko)
WO (1) WO2022169038A1 (ko)

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
JP2006525537A (ja) * 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
KR102013329B1 (ko) 2012-08-23 2019-08-22 삼성전자 주식회사 광학식 문자 판독기를 이용한 데이터 처리 방법 및 장치
US9542934B2 (en) 2014-02-27 2017-01-10 Fuji Xerox Co., Ltd. Systems and methods for using latent variable modeling for multi-modal video indexing
JP6647141B2 (ja) 2016-05-24 2020-02-14 日本放送協会 キーワードリスト生成装置、コンテンツ視聴装置、およびキーワードリスト生成プログラム
WO2018170671A1 (en) 2017-03-20 2018-09-27 Intel Corporation Topic-guided model for image captioning system
KR102235386B1 (ko) 2017-07-07 2021-04-01 삼성에스디에스 주식회사 장면전환 검출 장치 및 방법
KR101930940B1 (ko) 2017-07-20 2018-12-20 에스케이텔레콤 주식회사 영상 분석 장치 및 방법
KR102080315B1 (ko) 2018-06-01 2020-02-24 네이버 주식회사 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
KR102345625B1 (ko) 2019-02-01 2021-12-31 삼성전자주식회사 자막 생성 방법 및 이를 수행하는 장치
KR20200102309A (ko) 2019-02-21 2020-08-31 한국전자통신연구원 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
US11722739B2 (en) * 2021-07-02 2023-08-08 Datashapes, Inc. Navigating content by relevance

Also Published As

Publication number Publication date
US11893980B2 (en) 2024-02-06
US20230360645A1 (en) 2023-11-09
WO2022169038A1 (ko) 2022-08-11
US20240127805A1 (en) 2024-04-18

Similar Documents

Publication Publication Date Title
US11281709B2 (en) System and method for converting image data into a natural language description
US11450353B2 (en) Video tagging by correlating visual features to sound tags
US9208227B2 (en) Electronic apparatus, reproduction control system, reproduction control method, and program therefor
US8521007B2 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
CN109218629B (zh) 视频生成方法、存储介质和装置
US20170003933A1 (en) Information processing device, information processing method, and computer program
KR102127351B1 (ko) 사용자 단말 장치 및 그 제어 방법
US11030479B2 (en) Mapping visual tags to sound tags using text similarity
US20120130720A1 (en) Information providing device
KR102426089B1 (ko) 전자 장치 및 전자 장치의 요약 영상 생성 방법
CN106936830B (zh) 一种多媒体数据的播放方法和装置
US10880515B2 (en) Audio-video reproduction for closed caption display control based on multi-media content
KR20220114379A (ko) 전자 장치 및 그 제어 방법
KR20220143622A (ko) 전자 장치 및 그 제어 방법
CN115270808A (zh) 显示设备和语义理解方法
WO2021087773A1 (zh) 识别方法、装置、电子设备及存储介质
US20100204980A1 (en) Real-time translation system with multimedia display function and method thereof
KR102494591B1 (ko) 전자 장치, 그 제어 방법 및 전자 시스템
CN115086710A (zh) 视频播放方法、终端设备、装置、系统及存储介质

Legal Events

Date Code Title Description
A201 Request for examination