KR102345625B1

KR102345625B1 - 자막 생성 방법 및 이를 수행하는 장치

Info

Publication number: KR102345625B1
Application number: KR1020190013965A
Authority: KR
Inventors: 목정호; 송희준; 윤상혁
Original assignee: 삼성전자주식회사
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2021-12-31
Also published as: US20220012520A1; WO2020159140A1; KR20200095947A; US11893813B2

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 회로를 포함하는 통신 인터페이스, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하며, 프로세서는, 통신 인터페이스를 통해 컨텐츠를 획득하고, 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득하며, 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 컨텐츠에 포함된 음성 데이터를 대한 음성 인식을 수행하여 컨텐츠의 자막 데이터를 획득한다.

Description

자막 생성 방법 및 이를 수행하는 장치{Caption generation method and apparatus for performing the same}

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 영상 컨텐츠에 포함된 음성 데이터에 대한 음성 인식을 수행하여 자막 데이터를 생성하는 전자 장치 및 이의 제어 방법에 관한 것이다.

근래에는 인공 지능 시스템이 다양한 분야에서 이용되고 있다. 인공 지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습시키고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.

인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습시키는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다. 특히, 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다.

한편, 근래에는 영상 컨텐츠를 스트리밍 방식으로 제공하는 다양한 웹 사이트(예로, Youtube^TM)들이 존재한다. 이러한 웹 사이트들은 영상 컨텐츠에 대한 자동 음성 인식을 수행하여 자막 데이터를 생성하고, 생성된 자막 데이터를 영상 컨텐츠와 함께 제공하고 있다.

그러나, 종래와 같이, 영상 컨텐츠의 음성 데이터에 대한 음성 인식은 정확도가 높지 않은 단점이 있다. 특히, 기술적이고 전문적인 용어, 지역명이나 이름 등과 같은 고유 명사가 많이 쓰이는 영상 컨텐츠의 경우에는 음성 인식의 정확도가 점점 낮아지는 문제점이 존재한다.

따라서, 영상 컨텐츠의 음성 데이터에 대한 더욱 정확한 음성 인식을 수행하는 방안에 대한 모색이 요청된다.

본 개시의 목적은 영상 컨텐츠의 영상 데이터를 분석하여 영상 컨텐츠에 포한된 텍스트에 대한 정보를 획득하고, 획득된 텍스트에 대한 정보를 바탕으로 영상 컨텐츠의 음성 데이터에 대한 음성 인식을 수행하여 자막 데이터를 생성할 수 있는 전자 장치 및 이의 제어 방법을 제공함에 있다.

본 개시의 일 실시예에 따른, 전자 장치는, 회로를 포함하는 통신 인터페이스; 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및 상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하며, 상기 프로세서는, 상기 통신 인터페이스를 통해 컨텐츠를 획득하고, 상기 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득하며, 상기 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 상기 컨텐츠에 포함된 음성 데이터를 대한 음성 인식을 수행하여 상기 컨텐츠의 자막 데이터를 획득할 수 있다.

또한, 상기 프로세서는, 상기 컨텐츠에 포함된 영상 데이터에 대한 OCR(optical character reader)을 통해 상기 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다.

그리고, 상기 프로세서는, 상기 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 상기 제1 장면에 포함된 텍스트에 가중치를 부여하여 상기 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또한, 상기 프로세서는, 상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행할 수 있다.

그리고, 상기 프로세서는, 상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또한, 상기 프로세서는, 상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트의 출현 위치 및 텍스트 크기 중 적어도 하나를 바탕으로 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행할 수 있다.

그리고, 상기 프로세서는, 상기 컨텐츠를 분석하여 상기 컨텐츠의 유형을 판단하고, 상기 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하여 상기 음성 데이터를 대한 음성 인식을 수행할 수 있다.

또한, 상기 프로세서는, 상기 컨텐츠에 포함된 메타데이터를 분석하여 상기 컨텐츠의 유형을 판단할 수 있다.

그리고, 상기 프로세서는, 장면 이해를 위해 학습된 인공지능 모델에 상기 컨텐츠에 포함된 영상 데이터를 입력하여 상기 컨텐츠에 대한 정보를 획득하고, 상기 획득된 컨텐츠에 대한 정보를 바탕으로 상기 컨텐츠의 유형을 판단하는 전자 장치.

한편, 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법은, 컨텐츠를 획득하는 단계; 상기 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득하는 단계; 및 상기 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 상기 컨텐츠에 포함된 음성 데이터를 대한 음성 인식을 수행하여 상기 컨텐츠의 자막 데이터를 획득하는 단계;를 포함한다.

그리고, 상기 텍스트에 대한 정보를 획득하는 단계는, 상기 컨텐츠에 포함된 영상 데이터에 대한 OCR(optical character reader)을 통해 상기 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다.

또한, 상기 자막 데이터를 획득하는 단계는, 상기 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 상기 제1 장면에 포함된 텍스트에 가중치를 부여하여 상기 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행할 수 있다.

그리고, 상기 자막 데이터를 획득하는 단계는, 상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또한, 상기 자막 데이터를 획득하는 단계는, 상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행할 수 있다.

그리고, 상기 자막 데이터를 획득하는 단계는, 상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트의 출현 위치 및 텍스트 크기 중 적어도 하나를 바탕으로 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또한, 상기 자막 데이터를 획득하는 단계는, 상기 컨텐츠를 분석하여 상기 컨텐츠의 유형을 판단하는 단계; 및 상기 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하여 상기 음성 데이터를 대한 음성 인식을 수행하는 단계;를 포함할 수 있다.

그리고, 상기 판단하는 단계는, 상기 컨텐츠에 포함된 메타데이터를 분석하여 상기 컨텐츠의 유형을 판단할 수 있다.

또한, 상기 판단하는 단계는, 장면 이해를 위해 학습된 인공지능 모델에 상기 컨텐츠에 포함된 영상 데이터를 입력하여 상기 컨텐츠에 대한 정보를 획득하고, 상기 획득된 컨텐츠에 대한 정보를 바탕으로 상기 컨텐츠의 유형을 판단할 수 있다.

상술한 바와 같이, 영상 컨텐츠의 음성 데이터에 대한 음성 인식을 수행함에 있어 영상 컨텐츠에 포함된 텍스트를 반영하여 음성 인식을 수행함으로써, 영상 컨텐츠에 대한 더욱 정확한 음성 인식이 가능해 질 수 있게 된다.

도 1a는 종래의 영상 컨텐츠에 대한 음성 인식 결과를 설명하기 위한 도면,
도 1b는 본 개시의 일 실시예에 따른, 영상 컨텐츠에 대한 음성 인식 결과를 설명하기 위한 도면,
도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 나타내는 도면,
도 3a은 본 개시의 일 실시예에 따른, 음성 인식을 수행하기 위한 구성을 나타내는 도면,
도 3b는 본 개시의 다른 실시예에 따른, 음성 인식을 수행하기 위한 구성을 나타내는 도면,
도 4a는 본 개시의 일 실시예에 따른, 영상 컨텐츠의 제1 장면을 도시한 도면,
도 4b는 본 개시의 일 실시예에 따른, 영상 컨텐츠의 제2 장면을 도시한 도면,
도 4c는 본 개시의 일 실시예에 따른, 영상 컨텐츠의 제3 장면을 도시한 도면,
도 5a는 본 개시의 일 실시예에 따른, 강좌 컨텐츠의 장면을 도시한 도면,
도 5b는 본 개시의 일 실시예에 따른, 뉴스 컨텐츠의 장면을 도시한 도면,
도 6a는 본 개시의 일 실시예에 따른, 드라마 컨텐츠의 장면을 도시한 도면,
도 6b는 본 개시의 일 실시예에 따른, 스포츠 컨텐츠의 장면을 도시한 도면,
도 7은 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도,
도 8은 본 개시의 다른 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도,
도 9는 본 개시의 일 실시예에 따른, 인식 모델을 학습하고 이용하기 위한 전자 장치의 구성을 나타내는 블록도이다.

이하, 본 개시의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 개시의 다양한 실시예들에 따른 전자 장치는, 웹 서비스를 제공하기 위한 서버로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 사용자 휴대 단말로도 구현될 수 있다. 예를 들면, 전자 장치는 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

본 개시에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.

이하에서는 도면을 참조하여 본 발명에 대해 상세히 설명하기로 한다. 도 1a는 종래의 영상 컨텐츠에 대한 음성 인식 결과를 설명하기 위한 도면이다. 우선, 도 1a에 도시된 바와 같이, 종래에는 영상 컨텐츠에 대한 음성 인식을 수행할 경우, 영상 컨텐츠의 화면에 포함된 텍스트를 고려하지 않고 영상 컨텐츠에 대한 음성 인식을 수행하였다. 따라서, 종래에는 도 1a에 도시된 바와 같이, 영상 컨텐츠의 제1 화면에 대한 음성 인식 결과로 생성된 자막 데이터(10)로서 "basically extracting bag of engrams features do despite"를 출력하였다. 즉, "n-gram"이 정확한 음성 인식 결과이나, 일반적인 언어 모델을 이용한 결과로서 "engrams"이라는 잘못된 음성 인식 결과가 출력되었다.

도 1b는 본 개시의 일 실시예에 따른, 영상 컨텐츠에 대한 음성 인식 결과를 설명하기 위한 도면이다.

우선, 전자 장치(100)는 영상 데이터 및 음성 데이터를 포함하는 영상 컨텐츠를 획득할 수 있다. 이때, 영상 컨텐츠는 강좌 컨텐츠일 수 있으나, 이는 일 실시예에 불과할 뿐, 뉴스 컨텐츠, 드라마 컨텐츠, 스포츠 컨텐츠와 같은 다양한 컨텐츠로 구현될 수 있다.

전자 장치(100)는 영상 컨텐츠의 영상 데이터를 분석하여 영상 컨텐츠의 영상 속에 포함된 텍스트들에 대한 정보를 획득할 수 있다. 본 개시의 일 실시예로, 전자 장치(100)는 OCR(optical character reader)을 이용하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다. 또 다른 실시예로, 전자 장치(100)는 영상 속에 포함된 텍스트를 인식하도록 학습된 인공지능 모델을 이용하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다. 이때, 영상 속에 포함된 텍스트를 인식하도록 학습된 인공지능 모델은 CNN(Convolutional Neural Network) 모델일 수 있으나, 이는 일 실시예에 불과할 뿐, 다른 인공지능 모델로 구현될 수 있음은 물론이다.

이때, 텍스트에 대한 정보는 텍스트의 출현 빈도, 텍스트의 출현 시간, 텍스트의 출현 위치, 텍스트의 크기, 텍스트의 움직임과 같은 정보일 수 있으나, 이는 일 실시예에 불과할 뿐, 다른 텍스트에 대한 정보들 역시 포함될 수 있다. 예를 들어, 전자 장치(100)는 도 1b에 도시된 바와 같이, 영상 데이터의 분석을 통해 영상 컨텐츠의 화면 속에 "n-grams"(20)이라는 텍스트에 대한 정보를 획득할 수 있다.

전자 장치(100)는 획득된 영상 컨텐츠의 영상 속에 포함된 텍스트들에 대한 정보를 바탕으로 영상 컨텐츠의 음성 데이터에 대한 음성 인식을 수행하여 자막 데이터를 획득할 수 있다. 일 예로, 전자 장치(100)는 획득된 영상 컨텐츠의 영상 속에 포함된 텍스트들에 대한 정보를 바탕으로 영상 컨텐츠의 음성 데이터를 음향 모델 및 언어 모델에 입력하여 획득된 텍스트들에 대해 가중치를 부여하여 영상 컨텐츠의 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또 다른 예로, 전자 장치(100)는 획득된 영상 컨텐츠의 영상 속에 포함된 텍스트들에 대한 정보를 바탕으로 언어 모델을 학습시키고,영상 컨텐츠의 음성 데이터를 음향 모델 및 학습된 언어 모델에 입력하여 영상 컨텐츠의 음성 데이터에 대한 음성 인식을 수행할 수 있다.

예를 들어, 전자 장치(100)는 영상 컨텐츠의 화면 속에 포함된 "n-grams"(20)이라는 텍스트에 가중치를 부가하여 음성 인식을 수행하거나 영상 컨텐츠의 화면 속에 포함된 텍스트("n-grams"(20)를 포함)를 바탕으로 언어 모델을 학습시켜 음성 인식을 수행함으로써, 도 1b에 도시된 바와 같은, "basically extracting bag of n-grams features do despite"이라는 자막 데이터(30)를 획득할 수 있다.

이때, 전자 장치(100)는 영상 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 제1 장면에 포함된 텍스트에 가중치를 부여하여 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행할 수 있다. 즉, 전자 장치(100)는 음성 데이터에 대한 음성 인식을 수행할 때, 음성 인식을 수행하는 음성 데이터가 출력되는 동안 표시되는 영상 속에 포함된 텍스트에 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 전자 장치(100)는 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 전자 장치(100)는 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 전자 장치(100)는 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트의 출현 위치 및 텍스트 크기 중 적어도 하나를 바탕으로 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 예로, 전자 장치(100)는 텍스트의 출현 위치가 화면의 상단 또는 하단 중안 영역이거나 텍스트의 크기가 클수록 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또 다른 실시예로, 전자 장치(100)는 컨텐츠를 분석하여 컨텐츠의 유형을 판단하고, 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하여 음성 데이터를 대한 음성 인식을 수행할 수 있다. 이때, 전자 장치(100)는 컨텐츠에 포함된 메타데이터를 분석하여 컨텐츠의 유형을 판단하거나, 장면 이해를 위해 학습된 인공지능 모델에 상기 영상 데이터를 입력하여 컨텐츠에 대한 정보를 획득하고 획득된 컨텐츠에 대한 정보를 바탕으로 컨텐츠의 유형을 판단할 수 있다. 이때, 장면 이해를 위해 학습된 인공지능 모델은 영상 데이터를 입력하여 영상에 포함된 복수의 오브젝트에 대한 정보를 획득하도록 학습된 제1 모델(예로, CNN(Convolutional Neural Network) 모델 등) 및 복수의 오브젝트를 설명하기 위한 텍스트 정보를 획득하도록 학습된 제2 모델(예로, RNN(Recurrent Neural Network)등 )을 포함할 수 있으나, 이는 일 실시예에 불과할 뿐, 다른 학습된 인공지능 모델로 구현될 수 잇다..

그리고, 전자 장치(100)는 판단된 컨텐츠의 유형을 바탕으로 컨텐츠의 유형 속에 포함된 텍스트들에 높은 가중치를 부가하거나 컨텐츠의 유형에 포함된 텍스트들을 바탕으로 언어 모델을 학습하여 음성 인식을 수행할 수 있다.

한편, 전자 장치(100)는 상술한 바와 같은 화면 속에 포함된 텍스트에 대한 정보를 획득하거나 장면을 이해하기 위하여 인공지능 에이전트(Artificial intelligence agent)를 이용할 수 있다. 이때, 인공지능 에이전트는 AI(Artificial Intelligence) 기반의 서비스(예를 들어, 음성 인식 서비스, 비서 서비스, 번역 서비스, 검색 서비스 등)를 제공하기 위한 전용 프로그램으로서, 기존의 범용 프로세서(예를 들어, CPU) 또는 별도의 AI 전용 프로세서(예를 들어, GPU 등)에 의해 실행될 수 있다. 특히, 인공지능 에이전트는 후술할 다양한 모듈(예로, 음성 인식 시스템)을 제어할 수 있다.

도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 간략히 설명하기 위한 블록도이다. 도 2에 도시된 바와 같이, 전자 장치(100)는 통신 인터페이스(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다. 그러나 상술한 구성에 한정되는 것은 아니며, 전자 장치의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다. 예를 들어, 전자 장치가 사용자 단말로 구현되는 경우, 전자 장치(100)는 입력 인터페이스, 디스플레이, 스피커, 센서 등과 같은 다양한 구성들을 추가할 수 있음은 물론이다.

통신 인터페이스(110)는 회로를 포함하며, 외부 전자 장치와 통신을 수행할 수 있다. 한편, 통신 인터페이스(110)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다. 무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 일 실시예에 따르면, 무선 통신은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 무선 통신 또는 유선 통신이 수행되는 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.

특히, 통신 인터페이스(110)는 외부 장치(사용자 단말 장치 또는 외부 서버 등)로부터 영상 데이터 및 음성 데이터를 포함하는 영상 컨텐츠를 수신할 수 있다. 그리고, 통신 인터페이스(110)는 외부 장치의 요청에 따라 음성 인식을 통해 획득된 자막 데이터를 포함하는 영상 컨텐츠를 전송할 수 있다.

메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.

또한, 메모리(120)는 화면 속에 포함된 텍스트에 대한 정보를 획득하거나 장면을 이해하기 위한 인공지능 에이전트를 저장할 수 있다. 또한, 메모리(120)는 도 3a 또는 3b에 도시되 바와 같은 사용자 음성을 인식하기 위한 복수의 구성(또는 모듈)을 포함할 수 있다. 이에 대해서는 도 3a 및 도 3b를 참조하여 상세히 설명하기로 한다.

프로세서(130)는 디지털 신호를 처리하는 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(130)는 메모리(120)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(130)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.

특히, 프로세서(130)는 메모리(120)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(130)는 메모리(120)에 저장된 적어도 하나의 명령어를 실행함으로써, 통신 인터페이스(110)를 통해 영상 데이터와 음성 데이터를 포함하는 컨텐츠를 획득하고, 영상 데이터를 분석하여 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득하며, 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 음성 데이터를 대한 음성 인식을 수행하여 컨텐츠의 자막 데이터를 획득할 수 있다.

특히, 프로세서(130)는 영상 데이터에 대한 OCR(optical character reader)을 통해 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다. 또한, 프로세서(130)는 학습된 인공지능 모델에 영상 컨텐츠의 영상 데이터를 입력하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다.

또한, 프로세서(130)는 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 영상 컨텐츠의 영상 속에 포함된 텍스트에 대해 가중치를 부가하여 음성 인식을 수행할 수 있다. 구체적으로, 프로세서(130)는 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 상기 제1 장면에 포함된 텍스트에 가중치를 부여하여 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 프로세서(130)는 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 프로세서(130)는 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또한, 프로세서(130)는 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트의 출현 위치 및 텍스트 크기 중 적어도 하나를 바탕으로 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또한, 프로세서(130)는 컨텐츠의 영상 속에 포함된 텍스트를 바탕으로 음성 인식을 수행할 수 있을 뿐만 아니라, 컨텐츠를 분석하여 컨텐츠의 유형을 판단하고, 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하여 음성 데이터를 대한 음성 인식을 수행할 수 있다. 구체적으로, 프로세서(130)는 컨텐츠에 포함된 메타데이터를 분석하여 컨텐츠의 유형을 판단할 수 있다. 또는, 프로세서(130)는 장면 이해를 위해 학습된 인공지능 모델에 영상 데이터를 입력하여 컨텐츠에 대한 정보를 획득하고, 획득된 컨텐츠에 대한 정보를 바탕으로 상기 컨텐츠의 유형을 판단할 수 있다. 그리고, 프로세서(130)는 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하거나 판단된 컨텐츠의 유형과 관련된 텍스트를 바탕으로 언어 모델을 학습하여 컨텐츠의 음성 데이터에 대한 음성 인식을 수행할 수 있다.

도 3a은 본 개시의 일 실시예에 따른, 음성 인식을 수행하기 위한 구성을 나타내는 도면이다. 우선, 전자 장치(100)는 음성 인식을 수행하기 위하여, 특징 추출부(Feature Extraction unit)(310), 디코더(320), 음향 모델(330), 언어 모델(340), 텍스트 정보 획득부(350)를 포함할 수 있다.

특징 추출부(310)는 입력된 컨텐츠의 음성 데이터에서 특징을 추출할 수 있다. 특징 추출부(310)는 음성 데이터를 주파수 영역으로 변환하고, 노이즈를 제거할 수 있다. 특징 추출부(310)는 노이즈가 제거된 주파수 영역의 음성 데이터로부터 음성 처리를 수행하여 음성 인식을 위한 특징을 추출할 수 있다. 음성 인식을 위하여 주로 사용되는 특징은 LPC cepstrum, PLP cepstrum, Mel frequency cepstral coefficient (MFCC), 필터뱅크 에너지 등이 있다.

음향 모델(Acoustic models)(330)은 해당 언어의 음운 환경별 발음의 음향적 특성을 확률 모델로 대표 패턴을 저장하고 있는 모델을 말한다. 이때, 음향 모델은 확률 통계 방식인 HMM(Hidden Markov Model) 기반으로 이루어져 있으나, 이는 일 실시예에 불과할 뿐, HMM/DNN(Hidden Markov Model/Deep Neural Network) 방식 등과 같은 다양한 유형이 존재할 수 있다.

언어 모델(Language models)(340)은 사용자가 발성한 문장이 올바른 문장으로 인식되도록 단어들 간의 연결성을 텍스트 코퍼스(Text corpus)로부터 통계적인 방법으로 수집하여 구축한 모델을 말한다. 이때, 언어 모델은 N-Gram 언어 모델, Neural 언어 모델, 사용자 피드백을 기반하는 Rule based 언어 모델 중 하나일 수 있다.

텍스트 정보 획득부(350)는 영상 컨텐츠의 영상 데이터를 분석하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다. 이때, 텍스트 정보 획득부(350)는 OCR을 이용하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있으며, 학습된 인공지능 모델을 이용하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다. 특히, 텍스트 정보 획득부(350)는 영상 컨텐츠의 영상 속에 포함된 텍스트의 출현 빈도, 출현 시간, 출현 위치, 움직임 여부, 사이즈 등과 같은 다양한 정보를 획득할 수 있다.

또한, 텍스트 정보 획득부(350)는 입력된 영상 컨텐츠의 유형을 바탕으로 영상 컨텐츠와 관련된 텍스트에 대한 정보를 획득할 수 있다. 구체적으로, 텍스트 정보 획득부(350)는 입력된 영상 컨텐츠의 메타 데이터를 분석하거나 입력된 영상 컨텐츠를 학습된 인식 모델에 입력하여 영상 컨텐츠의 유형을 판단할 수 있다. 그리고, 텍스트 정보 획득부(350)는 판단된 영상 컨텐츠의 유형과 관련된 텍스트들에 대한 정보를 획득할 수 있다.

디코더(320)는 음향 모델(330) 및 언어 모델(340)을 이용하여 음성 데이터에 대한 음성 인식을 수행하고, 수행된 음성 인식 결과인 텍스트를 출력할 수 있다. 구체적으로, 디코더(320)는 음향 모델(330) 및 언어 모델(340)을 통해 특징 추출부(310)에서 추출한 음성 데이터의 특징에 대응되는 후보 텍스트들에 대한 정보를 획득할 수 있다. 이때, 디코더(320)는 텍스트 정보 획득부(350)를 통해 획득된 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 후보 텍스트들에 대해 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다.

즉, 디코더(320)는 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 제1 장면에 포함된 텍스트에 높은 가중치를 부여하거나 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하거나 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하거나 영상 데이터를 분석하여 획득된 컨텐츠의 영상 속에 포함된 텍스트 중 특정 위치(예로, 하단 중앙)에 표시된 텍스트에 높은 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다.

또한, 디코더(320)는 텍스트 정보 획득부(350)를 통해 획득된 영상 컨텐츠의 유형과 관련된 텍스트에 대한 정보를 바탕으로 후보 텍스트들에 대해 가중치를 부여하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 즉, 디코더(320)는 현재 재생되는 영상 컨텐츠의 유형을 바탕으로 영상 컨텐츠의 유형에 대응되는 텍스트에 높은 가중치를 부가하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 예로, 현재 영상 컨텐츠의 유형이 축구 컨텐츠라고 판단된 경우, 디코더(320)는 축구와 관련된 텍스트에 높은 가중치를 부가하여 음성 데이터에 대한 음성 인식을 수행할 수 있다.

한편, 도 3a에서는 디코더(320)가 텍스트 정보 획득부(350)를 통해 획득된 텍스트에 대한 정보를 바탕으로 복수의 후보 텍스트 중 영상 컨텐츠의 영상 속에 포함된 텍스트에 가중치를 부가하여 음성 인식을 수행하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 텍스트 정보 획득부(350)를 통해 획득된 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 학습된 언어 모델(340)을 통해 음성 데이터에 대한 음성 인식을 수행할 수 있다.

구체적으로, 텍스트 정보 획득부(350)는 도 3b에 도시된 바와 같이, 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보나 영상 컨텐츠의 유형과 관련된 텍스트에 대한 정보를 언어 모델(340)로 출력할 수 있다. 언어 모델(340)은 획득된 텍스트에 대한 정보를 바탕으로 학습을 수행할 수 있다, 즉, 언어 모델(340)은 획득된 텍스트에 대한 정보를 바탕으로 영상 컨텐츠의 영상 속에 포함된 텍스트나 영상 컨텐츠의 유형과 관련된 텍스트에 대한 통계적 확률이 높아지도록 학습될 수 있다. 디코더(320)는 음향 모델(330) 및 학습된 언어 모델(340)을 이용하여 특징 추출부(310)에서 추출된 음성 데이터의 특징에 대응되는 텍스트를 획득할 수 있다.

한편, 도 3a 및 도 3b에서는 음향 모델 및 언어 모델이 별개의 모델로 존재하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 음향 모델 및 언어 모델이 하나의 신경망 모델로 통합된 실시예에서도 본 개시의 기술적 사상이 적용될 수 있음은 물론이다.

도 4a 내지 도 4c는, 본 개시의 일 실시예에 따른, 강좌 컨텐츠의 제1 내지 제3 화면을 도시한 도면이다. 특히, 도 4a는 강좌 컨텐츠의 7분 16초에 제공되는 화면이며, 도 4b는 강좌 컨텐츠의 10분 54초에 제공되는 화면이며, 도 4c는 강좌 컨텐츠의 17분 28초에 제공되는 화면일 수 있다.

이때, 전자 장치(100)는 강좌 컨텐츠의 영상 데이터를 분석하여 강좌 컨텐츠에 포함된 텍스트에 대한 정보를 획득할 수 있다. 예로, 전자 장치(100)는 도 4a에 도시된 바와 같은 강좌 컨텐츠의 제1 화면 속에 n-grams(410)이라는 텍스트에 대한 정보를 획득할 수 있으며, 전자 장치(100)는 도 4b에 도시된 바와 같은 강좌 컨텐츠의 제2 화면 속에 n-grams(420,430)이라는 텍스트에 대한 정보를 획득할 수 있으며, 전자 장치(100)는 도 4c에 도시된 바와 같은 강좌 컨텐츠의 제3 화면 속에 n-grams(440)이라는 텍스트에 대한 정보를 획득할 수 있다. 이때, 텍스트에 대한 정보는 해당 텍스트의 출현 시간, 출현 지속 시간, 출현 빈도, 출현 위치, 사이즈 중 적어도 하나를 포함할 수 있다. 한편, 설명의 편의를 위하여, 강좌 컨텐츠 속에 포함된 "n-grams"이라는 단어를 예로 설명하는 것일 뿐, 다른 텍스트들에 대한 정보 역시 획득될 수 있다.

즉, 전자 장치(100)는 강좌 컨텐츠에 포함된 텍스트인 "n-grams"에 대한 정보를 바탕으로 강좌 컨텐츠의 음성 데이터에 대한 음성 인식을 수행할 수 있다.

특히, 강좌 컨텐츠의 제1 화면이 표시되는 동안 제공되는 음성 데이터를 음성 인식을 수행할 때, 전자 장치(100)는 제1 화면에 포함된 텍스트(예로, n-grams(410))에 높은 가중치를 부여하여 음성 인식을 수행할 수 있다.

또한, 전자 장치(100)는 강좌 컨텐츠에 포함된 텍스트의 출현 빈도 및 출현 시간을 바탕으로 가중치를 부여하여 음성 인식을 수행할 수 있다. 예로, 강좌 컨텐츠에서 "n-grams"라는 단어가 4회 출현하며, 3분 정도의 출현 시간을 가지는 경우, 전자 장치(100)는 "n-grams"의 출현 빈도 및 출현 시간에 대응되도록 가중치를 부여하여 음성 인식을 수행할 수 있다.

또한, 전자 장치(100)는 강좌 컨텐츠에 포함된 텍스트의 출현 위치 및 텍스트의 크기를 바탕으로 가중치를 부여하여 음성 인식을 수행할 수 있다. 예로, 강좌 컨텐츠의 제1 화면에서 "n-grams"이라는 단어의 위치가 상단에 위치하며, 글자크기가 30인 경우, 전자 장치(100)는 "n-grams"의 출현 위치 및 사이즈에 대응되도록 가중치를 부여하여 음성 인식을 수행할 수 있다.

한편, 도 4a에 도시된 제1 화면에 포함된 "n-grams"에 대한 정보가 제1 화면에 대응되는 음성 데이터를 인식할 때만 이용되는 것이 아닌 다른 화면(예로, 제2 화면, 제3 화면)에 포함된 음성 데이터를 인식할 때 이용될 수 있다. 즉, 제1 화면에 포함된 음성 데이터를 인식할 때, 도 4a 내지 도 4c에 도시된 바와 같은, 제1 내지 제3 화면에 포함된 텍스트에 대한 정보를 이용할 수 있다. 또한, 제1 화면에 "n-grams"이 포함되어 있지 않은 경우에도 제1 화면에 대응되는 음성 데이터를 인식할 때, 제2 내지 제3 화면에 포함된 텍스트에 대한 정보를 이용할 수 있다.

특히, 특정 화면이 표시되는 동안 출력되는 음성 데이터를 인식할 때, 텍스트가 출력하는 시점 및 텍스트의 크기/굵기 등을 바탕으로 상이한 가중치를 부여할 수 있다. 예를 들어, 제1 화면이 표시되는 동안 제1 화면의 표시 시점과 가까운 제1 화면의 "n-gram"(410), 제2 화면의 "n-gram"(420,430), 제3 화면의 "n-gram"(440) 순으로 가중치를 높게 설정할 수 있다. 또한, 크고 두껍게 쓰여진 제1 화면의 "n-gram"(410)과 제2 화면의 "n-gram"(420)을 제2 화면의 "n-gram"(430)과 제3 화면의 "n-gram"보다 높은 가중치를 설정할 수 있다. 즉, 제1 화면이 표시되는 동안 출력되는 음성 데이터에 대한 음성 인식을 수행할 때, "n-gram"(410), "n-gram"(420), "n-gram"(430), "n-gram"(440) 순으로 가중치를 높게 설정할 수 있다.

한편, 상술한 실시예에서는 텍스트의 출현 빈도, 출현 횟수, 출현 위치, 크기 등을 바탕으로 가중치를 부여한다고 설명하였으나 이는 일 실시예에 불과할 뿐, 텍스트의 다른 정보를 바탕으로 가중치를 부여할 수 있다. 예로, 전자 장치(100)는 텍스트의 이동 여부, 텍스트의 표시 방법(예로, 텍스트의 두께, 텍스트에 밑줄이 있는지 여부, 텍스트의 색 등)을 바탕으로 텍스트에 가중치를 부여하여 음성 인식을 수행할 수 있다.

따라서, 상술한 바와 같이, 강좌 컨텐츠의 영상 속에 포함된 텍스트에 가중치를 부여함으로써, 강좌 컨텐츠의 음성 데이터에 대한 음성 인식을 수행할 때, "n-grams"를 "engrams"로 잘못 인식하는 것을 방지할 수 있게 된다.

이하에서는 도 5a 내지 도 6b를 참조하여 본 개시의 다양한 실시예에 따른, 다양한 영상 컨텐츠의 영상에 포함된 텍스트에 대한 정보를 바탕으로 가중치를 부여하는 실시예에 대해 설명하기로 한다.

도 5a는 본 개시의 일 실시예에 따른, 강좌 컨텐츠의 장면을 도시한 도면이다. 도 5a에 도시된 바와 같이, 강좌 컨텐츠의 영상 속에 포함된 컨텐츠 중 화면 상단에 위치하며 큰 면적을 차지하고, 다른 텍스트보다 글자 크기가 큰 텍스트인 "Why Bag of n-grams?"(510)라는 텍스트가 화면의 중단 또는 하단에 위치하며 글자 크기가 작은 다른 텍스트들에 비해 높은 가중치가 부가될 수 있다.

도 5b는 본 개시의 일 실시예에 따른, 뉴스 컨텐츠의 장면을 도시한 도면이다. 도 5a에 도시된 바와 같이, 뉴스 컨텐츠의 영상 속에 포함된 컨텐츠 중 화면 하단에 위치하며 출현 지속 시간이 긴 텍스트인 "PRESIDENT'S BEEN THE BEST THING TO HAPPEN TO BOOK INDUSTRY"(520)라는 텍스트가 화면의 다른 곳에 위치하며 지속시간이 짧은 다른 텍스트들에 비해 높은 가중치가 부가될 수 있다.

도 6a는 본 개시의 일 실시예에 따른, 드라마 컨텐츠의 장면을 도시한 도면이다. 도 6a에 도시된 바와 같이, 드라마 컨텐츠에 포함된 텍스트 중 텍스트의 위치가 카메라의 움직임에 의해 고정되어 있지 않으며, 잠시 지나가는 배경에 포함된 텍스트(610)에는 낮은 가중치가 부가될 수 있다.

또한, 도 6b는 본 개시의 일 실시예에 따른, 스포츠 컨텐츠의 장면을 도시한 도면이다.도 6b에 도시된 바와 같이, 스포츠 컨텐츠에 포함된 텍스트 중 텍스트의 위치가 카메라의 위치에 의해 고정되어 있지 않으며, 잠시 지나가는 배경에 포함된 광고 텍스트(620)에는 낮은 가중치가 부가될 수 있다.

즉, 도 5a 내지 도 6b에서 설명한 바와 같이, 전자 장치(100)는 영상 컨텐츠의 화면 속에 포함된 텍스트의 크기, 출현 위치, 이동 여부, 출현 지속 시간 등을 바탕으로 영상 컨텐츠의 화면 속에 포함된 텍스트의 가중치를 상이하게 부가할 수 있다.

도 7은 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

우선, 전자 장치(100)는 영상 데이터와 음성 데이터를 포함하는 컨텐츠를 획득할 수 있다(S710). 이때, 전자 장치(100)는 외부 장치로부터 컨텐츠를 수신할 수 있으나, 이는 일 실시예에 불과할 뿐, 전자 장치(100) 내부의 카메라를 통해 영상 데이터 및 음성 데이터를 포함하는 컨텐츠를 획득할 수 있음은 물론이다.

전자 장치(100)는 영상 데이터를 분석하여 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다(S720). 구체적으로, 전자 장치(100)는 컨텐츠의 영상 데이터에 대해 OCR을 수행하여 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다. 또는 전자 장치(100)는 학습된 인공지능 모델에 컨텐츠의 영상 데이터를 입력하여 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득할 수 있다.

전자 장치(100)는 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 음성 데이터에 대한 음성 인식을 수행하여 자막 데이터를 획득할 수 있다(S730). 구체적으로, 전자 장치(100)는 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 컨텐츠의 영상 속에 포함된 텍스트에 높은 가중치를 부가하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 특히, 전자 장치(100)는 컨텐츠의 영상 속에 포함된 텍스트의 출현 시간, 출현 위치, 출현 지속 시간, 사이즈, 이동 여부 등을 바탕으로 가중치를 부가하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또 다른 예로, 전자 장치(100)는 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 바탕으로 언어 모델을 학습시키고, 학습된 언어 모델을 이용하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 전자 장치(100)는 음성 인식을 통해 획득된 텍스트 데이터를 자막 데이터로 생성할 수 있으며, 사용자 요청 또는 외부 전자 장치의 요청에 따라 자막 데이터를 출력할 수 있다.

도 8은 본 개시의 다른 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

우선, 전자 장치(100)는 영상 데이터와 음성 데이터를 포함하는 컨텐츠를 획득할 수 있다(S810).

전자 장치(100)는 컨텐츠를 분석하여 컨텐츠의 유형을 판단할 수 있다(S820). 구체적으로, 전자 장치(100)는 컨텐츠의 메타 데이터를 바탕으로 컨텐츠의 유형을 판단할 수 있으며, 장면 이해를 위해 학습된 인공지능 모델에 영상 데이터를 입력하여 컨텐츠의 유형을 판단할 수 있다.

전자 장치(100)는 컨텐츠의 유형을 바탕으로 음성 데이터에 대한 음성 인식을 수행하여 컨텐츠의 자막 데이터를 획득할 수 있다(S830). 구체적으로, 전자 장치(100)는 컨텐츠의 유형과 관련된 텍스트에 가중치를 부가하여 컨텐츠의 음성 데이터에 대한 음성 인식을 수행할 수 있다. 또 다른 예로, 전자 장치(100)는 컨텐츠의 유형과 관련된 텍스트를 바탕으로 언어 모델을 학습시키고, 학습된 언어 모델을 이용하여 음성 데이터에 대한 음성 인식을 수행할 수 있다. 전자 장치(100)는 음성 인식을 통해 획득된 텍스트 데이터를 자막 데이터로 생성할 수 있으며, 사용자 요청 또는 외부 전자 장치의 요청에 따라 자막 데이터를 출력할 수 있다.

한편, 상술한 실시예에서는 음성 데이터와 자막 데이터가 동일한 언어일 때를 가정하여 설명하였으나, 이는 일 실시예에 불과할 뿐, 음성 데이터와 자막 데이터가 서로 상이한 언어일 때 역시 본 발명의 기술적 사상이 적용될 수 있다.

구체적으로, 획득하고자 하는 자막 데이터의 언어 유형과 화면 속에 포함된 텍스트의 언어 유형이 동일하고 컨텐츠에 포함된 음성 데이터의 언어 유형이 상이한 경우, 전자 장치(100)는 컨텐츠에 포함된 음성 데이터를 인식하여 제1 언어의 텍스트 데이터를 획득하고, 제1 언어의 텍스트 데이터 및 화면속에 포함된 제2 언어의 텍스트를 바탕으로 제1 언어의 텍스트 데이터를 제2 언어의 자막 데이터로 번역할 수 있다. 예로, 컨텐츠에 포함된 음성 데이터가 영어이고 영상속에 포함된 텍스트가 한국어 이며 한국어 자막 데이터를 획득하는 경우, 전자 장치(100)는 음성 데이터를 인식하여 영어의 텍스트 데이터를 획득하고, 영어의 텍스트 데이터 및 화면 속에 포함된 한국어 텍스트를 바탕으로 영어의 텍스트 데이터를 한국어 자막 데이터로 번역하여 제공할 수 있다.

즉, 화면 속에 포함된 텍스트와 음성 데이터가 서로 상이한 경우, 전자 장치(100)는 언어가 서로 상이하기 때문에 음성 인식을 수행할 때 화면 속에 포함된 텍스트 데이터를 이용하지 않을 수 있다. 경우에 따라, 전자 장치(100)는 화면 속에 포함된 텍스트와 음성 데이터가 서로 상이할 때 화면 속에 포함된 텍스트를 획득하기 위해 영상 처리를 수행하지 않을 수 있다.

또한, 화면 속에 포함된 텍스트와 음성 데이터가 서로 상이한 경우, 전자 장치(100)는 번역을 수행할 수 때 영상 속의 텍스트를 이용할 수 있다.

뿐만 아니라, 화면 속에 포함된 텍스트와 음성 데이터가 서로 상이한 경우, 전자 장치(100)는 화면 속에 포함된 텍스트를 획득할 때, 하나의 텍스트를 다양한 언어로 저장할 수 있다. 예로, 화면 속에 포함된 텍스트가 영어인 경우, 전자 장치(100)는 영어의 텍스트를 동일한 뜻의 한국어, 일본어, 중국어로 저장할 수 있다. 이때, 다양한 형태로 저장된 언어는 추후 텍스트를 번역할 때 이용될 수 있다.

한편, 획득하고자 하는 자막 데이터의 언어 유형이 화면 속에 포함된 텍스트의 언어 유형 및 컨텐츠에 포함된 음성 데이터의 언어 유형과 상이한 경우, 전자 장치(100)는 컨텐츠에 포함된 제1 언어의 음성 데이터 및 화면 속에 포함된 제1 언어의 텍스트를 바탕으로 음성 인식을 수행하고, 음성 인식된 제1 언어의 텍스트 데이터를 번역하여 제2 언어의 자막 데이터를 획득할 수 있다. 예로, 컨텐츠에 포함된 음성 데이터가 영어이고 영상속에 포함된 텍스트가 영어이며 한국어 자막 데이터를 획득하는 경우, 전자 장치(100)는 음성 데이터 및 화면 속에 포함된 텍스트를 바탕으로 음성 데이터를 인식하여 영어의 텍스트 데이터를 획득하며, 영어의 텍스트 데이터를 번역하여 한국어 자막 데이터를 획득할 수 있다.

도 9는 본 개시의 일 실시예에 따른, 인식 모델을 학습하고 이용하기 위한 전자 장치(특히, 프로세서)의 구성을 나타내는 블록도이다. 도 9를 참조하면, 전자 장치(100)는 학습부(910) 및 인식부(920) 중 적어도 하나를 포함할 수 있다.

학습부(910)는 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득하기 위한 인식 모델 및 장면 이해를 위한 인식 모델을 생성 또는 학습시킬 수 있다. 학습부(910)는 수집된 학습 데이터를 이용하여 판단 기준을 갖는 인식 모델을 생성할 수 있다.

일 예로, 학습부(910)는 텍스트를 포함하는 영상 데이터를 학습 데이터로서 이용하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득하는 기준을 판단하기 위한 인공지능 모델을 생성, 학습 또는 갱신시킬 수 있다.

또 다른 예로, 학습부(910)는 영상 데이터를 학습 데이터로서 이용하여 장면 이해를 수행하는 기준을 판단하기 위한 인공지능 모델을 생성, 학습 또는 갱신시킬 수 있다.

인식부(920)는 소정의 데이터를 학습된 인식 모델의 입력 데이터로 사용하여, 소정의 데이터에 포함된 인식 대상 또는 상황을 추정할 수 있다.

일 예로, 인식부(920)는 텍스트를 포함하는 영상 데이터를 학습된 인공지능 모델의 입력 데이터로서 이용하여 영상 컨텐츠의 영상 속에 포함된 텍스트에 대한 정보를 획득(또는, 추정, 추론)할 수 있다.

다른 예로, 인식부(920)는 영상 데이터를 학습된 인공지능 모델에 적용하여 영상 데이터의 장면에 대한 정보를 획득(또는, 추정, 추론)할 수 있다.

학습부(910)의 적어도 일부 및 인식부(920)의 적어도 일부는, 소프트웨어 모듈로 구현되거나 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 학습부(910) 및 인식부(920) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치 또는 객체 인식 장치에 탑재될 수도 있다. 이때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다. 학습부(910) 및 인식부(920)가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

이 경우, 학습부(910) 및 인식부(920)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 학습부(910) 및 인식부(920) 중 하나는 전자 장치(100)에 포함되고, 나머지 하나는 다른 외부 장치(예로, 외부 서버)에 포함될 수 있다. 또한, 학습부(910) 및 인식부(920)는 유선 또는 무선으로 통하여, 학습부(910)가 구축한 모델 정보를 인식부(920)로 제공할 수도 있고, 학습부(910)로 입력된 데이터가 추가 학습 데이터로서 학습부(910)로 제공될 수도 있다. 또한, 학습부(910) 및 인식부(920) 중 적어도 하나는 복수의 장치에 의해 분산처리되는 형태로 구현될 수 있다. 예로, 학습부(910) 및 인식부(920) 중 적어도 하나는 서버, 분산 저장매체, 분산 처리 서버등을 통해 복수의 장치에 의해 분산되어 처리되며 저장될 수 있다. 또한, 전자 장치(100)는 인식부(290)만을 구비할 수 있다. 이때, 전자 장치(100)는 타 장치에 구비된 학습부(910)를 통해 학습된 텍스트 인식을 위한 인공지능 모델을 수신하고, 수신된 인공지능 모델을 바탕으로 컨텐츠의 영상 속에 포함된 텍스트를 인식할 수 있다.

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

110: 통신 인터페이스 120: 메모리
130: 프로세서

Claims

전자 장치에 있어서,
회로를 포함하는 통신 인터페이스;
적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및
상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하며,
상기 프로세서는,
상기 통신 인터페이스를 통해 컨텐츠를 획득하고,
상기 컨텐츠의 영상에 포함된 텍스트에 대한 정보를 획득하며,
상기 컨텐츠의 영상에 포함된 텍스트의 출현 시간, 출현 위치 및 텍스트 크기 중 적어도 하나를 바탕으로 상기 컨텐츠의 영상에 포함된 텍스트에 대한 정보에 가중치를 부여하고,
상기 가중치가 부여된 텍스트에 대한 정보를 바탕으로 상기 컨텐츠에 포함된 음성 데이터에 대한 음성 인식을 수행하여 상기 컨텐츠의 자막 데이터를 획득하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠에 포함된 영상 데이터에 대한 OCR(optical character reader)을 통해 상기 컨텐츠의 영상에 포함된 텍스트에 대한 정보를 획득하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 상기 제1 장면에 포함된 텍스트에 가중치를 부여하여 상기 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행하는 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행하는 전자 장치.
삭제
제1항에 있어서,
상기 프로세서는,
상기 컨텐츠를 분석하여 상기 컨텐츠의 유형을 판단하고, 상기 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하여 상기 음성 데이터를 대한 음성 인식을 수행하는 전자 장치.
제7항에 있어서,
상기 프로세서는,
상기 컨텐츠에 포함된 메타데이터를 분석하여 상기 컨텐츠의 유형을 판단하는 전자 장치.
제7항에 있어서,
상기 프로세서는,
장면 이해를 위해 학습된 인공지능 모델에 상기 컨텐츠에 포함된 영상 데이터를 입력하여 상기 컨텐츠에 대한 정보를 획득하고, 상기 획득된 컨텐츠에 대한 정보를 바탕으로 상기 컨텐츠의 유형을 판단하는 전자 장치.
전자 장치의 제어 방법에 있어서,
컨텐츠를 획득하는 단계;
상기 컨텐츠의 영상에 포함된 텍스트에 대한 정보를 획득하는 단계; 및
상기 컨텐츠의 영상에 포함된 텍스트의 출현 시간, 출현 위치 및 텍스트 크기 중 적어도 하나를 바탕으로 상기 컨텐츠의 영상에 포함된 텍스트에 대한 정보에 가중치를 부여하는 단계;
상기 가중치가 부여된 텍스트에 대한 정보를 바탕으로 상기 컨텐츠에 포함된 음성 데이터에 대한 음성 인식을 수행하여 상기 컨텐츠의 자막 데이터를 획득하는 단계;를 포함하는 제어 방법.
제10항에 있어서,
상기 텍스트에 대한 정보를 획득하는 단계는,
상기 컨텐츠에 포함된 영상 데이터에 대한 OCR(optical character reader)을 통해 상기 컨텐츠의 영상에 포함된 텍스트에 대한 정보를 획득하는 제어 방법.
제10항에 있어서,
상기 자막 데이터를 획득하는 단계는,
상기 컨텐츠의 영상 중 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 동안 상기 제1 장면에 포함된 텍스트에 가중치를 부여하여 상기 제1 장면에 대응되는 음성 데이터에 대한 음성 인식을 수행하는 제어 방법.
제10항에 있어서,
상기 자막 데이터를 획득하는 단계는,
상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상에 포함된 텍스트 중 출현 시간이 길거나 출현 횟수가 많은 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행하는 제어 방법.
제10항에 있어서,
상기 자막 데이터를 획득하는 단계는,
상기 컨텐츠에 포함된 영상 데이터를 분석하여 획득된 상기 컨텐츠의 영상 속에 포함된 텍스트 중 고정된 위치에 표시된 텍스트에 높은 가중치를 부여하여 상기 음성 데이터에 대한 음성 인식을 수행하는 제어 방법.
삭제
제10항에 있어서,
상기 자막 데이터를 획득하는 단계는,
상기 컨텐츠를 분석하여 상기 컨텐츠의 유형을 판단하는 단계; 및
상기 판단된 컨텐츠의 유형과 관련된 텍스트에 가중치를 부여하여 상기 음성 데이터를 대한 음성 인식을 수행하는 단계;를 포함하는 제어 방법.
제16항에 있어서,
상기 판단하는 단계는,
상기 컨텐츠에 포함된 메타데이터를 분석하여 상기 컨텐츠의 유형을 판단하는 제어 방법.
제16항에 있어서,
상기 판단하는 단계는,
장면 이해를 위해 학습된 인공지능 모델에 상기 컨텐츠에 포함된 영상 데이터를 입력하여 상기 컨텐츠에 대한 정보를 획득하고, 상기 획득된 컨텐츠에 대한 정보를 바탕으로 상기 컨텐츠의 유형을 판단하는 제어 방법.