KR102541008B1

KR102541008B1 - 화면해설 컨텐츠를 제작하는 방법 및 장치

Info

Publication number: KR102541008B1
Application number: KR1020220075159A
Authority: KR
Inventors: 김두현
Original assignee: 김두현
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2023-06-13

Abstract

본 개시의 일구현예에 따르면, 원본파일의 비디오에 포함된 프레임에 포함된 물체를 인식하고 종류를 구별하고 위치를 인식하며, 상기 프레임에 상기 물체의 종류와 위치를 표시하는 마킹을 수행하여 마킹된 프레임을 출력하는 물체인식단계, 상기 마킹된 프레임의 물체의 종류에 기초하여 장면이 전환되는지 판단하고, 하나의 장면의 처음과 끝을 결정하는 장면인식단계, 상기 장면에 포함되는 물체가 움직이지 않는 정적상태인지 움직이는 동적상태인지 판단하고 상기 마킹된 프레임에 추가로 물체의 상태를 마킹하는 상태인식단계, 상기 장면에 포함되는 복수의 마킹된 프레임을 분석하여, 물체에 매칭되어 있는 설명을 조합하여 상기 장면에 해당하는 설명을 생성하는 설명생성단계, 상기 생성된 설명을 TTS 모델을 이용하여 화면해설 음성으로 변환하는 TTS 단계, 및 상기 원본파일의 오디오와 상기 화면해설 음성을 합성하여 화면해설 오디오를 생성하는 편집단계를 포함하는, 화면해설 컨텐츠를 제작하는 방법을 제공하여, 더 많은 컨텐츠에 화면해설 서비스가 적용되도록 할 수 있다.

Description

화면해설 컨텐츠를 제작하는 방법 및 장치{Method and apparatus for producing descriptive video contents}

본 개시는 화면해설 컨텐츠를 제작하는 방법 및 장치에 관한 것이다.

시각장애인의 컨텐츠 접근성을 향상시키기 위하여 화면해설 서비스(Descriptive Video Service, DVS)가 제공되고 있다. 화면해설 서비스는 TV 프로그램, 영화, 연극 등의 매체에서 시각장애인이 인지하기 어려운 행동, 의상, 환경, 등의 시각적 요소들을 언어로 표현하여 음성으로 설명해주는 것이다. 화면해설 서비스를 제공하기 위해서는 영상 컨텐츠의 시각적 요소들을 표현하는 오디오 트랙을 생성하여야 한다. 작가는 화면해설 대본을 작성하고, 나레이터는 대본을 녹음하며, 녹음된 대본을 영상 컨텐츠에서 대사가 없는 구간에 배치하는 편집을 수행한다. 이러한 과정은 노동력과 시간이 많이 소요되는 작업이어서 화면해설 서비스의 보급이 어려운 원인이 된다.

KR

10-1907957

B1

본 개시는 인간의 개입 없이 자동으로 이미지에 나타나는 사물들을 인식하고 동적 또는 정적 상태를 판단하여 상황에 대응하는 설명을 조합하여 설명을 생성하여 화면해설 컨텐츠를 생성하는 방법 및 장치를 제공하는 것이다.

본 개시의 제1 관점(first aspect)에 따른 화면해설 컨텐츠를 제작하는 방법은, 원본파일의 비디오에 포함된 프레임에 포함된 물체를 인식하고 종류를 구별하고 위치를 인식하며, 상기 프레임에 상기 물체의 종류와 위치를 표시하는 마킹을 수행하여 마킹된 프레임을 출력하는 물체인식단계, 상기 마킹된 프레임의 물체의 종류에 기초하여 장면이 전환되는지 판단하고, 하나의 장면의 처음과 끝을 결정하는 장면인식단계, 상기 장면에 포함되는 물체가 움직이지 않는 정적상태인지 움직이는 동적상태인지 판단하고 상기 마킹된 프레임에 추가로 물체의 상태를 마킹하는 상태인식단계, 상기 장면에 포함되는 복수의 마킹된 프레임을 분석하여, 물체에 매칭되어 있는 설명을 조합하여 상기 장면에 해당하는 설명을 생성하는 설명생성단계, 상기 생성된 설명을 TTS 모델을 이용하여 화면해설 음성으로 변환하는 TTS 단계, 및 상기 원본파일의 오디오와 상기 화면해설 음성을 합성하여 화면해설 오디오를 생성하는 편집단계를 포함할 수 있다.

일 구현예(one embodyment)에 따르면, 상기 물체인식단계는 상기 원본파일의 비디오의 복수의 프레임을 물체인식모델에 순서대로 입력하고, 상기 물체인식모델이 출력하는 마킹된 프레임을 순서대로 정리하여 마킹된 비디오를 획득할 수 있다.

일 구현예에 따르면, 상기 물체인식모델은 물체의 이미지가 학습데이터이고 물체의 종류가 라벨인 학습데이터 세트를 이용하여 학습되는 CNN 구조의 인공지능 모델이며, 이미지를 입력받으면 이미지에 포함된 물체를 인식하고, 인식한 물체의 종류를 판단하고, 물체를 둘러싸고 종류가 표시된 박스를 상기 이미지에 마킹하여 출력할 수 있다.

일 구현예에 따르면, 상기 장면인식단계는 상기 마킹된 프레임에 포함된 물체의 종류를 다음 마킹된 프레임에 포함된 물체의 종류와 비교하여 장면이 전환된 것인지 판단하고, 장면의 시작과 끝을 결정할 수 있다.

일 구현예에 따르면, 상기 마킹된 프레임에서 상기 물체를 둘러싸도록 표시되는 박스의 중심점을 물체의 위치로 인식하고, 물체의 위치가 마킹된 프레임 사이에서 이동하지 않으면 정적상태로 구분하고, 물체의 위치가 마킹된 프레임 사이에서 정해진 화소 이상으로 이동하면 동적상태로 구분하며, 상기 물체가 동적상태 또는 정적상태로 구분되면 상기 프레임에 동적상태 또는 정적상태를 추가할 수 있다.

일 구현예에 따르면, 상기 설명생성단계는 상기 장면에 포함된 복수의 마킹된 프레임의 물체들 중에서 정적상태인 물체들의 종류 및 위치를 배경설명 생성모델에 입력하고, 배경설명 생성모델이 출력하는 문장을 상기 장면의 배경에 관한 설명으로 출력하며, 상기 장면에 포함된 복수의 마킹된 프레임을 행동설명 생성모델에 입력하고, 행동설명 생성모델이 출력하는 문장을 상기 장면의 행동에 관한 설명으로 출력할 수 있다.

일 구현예에 따르면, 상기 배경설명 생성모델은 정적상태의 물체의 위치와 종류가 표시된 이미지가 학습데이터이고, 이미지의 배경을 설명하는 문장이 라벨인 학습데이터 세트로 학습된 인공지능 모델이며, 물체의 종류와 위치가 마킹된 이미지가 입력되면 이미지가 해당하는 배경을 설명하는 문장을 출력할 수 있다.

일 구현예에 따르면, 상기 행동설명 생성모델은 연속된 복수의 프레임 내에서 동적상태의 물체가 정적상태의 물체 및 다른 동적상태의 물체 사이의 상대적인 위치변화를 학습하도록, 복수의 물체의 위치와 종류의 연속된 데이터가 학습데이터이고, 동적상태의 물체를 표현하는 문장이 라벨인 학습데이터 세트로 학습된 인공지능 모델이며, 물체의 종류와 위치의 데이터가 연속으로 입력되면 동적상태의 물체의 행동을 설명하는 문장을 출력할 수 있다.

일 구현예에 따르면, 상기 편집단계는 상기 장면의 시작인 프레임이 상기 오디오의 비대사구간인 경우 상기 장면을 설명하는 화면해설 음성을 상기 비대사구간에 삽입 및 합성하여 화면해설 오디오를 생성할 수 있다.

일 구현예에 따르면, 상기 편집단계는 상기 장면의 시작인 프레임이 상기 오디오의 대사구간인 경우, 상기 장면의 시작인 프레임이 상기 대사구간의 전반부이면 상기 대사구간의 직전의 비대사구간에 상기 화면해설 음성을 삽입 및 합성하여 화면해설 오디오를 생성하고, 상기 장면의 시작인 프레임이 상기 대사구간의 후반부이면 상기 대사구간의 직후의 비대사구간에 상기 화면해설 음성을 삽입 및 합성하여 화면해설 오디오를 생성할 수 있다.

일 구현예에 따르면, 상기 편집단계는 상기 화면해설 음성의 길이가 상기 비대사구간의 길이보다 긴 경우, 상기 화면해설 음성이 시작되는 프레임을 상기 화면해설 음성의 길이와 상기 비대사구간의 길이의 차이만큼 복사하여 상기 화면해설 음성이 시작되는 프레임부터 삽입한 화면해설 비디오를 생성할 수 있다.

일 구현예에 따르면, 상기 편집단계는 상기 화면해설 음성의 길이가 상기 비대사구간의 길이보다 긴 경우, 상기 장면에 포함된 다른 비대사구간의 일부 및 상기 다른 비대사구간에 해당하는 비디오의 일부를 제거하여, 원본파일의 재생시간과 화면해설파일의 재생시간이 동일하도록 조절할 수 있다.

본 개시의 제1 관점에 따른 화면해설 컨텐츠를 제작하는 방법은, 사용자가 마킹된 비디오를 검토하여 물체의 종류를 수정하여 입력하면, 마킹된 물체의 이미지를 추출하여 학습데이터에 추가하고, 수정된 물체의 종류를 라벨에 추가하여 물체인식모델을 재학습시키는 제1 업데이트단계를 더 포함할 수 있다.

본 개시의 제1 관점에 따른 화면해설 컨텐츠를 제작하는 방법은, 사용자가 화면해설 오디오를 검토하여 배경의 설명을 수정하여 입력하면, 수정된 정적상태의 물체의 위치와 종류가 표시된 이미지를 추출하여 학습데이터에 추가하고, 수정된 배경을 설명하는 문장을 라벨에 추가하여 배경설명 생성모델을 재학습시키는 제2 업데이트단계, 및 사용자가 화면해설 오디오를 검토하여 행동의 설명을 수정하여 입력하면, 수정된 장면에 포함된 복수의 프레임들로부터 복수의 물체들의 위치와 종류가 표시된 복수의 연속된 데이터를 추출하여 학습데이터에 추가하고, 수정된 행동을 설명하는 문장을 라벨에 추가하여 행동설명 생성모델을 재학습시키는 제3 업데이트단계를 더 포함할 수 있다.

본 개시의 제2 관점(second aspect)에 따른 저장매체는, 전자장치가 읽을 수 있는 프로그램 코드를 저장하는 저장매체에 있어서, 상기 프로그램 코드는 청구항 1 내지 11 중에서 어느 한 항의 화면해설 컨텐츠를 제작하는 방법을 수행하도록 작성된 것일 수 있다.

본 개시의 제3 관점(third aspect)에 따른 화면해설 컨텐츠를 제작하는 장치는, 프로그램 코드를 저장하는 저장부, 상기 저장부로부터 상기 프로그램 코드를 읽어서 실행하는 프로세서를 포함하며, 상기 프로그램 코드는 청구항 1 내지 11 중에서 어느 한 항의 화면해설 컨텐츠를 제작하는 방법을 수행하도록 작성된 것일 수 있다.

본 개시의 특징 및 이점들은 첨부도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다.

이에 앞서 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이고 사전적인 의미로 해석되어서는 아니 되며, 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야만 한다.

본 개시는 인간의 개입 없이 자동으로 이미지에 나타나는 사물들을 인식하고 동적 또는 정적 상태를 판단하여 상황에 대응하는 설명을 조합하여 설명을 생성하여 화면해설 컨텐츠를 생성하므로, 화면해설 서비스가 적용되는 컨텐츠의 범위를 넓혀 시각장애인의 컨텐츠 접근성을 향상시킬 수 있다.

도 1은 일 구현예에 따른 화면해설 컨텐츠를 제작하는 방법의 각 단계를 나타내는 흐름도이다.
도 2는 일 구현예에 따른 화면해설 컨텐츠를 제작하는 장치를 나타내는 도면이다.
도 3은 일 구현예에 따른 화면해설 컨텐츠를 제작하는 장치의 동작을 나타내는 도면이다.
도 4는 일 구현예에 따른 원본파일의 구조를 나타내는 도면이다.
도 5는 일 구현예에 따른 프레임과 마킹된 프레임을 나타내는 도면이다.
도 6은 일 구현예에 따른 장면의 전환을 나타내는 도면이다.
도 7은 일 구현예에 따른 동적상태 또는 정적상태의 인식을 나타내는 도면이다.
도 8은 일 구현예에 따른 장면의 설명을 나타내는 도면이다.
도 9는 일 구현예에 따른 편집을 설명하는 도면이다.
도 10 및 도 11은 일 구현예에 따른 편집을 설명하는 도면이다.

본 개시의 목적, 장점, 및 특징들은 첨부된 도면들과 연관되는 이하의 상세한 설명과 바람직한 구현예들로부터 더욱 명백해질 것이나, 본 개시가 반드시 이에 한정되는 것은 아니다. 또한, 본 개시를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.

도면의 구성요소들에 참조부호를 부여함에 있어서, 동일한 구성 요소들은 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조부호가 부여되고, 유사한 구성요소에 대해서는 유사한 참조부호가 부여됨에 유의하여야 한다.

본 개시의 일 구현예를 설명하기 위해 사용한 용어는 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 달리 명시하지 않는 한 복수의 표현을 포함한다는 것을 알아야 한다.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

이하, 첨부된 도면을 참조하여, 본 개시의 일 구현예를 상세히 설명한다.

도 1은 일 구현예에 따른 화면해설 컨텐츠를 제작하는 방법의 각 단계를 나타내는 흐름도이다.

화면해설 컨텐츠를 제작하는 방법은, 원본파일(10)의 비디오(11)에 포함된 프레임(11F)에 포함된 물체(Ob)를 인식하고 종류를 구별하고 위치를 인식하며, 프레임(11F)에 물체(Ob)의 종류와 위치를 표시하는 마킹을 수행하여 마킹된 프레임(13F)을 출력하는 물체인식단계(S10), 마킹된 프레임(13F)의 물체(Ob)의 종류에 기초하여 장면이 전환되는지 판단하고, 하나의 장면의 처음과 끝을 결정하는 장면인식단계(S20), 장면에 포함되는 물체(Ob)가 움직이지 않는 정적상태인지 움직이는 동적상태인지 판단하고 마킹된 프레임(13F)에 추가로 물체의 상태를 마킹하는 상태인식단계(S30), 장면에 포함되는 복수의 마킹된 프레임(13F)을 분석하여, 물체(Ob)에 매칭되어 있는 설명을 조합하여 장면에 해당하는 설명을 생성하는 설명생성단계(S40), 생성된 설명을 TTS 모델(340)을 이용하여 화면해설 음성(15)으로 변환하는 TTS 단계(S50), 및 원본파일(10)의 오디오(12)와 화면해설 음성(15)을 합성하여 화면해설 오디오(21)를 생성하는 편집단계(S60)를 포함할 수 있다.

본 개시의 일 구현예에 따른 화면해설 컨텐츠를 제작하는 방법은 컴퓨터 장치에서 구동되어 인간의 개입 없이 영상물의 원본파일(10)을 자동으로 분석하여 각 장면에 적합한 설명을 자동으로 생성할 수 있어서, 짧은 시간에 많은 화면해설 컨텐츠를 생성할 수 있기 때문에 화면해설 서비스를 확산시킬 수 있다.

도 2는 일 구현예에 따른 화면해설 컨텐츠를 제작하는 장치(100)를 나타내는 도면이다.

화면해설 컨텐츠를 제작하는 장치(100)는 저장부(120), 및 프로세서(110)를 포함할 수 있다. 화면해설 컨텐츠를 제작하는 장치(100)는 통신부(130) 또는 입출력부(140)를 더 포함할 수 있다. 저장부(120), 프로세서(110), 통신부(130), 입출력부(140)는 데이터 송수신 가능하도록 연결되어 있다. 화면해설 컨텐츠를 제작하는 장치(100)는 컴퓨터, PC, 서버, 스마트폰, 태블릿PC, 등의 정보처리장치를 포함할 수 있다.

저장부(120)는 메모리(memory), 클라우드 저장소, 하드디스크 등의 저장매체를 포함할 수 있다. 저장부(120)는 화면해설 컨텐츠를 제작하는 방법을 수행하도록 작성된 프로그램 코드를 저장할 수 있다. 저장부(120)는 화면해설 컨텐츠를 제작하는 방법에 이용되는 인공지능 모델을 저장할 수 있다. 저장부(120)는 원본파일(10), 화면해설파일(20), 그 밖의 화면해설 컨텐츠를 제작하는 방법에 필요한 다른 데이터를 저장할 수 있다.

프로세서(110)는 저장부(120)에 저장된 프로그램 코드를 읽어들여 실행할 수 있다. 프로세서(110)는 CPU, GPU, 뉴로모픽소자, 그 밖의 정보처리소자를 포함할 수 있다. 화면해설 컨텐츠를 제작하는 장치(100)는 하나 이상의 프로세서(110)를 포함할 수 있다.

통신부(130)는 유선 또는 무선 네트워크를 통해 데이터를 송수신할 수 있다. 통신부(130)는 원본파일(10) 또는 화면해설파일(20)을 송수신할 수 있다.

입출력부(140)는 사용자의 입력을 수신하는 입력장치 및 사용자에게 정보를 제공하는 출력장치를 포함할 수 있다. 입력장치는 키보드, 마우스, 터치패드, 그 밖의 다양한 종류의 입력용 장치를 포함할 수 있다. 출력장치는 디스플레이, 스피커, 프린터, 그 밖의 다양한 종류의 출력용 장치를 포함할 수 있다.

도 3은 일 구현예에 따른 화면해설 컨텐츠를 제작하는 장치(100)의 동작을 나타내는 도면이다. 도 1, 도 2, 및 도 3을 함께 참조하여 설명한다.

물체인식부(210), 장면인식부(220), 상태인식부(230), 설명생성부(240), TTS부(250), 편집부(260)는 각각 프로그램 코드로 작성되어 저장부(120)에 저장되고, 프로그램 코드가 프로세서(110)에서 동작하여 구현될 수 있다. 물체인식부(210), 장면인식부(220), 상태인식부(230), 설명생성부(240), TTS부(250), 편집부(260)는 각 기능을 수행하기에 적합하게 설계된 프로세서(110)에 의해 동작할 수 있다. 물체인식부(210), 장면인식부(220), 상태인식부(230), 설명생성부(240), TTS부(250), 편집부(260)는 하나의 컴퓨터 장치에서 구현되거나, 일부는 독립된 컴퓨터 장치에서 구현될 수도 있다.

물체인식단계(S10)는 물체인식부(210)에서 수행될 수 있다. 물체인식부(210)는 원본파일(10)의 비디오(11)의 복수의 프레임(11F)을 입력받아 각각의 프레임(11F)에 포함된 물체(Ob)를 인식하고 종류를 구별하여 프레임(11F)에 마킹하여 출력할 수 있다.

도 4는 일 구현예에 따른 원본파일(10)의 구조를 나타내는 도면이다. 도 4는 비디오(11)에 포함된 복수의 프레임(11F)을 시간에 따라 나열하고 오디오(12)의 대사구간(12b)과 비대사구간(12a)을 시간에 따라 나열한다. 원본파일(10)은 비디오(Video, 11)와 오디오(Audio, 12)를 포함할 수 있다. 비디오(11)는 복수의 프레임(Frame, 11F)을 포함할 수 있다. 하나의 프레임(11F)은 시각적인 이미지(Image)이다. 오디오(12)는 소리(Sound)와 음성(Voice)을 포함할 수 있다. 비대사구간(12a)은 음성이 존재하지 않는 구간이다. 대사구간(12b)은 음성이 존재하는 구간이다. 비대사구간(12a)에는 음성은 존재하지 않지만 소리는 존재할 수 있다. 비디오(11)와 오디오(12)는 방송(Broadcast) 또는 OTT 미디어 서비스(over-the-top media service)에서 이용되는 포맷으로 제작될 수 있다.

도 5는 일 구현예에 따른 프레임(11F)과 마킹된 프레임(13F)을 나타내는 도면이다. 도 1, 도 2, 및 도 3을 함께 참조한다.

물체인식단계(S10)는 원본파일(10)의 비디오(11)의 복수의 프레임(11F)을 물체인식모델(310)에 순서대로 입력하고, 물체인식모델(310)이 출력하는 마킹된 프레임(13F)을 순서대로 정리하여 마킹된 비디오(13)를 획득할 수 있다.

물체인식단계(S10)에서 물체인식부(210)는 원본파일(10)의 비디오(11)를 수신하고, 비디오(11)에 포함되어 있는 물체(Ob)가 무엇인지 판단할 수 있다. 물체(Ob)는 사람, 사물, 그래픽, 문자를 포함할 수 있다. 물체인식부(210)는 프레임(11F)에 포함된 물체(Ob)를 인식하고, 물체(Ob)의 종류가 무엇인지 판단하고, 물체(Ob)의 위치를 표시할 수 있다. 물체(Ob)의 종류와 위치를 프레임(11F)에 표시하는 것을 마킹이라고 한다. 마킹은 프레임(11F) 상에 물체(Ob)를 둘러싸는 박스 형태로 표시될 수 있고, 박스의 테두리에 물체(Ob)의 종류, 물체(Ob)의 위치를 나타내는 좌표 등이 포함될 수 있다.

도 5에 도시된 바와 같이, 물체인식부(210)는 비디오(11)에 포함된 복수의 프레임(11F)들 중에서 어느 하나를 입력받을 수 있다. 도 5에 도시된 프레임(11F)을 예로 들어 설명한다. 프레임(11F)에는 버스표지판(Ob1), 의자(Ob2), 사람(Ob3), 버스(Ob4)가 포함되어 있다. 물체인식부(210)는 프레임(11F)을 물체인식모델(310)에 입력한다. 물체인식모델(310)은 입력된 프레임(11F)에 포함되어 있는 물체(Ob)를 인식하고, 마킹하여 출력할 수 있다. 마킹은 프레임(11F)에 박스 등을 표시하여 물체(Ob)의 위치와 종류 등의 정보를 프레임(11F)에 저장하는 동작을 말한다. 마킹된 프레임(13F)은 프레임(11F)에 포함된 물체(Ob)의 종류 및 위치 등의 정보를 포함할 수 있다.

마킹은 프레임(11F)에 박스를 표시하고, 박스에 물체(Ob)의 종류나 위치의 좌표 등을 표시하는 형태로 수행될 수 있다. 또는, 마킹은 화면에 박스를 표시하지 않고, 물체(Ob)의 종류, 물체(Ob)의 위치를 나타내는 좌표, 물체(Ob)의 크기 등의 정보를 프레임(11F)마다 별도의 데이터로 저장하는 형태로 수행될 수 있다. 예를 들어, 도 5에서 물체인식모델(310)이 출력한 프레임(11F)에는 버스표지판(Ob1)을 둘러싸도록 제1 박스(B1)가 표시되고, 의자(Ob2)를 둘러싸도록 제2 박스(B2)가 표시되고, 사람(Ob3)을 둘러싸도록 제3 박스(B3)가 표시되고, 버스(Ob4)가 표시되도록 제4 박스(B4)가 표시될 수 있다. 도면에는 도시되지 않았지만, 제1 박스(B1)에는 물체(Ob)의 종류로 '버스표지판'이 표시되고 버스표지판의 위치가 좌표로 표시될 수 있고, 제2 박스(B2)에는 물체(Ob)의 종류로 '의자'가 표시되고 의자의 위치가 좌표로 표시될 수 있다. 제3 박스(B3)에는 물체(Ob)의 종류로 '사람'이 표시되고 사람의 위치가 좌표로 표시될 수 있고, 제4 박스(B4)에는 물체(Ob)의 종류로 '버스'가 표시되고 버스의 위치가 좌표로 표시될 수 있다.

물체인식부(210)는 프레임(11F)을 물체인식모델(310)에 입력하고, 물체인식모델(310)이 프레임(11F)에 마킹하여 출력할 수 있다. 물체인식모델(310)은 물체(Ob)의 이미지가 학습데이터이고 물체(Ob)의 종류가 라벨인 학습데이터 세트를 이용하여 학습되는 CNN 구조의 인공지능 모델이며, 이미지를 입력받으면 이미지에 포함된 물체(Ob)를 인식하고, 인식한 물체(Ob)의 종류를 판단하고, 물체(Ob)를 둘러싸고 종류가 표시된 박스를 상기 이미지에 마킹하여 출력할 수 있다.

물체인식부(210)가 이용하는 물체인식모델(310)은 학습데이터 세트를 이용하여 학습된 인공지능 모델이다. 학습데이터 세트는 복수의 학습데이터와 라벨을 포함할 수 있다. 학습데이터는 물체(Ob)의 이미지이다. 라벨은 물체(Ob)의 종류이다. 물체인식모델(310)은 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN) 구조를 포함할 수 있다. 물체인식모델(310)은 YOLO, SSD 알고리즘 또는 R-CNN, Faster R-CNN 방식을 이용할 수 있다. 물체인식모델(310)은 미래에 개발될 다양한 방식의 인공지능 모델을 이용할 수 있다. 프레임(11F)은 복수의 다양한 물체(Ob) 이미지를 포함하는 이미지이므로, 물체인식부(210)는 프레임(11F)을 입력받으면 프레임(11F)에 포함된 물체(Ob)들의 위치와 종류를 인식할 수 있다. 물체인식모델(310)은 물체(Ob)의 종류와 위치를 프레임(11F)에 마킹하여 출력할 수 있다. 물체인식모델(310)은 학습된 상태로 저장부(120)에 저장될 수 있다. 프로세서(110)는 저장부(120)에 저장된 물체인식모델(310)을 읽어들여 실행할 수 있다.

물체인식부(210)는 비디오(11)에 포함된 복수의 프레임(11F) 중에서, 정해진 방법으로 프레임(11F)을 샘플링하여 물체인식단계(S10)를 수행할 수도 있다. 예를 들어, 1초에 30개의 프레임(11F)이 존재하는 비디오(11)의 경우, 물체인식부(210)는 30개의 프레임(11F) 중에서 6개의 프레임(11F)만 추출하여 물체인식단계(S10)를 수행할 수 있다. 물체인식부(210)가 복수의 프레임(11F) 중에서 정해진 간격으로 프레임(11F)을 샘플링하여 물체인식단계(S10)를 수행하는 경우, 물체인식모델(310)이 물체(Ob)를 인식하는데 소모되는 시간을 줄일 수 있다. 따라서 상대적으로 빠르게 화면해설 컨텐츠를 제작할 수 있다.

물체인식부(210)는 복수의 마킹된 프레임(13F)을 순서대로 모아서 마킹된 비디오(13)를 생성할 수 있다. 마킹된 비디오(13)는 장면인식부(220)로 제공될 수 있다.

도 6은 일 구현예에 따른 장면의 전환을 나타내는 도면이다. 도 1, 2, 3을 함께 참조한다.

장면(scene)은 공통된 배경을 갖는 프레임(11F)의 집합으로 정의할 수 있다. 따라서 하나의 장면에 포함되는 프레임(11F)은 공통되는 물체(Ob)를 포함할 수 있다. 프레임(11F)에 포함된 물체(Ob)가 바뀐 것이지 판단하면, 장면이 전환된 것인지 판단할 수 있다.

장면인식부(220)는 장면인식단계(S20)를 수행할 수 있다. 장면인식단계(S20)는 마킹된 프레임(13F)에 포함된 물체(Ob)의 종류를 다음 마킹된 프레임(11F)에 포함된 물체(Ob)의 종류와 비교하여 장면이 전환된 것인지 판단하고, 장면의 시작과 끝을 결정할 수 있다.

장면인식부(220)는 마킹된 프레임(13F)에 포함된 물건의 종류를 기준으로 장면의 전환을 판단할 수 있다. 장면인식부(220)는 마킹된 프레임(13F)에 포함된 물건의 종류가 달라지면 장면이 전환된 것으로 판단할 수 있다. 예를 들어, 도 6은 마킹된 프레임(13F)들을 도시한다. 도 6에 도시된 프레임 F0107에는 제1 박스(B1) 내지 제4 박스(B4)가 마킹되어 있으므로, 프레임 F0107에는 버스표지판, 의자, 사람, 버스라는 물체(Ob)가 포함되어 있는 것을 알 수 있다. 다음의 프레임 F0108에는 제5 박스(B5) 내지 제10 박스(B10)가 마킹되어 있으므로, 프레임 F0108에는 의자, 탁자, 의자, 문, 사람, 메뉴판이라는 물체(Ob)가 포함되어 있는 것을 알 수 있다. 장면인식부(220)는 프레임 F0107과 프레임 F0108을 비교한 결과, 다른 물체(Ob)가 포함되어 있으므로 장면이 전환된 것을 알 수 있다.

도 6은 프레임 F0109 내지 F0252를 생략하여 도시하였다. 장면인식부(220)는 프레임 F0108과 프레임 F0109를 비교하고, 프레임 F0109와 프레임 F0110을 비교하는 과정을 반복하여, 프레임 F0253까지 비교한 결과, 동일한 물체(Ob)가 포함되어 있으므로 장면이 계속되고 있음을 판단할 수 있다. 장면인식부(220)는 프레임 F0253과 프레임 F0254를 비교한 결과, 프레임 F0254에 제11 박스(B11), 제12 박스(B12), 제13 박스(B13)가 포함되고, 사람, 농구공, 농구골대라는 물체(Ob)가 포함된 것을 알 수 있으므로, 장면이 전환된 것임을 알 수 있다. 따라서, 장면인식부(220)는 프레임 F0108 부터 프레임 F0253 까지가 하나의 장면이라고 판단하고, 프레임 F0108이 장면의 시작이고, 프레임 F0253이 장면의 끝으로 판단할 수 있다.

장면인식부(220)는 물체(Ob)가 달라진 개수를 기준으로 장면의 전환을 판단할 수도 있다. 예를 들어, 하나의 마킹된 프레임(13F)에 5개의 물체(Ob)가 포함되었는데, 다음 마킹된 프레임(13F)에서 1개의 물체(Ob)가 변경된 경우, 나머지 4개의 물체(Ob)가 그대로 있으므로 장면이 계속되는 것으로 판단할 수 있다. 장면의 전환은 달라진 물체(Ob)의 개수를 기준으로 하거나, 공통적으로 유지되는 물체(Ob)의 개수를 기준으로 결정할 수 있다.

장면인식부(220)는 물체(Ob)의 종류 뿐만 아니라, 위치를 기준으로 장면의 전환을 판단할 수도 있다. 하나의 마킹된 프레임(13F)에 위치한 물체(Ob)가 다음 마킹된 프레임(13F)에서 정해진 화소 이상으로 다른 위치에 나타나는 경우 장면이 전환된 것으로 판단할 수 있다.

장면인식부(220)는 인식한 장면의 시작과 끝에 관한 데이터를 마킹된 비디오(13)에 추가하여 상태인식부(230)로 제공할 수 있다.

도 7은 일 구현예에 따른 동적상태 또는 정적상태의 인식을 나타내는 도면이다. 도 1, 2, 3을 함께 참조한다.

상태인식부(230)는 상태인식단계(S30)를 수행할 수 있다. 상태인식단계(S30)는 마킹된 프레임(13F)에서 물체(Ob)를 둘러싸도록 표시되는 박스의 중심점을 물체(Ob)의 위치로 인식하고, 물체(Ob)의 위치가 마킹된 프레임(13F) 사이에서 이동하지 않으면 정적상태로 구분하고, 물체(Ob)의 위치가 마킹된 프레임(13F) 사이에서 정해진 화소 이상으로 이동하면 동적상태로 구분하며, 물체(Ob)가 동적상태 또는 정적상태로 구분되면 마킹된 프레임(13F)에 동적상태 또는 정적상태를 추가할 수 있다.

상태인식부(230)는 마킹된 프레임(13F)에 포함된 물체(Ob)의 위치를 마킹된 프레임(13F) 사이에서 비교하여 물체(Ob)의 상태를 판단할 수 있다. 물체(Ob)가 이동하는지는 마킹된 프레임(13F) 사이에서 물체(Ob)의 위치가 정해진 개수의 화소 이상으로 이동하는 것에 의해 판단될 수 있다. 상태인식부(230)는 장면에 포함된 복수의 마킹된 프레임(13F)에서 물체(Ob)의 위치를 추출하고 물체(Ob)의 위치를 비교할 수 있다. 상태인식부(230)는 박스에 표시된 물체(Ob)의 위치, 물체(Ob)의 크기를 이용하여 물체(Ob)의 상태를 판단할 수 있다. 또는, 상태인식부(230)는 박스의 중심점을 물체(Ob)의 위치로 인식하고, 박스의 중심점의 위치를 비교하는 방식으로 물체(Ob)의 상태를 판단할 수도 있다. 상태인식부(230)는 정해진 개수의 화소 이상 물체(Ob)의 위치가 달라지면 물체(Ob)가 이동하는 것이라고 판단할 수 있다. 물체인식단계(S10)에서 물체인식모델(310)이 인식한 물체(Ob)의 위치는 마킹된 프레임(13F)마다 조금 다를 수 있으므로, 상태인식단계(S30)에서 물체(Ob)의 위치가 정해진 개수의 화소보다 작은 범위에서 변동되는 것은 물체(Ob)가 움직이지 않는 것으로 판단하는 것이다.

상태인식부(230)는 장면의 시작인 프레임 F0401에서 물체(Ob)의 위치와 장면의 끝인 프레임 F0403에서 물체(Ob)의 위치를 비교할 수 있다. 예를 들어, 장면의 시작인 프레임 F0401에서 제14 박스(사람)가 A위치에 있다가, 장면의 끝인 프레임 F0403에서 제14 박스(사람)의 위치가 B위치에 존재하는 경우, 물체(Ob)는 동적상태로 구분될 수 있다. 장면의 시작인 프레임 F0401에서 제2 박스(의자)가 C위치에 있다가, 장면의 끝인 프레임 F0403에서 제2 박스(의자)가 C위치에 있는 경우, 물체(Ob)는 정적상태로 구분될 수 있다.

상태인식부(230)는 장면에 포함된 복수의 프레임(11F)을 전체적으로 고려할 때, 물체(Ob)의 위치의 변화가 정해진 기준 이상인 경우 동적상태로 구분하고, 물체(Ob)의 위치의 변화가 정해진 범위 이내인 경우 정적상태로 구분할 수 있다. 예를 들어, 도 7의 프레임들(F0401 내지 F0403)에서 제14 박스(사람)는 위치가 계속 변하고, 정해진 기준 이상으로 변화하고 있으므로 동적상태로 구분할 수 있다.

상태인식부(230)는 물체(Ob)의 상대적인 위치를 기준으로 물체(Ob)의 상태를 판단할 수도 있다. 예를 들어, 제1 박스(B1)의 위치와, 제2 박스(B2)의 위치와, 제3 박스(B3)의 위치는 마킹된 프레임(13F) 사이에서 상대적으로 정해진 화소만큼 이격된 상태로 유지되나, 제14 박스(B14)의 위치와 제1 박스(B1)의 위치 사이의 거리, 제14 박스(B14)의 위치와 제2 박스(B2)의 위치 사이의 거리, 제14 박스(B14)의 위치와 제3 박스(B3)의 위치 사이의 거리는 변화하므로, 제 1 박스(B1), 제2 박스(B2), 제3 박스(B3)의 물체(Ob)는 정적상태이지만, 제14 박스(B14)의 물체(Ob)는 동적상태라고 판단할 수 있다.

상태인식부(230)는 장면 단위로 판단한 물체(Ob)의 상태를 마킹된 비디오(13)에 장면 단위로 저장할 수 있다. 예를 들어, 도 7의 장면에서 박스 1 내지 3의 물체(Ob)는 정적상태이고, 박스 14의 물체(Ob)는 동적상태라는 것을 마킹된 비디오(13)에 저장할 수 있다. 동적상태 또는 정적상태는 장면 단위로 판단되고, 장면 단위로 저장될 수 있다. 상태인식부(230)가 동적상태 또는 정적상태를 추가한 마킹된 비디오(13)는 설명생성부(240)로 제공될 수 있다.

도 8은 일 구현예에 따른 장면의 설명(15)을 나타내는 도면이다. 도 1, 2, 3을 함께 참조한다.

설명생성부(240)는 설명생성단계(S40)를 수행할 수 있다. 설명생성단계(S40)는 장면에 포함된 복수의 마킹된 프레임(13F)의 물체(Ob)들 중에서 정적상태인 물체(Ob)들의 종류 및 위치를 배경설명 생성모델(320)에 입력하고, 배경설명 생성모델(320)이 출력하는 문장을 상기 장면의 배경에 관한 설명으로 출력하며, 장면에 포함된 복수의 마킹된 프레임(13F)을 행동설명 생성모델(330)에 입력하고, 행동설명 생성모델(330)이 출력하는 문장을 상기 장면의 행동에 관한 설명으로 출력할 수 있다.

설명생성부(240)가 출력하는 장면의 설명(15)은 배경설명과 행동설명을 포함할 수 있다. 배경설명은 배경설명 생성모델(320)로부터 출력되며, 장면의 배경을 설명하는 문장을 포함할 수 있다. 행동설명은 행동설명 생성모델(330)로부터 출력되며, 장면에서 물체(Ob)의 행동을 설명하는 문장을 포함할 수 있다.

설명생성부(240)는 배경설명 생성모델(320)에 장면에 포함된 정적상태인 물체(Ob)의 종류와 위치를 입력할 수 있다. 배경설명 생성모델(320)은 장면에 나타나는 물체(Ob)의 종류와 위치에 기초하여 배경이 무엇인지 판단하고 배경을 설명하는 문장을 출력할 수 있다. 배경설명 생성모델(320)은 정적상태의 물체(Ob)의 위치와 종류가 표시된 이미지가 학습데이터이고, 이미지의 배경을 설명하는 문장이 라벨인 학습데이터 세트로 학습된 인공지능 모델이며, 물체(Ob)의 종류와 위치가 마킹된 이미지가 입력되면 이미지가 해당하는 배경을 설명하는 문장을 출력할 수 있다.

예를 들어, 도 8의 장면에는 정적상태는 제1 박스(B1), 제2 박스(B2), 제3 박스(B3)이고, 동적상태는 제14 박스(B14)라고 마킹될 수 있다. 설명생성부(240)는 정적상태인 제1 박스(B1), 제2 박스(B2), 제3 박스(B3)의 물체(Ob)의 종류, 위치가 표시된 이미지를 배경설명 생성모델(320)에 입력할 수 있다. 배경설명 생성모델(320)은 버스표지판, 의자, 사람이 포함되는 장소는 버스정류장이라고 분류할 수 있다. 그리고, 버스정류장을 설명하는 문장인 '버스정류장, 사람이 있다.'라는 문장을 출력할 수 있다.

배경설명 생성모델(320)은 인코더(Encoder)와 디코더(Decoder)로 이루어진 인공지능 모델일 수 있다. 인코더 부분은 CNN 모델을 이용할 수 있고, 디코더 부분은 RNN 또는 LSTM 모델을 이용할 수 있다. 배경설명 생성모델(320)은 물체가 포함되는 이미지가 학습데이터이고, 이미지를 설명하는 문장이 라벨인 학습데이터 세트를 이용하여 학습될 수 있다. 따라서 배경설명 생성모델(320)은 이미지에 포함된 물체와 이미지를 설명하는 문장의 관계를 학습할 수 있다.

하나의 장면에서 정적상태인 물체(Ob)는 모든 프레임에서 동일하므로, 설명생성부(240)는 하나의 마킹된 프레임(13F)만 배경설명 생성모델(320)에 입력하여 장면의 배경에 관한 배경설명을 획득할 수 있다. 장면의 모든 마킹된 프레임(13F)을 입력하여 배경설명을 획득하는 것이 아니기 때문에 배경설명을 획득하는데 필요한 시간이 절약될 수 있다.

배경설명 생성모델(320)의 인코더 부분은 마킹된 프레임(13F)이 입력되면, 마킹된 프레임(13F)에서 동적상태인 물체(Ob)는 무시하고 정적상태인 물체(Ob)만 이용하여 인코딩하도록 설정될 수 있다. 예를 들어, 설명생성부(240)는 제1 박스(B1), 제2 박스(B2), 제3 박스(B3)의 물체(Ob)의 종류, 위치가 표시된 이미지를 배경설명 생성모델(320)에 입력하면, 배경설명 생성모델(320)의 인코더 부분은 제1 박스(B1), 제2 박스(B2), 제3 박스(B3)에 포함된 이미지만을 이용하여 특징벡터를 생성하여 디코더 부분으로 전달하고, 디코더는 정적상태인 물체(Ob)만을 설명하는 문장을 출력할 수 있다. 배경설명 생성모델(320)의 인코더 부분은 정해진 박스 영역만을 이용하여 인코딩을 수행하므로, 인코딩 시간을 절약할 수 있다.

설명생성부(240)는 행동설명 생성모델(330)에 장면에 포함된 정적상태인 물체(Ob)의 종류와 위치 및 동적상태인 물체(Ob)의 종류와 위치를 입력할 수 있다. 행동설명 생성모델(330)은 장면에 나타나는 동적상태의 물체(Ob)의 종류와 위치가 정적상태의 물체(Ob)의 종류와 위치에 대하여 어떻게 행동하는지 설명하는 문장을 출력할 수 있다. 행동설명 생성모델(330)은 연속된 복수의 프레임(11F) 내에서 동적상태의 물체(Ob)가 정적상태의 물체(Ob) 및 다른 동적상태의 물체(Ob) 사이의 상대적인 위치변화를 학습하도록, 복수의 물체(Ob)의 위치와 종류의 연속된 데이터가 학습데이터이고, 동적상태의 물체(Ob)를 표현하는 문장이 라벨인 학습데이터 세트로 학습된 인공지능 모델이며, 물체의 종류와 위치의 데이터가 연속으로 입력되면 동적상태의 물체(Ob)의 행동을 설명하는 문장을 출력할 수 있다.

행동설명 생성모델(330)은 RNN 또는 LSTM 등의 순환신경망 네트워크로 인코더 부분과 디코더 부분이 형성된 인공지능 모델일 수 있다. 행동설명 생성모델(330)은 장면에 포함되어 있는 복수의 마킹된 프레임(13F)마다 정적상태인 물체(Ob)의 종류와 위치 및 동적상태인 물체(Ob)의 종류와 위치를 순서대로 입력받고, 동적상태의 물체(Ob)의 행동을 설명하는 문장을 출력할 수 있다.

행동설명 생성모듈이 학습하는 학습데이터는 복수의 물체(Ob)들의 종류와 위치가 순서대로 나열된 데이터이고, 라벨은 동적상태인 물체(Ob)의 행동을 정적상태인 물체(Ob)와의 관계에서 설명하는 문장을 포함할 수 있다. 특히, 라벨이 되는 문장은 동적상태의 물체(Ob)가 주어가 되고 정정상태의 물체(Ob)에 대한 관계를 설명하는 방식으로 작성될 수 있다. 따라서 행동설명 생성모듈은 동적상태의 물체(Ob)의 행동을 표현할 수 있다. 예를 들어, 도 8 및 도 7에 도시되어 있는 제14 박스의 사람은 프레임(11F)의 오른쪽에서 왼쪽으로 이동하며, 버스정류장에 앉아있는 사람의 뒤를 지나가고 있다. 행동설명 생성모델(330)은 '사람이 버스정류장을 지나간다'라는 문장을 행동설명으로 출력할 수 있다.

설명생성부(240)는 배경설명과 행동설명을 장면에 대한 설명으로 출력할 수 있다. 장면에 대한 설명은 배경설명의 문장과 행동설명의 문장이 이어진 형태로 출력될 수 있다. 예를 들어, 장면의 설명은 '버스정류장, 사람이 앉아있다. 사람이 버스정류장을 지나간다' 와 같이 출력될 수 있다. 설명생성부(240)가 출력하는 장면의 설명(15)은 TTS부(250)로 제공될 수 있다.

다시 도 1, 2, 3을 참조한다. TTS부(250)는 TTS 단계(S50)를 수행할 수 있다. TTS부(250)는 텍스트를 음성으로 변환하는 TEXT TO SOUND(TTS) 기능을 수행할 수 있다. TTS부(250)는 TTS 모델(340)을 이용할 수 있다. TTS 모델(340)은 상용의 모델을 이용할 수 있다. TTS부(250)는 장면의 설명(15)을 음성으로 변환하여 화면해설 음성(15)을 생성할 수 있다. 화면해설 음성(15)은 장면의 설명(15)을 음성의 형태로 변환한 소리파일이다. TTS부(250)는 화면해설 음성(15)을 편집부(260)로 제공할 수 있다.

도 9는 일 구현예에 따른 편집을 설명하는 도면이다. 도 1, 2, 3을 함께 참조한다.

편집부(260)는 편집단계(S60)를 수행할 수 있다. 편집단계(S60)에서 편집부(260)는 원본파일(10)의 오디오(12)와 화면해설 음성(15)을 합성하여 화면해설 오디오(21)를 생성하고, 화면해설 오디오(21)에 맞게 화면해설 비디오(22)를 생성하고, 화면해설 오디오(21)와 화면해설 비디오(22)를 결합하여 화면해설파일(20)을 생성할 수 있다. 화면해설 음성(15)과 원본파일(10)의 오디오(12)를 합성할 때, 화면해설 음성(15)을 삽입하는 위치는 오디오(12)의 비대사구간(12a)이다. 오디오(12)의 대사구간(12b) 도중에 화면해설 음성(15)을 삽입하는 경우 대사의 전달이 원활하지 않을 수 있기 때문이다. 장면이 시작할 때 화면해설 음성(15)이 제공되는 것이 장면의 이해를 돕기 때문에, 편집부(260)는 장면의 시작인 프레임(Fi)을 기준으로 화면해설 음성(15)을 원본파일(10)의 오디오(12)와 합성할 수 있다.

편집단계(S60)는 장면의 시작인 프레임(Fi)이 오디오(12)의 비대사구간(12a)인 경우 장면을 설명하는 화면해설 음성(15)을 비대사구간(12a)에 삽입 및 합성하여 화면해설 오디오(21)를 생성할 수 있다.

편집부(260)는 TTS부(250)로부터 장면마다 화면해설 음성(15)을 제공받을 수 있다. 편집부(260)는 마킹된 비디오(13)에서 장면의 시작인 프레임(Fi)을 찾고, 장면의 시작인 프레임(Fi)부터 화면해설 음성(15)을 삽입할 수 있다. 이때, 장면의 시작인 프레임(Fi)에 해당하는 원본파일(10)의 오디오(12)가 비대사구간(12a)인 경우에는 비대사구간(12a)에 화면해설 음성(15)을 삽입 및 합성할 수 있다. 따라서 컨텐츠의 길이가 길어지는 문제가 발생하지 않는다. 예를 들어, 장면 1의 시작인 프레임(Fi)에서 원본파일(10)의 오디오(12)는 비대사구간(12a)이므로 화면해설 음성(15S1)을 합성할 수 있다. 장면 1의 화면해설 음성(15S1)을 합성하면, 장면 1의 시작인 프레임(Fi)과 함께 장면 1의 화면해설 음성(15S1)이 시작될 수 있다.

편집단계(S60)는 장면의 시작인 프레임(Fi)이 오디오(12)의 대사구간(12b)인 경우, 장면의 시작인 프레임(Fi)이 대사구간(12b)의 전반부이면 대사구간(12b)의 직전의 비대사구간(12a)에 화면해설 음성(15)을 삽입 및 합성하여 화면해설 오디오(21)를 생성하고, 장면의 시작인 프레임(Fi)이 대사구간(12b)의 후반부이면 대사구간(12b)의 직후의 비대사구간(12a)에 화면해설 음성(15)을 삽입 및 합성하여 화면해설 오디오(21)를 생성할 수 있다.

장면의 시작인 프레임(Fi)이 오디오(12)의 대사구간(12b)인 경우, 대사구간(12b) 사이에 화면해설 음성(15)을 삽입하는 것은 청취자의 이해를 어렵게 한다. 따라서 장면의 시작인 프레임(Fi)에 해당하는 대사구간(12b)의 앞 또는 뒤의 비대사구간(12a)에 화면해설 음성(15)을 합성할 수 있다. 장면의 시작인 프레임(Fi)에 해당하는 대사구간(12b)이 다음 장면에 관련된 것일 수 있고, 이전 장면에 관련된 것일 수 있다. 따라서 장면의 시작인 프레임(Fi)이 대사구간(12b)의 전반부에 위치하면 대사구간(12b)이 다음 장면에 관련된 것일 가능성이 높으므로, 장면에 대한 설명을 대사구간(12b)의 직전의 비대사구간(12a)에 삽입하는 것이 적절하고, 장면의 시작인 프레임(Fi)이 대사구간(12b)의 후반부에 위치하면 대사구간(12b)이 이전 장면에 관련된 것일 가능성이 높으므로, 장면에 대한 설명을 대사구간(12b)의 직후의 비대사구간(12a)에 삽입하는 것이 적절하다. 따라서 편집부(260)는 장면의 시작인 프레임(Fi)을 기준으로 장면의 설명(15)을 삽입하되, 장면의 시작인 프레임(Fi)이 대사구간(12b)과 겹치는 경우, 대사구간(12b)의 직전의 비대사구간(12a) 또는 직후의 비대사구간(12a)에 화면해설 음성(15)을 합성할 수 있다.

예를 들어, 장면 2의 시작인 프레임(Fi)은 대사구간(12b)에 걸쳐 있고, 대사구간(12b)의 전반부에 위치한다. 대사구간(12b)의 처음과 중앙 사이가 전반부이고, 중앙과 끝 사이에 후반부이다. 편집부(260)는 장면 2의 시작인 프레임(Fi)이 대사구간(12b)의 전반부에 위치하므로, 장면 2의 설명에 해당하는 화면해설 음성(15S2)을 대사구간(12b)의 직전에 위치한 비대사구간(12a)에 합성하여 화면해설 오디오(21)를 생성할 수 있다. 장면 2의 화면해설 음성(15S2)을 합성하면, 장면 2의 시작인 프레임(Fi) 이전에 장면 2의 화면해설 음성(15S2)이 재생되고, 장면 2의 화면해설 음성(15S2)이 끝나면 장면 2의 시작에 걸쳐있는 대사구간(12b)과 장면 2가 재생될 수 있다.

도 10 및 도 11은 일 구현예에 따른 편집을 설명하는 도면이다. 도 1, 2, 3을 함께 참조한다.

먼저 도 10을 참조한다. 편집단계(S60)는 화면해설 음성(15)의 길이가 비대사구간(12a)의 길이보다 긴 경우, 화면해설 음성(15)이 시작되는 프레임(11F)을 화면해설 음성(15)의 길이와 비대사구간(12a)의 길이의 차이만큼 복사하여 화면해설 음성(15)이 시작되는 프레임(11F)부터 삽입한 화면해설 비디오(22)를 생성할 수 있다.

장면을 설명하는 화면해설 음성(15)의 길이가 장면의 시작인 프레임(Fi)과 가장 가까운 비대사구간(12a)의 길이보다 길 수 있다. 이러한 경우 화면해설 음성(15)을 더 빠르게 재생하는 방법이 있으나, 이러한 방법은 화면해설 음성(15)의 길이와 비대사구간(12a)의 길이가 거의 차이가 없는 경우에만 이용가능하다. 화면해설 음성(15)을 빠르게 재생하는 경우, 청취자가 화면해설을 인식하기 어렵게 하므로 적합하지 않다. 따라서 본 개시의 일실시예에 따른 편집단계(S60)는 화면해설 음성(15)의 길이와 비대사구간(12a)의 길이의 차이만큼 장면의 시작인 프레임(Fi)의 재생을 지연시켜 화면해설 음성(15)을 충분히 전달할 수 있다.

예를 들어, 장면 3의 시작인 프레임(Fi)에 해당하는 비대사구간(12a)의 길이는 3초인데, 장면 3의 화면해설 음성(15S3)의 길이는 5초일 수 있다. 이러한 경우 편집부(260)는 비대사구간(12a)의 길이와 화면해설 음성(15S3)의 길이의 차인 2초만큼 장면 3의 시작인 프레임(Fi)을 복사하여 장면 3의 시작에 삽입하여, 길이가 2초만큼 늘어난 화면해설 비디오(22)를 생성할 수 있다. 달리 설명하면, 화면해설 컨텐츠는 장면 3의 시작인 프레임(Fi)이 2초만큼 정지된 상태로 화면해설 음성(15S3)이 재생되게 된다. 그리고 장면 3의 재생시간은 2초만큼 늘어나게 된다.

장면의 시작인 프레임(Fi)을 복사하는 방법 대신, 장면의 일부 프레임을 느리게 재생하는 등의 방법도 이용될 수 있다.

이와 같이, 화면해설 음성(15)의 길이가 비대사구간(12a)의 길이보다 긴 경우, 편집부(260)는 장면의 시작인 프레임(Fi)을 반복 삽입하는 방식으로 화면해설 비디오(22)의 재생시간을 늘릴 수 있다. 그러나 장면이 많은 경우 재생시간이 많이 늘어나는 문제가 발생할 수 있다.

도 11을 참조한다. 편집단계(S60)는 화면해설 음성(15)의 길이가 비대사구간(12a)의 길이보다 긴 경우, 장면에 포함된 다른 비대사구간(12a)의 일부 및 다른 비대사구간(12a)에 해당하는 비디오(11)의 일부를 제거하여, 원본파일(10)의 재생시간과 화면해설파일(20)의 재생시간이 동일하도록 조절할 수 있다.

본 개시의 일실시예에 따른 편집단계(S60)는 화면해설 음성(15)의 길이와 비대사구간(12a)의 길이의 차이만큼 장면에 포함된 다른 비대사구간(12a)의 일부를 제거하는 방식으로 전체 재생시간을 조절할 수 있다. 이때, 제거된 오디오(12)의 비대사구간(12a)의 일부에 대응하는 비디오(11)의 일부도 함께 제거하는 것이 바람직하다. 어느 하나의 비대사구간(12a)에서 많은 부분을 제거하는 경우, 배경음악이나 소리 등의 불일치가 발생할 수 있으므로, 장면에 포함된 모든 비대사구간(12a)마다 일부를 제거하는 방식을 이용함이 바람직하다.

예를 들어, 장면 4의 시작인 프레임(Fi)에 해당하는 비대사구간(12a)의 길이는 3초인데, 장면 4의 화면해설 음성(15S4)의 길이는 5초일 수 있다. 이러한 경우 편집부(260)는 비대사구간(12a)의 길이와 화면해설 음성(15S4)의 길이의 차인 2초만큼 장면 4에 포함된 다른 비대사구간(12a)들에서 일부를 제거할 수 있다. 장면 4의 첫번째 비대사구간(12a)은 장면 4의 화면해설 음성(15)이 포함되어 있으므로 제거할 수 없다. 장면 4의 두번째 및 세번째 비대사구간(12a)에서 비대사구간(12a)의 길이와 화면해설 음성(15S4)의 길이의 차인 2초를 1초씩 나누어 제거할 수 있다. 도 11에서 제거된 부분은 참조부호 D로 표시하였다. 이러한 경우 장면 4의 전체적인 재생시간은 원본파일(10)과 동일하다.

설명한 바와 같이, 화면해설 음성(15)의 길이가 비대사구간(12a)의 길이보다 긴 경우, 편집부(260)는 재생시간을 늘리더라도 화면해설 음성(15)과 비디오(11)를 잘 전달할 수 있는 화면해설파일(20)을 생성하거나, 재생시간을 원본파일(10)과 동일하게 조절한 화면해설파일(20)을 생성할 수 있다. 사용자는 두가지 방법 중에서 하나를 선택할 수 있다. OTT와 같이 방송시간의 제약이 없는 환경인 경우 재생시간을 늘린 화면해설파일(20)을 제작하는 방법을 선택할 수 있고, 방송과 같이 방송시간의 제약이 있는 환경인 경우 재생시간을 조절한 화면해설파일(20)을 제작하는 방법을 선택할 수 있다.

본 개시의 일 구현예에 따른 화면해설 컨텐츠를 제작하는 방법은, 사용자가 마킹된 비디오(13)를 검토하여 물체(Ob)의 종류를 수정하여 입력하면, 마킹된 물체(Ob)의 이미지를 추출하여 학습데이터에 추가하고, 수정된 물체(Ob)의 종류를 라벨에 추가하여 물체인식모델(310)을 재학습시키는 제1 업데이트단계, 사용자가 화면해설 오디오(21)를 검토하여 배경의 설명을 수정하여 입력하면, 수정된 정적상태의 물체(Ob)의 위치와 종류가 표시된 이미지를 추출하여 학습데이터에 추가하고, 수정된 배경을 설명하는 문장을 라벨에 추가하여 배경설명 생성모델(320)을 재학습시키는 제2 업데이트단계, 및 사용자가 화면해설 오디오(21)를 검토하여 행동의 설명을 수정하여 입력하면, 수정된 장면에 포함된 복수의 프레임(11F)들로부터 복수의 물체(Ob)들의 위치와 종류가 표시된 복수의 연속된 데이터를 추출하여 학습데이터에 추가하고, 수정된 행동을 설명하는 문장을 라벨에 추가하여 행동설명 생성모델(330)을 재학습시키는 제3 업데이트단계 중에서 어느 하나 이상을 더 포함할 수 있다.

제1 업데이트 단계는 물체인식모델(310)이 프레임(11F)에 포함된 물체(Ob)를 잘못 인식한 경우, 사용자가 물체(Ob)의 종류를 정정하여 입력하면, 자동으로 정정된 물체(Ob)에 해당하는 이미지를 추출하고 정정된 종류로 라벨링하여 물체인식모델(310)을 재학습시키는 과정이다. 제1 업데이트 단계는 사용자가 물체인식부(210)에서 출력하는 마킹된 비디오(13)를 검토하고, 사용자가 물체(Ob)의 종류를 수정하는 입력을 수행한 다음에 수행될 수 있다.

제2 업데이트 단계는 배경설명 생성모델(320)이 적절하지 못한 문장을 출력하는 경우, 사용자가 장면의 배경설명을 정정하여 입력하면, 자동으로 정정된 장면의 마킹된 프레임(13F)에서 정적상태의 물체(Ob)의 위치와 종류가 표시된 이미지를 추출하고, 정정된 배경설명으로 라벨링하여 배경설명 생성모델(320)을 재학습시키는 과정이다.

제3 업데이트 단계는 행동설명 생성모델(330)이 물체(Ob)의 행동을 잘못 표현하는 경우, 사용자가 장면의 행동설명을 정정하여 입력하면, 자동으로 정정된 장면에 포함된 복수의 프레임(11F)마다 물체(Ob)의 종류와 위치를 순서대로 추출하여 데이터를 생성하고, 정정된 행동설명으로 라벨링하여 행동설명 생성모델(330)을 재학습시키는 과정이다.

제2 업데이트 단계 및 제3 업데이트 단계는 사용자가 설명생성부(240)에서 출력하는 장면의 설명(15)을 검토하고, 사용자가 배경설명 또는 행동설명을 수정하는 입력을 수행한 다음에 수행될 수 있다.

제1 내지 제3 업데이트 단계를 반복적으로 수행하면서, 다양한 종류의 원본파일(10)을 화면해설파일(20)로 제작하면 물건인식모델, 배경설명 생성모델(320), 행동설명 생성모델(330)이 계속 업데이트되며 더 정확하고 다양한 장면의 해설을 자동으로 생성할 수 있다.

이상으로 설명한 화면해설 컨텐츠를 제작하는 방법은 프로그램 코드로 작성되어 저장매체에 저장될 수 있다. 저장매체에 저장된 프로그램 코드는 프로세서(110)에 의해 읽혀지고 실행되어 화면해설 컨텐츠를 제작하는 장치(100) 또는 방법으로 구현될 수 있다.

이상 본 개시를 구체적인 구현예를 통하여 상세히 설명하였다. 구현예는 본 개시를 구체적으로 설명하기 위한 것으로, 본 개시는 이에 한정되지 않는다. 본 개시의 기술적 사상 내에서 당해 분야의 통상의 지식을 가진 자에 의해 그 변형이나 개량이 가능함은 명백하다고 할 것이다.

본 개시의 단순한 변형 내지 변경은 모두 본 개시의 영역에 속하는 것으로 본 개시의 구체적인 보호 범위는 첨부된 특허청구범위에 의하여 명확해질 것이다.

10: 원본파일 11: 비디오
11F: 프레임 Ob: 물체
12: 오디오 12a: 비대사구간
12b: 대사구간 13: 마킹된 비디오
13F: 마킹된 프레임 14: 장면의 설명
15: 화면해설 음성 100: 화면해설 컨텐츠 제작장치
110: 프로세서 120: 저장부
130: 통신부 140: 입출력부
210: 물체인식부 220: 장면인식부
230: 상태인식부 240: 설명생성부
250: TTS부 260: 편집부
310: 물체인식모델 320: 배경설명 생성모델
330: 행동설명 생성모델 340: TTS모델
20: 화면해설파일 21: 화면해설 오디오
22: 화면해설 비디오

Claims

원본파일의 비디오에 포함된 복수의 프레임을 물체인식모델에 순서대로 입력하고, 상기 물체인식모델이 상기 프레임에 포함된 물체를 인식하고 종류를 구별하고 위치를 인식하며, 상기 프레임에 상기 물체의 종류와 위치를 표시하는 마킹을 수행하여 마킹된 프레임을 순서대로 정리하여 마킹된 비디오를 획득하는 물체인식단계;
상기 마킹된 프레임에 포함된 물체의 종류 및 위치를 다음 마킹된 프레임에 포함된 물체의 종류 및 위치와 비교하여 장면이 전환되는지 판단하되, 동일한 종류의 물체가 동일한 위치에 나타나는 프레임들을 하나의 장면으로 판단하고, 하나의 장면의 처음과 끝을 결정하는 장면인식단계;
상기 장면에 포함되는 물체가 움직이지 않는 정적상태인지 움직이는 동적상태인지 판단하고 상기 마킹된 프레임에 추가로 물체의 상태를 마킹하는 상태인식단계;
상기 장면에 포함되는 복수의 마킹된 프레임을 분석하여, 물체에 매칭되어 있는 설명을 조합하여 상기 장면에 해당하는 설명을 생성하는 설명생성단계;
상기 생성된 설명을 TTS 모델을 이용하여 화면해설 음성으로 변환하는 TTS 단계; 및
상기 원본파일의 오디오와 상기 화면해설 음성을 합성하여 화면해설 오디오를 생성하고, 상기 화면해설 오디오에 맞게 화면해설 비디오를 생성하고, 화면해설 오디오와 화면해설 비디오를 결합하여 화면해설파일을 생성하는 편집단계를 포함하고,
상기 편집단계는
장면의 시작에 화면해설 음성을 제공하기 위하여, 상기 장면의 시작인 프레임이 상기 오디오의 비대사구간인 경우 상기 장면을 설명하는 화면해설 음성을 상기 비대사구간에 삽입하고, 상기 장면의 시작인 프레임이 상기 오디오의 대사구간인 경우, 상기 장면의 시작인 프레임이 상기 대사구간의 전반부이면 상기 대사구간의 직전의 비대사구간에 상기 화면해설 음성을 삽입하고, 상기 장면의 시작인 프레임이 상기 대사구간의 후반부이면 상기 대사구간의 직후의 비대사구간에 상기 화면해설 음성을 삽입하여 상기 화면해설 오디오를 생성하고,
상기 화면해설 음성의 길이가 상기 비대사구간의 길이보다 긴 경우, 장면의 시작인 프레임을 상기 화면해설 음성의 길이와 비대사구간의 길이의 차이만큼 재생을 지연시켜 비디오의 재생시간을 늘린 화면해설 비디오를 생성하는, 화면해설 컨텐츠를 제작하는 방법.
청구항 1에 있어서,
상기 물체인식모델은
물체의 이미지가 학습데이터이고 물체의 종류가 라벨인 학습데이터 세트를 이용하여 학습되는 CNN 구조의 인공지능 모델이며, 이미지를 입력받으면 이미지에 포함된 물체를 인식하고, 인식한 물체의 종류를 판단하고, 물체를 둘러싸고 종류가 표시된 박스를 상기 이미지에 마킹하여 출력하는, 화면해설 컨텐츠를 제작하는 방법.
삭제
청구항 1에 있어서,
상기 상태인식단계는
하나의 장면에 포함된 복수의 상기 마킹된 프레임에서 상기 물체를 둘러싸도록 표시되는 박스의 중심점을 물체의 위치로 인식하고, 물체의 위치가 복수의 상기 마킹된 프레임 사이에서 이동하지 않으면 정적상태로 구분하고, 물체의 위치가 복수의 상기 마킹된 프레임 사이에서 정해진 화소 이상으로 이동하면 동적상태로 구분하며, 하나의 장면에서 상기 물체가 동적상태 또는 정적상태로 구분되면 상기 동적상태 또는 정적상태를 하나의 장면 단위로 마킹된 비디오에 추가하며,
상기 설명생성단계는
상기 장면에 포함된 복수의 마킹된 프레임의 물체들 중에서 정적상태인 물체들의 종류 및 위치를 배경설명 생성모델에 입력하고, 배경설명 생성모델이 출력하는 문장을 상기 장면의 배경에 관한 설명으로 출력하며, 상기 장면에 포함된 복수의 마킹된 프레임을 행동설명 생성모델에 입력하고, 행동설명 생성모델이 출력하는 문장을 상기 장면의 행동에 관한 설명으로 출력하며,
상기 배경설명 생성모델은
정적상태의 물체의 위치와 종류가 표시된 이미지가 학습데이터이고, 이미지의 배경을 설명하는 문장이 라벨인 학습데이터 세트로 학습된 인공지능 모델이며, 물체의 종류와 위치가 마킹된 이미지가 입력되면 이미지가 해당하는 배경을 설명하는 문장을 출력하며,
상기 행동설명 생성모델은
연속된 복수의 프레임 내에서 동적상태의 물체가 정적상태의 물체 및 다른 동적상태의 물체 사이의 상대적인 위치변화를 학습하도록, 복수의 물체의 위치와 종류의 연속된 데이터가 학습데이터이고, 동적상태의 물체를 표현하는 문장이 라벨인 학습데이터 세트로 학습된 인공지능 모델이며, 물체의 종류와 위치의 데이터가 연속으로 입력되면 동적상태의 물체의 행동을 설명하는 문장을 출력하는, 화면해설 컨텐츠를 제작하는 방법.
삭제
삭제
삭제
삭제
청구항 1에 있어서,
상기 편집단계는
상기 화면해설 음성의 길이가 상기 비대사구간의 길이보다 긴 경우, 상기 장면에 포함된 다른 비대사구간의 일부 및 상기 다른 비대사구간에 해당하는 비디오의 일부를 비대사구간의 길이와 화면해설 음성의 길이의 차이를 상기 장면의 다른 비대사구간들에서 나누어 제거하여, 원본파일의 재생시간과 화면해설파일의 재생시간이 동일하도록 조절하는, 화면해설 컨텐츠를 제작하는 방법.
청구항 2에 있어서,
사용자가 마킹된 비디오를 검토하여 물체의 종류를 수정하여 입력하면, 마킹된 물체의 이미지를 추출하여 학습데이터에 추가하고, 수정된 물체의 종류를 라벨에 추가하여 물체인식모델을 재학습시키는 제1 업데이트단계를 더 포함하는, 화면해설 컨텐츠를 제작하는 방법.
청구항 4에 있어서,
사용자가 화면해설 오디오를 검토하여 배경의 설명을 수정하여 입력하면, 수정된 정적상태의 물체의 위치와 종류가 표시된 이미지를 추출하여 학습데이터에 추가하고, 수정된 배경을 설명하는 문장을 라벨에 추가하여 배경설명 생성모델을 재학습시키는 제2 업데이트단계; 및
사용자가 화면해설 오디오를 검토하여 행동의 설명을 수정하여 입력하면, 수정된 장면에 포함된 복수의 프레임들로부터 복수의 물체들의 위치와 종류가 표시된 복수의 연속된 데이터를 추출하여 학습데이터에 추가하고, 수정된 행동을 설명하는 문장을 라벨에 추가하여 행동설명 생성모델을 재학습시키는 제3 업데이트단계를 더 포함하는, 화면해설 컨텐츠를 제작하는 방법.
전자장치가 읽을 수 있는 프로그램 코드를 저장하는 저장매체에 있어서,
상기 프로그램 코드는 청구항 1, 2, 4, 10, 및 11 중에서 어느 한 항의 화면해설 컨텐츠를 제작하는 방법을 수행하도록 작성된 것인, 저장매체.
프로그램 코드를 저장하는 저장부;
상기 저장부로부터 상기 프로그램 코드를 읽어서 실행하는 프로세서를 포함하며,
상기 프로그램 코드는
청구항 1, 2, 4, 10, 및 11 중에서 어느 한 항의 화면해설 컨텐츠를 제작하는 방법을 수행하도록 작성된 것인, 화면해설 컨텐츠를 제작하는 장치.