KR20230039934A

KR20230039934A - 멀티모달 분석 기반의 요약영상 생성 방법 및 이를 위한 연산장치

Info

Publication number: KR20230039934A
Application number: KR1020210122899A
Authority: KR
Inventors: 황중수; 손종수; 최윤종; 조영선; 이현기
Original assignee: 씨제이올리브네트웍스 주식회사
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2023-03-22

Abstract

본 발명은 요약영상을 생성하는 방법 및 시스템에 관한 것으로, 구체적으로는 원본 영상으로부터의 텍스트, 오디오, 이미지 등을 분석하여 멀티모달 정보를 기반으로 요약영상을 생성하는 방법, 그리고 시스템에 관한 것이다.

Description

멀티모달 분석 기반의 요약영상 생성 방법 및 이를 위한 연산장치{MULTI-MODAL ANALYSIS-BASED SUMMARY IMAGE GENERATION METHOD AND DEVICE FOR THE SAME}

최근 콘텐츠를 기반으로 하는 플랫폼 산업이 크게 부흥하면서, 그리고 사용자들이 영상 콘텐츠를 직접 만들어 게시할 수 있는 환경, 영상 콘텐츠에 접근할 수 있는 환경이 좋아지면서 수 많은 영상 콘텐츠들이 실시간으로 생성 및 전파되고 있다.

한편, 영상 콘텐츠들이 폭발적으로 증가하고 있는 와중에 많은 사용자들은 재생시간이 긴 영상 콘텐츠들을 시청할 때에는 쉽게 지루함이나 피로함을 느끼고 있으며, 이에 긴 콘텐츠를 짧게 편집하여 제공하고자 하는 수요도 급증하고 있다. 많은 경우 아직까지는 긴 재생시간의 콘텐츠를 사람이 개별 편집하여 짧은 요약영상을 만드는 수준에 머물러 있으며, 일부의 경우 알고리즘을 활용하여 요약영상 만드는 과정을 자동화 하고 있는 것으로 알려져 있다.

한편, 영상 편집을 사람이 직접 맡아서 하는 경우에는 사람의 판단에 의해 적절한 프라임(하이라이트) 구간의 선정, 그리고 선정된 구간들 간의 자연스러운 영상 연결 등이 가능할 것이나, 알고리즘에 따라 자동으로 요약영상을 만들고자 하는 경우에는 어떤 구간을 프라임 구간으로 정하여야 하는지, 프라임 구간들이 정해졌더라도 어떻게 자연스럽게 연결시켜야 할지를 모두 코딩하여야 하는데, 아직까지는 알고리즘에 의해 생성된 요약영상이 사람이 직접 편집된 것 정도의 수준에는 이르지 못하고 있다.

본 발명은 이와 같은 난점에 착안하여 제안된 것으로, 원본 영상 콘텐츠가 존재할 때에 멀티모달 분석 기반으로 프라임 구간들을 선정하고, 이들 구간들을 연결시켜 최종적으로 요약영상을 생성하는 방법, 그리고 이를 위한 시스템에 관한 것이다. 또한, 본 발명은 위의 기술적 문제점을 해소시키는 것 외에도 본 기술분야에서 통상의 지식을 가진 자가 용이하게 발명할 수 없는 추가적인 기술요소들을 제공하기 위해 발명되었다.

한국공개특허공보 특2003-0023576 (2003.03.19. 공개)

본 발명은 멀티모달 분석을 통해 긴 재생시간의 원본 영상으로부터 짧은 요약영상을 빠르게 생성해 낼 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다. 특히 본 발명은 원본 영상 중 가장 임팩트 있는 구간들만을 효과적으로 선별함으로써 최종적으로 생성된 요약영상만 보더라도 시청자가 쉽게 전체 내용을 파악하거나 중요 정보를 전달 받을 수 있게 하는 것을 목적으로 한다.

또한 본 발명은 원본 영상의 종류(라이브커머스 영상, 드라마, 예능 등)에 따라 멀티모달 분석에 따른 스코어들에 가중치가 달리 적용되게 함으로써 원본 영상의 특성에 맞는 요약영상 생성이 가능하게 하는 것을 목적으로 한다.

한편, 본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

위와 같은 문제점을 해결하기 위하여, 본 발명에 따른 요약 영상 생성 방법은, 원본 영상을 로드(load)하는 단계; 상기 원본 영상에 대해 멀티모달 분석을 하는 단계; 멀티모달 분석 결과에 따라 복수 개의 프라임 구간들을 선별하는 단계; 상기 프라임 구간들이 포함된 요약 영상을 생성하는 단계;를 포함할 수 있다.

또한, 상기 요약 영상 생성 방법에 있어서 상기 멀티모달 분석 단계는, 상기 원본 영상으로부터 획득 가능한 음성을 텍스트로 변환한 것을 분석하는 텍스트 분석 과정, 상기 원본 영상으로부터 획득 가능한 오디오 성분을 분석하는 오디오 분석 과정, 또는 상기 원본 영상의 임의 프레임으로부터 획득 가능한 이미지를 분석하는 이미지 분석 과정 중 적어도 하나를 포함할 수 있다.

또한 이 때 상기 텍스트 분석 과정은, 상기 원본 영상으로부터 음성을 추출하는 단계; 상기 원본 영상으로부터 추출한 음성을 텍스트로 변환하는 단계; 및 변환된 텍스트를 구성하는 복수 개의 세그먼트(segment)들에 대하여 제1 스코어를 산출하는 단계;를 포함할 수 있다.

이 때 상기 제1 스코어의 산출은 제1 분석모델에 따라 이루어지되, 상기 제1 분석모델은, 복수의 형태소(形態素)들을 포함하는 임의의 텍스트 또는 상기 임의의 텍스트를 구성하는 세그먼트에 대한 긍정도 값을 산출하기 위한 알고리즘일 수 있다.

또한 이 때 상기 음성을 텍스트로 변환하는 단계 이후, 변환된 텍스트를 전처리 하는 단계; 를 더 포함하되, 상기 텍스트 전처리 단계는, 상기 변환된 텍스트에 대하여 복수 개의 형태소들을 탐색하는 단계; 상기 복수 개의 형태소들 중 종결어미를 탐색하는 단계; 상기 종결어미를 기준으로 상기 텍스트를 복수 개의 세그먼트들로 구별하는 단계;를 포함할 수 있다.

또한, 상기 텍스트 분석 과정에 의해 산출된 결과값은, 상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 또는 임의의 세그먼트 내 포함된 복수 개의 형태소들을 포함하고, 그리고 임의의 세그먼트에 대한 제1 스코어를 포함하는 것을 특징으로 할 수 있다.

한편, 상기 요약 영상 생성 방법에 있어서 상기 오디오 분석 과정은, 상기 원본 영상으로부터 오디오를 추출하는 단계; 상기 오디오로부터 임의의 이벤트 특성을 포함하는 세그먼트들을 구분하는 단계; 상기 세그먼트들 중 적어도 일부의 세그먼트들에 대하여 제2 스코어를 산출하는 단계;를 포함할 수 있다.

이 때 상기 제2 스코어를 산출하는 단계는, 각 세그먼트에 대응되는 이벤트의 종류, 각 세그먼트의 오디오 강도, 또는 이들의 조합을 기초로 연산이 이루어지는 것을 특징으로 할 수 있다.

또한 이 때 상기 오디오 분석 과정에 의해 산출된 결과값은, 상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 임의의 세그먼트로부터 획득된 오디오 강도 값, 또는 임의의 세그먼트에 대해 판별된 이벤트 종류를 포함하고, 그리고 임의의 세그먼트에 대한 제2 스코어를 포함하는 것을 특징으로 할 수 있다.

또한, 상기 요약 영상 생성 방법에 있어서 상기 이미지 분석 과정은, 상기 원본 영상 중 적어도 일부의 영상을 복수 개의 세그먼트들로 구분하는 단계; 상기 복수 개의 세그먼트들 중 적어도 일부의 세그먼트들에 대하여 제3 분석모델에 따라 제3 스코어를 산출하는 단계;를 포함할 수 있다.

이 때 상기 제3 스코어를 산출하는 단계는, 상기 구분된 세그먼트들 중 적어도 일부의 세그먼트에 대하여 키프레임을 추출하는 단계; 상기 키프레임 내 포함된 특정 오브젝트의 크기, 오브젝트의 위치, 또는 전체 이미지 대비 오브젝트의 크기비율, 또는 이들의 조합을 기초로 제3 스코어를 산출하는 단계;를 포함할 수 있다.

또한 이 때 상기 이미지 분석 과정은, 상기 영상을 복수 개의 세그먼트들로 구분하는 단계 이전, 상기 영상을 복수 개의 프레임들로 분할하는 단계;를 더 포함할 수 있다.

또한 이 때 상기 이미지 분석 과정에 의해 산출된 결과값은, 상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 또는 키프레임 내 포함된 특정 오브젝트의 속성을 포함하고, 그리고 임의의 세그먼트에 대한 제3 스코어를 포함하는 것을 특징으로 할 수 있다.

또한, 상기 요약 영상 생성 방법에 있어서 상기 복수 개의 프라임 구간들을 선별하는 단계는, 멀티모달 분석 결과에 따라 산출되는 각 세그먼트 별 스코어를 합산하는 단계; 임의의 조건에 따라 결정되는 수의 세그먼트들을 프라임 구간으로 선별하는 단계;를 포함하되, 상기 프라임 구간으로 선별되는 세그먼트들은 합산 스코어가 높은 순서대로 선별되는 것을 특징으로 할 수 있다.

또한, 상기 요약 영상 생성 방법에 있어서 상기 스코어를 합산하는 단계는, 임의의 조건에 따라 상기 멀티모달 분석 결과에 따라 산출되는 각 세그먼트 별 스코어의 가중치를 달리하여 스코어를 합산하는 것을 특징으로 할 수 있다.

한편, 본 발명의 또 다른 실시예에 따른 텍스트 분석모델 학습 시키는 방법은, 복수 개의 프레이즈(phrase)들에 대해 각각 긍정 클래스 또는 부정 클래스를 레이블링 함으로써 학습용 데이터를 생성하는 단계; 각 프레이즈를 임의 개수의 어구(語句)들로 나누고, 각 어구들에 임의의 정수를 부여함으로써 각 프레이즈에 대응되는 정수들의 집합을 획득하는 단계; 각 프레이즈에 대응되는 정수들의 집합 및 각 프레이즈에 레이블링 된 클래스를 기초로 학습시키는 단계; 를 포함할 수 있다.

또한, 본 발명의 또 다른 실시예에 따른 오디오 분석모델을 학습 시키는 방법은, 제1 이벤트 오디오, 제2 이벤트 오디오, 및 상기 제1 이벤트 오디오와 제2 이벤트 오디오가 믹스되어 있는 믹스드 오디오를 생성하는 단계; 상기 제1 이벤트 오디오, 제2 이벤트 오디오, 및 믹스드 오디오를 주파수 도메인으로 변환하는 단계; 상기 믹스드 오디오로부터 제1 이벤트에 대응되는 오디오 또는 제2 이벤트에 대응되는 오디오를 분리한 후 분리된 오디오를 각각 상기 제1 이벤트 오디오 또는 제2 이벤트 오디오와 대조하여 차이값을 연산하는 단계; 및 상기 차이값이 작아지도록 상기 믹스드 오디오로부터 제1 이벤트에 대응되는 오디오 또는 제2 이벤트에 대응되는 오디오를 분리한 후 상기 제1 이벤트 오디오 또는 제2 이벤트 오디오와 대조하는 것을 반복하는 단계;를 포함할 수 있다.

또한, 본 발명의 또 다른 실시예에 따른 이미지 분석모델을 학습 시키는 방법은, 특정 오브젝트가 이미지 내에 포함되어 있는 이미지 데이터, 및 이미지 내에서 상기 오브젝트의 위치정보를 포함하는 텍스트 데이터를 생성하는 단계; 상기 이미지 데이터로부터 특정 오브젝트의 바운딩 박스(bounding box)를 정의하는 단계; 상기 이미지 데이터 내에 정의된 특정 오브젝트의 바운딩 박스(bounding box)와 상기 오브젝트의 위치정보를 기초로 정의되는 앵커 박스(anchor box) 간 차이값을 연산하는 단계; 및 상기 차이값이 작아지도록 상기 이미지 데이터 내 특정 오브젝트의 바운딩 박스를 정의한 후 상기 앵커 박스와의 대조하는 것을 반복하는 단계;를 포함할 수 있다.

이 때, 상기 이미지 데이터 내에서 정의된 복수 개의 바운딩 박스들 중 적어도 어느 하나의 바운딩 박스와 상기 이미지 데이터 내 상기 특정 오브젝트의 이미지를 비교하여 상기 바운딩 박스 내에 특정 오브젝트가 존재하는지 여부를 판별하는 단계;를 더 포함할 수 있다.

본 발명에 따르면 긴 재생시간을 가지는 원본 영상을 기초로 요약영상을 신속하게 생성해 낼 수 있다는 점에서 효과가 있으며, 또한 사람의 개입이 최소화 된 상태에서 자동으로 요약영상이 생성될 수 있어 사용자 편의성을 크게 높일 수 있다.

또한 본 발명에 의하면 원본 영상의 종류에 따른 멀티모달 분석이 가능하게 되므로 원본 영상 특성에 맞는 요약영상 생성이 가능하다는 효과가 있다.

또한 본 발명에 의하면 텍스트 분석 결과 얻어지는 종결 위치들을 기준으로 세그먼트 또는 프라임 구간이 나뉠 수 있으므로 최종적으로 생성된 요약영상의 장면 간 연결이 자연스러워지는 효과가 있다.

한편, 본 발명에 의한 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명에 따른 요약영상 생성 방법이 구현될 수 있는 시스템 환경을 간략히 도시한 것이다.
도 2는 본 발명에 따른 요약영상 생성 방법을 순서에 따라 도시한 것이다.
도 3은 멀티모달 분석 중에서도 텍스트 분석에 대한 개념도를 도시한 것이다.
도 4는 텍스트 분석 과정을 순서에 따라 나열한 것이다.
도 5는 멀티모달 분석 중에서도 오디오 분석에 대한 개념도를 도시한 것이다.
도 6은 오디오 분석 과정을 순서에 따라 나열한 것이다.
도 7은 멀티모달 분석 중에서도 이미지 분석에 대한 개념도를 도시한 것이다.
도 8은 이미지 분석 과정을 순서에 따라 나열한 것이다.
도 9 내지 도 12는 멀티모달 분석 결과에 따라 합산 스코어가 높은 값을 가지는 구간들을 합쳐 요약영상을 생성하는 과정을 설명하기 위한 도면이다.

본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.

본 명세서에서 개시되는 실시 예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시 예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시 예들로 한정되는 것을 의도하지 않는다.

도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.

또한, 어떤 구성요소들을 포함한다는 표현은 "개방형"의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.

나아가 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.

이하에서는 도면들을 참조하여 본 발명의 각 실시 예들에 대해 살펴보기로 한다.

먼저 도 1은 본 발명에 따른 요약영상 방법 및 시스템의 개요를 설명하기 위한 것으로, 홈쇼핑 영상 콘텐츠가 존재할 때 이 원본 영상을 기초로 멀티모달 분석 능력을 갖춘 연산장치(100)가 일련의 단계들을 실행함으로써 짧은 요약영상을 생성해 내는 모습을 간략히 도시한 것이다.

기본적으로 본 발명은 긴 재생시간을 가지는 원본 영상 콘텐츠가 존재할 때 상기 원본 영상으로부터 선별된 프라임 구간들 또는 하이라이트 구간들을 이어 편집함으로써 요약영상을 생성하는 방법에 관한 것이다. 라이브커머스, 홈쇼핑, 스포츠, 예능, 드라마, 영화 등 다양한 영상 콘텐츠가 네트워크 상에서 증가되고 있으며, 이러한 영상 콘텐츠들은 그 숫자를 가늠하기가 어려울 정도로 많이, 그리고 빠르게 공유되고 있는데, 이러한 와중에 상당수의 시청자들은 긴 영상의 내용을 짧은 시간 내에 보고자 빨리 감기를 하거나 장면 장면을 건너 뛰면서 영상을 시청하는 등의 모습을 보이는 것으로 알려져 있다. 클립영상, 미리보기, 하이라이트 보기 등과 같이 압축된 내용을 포함하는 영상 콘텐츠들의 재생 빈도 수가 일반 영상 콘텐츠들의 재생 빈도 수 대비 훨씬 높다는 점은 이러한 시청자들의 요구를 반영하는 것으로도 볼 수 있다.

한편, 이러한 요약영상은 대부분 사람의 힘을 빌어 편집이 되어 왔으나, 도 1에서도 보이는 바와 같이 본 발명에서는 알고리즘을 기반으로 한 시스템을 통하여 빠르게, 그리고 자동적으로 요약영상이 생성되도록 한 방법론을 제안하고자 한다. 더 구체적으로, 본 발명은 멀티모달 정보를 분석하고, 분석결과를 바탕으로 원본 영상의 프라임 구간들을 자동으로 찾아냄으로써 편집자의 작업량을 줄이고, 요약영상 생성에 소요되는 비용 및 시간을 줄임으로써 더 효율적인 영상 편집이 가능하게 하는 시스템적 환경을 구현해 내는 것을 목적으로 한다.

다시 도 1을 참고할 때, 본 발명은 도 1과 같은 구성들을 포함하는 연산장치(100)에 의해 실행될 수 있다. 연산장치는 기본적으로 중앙처리유닛 및 메모리를 갖추고 있는 장치를 모두 포함할 수 있으며, 연산장치(100)의 세부구성들을 기능적으로 나누어 본다면 크게 원본 영상을 수신하는 영상 수신부(110), 수신한 영상을 분석하기 위한 영상 분석부(120), 그리고 최종적으로 프라임 구간을 선별하고 요약영상을 생성하는 영상 생성부(130)를 포함할 수 있다.

이 중에서도 특히 영상 분석부(120)는 다시 텍스트 분석부(121), 오디오 분석부(123), 이미지 분석부(125)를 포함할 수 있는데, 이들 분석부들은 원본 영상으로부터 추출 가능한 다양한 데이터들을 분석하기 위한 구성들, 다시 말해 멀티모달 분석을 위한 구성들에 해당한다. 텍스트 분석부(121)는 인공지능 알고리즘 기반으로 원본 영상으로부터 얻은 음성을 먼저 텍스트로 변환한 후, 텍스트의 구간 별 스코어, 예를 들어 텍스트 중 어느 구간에서의 텍스트가 긍정도가 높은지 등을 분석하는 구성일 수 있다. 오디오 분석부(123)는 인공지능 알고리즘 기반으로 원본 영상으로부터 얻은 오디오를 분석하되, 오디오의 어느 구간에서 어떤 이벤트 특성을 보이는지 또는 얼마나 강한 오디오 강도를 가지는지 등을 분석하는 구성일 수 있다. 이미지 분석부(125)는 인공지능 알고리즘 기반으로 원본 영상으로부터 얻은 영상을 프레임 별로 나누어 분석하되, 그 중에서도 특히 키프레임 내에서 특정 오브젝트, 예를 들어 사람의 얼굴이나 손 등의 특정 오브젝트가 화면 내에서 얼마나 큰 비중을 차지하는지 등을 분석하는 구성이다. 각각의 분석부들은 텍스트, 오디오, 이미지를 분석 및 스코어링 하는 데에 필요한 분석모델을 활용하게 되는데, 이에 대해서는 뒤에서 더 자세히 설명하기로 한다.

영상 생성부(130)는 앞선 영상 분석부(120)에서의 분석 결과들을 참고하여 요약영상을 구성할 만한 구간들을 추출해 내며 궁극적으로 이들 구간들을 모아 편집함으로써 요약영상을 생성하는 구성이다. 영상 생성부(130)가 소위 프라임 구간들, 또는 하이라이트 구간들을 추출해 내는 방법 역시 다양한 방법론들이 존재할 수 있는데 이에 대해서도 후술하기로 한다.

이상 도 1을 참고하여 본 발명에 따른 요약영상 생성 방법을 구현해 내기 위한 연산장치(100)에 대해 살펴 보았다.

참고로 위 연산장치(100)는 중앙처리유닛 및 메모리를 갖추고 있다고 언급하였는데, 이 때 중앙처리유닛은 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 불릴 수 있다. 또한 중앙처리유닛은 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있는데, 하드웨어를 이용하여 구현하는 경우에는 ASIC(application specific integrated circuit) 또는 DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array) 등으로, 펌웨어나 소프트웨어를 이용하여 구현하는 경우에는 위와 같은 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등을 포함하도록 펌웨어나 소프트웨어가 구성될 수 있다. 또한, 메모리는 ROM(Read Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래쉬(flash) 메모리, SRAM(Static RAM), HDD(Hard Disk Drive), SSD(Solid State Drive) 등으로 구현될 수 있다.

다른 한편, 상기 연산장치(100)는 서버(server)의 형태로도 구현이 가능할 수 있는데, 서버의 형태는 어느 특정 운영자가 관리하는 적어도 하나의 서버용 PC일 수 있으며, 또는 타 업체에서 제공하는 클라우드 서버의 형태, 즉 사용자가 회원가입하여 사용할 수 있는 클라우드 서버의 형태일 수도 있다.

또한 본 상세한 설명에서 후술하게 될 각 단계들은 그 실행의 주체가 서비스 서버 또는 사용자 단말기일 수 있다. 더 정확하게는 상기 각 단계들은 서비스 서버 내 저장수단에 저장되어 있는 명령어(프로그램 코드)들, 또는 사용자 단말기의 저장수단에 저장되어 있는 명령어들이 중앙처리유닛에 의해 처리 및 실행될 수 있다.

도 2는 본 발명에 따른 요약영상 생성 방법의 각 단계들을 순서대로 나열한 것이다.

요약영상 생성 방법의 가장 첫 번째 단계는 원본 영상을 로드(load)하는 단계(S10)이다. 이 단계는 원본 영상이 외부로부터 네트워크를 통해 수신되었거나 또는 USB 등과 같은 기록매체에 의해 복사가 되는 등의 방식으로 연산장치(100)에 의해 접근 가능한 상태에 있는 것을 전제로 한다. 연산장치(100)는 접근 가능한 상태의 원본 영상에 대해 분석 및 편집이 가능하도록 로드시킬 수 있는데, 예를 들어 연산장치(100)에 의해 실행되는 요약영상 편집 프로그램이 실행된 뒤 로드 버튼을 누름으로써 원본 영상 파일이 로드되는 과정이 이 단계의 한 실시예에 해당할 수 있다. 다시 말해 S101 단계는 원본 영상이 연산장치(100)에 의해 분석 및 편집 가능한 상태에 놓이는 단계로 이해될 수 있다.

이 후, 연산장치(100)는 상기 원본 영상에 대해 멀티모달(multi-modal) 분석을 실시할 수 있다. (S20) 멀티모달 데이터란, 서로 다른 형태의 정보로 이루어져 그 특성이 뚜렷하게 구분되는 데이터, 예를 들어 이미지 데이터, 텍스트 데이터, 오디오 데이터 등과 같이 서로 특성이 다른 데이터를 의미하는데, 멀티모달 분석은 같은 맥락에서 원본 영상으로부터 획득 가능한 텍스트, 오디오, 또는 이미지를 각각 분석하는 것으로 이해될 수 있다. S20 단계는 본 발명에 따른 요약영상 생성 방법 중 가장 주요한 단계 중 하나라 할 수 있으며, 이 단계의 결과물로는 멀티모달 데이터(텍스트, 오디오, 이미지)에 대해 스코어, 더 정확하게는 각 멀티모달 데이터를 구성하는 세그먼트(구간)들이 얼마나 중요한 내용을 담고 있는지 또는 얼마나 임팩트 있는 화면구성을 가지는지 등에 대한 스코어가 산출될 수 있다.

S20 단계 이후에는 멀티모달 분석 결과에 따라 복수 개의 프라임 구간들을 선별하는 단계(S30)가 실행될 수 있다. 본 상세한 설명에서 지칭되는 프라임 구간들은 원본 영상을 복수 개의 세그먼트(구간)들로 나눌 수 있다고 가정할 때에, 요약영상 내에 삽입할 만한 정도의 높은 스코어를 가지는 세그먼트(구간)으로 이해될 수 있다. 후술하겠지만 프라임 구간을 선별하는 단계는 기본적으로 멀티모달 분석 결과의 산출물인 스코어의 합산을 기초로 하되, 상기 스코어에 어떤 조건의 가중치를 적용시키는지에 따라 선별되는 프라임 구간들이 달라질 수 있다. 이러한 특징은 곧 원본 영상의 종류에 따라 가중치를 달리 적용하는 등의 방식으로 활용되어 사용자들의 요구에 맞는 요약영상 편집이 가능해 질 수 있다.

마지막으로는 프라임 구간들이 포함된 요약영상 생성 단계(S40)가 실행될 수 있다. 본 단계에서는 앞서 선별된 프라임 구간들을 연결하는 편집을 함으로써 최종적으로 하나의 완성된 영상을 생성해 내는 과정이 이루어질 수 있다. 또한, 본 단계에서는 구간과 구간 간의 자연스러운 연결 편집을 위하여 추가적인 편집 과정이 더 포함될 수도 있는데, 예를 들어 특정 프라임 구간의 시작점 또는 종료점이 실제 시청자의 입장에서 부적절한 경우에는 해당 프라임 구간의 시작점 또는 종료점을 앞뒤로 조정함으로써 구간들 간의 장면 연계가 자연스러워질 수 있도록 편집하는 과정이 더 포함될 수 있다.

이상 도 1과 도 2를 참고하여 본 발명에 따른 요약영상 생성을 위해 필요한 시스템적 구성, 그리고 방법에 대해 간략히 살펴 보았다.

도 3은 멀티모달 분석 단계 중에서도 텍스트 분석 과정을 쉽게 이해하기 위한 개념도를 도시한 것이다. 원본 영상으로부터는 사람의 음성이 추출될 수 있으며, 이렇게 추출된 음성은 텍스트로 변환하는 기술(Speech To Text)이 적용되어 텍스트로의 변환이 이루어질 수 있다. 이렇게 변환된 텍스트에 대해서는 해당 텍스트가 기 정해진 또는 기 학습된 분석모델에 의해 얼마만큼의 긍정도를 나타내는 텍스트인지 평가 받을 수 있으며, 그 결과가 제1 스코어로 산출될 수 있다. 도 3을 참고할 때, 임의의 추출된 음성이 텍스트로 변환된 모습, 그리고 텍스트가 복수 개의 세그먼트들(Seg #1 ~ Seg #6)로 나뉘어진 모습, 그리고 각 세그먼트들에 대해서는 분석모델에 의해 제1 스코어가 산출된 모습이 도시되어 있다. 이 때 분석모델은 상기 세그먼트들에 포함되어 있는 텍스트의 긍정도 값을 산출하기 위한 알고리즘일 수 있다.

예를 들어, 라이브커머스 영상이 원본 영상이라 할 때, "이 제품의 효과가 너무 좋습니다"와 같은 텍스트 세그먼트에 대해서는 기 정해진 분석모델 알고리즘에 따라 긍정도가 높은 것으로 분석될 수 있으며 이에 따라 상대적으로 높은 제1 스코어 값이 산출될 수 있다. 또한 "이 제품을 한번 살펴보도록 하겠습니다"와 같은 텍스트 세그먼트는 상기 앞선 텍스트 세그먼트 대비 낮은 제1 스코어 값이 산출될 수 있으며, "매운 것을 싫어하시는 분들께는 추천하지 않습니다"와 같은 텍스트 세그먼트에 대해서는 더 낮은 제1 스코어 값이 산출될 수 있다.

도 4는 상기 텍스트 분석 과정에 포함되는 세부 단계들을 순서에 따라 나열한 것이다. 이를 참고할 때 텍스트 분석 과정은 원본 영상으로부터 음성을 추출하는 단계(S211), 추출한 음성을 텍스트로 변환하는 단계(S212)를 포함할 수 있으며, 이 후 변환된 텍스트를 전처리 하는 단계(S213), 및 전처리 단계에서 구분된 각 세그먼트 별로 제1 스코어(긍정도 값)를 산출하는 단계(S214)가 이어질 수 있다.

이 중 변환된 텍스트를 전처리 하는 단계(S213)는 다시 더 세부 단계들을 포함할 수 있는데, 예를 들어 상기 변환된 텍스트에 대해 복수 개의 형태소들을 탐색하는 단계(S2131), 복수 개의 형태소들 중 종결어미를 탐색하는 단계(S2132), 그리고 종결어미를 기준으로 상기 텍스트를 복수 개의 세그먼트들로 구분하는 단계(S2133)가 포함될 수 있다. 참고로 형태소란 텍스트를 가장 작은 단위로 분석하기 위한 말의 단위를 의미하는 것이다.

한편, 텍스트 분석 과정에서는 세그먼트의 긍정도를 산출하기 위한 분석모델, 소위 텍스트 분석모델이 활용될 수 있다고 언급하였는데, 이 텍스트 분석모델은 텍스트가 입력되었을 때 해당 텍스트가 어떤 기준을 만족시키는지 또는 어떤 범주에 속하는 것인지를 판별할 수 있도록 사전에 학습된 것일 수 있다. 텍스트 분석모델을 학습시키는 방법을 간략히 살펴보면, 가장 먼저 복수 개의 프레이즈(phrase)들에 대해 각각 긍정 클래스 또는 부정 클래스를 레이블링 한 학습용 데이터를 생성하는 단계(ex."만족합니다 지속력도 강하구요"라는 프레이즈에 대해서는 "긍정" 레이블링이 이루어지고, "생각보다 어두워요 많이 매트하고요"라는 프레이즈에 대해서는 "부정" 레이블링이 이루어진 학습용 데이터 생성), 그리고 각 프레이즈를 임의 개수의 어구(語句) 들로 나누고, 각 어구들에 임의의 정수를 부여함으로써 각 프레이즈에 대응되는 정수들의 집합을 획득하는 단계(ex. ['만족합니다', '지속력도', '강하구요']로 어구를 나누고 이를 [5, 8, 1]의 정수들의 집합으로 변환. ['생각보다', '어두워요', '많이', '매트하고요']로 어구를 나누고 이를 [7, 2, 3, 6]의 정수들의 집합으로 변환), 마지막으로 각 프레이즈에 대응되는 정수들의 집합 및 각 프레이즈에 레이블링 된 클래스를 기초로 분석모델을 학습시키는 단계(ex. 정수들의 집합 형태로 변환된 프레이즈를 고유 벡터로 변환하고 고유 벡터를 통해 정답값(긍정 1, 부정 0)을 예측하여 점차 입력된 프레이즈들을 기반으로 정답율을 높이도록 학습)가 포함될 수 있다.

한편, 텍스트 분석 과정에 의해 산출된 결과값은 상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 또는 임의의 세그먼트 내 포함된 복수 개의 형태소들을 포함할 수 있고, 필수적으로는 임의의 세그먼트에 대한 제1 스코어를 포함할 수 있다. 결과값의 예는 아래 [표 1]과 같다.

시작(초)	끝(초)	세그먼트	제1 스코어
2284.1	2296.4	오늘은 다른 때보다 더 많은 분들께 혜택이 돌아갈 수 있도록 저희가 시크릿 이벤트 가장 마지막에 공개를 할거니까 절대 나가지 마시고	0.6230
2299	2300.5	이번에도 100분께 선물을 보내드릴 거예요	0.4642
2300.5	2305.4	너무 예쁘게 나왔어요	0.9955
2305.4	2306.2	블라우스 짱 이에요	0.9490

이상 살펴본 단계들에 의해 원본 영상으로부터 추출된 음성에 대한 제1 스코어 산출이 가능할 수 있으며, 바람직하게는 각 세그먼트 별로 얼마나 긍정적인지를 평가 받을 수 있다.

도 5는 멀티모달 분석 단계 중에서도 오디오 분석 과정을 쉽게 이해하기 위해 도시한 것이다. 이에 따르면, 원본 영상으로부터 추출된 오디오에 대해서는 어떤 이벤트에 관한 것인지가 감지될 수 있고, 이벤트가 활성화 된 구간들이 선별될 수가 있다. 도 5를 참고할 때, 원본 영상으로부터 추출된 오디오는 먼저 분석을 위해 주파수 도메인으로의 변환 과정이 존재할 수 있으며, 주파수 도메인 상에서는 상기 오디오 내에서 음성 이벤트, 무음(silence) 이벤트, 시식(eat) 이벤트, 광고 이벤트, 웃음 이벤트 등의 이벤트 특성들이 감지될 수 있고 이렇게 감지된 이벤트 특성들을 기준으로 세그먼트들이 구분될 수 있다. 이렇게 구분된 세그먼트들에 대해 연산장치(100)는 제2 스코어 산출을 할 수 있다. 오디오 내에서 이벤트 특성들을 기준으로 세그먼트들을 구분하는 단계에서 오디오 분석모델이 활용될 수 있으며, 오디오 분석모델은 바람직하게는 기 학습된 오디오 성분 분해 능력을 기반으로 오디오를 여러 개의 세그먼트들, 즉 이벤트 특성 기준의 세그먼트들로 구분할 수 있다. 한편, 상기 제2 스코어는 세그먼트 내에서 소리의 세기 수준(sound intensity level), 또는 데시벨을 기준으로 산출이 이루어질 수 있다. 쉬운 예로, 라이브커머스 영상에서는 쇼호스트가 제품 설명을 하면서 강조를 할 경우 박수를 치거나, 또는 방송 중 이벤트 알람이 울리면서 중요공지가 전달되거나, 또는 패널이 크게 소리를 지름으로써 제품의 효과가 좋음을 알리는 등의 다양한 이벤트 상황이 존재할 수 있는데, 오디오 분석 과정에서는 추출된 오디오로부터 이벤트 상황을 감지해 내어 이를 기준으로 세그먼트들을 나누고, 나뉘어진 세그먼트들로부터 소리의 크기(데시벨)를 기초로 한 스코어 산출을 함으로써 어느 세그먼트가 높은 임팩트를 가지는지를 판별할 수 있게 한 것을 특징으로 한다.

도 6은 오디오 분석 과정에 포함되는 세부 단계들을 순서에 따라 나열한 것이다. 이를 참고할 때, 오디오 분석 과정은 원본 영상으로부터 오디오를 추출하는 단계(S221), 상기 오디오를 주파수 도메인으로 변환하는 단계(S222), 상기 오디오로부터 이벤트 특성을 포함하는 세그먼트들을 구분하는 단계(S223), 상기 세그먼트들 중 적어도 일부의 세그먼트들에 대하여 제2 스코어를 산출하는 단계(S224)를 포함할 수 있다. 이 때, 상기 제2 스코어를 산출하는 단계는, 각 세그먼트에 대응되는 이벤트의 종류, 각 세그먼트의 오디오 강도(intensity), 또는 이들의 조합을 기초로 점수가 산출되는 것을 특징으로 할 수 있다.

한편, 오디오 분석 과정에서는 오디오 분석모델이 활용될 수 있다고 언급하였는데, 이 오디오 분석모델은 전체 오디오 구간에서 이벤트 특성을 감지하도록, 또는 믹스드 오디오로부터 특정 이벤트에 대응되는 성분만을 분리해 내도록 학습될 수 있다. 오디오 분석모델을 학습시키는 방법에 대해 잠시 살펴보면, 가장 먼저 제1 이벤트 오디오, 제2 이벤트 오디오, 및 상기 제1 이벤트 오디오와 제2 이벤트 오디오가 믹스되어 있는 믹스드 오디오를 생성하는 단계(ex. 시식 오디오, 스피치 오디오, 및 믹스드 오디오를 생성), 그리고 상기 제1 이벤트 오디오, 제2 이벤트 오디오, 및 믹스드 오디오를 주파수 도메인으로 변환하는 단계(ex. STFT(Short-Time Fourier Transform)알고리즘을 이용한 주파수 도메인 변환)를 포함할 수 있으며, 이 후 상기 믹스드 오디오로부터 제1 이벤트에 대응되는 오디오 또는 제2 이벤트에 대응되는 오디오를 분리한 후 분리된 오디오를 각각 상기 제1 이벤트 오디오 또는 제2 이벤트 오디오와 대조하여 차이값을 연산하는 단계(ex. 믹스드 오디오로부터 시식 오디오 또는 스피치 오디오 성분을 분리한 후 분리된 오디오 성분을 각각 정답 오디오(시식 오디오, 스피치 오디오)와 대조), 및 상기 차이값이 작아지도록 상기 믹스드 오디오로부터 제1 이벤트에 대응되는 오디오 또는 제2 이벤트에 대응되는 오디오를 분리한 후 상기 제1 이벤트 오디오 또는 제2 이벤트 오디오와 대조하는 것을 반복하는 단계를 포함할 수 있다.

한편, 오디오 분석 과정에 의해 산출된 결과값은 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 임의의 세그먼트로부터 획득된 오디오 강도 값, 또는 임의의 세그먼트에 대해 판별된 이벤트 종류를 포함할 수 있으며, 필수적으로는 임의의 세그먼트에 대한 제2 스코어를 포함할 수 있다. 오디오 분석 과정에 따라 산출된 결과값의 예시는 아래 [표 2]와 같다.

시작(초)	끝(초)	세그먼트(이벤트)	제2 스코어
10.0	12.5	speech	0.0
12.5	15.1	eating sound	0.95
15.1	27.0	speech	0.0
27.0	30.0	laugh	0.62

도 7은 멀티모달 분석 단계 중에서도 이미지 분석 과정을 쉽게 이해하기 위해 도시한 것이다. 이에 따르면 원본 영상의 전체 또는 일부는 프레임 단위로 분할이 될 수 있으며, 그 중에서도 키프레임이 선별될 수 있고, 키프레임 내에서의 특정 오브젝트의 크기, 위치 등을 참조하여 오브젝트가 크게 자리를 차지하고 있는 키프레임 및 그 해당 구간을 선별해 내는 것을 특징으로 한다. 도 7에는 키프레임 내에 사람의 얼굴(제1 오브젝트) 및 손(제2 오브젝트)의 크기 및 위치를 파악한 후 이들을 포함하는 세그먼트를 대상으로 제3 스코어를 산출하는 과정이 도시되어 있다. 쉬운 예로, 라이브커머스 영상에서는 쇼호스트나 패널이 화장품, 음식을 설명하고자 하는 장면일 때 사람의 얼굴이 클로즈업 되는 사례가 많은데, 이렇게 사람의 얼굴이 클로즈업 되는 프레임을 대상으로 높은 스코어를 부여하는 경우 해당 구간이 프라임 구간으로 선별되어 요약영상 내 포함될 확률이 높아지게 된다.

도 8은 이미지 분석 과정에 포함되는 세부 단계들을 순서에 따라 나열한 것이다. 이를 참고할 때, 가장 먼저 임의의 원본 영상을 프레임 단위로 분할하는 단계(S231), 영상을 단위 세그먼트들로 구분하는 단계(S232), 세그먼트에 대해 제3 스코어를 산출하는 단계(S233)를 포함할 수 있다. 이 중에서도 특히 제3 스코어를 산출하는 단계(S233)는 다시 세그먼트로부터 키프레임을 추출하는 단계(S2331), 키프레임 내 포함된 특정 오브젝트의 추출 및 분석하는 단계(S2332), 그리고 분석 결과를 기초로 제3 스코어를 산출하는 단계(S2333)를 더 포함할 수 있다.

참고로 상기 S232 단계에서의 단위 세그먼트는 샷(shot)을 기준으로 나뉜 세그먼트일 수 있다. 샷이란, 카메라가 촬영을 한번 시작하면서부터 멈출 때까지의 연속된 영상을 일컫는 것으로, 상기 단위 세그먼트가 샷을 기준으로 나뉜다는 것의 의미는 편집점이 없는 연속된 구간이 하나의 단위 세그먼트로 나뉠 수 있음을 의미한다. 이렇게 샷을 기준으로 세그먼트를 나누기 위해서는 전 후 프레임 간의 픽셀 변화량을 모니터링하고, 픽셀 변화량이 기 정해진 값 이상의 값을 보일 때에 편집점이 생긴 것으로 판단하는 등의 과정들이 필요할 수 있다.

한편, 이미지 분석 과정에서는 이미지 분석모델이 활용될 수 있는데, 이 이미지 분석모델은 임의의 이미지 내에서 특정 오브젝트를 탐지(detect)해 낼 수 있도록 학습된 알고리즘일 수 있다. 이미지 분석모델을 학습시키는 방법에 대해 살펴보면, 가장 먼저 특정 오브젝트가 포함되어 있는 이미지 데이터, 및 이미지 내에서 상기 오브젝트의 위치정보를 포함하는 텍스트 데이터를 생성하는 단계(ex. 얼굴 또는 손이 포함되어 있는 이미지, 및 얼굴 또는 손의 위치가 [오브젝트 종류, x좌표, y좌표, 너비, 높이]의 형태로 기록된 텍스트 데이터를 생성)를 포함할 수 있으며, 이 후 상기 이미지 데이터로부터 특정 오브젝트에 대한 바운딩 박스를 정의하는 단계(ex. 이미지 데이터로부터 얼굴 또는 손을 찾기 위한 바운딩 박스를 정의), 상기 이미지 데이터 내에 정의된 특정 오브젝트의 바운딩 박스와 상기 오브젝트의 위치정보를 기초로 정의되는 앵커 박스 간 차이값을 연산하는 단계(ex. 얼굴 또는 손을 찾기 위해 정의한 바운딩 박스와, 정답 박스라 할 수 있는 앵커 박스 간 차이를 연산), 상기 차이값이 작아지도록 상기 이미지 데이터 내 특정 오브젝트의 바운딩 박스를 정의한 후 상기 앵커 박스와의 대조하는 것을 반복하는 단계(이미지 데이터 내 얼굴 또는 손을 찾기 위한 바운딩 박스를 재정의 함으로써 앵커 박스와의 대조값 차이가 작아지도록 탐색을 반복) 등이 포함될 수 있다. 또한, 이 학습 방법 중에는 여러 바운딩 박스들 중 ground-truth 박스와의 IOU(Intersection Over Union; 앵커 박스와 바운딩 박스의 교집합 영역 넓이를 합집합 영역 넓이로 나눈 값)가 가장 높은 바운딩 박스가 오브젝트 판별용 바운딩 박스(predictor)로 설정이 되고, 이 바운딩 박스 내에 오브젝트가 존재하는지 여부를 바이너리(binary)하게 판별하는 과정이 더 포함될 수 있다.

다른 한편, 이미지 분석 과정에 의해 산출된 결과값은 상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 또는 키프레임 내 포함된 특정 오브젝트의 속성을 포함할 수 있으며, 필수적으로는 임의의 세그먼트에 대한 제3 스코어가 포함된다. 이미지 분석 과정에 따라 산출된 결과값의 예시는 아래 [표 3]과 같다.

시작(초)	끝(초)	제3 스코어
118.0	195.0	0.35
195.0	230.0	0.0
230.0	258.0	0.6
258.0	261.0	0.4

이상 도 3 내지 도 8을 참고하여 멀티모달 분석 단계에 대해 살펴 보았다. 이하에서는 도 9 내지 도 12를 참고하여 요약영상을 생성하기 위해 프라임 구간들을 선별하는 과정에 대해 더 살펴보기로 한다.

도 9와 도 10은 원본 영상으로부터 추출된 3개의 세그먼트들이 각각 멀티모달 분석에 따라 스코어를 산출 받은 모습을 도시한 것이며, 이 중 도 10은 스코어에 가중치가 적용된 후의 모습을 도시한 것이다.

먼저 도 9를 참고할 때, 원본 영상으로부터 획득된 A 세그먼트, B 세그먼트, C 세그먼트는 각각 10.5~10.7초, 10.7~10.9초, 10.9~11.1초의 구간에 대응되는데, 이 세그먼트들 중 어느 세그먼트를 프라임 구간으로 선별할 지와 관련하여서는 도 9에 도시되어 있는 것과 같이 멀티모달 분석 결과에 따른 스코어들을 각 세그먼트들 별로 모두 합산한 값을 이용할 수 있음을 확인할 수 있다. 스코어들을 합산한 결과, A 세그먼트는 해당 구간에서 총 2.2점을, C 세그먼트는 총 2.0점을 얻은 것으로 나타나는데, 이들 총점이 3개의 세그먼트들 중 상위 2개에 포함되므로 이 2개의 세그먼트들을 프라임 구간으로 선별할 수 있다. 또는, 합산 결과 1.0 이상인 구간을 포함하는 세그먼트에 대해 프라임 구간으로 선별하겠다는 조건이 적용되는 경우에도 마찬가지로 A 세그먼트 및 C 세그먼트 내에 합산 스코어가 1.0 이상인 구간이 포함되므로 이 2개의 세그먼트들이 프라임 구간을 선별될 것이다. 이렇듯 본 발명에 따른 요약영상 생성 방법에서는 멀티모달 분석 결과에 따른 합산 스코어가 프라임 구간들을 선별하는 데에 기초 자료로 활용될 수 있으며, 어느 세그먼트를 프라임 구간으로 선별할 지와 관련하여서는 다양한 조건, 기준들이 존재할 수 있다.

도 10은 앞선 도 9의 실시예에 특정 가중치가 적용된 것을 도시하고 있다. 예를 들어, 텍스트 스코어에 대해서는 1.0, 오디오 스코어에 대해서는 0.5, 이미지 스코어에 대해서는 1.5의 가중치가 적용된다고 하였을 때, 도 9의 합산 스코어는 도 10과 같이 변경될 것이며, 이에 따라 최종 요약영상에 포함될 프라임 구간 역시 달라질 수 있다. 도 10을 기준으로 할 때, 만일 1.0 이상의 구간을 포함하는 세그먼트만 프라임 구간으로 선별하기로 하였다면 C 세그먼트만이 프라임 구간으로 선별될 것이다.

도 11과 도 12는 조금 더 복잡한 실시예를 도시한 것으로, 앞서 도 9 및 도 10에서는 텍스트, 오디오, 이미지 분석의 대상이 되는 세그먼트들이 동일한 구간들이었던 반면, 도 11 및 도 12에서는 서로 다른 구간들을 대상으로 멀티모달 분석이 이루어진 경우를 도시하고 있다. 즉, 도 11 및 도 12에서는 텍스트, 오디오, 이미지 분석의 대상이 되는 세그먼트들이 모두 상이함을 확인할 수 있는데, 텍스트 분석에서의 세그먼트들은 [20~20.2, 20.2~20.4, 20.4~20.6, 20.6~20.8]의 4개로 나뉘는 반면, 오디오 분석에서의 세그먼트들은 [20~20.3, 20.3~20.7, 20.7~20.8]의 3개, 이미지 분석에서의 세그먼트들은 [20~20.3, 20.3~20.6, 20.6~20.8]의 3개로 나뉘고 있음을 알 수 있다.

도 11을 참고할 때, 멀티모달 분석 결과에 따른 스코어들은 멀티모달 별 세그먼트들이 중첩되는 구간에 대해 합산될 수 있으며, 그 결과 최종 합산 스코어는 도 11의 하단에 보이는 것과 같이 세그먼트들이 세분화 된 상태에서 각각이 합산 스코어를 가지는 형태로 표시될 수 있다. 즉, 모든 세그먼트들의 시작점 및 종료점을 합집합으로 하여 하나의 타임라인에 표시한 것과 마찬가지가 되므로 결과적으로 세분화 된 세그먼트들에 대한 합산 스코어를 결과물로써 얻을 수 있게 되는 것이다. 최종 요약영상에 포함될 프라임 구간들은 바로 이 합산 스코어들을 기초로 선별될 수 있다. 만일 합산 스코어가 1.0 이상인 구간을 포함하는 세그먼트를 프라임 구간으로 선별한다면, 도 11에서는 1.4점을 얻은 D 세그먼트 및 1.0점을 얻은 E 세그먼트가 프라임 구간으로 선별될 것이다.

다음으로 도 12를 참고할 때, 도 12는 멀티모달 분석 결과에 따른 스코어에 가중치를 적용하고 있다는 점에서 도 11의 실시예와 차이가 있으며, 또한, 도 12의 실시예에서는 최종 프라임 구간 선별 시 텍스트 분석의 대상이 되었던 세그먼트를 기준으로 한다는 점에서 중요한 차이가 있다. 다시 말해, 멀티모달 분석의 대상이 되는 세그먼트들이 모두 상이하기 때문에 합산 스코어 연산을 위해서는 모든 세그먼트들의 시작점 및 종료점을 합집합으로 하는 타임라인이 그려지지만, 최종적으로 프라임 구간을 선정할 시에는 텍스트 분석에 따른 세그먼트의 시작점 및 종료점을 따르게 한다는 점에서 앞선 도 11의 실시예와 차이가 있는 것이다. 프라임 구간 선별 시 텍스트 분석에 의한 세그먼트를 따르는 이유는, 오디오 분석 또는 이미지 분석에 의한 세그먼트에 비해 텍스트 분석에 의한 세그먼트가 시청자 입장에서 더 자연스럽게 장면 간 연결을 받아들일 확률이 높기 때문이다. 이는 텍스트 분석시 종결어미를 기준으로 세그먼트를 나누는 분석 과정의 특징에 기인한 것으로, 종결어미를 기준으로 세그먼트를 나눌 때에 장면의 시작 및 끝이 비교적 명확하게 인지가 되므로 시청자들이 자연스럽게 콘텐츠를 시청할 수 있게 될 가능성이 높기 때문이다. 오디오 분석 또는 이미지 분석 과정에서의 세그먼트 구분은 텍스트 분석에 비하여 상대적으로 부적절한 구간에서의 세그먼트 시작 또는 종류가 이루어질 가능성이 높아 프라임 구간 선별 시에는 텍스트 분석에 의한 세그먼트를 기준으로 하는 것이 바람직하다. 도 12를 참고할 때, 최종 합산 스코어가 도 12의 하단 타임라인에 표시되어 있는데, 이 때 1.0점 이상의 합산 스코어를 가지는 구간을 포함하는 세그먼트를 프라임 구간으로 선별한다고 가정하면, 1.05점 구간을 포함하는 F 세그먼트, 1.55점 구간을 포함하는 G 세그먼트, 그리고 1.45 및 1.35점 구간을 포함하는 H 세그먼트가 프라임 구간으로 선별될 것이다.

이상 멀티모달 분석 기반의 요약영상 생성 방법 및 이를 위한 연산장치에 대해 살펴보았다. 한편, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 구별되어 이해되어서는 안 될 것이다.

100 연산장치
110 영상 수신부 120 영상 분석부 130 영상 생성부
121 텍스트 분석부
123 오디오 분석부
125 이미지 분석부

Claims

중앙처리유닛 및 메모리를 포함하는 장치를 이용해 요약 영상을 생성하는 방법에 있어서,
원본 영상을 로드(load)하는 단계;
상기 원본 영상에 대해 멀티모달 분석을 하는 단계;
멀티모달 분석 결과에 따라 복수 개의 프라임 구간들을 선별하는 단계;
상기 프라임 구간들이 포함된 요약 영상을 생성하는 단계;
를 포함하는,
요약 영상 생성 방법.
제1항에 있어서,
상기 멀티모달 분석 단계는,
상기 원본 영상으로부터 획득 가능한 음성을 텍스트로 변환한 것을 분석하는 텍스트 분석 과정,
상기 원본 영상으로부터 획득 가능한 오디오 성분을 분석하는 오디오 분석 과정, 또는
상기 원본 영상의 임의 프레임으로부터 획득 가능한 이미지를 분석하는 이미지 분석 과정 중 적어도 하나를 포함하는 것을 특징으로 하는,
요약 영상 생성 방법.
제2항에 있어서,
상기 텍스트 분석 과정은,
상기 원본 영상으로부터 음성을 추출하는 단계;
상기 원본 영상으로부터 추출한 음성을 텍스트로 변환하는 단계; 및
변환된 텍스트를 구성하는 복수 개의 세그먼트(segment)들에 대하여 제1 스코어를 산출하는 단계;
를 포함하는,
요약 영상 생성 방법.
제3항에 있어서,
상기 제1 스코어의 산출은 제1 분석모델에 따라 이루어지되,
상기 제1 분석모델은, 복수의 형태소(形態素)들을 포함하는 임의의 텍스트 또는 상기 임의의 텍스트를 구성하는 세그먼트에 대한 긍정도 값을 산출하기 위한 알고리즘인 것을 특징으로 하는,
요약 영상 생성 방법.
제4항에 있어서,
상기 음성을 텍스트로 변환하는 단계 이후,
변환된 텍스트를 전처리 하는 단계; 를 더 포함하되,
상기 텍스트 전처리 단계는,
상기 변환된 텍스트에 대하여 복수 개의 형태소들을 탐색하는 단계;
상기 복수 개의 형태소들 중 종결어미를 탐색하는 단계;
상기 종결어미를 기준으로 상기 텍스트를 복수 개의 세그먼트들로 구별하는 단계;
를 포함하는 것을 특징으로 하는,
요약 영상 생성 방법.
제5항에 있어서,
상기 텍스트 분석 과정에 의해 산출된 결과값은,
상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 또는 임의의 세그먼트 내 포함된 복수 개의 형태소들을 포함하고,
그리고 임의의 세그먼트에 대한 제1 스코어를 포함하는 것을 특징으로 하는,
요약 영상 생성 방법.
제2항에 있어서,
상기 오디오 분석 과정은,
상기 원본 영상으로부터 오디오를 추출하는 단계;
상기 오디오로부터 임의의 이벤트 특성을 포함하는 세그먼트들을 구분하는 단계;
상기 세그먼트들 중 적어도 일부의 세그먼트들에 대하여 제2 스코어를 산출하는 단계;
를 포함하는,
요약 영상 생성 방법.
제7항에 있어서,
상기 제2 스코어를 산출하는 단계는,
각 세그먼트에 대응되는 이벤트의 종류, 각 세그먼트의 오디오 강도, 또는 이들의 조합을 기초로 연산이 이루어지는 것을 특징으로 하는,
요약 영상 생성 방법.
제8항에 있어서,
상기 오디오 분석 과정에 의해 산출된 결과값은,
상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 임의의 세그먼트로부터 획득된 오디오 강도 값, 또는 임의의 세그먼트에 대해 판별된 이벤트 종류를 포함하고,
그리고 임의의 세그먼트에 대한 제2 스코어를 포함하는 것을 특징으로 하는,
요약 영상 생성 방법.
제2항에 있어서,
상기 이미지 분석 과정은,
상기 원본 영상 중 적어도 일부의 영상을 복수 개의 세그먼트들로 구분하는 단계;
상기 복수 개의 세그먼트들 중 적어도 일부의 세그먼트들에 대하여 제3 분석모델에 따라 제3 스코어를 산출하는 단계;
를 포함하는,
요약 영상 생성 방법.
제10항에 있어서,
상기 제3 스코어를 산출하는 단계는,
상기 구분된 세그먼트들 중 적어도 일부의 세그먼트에 대하여 키프레임을 추출하는 단계;
상기 키프레임 내 포함된 특정 오브젝트의 크기, 오브젝트의 위치, 또는 전체 이미지 대비 오브젝트의 크기비율, 또는 이들의 조합을 기초로 제3 스코어를 산출하는 단계;
를 포함하는,
요약 영샹 생성 방법.
제11항에 있어서,
상기 이미지 분석 과정은,
상기 영상을 복수 개의 세그먼트들로 구분하는 단계 이전,
상기 영상을 복수 개의 프레임들로 분할하는 단계;를 더 포함하는,
요약 영상 생성 방법.
제12항에 있어서,
상기 이미지 분석 과정에 의해 산출된 결과값은,
상기 원본 영상 내에서 임의의 세그먼트가 시작된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 종료된 지점, 상기 원본 영상 내에서 임의의 세그먼트가 재생된 시간, 또는 키프레임 내 포함된 특정 오브젝트의 속성을 포함하고,
그리고 임의의 세그먼트에 대한 제3 스코어를 포함하는 것을 특징으로 하는
요약 영상 생성 방법.
제1항에 있어서,
상기 복수 개의 프라임 구간들을 선별하는 단계는,
멀티모달 분석 결과에 따라 산출되는 각 세그먼트 별 스코어를 합산하는 단계;
임의의 조건에 따라 결정되는 수의 세그먼트들을 프라임 구간으로 선별하는 단계;
를 포함하되,
상기 프라임 구간으로 선별되는 세그먼트들은 합산 스코어가 높은 순서대로 선별되는 것을 특징으로 하는,
요약 영상 생성 방법.
제1항에 있어서,
상기 스코어를 합산하는 단계는,
임의의 조건에 따라 상기 멀티모달 분석 결과에 따라 산출되는 각 세그먼트 별 스코어의 가중치를 달리하여 스코어를 합산하는 것을 특징으로 하는,
요약 영상 생성 방법.
,
중앙처리유닛 및 메모리를 포함하는 장치가 텍스트 분석모델을 학습시키는 방법에 있어서,
복수 개의 프레이즈(phrase)들에 대해 각각 긍정 클래스 또는 부정 클래스를 레이블링 함으로써 학습용 데이터를 생성하는 단계;
각 프레이즈를 임의 개수의 어구(語句)들로 나누고, 각 어구들에 임의의 정수를 부여함으로써 각 프레이즈에 대응되는 정수들의 집합을 획득하는 단계;
각 프레이즈에 대응되는 정수들의 집합 및 각 프레이즈에 레이블링 된 클래스를 기초로 학습시키는 단계;
를 포함하는,
텍스트 분석모델을 학습시키는 방법.
중앙처리유닛 및 메모리를 포함하는 장치가 오디오 분석모델을 학습시키는 방법에 있어서,
제1 이벤트 오디오, 제2 이벤트 오디오, 및 상기 제1 이벤트 오디오와 제2 이벤트 오디오가 믹스되어 있는 믹스드 오디오를 생성하는 단계;
상기 제1 이벤트 오디오, 제2 이벤트 오디오, 및 믹스드 오디오를 주파수 도메인으로 변환하는 단계;
상기 믹스드 오디오로부터 제1 이벤트에 대응되는 오디오 또는 제2 이벤트에 대응되는 오디오를 분리한 후 분리된 오디오를 각각 상기 제1 이벤트 오디오 또는 제2 이벤트 오디오와 대조하여 차이값을 연산하는 단계; 및
상기 차이값이 작아지도록 상기 믹스드 오디오로부터 제1 이벤트에 대응되는 오디오 또는 제2 이벤트에 대응되는 오디오를 분리한 후 상기 제1 이벤트 오디오 또는 제2 이벤트 오디오와 대조하는 것을 반복하는 단계;
를 포함하는,
오디오 분석모델을 학습시키는 방법.
중앙처리유닛 및 메모리를 포함하는 장치가 이미지 분석모델을 학습시키는 방법에 있어서,
특정 오브젝트가 이미지 내에 포함되어 있는 이미지 데이터, 및 이미지 내에서 상기 오브젝트의 위치정보를 포함하는 텍스트 데이터를 생성하는 단계;
상기 이미지 데이터로부터 특정 오브젝트의 바운딩 박스(bounding box)를 정의하는 단계;
상기 이미지 데이터 내에 정의된 특정 오브젝트의 바운딩 박스(bounding box)와 상기 오브젝트의 위치정보를 기초로 정의되는 앵커 박스(anchor box) 간 차이값을 연산하는 단계; 및
상기 차이값이 작아지도록 상기 이미지 데이터 내 특정 오브젝트의 바운딩 박스를 정의한 후 상기 앵커 박스와의 대조하는 것을 반복하는 단계;
를 포함하는,
이미지 분석모델을 학습시키는 방법.
제18항에 있어서,
상기 이미지 데이터 내에서 정의된 복수 개의 바운딩 박스들 중 적어도 어느 하나의 바운딩 박스와 상기 이미지 데이터 내 상기 특정 오브젝트의 이미지를 비교하여 상기 바운딩 박스 내에 특정 오브젝트가 존재하는지 여부를 판별하는 단계;
를 더 포함하는,
이미지 분석모델을 학습시키는 방법.