KR20210064620A

KR20210064620A - 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법

Info

Publication number: KR20210064620A
Application number: KR1020190153040A
Authority: KR
Inventors: 지승국
Original assignee: 주식회사 와이즈넛
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-03
Also published as: KR102275095B1

Abstract

본 발명은 크리에이터를 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법에 관합니다.
본 발명에서 컴퓨터 단말은 유튜브 네트워크에서 비정형 텍스트 데이터를 수집하고, 수집된 텍스트 데이터에 포함된 문서들에서 문서별로 문서를 대표하는 단어로서 명사, 명사와 접사, 명사와 명사 중 어느 하나의 형태로 구성되는 주제어를 주제어별 가중치를 부여하면서 추출합니다. 추출된 주제어 집합 중 문서에서 높은 출현 확률을 갖는 주제어들을 포괄하는 상위 개념으로 명사, 명사구 또는 복합명사 중 어느 하나의 형태로 구성되는 추상화 주제 후보군을 선정해서 정해진 스코어에 따라 1개 이상의 추상화 주제를 생성하여 유튜브 채널의 크리에이터 단말로 전달하는 단계를 포함합니다.
본 발명에서는 유튜브 채널의 게시물, 자막, 댓글 및 채널정보에서 상기 비정형 텍스트 데이터가 수집됩니다.

Description

개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법{THE INFORMATIZATION METHOD FOR YOUTUBE VIDEO METADATA FOR PERSONAL MEDIA PRODUCTION}

본 발명은 텍스트 데이터 분석에 관하며, 특히 유튜브^TM 채널 영상의 메타데이터 분석에 관한다.

오늘날 유튜브 채널을 통해 수많은 동영상이 제작되고 발행되며 공유되고 있다. 유튜브 채널의 구독자가 늘어날수록 동영상을 제작하는 사람에게 수익이 발생하기 때문에 많은 크리에이터들이 유튜브 채널에서 활동한다. 그러나 모든 크리에이터가 유튜브 네트워크에서 만족할 만한 수익을 얻는 것은 아니다.

구독자 수가 10만 명 아래에 그치는 크리에이터의 경우 투자한 노력에 비해 수익이 저조해서 직업으로서의 안정성이 낮다. 수익 확대를 위해서는 구독자 확대가 필수적이다. 그러나 대부분의 크리에이터는 그 방법을 모른다.

본 발명의 발명자들은 우리가 구독자 확대에 어려움을 겪는 크리에이터를 효과적으로 도울 수 있지 않을까 생각하면서 오랫동안 연구하고 노력한 끝에 본 발명을 완성하기에 이르렀다. 유튜브 채널을 통해 생산되고 표현되며 유통되는 컨텐츠 및 데이터를 수집하고 잘 분석해서 유의미한 결과를 만들어낼 수 있을 것이다.

본 발명의 목적은 유튜브 채널에서 활동하는 크리에이터가 참고할 수 있는 명징한 정보를 제공함에 있다. 이전까지는 그래서 어떻게 영상을 제작하는 것이 좋은지, 어떤 시나리오가 효과적일지, 어떤 주제를 선택하는 것이 좋을지를 데이터 분석이 아닌 "개인적인 감" 혹은 "성향"에 의존하였다. 본 발명은 주관적인 판단이 아니라 데이터 분석에 기반한 객관적인 근거를 제시한다.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.

위와 같은 과제를 달성하기 위해 본 발명은 크리에이터를 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법으로서:

컴퓨터 단말이 유튜브 데이터 API를 통해 유튜브 네트워크에서 선별된 유튜브 채널에 대한 비정형 텍스트 데이터를 수집하고, 수집된 텍스트 데이터에 포함된 문서들에서 문서별로 문서를 대표하는 단어로서 명사, 명사와 접사, 명사와 명사 중 어느 하나의 형태로 구성되는 주제어를 주제어별 가중치를 부여하면서 추출하여, 추출된 주제어 집합을 구성하며, 상기 주제어 집합 중 문서에서 높은 출현 확률을 갖는 주제어들을 포괄하는 상위 개념으로 명사, 명사구 또는 복합명사 중 어느 하나의 형태로 구성되는 추상화 주제 후보군을 선정하고,

문서 별 상기 추상화 주제 비율 또는 상기 추상화 주제별 상기 주제어 비율을 통해 각각의 문서에 대한 추상화 주제들을 계산된 스코어에 따라 순위별로 정하고,

스코어에 따라 정해진 1개 이상의 추상화 주제를 유튜브 채널의 크리에이터 단말로 전달하는 단계를 포함하며,

상기 유튜브 채널의 게시물, 자막, 댓글 및 채널정보에서 상기 비정형 텍스트 데이터를 수집하는 것을 특징으로 한다.

본 발명의 바람직한 어느 실시예 따른 크리에이터를 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법에 있어서, 상기 주제어를 추출하는 과정에서 주제어별 가중치는 다음 수식으로 정해지는 것이 좋다.

여기서, TL _t 는 단어 t의 길이, TF _t 는 단어 t의 출현 수, ISF _t 는 1/(단어 t가 출현한 문장의 수), w _f 는 필드별 가중치, f는 필드 번호.

본 발명에 따르면 유튜브 채널 영상의 메타데이터(댓글, 자막, 설명, 조회수, 좋아요, 싫어요, 헤시태그 등)의 텍스트 데이터 분석을 통해 주요한 의미를 갖는 키워드를 추출하여, 해당 동영상에 추가적인 의미(감성, 연관 관계 등)를 부여하여 이를 기반 데이터로 하여 개인 미디어 제작 시 주제 설정을 효과적으로 할 수 있다. 이를 통해 크리에이티브 컨텐츠 제작을 위한 유용한 정보를 생성하여 영상 제작자에게 컨셉 도출, 시나리오 작성 등을 위한 기반 데이터를 제공할 수 있는 장점이 있다.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.

도 1은 본 발명의 바람직한 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.
도 2는 본 발명의 방법을 실행하는 유튜브 수집기(100)와 유튜브 분석기(110)의 구성과 기능을 개략적으로 나타내었다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 전체 프로세스를 개괄적으로 예시하였다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.

이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 바람직한 어느 실시예에 따른 시스템 구성을 개략적으로 나타내었다.

분석자 단말인 컴퓨터 단말은 유튜브 데이터 API를 이용하여 통신망을 통해 유튜브 네트워크(1)에 접속한다. 유튜브 네트워크에는 다수의 유튜브 채널들이 존재하며, 이 유튜브 채널을 통해서 유튜브 영상을 제작되어 업로드되고 공유된다. 컴퓨터 단말(10)은 이 유튜브 네트워크(1)에서 비정형 텍스트 데이터를 수집한다. 바람직한 어느 실시예에서는 특정 유튜브 채널(들)을 선별하여 메타데이터를 수집할 수 있다. 또한 바람직한 다른 실시예에서는 다수의 유튜브 채널에서 메타데이터를 수집할 수 있다. 예를 들어 50만 이상 구독자가 있는 유튜브 채널에서 데이터를 수집할 수 있다. 혹은 유튜브 채널의 상위 100위 카테고리 순위로 유튜브 채널을 선별하여 데이터를 수집할 수 있다. 다른 실시예에서는 크리에이터 단말이 자기 계정으로 만든 유튜브 채널의 영상만을 선별하여 데이터를 수집할 수 있다.

컴퓨터 단말(1)은 비정형 텍스트 데이터와 메타데이터를 유튜브 네트워크(1)에서 수집하고(S1), 언어 처리 및 분석을 통해 주제어를 추출하고(S2), 추출된 주제어 집합에서 상위 개념의 주제를 생성한다(S3).

수집되는 비정형 텍스트 데이터와 메타데이터로는 다음과 같은 데이터가 미리 정의되어 설정될 수 있다.

- 게시물. 예컨대, 제목(title), 설명(description), 등록일(publish at), 조회수(view count), 등록 아이디(ID), 좋아요 개수(like count), 싫어요 개수(dislike count), 카테고리(category ID), 채널 아이디(channel ID).

- 자막. 예컨대, 텍스트만 존재하는 TXT형태와 영상의 특정 부분을 검색 할 수 있는 SRT형태의 파일.

- 댓글. 예컨대, 내용(content), 등록일(publish at), 좋아요 개수(like count).

- 채널정보. 예컨대 채널명(channel name), 구독자 수(subscriber count)

이와 같은 비정형 텍스트 데이터와 메타데이터에서 주제어를 추출하고, 추출된 주제어 집합을 분석하여 상위 개념의 주제(11)를 생성하여 크리에이터 단말(20)에 전달한다.

이와 같은 데이터 수집 및 분석작업은 컴퓨터 단말(10)에 설치되는 유튜브 수집기(100) 및 유튜브 분석기(110)에 의해 실행된다. 도 2는 이와 같은 구성을 개략적으로 나타내었다.

유튜브 수집기(100)는 유튜브 댓글 수집모듈(101), 유튜브 자막수집모듈(103) 및 채널 게시물 수집기(105)를 포함할 수 있다. 이들 구성요소는 유튜브 영상이 저장되어 있는 데이터베이스(2)에 접근하여 각각 설정된 역할과 기능에 따라 별도로 데이터를 수집한다.

유튜브 댓글 수집모듈(101)은 유튜브 영상의 댓글을 수집한다.

유튜브 자막 수집모듈(103)은 영상의 자막 데이터를 수집한다. 유튜브 자막에는 영상 자체에 제작자가 자막을 입력한 경우와 음성을 분석하여 자동으로 생성한 자막이 있다. 후자의 경우, 오류 방지를 위해 문장 오류 및 오타 부분을 자동으로 수정한다. 또한 유튜브 자막 수집모듈(103)은 이슈 장면 분석을 위해 자막의 표기 시간을 수집한다.

채널 게시물 수집기(105)는 유튜브 채널에 업로도된 게시물, 유튜브 영상과 함께 게시된 게시물 텍스트를 수집한다. 그리고 채널 게시물과 관련되는 메타데이터도 함께 또는 별도로 수집한다.

유튜브 분석기(110)는 형태소 분석 및 언어처리모듈(111), 주제어 추출 모듈(113), 상위 주제 모델링 모듈(115)을 포함한다. 이들 구성요소는 데이터베이스(20)에 저장되어 있는 형태소 사전, 카테고리 사전, 상위 개념 주제 사전, 기타 언어분석에 필요한 리소스 등을 이용하여 유튜브 수집기(100)가 수집한 데이터를 분석한다.

형태소 분석 및 언어처리모듈(111)는 수집한 데이터를 명사, 동사, 형용사 등 형태소 사전을 이용하여 분석한다. 예컨대 수집한 데이터가 "오늘 광장시장에 가서 육회를 먹었는데 맛없었다."라면, 형태소 분석 결과로, "오늘 광장시장 가다 육회 먹다 맛없다"라는 문장으로 변환할 수 있다. 이와 같이 분석된 데이터는 카테고리 사전을 통해 분류한다. 예컨대, "오늘"은 시간에 대한 데이터, "광장시장"은 고유 데이터, "가다"는 행동에 대한 데이터, "육회"는 고유 데이터 등으로 분류될 수 있다. 그런 다음에 분류한 데이터를 감성 분석 사전(긍정/부정/중립)을 이용하여 분석한다. 예컨대 위 형태소 분석 결과 중 "오늘, 광장시장, 가다, 먹다"는 중립으로 분석되고 "맛없다"는 부정으로 분석된다. 그런 다음, 문장 전체에 대한 감석 분석 분류를 진행한다.

또한, 상기 형태소 분석 및 언어처리모듈은 자연어 분석 모듈, 의미 분석 모듈, 화행 분석 모듈을 포함하여 구성될 수 있다. 각각, 비정형 텍스트 데이터에서 형태소 분석을 수행하고 개체명을 인식, LSP(Lexico Syntactic Pattern)를 활용하여 자연어 질의의 의미를 분석하고 감성정보와 질의 의도를 분석, 문장 흐름 정보를 이용해 인식된 개념과 조건을 분석하여 화행 흐름을 판단하는 기능을 실행한다.

주제어 추출 모듈(113)은 수집된 텍스트 데이터에 포함된 문서들에서 주제어를 추출한다. 주제어란 문서별로 문서를 대표하는 의미있는 단어로 정의되며, 명사, 명사와 접사, 명사와 명사 중 어느 하나의 형태로 구성된다. 접사란 명사 앞에 결합되는 접두사, 명사 뒤에 결합되는 접미사를 포함하는 것이다. 이런 주제어는 문서별로 다수 추출되기 때문에 주제어 집합을 구성한다.

바람직하게는 주제어는 주제어별 가중치를 부여하면서 추출한다. 주제어를 추출하는 과정에서 주제어별 가중치는 다음 식 (1)의 수식으로 정해질 수 있다.

(식 1)

여기서, TL _t 는 단어 t의 길이, TF _t 는 단어 t의 출현 수, ISF _t 는

, w _f 는 필드별 가중치, f는 필드 번호를 나타낸다.

TF(Term Frequency)로 특정 단어의 출현 빈도를 측정한 값이다. ISF(Inverse Sentence Frequency)는 SF값을 역수로 취한 값인데, 여기서 SF는 Sentence Frequency, 즉 문장빈도를 나타내는 것으로 특정단어가 등장한 문장의 개수를 의미한다. 그런데 많은 문장에 자주 나타나는 단어가 항상 유의미하다고 단정할 수는 없다. 예를 들어 This, I, and, You 등의 이런 대명사 단어들은 많은 문장에서 단골로 나타난다. 하지만 그 단어가 문장에서 중요한 단어라고 말하기는 어렵다. 따라서 이런 SF값의 역수를 취함으로써 특정 용어의 중요도를 조정해 줄 수 있다.

정리하면 전체 문장에서의 특정 단어의 출현 횟수(TF)가 높고, 그 단어를 포함하는 문장의 개수는 적을 때 TF*ISF값이 가장 극대화될 수 있고, 그 경우의 해당 단어가 특정 문서를 구별하는 유의미한 단어로 볼 수 있다..

위와 같은 수식과 과정으로 주제어를 추출한 다음에, 해당 주제어보다 상위 개념의 단어인 추상화 주제를 정한다.

상위 주제 모델링 모듈(115)이 추출된 주제어 집합을 분석하여 상기 주제어 집합 중 문서에서 높은 출현 확률을 갖는 주제어들을 포괄하는 상위 개념으로 명사, 명사구 또는 복합명사 중 어느 하나의 형태로 구성되는 추상화 주제 후보군을 선정한다.

그리고 문서 별 상기 추상화 주제 비율 또는 상기 추상화 주제별 상기 주제어 비율을 통해 각각의 문서에 대한 추상화 주제들을 계산된 스코어에 따라 순위별로 정한 다음, 스코어에 따라 정해진 1개 이상의 추상화 주제를 최종 추상화 주제로 결정한다. 이런 과정을 주제 분석 과정이라고 명명한다.

상기 주제 분석 과정은 각 문서별로 추출된 주제어들을 이용해서 통계적으로 주제를 분석하고 결정하는 과정이다. 문서별 각 주제 비율 또는 주제별 각 주제어 비율을 이용하여 주제 분석이 행해질 수 있다.

바람직하게는 LDA(Latent Dirichlet Allocation) 확률 알고리즘의 주제 모델을 이용할 수 있다. LDA는 특정 단어가 나타나는 확률을 통해 그 문서에 어떤 주제들이 존재하는지에 대한 확률모형으로 공지의 알고리즘으로 그 자세한 설명은 생략한다.

위와 같은 LDA 알고리즘을 이용하여 주제어에 대한 클러스터링을 수행하고, 주제어 키워드 클러스터링 결과를 출력한다. 추상화 주제 후보는, 전술한 바와 같이, 주제어 집합을 가지고 있고 주제어가 추상화 주제 i(i는 클러스터링 결과로 나온 주제 리스트 중 하나)에 속할 확률의 합산으로 Score값을 계산한다. 그런 다음, 주제 i ~ 주제 n까지 각 주제별로 스코어가 가장 높은 주제 후보가 주제로 명명된다.

예를 들어, 주제어가 추출한 결과, {월드컵, 한국, 테니스, 손흥민, 올림픽 ??} 등의 주제어가 출현했다면, 주제분석 과정을 통해 "스포츠"라는 상위 개념의 추상화 주제가 결정될 수 있다. 마참가지로 유튜브 채널의 비정형 텍스트 데이터에서 "오징어, 돈까스, 삼겹살" 등이 주제어로 추출되었다면, 주제 분석 과정을 통해 "음식", "맛집", "먹방" 등의 상위 개념의 추상화 주제가 선정될 수 있다.

이처럼 유튜브 분석기(110)는 문서별로 추출된 주제어를 이용하여 추상화 주제를 생성할 수 있고, 생성된 주제는 데이터베이스(200)에 저장한다.

도시되지는 않았으나, 유튜브 분석기(110)는 주제 분석 과정을 통해 생성되고 저장된 추상화 주제를 가공하고 심화분석하고, 가시화하여 유의미한 콘텐츠를 생성할 수 있다. 그와 같은 콘텐츠로는 주제 간의 연관도 분석, 시간대별 주제 분포 등이 있다.

도 3은 본 발명의 프로세스를 다시 한번 개략적으로 정리하여 나타내었다.

컴퓨터 단말은 유튜브 채널에서 비정형 텍스트 데이터를 수집한다(S100). 바람직하게는, 유튜브 채널의 게시물, 자막, 댓글 및 채널정보에서 상기 비정형 텍스트 데이터를 수집한다.

그런 다음 주제어별 가중치를 부여하면서 문서별 주제어를 추출한다(S110).

추출된 주제어에 대해 상위 개념의 단어인 주제 후보군을 생성한다(S120). 이들 주제 후보군에서 가장 유의미한 확률값을 갖는 단어를 추상화 주제로 결정하여 저장한다(S120).

컴퓨터 단말은 1개 이상의 추상화 주제를 크리에이터 단말로 전달한다. 당연히 추상화 주제를 가공하고 추가로 심층 분석한 데이터를 전달할 수 있다.

참고로, 본 발명의 일 실시예에 따른 크리에이터를 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

컴퓨터 단말이 유튜브 데이터 API를 통해 유튜브 네트워크에서 선별된 유튜브 채널에 대한 비정형 텍스트 데이터를 수집하고, 수집된 텍스트 데이터에 포함된 문서들에서 문서별로 문서를 대표하는 단어로서 명사, 명사와 접사, 명사와 명사 중 어느 하나의 형태로 구성되는 주제어를 주제어별 가중치를 부여하면서 추출하여, 추출된 주제어 집합을 구성하며, 상기 주제어 집합 중 문서에서 높은 출현 확률을 갖는 주제어들을 포괄하는 상위 개념으로 명사, 명사구 또는 복합명사 중 어느 하나의 형태로 구성되는 추상화 주제 후보군을 선정하고,
문서 별 상기 추상화 주제 비율 또는 상기 추상화 주제별 상기 주제어 비율을 통해 각각의 문서에 대한 추상화 주제들을 계산된 스코어에 따라 순위별로 정하고,
스코어에 따라 정해진 1개 이상의 추상화 주제를 유튜브 채널의 크리에이터 단말로 전달하는 단계를 포함하며,
상기 유튜브 채널의 게시물, 자막, 댓글 및 채널정보에서 상기 비정형 텍스트 데이터를 수집하는 것인, 크리에이터를 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법.
제1항에 있어서,
상기 주제어를 추출하는 과정에서 주제어별 가중치는 다음 수식으로 정해지는 것인,

여기서, TL _t 는 단어 t의 길이, TF _t 는 단어 t의 출현 수, ISF _t 는 1/(단어 t가 출현한 문장의 수), w _f 는 필드별 가중치, f는 필드 번호인, 크리에이터를 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법.