KR102411095B1 - 광고 적합 콘텐츠 탐색 시스템 및 방법 - Google Patents
광고 적합 콘텐츠 탐색 시스템 및 방법 Download PDFInfo
- Publication number
- KR102411095B1 KR102411095B1 KR1020210193398A KR20210193398A KR102411095B1 KR 102411095 B1 KR102411095 B1 KR 102411095B1 KR 1020210193398 A KR1020210193398 A KR 1020210193398A KR 20210193398 A KR20210193398 A KR 20210193398A KR 102411095 B1 KR102411095 B1 KR 102411095B1
- Authority
- KR
- South Korea
- Prior art keywords
- attention
- vector
- advertisement
- video
- vision
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
동영상 분석 기술을 통해 정확한 맥락을 파악하여 최적의 광고를 매칭하고, 더 나아가 불건전한 요소와 비난으로부터 브랜드 안전성을 보장하는 광고 적합 콘텐츠 탐색 시스템 및 방법이 개시된다. 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션을 생성하여 상기 비디오 콘텐츠의 맥락을 추출하는 맥락 추출부; 및 상기 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 광고 매칭부;를 포함한다.
Description
본 발명은 디지털 마케팅을 위해 콘텐츠를 분석하여 맥락 맞춤형 광고 서비스를 제공하고 관리하는 광고 적합 콘텐츠 시스템 및 방법에 관한 것이다.
디지털 환경에서의 마케팅 성과 증대를 위해 다양한 방법이 시도되어 왔다. 그러나, 종래의 디지털 마케팅 방식은 대부분 광고 집행과 성과 분석을 위해 막대한 양의 데이터를 필요로 한다. 이를 위해 수집되는 정보의 종류로는 노출 수, 클릭 수, 조회 수 등의 광고 성과 측정에 사용되는 지표들과, 광고 게재를 위해 검색 내용, 관심사 등과 같이 유저의 행동 정보를 직접적으로 추적하여 획득되는 데이터 등이 있다.
그러나 최근에 개인정보보호 문제가 대두되면서 이러한 유저의 개인정보에 대한 추적을 제한하는 정책들이 국내외 유수의 기업들에서 시행되고 있어, 유저의 행동 정보 추적 데이터를 기반으로 한 광고의 집행이 점차 어려워지고 있다. 따라서 개인정보의 활용 없이도 소비자들에게 정확한 광고를 제공할 수 있도록 하기 위하여, 콘텐츠의 내용/맥락과 관련 있는 광고를 제공하는 맥락 마케팅이 요구되고 있다.
특히 디지털 시장에서 동영상 플랫폼의 점유율이 높아지고 있는데, 이러한 동영상 광고에 맥락 마케팅의 적용이 필요하다. 일반적인 맥락 마케팅 방법은 동영상 주변부에 위치한 텍스트 정보(또는 콘텐츠에 포함된 자막 정보)를 활용하는 수준에 그치고 있다. 이 경우, 동영상 내의 정확한 맥락을 파악할 수 없으며, 잘못된 맥락 정보가 도출되어 콘텐츠에 적합한 광고를 제공하지 못하게 되는 문제가 발생할 수 있다. 대한민국특허청 공개특허공보 10-2011-0052337호(2011년05월18일 공개)에는 스크리밍 컨텐츠와 매칭되는 광고를 실시간으로 제공하는 시스템 및 그 방법이 개시되어 있다.
본 발명은 동영상 분석 기술을 통해 동영상 콘텐츠에서 정확한 맥락을 파악하여 최적의 광고를 매칭할 수 있는 광고 적합 콘텐츠 탐색 시스템 및 방법을 제공하기 위한 것이다.
또한, 본 발명은 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 내 비젼 및 오디오 정보를 바탕으로 광고에 적합한 콘텐츠를 탐색하고, 광고 표출 시점을 결정하는 광고 적합 콘텐츠 탐색 시스템 및 방법을 제공하기 위한 것이다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션을 생성하여 상기 비디오 콘텐츠의 맥락을 추출하는 맥락 추출부; 및 상기 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 광고 매칭부;를 포함한다.
상기 맥락 추출부는 상기 비디오 콘텐츠에서 객체의 행동 정보, 소리 정보 및 자막 정보를 추출하는 정보 추출부; 및 상기 행동 정보, 상기 소리 정보 및 상기 자막 정보를 기반으로 멀티-모달 분석을 통해 상기 비디오 캡션을 생성하는 비디오 캡션부;를 포함할 수 있다.
상기 비디오 캡션부는 상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 인코더부; 및 학습된 자막 키 값들을 기초로 상기 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하고, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 디코더부;를 포함할 수 있다.
상기 인코더부는 학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 비젼 셀프 어텐션부; 학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 오디오 셀프 어텐션부; 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하는 제1 멀티-모달 어텐션부; 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하는 제2 멀티-모달 어텐션부; 상기 제1 멀티-모달 어텐션부에 의해 생성되는 상기 제1 특징 벡터로부터 비젼 인코더 벡터를 생성하는 제1 완전 연결층; 및 상기 제2 멀티-모달 어텐션부에 의해 생성되는 상기 제2 특징 벡터로부터 상기 오디오 인코더 벡터를 생성하는 제2 완전 연결층;을 포함할 수 있다.
상기 광고 매칭부는 상기 비디오 캡션을 기반으로 추출된 정보를 기반으로 광고와 상기 비디오 콘텐츠의 적합도를 추산하여 상기 비디오 콘텐츠와 관련된 광고를 매칭하고; 상기 비디오 콘텐츠의 재생 구간 중에 상기 광고가 표출되는 광고 표출 시점을 결정할 수 있다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 비디오 콘텐츠에 표출되는 광고 로그를 확인하고, 비디오 콘텐츠 별로 광고 표출에 따른 광고 성과를 관리하는 관리부;를 더 포함할 수 있다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 맥락 추출부에 의해, 비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션을 생성하여 상기 비디오 콘텐츠의 맥락을 추출하는 단계; 및 광고 매칭부에 의해, 상기 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 단계;를 포함한다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 정보 추출부에 의해, 상기 비디오 콘텐츠에서 객체의 행동 정보, 소리 정보 및 자막 정보를 추출하는 단계;를 더 포함할 수 있다.
상기 맥락을 추출하는 단계는 상기 행동 정보, 상기 소리 정보 및 상기 자막 정보를 기반으로 멀티-모달 분석을 통해 상기 비디오 캡션을 생성하는 단계;를 포함할 수 있다.
상기 비디오 캡션을 생성하는 단계는 상기 비디오 콘텐츠를 비젼 데이터와 오디오 데이터로 분할하는 단계; 상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 분할하는 단계; 및 인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하는 단계;를 포함할 수 있다.
상기 비디오 캡션을 생성하는 단계는 인코더부에 의해, 상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계; 디코더부에 의해, 학습된 자막 키 값들을 기초로 상기 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 단계; 및 상기 디코더부에 의해, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 단계;를 포함할 수 있다.
상기 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계는 비젼 셀프 어텐션부에 의해, 학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계; 오디오 셀프 어텐션부에 의해, 학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 단계; 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제1 멀티-모달 어텐션부에 입력하여 상기 비젼 인코더 벡터를 생성하는 단계; 및 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제2 멀티-모달 어텐션부에 입력하여 상기 오디오 인코더 벡터를 생성하는 단계;를 포함할 수 있다.
상기 광고 콘텐츠를 매칭하는 단계는 상기 비디오 캡션을 기반으로 추출된 정보를 기반으로 광고와 상기 비디오 콘텐츠의 적합도를 추산하여 상기 비디오 콘텐츠와 관련된 광고를 매칭하는 단계; 및 상기 비디오 콘텐츠의 재생 구간 중에 상기 광고가 표출되는 광고 표출 시점을 결정하는 단계;를 포함할 수 있다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 관리부에 의해, 비디오 콘텐츠에 표출되는 광고 로그를 확인하고, 비디오 콘텐츠 별로 광고 표출에 따른 광고 성과를 관리하는 단계;를 더 포함할 수 있다.
본 발명의 실시예에 따르면, 상기 광고 적합 콘텐츠 탐색 방법을 실행시키도록 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램이 제공된다.
본 발명의 실시예에 의하면, 동영상 분석 기술을 통해 동영상 콘텐츠에서 정확한 맥락을 파악하여 최적의 광고를 매칭할 수 있는 광고 적합 콘텐츠 탐색 시스템 및 방법이 제공된다.
또한, 본 발명의 실시예에 의하면, 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 내 비젼 및 오디오 정보를 바탕으로 광고에 적합한 콘텐츠를 탐색하고, 광고 표출 시점을 결정하는 광고 적합 콘텐츠 탐색 시스템 및 방법이 제공된다.
도 1은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템의 구성도이다.
도 2는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템의 서비스를 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템을 보다 구체적으로 나타낸 구성도이다.
도 4는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템을 구성하는 비디오 캡션부의 구성도이다.
도 5는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법의 순서도이다.
도 6은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법을 보다 구체적으로 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 따라 비디오 콘텐츠의 맥락을 추출한 결과를 나타낸 예시도이다.
도 8은 본 발명의 실시예에 따라 메타 데이터를 분석한 결과를 나타낸 예시도이다.
도 9는 본 발명의 실시예에 따라 광고 성과와 트렌드를 분석한 결과를 나타낸 예시도이다.
도 10은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 이미지 캡션 분석 결과를 나타낸 예시도이다.
도 11은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 비디오 캡션 분석 결과를 나타낸 예시도이다.
도 12는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 텍스트 처리 결과를 나타낸 예시도이다.
도 2는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템의 서비스를 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템을 보다 구체적으로 나타낸 구성도이다.
도 4는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템을 구성하는 비디오 캡션부의 구성도이다.
도 5는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법의 순서도이다.
도 6은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법을 보다 구체적으로 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 따라 비디오 콘텐츠의 맥락을 추출한 결과를 나타낸 예시도이다.
도 8은 본 발명의 실시예에 따라 메타 데이터를 분석한 결과를 나타낸 예시도이다.
도 9는 본 발명의 실시예에 따라 광고 성과와 트렌드를 분석한 결과를 나타낸 예시도이다.
도 10은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 이미지 캡션 분석 결과를 나타낸 예시도이다.
도 11은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 비디오 캡션 분석 결과를 나타낸 예시도이다.
도 12는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 텍스트 처리 결과를 나타낸 예시도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본 명세서에서 사용되는 '~모듈', '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하나 이상의 프로세서와 같은 하드웨어 구성요소를 의미할 수 있다. 본 발명의 실시 예를 설명함에 있어서, 관련된 공지의 기능 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템 및 방법은 맥락 맞춤형 광고와 콘텐츠 분석 정보를 제공하고 관리하기 위한 것으로, 동영상 분석 기술을 통해 동영상 콘텐츠의 정확한 맥락을 파악하여 비디오 맥락 및 내용 이해를 기반으로 광고 적합 콘텐츠를 탐색함으로써, 콘텐츠의 내용/맥락과 관련 있는 최적의 광고를 매칭하여 제공하며, 개인 정보의 활용 없이도 소비자들에게 정확한 광고를 제공할 수 있도록 하고, 더 나아가 불건전한 요소와 비난으로부터 브랜드 안전성을 보장한다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템 및 방법은 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 내 비젼 및 오디오 정보를 바탕으로 광고가 들어가기에 가장 적합한 콘텐츠와 광고 표출 시점을 결정한다. 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템 및 방법은 광고업체 등에게 SaaS 플랫폼의 형태로 서비스를 제공할 수 있으며, 비디오 플랫폼 내에서 동영상 및 디스플레이 형태로 광고를 진행할 수 있다.
도 1은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템의 개념도이다. 도 1을 참조하면, 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템(100)은 맥락 분석부(110)와, 자동화 파이프라인(120), 및 SaaS 플랫폼(130)을 포함할 수 있다.
맥락 분석부(110)는 객체 인식을 통한 맥락 분석을 수행하는 비디오 캡션부(112)와, 영상 콘텐츠 내 텍스트 중심의 맥락 파악을 수행하는 텍스트 처리부(114)를 포함할 수 있다.
광고 적합 콘텐츠 탐색 시스템(100)은 맥락 분석부(110)에 의해 분석된 맥락 분석 데이터를 이용해 MLOps(122)를 기반으로 자동화 파이프라인(120)을 구축하여 SaaS 플랫폼(130)을 이용한 서비스를 제공할 수 있다. Saas 플랫폼(130)은 클라우드 시스템 내 Action REST API(132)와, 사용자 커스텀 가능한 분석 솔루션을 구비하는 사용자 인터페이스부(134)를 포함하여 구현될 수 있다.
도 2는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템의 구성도이다. 도 2를 참조하면, 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 분석부(310), 영상 분석 AI 서버(320), 판단부(330), 관리부(340), 및 SaaS 플랫폼(350)을 포함할 수 있다.
분석부(310)는 정보 추출부에 의해 추출된 정보를 기반으로 비디오 내의 여러 정보들을 통합하여 분석한 결과를 바탕으로 광고와 연관성이 있는 콘텐츠의 내용을 이해한 정보를 추출하는 비디오 캡션부 및 맥락 추출부를 포함할 수 있다. 분석부(310)는 영상 분석 AI 서버(320)와 정보를 주고받으며, 광고에 적합한 콘텐츠들을 영상 분석하고, 자연어 분석 기술을 통해 광고에 적합한 콘텐츠를 탐색하여 정리할 수 있다.
판단부(330)는 추출된 정보를 기반으로 광고와의 적합도를 추산하는 광고 매칭부를 포함할 수 있다. 판단부(330)는 광고 영상과 콘텐츠들의 연관성을 확인하여, 가장 적합한 위치(동영상 콘텐츠 재생 시점)에만 광고를 게재할 수 있도록 하여 최적의 예산으로 광고 효과를 극대화할 수 있도록 관리할 수 있다.
관리부(340)는 비디오 콘텐츠에 표출되는 광고 로그를 확인하고, 비디오 콘텐츠 별로 광고 표출에 따른 광고 성과를 관리할 수 있다. 또한, 관리부(340)는 각 콘텐츠 별로 광고 성과와 브랜드 안전성을 지속적으로 확인하고 자동으로 관리할 수 있다. 관리부(340)는 SaaS 플랫폼(350)과 연계시켜 편리하게 콘텐츠에 대한 광고 성과를 확인할 수 있도록 구현될 수 있다.
상술한 바와 같은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 시행하고자 하는 광고 정보를 파악한 후, 비디오 캡셔닝(Video Captioning)을 기반으로 동영상 등의 콘텐츠에서 맥락을 추출하여 광고에 가장 적합한 콘텐츠를 매칭해주고, 그 결과를 분석한다.
또한, 어떤 콘텐츠에 광고가 올라갔는지의 로그(log)를 확인 가능하며, 콘텐츠에서 음성이나 텍스트로 추출해낼 수 있는 정보(예를 들어, 제목, 자막, 내용, 댓글 등)를 통해 트렌드를 분석하여 더욱 정확한 맥락 매칭을 통한 퍼포먼스 마케팅이 가능하도록 한다.
영상 분석 기술의 경우 영상 내 단일 정보만 이용하는 것이 아닌, 시/청각적인 요소를 종합적으로 분석하는 다중 정보 동시 분석 기능을 포함하고 있다. 따라서 영상에서 인식되는 객체의 행동 정보, 소리 정보, 자막 정보 등을 종합하여 콘텐츠를 분석함으로써 단순 인식만 하는 타 기술과 차별성을 가지며, 영상 맥락 이해에 대한 정확도를 크게 향상시킬 수 있다.
자연어 분석 기술의 경우 영상 내 대화, 소리 등 음성 정보를 매우 높은 정확도로 텍스트 형태로 추출하는 STT 기술과, 추출된 텍스트를 문장 단위로 자동 구분하는 기술, 그리고 전체 대화/스크립트 등에서 핵심 내용을 요약할 수 있는 기술을 포함할 수 있다. 영상 분석 기술과의 접목을 통해 발화, 설명 등의 데이터에서 얻을 수 있는 정보의 양을 극대화할 수 있다.
본 발명의 실시예에 의하면, 광고에 최적으로 매칭되는 동영상 콘텐츠 분석 정보를 제공, 관리함으로써 광고 성과를 향상시킬 수 있고 브랜드 안전성을 정확하게 보호할 수 있다. 또한, 가장 성과가 잘 나올 수 있는 광고 위치를 AI 기술을 통해 정확하게 지정하기 때문에 광고 예산을 가장 효율적으로 사용할 수 있도록 도울 수 있다.
도 3은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템을 보다 구체적으로 나타낸 구성도이다. 도 3을 참조하면, 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 비디오 콘텐츠에서 객체의 행동 정보, 소리 정보 및 자막 정보를 추출하는 정보 추출부(116), 비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션(비디오 맥락)을 생성하는 비디오 캡션부(112), 비디오 캡션부(112)에 의해 생성되는 비디오 캡션을 기초로 비디오 콘텐츠의 맥락을 추출하는 맥락 추출부(117), 및 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 광고 매칭부(118)를 포함할 수 있다. 비디오 캡션부(112)는 정보 추출부(116)에 의해 추출된 행동 정보, 소리 정보 및 자막 정보를 기반으로 멀티-모달 분석을 통해 비디오 캡션을 생성할 수 있다.
광고 매칭부(118)는 비디오 캡션부(112)에 의해 생성되는 비디오 캡션을 기반으로 추출된 맥락 정보를 기반으로, 광고와 비디오 콘텐츠의 적합도를 추산하여 비디오 콘텐츠와 관련된 광고를 매칭하고, 비디오 콘텐츠의 재생 구간 중에 광고가 표출되는 광고 표출 시점(하나 또는 복수의 시계열 구간)을 결정할 수 있다.
이하에서 특징 구간과 영상의 맥락을 추출하는 영상 분석 기술, 그리고 요약과 감정 분석 등을 통해 적합도와 안전성을 뒷받침할 수 있는 텍스트 분석 기술을 통해 맥락 맞춤형 디지털 마케팅을 수행하는 방법에 대해 보다 구체적으로 설명한다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템 및 방법은 단순 객체 인식이 아니라, 입력되는 영상 콘텐츠로부터 특징 구간을 추출해내는 과정과, 이를 이용하여 캡션을 생성해내는 과정을 수행할 수 있는 비디오 캡셔닝(Video-captioning) 기술을 이용한 영상 분석 시스템으로 구현될 수 있다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 제목, 오디오, 설명, 댓글을 기반으로 맥락 분석(Context Analysis)을 위한 종합적인 솔루션을 제공하며, 자동 대화 인식(Auto Speech Recognition), 텍스트 요약(Text Summarization), 감정 분석(sentimental Analysis)를 포함하는 과정들을 통해 비디오, 채널 맞춤형 서비스를 구축한다. 나아가 텍스트 처리의 결과물로 추출되는 텍스트 키워드(Text Keywords), 태깅 태스크(Tagging Task), 대중 의견(Public Opinion)을 트렌드 분석 및 매칭 환경 조성에 활용한다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템은 비디오 콘텐츠의 종합적 광고 중심 분석을 위해 비디오 캡션과 텍스트 처리 정보들을 기반으로 중요도에 따른 사용자 정의 인터페이스를 구축할 수 있으며, 비디오 캡셔닝(Video Captioning) 과정을 거쳐 추출된 다중 프레임(Frame) 내 특징 벡터(Feature Vector) 및 텍스트 처리(Text Processing) 과정을 거쳐 추출된 단어 임베딩 값(Word Embedding Value)을 활용해, 행동, 여론, 키워드, 콘텐츠로 나누어 각 섹션(Section) 별로 클러스터링(Clustering)을 진행할 수 있다.
이러한 과정은 비디오 캡셔닝(Video Captioning)과 텍스트 처리(Text Processing)를 거쳐 AI 모델을 경량화하고, 텍스트 분석을 위한 데이터 마이닝, 출력 데이터 클러스터링, 시각화 순서로 진행될 수 있으며, 이를 위해 입력된 비디오 캡션 및 해당 채널을 바탕으로 텍스트 처리를 위한 NLP, 비디오 캡션 기반의 딥러닝이 활용될 수 있다.
이러한 과정에서 비디오, 텍스트 등의 정보들은 필수불가결한 요소이다. 해당 데이터 처리 기능인 CRUD(Create, Read, Update, Delete) 권한을 부여할 수 있는 항목들의 활성화를 접근 경로의 세분화를 통해 UI/UX를 재구성할 수 있다. 또한, 본 발명의 실시예에서는 비디오 관련 데이터들의 재가공을 통한 정보들의 효율적인 관리를 이끌어내기 위해, 접근성이 용이하도록 클라우드를 통해 가상화된 컴퓨터의 리소스들을 온디맨드 형태로 제공하며, SaaS 형태의 정보들을 활용할 수 있다.
도 4는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 시스템을 구성하는 비디오 캡션부의 구성도이다. 도 1 내지 도 4를 참조하면, 비디오 캡션부(200)는 VGGish 처리부(20)와, I3D 처리부(30)에 의해 분석된 비젼 데이터와 오디오 데이터를 인코더부(210)에 입력하도록 구성될 수 있다.
비디오 캡션부(200)는 비젼 데이터와 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 인코더부(210), 및 학습된 자막 키 값들을 기초로 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하고, 자막 어텐션 벡터와 비젼 인코더 벡터 및 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 비디오 캡션을 생성하는 디코더부(250)를 포함할 수 있다.
인코더부(210)는 학습된 비젼 키 값들을 기초로 비젼 데이터를 셀프 어텐션(self attention) 처리하여 비젼 어텐션 벡터를 생성하는 비젼 셀프 어텐션부(211), 학습된 오디오 키 값들을 기초로 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 오디오 셀프 어텐션부(212), 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하는 제1 멀티-모달 어텐션부(213), 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하는 제2 멀티-모달 어텐션부(214), 제1 멀티-모달 어텐션부(213)에 의해 생성되는 제1 특징 벡터로부터 비젼 인코더 벡터를 생성하는 제1 완전 연결층(fully connected layer)(215), 제2 멀티-모달 어텐션부(214)에 의해 생성되는 제2 특징 벡터로부터 오디오 인코더 벡터를 생성하는 제2 완전 연결층(216)을 포함할 수 있다.
인공지능 모델은 인코더부(210)의 출력 값들을 출력하는 출력부(220, 230)와, 인공지능 모델을 학습하도록 출력부(220, 230)의 출력 값들을 인코더부(210)의 입력단으로 피드백하는 피드백부(240)를 포함할 수 있다.
디코더부(250)는 학습된 자막 키 값들을 기초로 비디오 데이터(비디오 콘텐츠)와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 셀프 어텐션부(251), 자막 어텐션 벡터와 비젼 인코더 벡터 및 오디오 인코더 벡터를 멀티-모달 어텐션 처리하는 멀티모달 어텐션부(252), 멀티-모달 어텐션 처리된 특징 벡터로부터 비디오 캡션을 생성하여 출력하는 완전 연결층(253)을 포함할 수 있다. 비디오 데이터와 관련된 자막 데이터는 캡션부(242)에 의해 획득될 수 있다.
도 5는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법의 순서도이다. 도 5를 참조하면, 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 맥락 추출부에 의해, 비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션을 생성하여 비디오 콘텐츠의 맥락을 추출하는 단계(S10)와, 광고 매칭부에 의해, 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 단계(S20)를 포함할 수 있다.
도 6은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법을 보다 구체적으로 나타낸 순서도이다. 도 4 및 도 6을 참조하면, 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 비디오 콘텐츠에서 객체의 행동 정보, 소리 정보 및 자막 정보를 추출하는 단계(S12), 행동 정보, 소리 정보 및 자막 정보를 기반으로 멀티-모달 분석을 통해 비디오 캡션을 생성하는 단계(S14), 그리고 비디오 캡션을 기반으로 추출된 정보를 기반으로 광고와 비디오 콘텐츠의 적합도를 추산하여 비디오 콘텐츠와 관련된 광고를 매칭하고, 비디오 콘텐츠의 재생 구간 중에 광고가 표출되는 광고 표출 시점을 결정하는 단계(S22)를 포함할 수 있다.
본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 비디오 콘텐츠를 비젼 데이터와 오디오 데이터로 분할하는 단계와, 비젼 데이터를 기초로 행동 정지점을 설정하여 시계열 구간을 분할하는 단계, 및 인공지능 모델에 의해 시계열 구간별로 비젼 데이터 및 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 객체의 행동과 관련된 비디오 캡션을 생성하는 단계를 포함할 수 있다.
비디오 캡션을 생성하는 단계는 인코더부(210)에 의해 비젼 데이터와 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와 오디오 인코더 벡터를 생성하는 단계와, 디코더부(250)에 의해, 학습된 자막 키 값들을 기초로 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 단계, 및 디코더부(250)에 의해 자막 어텐션 벡터와 비젼 인코더 벡터 및 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 비디오 캡션을 생성하는 단계;를 포함할 수 있다.
비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계는 비젼 셀프 어텐션부(211)에 의해, 학습된 비젼 키 값들을 기초로 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계와, 오디오 셀프 어텐션부(212)에 의해, 학습된 오디오 키 값들을 기초로 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 단계, 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 제1 멀티-모달 어텐션부(213)에 입력하여 비젼 인코더 벡터를 생성하는 단계, 및 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 제2 멀티-모달 어텐션부(214)에 입력하여 오디오 인코더 벡터를 생성하는 단계를 포함할 수 있다.
도 7은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 따라 비디오 콘텐츠의 맥락을 추출한 결과를 나타낸 예시도이다. 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의하면, 맥락 분석 결과를 기반으로 해당 비디오 콘텐츠에 적합한 최적의 광고를 선정하여 광고 효과를 극대화할 수 있다.
도 8은 본 발명의 실시예에 따라 메타 데이터를 분석한 결과를 나타낸 예시도이다. 도 9는 본 발명의 실시예에 따라 광고 성과와 트렌드를 분석한 결과를 나타낸 예시도이다. 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법은 관리부에 의해, 비디오 콘텐츠에 표출되는 광고 로그를 확인하고, 비디오 콘텐츠 별로 광고 표출에 따른 광고 성과를 관리하는 단계를 포함할 수 있으며, SaaS 플랫폼을 통해 광고가 제공된 콘텐츠 정보(광고가 어디에 올라갔는지 정보 제공), 광고 성과와 트렌드를 편리하게 확인할 수 있다.
도 10은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 이미지 캡션 분석 결과를 나타낸 예시도이다. 도 11은 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 비디오 캡션 분석 결과를 나타낸 예시도이다.
본 발명의 실시예에 의하면, 시행하고자 하는 광고 정보를 파악한 후, 비디오 캡셔닝(Video Captioning)을 기반으로 영상 등의 콘텐츠에서 맥락을 추출하여 광고에 가장 적합한 콘텐츠를 매칭해주고, 그 결과를 분석할 수 있다. 특히 도 11에 도시된 바와 같이, 비디오 캡셔닝을 통해 동영상 콘텐츠의 시계열 구간(#1, #2, #3, #4) 별로 맥락을 추출하여 각 시계열 구간(#1, #2, #3, #4)에 대해 분석된 맥락에 적합한 광고를 매칭할 수 있다.
도 12는 본 발명의 실시예에 따른 광고 적합 콘텐츠 탐색 방법에 의해 수행된 텍스트 처리 결과를 나타낸 예시도이다. 본 발명의 실시예에 의하면, 비디오 캡셔닝을 통해 분석된 비디오 캡션과, 동영상 콘텐츠에 포함된 자막 등을 포함하는 원본 텍스트를 요약하고, 추가로 감정 분석을 통해 텍스트 처리 결과를 생성하여 이를 광고 적합 콘텐츠의 탐색에 활용할 수 있다.
이상에서 설명된 실시예들의 구성 중 적어도 일부는 하드웨어 구성요소, 소프트웨어 구성요소, 및/ 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.
처리 장치는 운영 체제 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리요소를 포함할 수 있음을 이해할 것이다.
예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor) 와 같은, 다른 처리 구성(Processing configuration)도 가능하다. 소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어 및/ 또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody) 될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
100 : 광고 적합 콘텐츠 탐색 시스템
110 : 맥락 분석부
112 : 비디오 캡션부
114 : 텍스트 처리부
116 : 정보 추출부
117 : 맥락 추출부
118 : 광고 매칭부
120 : 자동화 파이프라인
122 : MLOps
130 : SaaS 플랫폼
132 : Action REST API
134 : 사용자 인터페이스부
200 : 비디오 캡션부
210 : 인코더부
211 : 비젼 셀프 어텐션부
212 : 오디오 셀프 어텐션부
213 : 제1 멀티-모달 어텐션부
214 : 제2 멀티-모달 어텐션부
215 : 제1 완전 연결층
216 : 제2 완전 연결층
220, 230 : 출력부
240 : 피드백부
250 : 디코더부
251 : 셀프 어텐션부
252 : 멀티모달 어텐션부
253 : 완전 연결층
310 : 분석부
320 : 영상 분석 AI 서버
330 : 판단부
340 : 관리부
350 : SaaS 플랫폼
110 : 맥락 분석부
112 : 비디오 캡션부
114 : 텍스트 처리부
116 : 정보 추출부
117 : 맥락 추출부
118 : 광고 매칭부
120 : 자동화 파이프라인
122 : MLOps
130 : SaaS 플랫폼
132 : Action REST API
134 : 사용자 인터페이스부
200 : 비디오 캡션부
210 : 인코더부
211 : 비젼 셀프 어텐션부
212 : 오디오 셀프 어텐션부
213 : 제1 멀티-모달 어텐션부
214 : 제2 멀티-모달 어텐션부
215 : 제1 완전 연결층
216 : 제2 완전 연결층
220, 230 : 출력부
240 : 피드백부
250 : 디코더부
251 : 셀프 어텐션부
252 : 멀티모달 어텐션부
253 : 완전 연결층
310 : 분석부
320 : 영상 분석 AI 서버
330 : 판단부
340 : 관리부
350 : SaaS 플랫폼
Claims (15)
- 광고에 적합한 콘텐츠를 탐색하여 광고 표출 시점을 결정하는 광고 적합 콘텐츠 탐색 시스템으로서,
비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션을 생성하여 상기 비디오 콘텐츠의 맥락을 추출하는 맥락 추출부;
상기 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 광고 매칭부; 및
상기 비디오 콘텐츠에서 객체의 행동 정보, 소리 정보 및 자막 정보를 추출하는 정보 추출부;를 포함하고,
상기 맥락 추출부는 상기 행동 정보, 상기 소리 정보 및 상기 자막 정보를 기반으로 멀티-모달 분석을 통해 상기 비디오 캡션을 생성하는 비디오 캡션부;를 포함하고,
상기 비디오 캡션부는:
상기 비디오 콘텐츠를 비젼 데이터와 오디오 데이터로 분할하고;
상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 분할하고; 그리고
인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하도록 구성되고,
상기 비디오 캡션부는:
상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 인코더부; 및
학습된 자막 키 값들을 기초로 상기 비디오 콘텐츠와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하고, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 디코더부;를 포함하고,
상기 인코더부는:
학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 비젼 셀프 어텐션부;
학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 오디오 셀프 어텐션부;
상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하는 제1 멀티-모달 어텐션부;
상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하는 제2 멀티-모달 어텐션부;
상기 제1 멀티-모달 어텐션부에 의해 생성되는 상기 제1 특징 벡터로부터 비젼 인코더 벡터를 생성하는 제1 완전 연결층; 및
상기 제2 멀티-모달 어텐션부에 의해 생성되는 상기 제2 특징 벡터로부터 상기 오디오 인코더 벡터를 생성하는 제2 완전 연결층;을 포함하고,
상기 디코더부는:
학습된 자막 키 값들을 기초로 비디오 콘텐츠와 관련된 자막 데이터를 셀프 어텐션 처리하여 상기 자막 어텐션 벡터를 생성하는 셀프 어텐션부;
상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하는 멀티모달 어텐션부; 및
상기 멀티-모달 어텐션 처리된 특징 벡터로부터 비디오 캡션을 생성하여 출력하는 완전 연결층;을 포함하고,
상기 광고 매칭부는:
상기 비디오 캡션을 기반으로 추출된 정보를 기반으로 광고와 상기 비디오 콘텐츠의 적합도를 추산하여 상기 비디오 콘텐츠와 관련된 광고를 매칭하고;
상기 비디오 콘텐츠의 재생 구간 중에 상기 광고가 표출되는 광고 표출 시점을 결정하고,
비디오 콘텐츠에 표출되는 광고 로그를 확인하고, 비디오 콘텐츠 별로 광고 표출에 따른 광고 성과를 관리하는 관리부;를 더 포함하는 광고 적합 콘텐츠 탐색 시스템. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 광고에 적합한 콘텐츠를 탐색하여 광고 표출 시점을 결정하는 광고 적합 콘텐츠 탐색 방법으로서,
맥락 추출부에 의해, 비디오 콘텐츠를 비디오 캡셔닝을 기반으로 분석하여 시계열 구간별로 비디오 캡션을 생성하여 상기 비디오 콘텐츠의 맥락을 추출하는 단계;
광고 매칭부에 의해, 상기 비디오 콘텐츠에서 시계열 구간별로 추출된 맥락을 기반으로 시계열 구간별로 광고 콘텐츠를 매칭하는 단계; 및
정보 추출부에 의해, 상기 비디오 콘텐츠에서 객체의 행동 정보, 소리 정보 및 자막 정보를 추출하는 단계;를 포함하고,
상기 맥락을 추출하는 단계는 상기 행동 정보, 상기 소리 정보 및 상기 자막 정보를 기반으로 멀티-모달 분석을 통해 상기 비디오 캡션을 생성하는 단계;를 포함하고,
상기 비디오 캡션을 생성하는 단계는:
상기 비디오 콘텐츠를 비젼 데이터와 오디오 데이터로 분할하는 단계;
상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 분할하는 단계; 및
인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하는 단계;를 포함하고,
상기 비디오 캡션을 생성하는 단계는:
인코더부에 의해, 상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계;
디코더부의 셀프 어텐션부에 의해, 학습된 자막 키 값들을 기초로 상기 비디오 콘텐츠와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 단계; 및
상기 디코더부에 의해, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 단계;를 포함하고,
상기 비디오 캡션을 생성하는 단계는:
상기 디코더부의 멀티모달 어텐션부에 의해, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하는 멀티모달 어텐션부; 및
상기 디코더부의 완전 연결층에 의해, 상기 멀티-모달 어텐션 처리된 특징 벡터로부터 비디오 캡션을 생성하여 출력하는 단계;를 포함하고,
상기 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계는:
비젼 셀프 어텐션부에 의해, 학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계;
오디오 셀프 어텐션부에 의해, 학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 단계;
상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제1 멀티-모달 어텐션부에 입력하여 상기 비젼 인코더 벡터를 생성하는 단계; 및
상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제2 멀티-모달 어텐션부에 입력하여 상기 오디오 인코더 벡터를 생성하는 단계;를 포함하고,
상기 광고 콘텐츠를 매칭하는 단계는:
상기 비디오 캡션을 기반으로 추출된 정보를 기반으로 광고와 상기 비디오 콘텐츠의 적합도를 추산하여 상기 비디오 콘텐츠와 관련된 광고를 매칭하는 단계; 및
상기 비디오 콘텐츠의 재생 구간 중에 상기 광고가 표출되는 광고 표출 시점을 결정하는 단계;를 포함하고,
관리부에 의해, 비디오 콘텐츠에 표출되는 광고 로그를 확인하고, 비디오 콘텐츠 별로 광고 표출에 따른 광고 성과를 관리하는 단계;를 더 포함하는 광고 적합 콘텐츠 탐색 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 청구항 8의 광고 적합 콘텐츠 탐색 방법을 실행시키도록 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210193398A KR102411095B1 (ko) | 2021-12-30 | 2021-12-30 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
KR1020220072846A KR20230103887A (ko) | 2021-12-30 | 2022-06-15 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210193398A KR102411095B1 (ko) | 2021-12-30 | 2021-12-30 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220072846A Division KR20230103887A (ko) | 2021-12-30 | 2022-06-15 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102411095B1 true KR102411095B1 (ko) | 2022-06-22 |
Family
ID=82217169
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210193398A KR102411095B1 (ko) | 2021-12-30 | 2021-12-30 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
KR1020220072846A KR20230103887A (ko) | 2021-12-30 | 2022-06-15 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220072846A KR20230103887A (ko) | 2021-12-30 | 2022-06-15 | 광고 적합 콘텐츠 탐색 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR102411095B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102628304B1 (ko) * | 2023-06-29 | 2024-01-24 | 주식회사 멜로우컴퍼니 | 자연어 처리 프로세서를 이용한 영상 원문 수정 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110052337A (ko) * | 2009-11-12 | 2011-05-18 | 엔에이치엔비즈니스플랫폼 주식회사 | 스트리밍 컨텐츠와 매칭되는 광고를 실시간으로 제공하는 시스템 및 그 방법 |
KR102192580B1 (ko) * | 2014-03-24 | 2020-12-17 | 주식회사 카카오 | 광고 제공 장치 및 방법 |
KR20210017778A (ko) * | 2019-08-09 | 2021-02-17 | 빅펄 주식회사 | 광고 진행 서버, 광고 서비스 진행 시스템 및 그 방법 |
KR20210032761A (ko) * | 2019-09-17 | 2021-03-25 | 한국과학기술연구원 | 영상 또는 음성 분석에 기반한 상호 대화형 컨텐츠 제공 시스템 |
KR20210134528A (ko) * | 2020-11-27 | 2021-11-10 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 |
-
2021
- 2021-12-30 KR KR1020210193398A patent/KR102411095B1/ko active IP Right Grant
-
2022
- 2022-06-15 KR KR1020220072846A patent/KR20230103887A/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110052337A (ko) * | 2009-11-12 | 2011-05-18 | 엔에이치엔비즈니스플랫폼 주식회사 | 스트리밍 컨텐츠와 매칭되는 광고를 실시간으로 제공하는 시스템 및 그 방법 |
KR102192580B1 (ko) * | 2014-03-24 | 2020-12-17 | 주식회사 카카오 | 광고 제공 장치 및 방법 |
KR20210017778A (ko) * | 2019-08-09 | 2021-02-17 | 빅펄 주식회사 | 광고 진행 서버, 광고 서비스 진행 시스템 및 그 방법 |
KR20210032761A (ko) * | 2019-09-17 | 2021-03-25 | 한국과학기술연구원 | 영상 또는 음성 분석에 기반한 상호 대화형 컨텐츠 제공 시스템 |
KR20210134528A (ko) * | 2020-11-27 | 2021-11-10 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102628304B1 (ko) * | 2023-06-29 | 2024-01-24 | 주식회사 멜로우컴퍼니 | 자연어 처리 프로세서를 이용한 영상 원문 수정 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20230103887A (ko) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101994592B1 (ko) | 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템 | |
US10970334B2 (en) | Navigating video scenes using cognitive insights | |
JP7498640B2 (ja) | ローカライズされたコンテキストのビデオ注釈を生成するためのシステム及び方法 | |
US9923860B2 (en) | Annotating content with contextually relevant comments | |
US10074402B2 (en) | Recording and providing for display images of events associated with power equipment | |
US20180315094A1 (en) | Method and system for targeted advertising based on natural language analytics | |
CN109275047B (zh) | 视频信息处理方法及装置、电子设备、存储介质 | |
US11621792B2 (en) | Real-time automated classification system | |
US9159031B2 (en) | Predicting audience response for scripting | |
US20140214402A1 (en) | Implementation of unsupervised topic segmentation in a data communications environment | |
KR20090093904A (ko) | 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템 | |
KR20190063352A (ko) | 클립 간 유사도 분석에 의한 영상 콘텐츠의 클립 연결 장치 및 방법 | |
CN113824972A (zh) | 直播视频的处理方法、装置、设备及计算机可读存储介质 | |
US11074939B1 (en) | Disambiguation of audio content using visual context | |
US10595098B2 (en) | Derivative media content systems and methods | |
KR102411095B1 (ko) | 광고 적합 콘텐츠 탐색 시스템 및 방법 | |
Gagnon et al. | A computer-vision-assisted system for videodescription scripting | |
Sihag et al. | A data-driven approach for finding requirements relevant feedback from tiktok and youtube | |
CN113923479A (zh) | 音视频剪辑方法和装置 | |
CN111127057B (zh) | 一种多维用户画像恢复方法 | |
US11395051B2 (en) | Video content relationship mapping | |
Kim et al. | Multi-Modal Deep Learning based Metadata Extensions for Video Clipping. | |
US11520839B2 (en) | User based network document modification | |
Ansari et al. | JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models | |
KR102307070B1 (ko) | 서비스 서버 및 이의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |