KR20210154044A

KR20210154044A - 불법 영상 콘텐츠 탐지 시스템

Info

Publication number: KR20210154044A
Application number: KR1020200071174A
Authority: KR
Inventors: 박상선; 정효연; 김선우
Original assignee: 주식회사 버킷스튜디오
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2021-12-20

Abstract

네트워크 상에서 불법으로 유통되는 영상 콘텐츠를 탐지하는 기술이 개시된다. 유통 영상 콘텐츠의 오디오 데이터를 복호화하면서 화자 식별을 통해 출연 배우들을 식별하고 이 식별된 정보를 이용하여 출연진 데이터베이스를 참조하여 해당 유통 영상 콘텐츠를 식별한다. 성공할 때까지 수집된 영상 콘텐츠의 오디오 데이터에서 단위 구간들을 샘플링하여 출연진 기반으로 영상 콘텐츠를 식별하는 과정이 반복될 수 있다.

Description

불법 영상 콘텐츠 탐지 시스템{Illegal Video Content Detection System}

네트워크에 연결된 컴퓨팅 시스템, 특히 네트워크 상에서 불법으로 유통되는 영상 콘텐츠를 탐지하는 기술이 개시된다.

네트워크 상에 불법으로 유통되는 영상 콘텐츠를 탐지하는 기술들이 알려져 있다. 예를 들면 2007.10.08.자 공개된 공개특허공보 제2007-0098966호는 영상 콘텐츠의 파일 헤더와 시작 부분을 다운로드하고 그에 포함된 속성 정보를 저장된 저작권 침해 파일의 속성 정보와 비교하여 판정하는 기술을 개시하고 있다. 이러한 기술은 기존에 탐지된 저작권 침해 파일을 전제로 하고 있다.

제안된 발명은 영상 콘텐츠를 식별하는 새로운 기술을 제시하는 것을 목적으로 한다.

나아가 제안된 발명은 기존에 알려지지 않은 새로운 불법 저작물도 탐지하는 것이 가능한 새로운 불법 영상 콘텐츠 탐지 기술을 제시하는 것을 목적으로 한다.

나아가 제안된 발명은 타겟 영상 콘텐츠가 주어졌을 때 그에 관련된 불법 영상 콘텐츠를 크롤링하는 것을 목적으로 한다.

제안된 발명의 일 양상에 따르면, 유통 영상 콘텐츠의 오디오 데이터를 복호화하면서 화자 식별을 통해 출연 배우들을 식별하고 이 식별된 정보를 이용하여 출연진 데이터베이스를 참조하여 해당 유통 영상 콘텐츠를 식별한다.

또 다른 양상에 따르면, 불법 영상 콘텐츠 탐지 시스템은 네트워크를 통해 다수의 콘텐츠 제공 컴퓨터를 접속하여 유통 영상 콘텐츠를 수집하는 크롤링 서버를 더 포함할 수 있다.

또 다른 양상에 따르면, 성공할 때까지 수집된 영상 콘텐츠의 오디오 데이터에서 구간들을 샘플링하여 출연진 기반으로 영상 콘텐츠를 식별하는 과정이 반복될 수 있다.

또 다른 양상에 따르면, 누적된 검출 시간이 기준 시간 이상인 주요 출연 배우들로부터 유통 영상 콘텐츠가 식별될 수 있다.

제안된 발명에 따라, 기존에 알려지지 않은 새로운 불법 동영상 컨텐츠도 탐지하는 것이 가능하다. 나아가 제안된 발명에 따라 타겟 영상 콘텐츠가 주어졌을 때 그에 관련된 불법 영상 콘텐츠를 크롤링하는 것이 가능해진다.

도 1은 제안된 발명의 일 실시예에 따른 불법 영상 콘텐츠 탐지 시스템의 개요를 설명하는 도면이다.
도 2는 일 실시예에 따른 불법 영상 콘텐츠 탐지 시스템의 구성을 도시한 블록도이다.
도 3은 제안된 발명의 일 실시예에 따른 불법 영상 콘텐츠 탐지 방법의 구성을 도시한 흐름도이다.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시예들을 통해 구체화된다. 각 실시예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시예 내에서 또는 타 실시예의 구성 요소들과 다양한 조합이 가능한 것으로 이해된다. 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 명세서 및 청구범위에 사용된 용어는 기재 내용 혹은 제안된 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 1은 제안된 발명의 일 실시예에 따른 불법 영상 콘텐츠 탐지 시스템의 개요를 설명하는 도면이다. 일 실시예에 있어서, 불법 영상 콘텐츠 탐지 시스템(10)은 네트워크에 연결된 서버로 구현된다. 불법 영상 콘텐츠 탐지 시스템(10)은 네트워크를 통해 다수의 콘텐츠 제공 컴퓨터(50,70)를 접속하고 거기에 저장된 유통 영상 콘텐츠를 식별하여 불법 콘텐츠를 판별한다. 예를 들어 불법 영상 콘텐츠 탐지 시스템(10)은 네트워크를 통해 유통 영상 콘텐츠를 크롤링(crawling)에 의해 수집하는 크롤링 서버를 포함할 수 있다. 크롤링 서버는 콘텐츠 제공자 서버(content provider server)(70) 뿐 아니라 개인용 컴퓨터(50)를 접근하여 유통 영상 콘텐츠를 수집할 수도 있다. 수집된 유통 영상 콘텐츠는 저작권 정보에 기초하여 불법 여부가 판단되고, 불법으로 판정된 불법 영상 콘텐츠들의 URL과 같은 접근 정보가 데이터베이스(11)에 저장된다.

제안된 발명에 따른 불법 영상 콘텐츠 탐지 시스템(10)은 도시된 바와 같은 서버 컴퓨터에서 실행되는 프로그램 명령어들로 구현된다. 이러한 프로그램은 컴퓨터의 메모리에 저장되고, 계산유닛에 의해 실행된다.

도 2는 일 실시예에 따른 불법 영상 콘텐츠 탐지 시스템의 구성을 도시한 블록도이다. 도시된 바와 같이 일 실시예에 따른 불법 영상 콘텐츠 탐지 시스템은 출연진 데이터베이스(250)와, 음성 기반 영상 콘텐츠 식별부(150)와, 그리고 불법 영상 콘텐츠 판별부(170)를 포함한다. 출연진 데이터베이스(250)는 영상 콘텐츠별 출연 배우들을 저장한다. 예를 들어 출연진 데이터베이스(250)는 영상 콘텐츠의 식별자와, 예를 들면 타이틀, 저작권자, 저작권관리회사와 같은 영상 콘텐츠 정보와, 출연배우, 그리고 주요 출연 배우 정보를 저장할 수 있다. 또 다른 실시예에서, 출연진 데이터베이스(250)는 특정한 시간 간격, 예를 들면 3분 간격 동안 출연한 배우 정보들을 주요 장면들에 대해 저장할 수 있다.

음성 기반 영상 콘텐츠 식별부(150)는 유통 영상 콘텐츠의 오디오 데이터를 복호화하면서 화자 식별(speaker identification)를 통해 출연 배우들을 식별하고 이 식별된 정보를 이용하여 출연진 데이터베이스를 참조하여 해당 유통 영상 콘텐츠를 식별한다. 화자 식별 기술은 음성 신호에서 현재 말하는 화자가 누구인지 식별하는 기술로 다수의 화자 중 한 사람을 특정하는 방식일 수 있다. 영상 콘텐츠에서 출연한 화자들이 어느 배우인지 식별이 되면 하나의 유통 영상 콘텐츠에서 출연 배우들의 정보를 수집할 수 있고, 대중적으로 알려진 출연 배우들이 식별되면 이 정보가 저장된 출연진 데이터베이스를 참조하여 영상 콘텐츠를 식별할 수 있다.

불법 영상 콘텐츠 판별부(170)는 식별된 유통 영상 콘텐츠가 불법인지 여부를 판단한다. 영상 콘텐츠의 저작권 관리회사는 특정한 영상 콘텐츠에 대해 배포, 복제, 전송에 관한 라이선스를 허여한 라이센시(licensee)에 관한 정보를 관리한다. 탐지된 유통 영상 콘텐츠로의 접근 정보로부터 해당 싸이트 혹은 컴퓨터가 라이센시 중 하나에 의해 운영되는지 시스템이 식별하거나 혹은 사람이 확인하도록 도와줄 수 있다.

추가적인 양상에 따르면, 음성 기반 영상 콘텐츠 식별부(150)는 오디오 복호부(151)와, 화자 식별부(153)와, 출연진 기반 콘텐츠 식별부(155)를 포함할 수 있다.

오디오 복호부(151)는 수집된 유통 영상 콘텐츠의 오디오 데이터를 복호화한다. 오디오 복호부(151)는 수집된 유통 영상 콘텐츠에서 오디오 신호를 추출한다. 다수의 멀티미디어 표준에서 오디오 신호는 별도의 스트림으로 관리된다. 일 실시예에서, 오디오 복호부(151)는 다수의 오디오 코덱(audio codec)을 포함하며, 오디오 스트림에 포함된 헤더 정보로부터 적절한 오디오 코덱을 선택한다. 오디오 복호부(151)는 독립적으로 실행되고, 일부는 동일한 종류일 수 있고 일부는 다른 종류일 수 있는 다수의 코덱 프로세스로 구현될 수 있다. 이들은 제어기의 제어에 따라 유통 영상 콘텐츠가 저장된 파일 서버(210)를 개별적으로 액세스하여 독립적으로 오디오 스트림을 디코딩하여 출력한다.

추가적인 양상에 따르면, 오디오 복호부(151)는 유통 영상 콘텐츠의 오디오 데이터를 시간축에서 압축하여 복호화할 수 있다. 예를 들어, 오디오 복호부(151)는 오디오 스트림을 고속으로 디코딩하여 실제 재생 속도보다 빠른 속도로 디코딩된 디지털 오디오 스트림으로 출력할 수 있다. 이러한 처리는 이후의 처리에서 시간 영역 처리가 회피될 경우 고속으로 처리하는데 적합할 수 있다.

화자 식별부(153)는 오디오 복호부에서 출력된 오디오 신호로부터 출연진을 인식하여 출력한다. 일 실시예에서, 화자 식별부(153)는 출연진 데이터베이스(250)에 포함된 배우들의 음성의 기준 템플릿(reference template)이 저장된 배우별 음성 템플릿 데이터베이스(230)를 이용한다. 일 실시예에서, 화자 식별부(153)는 각각이 오디오 복호부(151)의 코덱 프로세스들에 매핑되는 복수의 화자 식별 프로세스를 포함할 수 있다. 각각의 화자 식별 프로세스는 먼저 코덱 프로세스에서 출력되는 오디오 데이터 스트림에서 음성 피처(feature)를 추출한다. 화자 식별을 위한 음성 피처는 음성 신호 처리에서 다양한 형태가 알려져 있다. 이후에 각각의 화자 식별 프로세스는 배우별 음성 템플릿 데이터베이스(230)에 저장된 기준 템플릿들을 추출된 음성 피처와 비교하여 화자를 특정한다. 일 실시예에서, 각각의 화자 식별 프로세스는 추출된 음성 피처를 복수의 기준 템플릿과 동시에 비교하기 위하여 병렬 처리 구조를 포함할 수 있다. 비교 결과 유사도가 가장 높은 기준 템플릿의 유사도 값이 기준치 이상인 경우 해당 음성의 화자가 기준 템플릿의 배우라고 판정한다.

출연진 기반 콘텐츠 식별부(155)는 출연진 데이터베이스(250)를 참조하여 화자 식별부(153)에서 출력된 출연진 정보로부터 유통 영상 콘텐츠를 식별한다. 예를 들어 배우 A, B, C가 동시에 출연한 영상 콘텐츠는 몇 개로 특정될 수 있다. 식별된 배우들의 수를 늘이면 영상 콘텐츠를 유일하게 특정할 수 있다.

추가적인 양상에 따르면, 불법 영상 콘텐츠 탐지 시스템은 크롤링부(crawling part)(110)를 더 포함할 수 있다. 크롤링부(110)는 예를 들어 크롤러 서버로 구현될 수 있으며, 네트워크를 통해 다수의 콘텐츠 제공 컴퓨터를 접속하여 유통 영상 콘텐츠를 수집한다. 크롤러는 소프트웨어 에이전트의 하나로, 웹싸이트를 방문하여 타겟 싸이트나 그에 저장된 콘텐츠를 수집한다. 크롤링부(110)는 복수의 크롤러 프로세스가 동시에 실행될 수 있다. 다른 구성들과 독립적으로 복수의 크롤러 프로세스는 시나리오에 따라 웹싸이트들을 방문하고 저장되거나 재생 중인 영상 콘텐츠를 복사하여 탐지 대상인 유통 영상 콘텐츠를 저장하는 파일 서버(210)에 저장한다.

추가적인 양상에 따르면, 불법 영상 콘텐츠 탐지 시스템은 탐지 과정을 총괄 제어하는 제어부(130)를 더 포함할 수 있다. 제어부(130)는 크롤링부(110)에서 수집된 유통 영상 콘텐츠의 음성 데이터 중 적어도 일부를 오디오 복호부(151)에 공급하고 출연진 기반 콘텐츠 식별부(155)의 유통 영상 콘텐츠 식별 처리를 제어한다.

일 실시예에서, 제어부(130)는 구간 샘플링부(131)와, 식별 제어부(135)를 포함할 수 있다. 구간 샘플링부(131)는 파일 서버(210)에 저장된 수집된 유통 영상 콘텐츠의 음성 데이터에서 예를 들면 3분 길이의 음성 데이터로 구획된 단위 구간을 추출함으로써 샘플링하여 오디오복호부(151)로 공급한다. 추출하는 구간들은 시간축에서 연속된 구간일 수도 있고, 사람의 음성이 검출되는 구간으로 제한될 수도 있다. 또 다른 예로, 추출되는 단위 구간은 복수의 화자가 아닌 단수의 화자가 검출되는 구간으로 선택될 수도 있다. 식별 제어부(135)는 출연진 기반 콘텐츠 식별부(155)에서 식별에 성공할 때까지 구간 샘플링부(131)가 샘플링한 단위 구간들을 오디오 복호부(151)에 공급할 수 있다. 영상 콘텐츠에 식별된 출연 배우들의 수가 늘어날수록 식별될 수 있는 후보 영상 콘텐츠의 수는 줄어든다. 하나의 영상 콘텐츠를 식별하기 위해 처리하는 단위 구간의 수를 줄일수록 제한된 시간에 더 많은 영상 콘텐츠를 처리할 수 있다.

추가적인 양상에 따르면, 출연진 데이터베이스(250)에는 영상 콘텐츠별로 주요 출연 배우들이 저장될 수 있다. 출연진 기반 콘텐츠 식별부(155)는 화자 식별 엔진에서 출력된 출연진 정보에서 특정한 출연 배우의 누적된 검출 시간이 기준 시간 이상인 출연 배우들로부터 출연진 데이터베이스를 참조하여 유통 영상 콘텐츠를 식별할 수 있다. 일 실시예에서, 특정한 배우가 식별된 단위 구간의 수가 일정 개수 이상이면 주요 출연 배우로 판단할 수 있다.

도 3은 제안된 발명의 일 실시예에 따른 불법 영상 콘텐츠 탐지 방법의 구성을 도시한 흐름도이다. 도시된 바와 같이 일 실시예에 따른 불법 영상 콘텐츠 탐지 방법은 음성 기반 영상 콘텐츠 식별 단계(350)와, 그리고 불법 영상 콘텐츠 판별 단계(370)를 포함한다. 음성 기반 영상 콘텐츠 식별 단계(350)에서 탐지 서버는 유통 영상 콘텐츠의 오디오 데이터를 복호화하면서 화자 식별(speaker identification)를 통해 출연 배우들을 식별하고 이 식별된 정보를 이용하여 출연진 데이터베이스를 참조하여 해당 유통 영상 콘텐츠를 식별한다. 불법 영상 콘텐츠 판별 단계(370)에서 탐지 서버는 식별된 유통 영상 콘텐츠가 불법인지 여부를 판단한다. 이들의 구체적인 동작은 도 2를 참조하여 전술한 바와 유사하다.

추가적인 양상에 따르면, 음성 기반 영상 콘텐츠 식별 단계(350)는 오디오 복호 단계(351)와, 화자 식별 단계(353)와, 출연진 기반 콘텐츠 식별 단계(355)를 포함할 수 있다. 오디오 복호 단계(351)에서 탐지 서버는 수집된 유통 영상 콘텐츠의 오디오 데이터를 복호화한다. 화자 식별 단계(353)에서 탐지 서버는 오디오 복호 단계에서 출력된 오디오 신호로부터 출연진을 인식하여 출력한다. 출연진 기반 콘텐츠 식별 단계(355)에서 탐지 서버는 화자 식별 단계(353)에서 출력된 출연진 정보로부터 유통 영상 콘텐츠를 식별한다. 이들의 구체적인 동작은 도 2를 참조하여 전술한 바와 유사하다.

추가적인 양상에 따르면, 불법 영상 콘텐츠 탐지 방법은 구간 샘플링 단계(331)와, 식별 제어 단계(335)를 포함할 수 있다. 구간 샘플링 단계(331)에서 탐지 서버는 파일 서버에 저장된 수집된 유통 영상 콘텐츠의 음성 데이터에서 예를 들면 3분 길이의 음성 데이터로 구획된 단위 구간을 추출함으로써 샘플링하여 오디오 복호 단계(351)로 공급한다. 식별 제어 단계(335)에서 탐지 서버는 출연진 기반 콘텐츠 식별 단계(355)에서 식별에 성공할 때까지 구간 샘플링 단계(331) 이후의 처리를 반복하도록 제어할 수 있다. 이들의 구체적인 동작은 도 2를 참조하여 전술한 바와 유사하다.

이상에서 본 발명을 첨부된 도면을 참조하는 실시예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형예들을 포괄하도록 의도되었다.

110 : 크롤링부 130 : 제어부
131 : 구간 샘플링부 135 : 식별 제어부
150 : 음성 기반 콘텐츠 식별부 151 : 오디오 재생부
153 : 화자 식별부 155 : 출연진 기반 콘텐츠 식별부
170 : 불법 영상 콘텐츠 판별부
210 : 파일 서버 230 : 배우별 음성 템플릿 데이터베이스
250 : 출연진 데이터베이스

Claims

네트워크를 통해 다수의 콘텐츠 제공 컴퓨터를 접속하고 거기에 저장된 유통 영상 콘텐츠를 식별하여 불법 콘텐츠를 판별하되, 컴퓨터에서 실행되는 프로그램 명령어들로 구현되는 불법 영상 콘텐츠 탐지 시스템에 있어서,
영상 콘텐츠별 출연 배우들을 저장한 출연진 데이터베이스와;
유통 영상 콘텐츠의 오디오 데이터를 복호화하여 화자 식별(speaker detection)를 통해 출연 배우들을 식별하고 이 식별된 정보를 이용하여 출연진 데이터베이스를 참조하여 해당 유통 영상 콘텐츠를 식별하는 음성 기반 영상 콘텐츠 식별부와;
식별된 유통 영상 콘텐츠가 불법인지 여부를 판단하는 불법 영상 콘텐츠 판별부;
를 포함하는 불법 영상 콘텐츠 탐지 시스템.
청구항 1에 있어서, 음성 기반 영상 콘텐츠 식별부는 :
수집된 유통 영상 콘텐츠의 오디오 데이터를 복호화하는 오디오 복호부와;
오디오 복호부에서 출력된 오디오 신호로부터 출연진을 인식하는 화자 식별부(speaker identifying part);
상기 출연진 데이터베이스를 참조하여 화자 식별부에서 출력된 출연진 정보로부터 유통 영상 콘텐츠를 식별하는 출연진 기반 콘텐츠 식별부;
를 포함하는 불법 영상 콘텐츠 탐지 시스템.
청구항 2에 있어서, 오디오 복호부는 유통 영상 콘텐츠의 오디오 데이터를 시간축에서 압축 복호화하는 불법 영상 콘텐츠 탐지 시스템.
청구항 2에 있어서, 상기 시스템이 :
네트워크를 통해 다수의 콘텐츠 제공 컴퓨터를 접속하여 유통 영상 콘텐츠를 수집하는 크롤링부(crawling part);
를 더 포함하는 불법 영상 콘텐츠 탐지 시스템.
청구항 4에 있어서, 상기 시스템이 :
크롤링부에서 수집된 유통 영상 콘텐츠의 음성 데이터 중 적어도 일부를 상기오디오 복호부에 공급하고 출연진 기반 콘텐츠 식별부의 유통 영상 콘텐츠 식별 처리를 제어하는 제어부;
를 포함하는 불법 영상 콘텐츠 탐지 시스템.
청구항 5에 있어서, 제어부는 :
수집된 유통 영상 콘텐츠의 음성 데이터에서 단위 구간들을 추출하는 구간 샘플링부와, 출연진 기반 콘텐츠 식별부에서 식별에 성공할 때까지 구간 샘플링부가 샘플링한 단위 구간들을 오디오 복호부에 공급하는 식별 제어부를 포함하는 불법 영상 콘텐츠 탐지 시스템.
청구항 2에 있어서,
상기 출연진 데이터베이스는 영상 콘텐츠별로 주요 출연 배우들을 저장하고,
상기 출연진 기반 콘텐츠 식별부는 화자 식별부에서 출력된 출연진 정보에서 특정한 출연 배우의 누적된 검출 시간이 기준 시간 이상인 출연 배우들로부터 출연진 데이터베이스를 참조하여 유통 영상 콘텐츠를 식별하는 불법 영상 콘텐츠 탐지 시스템.
네트워크를 통해 다수의 콘텐츠 제공 컴퓨터를 접속하고 거기에 저장된 유통 영상 콘텐츠를 식별하여 불법 콘텐츠를 판별하는 컴퓨터에서 실행되는 프로그램 명령어들로 구현되는 불법 영상 콘텐츠 탐지 방법에 있어서,
유통 영상 콘텐츠의 오디오 데이터를 복호화하면서 화자 식별(speaker detection)를 통해 출연 배우들을 식별하고 이 식별된 정보를 이용하여 영상 콘텐츠별 출연 배우들이 저장된 출연진 데이터베이스를 참조하여 해당 유통 영상 콘텐츠를 식별하는 음성 기반 영상 콘텐츠 식별 단계와;
식별된 유통 영상 콘텐츠가 불법인지 여부를 판단하는 불법 영상 콘텐츠 판별 단계;
를 포함하는 불법 영상 콘텐츠 탐지 방법.
청구항 8에 있어서, 음성 기반 영상 콘텐츠 식별 단계는 :
수집된 유통 영상 콘텐츠의 오디오 데이터를 복호화하는 오디오 복호화 단계와;
오디오 복호화 단계에서 복호화된 오디오 신호로부터 출연진을 인식하는 화자 식별 단계와;
출연진 데이터베이스를 참조하여 화자 식별 단계에서 출력된 출연진 정보로부터 유통 영상 콘텐츠를 식별하는 출연진 기반 콘텐츠 식별 단계;
를 포함하는 불법 영상 콘텐츠 탐지 방법.
청구항 9에 있어서, 상기 방법이 :
수집된 유통 영상 콘텐츠의 음성 데이터에서 단위 구간들을 추출하는 구간 샘플링 단계와;
출연진 기반 콘텐츠 식별 단계에서 식별에 성공할 때까지 구간 샘플링 단계 이후의 처리를 반복하도록 제어하는 식별 제어 단계를 더 포함하는 불법 영상 콘텐츠 탐지 방법.