상기의 기술적 과제를 달성하기 위하여 본 발명에 의한 순차적 데이터 처리 기반의 유해 멀티미디어 서비스 차단 장치는 적어도 한 종류 이상의 동영상으로부터 소정의 특징을 추출한 후 기계학습을 통하여 적어도 하나 이상의 등급별로 유해판별모델을 생성하는 유해분류모델 학습부; 유해 여부 판별이 요구되는 입력 동영상을 상기 유해판별모델에 순차적으로 입력하여 판단시점에서의 상기 입력 동영상의 데이터가 소정의 유해 등급에 속할 확률과 현재 시점까지의 누적 유해 확률을 기초로 상기 입력 동영상의 유해 등급을 판단하는 유해데이터 분류부; 및 상기 유해 등급이 소정의 기준 유해 등급에 속하면 서비스를 중단시키는 유해정보 차단부;를 포함하는 것을 특징으로 한다.
상기의 기술적 과제를 달성하기 위하여 본 발명에 의한 순차적 데이터 처리 기반의 유해 멀티미디어 서비스 차단 방법은 적어도 한 종류 이상의 동영상으로부터 소정의 특징을 추출한 후 기계학습을 통하여 적어도 하나 이상의 등급별로 유해판별모델을 생성하는 단계; 유해 여부 판별이 요구되는 입력 동영상을 순차적으로 입력받아 상기 유해판별모델에 대입하는 단계; 상기 대입에 의한 유해 여부 판단 시점에서의 데이터가 소정의 유해 등급에 속할 확률비와 그 시점까지의 누적확률비를 기초로 상기 유해등급에 속하는지를 판단하는 단계; 및 상기 유해 등급이 소정의 기준 유해 등급에 속하면 서비스를 중단하는 단계;를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시예를 상세히 설명하도록 한다. 설명의 편의와 이해의 용이함을 위하여 장치와 방법에 관하여 함께 서술하도록 한다.
도 1은 본 발명에 의한 순차적 데이터 처리 기반의 유해 멀티미디어 서비스 차단 장치의 구성을 보여 주는 블록도이고, 도 2는 도 1의 유해분류모델학습부(110)의 세부 구성을, 도 3a 내지 도 3c는 도 1의 유해데이터분류부(120)의 다양한 실시예의 세부 구성을 보여주는 블록도이다. 그리고 도 4는 본 발명에 의한 순차적 데이터 처리 기반의 유해 멀티미디어 서비스 차단 방법의 과정을 보여주는 흐름도 이며, 도 5는 도 4의 유해 등급에 속하는지의 여부를 결정하는 단계(S430)의 세부 흐름을 보여주는 흐름도이다. 한편 도 6a 내지 6b는 본 발명에 의하여 유해 동영상의 차단되면서 서비스되는 결과들을 보여주는 도면이다.
먼저 도 1과 도 4를 참조하여, 본 발명의 바람직한 일 실시예를 개괄적으로 설명한다. 유해 분류 모델 학습부(110), 유해 데이터 분류부(120), 유해 정보 차단부(130)로 구성된다. 유해 분류 모델 학습부(110)는 유해 정도가 사전에 알려진 멀티미디어 데이터를 입력으로 하여 압축 도메인 및 비압축 도메인으로부터 유해 등급을 분류할 수 있는 특징을 추출하여 기계 학습을 통하여 유해 정보 분류 모델을 생성한다(S410). 데이터 분류부(120)에서는 멀티미디어 서비스로부터 순차적으로 데이터를 받아(S420) 유해 분류 모델 학습부(110)에서 생성된 유해 정보 분류 모델을 사용하여 데이터의 유해 등급 확률을 계산한다. 특정 시점에서 측정된 한 데이터의 유해 등급 확률과 그 이전 데이터까지 계산된 비율을 이용하여 누적 유해 등급 비율이 계산되어 멀티미디어 서비스의 유해 등급을 판정하게 된다(S430). 유해 정보 차단부(130)에서는 유해 등급으로 분류된 멀티미디어 서비스에 대하여는 서비스를 차단하고(S440), 그렇지 않은 경우에는 계속 서비스를 제공한다(S450).
도 2를 참조하면, 유해 분류 모델 학습부(110)는 샘플 데이터(학습 동영상)가 압축된 경우에는 압축 도메인 유해 분류 모델(제1판별모델)을 생성하는 압축도메인부(210)과, 압축을 해제한 상태에서의 비압축 도메인 유해 분류 모델(제2판별모델)을 생성하는 비압축도메인부(220)부로 구분된다. 제1특징추출부(211)는 샘플 데이터에서 유해 데이터의 등급을 분류할 수 있는 특징을 추출한다. 제1기계학습부 (213)는 상기 특징을 입력받아 기계 학습을 수행한다. 제1모델생성부(215)는 상기 기계학습 결과를 입력받아 상기의 제1판별모델을 생성하여 출력한다.
비압축도메인부(220)에 대해 살펴본다. 압축해제부(221)는 샘플 데이터를 디코딩 하여 압축을 해제하여 출력한다. 제2특징추출부(223)는 압축이 해제된 샘플 데이터에서 유해 데이터의 등급을 분류할 수 있는 특징을 추출한다. 제2기계학습부(225)는 이 특징을 입력받아 기계학습을 수행한다. 제2모델학습부(227)는 기계학습 결과를 입력받아 상기 제2판별모델을 생성하여 출력한다(이상 S410).
유해 데이터 분류부(120)는 유해 판단이 필요한 동영상을 순차적으로 입력받아(S420) 상기 제1내지 제2판별모델에 대입하여 판단을 수행하는 현재 시점의 데이터가 특정 유해등급에 속할 확률비와 누적확률비를 계산하여 유해 여부를 판단한다(S430). 도 3a는 압축도메인에서의 유해 분류 모델(이하 "제1판별모델"이라고 함)을 사용하는 경우이고, 도 3b는 비압축도메인에서의 유해 분류 모델(이하, "제2판별모델"이라고 함)을 사용하는 경우이고, 도 3c는 두 가지 모두 사용하는 경우의 실시예이다.
먼저, 유해 판단이 필요한 입력 동영상이 압축 도메인인지가 결정되면(S501), 비압축 도메인에서의 유해 판단이면 압축을 해제하고(S503), 압축도메인에서의 유해 판단이면 그 과정이 필요 없다. 이후의 과정은 동일하다. 도 3a를 참조한다. 제1판별모델을 사용하는 경우, 제1입력부(311)는 상기 입력 동영상을 순차적으로 입력받아 데이터를 하나씩 압축 도메인 특징 추출부(313)로 전달한다. 압축 도메인 특징 추출부(313)는 데이터의 특징을 추출하여(S505) 제1유해성판단부(315) 로 전달한다. 제1유해성판단부(313)는 제1판별모델을 사용하여 유해 등급 확률비를 계산한다(S507). 제1누적유해성판단부(317)는 제1유해성판단부(313)에서 계산한 유해 등급 확률비와, 판단시점 이전 데이터들의 유해 등급 비율을 고려하여 상기 입력 동영상의 유해 등급을 최종적으로 판단한다(S508 내지 S513). 유해 정보 차단부(130)는 입력 동영상이 무해 등급에 속하는 것으로 판정될 경우 사용자에게 멀티미디어 서비스를 제공해 주게 된다. 입력 동영상 데이터의 일부분이라도 유해한 부분을 포함하는 것에 대해 전체를 차단하는 서비스에 대해서는 이상으로써 판단을 종료하고, 입력 동영상 데이터의 일 부분에 대한 선별적인 차단 서비스의 경우는 위의 과정을 반복적으로 수행하게 된다(S515).
도 3b를 참조하여 제2판별모델을 사용하는 경우를 살펴본다. 이 과정에서는 도 3a와 달리 압축해제부(323)가 있어 데이터의 압축을 해제하는 과정이 더 필요하다(S503). 제2입력부(321)는 입력 동영상을 압축해제부(325)로 전달하고, 압축해제부(325)는 입력 동영상을 디코딩하여 순차적으로 비압축도메인 특징추출부(325)로 전달한다. 비압축도메인 특징추출부(325)는 데이터의 특징을 추출하여(S505) 제2유해성판단부(327)로 전달한다. 제2유해성판단부(327)는 제2판별모델을 사용하여 유해 등급 확률비를 계산한다(S507). 제2누적유해성판단부(329)는 제2유해성판단부(327)에서 계산한 유해 등급 확률비와, 판단시점 이전 데이터들의 유해 등급 비율을 고려하여 상기 입력 동영상의 유해 등급을 최종적으로 판단한다(S508 내지 S513). 유해 정보 차단부(130)는 입력 동영상이 무해 등급에 속하는 것으로 판정될 경우 사용자에게 멀티미디어 서비스를 제공해 주게 된다. 입력 동영상 데이터의 일 부분이라도 유해한 부분을 포함하는 것에 대해 전체를 차단하는 서비스에 대해서는 이상으로써 판단을 종료하고, 입력 동영상 데이터의 일 부분에 대한 선별적인 차단 서비스의 경우는 위의 과정을 반복적으로 수행하게 된다(S515).
이제, 좀 더 자세하게 유해 여부를 판단하는 방법을 설명하도록 한다. 도 3a를 참조하면, 유해 데이터 분류부(120)는 멀티미디어 서비스(입력 동영상)으로부터 제1입력부(311)를 통해서 데이터를 순차적으로 입력받는다. 입력부(311)에서 t번째 데이터 (y
t)를 압축도메인 특징추출부(313)로 전달하면, 압축도메인 특징추출부(313)는 데이터 (y
t)로부터 t번째 압축 데이터 특징
를 추출하게 된다(S505). t번째 압축 데이터 특징
는 음성, 이미지 등의 다양한 미디어로부터 추출될 수 있으며, 다음의 수학식 1과 같이 n개의 구성 요소를 가진다.
제1유해성판단부(315)는 t번째 압축 데이터의 특징
를 제1판별모델을 사용하여, t번째 압축 데이터가 유해 등급 i일 확률
와 유해 등급 i가 아닐 확률
를 계산하여, i번째 압축 데이터에 대한 등급 i에 대한 확률비
를 다음의 수학식 2와 같이 계산한다.
제1누적유해성판단부(317)는 t번째 압축 데이터의 유해 등급 i에 대한 확률비
를 사용하여, t번째 압축 데이터까지의 유해 등급 i에 대한 누적 확률비
를 다음의 수학식 3과 같이 계산한다(이상 S507).
제1누적유해성판단부(317)는 t번째 데이터까지의 누적 유해 등급 확률비
를 사용하여 다음의 수학식 4에 의해서 유해 등급을 결정하게 된다.
제1누적유해성판단부(317)에서 누적 유해 등급 확률비
가 등급 i에 대한 최대 임계값 (
b i )보다 큰지 판단하여(S508), 크면 등급 i로 판정하게 된다 (S509). 최대 임계값보다 작으면 최소 임계값 (a
i)보다 작은지 판단하여(S511), 작으면 등급 i가 아니라고 결정하게 되고(S513), 크면 누적 유해 등급 확률비가 등급 i에 대한 최대 임계값과 최소 임계값 사이에 있는 경우이므로
t+1 번째 데이터를 입력 받아서 위의 과정을 반복하게 된다(S515).
이제 도 3b를 참조하여 비압축도메인에서의 과정을 살펴보도록 하자.
제2입력부(321)에서 t 번째 압축 데이터 (y t )를 압축해제부(323)로 전달하면, 압축해제부(323)는 압축 데이터를 디코딩하여 출력한다(S503). 비압축도메인 특징추출부(325)는 압축이 해제된 데이터(x t )를 입력받아 데이터(x t )로부터 t번째 압축 데이터 특징(U t )를 추출하게 된다(S505). t 번째 디코딩된 데이터 특징 (U t )는 음성, 이미지 등의 다양한 미디어로부터 추출될 수 있으며, 다음의 수학식 5와 같이 n개의 구성 요소를 가진다.
제2유해성판단부(327)는 t번째 압축 데이터의 특징
를 제2판별모델을 사용하여, t번째 압축 데이터가 유해 등급 i일 확률
와 유해 등급 i가 아닐 확률
를 계산하여, i번째 압축 데이터에 대한 등급 i에 대한 확률비
를 다음의 수학식 6과 같이 계산한다.
제2누적유해성판단부(329)는 t번째 압축 데이터의 유해 등급 i에 대한 확률비
를 사용하여, t번째 압축 데이터까지의 유해 등급 i에 대한 누적 확률비
를 다음의 수학식 7과 같이 계산한다(이상 S507).
제2누적유해성판단부(329)는 t번째 데이터까지의 누적 유해 등급 확률비
를 사용하여 다음의 수학식 8에 의해서 유해 등급을 결정하게 된다.
제2누적유해성판단부(329)에서 누적 유해 등급 확률비
가 등급 i에 대 한 최대 임계값 (
b i )보다 큰지 판단하여(S508), 크면 등급 i로 판정하게 된다(S509). 최대 임계값보다 작으면 최소 임계값 (a
i)보다 작은지 판단하여(S511), 작으면 등급 i가 아니라고 결정하게 되고(S513), 크면 누적 유해 등급 확률비가 등급 i에 대한 최대 임계값과 최소 임계값 사이에 있는 경우이므로
t+1 번째 데이터를 입력 받아서 위의 과정을 반복하게 된다(S515).
도 3c는 도 1의 유해데이터분류부(120)의 또 다른 하나의 실시예의 세부 구성을 보여주는데, 압축도메인 특징추출부(333), 제1유해성판단부(335), 제1누적유해성판단부(337)에 의한 처리는 도 3a에서와 동일하며, 압축해제부(341), 비압축도메인 특징추출부(343), 제2유해성판단부(345), 제2누적유해성판단부(349)에 의한 처리는 도 3b에서와 동일하며, 입력부(331)의 기능 또한 동일하므로 설명은 중복을 피하기 위하여 생략한다. 다만, 통합누적유해성판단부(351)은 압축도메인에서의 유해등급 판단 결과와 비압축도메인에서의 유해등급 판단 결과를 종합하여 멀티미디어 서비스의 유해 등급을 최종적으로 결정한다.
도 6a 내지 도 6b는 유해정보차단부(130)가 유해 동영상을 차단하는 방법을 보여주는 도면이다. 먼저 도 6a를 참조하면, 판단 시점(t)이전의 누적유해등급 확률비가 유해 등급 i로 판단할 최대 임계값보다 작기 때문에 서비스를 제공하지만, t시점 이후에는 그 임계값을 초과하기 때문에 서비스를 차단하는 것을 보여준다.
한편 도 6를 살펴보면, 판단시점 t1 이전에는 누적유해등급 확률비가 유해등급 i의 최대임계값보다 작기 때문에 서비스를 제공하지만, t1직후에는 그 값이 최대 임계 값을 초과하므로 서비스가 차단된다. 하지만 판단시점 t2 에서는 누적유해등급 확률비가 유해등급 i보다 낮기 때문에 서비스가 다시 개시되는 것을 알 수 있다.
이와 같이 본 발명의 특징은 유해한 멀티미디어 서비스의 등급을 분류하는 속도 속도 및 성능을 향상시키기 위해서, 압축된 데이터로부터 특징을 추출하여 사용하고, 특정 시점의 데이터만을 사용하여 유해 등급을 판정하지 않고 과거 데이터와 특정 시점의 데이터 사이의 상호 연결 정보를 사용하였으며, 데이터의 유해 등급을 판정할 때 기계 학습 기반의 유해 등급 분류 모델을 사용한 것, 그리고 순차적으로 데이터를 처리하여 실시간 및 비실시간 유해 멀티미디어 서비스 차단에 적합하다는 점에 있다.
본 발명에 의한 순차적 데이터 처리 기반의 유해 멀티미디어 차단 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨 터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.
이상과 같이 본 발명은 양호한 실시예에 근거하여 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것으로, 본 발명이 속하는 기술분야의 숙련자라면 이 발명의 기술사상을 벗어남이 없이 위 실시예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.