KR102530843B1

KR102530843B1 - 인공지능 기반의 포르노 영상 분류 방법 및 장치

Info

Publication number: KR102530843B1
Application number: KR1020220144540A
Authority: KR
Inventors: 조성환; 민성현; 양재영; 이상우; 김원겸
Original assignee: (주)에이아이딥
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-05-11

Abstract

본 발명은 인공지능 기반의 포르노 영상 분류 방법에 관한 것이다. 인공지능 기반의 포르노 영상 분류 방법은, 영상으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출하는 단계, 제1 프레임 및/또는 제2 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계, 제1 프레임 및/또는 제2 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하는 단계, 산출된 특징 정보를 기초로 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계를 포함한다.

Description

인공지능 기반의 포르노 영상 분류 방법 및 장치{METHOD AND DEVICE FOR CLASSIFYING PORNOGRAPHIC VIDEO BASED ON ARTIFICIAL INTELLIGENCE}

본 발명은 인공지능 기반의 포르노 영상 분류 방법 및 장치에 관한 것으로, 구체적으로, 프레임에서 추출되는 객체의 특징값을 이용하여 포르노 영상을 분류하는 인공지능 기반의 포르노 영상 분류 방법 및 장치에 관한 것이다.

스마트폰 등과 같은 모바일 기기의 확산 및 인터넷의 발달로 인해 모바일 기기를 이용한 영상 플랫폼 서비스, 소셜 네트워크 서비스 등이 널리 사용되고 있다. 이러한 서비스의 사용자들은 온라인 상에 업로드된 영상을 간단한 터치 입력으로 쉽게 확인하고 시청할 수 있다.

한편, 이러한 온라인 플랫폼 상에 불법적인 포르노 영상 등이 무분별하게 게재되어 사용자들에게 배포되는 문제가 있다. 이에 따라, 온라인 플랫폼의 운영자는 불법적인 영상을 분류하여 제거하기 위한 다양한 방법을 이용하고 있다. 구체적으로, 사람이 직접 영상을 확인하고 제거하는 방안, 영상 파일의 해쉬값을 확인하는 방안 및 이미지의 특징을 비교하는 방안, 인공지능을 사용하는 방안 등이 이용되고 있다. 그러나, 이러한 방안을 시간이 오래 걸리거나, 변형된 파일, 비슷한 질감을 포함하는 영상 등에 성능이 보장되지 않는 문제가 있다. 또한, 인공지능을 사용하는 기존의 방안은 프레임에만 적용되는 한계가 존재하여 영상을 분류하는데 적합하지 않은 단점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위한 인공지능 기반의 포르노 영상 분류 방법, 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체 및 장치(시스템)를 제공한다.

본 발명은 방법, 장치(시스템), 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 포함한 다양한 방식으로 구현될 수 있다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로세서에 의해 수행되는 인공지능 기반의 포르노 영상 분류 방법은, 영상으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출하는 단계, 제1 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계, 제1 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하는 단계, 제2 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계, 제2 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제2 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하는 단계 및 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수 및 제2 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 기초로 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하는 단계는, 제1 프레임을 학습된 제1 인공신경망 모델에 제공하여 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 제1 인공신경망 모델은 YOLO(You Only Look Once) 기반의 모델이다.

본 발명의 일 실시예에 따르면, 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는, 제1 프레임에서 제1 객체 및 제2 객체의 동시 탐지 여부 및 제2 프레임에서 제1 객체 및 제2 객체의 동시 탐지 여부를 추가로 이용하여 영상을 분류하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는, 제1 프레임 및 제2 프레임에서 복수의 객체 중 적어도 일부의 객체의 연속 탐지 여부를 추가로 이용하여 영상을 분류하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는, 제1 인공신경망 모델의 객체 탐지 정보를 영상 분류를 위해 학습된 제2 인공신경망 모델에 제공하여 영상을 분류하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 제1 객체의 오탐지 확률을 산출하는 단계 및 제1 객체의 오탐지 확률에 기초하여 제1 객체의 오탐지 확률이 사전 결정된 임계값 이상인 경우, 제1 객체의 수를 제1 수치값에 기초하여 전처리하는 단계를 더 포함한다.

본 발명의 일 실시예에 따르면, 제2 객체의 오탐지 확률을 산출하는 단계 및 제2 객체의 오탐지 확률에 기초하여 제2 객체의 오탐지 확률이 사전 결정된 임계값 이하인 경우, 제2 객체의 수를 제2 수치값에 기초하여 전처리하는 단계 -제2 수치값은 제1 수치값 보다 큼 - 를 더 포함한다.

본 발명의 일 실시예에 따르면, 제1 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계는, 제1 프레임에 포함된 제1 객체의 정확도가 사전 결정된 기준 이상인 경우, 제1 프레임이 제1 객체를 포함하는 것으로 판정하는 단계를 포함한다.

본 발명의 일 실시예에 따르면, 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수의 평균값 및 분산을 포함하는 분포 정보를 생성하는 단계를 더 포함한다.

본 발명의 일 실시예에 따르면, 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는, 영상에서 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 산출하는 단계 및 산출된 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 추가로 이용하여 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계를 포함한다.

본 발명의 일 실시예에 따른 상술된 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명의 일 실시예에 따른 컴퓨팅 장치는, 통신 모듈, 메모리 및 메모리와 연결되고, 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서를 포함한다. 적어도 하나의 프로그램은, 영상으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출하고, 제1 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하고, 제1 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하고, 제2 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하고, 제2 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제2 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하고, 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수 및 제2 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 기초로 영상을 포르노 영상 또는 일반 영상으로 분류하기 위한 명령어들을 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제1 프레임을 학습된 제1 인공신경망 모델에 제공하여 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제1 프레임에서 제1 객체 및 제2 객체의 동시 탐지 여부 및 제2 프레임에서 제1 객체 및 제2 객체의 동시 탐지 여부를 추가로 이용하여 영상을 분류하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제1 프레임 및 제2 프레임에서 복수의 객체 중 적어도 일부의 객체의 연속 탐지 여부를 추가로 이용하여 영상을 분류하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제1 인공신경망 모델의 객체 탐지 정보를 영상 분류를 위해 학습된 제2 인공신경망 모델에 제공하여 영상을 분류하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제1 객체의 오탐지 확률을 산출하고, 제1 객체의 오탐지 확률에 기초하여 제1 객체의 오탐지 확률이 사전 결정된 임계값 이상인 경우, 제1 객체의 수를 제1 수치값에 기초하여 전처리하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제2 객체의 오탐지 확률을 산출하고, 제2 객체의 오탐지 확률에 기초하여 제2 객체의 오탐지 확률이 사전 결정된 임계값 이하인 경우, 제2 객체의 수를 제2 수치값에 기초하여 전처리하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 제1 프레임에 포함된 제1 객체의 정확도가 사전 결정된 기준 이상인 경우, 제1 프레임이 제1 객체를 포함하는 것으로 판정하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수의 평균값 및 분산을 포함하는 분포 정보를 생성하기 위한 명령어들을 더 포함한다.

본 발명의 일 실시예에 따르면, 적어도 하나의 프로그램은, 영상에서 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 산출하고, 산출된 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 추가로 이용하여 영상을 포르노 영상 또는 일반 영상으로 분류하기 위한 명령어들을 더 포함한다.

본 발명의 다양한 실시예에서 포르노 여부를 결정할 수 있는 영상 전체에 대한 객체들의 고유의 특징값을 사전 결정하고, 이를 포르노 영상을 분류하는데 사용함으로써 인력을 투입하거나, 파일 해쉬값을 이용하거나, 이미지의 특징을 비교하는 종래의 방식과 비교하여 보다 정밀하고 효율적으로 포르노 영상을 분류할 수 있다.

본 발명의 다양한 실시예에서 컴퓨팅 장치는 단순히 객체가 탐지된 프레임 수, 비율 등 만을 이용한 종래의 기술과 달리 각 프레임에서 산출할 수 있는 유의미한 특징값들을 추가적으로 이용하여 포르노 영상 분류의 정확도를 향상시킬 수 있다.

본 발명의 다양한 실시예에서 컴퓨팅 장치는 영상 특징값을 산출하는 과정에서 오탐지 확률에 기초하여 각 객체의 수를 조정하거나, 특징값의 분포를 나타내는 최댓값, 분산 및/또는 평균 등을 산출하여 이용하거나, 특징값에 대한 스케일링을 수행하는 등 각 값들이 포르노 영상 분류를 위한 최적의 형태를 갖도록 전처리를 수행하여 높은 정밀도로 포르노 영상을 분류할 수 있다.

본 발명의 다양한 실시예에서 제1 인공신경망 모델 및 제2 인공신경망 모델을 포함하는 2개의 모델을 유기적으로 이용함으로써, 영상을 입력하는 것만으로 입력된 영상이 포르노 영상인지 여부를 효과적으로 결정할 수 있다.

본 발명의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자("통상의 기술자"라 함)에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.
도 1은 본 발명의 일 실시예에 따른 컴퓨팅 장치가 영상을 분류하는 예시를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 영상을 프레임 단위로 분할하는 예시를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 제1 인공신경망 모델이 복수의 프레임에 대응하는 특징값들을 산출하는 예시를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 특징값들을 이용하여 영상 전체에 대한 영상 특징값을 산출하는 예시를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 제2 인공신경망 모델에 영상 특징값을 기초로 영상 분류값을 산출하는 예시를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 인공신경망 모델을 나타내는 예시도이다.
도 7은 본 발명의 일 실시예에 따른 인공지능 기반의 포르노 영상 분류 방법의 예시를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 특징값의 전처리 방법의 예시를 나타내는 도면이다.
도 9는 본 발명의 추가적인 실시예에 따른 특징값의 전처리 방법의 예시를 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 나타내는 블록도이다.

이하, 본 발명의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.

첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명이 완전하도록 하고, 본 발명이 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

본 발명에서, "포함하다", "포함하는" 등의 용어는 특징들, 단계들, 동작들, 요소들 및/또는 구성 요소들이 존재하는 것을 나타낼 수 있으나, 이러한 용어가 하나 이상의 다른 기능들, 단계들, 동작들, 요소들, 구성 요소들 및/또는 이들의 조합이 추가되는 것을 배제하지는 않는다.

본 발명에서, 특정 구성 요소가 임의의 다른 구성 요소에 "결합", "조합", "연결" 되거나, "반응" 하는 것으로 언급된 경우, 특정 구성 요소는 다른 구성 요소에 직접 결합, 조합 및/또는 연결되거나, 반응할 수 있으나, 이에 한정되지 않는다. 예를 들어, 특정 구성 요소와 다른 구성 요소 사이에 하나 이상의 중간 구성 요소가 존재할 수 있다. 또한, 본 발명에서 "및/또는"은 열거된 하나 이상의 항목의 각각 또는 하나 이상의 항목의 적어도 일부의 조합을 포함할 수 있다.

본 발명에서, "제1", "제2" 등의 용어는 특정 구성 요소를 다른 구성 요소와 구별하기 위해 사용되는 것으로, 이러한 용어에 의해 상술된 구성 요소가 제한되진 않는다. 예를 들어, "제1" 구성 요소는 "제2" 구성 요소와 동일하거나 유사한 형태의 요소일 수 있다.

도 1은 본 발명의 일 실시예에 따른 컴퓨팅 장치(100)가 영상(112)을 분류하는 예시를 나타내는 도면이다. 일 실시예에 따르면, 컴퓨팅 장치(100)는 영상(112)이 일반 영상(122)인지 포르노 영상(124)인지 여부를 판정하기 위한 임의의 장치를 지칭할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 온라인 영상 플랫폼, SNS(Social Network Service), 웹하드 등에 배포되고 저장된 영상들이 포르노 영상인지 여부에 대해 판정할 수 있다.

도시된 것과 같이, 컴퓨팅 장치(100)는 탐지기(110) 및 분류기(120)를 포함할 수 있다. 예를 들어, 임의의 영상(112)이 입력되는 경우, 탐지기(110)는 영상(112)에 포함된 객체들을 검출할 수 있다. 여기서, 객체는 포르노 영상에서 주로 등장하는 신체 부위 등을 나타내는 것으로, 예를 들어, 남자 성기, 여자 성기, 여자 가슴, 항문 등을 포함할 수 있다. 이와 같이 탐지기(110)에서 검출된 객체들의 특징값은 분류기(120)에 제공될 수 있으며, 분류기(120)는 제공된 특징값을 이용하여 영상(112)이 일반 영상(122)인지 포르노 영상(124)인지 여부를 판정할 수 있다.

객체 검출을 위해, 탐지기(110)는 영상(112)으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출할 수 있다. 예를 들어, 탐지기(110)는 1초 마다 하나의 프레임을 추출할 수 있으나, 이에 한정되지 않는다. 이 경우, 탐지기(110)는 각각의 영상 프레임에 포르노 영상에 대응하는 복수의 객체 중 적어도 일부의 객체가 포함되는지 여부를 판정할 수 있다. 그리고 나서, 탐지기(110)는 각각의 프레임에 포함된 전체 객체의 수, 각각의 객체의 수 및 객체 종류 수 등을 산출할 수 있다.

일 실시예에 따르면, 탐지기(110)는 각 프레임에서 산출된 정보를 기초로 영상(112) 전체에 대한 특징값을 산출할 수 있다. 예를 들어, 특징값은 객체가 탐지된 프레임 수, 객체가 탐지된 프레임 비율, 연속으로 탐지된 프레임 수, 탐지된 전체 객체 수, 종류별 탐지된 수, 객체 종류 수, 남/녀 성기 동시 탐지 여부 등을 나타내는 값을 포함할 수 있으나, 이에 한정되지 않는다. 그리고 나서, 탐지기(110)는 산출된 특징값을 영상 분류를 위한 분류기(120)에 제공할 수 있다.

일 실시예에 따르면, 분류기(120)는 제공된 특징값을 이용하여 영상(112)이 일반 영상(122)인지 포르노 영상(124)인지 여부를 판정할 수 있다. 이 경우, 특징값은 전처리되어 분류 모델에 입력될 수 있다. 예를 들어, 분류 모델은 특징값을 기초로 일반 영상(122) 및 포르노 영상(124)을 분류하도록 사전 학습된 모델일 수 있으며, 영상(112)에 대응하는 특징값을 입력받는 경우, 해당 영상(112)이 일반 영상(122)인 확률 및 포르노 영상(124)인 확률을 출력하여 포르노 영상 여부를 판정할 수 있다.

이와 같은 구성에 의해, 포르노 여부를 결정할 수 있는 영상 전체에 대한 객체들의 고유의 특징값을 사전 결정하고, 이를 포르노 영상을 분류하는데 사용함으로써 인력을 투입하거나, 파일 해쉬값을 이용하거나, 이미지의 특징을 비교하는 종래의 방식과 비교하여 보다 정밀하고 효율적으로 포르노 영상을 분류할 수 있다.

도 2는 본 발명의 일 실시예에 따른 영상(112)을 프레임 단위로 분할하는 예시를 나타내는 도면이다. 상술한 것과 같이, 영상(112)으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임(210)이 추출될 수 있다. 이 경우, 복수의 프레임(210)에 포함된 각각의 프레임에 대한 이미지 정규화가 수행될 수 있다.

일 실시예에 따르면, 컴퓨팅 장치(도 1의 100)는 영상(112)을 기초로 1초에 하나의 프레임을 추출하여 복수의 프레임(210)을 추출할 수 있다. 여기서, 추출된 복수의 프레임(210)은 전처리되어 객체 탐지에 이용될 수 있다. 예를 들어, 프레임에서 RGB 채널이 각각 분리될 수 있으며, 분리된 RGB 채널에 대한 z-score 전처리가 수행될 수 있다. 여기서, z-score는 데이터 값이 평균으로부터 얼마나 떨어져 있는지를 표준편차를 기준으로 나타낸 표준 점수를 지칭할 수 있으며, z-score 전처리는 평균에서 멀리 떨어진 값을 이상치로서 제거하는 것을 나타낼 수 있다. 이와 같이 전처리가 수행된 RGB 채널은 다시 결합되어 하나의 프레임을 구성할 수 있다.

도 3은 본 발명의 일 실시예에 따른 제1 인공신경망 모델(300)이 복수의 프레임(210)에 대응하는 특징값들을 산출하는 예시를 나타내는 도면이다. 일 실시예에 따르면, 제1 인공신경망 모델(300)은 복수의 프레임(210)을 기초로 객체 탐지 정보를 출력할 수 있다. 도시된 것과 같이, 제1 인공신경망 모델(300)은 복수의 프레임(210)에 포함된 각각의 프레임을 입력받아 각 프레임에 대응하는 특징값들(312, 314, 316, 318)을 산출할 수 있다. 상술한 것과 같이, 제1 인공신경망 모델(300)은 전처리를 기초로 정규화된 각 프레임들을 입력받아 특징값들(312, 314, 316, 318)을 산출할 수 있다.

일 실시예에 따르면, 제1 인공신경망 모델(300)은 포르노 영상의 특징에 대응하는 객체 탐지를 수행하도록 학습된 모델일 수 있다. 예를 들어, 제1 인공신경망 모델(300)은 각 프레임에 포함된 포르노 영상의 특징에 대응하는 사전 결정된 객체들(예: 남자 성기, 여자 성기, 여자 가슴, 항문 등)을 추출할 수 있다. 여기서, 제1 인공신경망 모델은 YOLO(You Only Look Once) 기반의 모델로서, 예를 들어, YOLO-V4 모델일 수 있으나, 이에 한정되지 않는다.

이 경우, 컴퓨팅 장치(100)는 제1 인공신경망 모델(300)에 의해 추출된 객체들의 특징값을 결정할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 객체 탐지 여부, 전체 객체의 수, 제1 객체의 수, 제2 객체의 수, 객체 종류 수 등의 특징값을 산출할 수 있다. 이에 따라, 제1 프레임(frame #1)에 대응하는 제1 특징값(312)이 산출되고, 제2 프레임(frame #2)에 대응하는 제2 특징값(314)이 산출되고, 제3 프레임(frame #3)에 대응하는 제3 특징값(316)이 산출되고, 제4 프레임(frame #4)에 대응하는 제4 특징값(318)이 산출될 수 있다.

도 3에서는 제1 인공신경망 모델(300)이 제1 객체의 수 및 제2 객체의 수를 산출하는 것으로 상술되었으나, 이에 한정되지 않는다. 예를 들어, 제1 인공신경망 모델(300)은 포르노 영상의 특징에 대응하는 것으로 사전 결정된 모든 객체를 산출할 수 있다. 이와 같은 구성에 의해, 컴퓨팅 장치(100)는 단순히 객체가 탐지된 프레임 수, 프레임 비율 등 만을 이용한 종래의 기술과 달리 각 프레임에서 산출할 수 있는 유의미한 특징값들을 추가적으로 이용하여 포르노 영상 분류의 정확도를 향상시킬 수 있다.

도 4는 본 발명의 일 실시예에 따른 특징값들(312, 314, 316, 318)을 이용하여 영상 전체에 대한 영상 특징값(410)을 산출하는 예시를 나타내는 도면이다. 도시된 것과 같이, 각 프레임에서 추출된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수, 객체 종류 수 등의 특징값들(312, 314, 316, 318)을 기초로 영상 전체에 대한 영상 특징값(410)이 산출될 수 있다. 예를 들어, 영상 특징값(410)은 객체가 탐지된 프레임 수, 객체가 탐지된 프레임 비율, 연속으로 탐지된 프레임 수, 전체 객체 탐지 수, 종류별 객체 탐지 수, 제1 객체 및 제2 객체의 동시 탐지 여부 등에 대한 값을 포함할 수 있다.

일 실시예에 따르면, 각각의 특징값들(312, 314, 316, 318)은 전처리될 수 있으며, 전처리된 특징값을 기초로 영상 특징값(410)이 생성될 수 있다. 예를 들어, 컴퓨팅 장치(예: 도 1의 100)는 제1 객체의 오탐지 확률을 산출하고, 제1 객체의 오탐지 확률에 기초하여 제1 객체의 오탐지 확률이 사전 결정된 임계값 이상인 경우, 제1 객체의 수를 제1 수치값에 기초하여 전처리할 수 있다. 또한, 컴퓨팅 장치는 제2 객체의 오탐지 확률을 산출하고, 제2 객체의 오탐지 확률에 기초하여 제2 객체의 오탐지 확률이 사전 결정된 임계값 이하인 경우, 제2 객체의 수를 제2 수치값에 기초하여 전처리할 수 있다. 여기서, 제2 수치값은 제1 수치값 보다 클 수 있다. 즉, 컴퓨팅 장치는 특징값의 신뢰도를 향상시키기 위해 오탐지 확률이 상대적으로 높은 객체의 비중은 감소시키고, 오탐지 확률이 낮은 객체의 비중은 증가시켜 특징값을 전처리할 수 있다. 예를 들어, 오탐지 확률이 높은 여성 가슴 객체의 수는 75%로 전처리되고, 오탐지 확률이 낮은 항문 객체의 수는 125%로 전처리될 수 있다.

일 실시예에 따르면, 컴퓨팅 장치는 특징값의 최댓값, 분산 및/또는 평균값 등을 포함하는 분포 정보를 산출하여 영상 특징값(410)을 생성할 수 있다. 예를 들어, 컴퓨팅 장치는 연속으로 탐지된 프레임 수의 평균값 및/또는 분산, 각각의 객체의 수의 최댓값, 평균값 및/또는 분산, 객체의 종류 수의 최댓값, 평균값 및/또는 분산 등을 이용하여 영상 특징값(410)을 생성할 수 있다.

추가적으로 또는 대안적으로, 컴퓨팅 장치는 영상 특징값(410)에 포함된 각 인자들을 스케일링할 수 있다. 예를 들어, 컴퓨팅 장치는 영상 특징값(410)에 포함된 각각의 값을 0에서 1 사이의 값으로 조정하여 각 인자들의 절대값의 차이가 큰 경우에도 이를 조정할 수 있다.

이와 같은 구성에 의해, 컴퓨팅 장치는 영상 특징값(410)을 산출하는 과정에서 오탐지 확률에 기초하여 각 객체의 수를 조정하거나, 특징값의 분포를 나타내는 최댓값, 분산 및/또는 평균 등을 산출하여 이용하거나, 특징값에 대한 스케일링을 수행하는 등 각 값들이 포르노 영상 분류를 위한 최적의 형태를 갖도록 전처리를 수행하여 높은 정밀도로 포르노 영상을 분류할 수 있다.

도 5는 본 발명의 일 실시예에 따른 제2 인공신경망 모델(500)에 영상 특징값(410)을 기초로 영상 분류값(510)을 산출하는 예시를 나타내는 도면이다. 일 실시예에 따르면, 제2 인공신경망 모델(예: 분류 모델)(500)은 영상 특징값(410)을 입력받아 해당 영상이 일반 영상인지 포르노 영상인지 여부를 나타내는 영상 분류값(510)을 출력하도록 학습된 모델일 수 있다. 즉, 제2 인공신경망 모델(500)은 영상 특징값(410)에 포함된 객체가 탐지된 프레임 수, 객체가 탐지된 프레임 비율, 연속으로 탐지된 프레임 수, 전체 객체 탐지 수, 종류별 객체 탐지 수, 제1 객체 및 제2 객체의 동시 탐지 여부 등에 대한 값을 기초로 해당 영상이 일반 영상인지 포르노 영상인지 여부를 나타내는 영상 분류값(510)을 출력할 수 있다.

이와 같이 제1 인공신경망 모델(도 3의 300) 및 제2 인공신경망 모델(500)을 포함하는 2개의 모델이 유기적으로 동작함으로써, 영상을 입력하는 것만으로 입력된 영상이 포르노 영상인지 여부가 효과적으로 결정될 수 있다.

도 6은 본 발명의 일 실시예에 따른 인공신경망 모델(600)을 나타내는 예시도이다. 인공신경망 모델(600)은, 기계학습 모델의 일 예로서, 기계 학습(machine learning) 기술과 인지과학에서, 생물학적 신경망의 구조에 기초하여 구현된 통계학적 학습 알고리즘 또는 그 알고리즘을 실행하는 구조이다.

일 실시예에 따르면, 인공신경망 모델(600)은, 생물학적 신경망에서와 같이 시냅스의 결합으로 네트워크를 형성한 인공 뉴런인 노드(node)들이 시냅스의 가중치를 반복적으로 조정하여, 특정 입력에 대응한 올바른 출력과 추론된 출력 사이의 오차가 감소되도록 학습함으로써, 문제 해결 능력을 가지는 기계학습 모델을 나타낼 수 있다. 예를 들어, 인공신경망 모델(600)은 기계 학습, 딥러닝 등의 인공지능 학습법에 사용되는 임의의 확률 모델, 뉴럴 네트워크 모델 등을 포함할 수 있다.

인공신경망 모델(600)은 다층의 노드들과 이들 사이의 연결로 구성된 다층 퍼셉트론(multilayer perceptron, MLP)으로 구현될 수 있다. 본 실시예에 따른 인공신경망 모델(600)은 MLP를 포함하는 다양한 인공신경망 모델 구조들 중의 하나를 이용하여 구현될 수 있으나, 이에 한정되지 않는다. 도 6에 도시된 바와 같이, 인공신경망 모델(600)은, 외부로부터 입력 신호 또는 데이터(610)를 수신하는 입력층(620), 입력 데이터에 대응한 출력 신호 또는 데이터(650)를 출력하는 출력층(640), 입력층(620)과 출력층(640) 사이에 위치하며 입력층(620)으로부터 신호를 받아 특성을 추출하여 출력층(640)으로 전달하는 n개(여기서, n은 양의 정수)의 은닉층(630_1 내지 630_n)으로 구성된다. 여기서, 출력층(640)은 은닉층(630_1 내지 630_n)으로부터 신호를 받아 외부로 출력한다.

인공신경망 모델(600)의 학습 방법에는, 교사 신호(정답)의 입력에 의해서 문제의 해결에 최적화되도록 학습하는 지도 학습(Supervised Learning) 방법과, 교사 신호를 필요로 하지 않는 비지도 학습(Unsupervised Learning) 방법이 있다. 일 실시예에 따르면, 인공신경망 모델(600)의 입력변수는, 영상의 프레임, 각 영상에서 추출된 특징값 등을 포함할 수 있다.

이와 같이, 인공신경망 모델(600)의 입력층(620)과 출력층(640)에 복수의 입력변수와 대응되는 복수의 출력변수가 각각 매칭되고, 입력층(620), 은닉층(630_1 내지 630_n) 및 출력층(640)에 포함된 노드들 사이의 시냅스 값이 조정됨으로써, 특정 입력에 대응한 올바른 출력이 추출될 수 있도록 학습될 수 있다. 이러한 학습 과정을 통해, 인공신경망 모델(600)의 입력변수에 숨겨져 있는 특성을 파악할 수 있고, 입력변수에 기초하여 계산된 출력변수와 목표 출력 간의 오차가 줄어들도록 인공신경망 모델(600)의 노드들 사이의 시냅스 값(또는 가중치)를 조정할 수 있다.

일 실시예에 따르면, 제1 인공신경망 모델은 영상에 대응하는 각 프레임을 입력받아 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수, 객체 종류 수 등을 산출할 수 있다. 이 경우, 각 프레임의 특징값을 종합하여 객체 탐지 정보를 나타내는 영상 특징값이 생성될 수 있다. 제1 인공신경망 모델은 객체 탐지 정보(예: 영상 특징값)를 영상 분류를 위해 학습된 제2 인공신경망 모델에 제공할 수 있다. 제2 인공신경망 모델은 제공된 객체 탐지 정보를 기초로 영상을 분류할 수 있다.

도 7은 본 발명의 일 실시예에 따른 인공지능 기반의 포르노 영상 분류 방법(700)의 예시를 나타내는 도면이다. 인공지능 기반의 포르노 영상 분류 방법(700)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 인공지능 기반의 포르노 영상 분류 방법(700)은 프로세서가 영상으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출함으로써 개시될 수 있다(S710).

프로세서는 제1 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정할 수 있다(S720). 또한, 프로세서는 제1 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출할 수 있다(S730). 예를 들어, 프로세서는 제1 프레임을 학습된 제1 인공신경망 모델에 제공하여 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출할 수 있다. 여기서, 제1 인공신경망 모델은 YOLO(You Only Look Once) 기반의 모델일 수 있다.

추가적으로, 프로세서는 제2 프레임이 포르노 영상에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정할 수 있다(S740). 또한, 프로세서는 제2 프레임이 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 제2 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 산출할 수 있다(S750).

일 실시예에 따르면, 프로세서는 제1 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수 및 제2 프레임에 포함된 전체 객체의 수, 제1 객체의 수, 제2 객체의 수 및 객체 종류 수를 기초로 영상을 포르노 영상 또는 일반 영상으로 분류할 수 있다(S760). 예를 들어, 프로세서는 제1 인공신경망 모델의 객체 탐지 정보를 영상 분류를 위해 학습된 제2 인공신경망 모델에 제공하여 영상을 분류할 수 있다.

추가적으로 또는 대안적으로, 프로세서는 제1 프레임에서 제1 객체 및 제2 객체의 동시 탐지 여부 및 제2 프레임에서 제1 객체 및 제2 객체의 동시 탐지 여부를 추가로 이용하여 영상을 분류할 수 있다. 추가적으로 또는 대안적으로, 프로세서는 제1 프레임 및 제2 프레임에서 복수의 객체 중 적어도 일부의 객체의 연속 탐지 여부를 추가로 이용하여 영상을 분류할 수 있다. 추가적으로 또는 대안적으로, 프로세서는 영상에서 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 산출하고, 산출된 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 추가로 이용하여 영상을 포르노 영상 또는 일반 영상으로 분류할 수 있다.

도 8은 본 발명의 일 실시예에 따른 특징값의 전처리 방법(800)의 예시를 나타내는 도면이다. 특징값의 전처리 방법(800)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 특징값의 전처리 방법(800)은 프로세서가 제1 객체의 오탐지 확률을 산출함으로써 개시될 수 있다(S810). 예를 들어, 프로세서는 객체 탐지를 수행하는 인공신경망 모델의 학습 결과를 기초로 제1 객체의 오탐지 확률을 산출할 수 있다.

이 경우, 프로세서는 제1 객체의 오탐지 확률에 기초하여 제1 객체의 오탐지 확률이 사전 결정된 임계값 이상인 경우, 제1 객체의 수를 제1 수치값에 기초하여 전처리할 수 있다(S820). 예를 들어, 프로세서는 제1 객체의 수에 75%의 제1 수치값을 곱하여 제1 객체의 수를 전처리할 수 있다.

도 9는 본 발명의 추가적인 실시예에 따른 특징값의 전처리 방법(900)의 예시를 나타내는 도면이다. 특징값의 전처리 방법(900)은 적어도 하나의 프로세서(예: 컴퓨팅 장치의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 특징값의 전처리 방법(900)은 프로세서가 제2 객체의 오탐지 확률을 산출함으로써 개시될 수 있다(S910). 예를 들어, 프로세서는 객체 탐지를 수행하는 인공신경망 모델의 학습 결과를 기초로 제2 객체의 오탐지 확률을 산출할 수 있다.

이 경우, 프로세서는 제2 객체의 오탐지 확률에 기초하여 제2 객체의 오탐지 확률이 사전 결정된 임계값 이하인 경우, 제2 객체의 수를 제2 수치값에 기초하여 전처리할 수 있다(S920). 예를 들어, 프로세서는 제2 객체의 수에 125%의 제2 수치값을 곱하여 제2 객체의 수를 전처리할 수 있다.

도 10은 본 발명의 일 실시예에 따른 컴퓨팅 장치(100)의 내부 구성을 나타내는 블록도이다. 컴퓨팅 장치(100)는 메모리(1010), 프로세서(1020), 통신 모듈(1030) 및 입출력 인터페이스(1040)를 포함할 수 있으며, 도 10에 도시된 바와 같이, 컴퓨팅 장치(100)는 통신 모듈(1030)을 이용하여 네트워크를 통해 정보 및/또는 데이터를 통신할 수 있도록 구성될 수 있다.

메모리(1010)는 비-일시적인 임의의 컴퓨터 판독 가능한 기록매체를 포함할 수 있다. 일 실시예에 따르면, 메모리(1010)는 RAM(random access memory), ROM(read only memory), 디스크 드라이브, SSD(solid state drive), 플래시 메모리(flash memory) 등과 같은 비소멸성 대용량 저장 장치(permanent mass storage device)를 포함할 수 있다. 다른 예로서, ROM, SSD, 플래시 메모리, 디스크 드라이브 등과 같은 비소멸성 대용량 저장 장치는 메모리와는 구분되는 별도의 영구 저장 장치로서 컴퓨팅 장치(100)에 포함될 수 있다. 또한, 메모리(1010)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다.

이러한 소프트웨어 구성요소들은 메모리(1010)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 이러한 컴퓨팅 장치(100)에 직접 연결가능한 기록 매체를 포함할 수 있는데, 예를 들어, 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 예로서, 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(1030)을 통해 메모리(1010)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 애플리케이션의 설치 파일을 배포하는 파일 배포 시스템이 통신 모듈(1030)을 통해 제공하는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 메모리(1010)에 로딩될 수 있다.

프로세서(1020)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1010) 또는 통신 모듈(1030)에 의해 다른 사용자 단말(미도시) 또는 다른 외부 시스템으로 제공될 수 있다.

통신 모듈(1030)은 네트워크를 통해 사용자 단말(미도시)과 컴퓨팅 장치(100)가 서로 통신하기 위한 구성 또는 기능을 제공할 수 있으며, 컴퓨팅 장치(100)가 외부 시스템(일례로 별도의 클라우드 시스템 등)과 통신하기 위한 구성 또는 기능을 제공할 수 있다. 일례로, 컴퓨팅 장치(100)의 프로세서(1020)의 제어에 따라 제공되는 제어 신호, 명령, 데이터 등이 통신 모듈(1030)과 네트워크를 거쳐 사용자 단말 및/또는 외부 시스템의 통신 모듈을 통해 사용자 단말 및/또는 외부 시스템으로 전송될 수 있다.

또한, 컴퓨팅 장치(100)의 입출력 인터페이스(1040)는 컴퓨팅 장치(100)와 연결되거나 컴퓨팅 장치(100)가 포함할 수 있는 입력 또는 출력을 위한 장치(미도시)와의 인터페이스를 위한 수단일 수 있다. 도 10에서는 입출력 인터페이스(1040)가 프로세서(1020)와 별도로 구성된 요소로서 도시되었으나, 이에 한정되지 않으며, 입출력 인터페이스(1040)가 프로세서(1020)에 포함되도록 구성될 수 있다. 컴퓨팅 장치(100)는 도 10의 구성요소들보다 더 많은 구성요소들을 포함할 수 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.

컴퓨팅 장치(100)의 프로세서(1020)는 복수의 사용자 단말 및/또는 복수의 외부 시스템으로부터 수신된 정보 및/또는 데이터를 관리, 처리 및/또는 저장하도록 구성될 수 있다.

상술된 방법 및/또는 다양한 실시예들은, 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 본 발명의 다양한 실시예들은 데이터 처리 장치, 예를 들어, 프로그래밍 가능한 하나 이상의 프로세서 및/또는 하나 이상의 컴퓨팅 장치에 의해 실행되거나, 컴퓨터 판독 가능한 기록 매체 및/또는 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 상술된 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어를 포함하여 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램, 모듈, 서브 루틴 등의 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨팅 장치, 동일한 네트워크를 통해 연결된 복수의 컴퓨팅 장치 및/또는 복수의 상이한 네트워크를 통해 연결되도록 분산된 복수의 컴퓨팅 장치를 통해 배포될 수 있다.

상술된 방법 및/또는 다양한 실시예들은, 입력 데이터를 기초로 동작하거나 출력 데이터를 생성함으로써, 임의의 기능, 함수 등을 처리, 저장 및/또는 관리하는 하나 이상의 컴퓨터 프로그램을 실행하도록 구성된 하나 이상의 프로세서에 의해 수행될 수 있다. 예를 들어, 본 발명의 방법 및/또는 다양한 실시예는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있으며, 본 발명의 방법 및/또는 실시예들을 수행하기 위한 장치 및/또는 시스템은 FPGA 또는 ASIC와 같은 특수 목적 논리 회로로서 구현될 수 있다.

컴퓨터 프로그램을 실행하는 하나 이상의 프로세서는, 범용 목적 또는 특수 목적의 마이크로 프로세서 및/또는 임의의 종류의 디지털 컴퓨팅 장치의 하나 이상의 프로세서를 포함할 수 있다. 프로세서는 읽기 전용 메모리, 랜덤 액세스 메모리의 각각으로부터 명령 및/또는 데이터를 수신하거나, 읽기 전용 메모리와 랜덤 액세스 메모리로부터 명령 및/또는 데이터를 수신할 수 있다. 본 발명에서, 방법 및/또는 실시예들을 수행하는 컴퓨팅 장치의 구성 요소들은 명령어들을 실행하기 위한 하나 이상의 프로세서, 명령어들 및/또는 데이터를 저장하기 위한 하나 이상의 메모리 디바이스를 포함할 수 있다.

일 실시예에 따르면, 컴퓨팅 장치는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치와 데이터를 주고받을 수 있다. 예를 들어, 컴퓨팅 장치는 자기 디스크(magnetic disc) 또는 광 디스크(optical disc)로부터 데이터를 수신하거나/수신하고, 자기 디스크 또는 광 디스크로 데이터를 전송할 수 있다. 컴퓨터 프로그램과 연관된 명령어들 및/또는 데이터를 저장하기에 적합한 컴퓨터 판독 가능한 저장 매체는, EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable PROM), 플래시 메모리 장치 등의 반도체 메모리 장치를 포함하는 임의의 형태의 비 휘발성 메모리를 포함할 수 있으나, 이에 한정되지 않는다. 예를 들어, 컴퓨터 판독 가능한 저장 매체는 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, CD-ROM 및 DVD-ROM 디스크를 포함할 수 있다.

사용자와의 상호 작용을 제공하기 위해, 컴퓨팅 장치는 정보를 사용자에게 제공하거나 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT (Cathode Ray Tube), LCD(Liquid Crystal Display) 등) 및 사용자가 컴퓨팅 장치 상에 입력 및/또는 명령 등을 제공할 수 있는 포인팅 장치(예를 들어, 키보드, 마우스, 트랙볼 등)를 포함할 수 있으나, 이에 한정되지 않는다. 즉, 컴퓨팅 장치는 사용자와의 상호 작용을 제공하기 위한 임의의 다른 종류의 장치들을 더 포함할 수 있다. 예를 들어, 컴퓨팅 장치는 사용자와의 상호 작용을 위해, 시각적 피드백, 청각 피드백 및/또는 촉각 피드백 등을 포함하는 임의의 형태의 감각 피드백을 사용자에게 제공할 수 있다. 이에 대해, 사용자는 시각, 음성, 동작 등의 다양한 제스처를 통해 컴퓨팅 장치로 입력을 제공할 수 있다.

본 발명에서, 다양한 실시예들은 백엔드 구성 요소(예: 데이터 서버), 미들웨어 구성 요소(예: 애플리케이션 서버) 및/또는 프론트 엔드 구성 요소를 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 이 경우, 구성 요소들은 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 예를 들어, 통신 네트워크는 LAN(Local Area Network), WAN(Wide Area Network) 등을 포함할 수 있다.

본 명세서에서 기술된 예시적인 실시예들에 기반한 컴퓨팅 장치는, 사용자 디바이스, 사용자 인터페이스(UI) 디바이스, 사용자 단말 또는 클라이언트 디바이스를 포함하여 사용자와 상호 작용하도록 구성된 하드웨어 및/또는 소프트웨어를 사용하여 구현될 수 있다. 예를 들어, 컴퓨팅 장치는 랩톱(laptop) 컴퓨터와 같은 휴대용 컴퓨팅 장치를 포함할 수 있다. 추가적으로 또는 대안적으로, 컴퓨팅 장치는, PDA(Personal Digital Assistants), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, VR(virtual reality) 디바이스, AR(augmented reality) 디바이스 등을 포함할 수 있으나, 이에 한정되지 않는다. 컴퓨팅 장치는 사용자와 상호 작용하도록 구성된 다른 유형의 장치를 더 포함할 수 있다. 또한, 컴퓨팅 장치는 이동 통신 네트워크 등의 네트워크를 통한 무선 통신에 적합한 휴대용 통신 디바이스(예를 들어, 이동 전화, 스마트 전화, 무선 셀룰러 전화 등) 등을 포함할 수 있다. 컴퓨팅 장치는, 무선 주파수(RF; Radio Frequency), 마이크로파 주파수(MWF; Microwave Frequency) 및/또는 적외선 주파수(IRF; Infrared Ray Frequency)와 같은 무선 통신 기술들 및/또는 프로토콜들을 사용하여 네트워크 서버와 무선으로 통신하도록 구성될 수 있다.

본 발명에서 특정 구조적 및 기능적 세부 사항을 포함하는 다양한 실시예들은 예시적인 것이다. 따라서, 본 발명의 실시예들은 상술된 것으로 한정되지 않으며, 여러 가지 다른 형태로 구현될 수 있다. 또한, 본 발명에서 사용된 용어는 일부 실시예를 설명하기 위한 것이며 실시예를 제한하는 것으로 해석되지 않는다. 예를 들어, 단수형 단어 및 상기는 문맥상 달리 명확하게 나타내지 않는 한 복수형도 포함하는 것으로 해석될 수 있다.

본 발명에서, 달리 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여 본 명세서에서 사용되는 모든 용어는 이러한 개념이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 또한, 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 맥락에서의 의미와 일치하는 의미를 갖는 것으로 해석되어야 한다.

본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명의 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 발명의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

100: 컴퓨팅 장치
110: 탐지기
112: 영상
120: 분류기
122: 일반 영상
124: 포르노 영상

Claims

적어도 하나의 프로세서에 의해 수행되는 인공지능 기반의 포르노(pornography) 영상 분류 방법으로서,
영상으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출하는 단계;
상기 제1 프레임이 포르노 영상에 등장하는 신체 부위에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계;
상기 제1 프레임이 상기 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하는 단계;
상기 제2 프레임이 포르노 영상에 등장하는 신체 부위에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계;
상기 제2 프레임이 상기 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 상기 제2 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하는 단계; 및
상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수 및 상기 제2 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 기초로 상기 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계;
를 포함하고,
상기 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는,
상기 제1 프레임에서 상기 제1 객체 및 상기 제2 객체의 동시 탐지 여부 및 상기 제2 프레임에서 상기 제1 객체 및 상기 제2 객체의 동시 탐지 여부를 추가로 이용하여 상기 영상을 분류하는 단계;
를 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항에 있어서,
상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하는 단계는,
상기 제1 프레임을 학습된 제1 인공신경망 모델에 제공하여 상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하는 단계;
를 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제2항에 있어서,
상기 제1 인공신경망 모델은 YOLO(You Only Look Once) 기반의 모델인, 인공지능 기반의 포르노 영상 분류 방법.
삭제
제1항에 있어서,
상기 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는,
상기 제1 프레임 및 상기 제2 프레임에서 상기 복수의 객체 중 적어도 일부의 객체의 연속 탐지 여부를 추가로 이용하여 상기 영상을 분류하는 단계;
를 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항에 있어서,
상기 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는,
제1 인공신경망 모델의 객체 탐지 정보를 영상 분류를 위해 학습된 제2 인공신경망 모델에 제공하여 상기 영상을 분류하는 단계;
를 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항에 있어서,
상기 제1 객체의 오탐지 확률을 산출하는 단계; 및
상기 제1 객체의 오탐지 확률에 기초하여 상기 제1 객체의 오탐지 확률이 사전 결정된 임계값 이상인 경우, 상기 제1 객체의 수를 제1 수치값에 기초하여 전처리하는 단계;
를 더 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제7항에 있어서,
상기 제2 객체의 오탐지 확률을 산출하는 단계; 및
상기 제2 객체의 오탐지 확률에 기초하여 상기 제2 객체의 오탐지 확률이 사전 결정된 임계값 이하인 경우, 상기 제2 객체의 수를 제2 수치값에 기초하여 전처리하는 단계 - 상기 제2 수치값은 상기 제1 수치값 보다 큼 -;
를 더 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항에 있어서,
상기 제1 프레임이 포르노 영상에 등장하는 신체 부위에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하는 단계는,
상기 제1 프레임에 포함된 제1 객체의 정확도가 사전 결정된 기준 이상인 경우, 상기 제1 프레임이 상기 제1 객체를 포함하는 것으로 판정하는 단계;
를 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항에 있어서,
상기 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수의 평균값 및 분산을 포함하는 분포 정보를 생성하는 단계;
를 더 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항에 있어서,
상기 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계는,
상기 영상에서 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 산출하는 단계; 및
상기 산출된 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 추가로 이용하여 상기 영상을 포르노 영상 또는 일반 영상으로 분류하는 단계;
를 포함하는 인공지능 기반의 포르노 영상 분류 방법.
제1항 내지 제3항 및 제5항 내지 제11항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
컴퓨팅 장치로서,
통신 모듈;
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 적어도 하나의 프로그램을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로그램은,
영상으로부터 제1 프레임 및 제2 프레임을 포함하는 복수의 프레임을 추출하고,
상기 제1 프레임이 포르노 영상에 등장하는 신체 부위에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하고,
상기 제1 프레임이 상기 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하고,
상기 제2 프레임이 포르노 영상에 등장하는 신체 부위에 대응하는 제1 객체 및 제2 객체를 포함하는 복수의 객체 중 적어도 일부의 객체를 포함하는지 여부를 판정하고,
상기 제2 프레임이 상기 적어도 일부의 객체를 포함하는 것으로 판정된 경우, 상기 제2 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하고,
상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수 및 상기 제2 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 기초로 상기 영상을 포르노 영상 또는 일반 영상으로 분류하고,
상기 제1 프레임에서 상기 제1 객체 및 상기 제2 객체의 동시 탐지 여부 및 상기 제2 프레임에서 상기 제1 객체 및 상기 제2 객체의 동시 탐지 여부를 추가로 이용하여 상기 영상을 분류하기 위한 명령어들을 포함하는, 컴퓨팅 장치.
제13항에 있어서,
상기 적어도 하나의 프로그램은,
상기 제1 프레임을 학습된 제1 인공신경망 모델에 제공하여 상기 제1 프레임에 포함된 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수를 산출하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.
제14항에 있어서,
상기 제1 인공신경망 모델은 YOLO(You Only Look Once) 기반의 모델인, 컴퓨팅 장치.
삭제
제13항에 있어서,
상기 적어도 하나의 프로그램은,
상기 제1 프레임 및 상기 제2 프레임에서 상기 복수의 객체 중 적어도 일부의 객체의 연속 탐지 여부를 추가로 이용하여 상기 영상을 분류하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.
제13항에 있어서,
상기 적어도 하나의 프로그램은,
제1 인공신경망 모델의 객체 탐지 정보를 영상 분류를 위해 학습된 제2 인공신경망 모델에 제공하여 상기 영상을 분류하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.
제13항에 있어서,
상기 적어도 하나의 프로그램은,
상기 제1 객체의 오탐지 확률을 산출하고,
상기 제1 객체의 오탐지 확률에 기초하여 상기 제1 객체의 오탐지 확률이 사전 결정된 임계값 이상인 경우, 상기 제1 객체의 수를 제1 수치값에 기초하여 전처리하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.
제19항에 있어서,
상기 적어도 하나의 프로그램은,
상기 제2 객체의 오탐지 확률을 산출하고,
상기 제2 객체의 오탐지 확률에 기초하여 상기 제2 객체의 오탐지 확률이 사전 결정된 임계값 이하인 경우, 상기 제2 객체의 수를 제2 수치값에 기초하여 전처리하기 위한 명령어들을 더 포함하고,
상기 제2 수치값은 상기 제1 수치값 보다 큰, 컴퓨팅 장치.
제13항에 있어서,
상기 적어도 하나의 프로그램은,
상기 제1 프레임에 포함된 제1 객체의 정확도가 사전 결정된 기준 이상인 경우, 상기 제1 프레임이 상기 제1 객체를 포함하는 것으로 판정하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.
제13항에 있어서,
상기 적어도 하나의 프로그램은,
상기 전체 객체의 수, 상기 제1 객체의 수, 상기 제2 객체의 수 및 객체 종류 수의 평균값 및 분산을 포함하는 분포 정보를 생성하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.
제13항에 있어서,
상기 적어도 하나의 프로그램은,
상기 영상에서 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 산출하고,
상기 산출된 객체가 탐지된 프레임 수 및 객체가 탐지된 프레임 비율을 추가로 이용하여 상기 영상을 포르노 영상 또는 일반 영상으로 분류하기 위한 명령어들을 더 포함하는, 컴퓨팅 장치.