KR102618061B1

KR102618061B1 - 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 방법 및 장치

Info

Publication number: KR102618061B1
Application number: KR1020230036605A
Authority: KR
Inventors: 김재문; 노성운; 김상용
Original assignee: (주)노웨어소프트
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-12-27

Abstract

유해 컨텐츠를 필터링하는 방법 및 장치가 개시된다. 본 개시의 일 실시예에 따른, 장치에 의해 수행되는, 유해 컨텐츠를 필터링하는 방법은, 사용자에 의해 업로드된 컨텐츠를 제1 인공지능(artificial intelligence, AI) 모델에 입력하여 상기 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득하는 단계; 상기 적어도 하나의 인물과 관련된 감정 정보에 대응되는 제1 유해 스코어 및 상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 상기 컨텐츠의 유해 지수를 산출하는 단계; 및 상기 유해 지수가 임계값을 초과함에 기초하여, 상기 컨텐츠를 필터링하는 단계를 포함하고, 제1 AI 모델은, 상기 적어도 하나의 인물의 얼굴 상의 특징점 또는 상기 적어도 하나 인물의 음성에 대한 특징 데이터에 기초하여 상기 적어도 하나의 인물과 관련된 감정 정보를 출력할 수 있다.

Description

인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 방법 및 장치{METHOD AND APPARATUS FOR FILTERING HARMFUL CONTENT USING ARTIFICIAL INTELLIGENCE-BASED SENTIMENT ANALYSIS}

본 개시는 유해 컨텐츠 필터링 분야에 관한 것으로서, 더욱 상세하게는 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 방법 및 장치에 관한 것이다.

정보 통신 기술이 기하 급수적으로 발전함에 따라, 아동/청소년을 포함한 국민 대다수가 다양한 온라인 서비스를 이용하여 멀티미디어 콘텐츠를 손쉽게 생산 및 공유할 수 있게 되었다.

상술한 바와 같이 고도로 정보화된 환경에서 불특정 다수에 의해 선정성 및 폭력성이 짙은 유해 성인물이 UCC, 블로그, 웹하드, P2P, 인스턴트 메시징 어플리케이션 등의 다양한 온라인 서비스를 통해 무단 유포되고 있다는 문제점이 존재한다. 이로 인해 개인 프라이버시의 침해 및 청소년 성범죄가 급증하고 있으며 이를 방지하기 위한 다양한 방법들이 고안되고 있다.

등록특허공보 제10-1221832호, 2013.01.08

본 개시는 상술된 문제점을 해결하기 위해 안출된 것으로서, 본 개시의 목적은 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 방법 및 장치를 제공함에 있다.

본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 실시예에 따른, 장치에 의해 수행되는, 유해 컨텐츠를 필터링하는 방법은, 사용자에 의해 업로드된 컨텐츠를 제1 인공지능(artificial intelligence, AI) 모델에 입력하여 상기 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득하는 단계; 상기 적어도 하나의 인물과 관련된 감정 정보에 대응되는 제1 유해 스코어 및 상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 상기 컨텐츠의 유해 지수를 산출하는 단계; 및 상기 유해 지수가 임계값을 초과함에 기초하여, 상기 컨텐츠를 필터링하는 단계를 포함하고, 제1 AI 모델은, 상기 적어도 하나의 인물의 얼굴 상의 특징점 또는 상기 적어도 하나 인물의 음성에 대한 특징 데이터에 기초하여 상기 적어도 하나의 인물과 관련된 감정 정보를 출력할 수 있다.

그리고, 상기 제1 AI 모델은, 하나 이상의 컨볼루션 레이어(convolutional layer), 하나 이상의 LSTM(long short term memory) 레이어, 및 소프트 맥스(softmax) 레이어 중의 적어도 하나를 포함할 수 있다.

그리고, 상기 컨텐츠가 상기 하나 이상의 컨볼루션 레이어에 입력되어 상기 컨텐츠 상의 상기 적어도 하나의 인물의 얼굴의 특징 점이 추출되고, 상기 특징점이 상기 하나 이상의 LSTM 레이어에 입력되어 중간 데이터가 추출되고, 상기 중간 데이터가 상기 소프트 맥스 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제1 예측 데이터가 포함된 상기 감정 정보가 추출될 수 있다.

그리고, 상기 컨텐츠가 상기 하나 이상의 컨볼루션 레이어에 입력되어 상기 컨텐츠 상의 적어도 하나 인물의 음성에 대한 특징 데이터가 추출되고, 상기 특징 데이터가 상기 하나 이상의 LSTM 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제2 예측 데이터가 포함된 상기 감정 정보가 추출될 수 있다.

그리고, 상기 컨텐츠의 유해 지수를 산출하는 단계는, 상기 제1 예측 데이터 및 상기 제2 예측 데이터를 제2 AI 모델에 입력하여 상기 컨텐츠에 대응되는 상기 제1 유해 스코어를 획득하는 단계; 및 상기 제1 유해 스코어에 제1 가중치를 적용한 값과 상기 제2 유해 스코어에 제2 가중치를 적용한 값을 합산하여 상기 유해 지수가 산출하는 단계를 포함하고, 상기 제1 가중치 및 상기 제2 가중치는, 상기 적어도 하나의 인물과 관련된 감정에 설정된 우선순위에 기초하여 결정될 수 있다.

그리고, 상기 컨텐츠 유형은, 이미지 데이터, 오디오 데이터, 텍스트 데이터, 및 메타 데이터를 포함하고, 상기 컨텐츠로부터 이미지 데이터, 오디오 데이터, 텍스트 데이터, 및 메타 데이터 중의 적어도 하나가 추출될 수 있다.

그리고, 상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대해 적어도 하나의 유해 컨텐츠 필터링 모듈을 적용하여 상기 복수의 데이터 각각의 상기 제2 유해 스코어가 산출될 수 있다.

그리고, 상기 제2 AI 모델은, 상기 제1 예측 데이터에 포함된 상기 적어도 하나의 인물 각각의 감정에 매칭되는 제1 유해 값을 산출하고, 상기 제2 예측 데이터에 포함된 상기 적어도 하나의 인물 각각의 감정에 매칭되는 제2 유해 값을 산출하고, 상기 제1 유해 값 및 상기 제2 유해 값에 대해 서로 다른 가중치를 적용하여 상기 제1 유해 스코어를 산출할 수 있다.

본 개시의 또 다른 실시예로, 유해 컨텐츠를 필터링하는 장치는, 적어도 하나의 메모리; 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 사용자에 의해 업로드된 컨텐츠를 제1 인공지능(artificial intelligence, AI) 모델에 입력하여 상기 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득하고; 상기 적어도 하나의 인물과 관련된 감정 정보에 대응되는 제1 유해 스코어 및 상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 상기 컨텐츠의 유해 지수를 산출하고; 및 상기 유해 지수가 임계값을 초과함에 기초하여, 상기 컨텐츠를 필터링하도록 설정되고, 제1 AI 모델은, 상기 적어도 하나의 인물의 얼굴 상의 특징점 또는 상기 적어도 하나 인물의 음성에 대한 특징 데이터에 기초하여 상기 적어도 하나의 인물과 관련된 감정 정보를 출력할 수 있다

그리고, 상기 AI 모델 학습 모듈은, 상기 제1 예측 데이터 및 상기 제2 예측 데이터를 제2 AI 모델에 입력하여 상기 컨텐츠에 대응되는 상기 제1 유해 스코어를 획득하고; 유해 컨텐츠 필터링 모듈은, 상기 제1 유해 스코어에 제1 가중치를 적용한 값과 상기 제2 유해 스코어에 제2 가중치를 적용한 값을 합산하여 상기 유해 지수가 산출하고, 상기 제1 가중치 및 상기 제2 가중치는, 상기 적어도 하나의 인물과 관련된 감정에 설정된 우선순위에 기초하여 결정될 수 있다.

이 외에도, 본 개시를 구현하기 위한 실행하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공될 수 있다.

이 외에도, 본 개시를 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

본 개시의 다양한 실시예에 의해, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 방법 및 장치가 제공될 수 있다.

또한, 본 개시의 다양한 실시예에 의해, 복합적인 정보를 활용하는 인공지능 기술을 통해 기존 유해 콘텐츠 필터링을 우회하는 행위가 방지될 수 있다.

본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 일 실시예에 따른, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 시스템을 간략히 도시한 도면이다.
도 2는 본 개시의 일 실시예에 따른, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 장치의 구성을 도시한 블록도이다.
도 3 및 도 4는 본 개시가 적용될 수 있는 제1 AI 모델의 아키텍처를 예시하는 도면이다.
도 5는 본 개시의 일 실시예에 따른, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 방법을 설명하기 위한 순서도이다.

본 개시 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 개시가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 개시가 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 개시의 작용 원리 및 실시예들에 대해 설명한다.

본 명세서에서 '본 개시에 따른 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 본 개시에 따른 장치는, 컴퓨터, 서버 장치 및 휴대용 단말기를 모두 포함하거나, 또는 어느 하나의 형태가 될 수 있다.

여기에서, 상기 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.

본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/ 또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도 형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들 (weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경 망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

본 개시의 예시적인 실시예에 따르면, 프로세서는 인공지능을 구현할 수 있다. 인공지능이란 사람의 신경세포(biological neuron)를 모사하여 기계가 학습하도록 하는 인공신경망(Artificial Neural Network) 기반의 기계 학습법을 의미한다. 인공지능의 방법론에는 학습 방식에 따라 훈련데이터로서 입력데이터와 출력데이터가 같이 제공됨으로써 문제(입력데이터)의 해답(출력데이터)이 정해져 있는 지도학습(supervised learning), 및 출력데이터 없이 입력데이터만 제공되어 문제(입력데이터)의 해답(출력데이터)이 정해지지 않는 비지도학습(unsupervised learning), 및 현재의 상태(State)에서 어떤 행동(Action)을 취할 때마다 외부 환경에서 보상(Reward)이 주어지는데, 이러한 보상을 최대화하는 방향으로 학습을 진행하는 강화학습(reinforcement learning)으로 구분될 수 있다. 또한, 인공지능의 방법론은 학습 모델의 구조인 아키텍처에 따라 구분될 수도 있는데, 널리 이용되는 딥러닝 기술의 아키텍처는, 합성곱 신경망(CNN; Convolutional Neural Network), 순환신경망(RNN; Recurrent Neural Network), 트랜스포머(Transformer), 생성적 대립 신경망(GAN; generative adversarial networks) 등으로 구분될 수 있다.

본 장치와 시스템은 인공지능 모델을 포함할 수 있다. 인공지능 모델은 하나의 인공지능 모델일 수 있고, 복수의 인공지능 모델로 구현될 수도 있다. 인공지능 모델은 뉴럴 네트워크(또는 인공 신경망)로 구성될 수 있으며, 기계학습과 인지과학에서 생물학의 신경을 모방한 통계학적 학습 알고리즘을 포함할 수 있다. 뉴럴 네트워크는 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 뉴럴 네트워크의 뉴런은 가중치 또는 바이어스의 조합을 포함할 수 있다. 뉴럴 네트워크는 하나 이상의 뉴런 또는 노드로 구성된 하나 이상의 레이어(layer)를 포함할 수 있다. 예시적으로, 장치는 input layer, hidden layer, output layer를 포함할 수 있다. 장치를 구성하는 뉴럴 네트워크는 뉴런의 가중치를 학습을 통해 변화시킴으로써 임의의 입력(input)으로부터 예측하고자 하는 결과(output)를 추론할 수 있다.

프로세서는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train, 또는 학습(learn)하거나, 수신되는 입력 데이터를 기초로 연산을 수행하고, 수행 결과를 기초로 정보 신호(information signal)를 생성하거나, 뉴럴 네트워크를 재훈련(retrain)할 수 있다. 뉴럴 네트워크의 모델들은 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network 등 다양한 종류의 모델들을 포함할 수 있으나 이에 제한되지는 않는다. 프로세서는 뉴럴 네트워크의 모델들에 따른 연산을 수행하기 위한 하나 이상의 프로세서를 포함할 수 있다. 예를 들어 뉴럴 네트워크는 심층 뉴럴 네트워크 (Deep Neural Network)를 포함할 수 있다.

뉴럴 네트워크는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 퍼셉트론(perceptron), 다층 퍼셉트론(multilayer perceptron), FF(Feed Forward), RBF(Radial Basis Network), DFF(Deep Feed Forward), LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit), AE(Auto Encoder), VAE(Variational Auto Encoder), DAE(Denoising Auto Encoder), SAE(Sparse Auto Encoder), MC(Markov Chain), HN(Hopfield Network), BM(Boltzmann Machine), RBM(Restricted Boltzmann Machine), DBN(Depp Belief Network), DCN(Deep Convolutional Network), DN(Deconvolutional Network), DCIGN(Deep Convolutional Inverse Graphics Network), GAN(Generative Adversarial Network), LSM(Liquid State Machine), ELM(Extreme Learning Machine), ESN(Echo State Network), DRN(Deep Residual Network), DNC(Differentiable Neural Computer), NTM(Neural Turning Machine), CN(Capsule Network), KN(Kohonen Network) 및 AN(Attention Network)를 포함할 수 있으나 이에 한정되는 것이 아닌 임의의 뉴럴 네트워크를 포함할 수 있음은 통상의 기술자가 이해할 것이다.

본 개시의 예시적인 실시예에 따르면, 프로세서는 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network, Generative Modeling, eXplainable AI, Continual AI, Representation Learning, AI for Material Design, 자연어 처리를 위한 BERT, SP-BERT, MRC/QA, Text Analysis, Dialog System, GPT-3, GPT-4, 비전 처리를 위한 Visual Analytics, Visual Understanding, Video Synthesis, ResNet 데이터 지능을 위한 Anomaly Detection, Prediction, Time-Series Forecasting, Optimization, Recommendation, Data Creation 등 다양한 인공지능 구조 및 알고리즘을 이용할 수 있으며, 이에 제한되지 않는다.

이하, 첨부된 도면을 참조하여 본 개시의 실시예를 상세하게 설명한다.

도 1은 본 개시의 일 실시예에 따른, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 시스템을 간략히 도시한 도면이다.

도 1에 도시된 바와 같이, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 시스템(1000)은, 장치(100), 복수의 사용자가 이용하는 단말 장치(200-1, 200-2, ... 200-N)(N은 2 이상의 자연수) 및 데이터 서버(300)(예로, AI 모델을 학습시키기 위한 학습 데이터 등이 포함된 데이터 서버)를 포함할 수 있다.

도 1에서 장치(100)는 데스크톱(desktop)으로 구현된 경우를 개시하고 있으며 복수의 사용자가 이용하는 단말 장치(200-1, 200-2, ... 200-N)는 스마트폰으로 구현된 경우를 개시하고 있으나, 이에 제한되는 것은 아니다.

일 예로, 장치(100) 및 복수의 사용자가 이용하는 단말 장치(200-1, 200-2, ... 200-N)는 다양한 유형의 전자 장치(예로, 노트북, 데스크톱, 랩톱(laptop), 태블릿 PC, 슬레이트 PC 장치, 서버 장치 등)로 구현될 수 있으며, 하나 이상의 유형의 장치가 연결된 장치 군으로도 구현될 수 있다.

시스템(1000)에 포함된 장치(100) 및 복수의 사용자가 이용하는 단말 장치(200-1, 200-2, ... 200-N)는 네트워크(W)를 통해 통신을 수행할 수 있다.

여기서, 네트워크(W)는 유선 네트워크와 무선 네트워크를 포함할 수 있다. 예를 들어, 네트워크는 근거리 네트워크(LAN: Local Area Network), 도시권 네트워크(MAN: Metropolitan Area Network), 광역 네트워크(WAN: Wide Area Network) 등의 다양한 네트워크를 포함할 수 있다.

또한, 네트워크(W)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 개시의 실시예에 따른 네트워크(W)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크, 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.

장치(100)는 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 동작을 수행할 수 있다. 추가적으로, 장치(100)는 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링할 수 있는 웹 기반 및/또는 어플리케이션 기반의 소프트웨어를 생성/실행할 수 있다.

복수의 사용자가 이용하는 단말 장치(200-1, 200-2, ... 200-N)는 장치(100)에 의해 생성된 웹 기반 및/또는 어플리케이션 기반의 소프트웨어를 실행할 수 있다. 따라서, 본 개시에서 장치(100)에 의해 실행되는 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 단말 장치(200-1, 200-2, ... 200-N) 역시 실행할 수 있다.

장치(100)는 사용자에 의해 업로드된 컨텐츠와 관련된 복합적인 정보(예로, 컨텐츠에 등장하는 사용자의 음성, 표정, 감정, 텍스트, 움직임 등)을 활용하여 해당 컨텐츠가 유해 컨텐츠인지 여부를 판단할 수 있다. 구체적으로, 장치(100)는 컨텐츠 상의 적어도 하나의 인물과 관련된 정보 및 컨텐츠 유형 별로 분류된 데이터에 기초하여 해당 컨텐츠가 유해 컨텐츠인지 여부를 판단할 수 있다.

이와 관련된 동작은 도 2 내지 도 5를 참조하여 구체적으로 설명하도록 한다.

도 2는 본 개시의 일 실시예에 따른, 인공지능 기반 감정 분석을 활용하여 유해 컨텐츠를 필터링하는 장치의 구성을 도시한 블록도이다.

도 2에 도시된 바와 같이, 장치(100)는 메모리(110), 통신 모듈(120), 디스플레이(130), 및 프로세서(140)를 포함할 수 있다.

메모리(110)는 프로세서(140)가 각종 동작을 수행하기 위한 하나 이상의 인스트럭션(instruction)을 저장할 수 있다. 메모리(110)는 장치(100)의 다양한 기능을 지원하는 데이터와, 프로세서(140)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 학습 데이터, 사용자로부터 입력된 컨텐츠 등)을 저장할 수 있다.

메모리(110)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

통신 모듈(120)은 외부 장치(예로, 데이터 서버 또는/및 사용자가 이용하는 단말 장치 등)와의 통신이 가능하게 하는 회로를 포함하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신 모듈(120)은 방송 수신 모듈, 유선통신 모듈, 무선통신 모듈, 근거리 통신 모듈, 위치정보 모듈 중 적어도 하나를 포함할 수 있다. 통신 모듈(120)은 외부 장치로부터 모니터링 데이터를 수신할 수 있다.

디스플레이(130)는 장치(100)에서 처리되는 정보(예를 들어, 학습 데이터, 컨텐츠로부터 추출된 특징맵 또는/및 특징 데이터, 사용자로부터 업로드된 컨텐츠의 유해 지수 등)를 표시(출력)한다.

예를 들어, 디스플레이는 본 장치(100)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다.

프로세서(140)는 메모리(110)에 저장된 하나 이상의 인스트럭션(instruction)을 실행함으로써 인공지능 기반 감정 분석에 기초한 유해 컨텐츠를 필터링 동작을 수행할 수 있다. 즉, 프로세서(140)는 장치(100)의 각 구성 요소를 이용하여 전반적인 동작 및 기능을 제어할 수 있다. 이때, 메모리(110)와 프로세서(140)는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리(110)와 프로세서(140)는 단일 칩으로 구현될 수도 있다.

프로세서(140)는 특징 데이터 추출 모듈(140-1), AI 모델 학습 모듈(140-2), AI 모델 추론 모듈(140-3), 및 유해 컨텐츠 필터링 모듈(140-4)을 포함할 수 있다. 특징 데이터 추출 모듈(140-1), AI 모델 학습 모듈(140-2), AI 모델 추론 모듈(140-3), 및 유해 컨텐츠 필터링 모듈(140-4)은 프로세서(140)에 의해 제어될 수 있다.

특징 데이터 추출 모듈(140-1)은 사용자에 의해 업로드된 컨텐츠로부터 특징 데이터를 추출할 수 있다. 일 예로, 특징 데이터 추출 모듈(140-1)은 컨텐츠의 유형에 따라 다른 방식으로 특징 데이터를 추출할 수 있다.

특징 데이터 추출 모듈(140-1)은 영상 컨텐츠 상의 적어도 하나의 인물(즉, 영상 컨텐츠에 등장하는 적어도 하나의 인물)의 얼굴 상의 특징점을 추출할 수 있다. 구체적으로, 특징 데이터 추출 모듈(140-1)은 영상 컨텐츠 상의 적어도 하나의 인물의 얼굴의 변화(즉, 표정 변화)를 나타내는 특징점을 추출할 수 있다. 그리고, 특징 데이터 추출 모듈(140-1)은 영상 컨텐츠 상의 적어도 하나의 인물의 음성 데이터에 대한 특징 데이터를 추출할 수 있다.

본 개시의 또 다른 예로, 특징 데이터 추출 모듈(140-1)은 오디오 컨텐츠에 포함된 음성 데이터에 대한 특징 데이터를 추출할 수 있다.

AI 모델 학습 모듈(140-2)은 특징 데이터 추출 모듈(140-1)로부터 추출된 적어도 하나의 인물의 얼굴의 특징점 및/또는 음성 데이터에 대한 특징 데이터에 기초하여 제1 AI 모델을 학습시킬 수 있다. 제1 AI 모델은 AI 모델 학습 모듈(140-2)에 의해 입력된 컨텐츠를 이용하여 해당 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 출력하도록 학습될 수 있다.

제1 AI 모델은 하나 이상의 컨볼루션 레이어(convolutional layer), 하나 이상의 LSTM(long short term memory) 레이어, 및 소프트 맥스(softmax) 레이어 중의 적어도 하나를 포함할 수 있다.

일 예로, 도 3을 참조하면, 제1 AI 모델은 복수의 컨볼루션 레이어, 풀링 레이어(pooling layer), 스택(stack), LSTM 레이어, FC(fully connected) 레이어, 및 소프트 맥스 레이어를 포함할 수 있다.

영상 컨텐츠(예로, 영상 컨텐츠를 구성하는 복수의 프레임)를 하나 이상의 컨볼루션 레이어에 입력됨에 기반하여, AI 모델 학습 모듈(140-2)은 영상 컨텐츠 상의 적어도 하나의 인물의 얼굴 각각의 특징점(즉, 특징 맵)을 출력하도록 하나 이상의 컨볼루션 레이어(또는, 해당 컨볼루션 레이어에 포함된 가중치)를 학습시킬 수 있다.

하나 이상의 컨볼루션 레어이에 의해 출력된 특징점은 스택에 쌓일 수 있다. 스택에 쌓인 특징점은 하나 이상의 LSTM 레이어에 입력됨에 기반하여, LSTM 레이어는 중간 데이터를 출력하도록 학습될 수 있다. 중간 데이터가 FC 레이어를 거쳐 소프트 맥스 레이어에 입력됨에 기반하여, 적어도 하나의 인물의 감정을 나타내는 제1 예측 데이터가 출력될 수 있다.

즉, 제1 AI 모델에 포함된 복수의 컨볼루션 레이어, 풀링 레이어, LSTM 레이어, FC레이어, 및 소프트 맥스 레이어는 AI 모델 학습 모듈(140-2)에 의해 학습될 수 있다.

여기서, 제1 예측 데이터는 컨텐츠에 포함된 적어도 하나의 인물의 감정을 확률 기반으로 나타낼 수 있다. 예로, 제1 예측 데이터는 상기 적어도 하나의 인물의 감정은 놀라움(10%), 두려움(70%) 및 분노(20%)로 분류/구성되어 있음을 나타낼 수 있다.

추가적으로 또는 대안적으로, 도 4를 참조하면, 영상 컨텐츠(예로, 영상 컨텐츠에서 추출된 오디오 컨텐츠)가 하나 이상의 컨볼루션 레이어에 입력됨에 기반하여, 영상 컨텐츠 상의 적어도 하나의 인물의 얼굴 상의 음성 데이터에 대한 특징 데이터를 출력하도록 하나 이상의 컨볼루션 레이어(또는, 해당 컨볼루션 레이어에 포함된 가중치)를 학습시킬 수 있다.

추출된 음성 데이터는 하나 이상의 LSTM 레이어에 입력됨에 기반하여, LSTM 레이어는 적어도 하나의 인물의 감정을 나타내는 제2 예측 데이터를 출력하도록 학습될 수 있다. 도 4에 도시된 바와 같이, 제2 예측 데이터는 적어도 하나의 인물의 감정을 나타낼 수 있다.

AI 모델 학습 모듈(140-2)은 제1 예측 데이터 및 제2 예측 데이터에 기초하여 컨텐츠에 대응되는 제1 유해 스코어를 산출하도록 제2 AI 모델을 학습시킬 수 있다. 즉, 제2 AI 모델은 컨텐츠 상의 적어도 하나의 인물의 감정에 기초하여 해당 컨텐츠가 유해 컨텐츠인지 여부를 나타내는 제1 유해 스코어를 산출하도록 학습될 수 있다.

예로, 제2 AI 모델은 제1 예측 데이터에 포함된 적어도 하나의 인물 각각의 감정에 매칭되는 제1 유해 값을 산출하고, 제2 예측 데이터에 포함된 적어도 하나의 인물 각각의 감정에 매칭되는 제2 유해 값을 산출하도록 학습될 수 있다. AI 모델 학습 모듈(140-2)은 각 인물의 감정에 대해 유해 값을 라벨링한 데이터 셋에 기초하여 제2 AI 모델을 학습시킬 수 있다. 제2 AI 모델은 제1 유해 값 및 제2 유해 값에 대해 서로 다른 가중치를 적용하여 제1 유해 스코어를 산출할 수 있다.

제1 유해 값 및 제2 유해 값에 적용되는 가중치는 컨텐츠에 등장하는 인물의 얼굴에서 드러나는 감정을 우선하는지 인물의 음성에서 드러나는 감정을 우선하는지 여부에 따라 달라질 수 있다. 일 예로, 컨텐츠에 등장하는 인물의 얼굴에서 드러나는 감정을 더 우선할 경우, 제1 유해 값에 적용되는 가중치가 제2 유해 값에 적용되는 가중치보다 큰 값으로 책정될 수 있다.

AI 모델 학습 모듈(140-2)은 인물의 감정을 나타내는 정보(예로, 제1 예측 데이터 및/또는 제2 예측 데이터) 및 해당 인물이 등장한 컨텐츠의 유해 스코어 간의 관계가 라벨링/매칭된 학습 데이터 셋에 기초하여 제2 AI 모델을 학습시킬 수 있다.

AI 모델 추론 모듈(140-3)은 AI 모델 학습 모듈(140-2)에 의해 학습된 제1 AI 모델 및 제2 AI 모델을 통해 추론 동작을 수행할 수 있다. 즉, AI 모델 추론 모듈(140-3)은 제1 AI 모델을 통해 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득할 수 있다. 그리고, AI 모델 추론 모듈(140-3)은 제2 AI 모델을 통해 컨텐츠에 대응되는 제1 유해 스코어를 획득할 수 있다.

유해 컨텐츠 필터링 모듈(140-4)은 제1 AI 모델 및/또는 제2 AI 모델을 통해 획득된 제1 유해 스코어 및 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 컨텐츠의 유해 지수를 산출할 수 있다.

구체적으로, 유해성 컨텐츠 필터링 모듈(140-4)은 컨텐츠를 구성하는 텍스트 데이터, 이미지 데이터, 오디오 데이터, 영상 데이터 및 메타 데이터 중의 적어도 하나 각각에 대한 제2 유해 스코어를 산출할 수 있다. 여기서, 제2 유해 스코어는 해당 데이터의 유해함을 수치화한 것이다.

일 예로, 유해성 컨텐츠 필터링 모듈(140-4)은 텍스트 데이터에 대해서 자연어 처리(natural language processing)를 수행함으로써 텍스트 데이터에 비속어 및/또는 폭력적이거나 선정적인 문구가 포함되어 있는지 여부를 식별할 수 있다. 텍스트 데이터에 비속어 및/또는 폭력적이거나 선정적인 문구가 포함되어 있을 경우, 유해성 컨텐츠 필터링 모듈(140-4)은 텍스트 데이터에 대해 높은 제2 유해 스코어를 책정할 수 있다.

즉, 유해성 컨텐츠 필터링 모듈(140-4)은 텍스트 데이터 상에 유해 문구가 존재하는지 여부를 검출한 후 이를 반영하여 제2 유해 스코어를 산출할 수 있다.

또 다른 예로, 유해성 컨텐츠 필터링 모듈(140-4)은 이미지 데이터 및/또는 영상 데이터 상에 폭력적이거나 선정적인 영역이 포함되어 있는지 여부를 검출할 수 있다. 이미지 데이터 및/또는 영상 데이터 상에 폭력적이거나 선정적인 영역이 포함되어 있을 경우, 유해성 컨텐츠 필터링 모듈(140-4)은 이미지 데이터 및/또는 영상 데이터에 대해 높은 제2 유해 스코어를 책정할 수 있다.

또 다른 예로, 유해성 컨텐츠 필터링 모듈(140-4)은 이미지 데이터 및/또는 영상 데이터 상에 텍스트 데이터를 추출하고, 추출된 텍스트 데이터에 대한 제2 유해 스코어를 산출할 수 있다.

또 다른 예로, 유해성 컨텐츠 필터링 모듈(140-4)은 오디오 데이터에 비속어 및/또는 폭력적이거나 선정적인 문구가 포함되어 있는지 여부를 식별할 수 있다. 우선, 유해성 컨텐츠 필터링 모듈(140-4)은 오디오 데이터에 대해 STT(speech-to-text) 알고리즘을 적용하여 오디오 데이터에 대응되는 텍스트 데이터를 획득할 수 있다. 유해성 컨텐츠 필터링 모듈(140-4)은 텍스트 데이터에 자연어 처리를 수행함으로써 해당 텍스트 데이터에 폭력적이거나 선정적인 문구가 포함되어 있는지 여부를 식별할 수 있다.

컨텐츠에 하나 이상의 유형의 데이터가 포함되어 있는 경우, 유해성 컨텐츠 필터링 모듈(140-4)은 하나 이상의 유형의 데이터 각각의 제2 유해 스코어를 합산할 수 있다.

유해성 컨텐츠 필터링 모듈(140-4)은 제1 유해 스코어에 제1 가중치를 적용한 값과 제2 유해 스코어에 제2 가중치를 적용한 값을 합산하여 유해 지수를 산출할 수 있다.

여기서, 제1 가중치 및 제2 가중치는 적어도 하나의 인물과 관련된 감정에 설정된 우선순위에 기초하여 결정될 수 있다. 예로, 적어도 하나의 인물과 관련된 감정에 높은 우선순위가 설정될 경우, 제1 가중치 값이 제2 가중치보다 큰 값으로 결정될 수 있다.

도 5는 본 개시의 일 실시예에 따른, 장치에 의해 수행되는 유해 컨텐츠를 필터링하는 방법을 설명하기 위한 순서도이다.

장치는 사용자에 의해 업로드된 컨텐츠를 제1 AI 모델에 입력하여 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득할 수 있다(S510).

상술한 바와 같이, 제1 AI 모델은 하나 이상의 컨볼루션 레이어(convolutional layer), 하나 이상의 LSTM(long short term memory) 레이어, 및 소프트 맥스(softmax) 레이어 중의 적어도 하나를 포함할 수 있다.

컨텐츠가 영상 컨텐츠인 경우, 해당 컨텐츠는 복수의 이미지 프레임 및 음성 데이터(예로, 컨텐츠에 등장하는 적어도 하나의 사용자의 음성 데이터 등)로 구성될 수 있다.

일 예로, 컨텐츠(예로, 복수의 이미지 프레임)가 제1 AI 모델의 하나 이상의 컨볼루션 레이어에 입력되어 컨텐츠 적어도 하나의 인물 각각의 얼굴 상의 특징 점이 추출될 수 있다. 특징 점이 제1 AI 모델의 하나 이상의 LSTM 레이어에 입력되어 제1 중간 데이터가 추출될 수 있다. 제1 중간 데이터가 소프트 맥스 레이어에 입력되어 적어도 하나의 인물의 감정을 나타내는 제1 예측 데이터가 포함된 감정 정보가 추출될 수 있다.

추가적으로 또는 대안적으로, 컨텐츠(예로, 컨텐츠 상의 적어도 하나의 인물의 음성 데이터)가 제1 AI 모델의 하나 이상의 컨볼루션 레이어에 입력되어 적어도 하나 인물 각각의 음성에 대한 특징 데이터가 추출될 수 있다. 특징 데이터가 제1 AI 모델의 하나 이상의 LSTM 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제2 예측 데이터가 포함된 감정 정보가 추출될 수 있다.

장치는 적어도 하나의 인물 각각과 관련된 감정 정보에 대응되는 제1 유해 스코어 및 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 컨텐츠의 유해 지수를 산출할 수 있다(S520).

구체적으로, 장치는 제1 예측 데이터 및 제2 예측 데이터를 제2 AI 모델에 입력하여 컨텐츠에 대응되는 제1 유해 스코어를 획득할 수 있다. 그리고, 장치는 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어를 획득할 수 있다.

구체적으로, 제2 AI 모델은, 제1 예측 데이터에 포함된 적어도 하나의 인물 각각의 감정에 매칭되는 제1 유해 값을 산출하고, 제2 예측 데이터에 포함된 적어도 하나의 인물 각각의 감정에 매칭되는 제2 유해 값을 산출할 수 있다. 그리고, 제2 AI 모델은, 제1 유해 값 및 상기 제2 유해 값에 대해 서로 다른 가중치를 적용하여 제1 유해 스코어를 산출할 수 있다.

장치는 제1 유해 스코어에 제1 가중치를 적용한 값과 제2 유해 스코어에 제2 가중치를 적용한 값을 합산하여 컨텐츠의 유해 지수를 산출할 수 있다.

유해 지수가 임계값을 초과함에 기초하여, 장치는 컨텐츠를 필터링할 수 있다(S530).

일 예로, 유해 지수가 임계값을 초과하는 경우, 장치는 사용자가 업로드한 해당 컨텐츠를 필터링할 수 있다. 그리고, 장치는 해당 컨텐츠를 업로드한 사용자로 경고 메시지를 전송할 수 있다.

이 때, 장치는 사용자가 이용하는 단말 장치로부터 해당 컨텐츠의 필터링에 대한 이의를 제기하는 메시지를 수신할 수 있다. 사용자가 이용하는 단말 장치로부터 이의를 제기하는 메시지가 수신됨에 기반하여, 장치는 관리자가 이용하는 단말 장치로 해당 컨텐츠를 전송할 수 있다.

관리자가 이용하는 단말 장치로부터 해당 컨텐츠의 유해 판단 정보가 수신됨에 기반하여, 장치는 해당 컨텐츠의 필터링 여부를 결정할 수 있다.

일 예로, 관리자가 이용하는 단말 장치로부터 해당 컨텐츠가 유해 컨텐츠로 판단됨에 기반하여, 장치는 해당 컨텐츠의 필터링을 유지할 수 있다. 일 예로, 관리자가 이용하는 단말 장치로부터 해당 컨텐츠가 무해 컨텐츠로 판단됨에 기반하여, 장치는 해당 컨텐츠의 필터링을 해제할 수 있다.

그리고, 장치는 관리자가 이용하는 단말 장치로부터 수신된 해당 컨텐츠의 무해 판단 정보에 기초하여 제1 AI 모델, 제2 AI 모델 및 유해 컨텐츠 필터링 모듈을 학습 및/또는 업데이트할 수 있다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

100 : 장치
110 : 메모리
120 : 통신 모듈
130 : 디스플레이
140 : 프로세서

Claims

장치에 의해 수행되는, 유해 컨텐츠를 필터링하는 방법에 있어서, 상기 방법은:
사용자에 의해 업로드된 컨텐츠를 제1 인공지능(artificial intelligence, AI) 모델에 입력하여 상기 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득하는 단계;
상기 적어도 하나의 인물과 관련된 감정 정보에 대응되는 제1 유해 스코어 및 상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 상기 컨텐츠의 유해 지수를 산출하는 단계; 및
상기 유해 지수가 임계값을 초과함에 기초하여, 상기 컨텐츠를 필터링하는 단계를 포함하고,
상기 제1 AI 모델은, 상기 적어도 하나의 인물의 얼굴 상의 특징점 또는 상기 적어도 하나 인물의 음성에 대한 특징 데이터에 기초하여 상기 적어도 하나의 인물과 관련된 감정 정보를 출력하고,
상기 제1 AI 모델은,
하나 이상의 컨볼루션 레이어(convolutional layer), 하나 이상의 LSTM(long short term memory) 레이어, 및 소프트 맥스(softmax) 레이어 중의 적어도 하나를 포함하고,
상기 컨텐츠가 상기 하나 이상의 컨볼루션 레이어에 입력되어 상기 컨텐츠 상의 상기 적어도 하나의 인물의 얼굴의 상기 특징점이 추출되고,
상기 특징점이 상기 하나 이상의 LSTM 레이어에 입력되어 중간 데이터가 추출되고,
상기 중간 데이터가 상기 소프트 맥스 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제1 예측 데이터가 포함된 상기 감정 정보가 추출되고,
상기 컨텐츠가 상기 하나 이상의 컨볼루션 레이어에 입력되어 상기 컨텐츠 상의 상기 적어도 하나 인물의 음성에 대한 특징 데이터가 추출되고,
상기 특징 데이터가 상기 하나 이상의 LSTM 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제2 예측 데이터가 포함된 상기 감정 정보가 추출되고,
상기 컨텐츠의 유해 지수를 산출하는 단계는,
상기 제1 예측 데이터 및 상기 제2 예측 데이터를 제2 AI 모델에 입력하여 상기 컨텐츠에 대응되는 상기 제1 유해 스코어를 획득하는 단계; 및
상기 제1 유해 스코어에 제1 가중치를 적용한 값과 상기 제2 유해 스코어에 제2 가중치를 적용한 값을 합산하여 상기 유해 지수가 산출하는 단계를 포함하고,
상기 제1 가중치 및 상기 제2 가중치는,
상기 적어도 하나의 인물과 관련된 감정에 설정된 우선순위에 기초하여 결정되고,
상기 제2 AI 모델은,
상기 제1 예측 데이터에 포함된 상기 적어도 하나의 인물 각각의 감정에 매칭되는 제1 유해 값을 산출하고,
상기 제2 예측 데이터에 포함된 상기 적어도 하나의 인물 각각의 감정에 매칭되는 제2 유해 값을 산출하고,
상기 제1 유해 값 및 상기 제2 유해 값에 대해 서로 다른 가중치를 적용하여 상기 제1 유해 스코어를 산출하고,
상기 제1 유해 값 및 상기 제2 유해 값에 적용되는 가중치는,
컨텐츠에 등장하는 인물의 얼굴에서 드러나는 감정을 우선하는지 인물의 음성에서 드러나는 감정을 우선하는지 여부에 따라 달라지는 것인, 방법.
삭제
삭제
삭제
삭제
제1항에 있어서,
상기 컨텐츠 유형은, 이미지 데이터, 오디오 데이터, 텍스트 데이터, 및 메타 데이터를 포함하고,
상기 컨텐츠로부터 이미지 데이터, 오디오 데이터, 텍스트 데이터, 및 메타 데이터 중의 적어도 하나가 추출되는, 방법.
제6항에 있어서,
상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대해 적어도 유해 컨텐츠 필터링 모듈을 적용하여 상기 복수의 데이터 각각의 상기 제2 유해 스코어가 산출되는, 방법.
삭제
유해 컨텐츠를 필터링하는 장치에 있어서, 상기 장치는:
적어도 하나의 메모리; 및
적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
사용자에 의해 업로드된 컨텐츠를 제1 인공지능(artificial intelligence, AI) 모델에 입력하여 상기 컨텐츠 상의 적어도 하나의 인물과 관련된 감정 정보를 획득하고;
상기 적어도 하나의 인물과 관련된 감정 정보에 대응되는 제1 유해 스코어 및 상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대응되는 제2 유해 스코어에 기초하여 상기 컨텐츠의 유해 지수를 산출하는 AI 모델 추론 모듈; 및
상기 유해 지수가 임계값을 초과함에 기초하여, 상기 컨텐츠를 필터링하는 유해 컨텐츠 필터링 모듈을 포함하고,
상기 제1 AI 모델은, 상기 적어도 하나의 인물의 얼굴 상의 특징점 또는 상기 적어도 하나 인물의 음성에 대한 특징 데이터에 기초하여 상기 적어도 하나의 인물과 관련된 감정 정보를 출력하고,
상기 제1 AI 모델은,
하나 이상의 컨볼루션 레이어(convolutional layer), 하나 이상의 LSTM(long short term memory) 레이어, 및 소프트 맥스(softmax) 레이어 중의 적어도 하나를 포함하고,
상기 컨텐츠가 상기 하나 이상의 컨볼루션 레이어에 입력되어 상기 컨텐츠 상의 상기 적어도 하나의 인물의 얼굴의 상기 특징 점이 추출되고,
상기 특징점이 상기 하나 이상의 LSTM 레이어에 입력되어 중간 데이터가 추출되고,
상기 중간 데이터가 상기 소프트 맥스 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제1 예측 데이터가 포함된 상기 감정 정보가 추출되고,
상기 컨텐츠가 상기 하나 이상의 컨볼루션 레이어에 입력되어 상기 컨텐츠 상의 상기 적어도 하나 인물의 음성에 대한 특징 데이터가 추출되고,
상기 특징 데이터가 상기 하나 이상의 LSTM 레이어에 입력되어 상기 적어도 하나의 인물 각각의 감정을 나타내는 제2 예측 데이터가 포함된 상기 감정 정보가 추출되고,
상기 AI 모델 추론 모듈은,
상기 제1 예측 데이터 및 상기 제2 예측 데이터를 제2 AI 모델에 입력하여 상기 컨텐츠에 대응되는 상기 제1 유해 스코어를 획득하고;
상기 유해 컨텐츠 필터링 모듈은,
상기 제1 유해 스코어에 제1 가중치를 적용한 값과 상기 제2 유해 스코어에 제2 가중치를 적용한 값을 합산하여 상기 유해 지수가 산출하고,
상기 제1 가중치 및 상기 제2 가중치는,
상기 적어도 하나의 인물과 관련된 감정에 설정된 우선순위에 기초하여 결정되고,
상기 제2 AI 모델은,
상기 제1 예측 데이터에 포함된 상기 적어도 하나의 인물 각각의 감정에 매칭되는 제1 유해 값을 산출하고,
상기 제2 예측 데이터에 포함된 상기 적어도 하나의 인물 각각의 감정에 매칭되는 제2 유해 값을 산출하고,
상기 제1 유해 값 및 상기 제2 유해 값에 대해 서로 다른 가중치를 적용하여 상기 제1 유해 스코어를 산출하고,
상기 제1 유해 값 및 상기 제2 유해 값에 적용되는 가중치는,
컨텐츠에 등장하는 인물의 얼굴에서 드러나는 감정을 우선하는지 인물의 음성에서 드러나는 감정을 우선하는지 여부에 따라 달라지는 것인, 장치.
삭제
삭제
삭제
삭제
제9항에 있어서,
상기 컨텐츠 유형은, 이미지 데이터, 오디오 데이터, 텍스트 데이터, 및 메타 데이터를 포함하고,
상기 컨텐츠로부터 이미지 데이터, 오디오 데이터, 텍스트 데이터, 및 메타 데이터 중의 적어도 하나가 추출되는, 장치.
제14항에 있어서,
상기 컨텐츠 유형 별로 분류된 복수의 데이터 각각에 대해 적어도 하나의 유해성 컨텐츠 필터링 모듈을 적용하여 상기 복수의 데이터 각각의 상기 제2 유해 스코어가 산출되는, 장치.
삭제