KR20100030300A - 음란물 검출 시스템 및 방법 - Google Patents

음란물 검출 시스템 및 방법 Download PDF

Info

Publication number
KR20100030300A
KR20100030300A KR1020080089187A KR20080089187A KR20100030300A KR 20100030300 A KR20100030300 A KR 20100030300A KR 1020080089187 A KR1020080089187 A KR 1020080089187A KR 20080089187 A KR20080089187 A KR 20080089187A KR 20100030300 A KR20100030300 A KR 20100030300A
Authority
KR
South Korea
Prior art keywords
image
pornography
main object
pornographic
skin region
Prior art date
Application number
KR1020080089187A
Other languages
English (en)
Other versions
KR101002675B1 (ko
Inventor
장동식
박상성
신영근
한유나
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020080089187A priority Critical patent/KR101002675B1/ko
Publication of KR20100030300A publication Critical patent/KR20100030300A/ko
Application granted granted Critical
Publication of KR101002675B1 publication Critical patent/KR101002675B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

음란물 검출 시스템 및 방법이 개시된다. 영상 분할 알고리즘을 이용하여 추출한 객체를 통해 이미지의 음란물 여부를 검출하기 위한 음란물 검출 시스템은, 이미지 입력부, 주요 객체 추출부, 스킨 영역 추출부, 질감 특징 추출부, 및 음란물 차단부를 포함한다. 이미지 입력부는 음란물 여부를 판별하고자 하는 이미지가 입력되고, 주요 객체 추출부는 이미지를 영상 분할 알고리즘을 이용하여 기 설정된 개수의 그룹으로 분할한 후 주요 객체를 추출하며, 스킨 영역 추출부는 주요 객체에 소정의 수학식을 적용하여 추출한 스킨 영역으로 1차 음란물 여부를 판별한다. 또한, 질감 특징 추출부는 이미지가 1차 음란물로 판별될 경우, 음란물로 판별된 이미지에서 소정의 매트릭스를 계산하여 추출한 질감 특징에 따라 최종 음란물 여부를 판별하고, 음란물 차단부는 최종 음란물로 판별된 주요 객체가 포함된 이미지의 외부로의 출력을 차단한다. 이러한 구성으로, 음란물 검출시 배경 색상에 영향을 받지 않게 하며, 검출 속도, 검출 확률, 및 검출 정확성을 높여, 음란물 이미지를 효과적으로 검출할 수 있다.
음란물, 객체 추출, 영상 분할 알고리즘

Description

음란물 검출 시스템 및 방법{System and method for detecting pornographic contents}
본 발명은 인터넷상에서의 음란물 검출 시스템 및 방법에 관한 것으로, 보다 상세하게는 영상 분할알고리즘을 이용하여 추출한 객체를 통해 이미지의 음란물 여부를 검출하기 위한 음란물 검출 시스템 및 방법에 관한 것이다.
전 세계 인터넷 이용국 중에서 한국은 명실상부한 인터넷 강국으로 부상하였다. 전체 가구 중 80% 이상이 컴퓨터를 보유하고 있을 정도로 한국에서는 누구나 컴퓨터를 접할 수 있다. 특히, 조기교육을 중요시하는 사회 분위기 때문에 어린이들은 취학 전부터 컴퓨터를 배우고 컴퓨터로 게임 및 공부를 한다.
컴퓨터는 많은 편리함을 가져다주었지만, 인터넷이 발달함에 따라 많은 유용한 콘텐츠가 증가함과 동시에 유해 콘텐츠도 대거 등장하였다. 요즘 유해 콘텐츠들은 인터넷에서 다양한 방법으로 사람들의 호기심을 불러 일으킨다. 그뿐만 아니라 유해 콘텐츠를 개개인의 메일에 무작위로 발송하고 있다. 이로 인해, 어린이들을 유해 콘텐츠로부터 안전하게 보호하려고 하는 부모들이 점점 늘어나고 있으며, 동시에 이러한 문제들은 연구자들 사이에서도 중요한 이슈가 되고 있다.
현재 사용되고 있는 주요 음란물 검출 방법으로는 유해 사이트 IP주소를 차단하는 IP 기반 검출 방법과, 텍스트 기반 검출 방법, 그리고 이미지 기반 검출 방법이 있다.
IP 기반 검출 방법은 인터넷상의 유해 IP 주소 목록을 작성하여 통신회사 서버에 설정하거나 자체 컴퓨터에 설정하여 해당 IP 주소를 차단하는 방법이고, 텍스트 기반 검출 방법은 음란물이라고 정의되는 어휘들을 모아서 하나의 데이터베이스로 만든 다음 접근하려는 사이트에 해당 어휘가 소정의 개수 이상 포함되어 있을 경우 음란물이라고 판별하는 방법이다. 또한, 이미지 기반 검출 방법은 접근하려는 사이트의 이미지가 음란물인지 아닌지를 판별하여 음란물이라고 판별되면 차단하는 방법이다.
그러나 IP 기반 검출 방법은 음란물 사이트의 IP 주소가 자주 바뀌기 때문에 검출 기능이 떨어지고 텍스트 기반 검출 방법은 의학 분야에서 사용되는 용어도 모두 음란물로 검출할 수 있으며, 또한, 기존의 이미지 기반 검출 방법의 경우는 IP 기반 검출 방법 및 텍스트 기반 검출 방법보다는 음란물 검출의 정확성이 높지만, 배경을 포함하여 음란물 여부를 판별하기 때문에, 배경이 피부와 유사한 색상 및 질감을 가질 경우, 음란물로 판별되어 이러한 배경의 이미지를 포함한 사이트가 차단될 수 있다는 문제점이 있다.
본 발명은 이와 같은 종래의 문제점을 해결하기 위해 안출된 것으로서, K-means 알고리즘으로 이미지를 분할하고 객체를 추출하여 음란물을 추출하는 이미지 기반 검출 방식을 이용하여, 음란물 검출시 배경 색상에 영향을 받지 않게 하며, 검출 속도, 검출 확률, 및 검출 정확성을 높여, 음란물 이미지를 효과적으로 검출하기 위한 음란물 검출 시스템 및 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해 본 발명에 따른 음란물 검출 시스템은, 이미지 입력부, 주요 객체 추출부, 스킨 영역 추출부, 질감 특징 추출부, 및 음란물 차단부를 포함한다.
이미지 입력부는 음란물 여부를 판별하고자 하는 이미지가 입력받고, 주요 객체 추출부는 이미지를 영상 분할 알고리즘을 이용하여 기 설정된 개수의 그룹으로 분할한 후 주요 객체를 추출하며, 스킨 영역 추출부는 주요 객체에 소정의 수학식을 적용하여 추출한 스킨 영역으로 1차 음란물 여부를 판별한다.
또한, 질감 특징 추출부는 이미지가 1차 음란물로 판별될 경우, 음란물로 판별된 이미지에서 소정의 매트릭스를 계산하여 추출한 질감 특징에 따라 최종 음란물 여부를 판별하고, 음란물 차단부는 최종 음란물로 판별된 주요 객체가 포함된 이미지의 외부로의 출력을 차단한다.
이러한 구성으로, 음란물 검출시 배경 색상에 영향을 받지 않게 하며, 검출 속도, 검출 확률, 및 검출 정확성을 높여, 음란물 이미지를 효과적으로 검출할 수 있다.
주요 객체 추출부는 입력된 이미지를 CIE L*a*b* 모델을 사용하여 영상 처리할 수 있다. 이로 인해, 이미지를 눈과 근사한 차이로 보여줄 수 있으며, 밝기 성분에 영향을 받지 않으면서 영상 처리를 할 수 있다.
또한, 주요 객체 추출부는 주요 객체를 추출하기 위해, 영상 분할된 이미지를 소정의 임계값에 따른 이진 영상으로 변환하고, 이진 영상에 객체 추출 마스크를 적용시킬 수 있다. 객체 추출 마스크를 적용시킴으로써, 분할된 원본 영상에 대하여 배경과 객체로 판정하는 효과를 가져다줄 수 있다.
스킨 영역 추출부는 주요 객체의 색상 공간을 YCbCr로 변환하여, 다음의 수학식
Figure 112008064163563-PAT00001
그리고
Figure 112008064163563-PAT00002
Figure 112008064163563-PAT00003
을 만족하는 Cb, Cr 영역을 스킨 영역으로 추출할 수 있다.
색상 공간을 RGB에서 YCbCr로 변환함으로써, 스킨 유사 픽셀과 더 많은 연관이 있는 Cb, Cr의 색차 신호를 가지고 효과적으로 스킨 영역을 추출할 수 있다.
또한, 스킨 영역 추출부는 스킨 영역의 특징값이 소정의 임계치보다 클 경우 스킨 영역을 포함한 이미지를 1차 음란물로 판별할 수 있다.
질감 특징 추출부는 1차 음란물로 판별된 이미지를 질감 특징의 추출을 위해 적합한 개수의 블록으로 나눌 수 있다. 블록을 적게 나누면 질감 특징 추출을 위한 정확한 계산이 안 되고, 블록을 많이 나누면 계산 속도가 느려지므로, 적합한 개수의 블록으로 나눔으로써 비교적 정확한 질감 특징과 빠른 계산 속도를 얻어 효과적으로 질감 특징을 추출할 수 있다.
또한, 질감 특징 추출부는 블록 각각에 대해 정규화된 4방향에 대한 그레이 레벨 co-occurrence 매트릭스를 계산할 수 있다. 이로 인해, 매트릭스의 계산값으로부터 질감 특징을 추출할 수 있고, 추출한 값을 평균화시키면 회전에 무관한 질감 특징 수치를 얻을 수 있다.
또한, 질감 특징 추출부는 매트릭스의 엔트리 값을 소정의 수학식에 적용하여 질감 특징을 추출하고, 추출한 질감 특징이 주어진 임계치보다 크면 최종 음란물이라고 판별할 수 있다.
이와 함께 상기한 음란물 검출 장치를 방법 형태로 구현한 발명이 개시된다.
본 발명은 영상 분할 알고리즘을 이용하여 이미지의 주요 객체를 추출하고, 추출된 주요 객체의 색상에 대해서 1차적으로 음란물 여부를 구분한 다음, 2차적으로 질감 특징을 적용하여 음란물 여부를 구분하는 이미지 기반 검출 방법을 이용하기 때문에, 기존의 IP 기반 검출 방법이나 텍스트 기반 검출 방법보다 더욱 정확하고 빠르게 음란물을 검출할 수 있을 뿐만 아니라, 텍스트 기반 검출 방법에서 비 음란물이 음란물로 간주된 사례들을 줄일 수 있으며, 기존의 이미지 기반 검출 방법을 이용한 음란물 추출의 가장 큰 문제점인 이미지의 배경 색상에 영향을 받지 않고 음란물을 검출할 수 있다.
또한, 본 발명은 상술한 바와 같이 여러 단계에 걸쳐서 음란물 여부를 판별하기 때문에 본 발명은 음란물 검출시의 검출 확률을 높이고, 이미지에서 객체를 추출하여 음란물 검출의 정확성을 높이므로, 음란물 이미지를 효과적으로 검출할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명한다. 발 명의 이해를 보다 명확하게 하기 위해 동일한 구성요소에 대해서는 상이한 도면에서도 동일한 부호를 사용하도록 한다.
도 1은 본 발명에 따른 음란물 검출 시스템(100)의 구성을 나타낸 블록도이다. 음란물 검출 시스템(100)은 이미지 입력부(110), 주요 객체 추출부(120), 스킨 영역 추출부(130), 질감 특징 추출부(140), 및 음란물 차단부(150)를 포함한다.
이미지 입력부(110)는 음란물 여부를 판별하고자 하는 이미지를 입력받는다. 이미지 입력부(110)가 이미지를 입력받는 방법에는 웹 페이지를 이용한 방법, 전자 메일을 이용한 방법, 또는 하드디스크에 저장되어 있는 이미지를 입력받는 방법 등이 있다.
웹 페이지를 이용한 방법은 사용자가 보고자 하는 웹 페이지를 선택할 경우, 웹 페이지에 포함된 이미지 데이터가 이미지 입력부(110)로 입력되는 것이고, 전자 메일을 이용한 방법은 사용자가 전자 메일을 확인하면 전자메일 프로토콜에 의해 전자 메일에 포함된 이미지 데이터가 이미지 입력부(110)로 입력되는 것이며, 하드디스크에 저장되어 있는 이미지를 입력받는 방법은 사용자가 하드디스크에 저장되어 있는 이미지 데이터를 선택할 경우 이미지 데이터가 이미지 입력부(110)로 입력되는 것이다.
주요 객체 추출부(120)는 이미지를 영상 분할 알고리즘을 이용하여 기 설정된 개수의 그룹으로 분할한 후 주요 객체를 추출한다. 음란물 이미지를 판별하기 위해서는 배경과 객체를 분할해야 한다. 현재 다양한 영상 분할 알고리즘이 있는데, 본 발명에서는 가장 가까운 양자화된 중심을 찾는 과정을 통해 영상을 분할하 며, 분할 효과도 뛰어난 알고리즘 중 하나인 K-means 알고리즘을 이용하고자 한다.
K-means 알고리즘은 K개의 속성으로 구성되는 각각의 인스턴스(그룹 내의 개별적인 요소를 지칭함)를 벡터로 표시하여 K차원의 데이터 공간(space)에 나타낼 때, 유사한 특성을 갖는 인스턴스들은 서로 근접하여 위치한다는 가정에 근거하고 있다.
이러한 K-means 알고리즘의 분할 방법을 자세히 살펴보면, 먼저, K값(만들어질 전체 그룹의 개수)을 정의하고, 데이터에서 무작위로 K개의 인스턴스를 골라서 K개 그룹의 초기 센터 값으로 설정한다. 나머지 인스턴스들은 유클리디언 거리(Euclidean distance)를 사용하여 각자 가장 가까운 센터를 가진 그룹에 배정하고, 각각의 그룹마다 그 안에 배정된 모든 인스턴스의 평균값을 구하여 해당 그룹에 대한 새로운 센터로 정한다. 이때, 새로운 센터 값들이 이전의 센터 값들과 같다면 알고리즘을 마치고, 같지 않다면 새로운 센터 값을 기준으로 나머지 인스턴스들을 유클리디언 거리를 사용하여 가장 가까운 센터를 가진 그룹에 배정하는 부분부터 다시 반복하여 영상을 분할하게 된다.
본 발명에서는 상술한 K값을 3으로 설정한다. 즉, 이미지를 3개의 색상 그룹으로 분할한 후 주요 객체를 추출하게 된다. 3개의 그룹으로 분할하는 이유는, 인간은 3~4개의 주요 색상으로 영상을 인식하는 경향이 있으며, 또한, 영상을 과도한 구역으로 분할할 경우에 주요 객체가 분산되는 결과를 초래할 수 있기 때문이다.
이미지는 다양한 컬러로 되어있으므로 각 픽셀은 미리 정의한 3개의 중심점 중에서 가장 거리가 가까운 중심점, 즉, 가장 비슷한 색상으로 모이게 된다.
K-means 알고리즘을 거쳐 분할된 3개의 그룹의 예를 들어보면, 원본 영상의 이미지가 적색 계열로만 이루어진 영상, 녹색 계열로만 이루어진 영상, 청색 계열로만 이루어진 영상과 같이 분할될 수 있다.
또한, 주요 객체 추출부(120)는 입력된 이미지를 CIE L*a*b* 모델을 사용하여 영상 처리할 수 있다. 현재 영상 처리 분야에서 사용되는 색 모델은 여러 가지가 있다.
기본적으로 RGB 모델을 가장 많이 사용하지만, RGB 색 공간에서는 인간이 느끼는 두 색간의 색 차이와, 계산된 수치로 나타내는 색 차이가 색상에 따라서 많은 차이를 보이는 반면, CIE L*a*b* 모델은 측정된 색차와 인간의 색 지각이 일치하는 균일한 색 공간 좌표이기 때문에 눈과 근사한 차이로 영상을 보여줄 수 있으며, 밝기 성분에 영향을 받지 않으면서 영상 처리를 할 수 있다. 또한, L*a*b*의 입체 좌표로서 명도(Lightness)는 L*로, 채도 좌표의 x축은 a*로, y축은 b*로 표시하므로, L*a*b* 성분으로는 3차원에서, a*b* 성분으로는 2차원에서 영상 처리가 가능하다.
또한, 주요 객체 추출부(120)는 주요 객체를 추출하기 위해, 영상 분할된 이미지를 소정의 임계값에 따른 이진 영상으로 변환하고, 이진 영상에 객체 추출 마스크를 적용시킬 수 있다.
이진 영상으로 변환하는 방식을 보면, 분할된 3개의 영상을 각각 그레이 영상(0~255)으로 변환한 후, 변환된 값을 255로 나누어, 0에서 1 사이의 값으로 다시 변환한다. 그 후, 소정의 임계값으로 0.08을 사용하여 0.08보다 크면 흰색으로 나타내고, 0,08보다 작으면 검정색으로 나타내어 이진 영상으로 변환할 수 있으며, 검정색으로 나타난 부분이 객체가 된다.
이때, 소정의 임계값 0.08은 임의의 값으로, 0.08보다 작으면 추출을 원하는 객체가 아닌 것(배경의 일부)도 객체로 판별될 가능성이 크고, 0.08보다 크면 추출을 원하는 객체인 것도 객체가 아닌 것으로 판별될 가능성이 크다.
이렇게 변환된 3개의 그룹에 각각 객체 추출 마스크를 적용시킴으로써 3개의 그룹 중 하나에서 주요 객체를 추출한다. 객체 추출 마스크는 분할된 영상에 대하여 배경과 객체로 판별하는 효과를 나타내는데, 이후, 도 3을 참조하여 설명하기로 한다.
도 2는 객체 추출 마스크로 주요 객체를 추출하는 일 실시예를 나타낸 도면이다.
영상의 가로 크기를 m, 세로 크기를 n으로 표시했을 때, 객체의 위치는 영상을 3등분(m/3, n/3)으로 나누는 임의의 수직선과 수평선이 교차하는 지점에 위치해야 하며, 9등분(m/9, n/9)했을 때는 외곽과 접하게 위치해서는 안 된다.
따라서, 사진 촬영의 일반 원리를 기반으로 영상 내에 있는 객체 추출을 위하여 영상의 외곽에는 마이너스 가중치(-3, -2, -1), 중심에는 플러스 가중치(1), 외곽과 객체 사이에는 중립지대(0)를 설정한다.
이와 같이, 객체 추출 마스크는 상단, 좌우, 중앙, 하단의 가중치를 다르게 부여하여 분할된 원 영상에 대하여 배경과 객체로 구분하는 효과를 나타낸다. 객체 추출 마스크를 사용할 때, 객체 추출 마스크의 위치가 중, 하단에 위치하기 때문에, 위치적으로 상단에 있는 객체보다 중, 하단에 있는 객체를 주요 객체로 판별할 가능성이 크다.
또한, 객체 추출 마스크는 3개의 그룹 중, 관심 영상으로 선정된 영상에서 객체 수가 2개 이상이면, 객체의 수를 n이라고 했을 때 각각의 객체에 대하여 가장 큰 영역 순으로 1번부터 n번까지 지정하여 구별한다. 이때, 마스크의 음수(좌측 외곽, 우측 외곽, 상단)에 접하지 않는 구역으로 가장 많은 화소를 가지는 영역을 주요 객체로 추출한다.
스킨 영역 추출부(130)는 주요 객체에 소정의 수학식을 적용하여 추출한 스킨 영역으로 1차 음란물 여부를 판별하는데, 주요 객체의 색상 공간을 YCbCr로 변환하여, 소정의 수학식을 만족하는 Cb, Cr 영역을 스킨 영역으로 추출할 수 있다.
스킨 유사 픽셀은 Cb, Cr보다 Y와 더 많은 연관이 있기에, 색상 공간을 RGB에서 YCbCr로 변환함으로써, 효과적으로 스킨 영역을 추출할 수 있다. 이때, YCbCr은 절대 색상 공간이 아니며, RGB 정보를 인코딩하는 방식의 하나로, 실제로 보여지는 이미지의 색은 신호를 디스플레이하기 위해 사용된 원본 RGB 정보에 의존한다.
YCbCr에서 Y는 휘도(Luminance)이고, Cb, Cr은 색차 신호이다. 색차 신호인 Cb는 B-Y, Cr은 R-Y의 디지털화된 신호인데, 쉽게 말해서 붉은 정도와 푸른 정도를 뜻한다. 스킨 색상을 표현할 때 Y의 영향이 아주 작기 때문에 Y를 제외한 Cb, Cr 색차 신호만 가지고 스킨 색상을 구분한다.
이미지의 Cb, Cr 영역이 다음의 수학식 1을 만족하면 피부색으로 분류한다.
Figure 112008064163563-PAT00004
그리고
Figure 112008064163563-PAT00005
또한,
Figure 112008064163563-PAT00006
는 다음과 같다.
Figure 112008064163563-PAT00007
이때, Y>128 는 밝은 상황을 나타내는 것이고, Y<128 는 어두운 상황을 나타낸다. Y의 기준을 128로 설정한 이유는 밝기와 어둠의 경계의 최대치가 128이기 때문이다.
또한, 스킨 영역 추출부(130)는 스킨 영역의 특징값이 소정의 임계치보다 클 경우 스킨 영역을 포함한 이미지를 1차 음란물로 판별할 수 있다.
여기에서 스킨 영역의 특징 값이란, Cr 영역이 상기 두 공식을 만족하는 값을 의미한다. 즉, Cr이 max 보다 크거나, min 보다 작을 경우를 의미한다.
질감 특징 추출부(140)는 이미지가 1차 음란물로 판별될 경우, 음란물로 판별된 원본 이미지에서 소정의 매트릭스를 계산하여 추출한 질감 특징에 따라 최종 음란물 여부를 판별하는데, 먼저, 1차 음란물로 판별된 이미지 전체를 질감 특징의 추출을 위해 적합한 개수의 블록으로 나눈다.
블록을 적게 나누면 질감 특징 추출을 위한 정확한 계산이 안 되고, 블록을 많이 나누면 계산 속도가 느려지므로, 적합한 개수의 블록으로 나눔으로써 비교적 정확한 질감 특징과 빠른 계산 속도를 얻어 효과적으로 질감 특징을 추출할 수 있다. 본 발명에서는 이미지를 7 X 7, 즉, 49개의 블록으로 나누었다.
또한, 질감 특징 추출부(140)는 블록 각각에 대해 정규화된 4방향에 대한 그레이 레벨 co-occurrence 매트릭스를 계산할 수 있다.
영상의 질감은 그레이 화소 값들의 ASM(Angular Second Moment), 대비(contrast), 연관성(correlation), 분산(variance), 혼잡도(entropy)를 이용해서 가장 잘 표현할 수 있다. 따라서, 본 발명에서는 co-occurrence 매트릭스(화소 간의 상호 관계를 분석함으로써 쉽게 영상의 질감 특징을 얻을 수 있게 함)를 이용하여 ASM, 대비, 연관성, 분산, 혼잡도와 같은 5개의 질감 특징을 추출하는데, ASM과 혼잡도는 영상의 균일성을, 대비는 영상 안에서 나타나는 대조성과 지역적 변동성을, 연관성은 그레이톤의 선형적 의존성을, 분산은 인접 화소의 그레이 레벨 차에 대한 산포도를 나타낸다.
각 블록에 대해 정규화된 4 방향(0도, 45도, 90도, 135도) 그레이 레벨 co-occurrence 매트릭스를 계산한 다음, 질감 특징을 추출하고, 추출한 값을 평균화시 키면 회전에 무관한 질감 특징 수치를 얻을 수 있다.
또한, 질감 특징 추출부(140)는 매트릭스의 엔트리 값을 소정의 수학식에 적용하여 질감 특징을 추출하고, 추출한 질감 특징이 주어진 임계치보다 크면 최종 음란물이라고 판별할 수 있다.
49개의 개수로 정규화되기 전에 매트릭스의 각 엔트리 값은 다음과 같은 수학식 2에 의해 얻을 수 있다.
Figure 112008064163563-PAT00008
Figure 112008064163563-PAT00009
Figure 112008064163563-PAT00010
Figure 112008064163563-PAT00011
수학식 2의 각 변수들의 정의를 살펴보면,
P(i, j, d, 방향)은 각 방향에 대한 매트릭스의 i행, j열 엔트리 값을 나타 내고, Lx = {1, 2, ... Nx}, Ly = {1, 2, ... Ny}, G = {1, 2, ... Ng}를 나타낸다. 또한, Nx는 영상의 가로 방향 픽셀 수, Ny는 영상의 세로 방향 픽셀 수, Ng는 그레이 레벨이고, d는 계산시 고려할 이웃 픽셀과의 거리를 나타낸다. 또한, 이미지 I는 Ly X Lx -> G를 나타내며, num은 정의를 만족하는 개수를 나타낸다.
매트릭스의 각 엔트리 값을 계산한 다음, 각 방향에 대하여 수학식 3과 같은 R(이웃 픽셀 쌍의 개수)값으로 각 엔트리를 나누어줌으로써 그레이 레벨 co-occurrence 매트릭스를 얻는다. 이때, 45도 방향을 사용하는 것이 가장 효과가 좋다.
0도: R = 2Ly(Lx-1)
45도: R = 2(Ly-1)(Lx-1)
90도: R = 2Lx(Ly-1)
135도: R = 2(Lx-1)(Ly-1)
상술한 수학식 2 및 수학식 3을 그림 1 내지 그림 3을 참조하여 좀 더 상세히 설명하고자 한다.
[그림 1]
[그림 2]
Figure 112008064163563-PAT00013
그림 1에서 픽셀 1과 5는 0도 방향으로 인접한 픽셀이고, 픽셀 4와 8은 45도 방향으로 인접한 픽셀이다. 또한, 픽셀 3과 7은 90도 방향으로 인접한 픽셀이며, 픽셀 2와 6은 135도 방향으로 인접한 픽셀이다. 각 픽셀 내부의 1 내지 8의 번호는 공간을 나타내는 숫자에 불과하며, 그레이 색상 값과는 무관하다.
상술한 수학식 2에서의 P(i, j, d, 0), P(i, j, d, 45), P(i, j, d, 90), P(i, j, d, 135)의 공식의 의미를 P(i, j, d, 0)를 예로 들어서 살펴보고자 한다.
그림 2의 (a)와 같이 4 x 4의 그레이 값이 0 ~ 3인 그레이 이미지가 있다고 하면, d = 1일 때, 수평방향 즉, 0도 방향에서의 Ph는 첫 번째 픽셀 (0, 0)에 대하여 인접한 그레이 화소값이 0, 0인 것이 2개가 있음을 볼 수 있다. 이를 쌍방향으로 하면 4개가 되므로, Ph 매트릭스의 첫 번째 값은 4가 된다. 이와 같은 방식을 반복하여, 거리가 1인 4방향(0도, 45도, 90도, 135도)의 그레이 레벨 공간 매트릭스 (c), (d), (e), (f)를 구할 수 있다.
또한, 수평 방향(0도)에서의 R은 수학식 3과 같이 계산을 하는데, 수평 방향으로 각 행에서 인접한 쌍의 개수는 '픽셀수 -1'이고, 쌍방향이기 때문에 2를 곱하는 것이다. 이 결과 값에 행의 수를 곱하게 되면, 전체 이미지에서의 R값이 나오고, 4개 방향의 매트릭스 P는 각 방향의 R값으로 나눔으로써 균일한 값을 갖게 된다.
본 발명에서는 공간 영역에서 질감의 통계적인 특징을 가장 잘 나타내는 혼잡도를 이용하므로, 수학식 4에 상술한 바와 같이 얻은 매트릭스를 적용하여 최종 질감 특징을 얻을 수 있다. 만약, 질감 특징이 임계치보다 크면 최종적으로 음란물로 판별된다.
수학식 4에서 P(i, j)는 그레이 레벨 co-occurrence 매트릭스의 (i, j)째 엔트리를 나타낸다.
Figure 112008064163563-PAT00014
음란물 차단부(150)는 최종 음란물로 판별된 주요 객체가 포함된 이미지의 외부로의 출력을 차단한다.
이러한 이미지 입력부(110), 주요 객체 추출부(120), 스킨 영역 추출부(130), 질감 특징 추출부(140), 및 음란물 차단부(150)의 구성으로, 기존의 IP 기반 검출 방법이나 텍스트 기반 검출 방법보다 더욱 정확하고 빠르게 음란물을 검출하며, 텍스트 기반 검출 방법에서 비 음란물이 음란물로 간주되는 사례들을 줄이고, 이미지 기반 검출 방법에서 배경 색상에 영향을 받지 않고 음란물을 검출하여 음란물 검출시의 검출 확률 및 정확성을 높여, 음란물 이미지를 효과적으로 검출할 수 있다.
도 3은 본 발명에 따른 음란물 검출 방법의 일 실시예를 나타낸 개략적인 흐름도이다.
먼저, 웹 페이지 또는 전자 메일을 통해 이미지를 입력받거나, 하드디스크에 저장된 이미지를 입력받는다(S100).
다음으로, 입력받은 이미지의 색상 공간을 RGB 공간에서 CIE L*a*b* 공간으로 변환한 후, 영상 분할 알고리즘 중 하나인 K-means 알고리즘을 적용하여 원본 이미지를 3개의 그룹으로 분할한다. 분할된 각각의 이미지를 이진화하여, 객체 추 출 마스크를 적용하고, 3개의 그룹 중 하나의 그룹에서 주요 객체를 추출한다(S200).
추출한 주요 객체에서 스킨 영역을 추출하기 위해, RGB 색상 공간에서 YCbCr 색상 공간으로 색상 공간을 변환하고, 상술한 수학식 1 내지 수학식 3을 변환된 주요 객체에 적용하여 스킨 영역을 추출한다(S300).
주요 객체를 포함한 이미지가 음란물인지 여부를 판별하기 위해(S310), 임계값을 설정하고, 추출된 스킨 영역이 임계값을 넘지 않으면 음란물이 아닌 이미지로 판별되어 이미지가 출력되고(S320), 임계값을 넘으면 1차 음란물로 판별되어, 해당 이미지에 대해서 질감 특징을 추출한다(S400).
질감 특징을 추출하기 위해서 1차 음란물로 판별된 원본 이미지를 7x7, 즉 49개의 블록으로 나눈 후, 정규화된 4방향(0도, 45도, 90도, 135도) 그레이 레벨 co-occurrence 매트릭스를 계산한 결과에 상술한 수학식 4를 적용하여 혼잡도를 계산한다. 최종적으로 이미지가 음란물인지 여부를 판단하기 위해(S410) 임계값을 설정하고, 계산된 혼잡도의 값이 임계값을 넘지 않는다면 음란물이 아닌 이미지로 최종 판별을 하여, 이미지를 출력한다(S320). 만약, 임계값을 넘는다면 이미지는 최종 음란물로 판별되어 차단하게 된다(S420).
상기에서 스킨 영역은 추출한 객체의 각 화소로부터 추출하고, 질감 특징은 인접 화소간의 관계를 통해서 추출하므로, 특정 영역(7 x 7 = 49개 영역)의 질감 특징치를 영역의 모든 화소에 부여하는 방법을 통하여, 질감 특징도 화소 단위 특징치를 갖도록 한다. 1차 음란물 이미지에서 이 특징을 사용하여 거친 영역이면 비 음란물이라고 판별하고, 그렇지 않으면 음란물이라고 판별한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명에 따른 음란물 검출 시스템의 구성을 나타낸 블록도.
도 2는 객체 추출 마스크로 주요 객체를 추출하는 일 실시예를 나타낸 도면,
도 3은 본 발명에 따른 음란물 검출 방법의 일 실시예를 나타낸 개략적인 흐름도.

Claims (17)

  1. 음란물 여부를 판별하고자 하는 이미지가 입력되는 이미지 입력부;
    상기 이미지를 영상 분할 알고리즘을 이용하여 기 설정된 개수의 그룹으로 분할한 후 주요 객체를 추출하는 주요 객체 추출부;
    상기 주요 객체에 소정의 수학식을 적용하여 추출한 스킨 영역으로 1차 음란물 여부를 판별하는 스킨 영역 추출부;
    상기 이미지가 1차 음란물로 판별될 경우, 상기 음란물로 판별된 이미지에서 소정의 매트릭스를 계산하여 추출한 질감 특징에 따라 최종 음란물 여부를 판별하는 질감 특징 추출부; 및
    상기 최종 음란물로 판별된 주요 객체가 포함된 이미지의 외부로의 출력을 차단하는 음란물 차단부; 를 포함하는 것을 특징으로 하는 음란물 검출 시스템.
  2. 제 1항에 있어서,
    상기 주요 객체 추출부는,
    상기 입력된 이미지를 CIE L*a*b* 모델을 사용하여 영상 처리하는 것을 특징으로 하는 음란물 검출 시스템.
  3. 제 2항에 있어서,
    상기 주요 객체 추출부는,
    상기 주요 객체를 추출하기 위해, 상기 영상 분할된 이미지를 소정의 임계값에 따른 이진 영상으로 변환하고, 상기 이진 영상에 객체 추출 마스크를 적용시키는 것을 특징으로 하는 음란물 검출 시스템.
  4. 제 1항에 있어서,
    상기 스킨 영역 추출부는,
    상기 주요 객체의 색상 공간을 YCbCr로 변환하여, 상기 YCrCb 색상 공간에서 다음의 수학식
    Figure 112008064163563-PAT00015
    그리고
    Figure 112008064163563-PAT00016
    Figure 112008064163563-PAT00017
    을 만족하는 Cb, Cr 영역을 스킨 영역으로 추출하는 것을 특징으로 하는 음란물 검출 시스템.
  5. 제 4항에 있어서,
    상기 스킨 영역 추출부는,
    상기 스킨 영역의 특징값이 소정의 임계치보다 클 경우 상기 스킨 영역을 포함한 이미지를 1차 음란물로 판별하는 것을 특징으로 하는 음란물 검출 시스템.
  6. 제 1항에 있어서,
    상기 질감 특징 추출부는,
    상기 1차 음란물로 판별된 이미지를 질감 특징의 추출을 위해 적합한 개수의 블록으로 나누는 것을 특징으로 하는 음란물 검출 시스템.
  7. 제 6항에 있어서,
    상기 질감 특징 추출부는,
    상기 블록 각각에 대해 정규화된 4방향에 대한 그레이 레벨 co-occurrence 매트릭스를 계산하는 것을 특징으로 하는 음란물 검출 시스템.
  8. 제 7항에 있어서,
    상기 질감 특징 추출부는,
    상기 매트릭스의 엔트리 값을 소정의 수학식에 적용하여 질감 특징을 추출하고, 상기 추출한 질감 특징이 주어진 임계치보다 크면 최종 음란물이라고 판별하는 것을 특징으로 하는 음란물 검출 시스템.
  9. 음란물 여부를 판별하고자 하는 이미지가 입력되는 이미지 입력 단계;
    상기 이미지를 영상 분할 알고리즘을 이용하여 기 설정된 개수의 그룹으로 분할한 후 주요 객체를 추출하는 주요 객체 추출 단계;
    상기 주요 객체에 소정의 수학식을 적용하여 추출한 스킨 영역으로 1차 음란물 여부를 판별하는 스킨 영역 추출 단계;
    상기 이미지가 1차 음란물로 판별될 경우, 상기 음란물로 판별된 이미지에서 소정의 매트릭스를 계산하여 추출한 질감 특징에 따라 최종 음란물 여부를 판별하는 질감 특징 추출 단계; 및
    상기 최종 음란물로 판별된 주요 객체가 포함된 이미지의 외부로의 출력을 차단하는 음란물 차단 단계; 를 포함하는 것을 특징으로 하는 음란물 검출 방법.
  10. 제 9항에 있어서,
    상기 주요 객체 추출 단계에서,
    상기 영상 분할 전에, 상기 입력된 이미지를 CIE L*a*b* 모델을 사용하여 영상 처리하는 것을 특징으로 하는 음란물 검출 방법.
  11. 제 10항에 있어서,
    상기 주요 객체 추출 단계에서,
    상기 주요 객체를 추출하기 위해, 상기 영상 분할된 이미지를 소정의 임계값 에 따른 이진 영상으로 변환하고, 상기 이진 영상에 객체 추출 마스크를 적용시키는 것을 특징으로 하는 음란물 검출 방법.
  12. 제 9항에 있어서,
    상기 스킨 영역 추출 단계에서,
    상기 주요 객체의 색상 공간을 YCbCr로 변환하여, 상기 YCrCb 색상 공간에서 다음의 수학식
    Figure 112008064163563-PAT00018
    그리고
    Figure 112008064163563-PAT00019
    Figure 112008064163563-PAT00020
    을 만족하는 Cb, Cr 영역을 스킨 영 역으로 추출하는 것을 특징으로 하는 음란물 검출 방법.
  13. 제 12항에 있어서,
    상기 스킨 영역 추출 단계에서,
    상기 스킨 영역의 특징값이 소정의 임계치보다 클 경우, 상기 스킨 영역을 포함한 이미지를 1차 음란물로 판별하는 것을 특징으로 하는 음란물 검출 방법.
  14. 제 9항에 있어서,
    상기 질감 특징 추출 단계에서,
    상기 1차 음란물로 판별된 이미지를 질감 특징의 추출을 위해 적합한 개수의 블록으로 나누는 것을 특징으로 하는 음란물 검출 방법.
  15. 제 14항에 있어서,
    상기 질감 특징 추출 단계에서,
    상기 블록 각각에 대해 정규화된 4방향에 대한 그레이 레벨 co-occurrence 매트릭스를 계산하는 것을 특징으로 하는 음란물 검출 방법.
  16. 제 15항에 있어서,
    상기 질감 특징 추출 단계에서,
    상기 매트릭스의 엔트리 값을 소정의 수학식에 적용하여 질감 특징을 추출하고, 상기 추출한 질감 특징이 주어진 임계치보다 크면 최종 음란물이라고 판별하는 것을 특징으로 하는 음란물 검출 방법.
  17. 제 9항 내지 제 16항 중 어느 한 항의 음란물 검출 방법을 컴퓨터에서 판독할 수 있고, 실행 가능한 프로그램 코드로 기록한 기록 매체.
KR1020080089187A 2008-09-10 2008-09-10 음란물 검출 시스템 및 방법 KR101002675B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080089187A KR101002675B1 (ko) 2008-09-10 2008-09-10 음란물 검출 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080089187A KR101002675B1 (ko) 2008-09-10 2008-09-10 음란물 검출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20100030300A true KR20100030300A (ko) 2010-03-18
KR101002675B1 KR101002675B1 (ko) 2010-12-20

Family

ID=42180277

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080089187A KR101002675B1 (ko) 2008-09-10 2008-09-10 음란물 검출 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101002675B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170134406A1 (en) * 2015-11-09 2017-05-11 Flipboard, Inc. Pre-Filtering Digital Content In A Digital Content System
US9824313B2 (en) 2015-05-01 2017-11-21 Flipboard, Inc. Filtering content in an online system based on text and image signals extracted from the content
CN112528996A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 图片处理方法、装置、设备、存储介质和计算机程序产品

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824313B2 (en) 2015-05-01 2017-11-21 Flipboard, Inc. Filtering content in an online system based on text and image signals extracted from the content
US20170134406A1 (en) * 2015-11-09 2017-05-11 Flipboard, Inc. Pre-Filtering Digital Content In A Digital Content System
US9967266B2 (en) * 2015-11-09 2018-05-08 Flipboard, Inc. Pre-filtering digital content in a digital content system
CN112528996A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 图片处理方法、装置、设备、存储介质和计算机程序产品
CN112528996B (zh) * 2020-12-22 2023-10-27 北京百度网讯科技有限公司 图片处理方法、装置、设备、存储介质和计算机程序产品

Also Published As

Publication number Publication date
KR101002675B1 (ko) 2010-12-20

Similar Documents

Publication Publication Date Title
CN112329851B (zh) 一种图标检测方法、装置及计算机可读存储介质
CN108549836B (zh) 照片的翻拍检测方法、装置、设备及可读存储介质
CN109948566B (zh) 一种基于权重融合与特征选择的双流人脸反欺诈检测方法
WO2019071739A1 (zh) 人脸活体检测方法、装置、可读存储介质及终端设备
JP2005509223A (ja) コード認識のための装置及びその方法
CN107545049B (zh) 图片处理方法及相关产品
CN105894491A (zh) 图像高频信息的定位方法和装置
KR101013484B1 (ko) 음란물 검출 시스템 및 방법
CN106951869A (zh) 一种活体验证方法及设备
CN103093180A (zh) 一种色情图像侦测的方法和系统
AU2016312847A1 (en) A process, system and apparatus for machine colour characterisation of digital media
KR101002675B1 (ko) 음란물 검출 시스템 및 방법
CN110782442A (zh) 一种基于多域耦合的图像人工模糊检测方法
Caron et al. Use of power law models in detecting region of interest
CN114332559B (zh) 一种基于自适应跨模态融合机制和深度注意力网络的rgb-d显著性目标检测方法
KR100955180B1 (ko) 이미지 품질지수 산출 방법 및 시스템
Qi et al. An adaptive visible watermark embedding method based on region selection
CN115294162B (zh) 目标识别方法、装置、设备及存储介质
CN116563570A (zh) 一种颜色识别方法、装置、电子设备及存储介质
CN110399867B (zh) 一种文本类图像区域的识别方法、系统及相关装置
Berbar Skin colour correction and faces detection techniques based on HSL and R colour components
CN117218213A (zh) 图像处理方法、图像处理模型的训练方法及装置
Wang et al. Blind photograph watermarking with robust defocus‐based JND model
KR102377056B1 (ko) 이미지 위조 탐지 장치 및 방법
JP4999005B2 (ja) コンテンツ識別装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130717

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151030

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee