KR101916596B1 - 이미지의 혐오감을 예측하는 방법 - Google Patents

이미지의 혐오감을 예측하는 방법 Download PDF

Info

Publication number
KR101916596B1
KR101916596B1 KR1020170084928A KR20170084928A KR101916596B1 KR 101916596 B1 KR101916596 B1 KR 101916596B1 KR 1020170084928 A KR1020170084928 A KR 1020170084928A KR 20170084928 A KR20170084928 A KR 20170084928A KR 101916596 B1 KR101916596 B1 KR 101916596B1
Authority
KR
South Korea
Prior art keywords
information
aversion
image
convolution
score
Prior art date
Application number
KR1020170084928A
Other languages
English (en)
Inventor
강행봉
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Priority to KR1020170084928A priority Critical patent/KR101916596B1/ko
Application granted granted Critical
Publication of KR101916596B1 publication Critical patent/KR101916596B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/4642
    • G06K9/4652
    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/41Analysis of texture based on statistical description of texture
    • G06T7/44Analysis of texture based on statistical description of texture using image operators, e.g. filters, edge density metrics or local histograms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 이미지의 혐오감을 예측하는 방법에 관한 것으로, (a) 복수의 혐오감 야기 이미지로 구성된 데이터세트를 등록하는 단계와 - 각각의 상기 혐오감 이미지는 혐오감 점수와 자신이 속한 카테고리에 대한 정보를 포함함; (b) 상기 데이터세트의 상기 혐오감 야기 이미지를 이용하여 복수의 특성 정보가 추출되는 단계와; (c) 상기 (b) 단계에서 추출된 상기 특성 정보가 기 등록된 특성 기반 학습 모델에 훈련 세트로 적용되어 학습되는 단계와; (d) 기 훈련된 상기 특성 기반 학습 모델로부터 복수의 컨벌루션 레이어로 구성된 컨벌루션 큐브가 생성되는 단계와; (e) 상기 컨벌루션 큐브의 출력이 기 등록된 컨벌루션 신경망에 입력되어 입력 이미지의 혐오감 점수가 예측되는 단계를 포함하는 것을 특징으로 한다. 이에 따라, 큰 스케일(Large-scale)의 혐오감 야기 이미지로 구성된 데이터세트를 마련하여, 이를 이용하여 보다 정확한 혐오감 점수를 예측할 수 있다.

Description

이미지의 혐오감을 예측하는 방법{METHOD FOR PREDICTING DISGUST OF IMAGE}
본 발명은 이미지의 혐오감을 예측하는 방법에 관한 것으로, 보다 상게하게는 큰 스케일의 데이터세트를 이용하여 이미지의 혐오감 점수를 보다 정확하게 예측할 수 있는 이미지의 혐오감을 예측하는 방법에 관한 것이다.
구글, 야후, 페이스북, 인스타그램, Tumblr, Flickr와 같은 이미지 검색 시스템이나 사진 공유 시스템의 사용자들은 증가하고 있다. 동시에, 사용자는 종종 혐오감을 야기하는 노골적인 사진을 접하게 된다. 몇몇 연구자에서, 사람이 혐오감을 야기하는 이미지를 보았을 때 관찰되는 증상이 연구되었다. 그리고, 다양한 응용 연구를 통해 예상치 않은 혐오감 야기 이미지로의 노출을 최소화하는 것이 정신 건강이나 건전한 인터넷 문화를 위해 필요하다는 것이 확인되었다. 혐오감의 정도가 사람마다 다르더라도, 사람은 그들이 혐오감 야기 이미지를 보았을 때, 일반적으로 화가 나며, 불쾌한 감정을 느낀다.
혐오감을 느끼는 것에 기반하여 수행되는 대다수의 연구가 정신적 또는 의학적 관점으로부터 수행되었다. 예상치 않은 사진으로의 노출과 관련된 기존의 컴퓨터 비전 또는 패턴 인식 연구는 단지 특정 혐오감 야기 도메인들, 예를 들어, 섹슈얼하거나 폭력적인 이미지들을 다루었다.
혐오감과 관련된 연구들 중, 다양한 연구가 혐오감 민감도에 대해 개인적인 차이에 대해 수행되었다. Gerlach 등의 논문 'Blood-injury phobia with and without a history of fainting: disgust sensitivity does not explain the fainting response(Psychosomatic Medicine 68 (2) (2006) 331-339)에는 혐오감 민감도가 실신 반응으로 이어지는지와, 부교감 신경의 활성화와 관련이 있는지 여부를 조사하였다. 상기 논문에서는 fMRI를 통해 참가자의 다른 뇌 활성화를 측정하였다.
또한, 예상치 않은 사진에 대한 기존의 연구들은 이미지 또는 비디오 시퀀스로부터 필터링하기 위해, 존재 유무의 절대적인 스케일로 각각의 이미지 또는 비디오 시퀀스를 측정하였다. 그런데, 이미지 데이터로부터 시각적 혐오감을 결정하는 기존의 방법은 시각적 혐오감을 통찰력있게 해석하지 못하고, 결과적으로, 상술한 이슈들에 대한 근본적인 해법을 찾는데 심한 제약을 받게 된다.
이에, 본 발명은 상기와 같은 문제점을 해소하기 위해 안출된 것으로서, 큰 스케일(Large-scale)의 혐오감 야기 이미지로 구성된 데이터세트를 마련하여, 이를 이용하여 보다 정확한 혐오감 점수를 예측할 수 있는 이미지의 혐오감을 예측하는 방법을 제공하는데 그 목적이 있다.
상기 목적은 본 발명에 따라, 이미지의 혐오감을 예측하는 방법에 있어서, (a) 복수의 혐오감 야기 이미지로 구성된 데이터세트를 등록하는 단계와 - 각각의 상기 혐오감 이미지는 혐오감 점수와 자신이 속한 카테고리에 대한 정보를 포함함; (b) 상기 데이터세트의 상기 혐오감 야기 이미지를 이용하여 복수의 특성 정보가 추출되는 단계와; (c) 상기 (b) 단계에서 추출된 상기 특성 정보가 기 등록된 특성 기반 학습 모델에 훈련 세트로 적용되어 학습되는 단계와; (d) 기 훈련된 상기 특성 기반 학습 모델로부터 복수의 컨벌루션 레이어로 구성된 컨벌루션 큐브가 생성되는 단계와; (e) 상기 컨벌루션 큐브의 출력이 기 등록된 컨벌루션 신경망에 입력되어 입력 이미지의 혐오감 점수가 예측되는 단계를 포함하는 것을 특징으로 하는 이미지의 혐오감을 예측하는 방법에 의해서 달성된다.
여기서, 상기 (a) 단계에서 상기 카테고리는 유혈(Bloody) 카테고리, 벌레(Bug) 카테고리, 환공포증(Trypophobia) 카테고리 및 끔찍함(Nasty) 카테고리를 포함할 수 있다.
또한, 상기 특성 정보는 색상(Color) 정보, 텍스처(Texture) 정보, 오브젝트 요소(Object composition) 정보, 영역 통계(region statistics) 정보, 스케일 불변 특성 변환(Scale invariant feature transform, SIFT) 정보, 기울기 방향성 히스토그램(Histogram of oriented Gradient, HoG) 정보, GIST 정보, 및 계층 특성(Layered feature) 정보 중 적어도 하나를 포함할 수 있다.
그리고, 상기 (b) 단계는 (b1) 상기 색상 정보로 CIELab, HSV 및 RGB 색공간의 각 채널로부터 16개의 빈(Bin)의 표준 색상 히스트그램 특성이 추출되는 단계와; (b2) 상기 텍스처 정보로 웨이브렛-기반 텍스톤(Wavelet-based texton)을 이용하여 텍스처-연관 특성이 추출되는 단계와; (b3) 상기 혐오감 야기 이미지의 오브젝트 마스카와 3분할 법칙의 각 교차점 간의 유클리디언 거리(Euclidean distance)가 측정되어 상기 오브젝트 요소로 인코딩되는 단계와; (b4) 상기 영역 통계 정보로 기 설정된 기준 점수보다 큰 혐오감 점수를 갖는 영역 마스크의 개수와, 상기 기준 점수보다 큰 혐오감 점수를 갖는 영역 마스크들의 평균 혐오감 점수가 추출되는 단계와; (b5) 맥스 풀링 레이어(Max pooling layer)를 제거한 AlexNet과, 전단의 2개의 맥스 풀링 레이어만을 갖는 VGG16가 ImageNet에서 훈련되어 상기 계층 특성 정보가 추출되는 단계를 포함할 수 있다.
그리고, 상기 (c) 단계에서 상기 특성 기반 학습 모델은 멀티-클래스 SVM(Multi-class SVM)을 포함할 수 있다.
그리고, 상기 컨벌루션 큐브는 기 설정된 사이즈를 가지며; 상기 (d) 단계에서는 상기 컨벌루션 큐브의 사이즈보다 큰 사이즈의 상기 특성 기반 학습 모델의 컨벌루션 레이어에 맥스 풀링 레이어가 적용되어 상기 컨벌루션 레이어의 출력으로부터 서브 샘플링이 생성되고, 상기 컨벌루션 큐브의 사이즈보다 작은 사이즈의 상기 특성 기반 학습 모델이 컨벌루션 레이어에 디컨볼루션 레이어가 적용되어 업샘플링되어 상기 컨벌루션 큐브를 구성하는 컨벌루션 레이어가 생성될 수 있다.
그리고, 상기 특성 기반 학습 모델의 컨벌루션 레이어들의 출력은 LRN(Local Response Normalization)에 의해 정규화되어 상기 컨벌루션 큐브를 구성하는 컨벌루션 레이어로 제공될 수 있다.
상기와 같은 구성에 따라, 본 발명에 따르면, 큰 스케일(Large-scale)의 혐오감 야기 이미지로 구성된 데이터세트를 마련하여, 이를 이용하여 보다 정확한 혐오감 점수를 예측할 수 있는 이미지의 혐오감을 예측하는 방법이 제공된다.
도 1은 본 발명에 따른 이미지의 혐오감을 예측하는 방법을 설명하기 위한 도면이고,
도 2는 4개의 카테고리로부터 추출된 혐오감 야기 이미지와 그들의 혐오감 점수의 예를 나타낸 도면이고,
도 3은 81명으로부터 첫 번째 크라우드소싱에서 측정된 혐오감 점수와, 두 번째 측정된 크라우드소싱의 혐오감 점수 간의 스피어만 상관관계를 나타낸 도면이고,
도 4는 동의의 다른 정도의 예를 나타낸 도면이고,
도 5는 본 발명에 따른 이미지의 혐오감 점수를 예측하기 위해 적용된 수정된 CNN의 프레임워크의 구조를 나타낸 도면이다.
이하에서는 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다.
도 1은 본 발명에 따른 이미지의 혐오감을 예측하는 방법을 설명하기 위한 도면이다. 도 1을 참조하여 설명하면, 먼저, 복수의 혐오감 야기 이미지로 구성된 데이터세트가 등록된다(S10). 여기서, 각각의 혐오감 이미지는 혐오감 점수와 자신이 속한 카테고리에 대한 정보를 포함하게 된다.
이하에서는, 본 발명에 따른 이미지의 혐오감을 예측하는 방법에서 세이터세트를 구성하는 과정에 대해 상세히 설명한다.
사용자가 혐오감 야기 이미지를 접하는 경우 어떻게 느끼는지 조사하기 위해, 본 발명에서는 먼저 온라인 사진 공유 사이트로부터 4개의 카테고리 안에 61,573 장의 사진을 수집하였다. 그리고 본 발명에서는, 그라우드소싱을 통해 전체 347,548개의 응답과 코멘트를 수집하였다.
데이터세트의 생성 과정에 대해 보다 구체적으로 설명하면, 이미지를 시청한 후에 사용자의 찌푸림, 모니터로부터의 눈동자 회피, '으??'과 같은 소리를 '혐오감'으로 여긴다. 자연스럽게, 동일한 이미지는 공포, 두려움, 불안감의 감정을 야기하며, 본 발명에서는 이를 혐오감으로 표현한다.
먼저, 참가자로부터 혐오감을 느끼게 하는 이미지의 카테고리를 조사하기 위해, 온라인 조사서를 생성한다. [표 1]은 온라인 조사서의 조사 항목을 나타내고 있다.
[표 1]
Figure 112017064072517-pat00001
[표 1]의 첫 번째 질문은 가 인터넷 상에서 혐오감 야기 이미지를 접해보았는지 여부를 알아보기 위한 것이다. 두 번째 질문과 함께, 수동적으로 혐오감 야기 이미지를 경험한 참가자의 수를 카운트할 수 있었다. 참가자는 첫 번째 질문에서 대해서 Yes 또는 No 중 하나를, 두 번째 질문에 대해서 임의적(Arbitrary) 또는 수동적(Passive) 중 하나를 응답으로 선택할 수 있다. 세 번째 질문은 경험있는 참가자가 어디에서 통상 혐오감 야기 이미지를 보는지를 묻는다. 네 번째 질문은 혐오감 야기 이미지를 접해본 참가자가 실제 혐오감을 느꼈던 이미지의 카테고리에 관한 것이다. 마지막으로, 다섯 번째 질문은 참가자가 혐오감을 느낀다고 생각하는 이미지의 카테고리에 관한 질문이다.
첫 번째 질문에서 Yes를 응답한 참가자는 나머지 질문에 답변할 수 있으나, 그렇지 않은 경우에는 단지 다섯 번째 질문에만 답할 수 있다. 세 번째 질문과 다섯 번째 질문은 자유 응답 질문이다. 본 발명에 따른 조사는 129명의 한국인과 83명의 미국인을 포함한 212명의 인터넷 사용자에 대해 진행되었고, 참가자의 평균 나이는 24.5세이다.
상기 조사에서 혐오감을 야기하는 이미지의 카테고리의 상한을 정하기 위해 몇 개의 응답으로 수작업으로 구분하였고, 상위 카테고리 내의 빈번한 코멘트를 서브 카테고리로 설정하였다. 결과적으로, 혐오감 야기 이미지로 구성되는 데이터세트의 상위 카테고리는 유혈(bloody), 벌레(bug), 환공포증(trypophobia) 및 끔찍함(nasty)을 포함한다.
유혈 카테고리는 많은 유혈 이미지를 포함한다. 하나 또는 이상의 벌레를 포함하는 이미지가 벌레 카테고리로 분류된다. 환공포증 카테고리는 불규칙한 패턴을 가지거나 작은 홀들 또는 요철들(bumps)로 구성된 이미지를 포함한다. 끔직함 카테고리는 더럽거나 추한 오브젝트나 장면을 포함한다. 본 발명에 따른 데이터세트 내의 각각의 이미지에는 상부 카테고리에 대한 정보가 함께 표시되는데, 하부 카테고리도 함께 포함되는 것이 가능하다.
본 발명에서는 여러 웹 사이트로부터 수집된 이미지를 통해, 큰 스케일의 혐오감 야기 이미지가 수집되었다. 혐오감 야기 이미지와 관련된 공식적인 사진 공유 사이트가 없기 때문에, 본 발명에서는 주로 구글이나 야후와 같은 검색 시스템과 페이스북, 인스트그램, 텀블러와 같은 소셜 네트워크로부터 이미지를 수집하였는데, 해시태그 검색을 이용하여 수집하였다.
상기와 같은 과정을 통해, 본 발명에 따른 데이터세트는 상술한 4개의 카테고리에 61,573개의 이미지를 포함하는데, 16,002개의 유혈, 17,430의 벌래, 14,320개의 환공포증, 그리고 13,823개의 끔직함 이미지이다.
한편, 본 발명에서는 이원 비교 방식(Pairwise comparison method)을 이용한 크라우드소싱 사용자 조사를 통해 얻어진 모든 이미지의 혐오감 점수가 측정된다. 상기 방법은 계산되는 최종 점수가 절대 점수가 아닌 순위와 관련(rank-related)되기 때문에, 이미지로부터의 주관적 속성 점수를 계산하기 위해 주관적 속성을 측정하는데 널리 사용된다. 크라우드소싱에서, 본 발명에 따른 데이터세트의 혐오감 야기 이미지 쌍들이 참가자들에서 디스플레이되는데, 참가자들에게는 "어떤 이미지가 더 혐오스럽게 보이나?"라는 질문이 주어진다. 참가자들은 하나 또는 둘(동일한 혐오감이 느껴짐)을 선택할 수 있다. 이미지 i에 대한 혐오감 점수 Di는 [수학식 1] 및 [수학식 2]를 통해 계산된다.
[수학식 1]
Figure 112017064072517-pat00002
[수학식 2]
Figure 112017064072517-pat00003
여기서, w, l, t는 이미지의 횟수로, 각각 승(won), 패(lost), 동률(tied)을 나타낸다. 상수 10/3는 출력 점수를 범위를 [0,10]에 놓기 위해 선택된다.
참가자는 또한, 참가자가 크라우드소싱에 정직하게 참여하고 있음을 확인하고 이에 더하여 통찰력 있는 신호가 혐오감 야기 속성에 포함되도록, 선택한 이미지가 다른 이미지보다 더 혐오감을 느끼게 하는지를 작성하도록 요구된다. 주어지는 이유는 7개의 특정 답변으로, 색상 대조(color contrast), 오브젝트의 요소(composition of object), 질감(texture), 오브젝트의 종류(kinds of object), 오브젝트의 사이즈(size of object), 색상(color) 및 문맥(context)이다. 상기의 특정 답변을 제외한 다른 답변을 선택하고자 하는 참가자를 위해, 자유 답변을 문장으로 가능하게 지원했다. 참가자는 복수의 답을 선택할 수 있다. 도 2는 4개의 카테고리로부터 추출된 혐오감 야기 이미지와 그들의 혐오감 점수의 예를 나타내고 있다.
본 발명에 따른 데이터세트로부터의 각각의 이미지에 대해 신뢰할 수 있는 혐오감 점수를 부여하기 위해, 모든 이미지가 충분한 수의 참가자에 의해 충분한 횟수로 평가되어야 한다. 이는 혐오감 점수가 주관적인 감정이기 때문이다. 참가자는 대학 커뮤니티, 지역 커뮤니티, 직업 광고를 통해 채용되었다. 웹 사이트에 접속하면, 각각의 참가자는 생년월일, 성별, 이메일을 포함하는 프로파일을 생성하고, 생성된 프로파일은 데이터세트에 저장된다.
첫 번째 접속 후에, 참가자는 자신의 프로파일을 통해 로그인할 수 있다. 크라우드소싱은 12개월 이상 수행되었고, 전체 참가자 수는 544명으로, 242명의 여성과, 302명의 남성으로 구성되었다. 참가자의 연령대 그룹은 19세 이하 그룹(101), 20~29세 그룹(211), 30~39세 그룹(133), 40세 이상 그룹(99)로 나뉜다.
크라우드소싱이 수행되는 동안, 347,548개의 응답을 획득하였다. 여기서, 쌍을 이루는 각각, 예컨대 347,548 쌍에서 중복은 없었다. 본 발명에서 쌍을 이루는 이미지가 겹치지 않도록 하는 이유는 특정 이미지로 평가의 횟수가 편중되는 것을 피하기 위해서이다.
디스플레이되는 이미지의 순서가 평가에 영향을 미치는지 여부를 다루기 위해, 다른 실험을 수행하였다(실험 결과는 각각의 이미지의 혐오감 점수를 측정하는데 포함시키지 않았다.). 첫 번째 크라우드소싱 실험 후 적어도 4개월 이후에 이미지를 다시 평가하기 위해 참가자의 15%(81명)를 무작위로 선택하였다. 디스플레이되는 이미지가 이전의 크라우드소싱 실험과 동일함에도 불구하고, 디스플레이되는 이미지의 순서는 완전히 달랐다.
도 3은 81명으로부터 첫 번째 크라우드소싱에서 측정된 혐오감 점수와, 두 번째 측정된 크라우드소싱의 혐오감 점수 간의 스피어만 상관관계
Figure 112017064072517-pat00004
를 나타내고 있다. 비교에 사용된 이미지는 단지 81명에게만 디스플레이된 이미지이다. 결과적으로, 0.93의 높은 상관관계로 나타났다. 이는, 이미지의 디스플레이 순서가 혐오감 점수의 측정에 거의 영향을 미치지 않는 것을 의미한다.
상기와 같은 과정을 통해, 데이터세트 내의 각각의 상위 카테고리 및 서브 카테고리에 속하는 혐오감 야기 이미지의 혐오감 점수가 결정되어 등록되는데, [표 2]는 각각의 상위 카테고리 및 하위 카테고리의 평균 혐오감 점수를 나타내고 있다.
[표 2]
Figure 112017064072517-pat00005
[표 2]를 참조하여 설명하면, 유혈 카테고리가 가능 높은 평균 혐오감 점수를 갖는 것으로 확인되었는데, 이는 참가자들이 일반적으로 유혈 이미지를 4개의 상위 카테고리 중 가장 혐오감을 주는 것으로 인식하는 것을 의미한다. 유혈 카테고리의 서브 카테고리 중 '절단된 몸(Cutting Body)' 카테고리가 6.02로 가장 높은 평균 혐오감 점수로 나타났다.
동일한 이미지에 대해 서로 다른 사람이 느끼는 혐오감의 정도가 다르다는 점은 명백하다. 혐오감 점수와 관련하여 다른 정도를 측정하기 위해, 참가자가 이미지의 혐오감 점수에 동의하는지 여부를 묻는 사용자 조사를 수행하였다. 사용자 조사에서, 이미지의 모음이 상기와 같이 측정된 혐오감 점수와 함께 디스플레이되었다. 이미지의 모음에 포함된 이미지들은 0에서 9까지의 각각의 점수 그룹으로부터 무작위로 선택된 이미지를 포함한다. 예를 들어, 전체 11 장의 이미지들이 이미지 모음에 사용된다. 만약 이미지와 그 혐오감 점수에 동의하면, 각각의 이미지에 대한 체크박스들을 선택할 수 있다. 여기서, 참가자가 이미지 모음에서 모든 이미지와 그 점수에 동의하지 않는 경우, 다음단계로 이동한다. 참가자의 동의는 혐오감 이미지의 표준과 관련된 참가자의 혼동을 피하기 위해 각각의 이미지에 대해 요구되지 않는다. 100명이 사람이 이러한 사용자 조사에 참가하였다. 도 4는 동의의 다른 정도의 예를 나타내고 있다.
상기와 같은 과정을 통해, 복수의 혐오감 야기 이미지, 각각의 혐오감 야기 이미지의 카테고리 및 혐오감 점수에 대한 정보로 구성된 데이터세트가 등록되면, 데이터세트에 등록된 혐오감 야기 이미지를 이용하여 각각의 혐오감 야기 이미지에 대한 특성 정보가 추출된다(S11).
여기서, 본 발명에 따른 특성 정보는 색상(Color) 정보, 텍스처(Texture) 정보, 오브젝트 요소(Object composition) 정보, 영역 통계(region statistics) 정보, 스케일 불변 특성 변환(Scale invariant feature transform, SIFT) 정보, 기울기 방향성 히스토그램(Histogram of oriented Gradient, HoG) 정보, GIST 정보, 및 계층 특성(Layered feature) 정보 중 적어도 하나를 포함하는 것을 예로 한다.
색상 정보와 텍스처 정보는 관찰자가 혐오감 야기 요소로 가장 자주 언급한 것이다. 오브젝트 요소 정보와 영역 통계 정보는 R. Datta 등의 논문 'Studying aesthetics in photographic images using a computational approach(European Conference on Computer Vision, Springer, 2006, pp. 288-301.)'과 같은 기존의 연구에서 시각적 지각 속성을 평가하기 위해 사용되는 이미지의 요소로 인식되고 있다. SIFT, HoG 및 GIST는 이미지 특성 디스크립터(Descriptor)로, 이미지 분류, 오브젝트 검출 및 스타일 인식과 같은 많은 컴퓨터 비전 태스크에서 사용된다. 그리고, 계층 특성 정보는 CNN(Convolutional Neural Network) 구조에서 레이어(layer)의 출력으로부터 특성을 나타낸다.
각각의 특성 정보에 대해 보다 구체적으로 설명하면, 색상 정보는 밝기 정보와 함께, 이미지로부터 주관적인 감정을 느끼게 하는 2개의 중요한 신호이다. 이와 같은 특성을 모델링하기 위해, 본 발명에서는 CIELab, HSV 및 RGB 색공간의 각 채널로부터 16개의 빈(bin)의 표준 컬러 히스토그램 특성을 추출한다.
텍스처 정보와 관련하여, 혐오감 이미지 내의 패턴 또는 텍스처는 사람들에게 혐오감을 쉽게 떠오르게 했다. 이를 텍스처 정보로 추출하기 위해, 본 발명에서는 웨이브렛-기반 텍스톤(Wavelet-based texton)을 이용하여 텍스처와 관련된 특성 정보를 추출하는데, 웨이브렛-기반 텍스톤은 기하학적 구성과 광측정학적 구성으로 구성된 미니-템플릿(mini-template)을 사용한다.
이미지를 구성하는 오브젝트 요소 정보와 관련하여, 3분할 법칙이나 대각선 법칙과 같은 전통적인 구도 법칙(Composition rule)은 일반적으로 이미지 모델링과 평가에 수작업 특성으로 사용된다. 이와 같은 법칙에 기초하여, 본 발명에서는 혐오감 영역 마스크(masks)의 전경 오브젝트(foreground object)가 3분할 법칙의 교차점(X 축 및 Y 축의 1/3 또는 2/3)에 충분하게 위치하는지 여부를 결정한다. 이를 달성하기 위해, 본 발명에서는 각각의 오브젝트 마스크와 3분할 법칙의 각각의 교차점 간의 유클리디언 거리(Euclidean distance)를 측정하여 오브젝트 요소를 인코딩하는데, 이는 [수학식 3]과 같이 표현할 수 있다.
[수학식 3]
Figure 112017064072517-pat00006
여기서,
Figure 112017064072517-pat00007
는 i 번째 이미지의 전경 요소의 갯수이고,
Figure 112017064072517-pat00008
는 i 번째 이미지의 k-번째 전경 오브젝트의 중심과 포인트들 중 하나 간의 거리가 마스크 반경의 절반보다 작은 경우 1로 설정되고, 다른 경우는 0으로 설정된다.
영역 통계 정보와 관련된 특성의 인코딩을 위해, 본 발명에서는 기 설정된 기준 점수, 예를 들어, 0.6보다 큰 혐오감 점수를 갖는 영역 마스크의 개수와, 기준 점수보다 큰 혐오감 점수를 갖는 영역 마스크들의 평균 혐오감 점수를 영역 통계 정보로 추출한다.
이미지 특성 디스크립터인 SIFT, HoG 및 GIST 특성이 본 발명에 따른 데이터세트로부터 추출되는데, 추출된 특성은 피셔 벡터 인코딩(Fisher vector encoding)을 통해 인코딩된다.
마지막으로, 계층 특성 정보와 관련하여, 본 발명에서는 서로 다른 CNN 구조로부터 두 개의 심층 특성(Deep feature)을 비교하고, 또한 접합(concatenation)을 통해 하나의 특성으로 융합한다. 여기서, 16개의 레이어를 갖는 AlexNet과 VGGNet이 스몰 네트워크와 심층 네트워크로 각각 사용된다.
이 때, CNN 구조의 맥스 풀링 레이어(Max pooling layer)는 최강 액티베이션(strongest activation)만을 지역적 이웃으로부터 다음 레이어로 전달한다. 즉, 액티베이션의 공간 분해능은 그들이 레이어를 통과할 때 두드러지게 감소한다. 그러나, 몇몇 이미지는 작은 지역적 특성(small local feature)을 가지기 때문에(예컨대, 벌레 카테고리 내의 몇몇 이미지는 많은 작은 벌레로 구성된다), 혐오감 야기 이미지에서 작은 지역적 특성을 유지하는 것이 중요하다. 따라서, 본 발명에서는 AlexNet에서 전체 맥스 풀링 레이어(Max pooling layer)를 제거하고, VGG16은 지역적 노이즈에 강인하도록 전단의 2개의 맥스 풀링 레이어만을 갖도록 구성된다.그리고, 이와 같은 두 개의 CNN 구조는 ImageNet 분류 데이터세트에서 훈련된다.
상기와 같이 혐오감 야기 이미지로부터 복수의 특성 정보가 추출되면, 추출된 특성 정보가 기 등록된 특성 기반 학습 모델에 훈련 세트로 적용되어 학습된다(S12).
본 발명에서는 멀티-클래스 SVM(multi-class SVM, mSVM)이 특성 기반 학습 모델로 적용되는 것을 예로 한다. 훈련 세트는 본 발명에 따른 데이터세트의 70%를 이용하였다. mSVM의 각각의 클래스(Class)는 혐오감 점수의 반올림에 의해 양자화된 점수를 보여준다. 그리고, 서로 다른 특성 정보를 결합하기 위해, 본 발명에서는, 본 발명에서는 둘 또는 그 이상의 특성 정보를 접합(Concatenate)하였다.
한편, 도 5는 본 발명에 따른 이미지의 혐오감 점수를 예측하기 위해 적용된 수정된 CNN의 프레임워크의 구조를 나타낸 도면이다. 도 5를 참조하여 설명하면, 혐오감 야기 이미지의 특성은 지역적(Local)에서 전역적(Global)으로 넓게 펴져있는데 있다. CNN을 이용한 종래의 기술들은 네트워크의 전체 통과(all-passed) 출력이 최종 오브젝티브 레이어(Loss layer 또는 Classification layer)로 제공되었다. 그러나, CNN 구조의 서브샘플링 레이어(Subsampling layer)와 풀링 레이어(Pooling layer) 때문에, 멀티-레벨 추출(multi-level abstraction)과 입력 이미지의 지역적 정보는 모든 레이어를 통과하는 동안 손실된다.
따라서, 본 발명에서는 기-훈련된 상술한 특성 기반 학습 모델로부터 하나 이상의 컨볼루션 레이어를 갖는 컨볼루션 큐브(convolutional cube)를 생성한다(S13). 서로 다른 해상도, 즉 서로 다른 사이즈를 갖는 컨볼루션 레이어의 결합을 위해, 본 발명에서는 서로 다른 샘플링 레이어를 적용하는 것에 의해 개별적으로 샘플링하였다.
먼저, 컨볼루션 큐브의 사이즈보다 큰 사이즈의 컨볼루션 레이어의 출력에서 서브샘플링을 생성하기 위해, 맥스 풀링 레이어가 사용된다. 반면, 컨볼루션 레이어의 출력이 컨볼루션 큐브보다 작은 경우, 디컨볼루션 레이어(Deconvolutional layer)가 업샘플링의 적용에 사용된다. 그리고, 특성 기반 학습 모델의 컨벌루션 레이어의 각각의 출력은 압축된 균등 스케일(Compressed uniform scale)을 갖는 시매틱 특성(sematic feature)의 추출을 위해 컨벌루션 레이어로 제공된다. 그런 다음, LRN(Local Response Normalization)이 모든 출력의 정규화에 사용된다. 최종 컨벌루션 큐브는 멀티-컨벌류션 레이어의 연결(concatenating)에 의해 배열된다.
상기와 같이 생성된 컨볼루션 큐브로부터, 본 발명에서는 혐오감 점수를 예측하기 위해, 스몰(Small) CNN에 제공되어 혐오감 점수가 예측된다(S14). CNN은 본 발명에 따른 데이터세트에서 미세 조정된다. 여기서, 입력 이미지의 혐오감 점수 추출을 위한 CNN의 네트워크는 맥스 풀링 레이어를 갖는 2개의 컨볼루션 레이어, 두 개의 풀리 커넥티드 레이어 및 하나의 로스 레이어를 포함한다. 본 발명에서는, 혐오감 점수를 분류하기 위해 힌지 로스 레이어(Hinge loss layer)를 사용되었다.
비록 본 발명의 몇몇 실시예들이 도시되고 설명되었지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 발명의 원칙이나 정신에서 벗어나지 않으면서 본 실시예를 변형할 수 있음을 알 수 있을 것이다. 발명의 범위는 첨부된 청구항과 그 균등물에 의해 정해질 것이다.

Claims (7)

  1. 이미지의 혐오감을 예측하는 방법에 있어서,
    (a) 복수의 혐오감 야기 이미지로 구성된 데이터세트를 등록하는 단계와;-각각의 상기 혐오감 야기 이미지는 혐오감 점수와 자신이 속한 카테고리에 대한 정보를 포함함
    (b) 상기 데이터세트의 상기 혐오감 야기 이미지를 이용하여 복수의 특성 정보가 추출되는 단계와;
    (c) 상기 (b) 단계에서 추출된 상기 특성 정보가 기 등록된 특성 기반 학습 모델에 훈련 세트로 적용되어 학습되는 단계와;
    (d) 기 훈련된 상기 특성 기반 학습 모델로부터 복수의 컨벌루션 레이어로 구성된 컨벌루션 큐브가 생성되는 단계와;
    (e) 상기 컨벌루션 큐브의 출력이 기 등록된 컨벌루션 신경망에 입력되어 입력 이미지의 혐오감 점수가 예측되는 단계를 포함하고,
    상기 특성 정보는 색상(Color) 정보, 텍스처(Texture) 정보, 오브젝트 요소(Object composition) 정보, 영역 통계(region statistics) 정보, 스케일 불변 특성 변환(Scale invariant feature transform, SIFT) 정보, 기울기 방향성 히스토그램(Histogram of oriented Gradient, HoG) 정보, GIST 정보, 및 계층 특성(Layered feature) 정보 중 적어도 하나를 포함하며,
    상기 (b) 단계는
    (b1) 상기 색상 정보로 CIELab, HSV 및 RGB 색공간의 각 채널로부터 16개의 빈(Bin)의 표준 색상 히스트그램 특성이 추출되는 단계와;
    (b2) 상기 텍스처 정보로 웨이브렛-기반 텍스톤(Wavelet-based texton)을 이용하여 텍스처-연관 특성이 추출되는 단계와;
    (b3) 상기 혐오감 야기 이미지의 오브젝트 마스카와 3분할 법칙의 각 교차점 간의 유클리디언 거리(Euclidean distance)가 측정되어 상기 오브젝트 요소로 인코딩되는 단계와;
    (b4) 상기 영역 통계 정보로 기 설정된 기준 점수보다 큰 혐오감 점수를 갖는 영역 마스크의 개수와, 상기 기준 점수보다 큰 혐오감 점수를 갖는 영역 마스크들의 평균 혐오감 점수가 추출되는 단계와;
    (b5) 맥스 풀링 레이어(Max pooling layer)를 제거한 AlexNet과, 전단의 2개의 맥스 풀링 레이어만을 갖는 VGG16가 ImageNet에서 훈련되어 상기 계층 특성 정보가 추출되는 단계를 포함하는 것을 특징으로 하는 이미지의 혐오감을 예측하는 방법.
  2. 제1항에 있어서,
    상기 (a) 단계에서 상기 카테고리는 유혈(Bloody) 카테고리, 벌레(Bug) 카테고리, 환공포증(Trypophobia) 카테고리 및 끔찍함(Nasty) 카테고리를 포함하는 것을 특징으로 하는 이미지의 혐오감을 예측하는 방법.
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 (c) 단계에서 상기 특성 기반 학습 모델은 멀티-클래스 SVM(Multi-class SVM)을 포함하는 것을 특징으로 하는 이미지의 혐오감을 예측하는 방법.
  6. 제1항에 있어서,
    상기 컨벌루션 큐브는 기 설정된 사이즈를 가지며;
    상기 (d) 단계에서는
    상기 컨벌루션 큐브의 사이즈보다 큰 사이즈의 상기 특성 기반 학습 모델의 컨벌루션 레이어에 맥스 풀링 레이어가 적용되어 상기 컨벌루션 레이어의 출력으로부터 서브 샘플링이 생성되고, 상기 컨벌루션 큐브의 사이즈보다 작은 사이즈의 상기 특성 기반 학습 모델이 컨벌루션 레이어에 디컨볼루션 레이어가 적용되어 업샘플링되어 상기 컨벌루션 큐브를 구성하는 컨벌루션 레이어가 생성되는 것을 특징으로 하는 이미지의 혐오감을 예측하는 방법.
  7. 제6항에 있어서,
    상기 특성 기반 학습 모델의 컨벌루션 레이어들의 출력은 LRN(Local Response Normalization)에 의해 정규화되어 상기 컨벌루션 큐브를 구성하는 컨벌루션 레이어로 제공되는 것을 특징으로 하는 이미지의 혐오감을 예측하는 방법.
KR1020170084928A 2017-07-04 2017-07-04 이미지의 혐오감을 예측하는 방법 KR101916596B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170084928A KR101916596B1 (ko) 2017-07-04 2017-07-04 이미지의 혐오감을 예측하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170084928A KR101916596B1 (ko) 2017-07-04 2017-07-04 이미지의 혐오감을 예측하는 방법

Publications (1)

Publication Number Publication Date
KR101916596B1 true KR101916596B1 (ko) 2019-01-30

Family

ID=65277170

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170084928A KR101916596B1 (ko) 2017-07-04 2017-07-04 이미지의 혐오감을 예측하는 방법

Country Status (1)

Country Link
KR (1) KR101916596B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102047977B1 (ko) * 2019-08-21 2019-11-22 주식회사 인포웍스 심층 신경망 알고리즘 기반 eo/ir 영상 융합 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704736B1 (ko) * 2015-04-13 2017-02-08 연세대학교 산학협력단 다단계의 부분 분류기를 이용한 서포트 벡터 머신 기반 데이터 분류 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101704736B1 (ko) * 2015-04-13 2017-02-08 연세대학교 산학협력단 다단계의 부분 분류기를 이용한 서포트 벡터 머신 기반 데이터 분류 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Song-Lu Chen 외 3인, "Bloody Image Classification with Global and Local Features", Chinese Conference on Pattern Recognition CCPR 2016: Pattern Recognition pp 379-391.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102047977B1 (ko) * 2019-08-21 2019-11-22 주식회사 인포웍스 심층 신경망 알고리즘 기반 eo/ir 영상 융합 시스템 및 방법

Similar Documents

Publication Publication Date Title
Wang et al. Deep neural networks are more accurate than humans at detecting sexual orientation from facial images.
Khalil et al. Investigating bias in facial analysis systems: A systematic review
Han et al. Two-stage learning to predict human eye fixations via SDAEs
KR20190030151A (ko) 영상 분석 방법, 장치 및 컴퓨터 프로그램
Qin et al. Modern physiognomy: an investigation on predicting personality traits and intelligence from the human face
Bhavana et al. Hand sign recognition using CNN
Brachmann et al. Using CNN features to better understand what makes visual artworks special
CN108256527A (zh) 一种基于端到端全卷积网络的皮肤病变多类语义分割方法
Wei et al. How smart does your profile image look? Estimating intelligence from social network profile images
Morgenstern et al. An image-computable model of human visual shape similarity
Hornsby et al. Improved classification of mammograms following idealized training
Kanawong et al. Tongue image analysis and its mobile app development for health diagnosis
Vengatesan et al. Face recognition of identical twins based on support vector machine classifier
WO2021114818A1 (zh) 基于傅里叶变换的oct图像质量评估方法、系统及装置
Schiller et al. Relevance-based data masking: a model-agnostic transfer learning approach for facial expression recognition
Feng et al. IC9600: a benchmark dataset for automatic image complexity assessment
Messadi et al. Extraction of specific parameters for skin tumour classification
Park et al. Consensus analysis and modeling of visual aesthetic perception
Vamsi et al. Early Detection of Hemorrhagic Stroke Using a Lightweight Deep Learning Neural Network Model.
Zhang et al. Critical element prediction of tracheal intubation difficulty: Automatic Mallampati classification by jointly using handcrafted and attention-based deep features
KR101916596B1 (ko) 이미지의 혐오감을 예측하는 방법
Park et al. Human, Do You Think This Painting is the Work of a Real Artist?
Li et al. Saliency consistency-based image re-colorization for color blindness
Le et al. Image aesthetic assessment based on image classification and region segmentation
Lu et al. Human EEG and artificial neural networks reveal disentangled representations of object real-world size in natural images