KR101219469B1 - 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법 - Google Patents

멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법 Download PDF

Info

Publication number
KR101219469B1
KR101219469B1 KR1020110028333A KR20110028333A KR101219469B1 KR 101219469 B1 KR101219469 B1 KR 101219469B1 KR 1020110028333 A KR1020110028333 A KR 1020110028333A KR 20110028333 A KR20110028333 A KR 20110028333A KR 101219469 B1 KR101219469 B1 KR 101219469B1
Authority
KR
South Korea
Prior art keywords
classifier
feature
weak
classifiers
category
Prior art date
Application number
KR1020110028333A
Other languages
English (en)
Other versions
KR20120110460A (ko
Inventor
이바도
석호식
장병탁
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020110028333A priority Critical patent/KR101219469B1/ko
Publication of KR20120110460A publication Critical patent/KR20120110460A/ko
Application granted granted Critical
Publication of KR101219469B1 publication Critical patent/KR101219469B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법에 관한 것으로 특정한 특징 개수로 평활화되고 이진 코드화된 멀티모달 학습 데이터 세트를 준비하는 단계; 카테고리 별로 각각의 특징에 대하여 가중치 계산 모듈을 사용하여 상기 특징 개수 범위 내의 일정 개수로 초기의 약한 분류기 집합을 준비하는 단계; 상기 약한 분류기 중에 정해진 방식으로 선택된 분류기를 2개 결합하여 가중치 계산 모듈을 사용하여 가중치를 계산하고 이를 진화 연산 방식으로 반복하여 상기 일정 개수 내의 완성된 약한 분류기 집합을 획득하는 단계; 상기의 특정한 특징 개수로 평활화디고 이진 코드화된 멀티모달 시험 데이터 세트를 준비하는 단계; 및 상기 완성된 약한 분류기 집합과 상기 이진 코드화된 멀티모달 시험 데이터 세트와 매칭하고 가중치를 합산하여 합산 가중치가 가장 높은 카테고리로 결정하는 단계를 포함하는 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법을 제공한다.
본 발명의 분류 방법은 최초의 특징 집합의 제약이 없이 유연하면서도 반복 과정 중에 유익한 특징의 결합블록은 유지되어 효율이 높고 결함이 낮은 분류 방법을 제공한다.

Description

멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법{Methods for Multimodal Learning and Classification of Multimedia Contents}
본 발명은 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법에 관한 것이다. 특히, 본 발명은 컨텐츠에 기반한 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법에 관한 것이다.
멀티모달 환경에서 데이터에 포함된 개념의 학습은 컴퓨터 비전, 자연어 처리와 로보트 분야를 포함한 인공지능 분야와 인지과학 분야에서 매우 중요하다.
또한, 멀티미디어 컨텐츠의 개념 또는 의미의 학습에 의하여 얻어진 분류 시스템은 멀티미디어 컨텐츠 서비스 시장에서 컨텐츠 기반의, 또는 사용자 평가와 같은 태그와 컨텐츠 동반의 추천 시스템에 광범위하게 적용될 수 있다.
한국특허공개 10-2006-91063호에는 음악 컨텐츠를 분류함에 있어 컨텐츠의 음색, 리듬 또는 무드 등의 특징요소 값을 양자화하여 이 값을 토대로 음악 컨텐츠를 분류하는 방법이 기재되어 있다. 컨텐츠 베이스이긴 하나 고정된 룰에 의하여 최적의 분류 모델을 찾는 것이 쉽지 않다.
한국특허등록 10-845230호에는 이미지 컨텐츠를 분류함에 있어 진화 알고리즘을 사용하고 평가 이미지 분류에 기초하여 이미지 프로세싱 파라미터, 패턴 매칭 파라미터 또는 분류 파라미터를 진화 알고리즘이 결정하는 분류 시스템이 개시 되어 있다.
미국특허 제 7296285호에는 멀티미디어 컨텐츠에 대한 사용자의 멀티미디어에 대한 단일 아이템 선호 정보와 이를 결합한 복수 아이템 선호 정보로 이루어지는 사용자 요청에 기반한 멀티미디어 정보 데이터 구조를 개시한다.
미국특허 제7430324호에는 네이비게이션 시스템에 사용될 수 있는 멀티모달 연결 인터프리테이션 장치를 제공한다. 한 턴 내에서 개별모드 인터프리터의 결과에 상황, 신뢰도와 내용 점수를 배정하여 멀티모달 데이터를 해석하여 사용자의 명령을 네이비게이터에 정확하게 전달하고자 하는 장치이다.
미국특허공개 제2006/0143254호에는 텍스트 서치 엔진에서 사용되는 머신러닝 분류기에 대하여 개시하고 있다.
이상과 같이 종래기술은 멀티모달 데이터에 대하여 단일모드나 단일 프로세싱에 미리 정해진 모델에 따라 점수를 배정하여 분류하는 기술을 개시하고 있다. 또한, 멀티모달 환경에서 전적으로 컨텐츠를 기반으로 하여 데이터를 분류하는 방법은 잘 시도되지 않고 있다.
본 발명은 멀티미디어 컨텐츠에 대하여 머신런닝 방법으로 유연하고 성공도가 높은 분류방법을 제공하기 위한 것이다.
본 발명에 의하여, 특정한 특징 개수로 평활화되고 이진 코드화된 멀티모달 학습 데이터 세트를 준비하는 단계; 카테고리 별로 각각의 특징에 대하여 가중치 계산 모듈을 사용하여 상기 특징 개수 범위 내의 일정 개수로 정해진 방식에 의하여 선택된 초기의 약한 분류기 집합을 준비하는 단계; 상기 약한 분류기 중에 정해진 방식으로 선택된 분류기를 2개 결합하여 가중치 계산 모듈을 사용하여 가중치를 계산하고 이를 진화 연산 방식으로 반복하여 상기 일정 개수 내의 완성된 약한 분류기 집합을 획득하는 단계; 상기의 특정한 특징 개수로 평활화되고 이진 코드화된 멀티모달 시험 데이터 세트를 준비하는 단계; 및 상기 완성된 약한 분류기 집합과 상기 이진 코드화된 멀티모달 시험 데이터 세트와 매칭하고 가중치를 합산하여 합산 가중치가 가장 높은 카테고리로 결정하는 단계를 포함하는 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법이 제공된다.
본 발명에서 약한 분류기라고 함은 단일의 해당 카테고리의 특징 요소만을 갖는 분류기로 해당 카테고리 매칭 점수만을 표시할 뿐 완전한 카테고리 분류 능력이 없는 분류기를 말한다.
본 발명에서 초기의 약한 분류기 집합은, 바람직하게는, 가중치 순위를 기준으로 선택된다. 본 발명에서 진화연산 방식으로 유지되는 약한 분류기 집합 즉 중간의 약한 분류기 집합의 진화연산을 위해 결합되는 2개의 분류기는, 바람직하게는, 가중치 순위를 기준으로 선택되거나, 가장 바람직하게는, 가중치 비율에 따라 룰렛 휠 방식으로 선택된다.
초기 약한 분류기 집합 또는 진화연산 방식으로 유지되는 약한 분류기 집합, 즉 중간의 약한 분류기 집합의 개수는 항상 일정하게 유지되며 상기 완성된 약한 분류기 집합은 최종적인 약한 분류기 집합에서 선정된다. 따라서 상기 완성된 약한 분류기의 개수는 초기 약한 분류기 집합 내 또는 진화연산 방식으로 유지되는 약한 분류기 집합 내의 개수보다 작다. 초기 또는 중간, 즉 진화연산 방식에서 유지되는 약한 분류기의 개수는 완성된 약한 분류기 집합의 1.5배수 이상 가장, 바람직하게는, 대략 1.5 내지 3배수이다.
상기 멀티미디어 컨텐츠 데이터는, 예를 들면, 이미지, 사운드, 동영상 또는 텍스트로 이루어지는 컨텐츠 군에서 선택되는 2종 이상이 서로 결합된 것이다.
상기 가중치 계산 모듈은, 바람직하게는, 크로스 엔트로피 계산 모듈 또는 TF-idf 계산 모듈이다.
본 발명의 분류 방법은 카테고리를 상응하는 약한 분류기의 구조에서 특징의 결합이나 길이에 아무런 제한을 두지 않았으므로 유연한 구조적 특성을 가지고 있다. 따라서 진화연산을 진행함에 따라, 최초의 특징 집합의 제약이 없는 완성된 분류기(501)가 얻어지게 된다.
본 발명의 분류 방법은 카테고리에 대응하는 분류기가 가중치를 둔 특징의 세트로 표현된다. 특징의 선택을 성능에 따라 조정함으로써 각 카테고리의 대표성을 조절할 수 있다. 또한, 가중치가 높은 특징은 반복을 통해서도 유지되므로 반복 과정 중에 유익한 특징의 결합블록은 유지되어 효율이 높고 결함이 낮은 분류 방법을 제공한다.
도1은 이미지 데이터와 텍스트 데이터로 이루어지는 이중모드 데이터 세트의 학습형 분류 방식의 블록도
도2는 "비행기" 카테고리에 대한 하나의 이미지-텍스트 데이터 세트와 특징 요소를 보여주는 그림
도3는 본 발명 분류기 학습 모듈의 블록도
도4는 본 발명 인테그레이션 모듈의 블록도
도5는 10개의 카테고리 중 3개의 카테고리에 해당하는 그림들과 그 표현으로 학습을 하기 위한 원 이미지-텍스트 세트와 이진화 코드화된 데이터 세트를 보여주는 개략도
도6은 모든 카테고리에 대한 이진화된 연결된 데이터 세트의 행렬
도7은 본 발명의 인테그레이션 모듈에서 초기 약한 분류기와 결합된 분류기 생성을 보여주는 개략적인 개념도
도8은 시험데이터에 대한 본 발명의 완성된 분류기의 의사결정 과정의 개략적인 개념도
도9는 약한 분류기가 학습과정에서 특출한 분류기 나아가서는 완전한 분류기로 되는 것을 보여주는 개념도.
도10은 분류기 학습 모듈(40)에서 반복 진행 구조를 예시하는 그림.
도11은 분류기 학습 모듈(40) 에서 각 세대의 새로 형성된 특징의 비율을 보여주는 그래프
도12는 분류기 학습 모듈(40)에서 특정 차수의 비율 변화 과정을 보여주는 그래프
도13은 분류기 학습 모듈(40)에서 세대 변화에 따른 중요 특징 비율의 변화 그래프
도14는 본 발명의 분류기 학습 모듈(40)에서 "새", "화분"과 "비행기"의 카테고리에 대해서 우세한 특징을 보여주는 그림.
도15는 본 발명의 분류기 학습 모듈(40)에서 각 특징 집합이 시각적 단어만으로 이루어졌을 때 이미지 분류 결과를 보여 주는 그래프
도16은 본 발명의 분류기 학습 모듈(40)에서 각 특징 집합이 텍스트 단어로 만들어질 때 얻어진 분류 결과를 보여 주는 그래프
도17은 각 특징 집합이 시각적 단어와 텍스트 단어로 이루어졌을 때의 이미지 분류 수행을 보여 주는 그래프
이하, 본 발명을 도면에 의하여 상세히 설명한다. 이러한 설명은 본 발명을 예시하여 설명하기 위한 것으로 본 발명의 보호범위를 제한하기 위한 것으로 해석되어서는 아니 된다.
도1은 이미지 데이터와 텍스트 데이터로 이루어지는 이중모드 데이터 세트의 학습형 분류기의 블록도이다. 멀티모달 데이터의 학습형 분류기의 설명을 단순화하기 위하여 이미지와 텍스트로 된 이중모드 데이터 세트를 사용한다. 이미지 데이터(101)와 텍스트 데이터(102)로 이루어진 학습용 데이터 세트(10)를 이미지 데이터는 테이터 전처리 모듈(20)에서 SIFT 와 K-means 알고리즘을 사용하여 특이점 개수를 평활화하고 텍스트 데이터는 테이터 전처리 모듈(20)의 단어사전 생성기(205)에 의하여 코드를 생성하고 이를 결합하여 처리된 이진 코드화된 학습용 이중모드 데이터 세트(30)를 준비한다. 본 발명자들은 파라디 등(A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young, C. Rashtchian, J. Hockenmaier and D. Forsyth, Every picture tells a story: generating sentences from images, Proc. ECCV 2010, pp. 15-29, 2010 )의 데이터 세트에서 문장만을 취하고 이미지는 칼테크 이미지 세트(Caltech 101)로 대체하여 이미지-텍스트 데이터 세트를 준비하였다. 이미지를 SIFT 와 K-means 알고리즘을 이용하여 벡터로 변환하였다.
여기서 SIFT 는 디텍터(Detector)와 디스크립터(Descriptor)의 기능을 한다. 디텍터는 특이점을 탐지한다. 디스크립터는 128차수로 구성된 불변 특징을 추출하는 데 사용된다. 각각의 이미지는 서로 다른 개수의 특이점을 보이므로 SIFT 에서 추출된 특이점에 k = 1000으로 하여 K-means 알고리즘으로 처리하여 1000개로 평활화된 특징을 구한다. 각각의 이미지에 관련된 텍스트 데이터는 단어군으로 형성한다. 텍스트에는 "the"와 "an"과 같은 불용어는 제거한다.
데이터 세트의 크기는 표1과 같다.
이미지 텍스트
학습 300 300
시험 300 300
카테고리 개수 10 10

각 카테고리에 대한 이미지-텍스트 데이터 세트는 30개이다. 도2는 "비행기" 카테고리에 대한 하나의 이미지-텍스트 데이터 세트를 보여준다. 도5는 10개 카테고리 중에 "새", "화분"과 "자동차"의 3 개의 카테고리를 선정하고 특히 "새"의 카테고리에 대해서 이미지와 텍스트의 특징 배열을 예시하였다. 멀티모달 실험을 위하여 이미지 데이터 어레이와 텍스트 데이터 어레이를 연결한다. 모든 카테고리에 대한 이진화된 연결된 학습용 데이터 세트의 행렬은 도6과 같다.
도3은 본 발명 분류기 학습 모듈의 구조를 보여 주는 블록도이다. 본 발명의 분류기 학습 모듈(40)은 카테고리 별로 전처리된 학습용 데이터 세트에서 단순 특징에 상응하는 칼럼을 선택하여 약한 분류기 생성 모듈(41)에서 크로스엔트로피 계산 모듈(45)에 의하여 성능을 평가하여 가중치를 계산하고 가중치에 비례하여 20개를 선택하여 약한 분류기 집합(411)을 만든다. 크로스 엔트로피 계산 모듈(45)은 크로스 엔트로피 계산을 통하여 약한 분류기의 성능이 어느 정도인지 수치 즉 가중치로 나타내어 분류 성능을 측정한다.
도4에 보이는 바와 같이 인테그레이션 모듈(43)에서는 약한 분류기 집합(411)에서 분류기를 가중치 비율에 따라 룰렛 휠 방식에 의하여 2개의 분류기를 선택하고 이를 조합하여 결합된 분류기를 만들고 크로스엔트로피 계산모듈(45)에 의하여 성능을 다시 평가한다. 성능이 떨어지면 제거하고 성능이 높아지면 약한 분류기 집합(411)에 추가한다. 본 발명의 분류기 학습 모듈(40)에 의하여 학습이 완료된 분류기 20개에서 가중치가 높은 상위 10개의 완성된 분류기(501)를 얻는다.
한편, 이미지 데이터(701)와 텍스트 데이터(702)로 이루어지는 분류 대상 데이터 세트(70)는 학습 데이터와 동일한 방식으로 SIFT 와 K-means 알고리즘을 사용하여 특이점 개수를 평활화하고 텍스트 데이터는 단어사전 생성기(805)에 의하여 코드를 생성하고 이들을 결합하여 처리된 이진 코드화된 이중모드 분류 대상 데이터 세트(90)를 준비한다. 이를 학습 완료된 분류기(501)를 갖는 분류기 모듈(50)에서 처리하면 분류된 새로운 테이터 베이스(60)가 얻어진다.
최초 즉 약한 분류기 집합(411)은 단순 특징의 데이터 세트의 집합이다. 본 발명의 분류기 학습 모듈(40)에서는 하기의 알고리즘 1으로 진화 학습을 수행한다. 제안된 조합 오프레이터를 사용하여 진화 학습의 결과 높은 차수의 새로운 특징이 출현된다. 이 특징들, 또는 특징들의 세트는 분류기로 바로 사용될 수 있다. 이러한 분류기는 종래의 진화연산의 맥락에서는 크롬좀에 상당한다.
알고리즘 1
Figure 112012061080721-pat00022

초기화 : 초기 분포 P0에 따른 N 초기 단순 특징(약한 분류기)을 가져온다.(단순 특징의 중복은 허용하지 않는다.)
while !Termination condition do
Evaluation: evaluate H on a fitness function F
Discarding: Discard Hyperdeges with lower F value
Generation: hnew = com(hparent1 ; hparent2 )
Selection probability:
Figure 112012061080721-pat00023

end while
Figure 112012061080721-pat00024

where,
Figure 112012061080721-pat00025

hαβ = α'th chromsomes with class labelβ
δβ = cl dimensional vector with βth element is 1,
other elements are 0
δ는 이상적 분류기이다. 상기 알고리즘은 분류기의 결합에 의하여 이상적 분류기를 찾고자 하는 것이다. 위의 알고리즘에서 x는 전처리가 완료된 후의 데이터를 의미한다. 이는 도3의 이진 코드화된 학습 데이터 세트(30) 또는 이진 코드화된 시험 데이터 세트(90)에 상당한다.
특징들의 집합은 약한 분류기의 다른 이름이다. 도3의 크로스 엔트로피 계산 모듈의 식은 알고리즘의 w식에 정의되어 있다. 이는 도7 에서 계산되어진 특징들의 가중치와도 같다. 우선 가중치를 계산하는데, 이때는 카테고리 별로 1차수(하나의 특징만 봄) 짜리만 계산을 하여서 초기 20개의 약한 분류기 집합(411)을 구성한다. 상위의 가중치를 가지는 분류기 중에 2개를 가중치에 비례하여 룰렛 휠 방식으로 선택하여 이어 붙인 후 가중치를 계산한다. 크로스엔트로피는 약한 분류기와 이상적인 분류기와의 크로스엔트로피 계산을 통하여 얻어진다. 여기서 이상적인 분류기라고 함은(알고리즘의ideal classifier) 상응하는 특징만 판별할 경우 100% 확실하게 분류가 가능한 분류기(또는 특징)를 뜻한다. 완전한 분류기의 개념을 도9에 도시하였다. 알고리즘에서는 가중치로서 크로스엔트로피의 역수를 사용하여(비슷한 두 분포의 크로스 엔트로피 값이 더 낮은 값을 가지게 되므로), 더 좋은 약한 분류기가 더 높은 가중치의 값을 가지도록 설정한다.
도10은 분류기 학습 모듈(40)에서 반복 진행 구조를 보여준다. 초기의 특징 집합은 데이터 분포(도10 (a))에 보는 바와 같이 미리 계산된 가중치를 갖는 낮은 차수의 특징을 보여준다. 기존 특징을 결합하고 가중치를 매 반복마다 계산함으로써 높은 차수의 특징이 형성된다. 이를 도7에 개략적으로 설명한다. 완성된 분류기는 20개의 최종 약한 분류기에서 가중치 순위에 따라 10개를 선정하여 완성된 분류기 집합을 형성한다. 도8은 시험데이터에 대한 본 발명의 완성된 분류기에 이진화된 시험 데이터 세트가 들어왔을 경우에 투표를 통하여 카테고리를 결정함을 보여준다. 카테고리 1 이 가장 큰 값의 가중치를 가지므로 시험 테이터를 카테고리 1 로 간주한다.
여기서 "약한" 분류기라고 함은 개별 카테고리에 대한 특징만을 가지고 있으므로 그 카테고리에 대한 가중치만을 가져 카테고리를 분류할 수 있는 능력이 없기 때문이다. 실제 데이터의 카테고리에 대한 의사 결정을 할 때 단일 분류기가 데이터의 카테고리를 결정짓는 것이 아니라, 도8에서와 같이 다수의 분류기가 투표를 통한 의사결정을 하기 때문에 약한 분류기라고 부른다. 결과적으로 집합의 다양성이 증가한다. 각각의 모달리티 비율이나 각각의 특징의 차수는 한정되지 않는다. 이러한 방법은 새로운 특징 결합을 생성함으로써 최고의 약한 분류기 집합을 찾는다. 반복의 후반 단계에서 특출한 특징 (특징 (h2 )) 즉 분류기와 덜 특출한 특징(h, h3) 즉 분류기가 생성된다. 새로운 이미지가 텍스트 정보와 함께 주어지면 제안된 방법은 얻어진 특징으로 질의에 대하여 이미지 정보와 텍스트 정보를 사용하여 인식한다.
도11은 분류기 학습 모듈(40) 에서 각 세대의 새로 형성된 특징의 비율을 보여 준다. 초기 단계에서는 특징 집합은 이종 특징으로 이루어져 있다. 그러나, 새로 형성된 특징의 비율은 급속도로 축소되고 집합의 조성은 20 세대 후에는 안정화된다. 이러한 행태는 도15, 16과 17의 이미지 분류 결과와 일치한다. 비교적 적은 반복 범위에서는 중요한 패턴을 나타내는 특징은 충분한 가중치를 얻는다. 여기서 진화연산의 다양성 연산자의 측정 척도로써 크로스엔트로피 값을 사용하기 때문에 학습을 반복할 수록 크로스 엔트로피의 값이 높은 약한 분류기들이 전체 분류기 집합에 많이 남게 된다.
도12는 분류기 학습 모듈(40)에서 특징 차수를 보여준다. 0세대에는 단지 1차 특징만 존재한다. 그러나, 세대가 진행될수록 2차 3차의 비율이 급격히 증가하고 1차의 비율은 줄어든다. 저차원의 특징이 우세한 것은 구체적인 특징 없이도 주어진 카테고리를 위한 분류기가 설명될 수 있음을 보여 준다.
도13은 분류기 학습 모듈(40)에서 학습이 완료되었을 때의 약한 분류기들을 기준으로, 학습이 진행될 때, 어떤 비율로 이들 약한 분류기들이 나타나는지 그 정도를 나타내준다. 도13의 비율은 각 세대에서 최종 솔루션을 구성하는 중요 특징의 비율로 계산된다. 도13의 경향은 도15, 16과 17에도 보인다. 비율이 50%이상이면, 이미지 분류기의 수행능력은 안정화된다. 본 발명의 방법은 특징의 분포를 바꾸어 다양성을 도입하였기 때문에 각 솔루션의 결합 블록을 유지하면서 만족할 만한 솔루션을 얻을 수 있다.
도14는 본 발명의 분류기 학습 모듈(40)에서 "새", "화분"과 "비행기"의 카테고리에 대해서 우세한 특징을 보여준다. 파라디 등(Farhadi et al )의 데이터 세트에서 센텐스는 주어진 이미지를 설명하기 위하여 사용되므로 이러한 문장은 매우 이종적이다. 예를 들면, Focke-Wulf 190을 설명하기 위하여 "A D-ERFW-6 in flight", "An army green plane flying in the sky", "An old fighter plane flying with German military markings"와 "A WWII fighter plane with its landing gear down"가 사용된다. 비행기의 개념을 위해서 최종 특징은 "airplane", "white", "passenger"와 "runway"와 같은 단어들을 포함한다. 새의 개념으로는 최종 집합은 "bird", "water", "perched"와 "beak"와 같은 단어들을 포함한다. 이러한 단어들은 각 카테고리에 대하여 일반적인 것이다. 다른 카테고리들도 진화된 특징 집합이 이종적 문장에도 불구하고 일반적인 단어들로 구성된다. 이러한 것이 도17에서 좋은 이미지 분류 수행능력을 일반적으로 설명한다.
도15는 본 발명의 분류기 학습 모듈(40)에서 각 특징 집합이 시각적 단어만으로 이루어졌을 때 이미지 분류 결과를 보여 준다. 도16은 본 발명의 분류기 학습 모듈(40)에서 각 특징 집합이 텍스트 단어로 만들어질 때 얻어진 것이다. 도17은 각 특징 집합이 시각적 단어와 텍스트 단어로 이루어졌을 때의 이미지 분류 수행을 보여 준다. 이미지 데이터를 예비 처리 했음에도 불구하고 카테고리를 표시하는 유익한 비쥬얼 워드를 얻는 것은 어렵다. 따라서, 도15의 시험 수행은 매우 불량하다. 텍스트 데이터의 이종성에 관하여 텍스트 단어에 기반한 분류 결과는 상대적으로 좋지 않았다. 도17은 멀티모달 데이터가 이미지 분류에는 도15와 도16과 비교하면 휠씬 기여도가 높음이 명백함을 보여 준다. 또한, 추가적 텍스트 정보를 통합함으로써 이미지 분류 수행을 더 개선할 수 있다.

Claims (7)

  1. 삭제
  2. 삭제
  3. 특징 개수로 평활화 된 이진 코드화된 멀티모달 학습 데이터 세트를 준비하는 단계; 카테고리 별로 각각의 특징에 대하여 가중치 계산 모듈을 사용하여 가중치 순위를 기준으로 상기 특징 개수 범위 내의 일정 개수로 초기의 약한 분류기 집합을 준비하는 단계; 상기 약한 분류기 중에 룰렛 휠 방식으로 선택된 분류기를 2개 결합하여 가중치 계산 모듈을 사용하여 가중치를 계산하고 가중치 순위로 중간 약한 분류기 집합을 획득하고 이를 반복하여 상기 일정 개수 보다 작은 완성된 약한 분류기 집합을 획득하는 단계; 상기의 특정한 특징 개수로 평활화 된 이진 코드화된 멀티모달 시험 데이터 세트를 준비하는 단계; 및 상기 완성된 약한 분류기 집합과 상기 이진 코드화된 멀티모달 시험 데이터 세트와 매칭하고 가중치를 합산하여 합산 가중치가 가장 높은 카테고리로 결정하는 단계를 포함하는 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법
  4. 제3항에 있어서, 상기 초기 또는 중간 약한 분류기의 개수는 완성된 약한 분류기 집합의 1.5배수 이상인 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법
  5. 제4항에 있어서, 상기 초기 또는 중간 약한 분류기의 개수는 완성된 약한 분류기 집합의 1.5 내지 3배수인 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법
  6. 제5항에 있어서, 상기 멀티미디어 컨텐츠는 이미지, 사운드, 동영상과 텍스트로 이루어지는 컨텐츠 군에서 선택되는 2종 이상의 컨텐츠로 이루어지는 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법
  7. 제1항에 있어서, 상기 가중치 계산 모듈은 크로스 엔트로피 계산 모듈 또는 TF-idf 계산 모듈인 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법
KR1020110028333A 2011-03-29 2011-03-29 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법 KR101219469B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110028333A KR101219469B1 (ko) 2011-03-29 2011-03-29 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110028333A KR101219469B1 (ko) 2011-03-29 2011-03-29 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법

Publications (2)

Publication Number Publication Date
KR20120110460A KR20120110460A (ko) 2012-10-10
KR101219469B1 true KR101219469B1 (ko) 2013-01-11

Family

ID=47281280

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110028333A KR101219469B1 (ko) 2011-03-29 2011-03-29 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법

Country Status (1)

Country Link
KR (1) KR101219469B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651214B2 (en) 2017-11-17 2023-05-16 Samsung Electronics Co., Ltd. Multimodal data learning method and device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657272B (zh) * 2021-08-17 2022-06-28 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100785928B1 (ko) 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
KR20090090613A (ko) * 2008-02-21 2009-08-26 주식회사 케이티 멀티모달 대화형 이미지 관리 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100785928B1 (ko) 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
KR20090090613A (ko) * 2008-02-21 2009-08-26 주식회사 케이티 멀티모달 대화형 이미지 관리 시스템 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
석호식 외 2인, ‘단어 간 관계 패턴 학습을 통한 하이퍼네트워크 기반 자연 언어 문장 생성,’ 정보과학회논문지, vol. 37, no. 3, pp. 205-213, 2010.03.31.
석호식 외 2인, '단어 간 관계 패턴 학습을 통한 하이퍼네트워크 기반 자연 언어 문장 생성,' 정보과학회논문지, vol. 37, no. 3, pp. 205-213, 2010.03.31. *
하정우 외 3인, ‘잡지기사 관련 상품 연계 추천 서비스를 위한 하이퍼네트워크 기반의 상품이미지 자동 태깅 방법,’ 정보과학회논문지, vol. 16, no. 10, pp. 1010-1014, 2010.10.31.
하정우 외 3인, '잡지기사 관련 상품 연계 추천 서비스를 위한 하이퍼네트워크 기반의 상품이미지 자동 태깅 방법,' 정보과학회논문지, vol. 16, no. 10, pp. 1010-1014, 2010.10.31. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651214B2 (en) 2017-11-17 2023-05-16 Samsung Electronics Co., Ltd. Multimodal data learning method and device

Also Published As

Publication number Publication date
KR20120110460A (ko) 2012-10-10

Similar Documents

Publication Publication Date Title
Lu et al. Neural baby talk
US10558885B2 (en) Determination method and recording medium
CN108985377B (zh) 一种基于深层网络的多特征融合的图像高级语义识别方法
Coates et al. The importance of encoding versus training with sparse coding and vector quantization
CN109299342A (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN101447020B (zh) 基于直觉模糊的色情图像识别方法
CN106570521B (zh) 多语言场景字符识别方法及识别系统
CN111353542A (zh) 图像分类模型的训练方法、装置、计算机设备和存储介质
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
Puigcerver et al. ICDAR2015 competition on keyword spotting for handwritten documents
Cloppet et al. ICFHR2016 competition on the classification of medieval handwritings in latin script
CN108491864B (zh) 基于自动确定卷积核大小卷积神经网络的高光谱图像分类
CN108062421A (zh) 一种大规模图片多尺度语义检索方法
CN104318271B (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
CN109145944B (zh) 一种基于纵向三维图像深度学习特征的分类方法
CN110569780A (zh) 一种基于深度迁移学习的高精度人脸识别方法
CN108427745A (zh) 基于优化的视觉词典与自适应软分配的图像检索方法
CN106126668B (zh) 一种基于哈希重建的图像特征点匹配方法
CN110825850A (zh) 一种自然语言主题分类方法及装置
CN113191445A (zh) 基于自监督对抗哈希算法的大规模图像检索方法
KR101219469B1 (ko) 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법
CN115827995A (zh) 基于大数据分析的社交匹配方法
CN108229505A (zh) 基于fisher多级字典学习的图像分类方法
CN111797705A (zh) 一种基于人物关系建模的动作识别方法
CN106909536B (zh) 一种基于异构信息的评分推荐方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151224

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161230

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171204

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 7