KR101638114B1 - 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법 - Google Patents

근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법 Download PDF

Info

Publication number
KR101638114B1
KR101638114B1 KR1020150167463A KR20150167463A KR101638114B1 KR 101638114 B1 KR101638114 B1 KR 101638114B1 KR 1020150167463 A KR1020150167463 A KR 1020150167463A KR 20150167463 A KR20150167463 A KR 20150167463A KR 101638114 B1 KR101638114 B1 KR 101638114B1
Authority
KR
South Korea
Prior art keywords
features
feature
label
data
low
Prior art date
Application number
KR1020150167463A
Other languages
English (en)
Inventor
김대원
임현기
이재성
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020150167463A priority Critical patent/KR101638114B1/ko
Application granted granted Critical
Publication of KR101638114B1 publication Critical patent/KR101638114B1/ko

Links

Images

Classifications

    • G06F17/30324
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • G06F17/175Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method of multidimensional data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 레이블과의 연관성이 높은 특징만을 선택하여, 특징과 특징 사이의 연관성을 근사하여 다중레이블의 특징 선별의 가속화 장치 및 방법을 제공하기 위한 것으로서, 복수의 정보를 포함하는 매체로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부와, 상기 데이터 입력부로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부와, 상기 다중 레이블 추출부에서 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 연관성 측정부와, 상기 연관성 측정부에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부를 포함하여 구성되는데 있다.

Description

근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법{Apparatus and method for accelerating multi-label feature selection based on low-rank approximation}
본 발명은 다양한 매체(이미지, 동영상, 음악 등)의 검색 방법에 관한 것으로, 특히 레이블과의 연관성이 높은 특징만을 선택하여, 특징과 특징 사이의 연관성을 근사하여 다중레이블의 특징 선별의 가속화 장치 및 방법에 관한 것이다.
최근 많은 응용에서 다중 레이블 데이터가 발생하고 있다. 하지만 이 데이터는 기존 기계 학습, 데이터 마이닝 분야의 방법 적용이 어렵다. 그 이유는 크게 두 가지로 기존 방법들이 단일 레이블 데이터에 초점을 맞추고 있다는 것과 다중 레이블 데이터의 특성을 반영하지 못하고 있다는 것이다.
대부분의 특정 선별 기법은 단일 레이블 데이터에 초점을 맞추고 있기 때문에 다중 레이블 데이터에는 기존 특징 선별 기법들을 적용할 수 없다.
또한, 다중 레이블 데이터에 특징 선형 기법을 적용하기 위해서 다중 레이블 데이터를 단일 레이블 데이터로 전환하는 방법들이 사용된다. 이에 따라 다중 레이블 데이터의 특징 선형 기법은 텍스트 분류(text categorization), 이미지 주석(image annotation), 음향 정보(acoustic information), 정정 분석(sentiment analysis) 등의 기법들이 다수 적용되어 사용되고 있다.
따라서 다수의 레이블을 위한 특징 선별 시에 특징의 개수가 많아짐에 따라 특징 선별을 위한 시간 소요가 큰 문제점이 있다. 또한 레이블 변환은 데이터 고유의 특성을 반영하지 못하고 정보 손실을 가져올 수 있음에 따라, 다수의 특징 선형 기법을 적용함에 따라 많은 문제점이 발생되게 된다.
등록특허공보 제10-1318923호 (등록일자 2013.10.10)
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 레이블과의 연관성이 높은 특징만을 선택하여, 특징과 특징 사이의 연관성을 근사하여 다중레이블의 특징 선별의 가속화 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치의 특징은 복수의 정보를 포함하는 매체로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부와, 상기 데이터 입력부로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부와, 상기 다중 레이블 추출부에서 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 연관성 측정부와, 상기 연관성 측정부에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부를 포함하여 구성되는데 있다.
바람직하게 상기 연관성 측정부는 수식
Figure 112015116130541-pat00001
을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며, 이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것을 특징으로 한다.
바람직하게 상기 연관성 측정부는 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개 만큼의 특징들로 분석하고, 나머지 계산하지 않은 부분들은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 방법의 특징은 (A) 입력되는 복수의 정보를 포함하는 원본 자료 데이터로부터 다중 레이블 추출부를 통해 각각의 정보별로 데이터의 특징을 추출하는 단계와, (B) 연관성 측정부를 통해 상기 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 단계와, (C) 특징 벡터 추출부를 통해 상기 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 단계를 포함하여 이루어지는데 있다.
바람직하게 상기 (B) 단계는 수식
Figure 112015116130541-pat00002
을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며, 이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것을 특징으로 한다.
바람직하게 상기 (B) 단계는 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개 만큼의 특징들로 분석하는 단계와, 상기 분석되지 않은 나머지 부분들을 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 로우-랭크 행렬에 의한 근사(low-rank approximation)는 커널 행렬(kernel matrix) 근사에 사용되는 'Nystrom' 방법을 사용하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법은 복잡하고 방대한 다중 레이블 자료에서 정확하게 특징을 추출할 수 있는 모델을 제공할 수 있다.
특히 본 발명에 의하면 레이블과 연관성이 높은 특징들을 통해 다중 레이블 특징을 선별함에 따라 특징과 특징 사이의 연관성 계산 소요 시간을 대폭 줄일 수 있어 다중 레이블 특징을 선별하는 속도를 높일 수 있다.
그리고 특징들 사이의 연관성을 빠르게 계산하기 때문에 대용량 데이터에 대해서도 적용 가능하며, 일정 수준 이상의 특징 선별 정확도도 기대할 수 있다.
도 1 은 본 발명의 실시예에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치를 나타내는 블록도
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1 은 본 발명의 실시예에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치를 나타내는 블록도이다.
도 1에서 도시하고 있는 것과 같이, 복수의 정보를 포함하는 다양한 매체(이미지, 동영상, 음악 등)로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부(100)와, 상기 데이터 입력부(100)로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부(200)와, 상기 다중 레이블 추출부(200)에서 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 연관성 측정부(300)와, 상기 연관성 측정부(300)에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부(400)로 구성된다.
이때, 상기 연관성 측정부(300)는 특징과 특징 사이의 연관성을 분석하기 때문에, 어떤 특징을 선택할 것인지에 따라 근사의 에러, 특징 선별의 정확도에 영향을 준다.
따라서 상기 연관성 측정부(300)는 특징 선택을 위해서 레이블과 연관성이 높은 특징들이 그렇지 않은 특징에 비해서 선별될 확률이 높을 것이기 때문에 상기 수학식 1을 이용하여 이 부분을 정확히 계산하고, 나머지 특징들은 근사로 계산한다. 이를 통해 특징과 특징 사이의 연관성 계산 소요 시간을 대폭 줄일 수 있다.
Figure 112015116130541-pat00003
이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타낸다. 예로서,
Figure 112015116130541-pat00004
는 i번째 특징과 j번째 특징 사이의 연관성을 의미하며,
Figure 112015116130541-pat00005
는 i번째 특징과 레이블 사이의 연관성을 의미한다.
즉, 상기 연관성 측정부(300)는 특징과 특징 사이의 연관성을 분석하기 위해서 특정 개수
Figure 112015116130541-pat00006
만큼의 시간이 소요된다.
Figure 112015116130541-pat00007
만큼의 모든 특징과 특징 사이이 연관성을 분석하지 않고, 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개의 특징들로 선택된 n개 만큼 분석하고(n<N), 나머지 계산하지 않은 부분들은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사한다. 로우-랭크 행렬에 의한 근사(low-rank approximation)들 중에서 커널 행렬(kernel matrix) 근사에 널리 사용되는 'Nystrom' 방법을 사용한다.
이에 따라, 상기 Q 행렬을 다음 수학식 2와 같이 표현 가능하다.
Figure 112015116130541-pat00008
그리고 상기 수학식 2에서 A, B 부분을 실제 계산하고, E 부분은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사하면, 다음 수학식 3과 같이 나타낼 수 있다.
Figure 112015116130541-pat00009
상기 수학식 3에서 A, B 부분 선택의 기준은
Figure 112015116130541-pat00010
가 큰 순서대로 특징들을 선택한다. 즉, 상기
Figure 112015116130541-pat00011
는 i번째 특징과 레이블 사이의 연관성을 의미하므로 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개의 특징들로 선택된다. 상기 임의의 몇 개는 사용자에 의해 설정되는 개수로서, 변경이 가능하다.
일 실시예로서 설명하면 다음과 같다.
먼저, 벡터 c를 다음 수학식 4와 같다고 가정한다.
Figure 112015116130541-pat00012
상기 수학식 4에서와 같이, 벡터 c는 요소 값에 기초하여 정렬된다.
Figure 112015116130541-pat00013
그러면, 벡터 c의 요소를 통하여 행렬 Q는 재배열되어, 다음 수학식 6에서 타나내고 있는 것과 같이 [AB]는 계산된다.
Figure 112015116130541-pat00014
이때, 수학식 6에서 나타내고 있는 것과 같이 상기 수학식 2에서 행렬 Q 중 E 부분은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사한 것으로, 수학식 3을 적용하면 행렬 Q 중 E 부분은 다음 수학식 7로 근사 될 수 있다.
Figure 112015116130541-pat00015
그리고 특징 벡터 추출부(400)를 통해 상기 연관성 측정부(300)에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성한다.
다음 표 1은 다중 레이블 기능 선택 방법을 Core15k, Delicious, Medical별로 비교한 것으로, 수학적 방법이 아닌 탐색을 통한 PMU 방법, 기존의 MLQPFS 방법 및 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 방법을 통해 발생된 다중 레이블 특징의 선별시간(execution time), 특징 선별 정확도(ML Acc)를 각각 나타내고 있다. 이때, 상기 Core15k는 이미지 태그 데이터이며, 상기 Delicious 및 Medical는 문서분류에서 얻어진 데이터이다.
Figure 112015116130541-pat00016
상기 표 1에서 나타내고 있는 것과 같이, 일정 수준 이상의 특징 선별 정확도를 가지면서도 다중 레이블 특징을 선별하는 속도를 현저히 높일 수 있는 것을 알 수 있다.
이와 같이 구성되는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법에 따른 활용 분야에 대해서 구체적으로 살펴보면 다음과 같다.
첫 번째 예로 문서 분류에 사용할 수 있다.
즉, 문서를 자동 분류하기 위해서 문서에 포함되어 있는 단어들을 분석하여 문서의 범주를 정하게 된다.
텍스트 데이터로 예를 들어보면 다음 표 2에서 나타내고 있는 것과 같이 이런 형태의 데이터가 들어온다.
야구 이적 대통령 ...
문서1 2 2 0
문서2 0 0 1
문서3 1 0 1
...
표 2에서 나타내는 전체 데이터는 행렬 형태로 들어오게 될 것이고, 하나의 행을 문서 1개를, 하나의 열을 단어 1개를 뜻하게 된다.
'야구'라고 하는 특징은 여러 문서들에서 각각 야구라는 단어가 몇 번 있었는지를 표현하는 벡터로서 들어오게 된다. 야구라는 특징과 이적이라는 특징은 이 각 벡터 사이의 공통의 정보(mutual information)라고 하는 연관성 계산식을 통해 얻어지게 된다.
특징을 추출하기 위해서 2가지를 동시에 고려한다.
1) 특징과 레이블 사이의 연관성
2) 특징과 특징 사이의 연관성
상기 1)은 높을수록 좋은 특징이라 여겨진다. 기본적으로 레이블과 연관성이 높은 특징들이 아무래도 레이블 예측에 도음을 줄 것이다.
상기 2)는 낮을수록 좋은 특징으로 여겨진다. 상기 1)만 고려할 경우, 선택되는 특징들이 비슷하다는 문제가 생긴다.
예를 들어 스포츠라는 레이블과 연관성이 높다고 가장 직접적인 야구, 배구, 축구 등의 종복 단어들만 선택이 되기보다는 레이블과 약간 차이가 있더라도 중복되지 않는 선수, 연봉, 월드컵 등의 직접적인 종목 이름들이 아닌 특징들로 추출되는게 성능 향상에 좋은 경우가 많다.
현재 기술에서 로우-랭크 행렬은 상기 2)를 위해서 구성이 된다. 이 행렬은 정방행렬인데, i번째 행과 j번째 열에 i번째 특징과 j번째 특징의 연관성이 계산되어 들어가게 된다. 이 행렬과 곱해져 있는 x값이 상기 2)가 낮을수록, 높은 가중치(weight)를 가지게 되는 방식으로 최적화 과정을 거치게 된다. 이렇게 얻어진 벡터 x가 최종적인 특징의 가중치이고, 높은 값들로 특징들을 선별하게 된다.
이처럼, 어떤 문서에 야구, 이적, 연봉 등의 단어들이 있으면 이 문서는 스포츠 범주로 나뉠 수 있을 것입니다. 이런 범주를 다중 레이블로 볼 수 있고, 단어들이 특징으로 여길 수 있다. 이 기술을 통해 정확한 문서 분류를 위한 단어들을 추출할 수 있다.
두 번째 예로 이미지 주석에 사용할 수 있다.
즉, 페이스북, 인스타그램과 같이 sns에서 많은 사진들이 공유되고 있으며, 포털에서도 이미지 검색이 많이 사용되고 있다.
그 검색에 이미지의 태그 정보들이 이용되고 있으며, 이 이미지의 태그 또한 자동으로 태깅 이미지 검색에 도움을 줄 수 있다. 즉, 하나의 이미지에 여러 개의 태그가 태깅될 수 있고 이는 다중 레이블로 볼 수 있을 것이며, 이미지가 담고 있는 물체나 혹은 색감 등이 특징이 될 수 있다.
따라서 이미지 태깅에 좀 더 유효하게 작용할 수 있는 물체나 색 등을 이 기술을 통해 선별해낼 수 있다.
상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (7)

  1. 복수의 정보를 포함하는 매체로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부와,
    상기 데이터 입력부로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부와,
    상기 다중 레이블 추출부에서 추출된 데이터의 특징을 기반으로 상기 추출되는 데이터를 하나의 범주로 묶을 수 있도록 미리 정의되어 있는 레이블과 연관성이 높은 특징들을 각각 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 상기 레이블과 연관성이 높은 특징들로 선별된 특징들 간의 연관성을 분석하는 연관성 측정부와,
    상기 연관성 측정부에서 분석된 데이터를 기반으로 상기 선별된 특징들 간의 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부를 포함하여 구성되는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치.
  2. 제 1 항에 있어서,
    상기 연관성 측정부는 수식
    Figure 112016036991515-pat00017
    을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며,
    이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것으로, 상기
    Figure 112016036991515-pat00020
    는 선별된 i번째 특징과 j번째 특징 사이의 x번째 연관성을 나타낸 것이고, 상기 Cx는 x번째 특징과 레이블 사이의 연관성을 나타낸 것이며, 또한, 상기 T는 전치 행렬을 나타낸 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치.
  3. 제 1 항에 있어서, 상기 연관성 측정부는
    상기 선별되지 않은 특징들을 다시 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 미리 정의되어 있는 레이블들 중 가장 연관성이 높은 레이블을 검출하기 위해 선별되지 않은 특징들 간의 연관성을 분석하는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치.
  4. (A) 입력되는 복수의 정보를 포함하는 원본 자료 데이터로부터 다중 레이블 추출부를 통해 각각의 정보별로 데이터의 특징을 추출하는 단계와,
    (B) 연관성 측정부를 통해 상기 추출된 데이터의 특징을 기반으로 상기 추출되는 데이터를 하나의 범주로 묶을 수 있도록 미리 정의되어 있는 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 상기 레이블과 연관성이 높은 특징들로 선별된 특징들 간의 연관성을 분석하는 단계와,
    (C) 특징 벡터 추출부를 통해 상기 분석된 데이터를 기반으로 상기 선별된 특징들 간의 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
  5. 제 4 항에 있어서,
    상기 (B) 단계는 수식
    Figure 112016036991515-pat00018
    을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며,
    이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것으로, 상기
    Figure 112016036991515-pat00021
    는 선별된 i번째 특징과 j번째 특징 사이의 x번째 연관성을 나타낸 것이고, 상기 Cx는 x번째 특징과 레이블 사이의 연관성을 나타낸 것이며, 또한, 상기 T는 전치 행렬을 나타낸 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
  6. 제 4 항에 있어서, 상기 (B) 단계는
    선별되지 않은 특징들을 다시 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 미리 정의되어 있는 레이블들 중 가장 연관성이 높은 레이블을 검출하기 위해 선별되지 않은 특징들 간의 연관성을 분석하는 단계를 포함하여 이루어지는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
  7. 제 6 항에 있어서,
    상기 로우-랭크 행렬에 의한 근사(low-rank approximation)는 커널 행렬(kernel matrix) 근사에 사용되는 'Nystrom' 방법을 사용하는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
KR1020150167463A 2015-11-27 2015-11-27 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법 KR101638114B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150167463A KR101638114B1 (ko) 2015-11-27 2015-11-27 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150167463A KR101638114B1 (ko) 2015-11-27 2015-11-27 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101638114B1 true KR101638114B1 (ko) 2016-07-11

Family

ID=56499626

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150167463A KR101638114B1 (ko) 2015-11-27 2015-11-27 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101638114B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102579934B1 (ko) * 2022-11-17 2023-09-21 중앙대학교 산학협력단 다중 인구를 이용한 다중 라벨 특징 선택 방법 및 이의 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130076257A (ko) * 2011-12-28 2013-07-08 포항공과대학교 산학협력단 자료 특징 추출 시스템 및 자료 특징 추출 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130076257A (ko) * 2011-12-28 2013-07-08 포항공과대학교 산학협력단 자료 특징 추출 시스템 및 자료 특징 추출 방법
KR101318923B1 (ko) 2011-12-28 2013-10-17 포항공과대학교 산학협력단 자료 특징 추출 시스템 및 자료 특징 추출 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102579934B1 (ko) * 2022-11-17 2023-09-21 중앙대학교 산학협력단 다중 인구를 이용한 다중 라벨 특징 선택 방법 및 이의 장치

Similar Documents

Publication Publication Date Title
US10521469B2 (en) Image Re-ranking method and apparatus
Wang et al. Joint learning of visual attributes, object classes and visual saliency
CN106339756B (zh) 训练数据的生成方法、搜索方法以及装置
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
CN106687990B (zh) 用于基于渐进式改良从视频序列选择帧的方法
CN110399515B (zh) 图片检索方法、装置及图片检索系统
Cetinic et al. Learning the principles of art history with convolutional neural networks
CN102663015A (zh) 基于特征袋模型和监督学习的视频语义标注方法
Ayache et al. Evaluation of active learning strategies for video indexing
US9081822B2 (en) Discriminative distance weighting for content-based retrieval of digital pathology images
CN112395412B (zh) 文本分类的方法、装置以及计算机可读介质
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN109472017B (zh) 获得待生成裁判文书本院认为段相关信息的方法及装置
Xu et al. Coupled dictionary learning and feature mapping for cross-modal retrieval
US11645478B2 (en) Multi-lingual tagging for digital images
CN109213886B (zh) 基于图像分割和模糊模式识别的图像检索方法及系统
CN111666766A (zh) 数据处理方法、装置和设备
CN111460223A (zh) 基于深度网络的多模态特征融合的短视频单标签分类方法
Srinagesh et al. A modified shape feature extraction technique for image retrieval
KR101638114B1 (ko) 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
CN104021228B (zh) 一种融合对象语义的商标图像匹配方法
CN110377819A (zh) 基于大数据的仲裁员推荐方法、装置和计算机设备
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
Mittal et al. Icon based information retrieval and disease identification in agriculture

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 6