KR20190110385A - 다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템 - Google Patents

다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템 Download PDF

Info

Publication number
KR20190110385A
KR20190110385A KR1020180032290A KR20180032290A KR20190110385A KR 20190110385 A KR20190110385 A KR 20190110385A KR 1020180032290 A KR1020180032290 A KR 1020180032290A KR 20180032290 A KR20180032290 A KR 20180032290A KR 20190110385 A KR20190110385 A KR 20190110385A
Authority
KR
South Korea
Prior art keywords
information
integrated
converting
multiple information
values
Prior art date
Application number
KR1020180032290A
Other languages
English (en)
Other versions
KR102080986B1 (ko
Inventor
이종석
최준호
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020180032290A priority Critical patent/KR102080986B1/ko
Publication of KR20190110385A publication Critical patent/KR20190110385A/ko
Application granted granted Critical
Publication of KR102080986B1 publication Critical patent/KR102080986B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 다중 정보들의 크기 균일화, 다중 정보들의 범위 조정, 다중 정보들에서의 인덱스별 값 선택 등을 순차적으로 이용하여 다중 정보들을 통합하는 장치 및 방법을 제안한다. 또한 본 발명은 다중 정보들을 통합하여 얻은 통합 정보를 기초로 인식 결과를 생성하는 시스템을 제안한다. 본 발명에 따른 장치는 가중치들을 기초로 각각의 모달리티와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 제1 다중 정보 변환부; 범위 조정 함수를 기초로 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 제2 다중 정보 변환부; 및 인덱스별로 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 제1 다중 정보들이 통합된 통합 정보를 생성하는 통합 정보 생성부를 포함한다.

Description

다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템 {Apparatus and method for integrating multiple information, and system for integrating and recognizing multiple information with the apparatus}
본 발명은 다중 정보를 통합하는 장치 및 방법에 관한 것이다. 보다 상세하게는, 딥 러닝(deep learning)을 위해 다중 정보를 통합하는 장치 및 방법에 관한 것이다. 또한 본 발명은 다중 정보를 통합하여 인식 결과를 생성하는 시스템에 관한 것이다.
딥 러닝(deep learning)은 콘볼루션 신경망(CNN; Convolutional Neural Network), 순환 신경망(RNN; Recurrent Neural Network), 생성적 적대 신경망(GAN; Generative Adversarial Network) 등 다양한 심층 학습 모델들(deep learning models)을 기반으로 많은 분야에서 이용되고 있다.
최근 들어 딥 러닝은 멀티모달 데이터(multi-modal data)를 모델링하는 데에 적용되고 있다. 그런데 다양한 종류의 데이터들 중에서 일부 데이터에 대해 손실이 발생하는 경우, 종래의 시스템은 손실된 데이터로 지정된 값(default value)을 적용하여 판단 결과를 도출하였다. 그러나 이와 같은 방법으로 최종적인 판단 결과를 도출하면, 지정된 값으로 인해 그 판단 결과에 오류가 발생하는 문제점이 있다.
한국공개특허 제2011-0123549호 (공개일 : 2011.11.15.)
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 다중 정보들의 크기 균일화, 다중 정보들의 범위 조정, 다중 정보들에서의 인덱스별 값 선택 등을 순차적으로 이용하여 다중 정보들을 통합하는 장치 및 방법을 제안하는 것을 목적으로 한다.
또한 본 발명은 다중 정보들을 통합하여 얻은 통합 정보를 기초로 인식 결과를 생성하는 시스템을 제안하는 것을 목적으로 한다.
그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 제1 다중 정보 변환부; 범위 조정 함수를 기초로 상기 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 제2 다중 정보 변환부; 및 인덱스별로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 상기 제1 다중 정보들이 통합된 통합 정보를 생성하는 통합 정보 생성부를 포함하는 것을 특징으로 하는 다중 정보 통합 장치를 제안한다.
또한 본 발명은 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 단계; 범위 조정 함수를 기초로 상기 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 단계; 및 인덱스별로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 상기 제1 다중 정보들이 통합된 통합 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 다중 정보 통합 방법을 제안한다.
또한 본 발명은 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 제1 다중 정보 변환부; 범위 조정 함수를 기초로 상기 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 제2 다중 정보 변환부; 및 인덱스별로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 상기 제1 다중 정보들이 통합된 통합 정보를 생성하는 통합 정보 생성부를 포함하는 다중 정보 통합 장치; 및 상기 통합 정보를 기초로 인식 결과를 생성하는 인식 결과 생성부를 포함하는 것을 특징으로 하는 다중 정보 통합 인식 시스템을 제안한다.
본 발명은 상기한 목적 달성을 위한 구성들을 통하여 다음과 같은 효과를 얻을 수 있다.
첫째, 다양한 종류의 데이터들을 통합하여 인식할 때 데이터 손실이 발생하더라도 판단 결과의 정확성을 향상시킬 수 있다.
둘째, 데이터 손실에 강인한 성능을 가질 수 있다.
도 1은 본 발명의 일실시예에 따른 심층 학습 아키텍처의 전체적인 구조를 개략적으로 도시한 개념도이다.
도 2는 본 발명의 일실시예에 따른 다중 정보 통합 인식 시스템의 내부 구성을 개략적으로 도시한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 다중 정보 통합 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 4는 본 발명의 바람직한 실시예에 따른 다중 정보 통합 인식 시스템의 내부 구성을 개략적으로 도시한 블록도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
본 발명에서는 종래 기술의 문제점을 해결하기 위한 모델로서, 멀티모달 정보 기반 분류 태스크들(classification tasks)을 위해 설계된 새로운 심층 학습 아키텍처(deep learning architecture)를 제안한다. 본 발명에서는 이러한 심층 학습 아키텍처를 임브레이스넷(EmbraceNet)으로 정의한다.
본 발명에서 제안하는 심층 학습 아키텍처는 도킹 레이어들(docking layers)과 임브레이스먼트 레이어(embracement layer)를 주요 구성요소들로 포함한다. 도킹 레이어는 각 모달리티(modality)의 정보를 통합시키기에 적합한 표현으로 변환하는 기능을 수행한다. 반면 임브레이스먼트 레이어는 도킹 레이어들에 의해 변환된 표현들을 확률적 방법(probabilistic manner)으로 결합하는 기능을 수행한다.
본 발명에서 제안하는 심층 학습 아키텍처는 임의의 네트워크 구조와의 우수한 호환성, 서로 다른 모달리티들 사이의 상관 관계들에 대한 심층적인 고려, 누락된 데이터(missing data)의 온전한 처리(seamless handling) 등을 제공한다. 본 발명에서 제안하는 심층 학습 아키텍처가 제공하는 주요 이점들은 다음과 같다.
첫째, 임브레이스넷 모델은 기존의 다른 심층 학습 아키텍처들과 높은 호환성을 지원한다.
임브레이스넷 모델은 모든 종류의 네트워크 모델들로부터 입력들을 가져와서 그 입력들을 포용하며(embraces), 포용된 입력들을 최종 결정 모델의 입력으로 이용할 수 있도록 융합 표현(fused representation)으로 변환한다. 임브레이스넷 모델의 이러한 구조는 임브레이스넷 아키텍처를 멀티모달 분류 태스크들을 위한 다양한 네트워크 모델들에 적용할 수 있게 한다. 또한 임브레이스넷 모델의 이러한 구조는 모든 모달리티들을 통합하는 것을 가능하게 한다.
둘째, 임브레이스넷 모델은 교차 모달(cross-modal) 상관 관계들을 철저히 고려한다.
임브레이스넷 모델은 트레이닝 단계에서 조합을 위해 각 모달리티로부터 부분 정보를 확률적으로 선택하는 임브레이스먼트 프로세스(embracement process)를 운용하며, 이 프로세스를 이용하여 서로 다른 모달리티들 사이의 상관 관계들을 모델링한다. 임브레이스먼트 프로세스는 모델이 오버피팅(overfitting)을 효과적으로 회피할 수 있도록 잘 정규화되어 있다.
셋째, 임브레이스넷 모델은 데이터 손실(data loss)에 대한 강인성(robustness)을 보장한다.
훈련된 모델에서, 모달리티의 데이터 손실로 인해 누락된 정보(missing information)는 다른 모달리티들에 의해 커버될 수 있다. 따라서 임브레이스넷 모델은 특정 데이터에서 일부 블록(block-wise missing data)이 소실되거나, 몇몇 모달리티들의 전체 데이터가 소실되더라도 성능을 효율적으로 유지하는 것이 가능하다.
이하에서는 도면들을 참조하여 본 발명에서 제안하는 심층 학습 아키텍처를 자세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 심층 학습 아키텍처의 전체적인 구조를 개략적으로 도시한 개념도이다.
도 1에 따르면, 본 발명에서 제안하는 심층 학습 아키텍처(100)는 도킹 레이어들(docking layers; 110)과 임브레이스먼트 레이어(embracement layer; 120)를 포함한다.
(1) 도킹 레이어들(110)
임브레이스넷(100)은 서로 다른 양상들(modalities)의 독립적인 네트워크 모델들(130a, 130b, …, 130m)의 출력 벡터들을 입력들로 사용한다. 각각의 네트워크 모델은 센서로부터 수집된 데이터를 전처리할 수 있으며, 다층 퍼셉트론(multilayer perceptrons), CNN(Convolutional Neural Network) 기반 심층 학습 아키텍처, 핸드 크래프트(hand-crafted) 특징 벡터들, 원시 데이터 등과 같은 모든 종류의 네트워크 구조가 될 수 있다.
모달리티들은 서로 다른 특성들을 가질 수 있으므로, 네트워크 모델들(130a, 130b, …, 130m)로부터 출력되는 벡터의 크기는 다를 수 있다. 따라서 임브레이스넷(100)은 그 출력 벡터들을 종합하기 전에 벡터들이 동일한 크기를 가지도록 각각의 벡터를 도킹 가능한 벡터(dockable vector)로 변환한다.
M개의 모달리티들과 각 모달리티와 관련되는 네트워크 모델들(130a, 130b, …, 130m)이 있다고 가정해 보자. m ∈ {1, 2, …, M}일 때, m번째 도킹 레이어의 입력 벡터의 i번째 컴포넌트는 다음 수학식 1과 같이 나타낼 수 있다.
Figure pat00001
상기에서 x(m)은 m번째 네트워크 모델의 출력 벡터를 의미한다. 또한 wi (m)은 가중치 벡터를 의미하며, bi (m)은 바이어스(bias)를 의미한다.
활성화 함수(activation function), 예컨대 ReLU(Rectified Linear Unit), 시그모이드(sigmoid), 쌍곡선 탄젠트(hyperbolic tangent) 등은 m번째 도킹 레이어의 출력을 획득하기 위해 zi (m)에 적용된다. 이를 수학식으로 나타내면 다음과 같다.
Figure pat00002
상기에서 d(m) = [d1 (m), d2 (m), …, dc (m)]T이며 i ∈ {1, 2, …, c}이다.
도킹 레이어들의 모든 출력들(d(1), d(2), …, d(M))은 c차원 벡터들이다.
(2) 임브레이스먼트 레이어(120)
도킹 레이어들(110)로부터 획득되는 M개의 벡터들은 c개의 값들로 구성된다. 임브레이스넷 모델은 이 벡터들을 효율적으로 결합시켜 임브레이스드 벡터(embraced vector)를 생성한다. 이를 수학식으로 나타내면 다음과 같다.
Figure pat00003
상기에서 ri는 {1, 2, …, M} 중에서 랜덤값(random value)을 취하는 변수를 의미한다. p는 p = [p1, p2, …, pM]T이며, ∑mpm = 1이다. 이것은 P(ri = m) = pm을 만족시킨다.
이진값(binary value) ri (m)은 수학식 3의 ri를 이용하여 다음과 같이 정의할 수 있다.
Figure pat00004
ri는 ∑mri (m) = 1을 만족하는 모달리티 셀렉터(modality selector)의 역할을 수행한다. 이 값은 벡터 di (m)의 대응값(corresponding value)으로 적용된다. 이를 수학식으로 나타내면 다음과 같다.
Figure pat00005
마지막으로, 임브레이스먼트 레이어(120)의 출력 벡터의 i번째 컴포넌트는 다음 수학식 6을 통해 획득할 수 있다.
Figure pat00006
벡터 e(e = [e1, e2, …, ec]T)의 길이는 d(m)(예컨대 c)의 길이와 동일하다. 벡터 e는 주어진 분류 태스크(classification task)의 최종 결정(final decision)을 출력하는 터미널 네트워크(terminal network; 140)의 입력 벡터로 사용된다.
ri를 기반으로 하는 모달리티의 선택은 트레이닝 단계(training stage)와 테스팅 단계(testing stage) 모두에서 동일한 방법으로 발생한다. 이것은 p의 확률값들에 의존한다. 일반적으로 p = [1/M, 1/M, …, 1/M]T를 사용할 수 있다. 그러나 본 발명이 이에 한정되는 것은 아니며, p = [1/a, 1/b, …, 1/n]T(여기서, 1/a + 1/b + … + 1/n = 1)를 사용하는 것도 가능하다.
이상 도 1을 참조하여 본 발명에서 제안하는 심층 학습 아키텍처(임브레이스넷, 100)에 대하여 설명하였다. 이하에서는 이러한 심층 학습 아키텍처(100)를 이용하여 다중 정보를 통합하여 인식하는 시스템에 대하여 설명한다.
도 2는 본 발명의 일실시예에 따른 다중 정보 통합 인식 시스템의 내부 구성을 개략적으로 도시한 블록도이다.
다중 정보 통합 인식 시스템(200)은 다양한 종류의 데이터들을 한번에 통합하여 학습하고 인식할 수 있는 시스템이다. 이러한 다중 정보 통합 인식 시스템(200)은 데이터 손실에 강인한 성능을 가지는 효과를 얻을 수 있다.
도 2에 따르면, 다중 정보 통합 인식 시스템(200)은 단일 정보 처리부(210), 정보 크기 균일화 처리부(220), 정보 통합 처리부(230) 및 종단 처리부(240)를 포함한다. 이하 설명은 도 1 및 도 2를 참조한다.
단일 정보 처리부(210)는 네트워크 모델들(130a, 130b, …, 130m)로부터 얻은 각각의 정보를 개별적으로 독립된 데이터 처리 과정을 거쳐 처리하는 기능을 수행한다. 단일 정보 처리부(210)는 이러한 처리 과정을 통해 x(1), x(2), …, x(M) 등을 생성하여 출력한다. x(1), x(2), …, x(M) 등의 크기는 서로 다를 수 있다.
실제 각 단일 정보가 출력하는 데이터의 차원은 다양할 수 있으나, 본 발명에서는 도 1에 도시된 바와 같이 계산의 편의를 위해 모두 1차원의 벡터로 변환하여 표현한다.
정보 크기 균일화 처리부(220)는 단일 정보 처리부(210)에서 나온 값들(x(1), x(2), …, x(M))의 크기들을 각각 정해진 값의 크기로 맞추어 주는 기능을 수행한다. 본 발명에서 정보 크기 균일화 처리부(220)는 한 단계의 행렬 곱(w * x + b)과 값 범위 조정 함수(fa)를 통해 동일한 크기의 값들(d(1), d(2), …, d(M))이 도출되도록 할 수 있다.
네트워크를 학습하는 동안에 실제로 학습되는(=바뀌는) 값은 2차원의 w 행렬과 1차원의 b 벡터가 된다.
정보 크기 균일화 처리부(220)는 도킹 레이어들(110)을 통해 상기한 기능을 수행할 수 있다.
정보 통합 처리부(230)는 정보 크기 균일화 처리부(220)에서 출력된 값들(d(1), d(2), …, d(M))에서 각 인덱스별로 하나의 값만 선택하는 기능을 수행한다. 따라서 정보 통합 처리부(230)에서 출력되는 값(e)의 크기는 정보 크기 균일화 처리부(220)에서 출력된 각각의 값의 크기와 동일하다.
r(1), r(2), …, r(M) 등은 매번 네트워크에 데이터에 입력할 때마다 값이 임의로 결정되며, 어떤 단일 정보의 값을 취할지 결정하는 역할을 한다.
단일 정보의 중요도가 다를 수 있다. 예를 들어, 2번째 단일 정보가 다른 단일 정보에 비해 더욱 중요할 수 있는데, 이 경우 e의 각 항목이 2번째 단일 정보에서 온 d(2)에서 채택될 확률을 증가시킬 수 있다.
정보 통합 처리부(230)는 임브레이스먼트 레이어(120)를 통해 상기한 기능을 수행할 수 있다.
종단 처리부(240)는 통합이 완료된 정보(e)를 바탕으로 최종 인식 결과(final decision)를 도출하기 위한 처리 과정을 진행한다. 종단 처리부(240)는 터미널 네트워크(140)를 통해 상기한 기능을 수행할 수 있다.
종단 처리부(240)는 콘볼루션 신경망(CNN; Convolutional Neural Network), 순환 신경망(RNN; Recurrent Neural Network), 생성적 적대 신경망(GAN; Generative Adversarial Network) 등 다양한 심층 학습 모델들(deep learning models)을 기반으로 하는 단일 모달 인식 시스템들 중 임의로 어느 하나를 차용하는 것도 가능하다.
이상 도 1 및 도 2를 참조하여 본 발명의 일실시 형태에 대하여 설명하였다. 이하에서는 이러한 일실시 형태로부터 추론 가능한 본 발명의 바람직한 형태에 대하여 설명한다.
도 3은 본 발명의 바람직한 실시예에 따른 다중 정보 통합 장치의 내부 구성을 개략적으로 도시한 블록도이다.
다중 정보 통합 장치(300)는 다중 정보들을 통합하는 것으로서, 다중 정보들을 이용하여 인식 결과를 얻기 위한 딥 러닝(deep learning)에 이용될 수 있다. 도 3에 따르면, 다중 정보 통합 장치(300)는 제1 다중 정보 변환부(310), 제2 다중 정보 변환부(320), 통합 정보 생성부(330), 제1 전원부(340) 및 제1 주제어부(350)를 포함한다.
제1 전원부(340)는 다중 정보 통합 장치(300)를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다.
제1 주제어부(350)는 다중 정보 통합 장치(300)를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다.
제1 다중 정보 변환부(310)는 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 기능을 수행한다. 상기에서 각각의 모달리티는 서로 다른 센서들로부터 획득되는 센싱 정보들을 의미한다. 제1 다중 정보 변환부(310)는 도 2의 정보 크기 균일화 처리부(220)에 대응하는 개념이다.
제1 다중 정보 변환부(310)는 제2 다중 정보들이 동일한 개수의 인덱스들을 가지도록 하여 동일한 크기의 제2 다중 정보들로 변환할 수 있다. 본 발명에서 정보들이 동일한 크기를 가진다는 것은 이 정보들을 구성하는 벡터 엘리먼트들(vector elements)의 개수가 동일하다는 것을 의미한다. 본 발명에서는 각각의 벡터 엘리먼트를 인덱스로 정의하므로, 이후 설명될 인덱스는 벡터 엘리먼트와 동일한 개념으로 이해해도 무방하다.
제1 다중 정보 변환부(310)는 제1 다중 정보들을 제2 다중 정보들로 변환할 때 가중치들과 더불어 바이어스(bias)들을 더 이용하며, 각각의 제1 다중 정보에 가중치를 곱하고 바이어스를 더하여 제2 다중 정보들로 변환할 수 있다.
제1 다중 정보 변환부(310)는 서로 다른 크기의 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환할 때 가중치들로 차원이 다른 매트릭스(matrix)를 이용할 수 있다.
제1 다중 정보 변환부(310)는 다중 정보를 통합하여 인식하는 시스템을 훈련시킬 때에 이전 통합 정보를 토대로 생성된 이전 학습 결과를 기초로 가중치들과 바이어스들을 변경하여 적용할 수 있다.
제2 다중 정보 변환부(320)는 범위 조정 함수를 기초로 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 기능을 수행한다. 제2 다중 정보 변환부(320)는 도 2의 정보 크기 균일화 처리부(220)에 대응하는 개념이다.
제2 다중 정보 변환부(320)는 제2 다중 정보들에 동일한 값을 가지는 범위 조정 함수를 곱하여 제3 다중 정보들로 변환할 수 있다.
제2 다중 정보 변환부(320)는 ReLU(Rectified Linear Unit), 시그모이드(sigmoid) 및 쌍곡선 탄젠트(hyperbolic tangent) 중 어느 하나를 범위 조정 함수로 이용할 수 있다.
통합 정보 생성부(330)는 인덱스별로 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 제1 다중 정보들이 통합된 통합 정보를 생성하는 기능을 수행한다. 통합 정보 생성부(330)는 도 2의 정보 통합 처리부(230)에 대응하는 개념이다.
통합 정보 생성부(330)는 랜덤 확률로 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택할 수 있다. 그러나 본 발명이 이에 한정되는 것은 아니며, 통합 정보 생성부(330)는 동일한 확률로 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하거나, 제1 다중 정보들의 중요도에 따라 서로 다른 확률로 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하는 것도 가능하다.
통합 정보 생성부(330)는 각각의 제3 다중 정보와 동일한 크기를 가지는 통합 정보를 생성할 수 있다.
다음으로 다중 정보 통합 장치(300)의 작동 방법에 대하여 설명한다.
먼저 제1 다중 정보 변환부(310)는 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환한다(STEP A).
이후 제2 다중 정보 변환부(320)는 범위 조정 함수를 기초로 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환한다(STEP B).
이후 통합 정보 생성부(330)는 인덱스별로 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 제1 다중 정보들이 통합된 통합 정보를 생성한다(STEP C).
다음으로 다중 정보들을 통합하여 인식 결과를 생성하는 시스템에 대하여 설명한다. 도 4는 본 발명의 바람직한 실시예에 따른 다중 정보 통합 인식 시스템의 내부 구성을 개략적으로 도시한 블록도이다.
도 4에 따르면, 다중 정보 통합 인식 시스템(400)은 다중 정보 통합 장치(300), 인식 결과 생성부(410) 및 제2 주제어부(420)를 포함한다.
제2 주제어부(420)는 다중 정보 통합 인식 시스템(400)을 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다.
다중 정보 통합 장치(300)는 도 3을 참조하여 전술하였으므로, 여기서는 그 자세한 설명을 생략한다.
인식 결과 생성부(410)는 다중 정보 통합 장치(300)에 의해 생성되는 통합 정보를 기초로 인식 결과를 생성하는 기능을 수행한다. 인식 결과 생성부(410)는 도 2의 종단 처리부(240)에 대응하는 개념이다.
인식 결과 생성부(410)는 테스팅 단계(testing stage)에서 통합 정보를 기초로 인식 결과를 생성한다. 이러한 인식 결과 생성부(410)는 트레이닝 단계(training stage)에서 통합 정보를 기초로 학습 결과를 생성할 수 있다.
인식 결과 생성부(410)는 콘볼루션 신경망(Convolutional Neural Network), 순환 신경망(Recurrent Neural Network) 및 생성적 적대 신경망(Generative Adversarial Network) 중 어느 하나의 심층 학습 모델(deep learning model)을 기반으로 하는 터미널 네트워크(terminal network)를 이용하여 인식 결과를 생성할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (17)

  1. 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 제1 다중 정보 변환부;
    범위 조정 함수를 기초로 상기 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 제2 다중 정보 변환부; 및
    인덱스별로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 상기 제1 다중 정보들이 통합된 통합 정보를 생성하는 통합 정보 생성부
    를 포함하는 것을 특징으로 하는 다중 정보 통합 장치.
  2. 제 1 항에 있어서,
    상기 제1 다중 정보 변환부는 서로 다른 크기의 상기 제1 다중 정보들을 동일한 크기의 상기 제2 다중 정보들로 변환할 때 상기 가중치들로 차원이 다른 매트릭스를 이용하는 것을 특징으로 하는 다중 정보 통합 장치.
  3. 제 1 항에 있어서,
    상기 제1 다중 정보 변환부는 상기 제2 다중 정보들이 동일한 개수의 인덱스들을 가지도록 하여 동일한 크기의 상기 제2 다중 정보들로 변환하는 것을 특징으로 하는 다중 정보 통합 장치.
  4. 제 1 항에 있어서,
    상기 제1 다중 정보 변환부는 상기 제1 다중 정보들을 상기 제2 다중 정보들로 변환할 때 상기 가중치들과 더불어 바이어스(bias)들을 더 이용하며, 각각의 제1 다중 정보에 가중치를 곱하고 바이어스를 더하여 상기 제2 다중 정보들로 변환하는 것을 특징으로 하는 다중 정보 통합 장치.
  5. 제 4 항에 있어서,
    상기 제1 다중 정보 변환부는 다중 정보를 통합하여 인식하는 시스템을 훈련시킬 때에 이전 통합 정보를 토대로 생성된 이전 학습 결과를 기초로 상기 가중치들과 상기 바이어스들을 변경하여 적용하는 것을 특징으로 하는 다중 정보 통합 장치.
  6. 제 1 항에 있어서,
    상기 제2 다중 정보 변환부는 상기 제2 다중 정보들에 동일한 값을 가지는 상기 범위 조정 함수를 곱하여 상기 제3 다중 정보들로 변환하는 것을 특징으로 하는 다중 정보 통합 장치.
  7. 제 1 항에 있어서,
    상기 제2 다중 정보 변환부는 ReLU(Rectified Linear Unit), 시그모이드(sigmoid) 및 쌍곡선 탄젠트(hyperbolic tangent) 중 어느 하나를 상기 범위 조정 함수로 이용하는 것을 특징으로 하는 다중 정보 통합 장치.
  8. 제 1 항에 있어서,
    상기 통합 정보 생성부는 랜덤 확률로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하거나, 동일한 확률로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하거나, 또는 상기 제1 다중 정보들의 중요도에 따라 서로 다른 확률로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하는 것을 특징으로 하는 다중 정보 통합 장치.
  9. 제 1 항에 있어서,
    상기 통합 정보 생성부는 각각의 제3 다중 정보와 동일한 크기를 가지는 상기 통합 정보를 생성하는 것을 특징으로 하는 다중 정보 통합 장치.
  10. 제 1 항에 있어서,
    상기 다중 정보 통합 장치는 다중 정보들을 이용하여 인식 결과를 얻기 위한 딥 러닝(deep learning)에 이용되는 것을 특징으로 하는 다중 정보 통합 장치.
  11. 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 단계;
    범위 조정 함수를 기초로 상기 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 단계; 및
    인덱스별로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 상기 제1 다중 정보들이 통합된 통합 정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는 다중 정보 통합 방법.
  12. 가중치들을 기초로 각각의 모달리티(modality)와 관련된 제1 다중 정보들을 동일한 크기의 제2 다중 정보들로 변환하는 제1 다중 정보 변환부; 범위 조정 함수를 기초로 상기 제2 다중 정보들을 미리 정해진 범위 이내의 제3 다중 정보들로 변환하는 제2 다중 정보 변환부; 및 인덱스별로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하여 상기 제1 다중 정보들이 통합된 통합 정보를 생성하는 통합 정보 생성부를 포함하는 다중 정보 통합 장치; 및
    상기 통합 정보를 기초로 인식 결과를 생성하는 인식 결과 생성부
    를 포함하는 것을 특징으로 하는 다중 정보 통합 인식 시스템.
  13. 제 12 항에 있어서,
    상기 인식 결과 생성부는 콘볼루션 신경망(Convolutional Neural Network), 순환 신경망(Recurrent Neural Network) 및 생성적 적대 신경망(Generative Adversarial Network) 중 어느 하나의 심층 학습 모델(deep learning model)을 기반으로 하는 터미널 네트워크(terminal network)를 이용하여 상기 인식 결과를 생성하는 것을 특징으로 하는 다중 정보 통합 인식 시스템.
  14. 제 12 항에 있어서,
    상기 제1 다중 정보 변환부는 서로 다른 크기의 상기 제1 다중 정보들을 동일한 크기의 상기 제2 다중 정보들로 변환할 때 상기 가중치들로 차원이 다른 매트릭스를 이용하는 것을 특징으로 하는 다중 정보 통합 인식 시스템.
  15. 제 12 항에 있어서,
    상기 제1 다중 정보 변환부는 상기 제1 다중 정보들을 상기 제2 다중 정보들로 변환할 때 상기 가중치들과 더불어 바이어스(bias)들을 더 이용하며, 다중 정보를 통합하여 인식하는 시스템을 훈련시킬 때에 이전 통합 정보를 토대로 생성된 이전 학습 결과를 기초로 상기 가중치들과 상기 바이어스들을 변경하여 적용하는 것을 특징으로 하는 다중 정보 통합 인식 시스템.
  16. 제 12 항에 있어서,
    상기 제2 다중 정보 변환부는 상기 제2 다중 정보들에 동일한 값을 가지는 상기 범위 조정 함수를 곱하여 상기 제3 다중 정보들로 변환하는 것을 특징으로 하는 다중 정보 통합 인식 시스템.
  17. 제 12 항에 있어서,
    상기 통합 정보 생성부는 랜덤 확률로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하거나, 동일한 확률로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하거나, 또는 상기 제1 다중 정보들의 중요도에 따라 서로 다른 확률로 상기 제3 다중 정보들의 값들 중에서 어느 하나의 값을 선택하는 것을 특징으로 하는 다중 정보 통합 인식 시스템.
KR1020180032290A 2018-03-20 2018-03-20 다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템 KR102080986B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180032290A KR102080986B1 (ko) 2018-03-20 2018-03-20 다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180032290A KR102080986B1 (ko) 2018-03-20 2018-03-20 다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템

Publications (2)

Publication Number Publication Date
KR20190110385A true KR20190110385A (ko) 2019-09-30
KR102080986B1 KR102080986B1 (ko) 2020-02-24

Family

ID=68098720

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180032290A KR102080986B1 (ko) 2018-03-20 2018-03-20 다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템

Country Status (1)

Country Link
KR (1) KR102080986B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245424A1 (en) * 2021-01-29 2022-08-04 Samsung Electronics Co., Ltd. Microgenre-based hyper-personalization with multi-modal machine learning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110123549A (ko) 2010-05-07 2011-11-15 엔에이치엔(주) 모바일 카메라를 이용한 다중 정보 인식 및 이를 이용한 검색 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
US20160093048A1 (en) * 2014-09-25 2016-03-31 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US20160328384A1 (en) * 2015-05-04 2016-11-10 Sri International Exploiting multi-modal affect and semantics to assess the persuasiveness of a video
US20160379086A1 (en) * 2015-06-29 2016-12-29 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
JP2017526199A (ja) * 2014-05-20 2017-09-07 クゥアルコム・インコーポレイテッドQualcomm Incorporated かすみ検出のためのシステムおよび方法
WO2018047115A1 (en) * 2016-09-08 2018-03-15 Mentor Graphics Development (Deutschland) Gmbh Object recognition and classification using multiple sensor modalities

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110123549A (ko) 2010-05-07 2011-11-15 엔에이치엔(주) 모바일 카메라를 이용한 다중 정보 인식 및 이를 이용한 검색 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2017526199A (ja) * 2014-05-20 2017-09-07 クゥアルコム・インコーポレイテッドQualcomm Incorporated かすみ検出のためのシステムおよび方法
US20160093048A1 (en) * 2014-09-25 2016-03-31 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US20160328384A1 (en) * 2015-05-04 2016-11-10 Sri International Exploiting multi-modal affect and semantics to assess the persuasiveness of a video
US20160379086A1 (en) * 2015-06-29 2016-12-29 International Business Machines Corporation Systems and methods for inferring gender by fusion of multimodal content
US20170220854A1 (en) * 2016-01-29 2017-08-03 Conduent Business Services, Llc Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action
WO2018047115A1 (en) * 2016-09-08 2018-03-15 Mentor Graphics Development (Deutschland) Gmbh Object recognition and classification using multiple sensor modalities

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-modality fusion based on consensus-voting and 3d convolution for isolated gesture recognition. Jiali Duan et al. 2016. *

Also Published As

Publication number Publication date
KR102080986B1 (ko) 2020-02-24

Similar Documents

Publication Publication Date Title
US10949734B2 (en) Progressive neural networks
JP2021521505A (ja) 包括的機械学習サービスを提供するアプリケーション開発プラットフォームおよびソフトウェア開発キット
KR102562320B1 (ko) 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치
KR20200086581A (ko) 뉴럴 네트워크 양자화를 위한 방법 및 장치
JP6393058B2 (ja) 情報処理装置、情報処理方法
WO2018105194A1 (en) Method and system for generating multi-relevant label
KR20180091850A (ko) 외부 메모리로 신경망들 증강
KR20200076461A (ko) 중첩된 비트 표현 기반의 뉴럴 네트워크 처리 방법 및 장치
KR20210045225A (ko) 뉴럴 네트워크에서 연산을 수행하는 방법 및 장치
KR20210076691A (ko) 프레임워크 간 뉴럴 네트워크의 학습을 검증하는 방법 및 장치
CN112396085A (zh) 识别图像的方法和设备
KR102080986B1 (ko) 다중 정보 통합 장치와 방법 및 이를 구비하는 다중 정보 통합 인식 시스템
US20170236056A1 (en) Automated predictive modeling and framework
CN110659759A (zh) 基于神经网络的趋势预测
US11983614B2 (en) System and method for heterogeneous model composition
KR102105951B1 (ko) 추론을 위한 제한된 볼츠만 머신 구축 방법 및 추론을 위한 제한된 볼츠만 머신을 탑재한 컴퓨터 장치
KR20200094534A (ko) 뉴럴 네트워크 장치 및 뉴럴 네트워크 장치에서 멀티-비트 연산을 처리하는 방법
CN111788582A (zh) 电子设备及其控制方法
US20210174910A1 (en) Method and apparatus for generating new chemical structure using neural network
CN111538831B (zh) 一种文本生成方法、装置及电子设备
KR102157441B1 (ko) 관련성 전사를 이용한 신경망 학습 방법 및 서비스 장치
JP2022148878A (ja) プログラム、情報処理装置、及び方法
CN113055546A (zh) 处理图像的系统和方法
KR20210141252A (ko) 전자 장치 및 그 제어 방법
WO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant