KR20220069348A - 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템 - Google Patents

멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템 Download PDF

Info

Publication number
KR20220069348A
KR20220069348A KR1020200156380A KR20200156380A KR20220069348A KR 20220069348 A KR20220069348 A KR 20220069348A KR 1020200156380 A KR1020200156380 A KR 1020200156380A KR 20200156380 A KR20200156380 A KR 20200156380A KR 20220069348 A KR20220069348 A KR 20220069348A
Authority
KR
South Korea
Prior art keywords
modal
tensor
tightly coupled
individual
multimodal
Prior art date
Application number
KR1020200156380A
Other languages
English (en)
Other versions
KR102553851B1 (ko
Inventor
박영호
박소현
Original Assignee
숙명여자대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숙명여자대학교산학협력단 filed Critical 숙명여자대학교산학협력단
Priority to KR1020200156380A priority Critical patent/KR102553851B1/ko
Publication of KR20220069348A publication Critical patent/KR20220069348A/ko
Application granted granted Critical
Publication of KR102553851B1 publication Critical patent/KR102553851B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명인 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템은 N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하고, 멀티모달 컨텐츠별로 N 종류의 모달 개별 컨텐츠에서 N 종류의 모달 개별 특징을 추출하고, N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 하나의 밀결합 텐서를 생성하며, 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시키며, 본 발명에 따르면 하나의 데이터 구조에 서로 다른 모달 특징을 표현하면서 각 모달 특징의 아이덴티티를 보존할 수 있는 밀결합 텐서 네트워크를 구축할 수 있다.

Description

멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템{METHOD FOR BUILDING MULTI-MODAL FUSION TENSOR NETWORK AND THE SYSTEM THEREOF}
본 발명은 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템에 관한 것이다.
모달리티(Modality)란 인간의 감각인 시각, 후각, 미각, 촉각 및 청각을 통하여 인간이 컴퓨터와 상호작용할때 사용되는. 커뮤니케이션 채널을 말한다. 멀티모달 콘텐츠(Multi-modal contents)는 이러한 모달리티가 한 종류인 단일 모달리티(Uni-modality)가 아니라 둘 이상의 모달리티를 포함하는 콘텐츠로 오디오를 포함한 동영상을 일례로 들 수 있다.
기계학습 분야는 단일 모달리티 분야에서 인간의 인지능력을 뛰어넘는 수준까지 발달하였다. 다만, 실제 세계에서는 단일 모달리티가 아닌 멀티 모달리티가 일반적이며, 인간이 이러한 멀티 모달리티를 통하여 멀티 모달 콘텐츠를 종합적으로 판단하는 능력은 여전히 기계학습 모델에 비하여 뛰어난 상황이다.
따라서, 실제 상황분석, 영상분석, 감정분석, 자세분석 등 실생활에서 여러 종류의 정보를 동시에 학습하고 분류하는 멀티 모달 방식의 기계학습 모델의 연구가 활발하게 이루어지고 있고, 기존 단일 모달 방식의 기계학습 모델에 비하여 성능이 더 우수하다고 평가된다.
멀티 모달 콘텐츠인 동영상을 분류하는 모델에 관한 선행연구로는 한국 등록특허 10-2090171호 등이 있다. 상기 선행연구는 동영상 내 인물의 감정 인식을 위하여 동영상 내 이미지 데이터, 얼굴 특징점 데이터 및 음성 데이터로 반 지도학습 뒤 각 모달을 분석한 확률 정보를 적응적으로 융합하여 감정을 인식한다는 특징이 있다.
다만, 위와 같은 기존 선행 연구에서는 단일 모달을 이용할 때에 비하여 멀티 모달을 통해 상호보완하여 정확도를 높일 수 있으나, 시각 정보와 청각 정보 등을 별도 네트워크로 동시에 처리하고 학습 속도나 테스트 속도가 저하되며, 서로 다른 딥러닝 알고리즘을 이용하는 경우 하이퍼파라미터 간의 공유가 어렵다는 단점이 존재한다.
본 발명은 하나의 데이터 구조에 서로 다른 모달 특징을 표현하면서 각 모달 특징의 아이덴티티를 보존할 수 있는 밀결합 텐서 네트워크를 구축하는 방법을 제안하는 것에 목적이 있다.
본 발명의 일 측면인 멀티모달 밀결합 텐서 네트워크 구축 방법은 멀티모달 밀결합 텐서 네트워크 구축 시스템에 의해 수행되는 멀티모달 밀결합 텐서 네트워크 구축 방법으로써, N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하는 단계; 멀티모달 컨텐츠별로 상기 N 종류의 모달 개별 컨텐츠에서 N 종류의 모달 개별 특징을 추출하고, 상기 N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 하나의 밀결합 텐서를 생성하는 단계; 및 상기 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시키는 단계;를 포함하는 것을 특징으로 한다.
상기 밀결합 텐서를 생성하는 단계는, 상기 N 종류의 모달 개별 특징을 N 종류의 모달 개별 텐서로 가공하고, 상기 N 종류의 모달 개별 텐서를 결합하여 상기 밀결합 텐서를 생성하는 것을 특징으로 할 수 있다.
상기 밀결합 텐서를 생성하는 단계는, 상기 N 종류의 모달 개별 특징 간에 결합 가능하도록 상기 N 종류의 모달 개별 특징 각각을 신택스로 변환하여 전처리하는 단계를 포함하고, 상기 신택스에 대응되고, 상기 N 종류의 모달 개별 특징에 관한 값을 포함하는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 것을 특징으로 할 수 있다.
상기 밀결합 텐서를 생성하는 단계는, 상기 N 종류의 모달 개별 텐서별로 추출한 N 종류의 텐서 특징을 생성하는 단계; 상기 텐서 특징을 적어도 N개 채널을 갖는 신택스로 변환하는 단계; 및 상기 적어도 N개 채널에 관한 신택스에 대응되는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 단계를 포함하고, 상기 적어도 N개 채널의 신택스의 각 채널은 상기 텐서 특징 종류별로 할당된 것을 특징으로 할 수 있다.
상기 전처리하는 단계는, 상기 멀티모달 컨텐츠를 M개의 시퀀스로 분할하는 단계; 및 상기 M개의 시퀀스를 시계열적으로 정렬한 축을 포함하는 행렬의 집합으로, 상기 모달 개별 특징을 정규화하는 단계;를 포함하는 것을 특징으로 할 수 있다.
상기 모달 개별 특징별 신택스는, 다차원의 행렬이며, 각각은 서로 동일한 차원, 채널 및 크기로 형성된 것을 특징으로 할 수 있다.
상기 밀결합 텐서를 생성하는 단계에서, 상기 모달 개별 텐서는 상기 모달 개별 특징을 가공한 RGB 형식의 이미지 텐서이되, 상기 모달 개별 텐서 중 어느 하나의 이미지 텐서는 그레이 스케일이며, 나머지 모달 개별 특징의 이미지 텐서는 컬러 스케일이고, 상기 밀결합 텐서를 생성하는 단계는, 상기 모달 개별 텐서 각각으로부터 CMYK 값을 추출하여 CMYK 신택스로 변환하고, 상기 모달 개별 텐서 각각의 CMYK 신택스에 대응되는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 것을 특징으로 할 수 있다.
상기 밀결합 텐서를 생성하는 단계는, 상기 모달 개별 특징에 관한 값이 소정의 범위에서 벗어나 널이 발생하면, 상기 널이 발생한 시퀀스의 전 시퀀스 및 후 시퀀스의 평균값으로 상기 널의 값을 대체하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 분류모델을 이용하여 분류 대상인 멀티모달 컨텐츠를 분류하는 단계를 더 포함하는 것을 특징으로 할 수 있다.
상기 분류모델을 학습시키는 단계는, 상기 밀결합 텐서의 일부를 학습 데이터로 하고, 나머지 밀결합 텐서를 검증 데이터로 하여 신경망에 입력하되, 분류 성능에 따라 상기 신경망 및 상기 밀결합 텐서의 하이퍼파라미터를 조정하여 분류모델을 학습시키는 것을 특징으로 할 수 있다.
상기 밀결합 텐서를 생성하는 단계는, 상기 모달 개별 특징별 결합 비율에 관한 가중치를 반영하여 상기 밀결합 텐서를 생성하는 것을 특징으로 할 수 있다.
상기 멀티모달 컨텐츠는 시청각 정보를 포함하는 동영상 데이터셋인 것을 특징으로 할 수 있다.
본 발명의 다른 측면인 멀티모달 밀결합 텐서 네트워크 구축 시스템은, N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하는 수집 모듈; 멀티모달 컨텐츠별로 상기 N 종류의 모달 개별 컨텐츠에서 추출된 N 종류의 모달 개별 특징을 생성하는 추출 모듈; 상기 N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 밀결합 텐서를 생성하는 결합 모듈; 및 상기 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시키는 학습 모듈;을 포함하는 것을 특징으로 한다.
상기 결합 모듈은, 상기 멀티모달 컨텐츠를 M개의 시퀀스로 분할하고, 상기 시퀀스를 시계열적으로 정렬한 축을 포함하는 행렬의 집합인 제1 신택스로 변환하여, 상기 모달 개별 특징을 정규화하고, 상기 모달 개별 특징을 모달 개별 텐서로 가공하는 전처리 모듈; 상기 모달 개별 텐서별로 텐서 특징을 추출하고, 상기 텐서 특징을 N개 채널의 제 2 신택스로 변환하고, 상기 제2 신택스에 대응되는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 텐서생성 모듈;을 포함하고, 상기 제2 신택스의 각 채널은 상기 텐서 특징별로 할당된 것을 특징으로 할 수 있다.
본 발명에 의하면 다음과 같은 효과가 있다.
첫째, 단일 모달 정보만 사용하는 경우에 비하여, 콘텐츠 도메인의 특성이나 데이터 저품질 상황을 다른 모달 정보를 이용하여 상호보완하여 해결할 수 있다.
둘째, 멀티 모달 정보 각각의 아이덴티티를 포함한 하나의 밀결합 텐서를 이용하여 높은 재현율 및 정확도를 보이면서도 단일 모달 정보만 사용한 경우만큼 높은 속도를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 관한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법의 프로세스의 일 예시이다.
도 4는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법의 모달 개별 특징을 추출하는 프로세스의 일 예시이다.
도 5는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법의 밀결합 텐서를 생성하는 프로세스의 일 예시이다.
도 6은 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에서 모달 개별 특징의 일 예시를 나타낸 그래프이다.
도 7a는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 의한 신택스의 일 예시이다.
도 7b는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 의한 신택스의 변환 프로세스의 일 예시이다.
도 8a는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 의한 신택스의 다른 예시이다.
도 8b는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 의한 신택스의 변환 프로세스의 다른 예시이다.
도 9는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 의한 신택스의 변환 프로세스의 또 다른 예시이다.
도 10은 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법에 의한 텐서의 해상도를 향상시키는 프로세스의 일 예시이다.
도 11은 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법의 분류모델을 학습시키는 프로세스의 일 예시이다.
도 12a 내지 12d는 본 발명의 일 실시예에 따른 멀티모달 밀결합 텐서 네트워크 구축 방법의 분류모델을 다른 분류모델과 비교한 실험 결과의 일 예시이다.
본 발명의 바람직한 실시예에 대하여 더 구체적으로 설명하되, 이미 주지된 기술적 부분에 대해서는 설명의 간결함을 위해 생략하거나 압축하기로 한다.
본 발명에 따른 멀티모달 밀결합 텐서 네트워크 구축 시스템에 의해 수행되는 멀티모달 밀결합 텐서 네트워크 구축 방법을 도 1 및 도 2를 참조하여 설명한다.
도 1에 개시된 바와 같이 멀티모달 밀결합 텐서 네트워크 구축 시스템은 수집모듈(100), 추출 모듈(200), 결합 모듈(300) 및 학습 모듈(400)을 포함한다.
수집 모듈(100)은 N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집한다.
추출 모듈(200)은 수집 모듈(100)이 수집한 멀티모달 컨텐츠별로 N 종류의 모달 개별 컨텐츠에서 추출된 N 종류의 모달 개별 특징을 생성한다.
결합 모듈(300)은 N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 밀결합 텐서를 생성한다.
학습 모듈(400)은 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시킨다.
바람직하게는 본 발명에 따른 멀티모달 밀결합 텐서 네트워크 구축 시스템은 상기 분류모델을 통해 분류대상인 멀티모달 컨텐츠를 분류하는 분류 모듈(500)을 더 포함할 수 있다.
또한, 바람직하게는 결합 모듈(300)은 전처리 모듈(310) 및 텐서생성 모듈(320)을 포함할 수 있다.
전처리 모듈(310)은 멀티모달 컨텐츠를 M개의 시퀀스(Sequence)로 분할하고, 시퀀스를 시계열적으로 정렬한 축을 포함하는 행렬(matrix)의 집합인 제1 신택스(syntax) 구조로 변환하여, 모달 개별 특징을 정규화하고, 상기 모달 개별 특징을 모달 개별 텐서로 가공한다.
텐서생성 모듈(320)은 모달 개별 텐서별로 텐서 특징을 추출하고, 텐서 특징을 N개 채널의 제 2 신택스로 변환하고, 제2 신택스의 픽셀 단위로 텐서 특징에 관한 값을 곱하여 밀결합 텐서를 생성한다.
이하, 도 2에 개시된 상기 멀티모달 밀결합 텐서 네트워크 구축 시스템이 수행하는 멀티모달 밀결합 텐서 네트워크 구축 방법을 설명한다.
도 3에 나타난 바와 같이 멀티모달 밀결합 텐서 네트워크 구축 방법은 N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하는 단계(S1), 멀티모달 컨텐츠별로 N 종류의 모달 개별 컨텐츠에서 N 종류의 모달 개별 특징을 추출하고, N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 하나의 밀결합 텐서를 생성하는 단계(S2) 및 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시키는 단계(S3)를 포함한다. 이하, 전술한 각 단계에 대하여 구체적으로 설명한다.
먼저 N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하는 단계(S1)에 관하여 설명한다. 여기서 모달 개별 컨텐츠는 예를 들어 멀티모달 컨텐츠가 동영상인 경우, 오디오 컨텐츠 및 비주얼 컨텐츠를 의미할 수 있다. 멀티모달 컨텐츠는 분류하고자 하는 기준에 따른 클래스 마다 유사한 개수별로 수집하는 것이 바람직하며, 동영상인 경우 인터넷이나 유튜브 등 동영상 플랫폼을 통해 수집한 것일 수 있으나, 멀티모달 컨텐츠는 여러 모달리티 인터페이스를 통해 사용자로부터 입력되거나 외부로부터 수신되는 적어도 둘 이상의 모달 개별 컨텐츠를 포함하는 것일 수 있다. 예를 들어, 사용자의 음성 정보, 스켈레톤 정보, 터치패널로부터 입력된 전기신호, 자율주행자동차의 라이다 신호, 레이더 신호, 영상 정보 등이 될 수 있으나 이에 한정하지 않는다.
예컨대, 멀티모달 컨텐츠는 C3Pap(Classic piano performance postures of amateur and professionals)로 불리는 데이터셋(dataset)일 수 있다. 보다 구체적으로, C3Pap는 프로 피아니스트와 아마추어 연주자가 음계(scale), 아르페지오(arpeggio), 코드(chord), 로테이션(rotation), 스타카토(staccato)를 연주하는 동영상으로 구성될 수 있다.
멀티모달 컨텐츠별로 N 종류의 모달 개별 컨텐츠에서 N 종류의 모달 개별 특징을 추출하고, N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 하나의 밀결합 텐서를 생성하는 단계(S2)를 간략하게 요약하면 다음과 같다.
밀결합 텐서를 생성하는 단계(S2)는 N 종류의 모달 개별 특징이 존재할 때, 각 모달 개별 특징의 아이덴티티를 보존하는 밀결합 텐서를 생성하기 위해서, 모달 개별 특징별로 구분되되, 병렬적 데이터 구조로 전처리한 뒤, 해당 데이터 구조를 유지하며 개별 데이터별로 결합하는 방법이다.
개별 데이터별로 결합하는 방법으로는 각 모달 개별 컨텐츠에서 추출된 모달 개별 특징을 신택스의 픽셀 단위로 곱하는 방식을 취할 수 있다. 이때 신택스란 다차원의 좌표계 내지 행렬 형식의 데이터 구조를 말한다. 픽셀 단위로 서로 다른 모달 개별 특징을 곱하려면 신택스에 대응되는 행렬 구조가 동일하여 한다. 즉, 각 모달 개별 컨텐츠로부터 추출된 모달 개별 특징들을 결합하기 위해서 각 모달 개별 특징을 나타낸 각 신택스는 동일한 차원, 크기 및 채널을 가지고 있을 필요가 있다.
예를 들어 모달 개별 컨텐츠가 인간의 동작이 담긴 동영상 데이터셋이라면, 모달 개별 정보는 스켈레톤 정보 및 오디오 정보라고 할 수 있다. 이때 도 5와 같이 동영상의 비주얼 정보로부터 오픈포즈(OPENPOSE)로 추출한 스켈레톤 정보와 MFCC(MEL FREQUENCY CEPSTRAL COEFFICIENT)오디오 정보는 상이한 도메인을 상이한 추출 알고리즘을 이용하여 추출하므로 서로 상이한 데이터 구조로 추출되게 된다.
도 6에서 보이는 바와 같이 오픈포즈는 정지된 이미지 상에 관절 위치를 좌표값으로 한 스켈레톤 정보를 추출해준다. 동영상의 시계열적 속성을 스켈레톤 정보에 반영하기 위해서는 해당 동영상을 적절한 개수의 시퀀스로 분할한 프레임마다 스켈레톤 정보를 추출하고, 시퀀스를 시계열적으로 정렬한 것을 한 축으로 하여 스켈레톤 정보를 행렬로 표현한다. 만약 해당 동영상이 FPS(FRAME PER SECOND) n이라면, 동영상의 전체를 1초 단위로 분할하고, 1 프레임을 1 시퀀스로 정할 수 있다. 그리고 1 시퀀스마다 i개의 관절에 관한 스켈레톤 정보를 추출하고 이를 시계열적으로 정렬하면 해당 스켈레톤 정보는 i*n 행렬 신택스가 되며, 신택스의 각 픽셀에는 프레임에 나타난 각 관절의 위치좌표가 포함될 것이다.
한편, 오디오 정보는 일반적인 방식인 MFCC 및 LIBROSA 함수를 이용하면 도 8a와 같이 시계열적으로 오디오 정보를 나타낸 MFCC 이미지가 곧바로 추출된다. 다만, MFCC의 멜 프레퀀시 개수 및 샘플링 레이트를 조정하여 스켈레톤 정보의 신택스 구조와 같은 i*n 행렬 구조로 오디오 정보에 관한 MFCC 이미지로 추출하여야 오디오 정보와 스켈레톤 정보를 픽셀 단위로 곱할 수 있다. 이후, 도 8b의 프로세스를 통해 오디오 정보를 나타낸 MFCC 이미지를 이미지의 x, y 축에 있는 픽셀의 RGB 값을 추출하는 함수인 RGB(i,j)에 입력하여 RGB 값을 추출하고, 이를 스켈레톤 정보와 같이 i*n 행렬인 신택스로 변환하여 컬러 스케일의 오디오 텐서를 생성한다.
다만, 위와 같이 MFCC로 추출된 오디오 정보는 RGB 이미지이므로 R,G,B로 이루어지는 채널까지 포함하는 행렬인 3차원 신택스이므로 스켈레톤 정보도 3차원의 신택스로 정규화한다. 하나의 방법으로 스켈레톤 정보는 R.G.B에 동일한 정수 값을 할당하고, 255를 곱하여 그레이 스케일로 변환한다. 즉, X_i 및 Y_i를 RGB 형식에 맞추기 위하여 0과 1사이의 값으로 정규화 하고, 각각 255를 곱한 정수형으로 표현한 뒤 R,G,B 에 각각 할당하면 도 7b에서 나타난 바와 같은 그레이 스케일의 비디오 텐서인 스켈레톤 텐서가 생성된다.
결과적으로 비주얼 정보에서 추출된 스켈레톤 정보는 그레이 스케일의 RGB의 스켈레톤 텐서로 변환되고, 오디오 정보는 스켈레톤 정보의 신택스에 맞게 변환된 컬러 스케일 RGB의 오디오 텐서가 된다.
다만, 위 스켈레톤 텐서와 오디오 텐서를 곧바로 곱하는 방식으로는 유효한 밀결합 텐서를 얻을 수 없고, 각 모달리티의 아이덴티티를 유지할 수 없으므로, 그레이 스케일 및 컬러 스케일을 동시에 표현할 수 있는 색상 표현 방식으로 변환하는 과정을 거칠 필요가 있다.
도 9를 참조하여 설명한다. CMYK는 색상 표현 방식이며, CMYK는 3채널 신택스인 RGB와 마젠타, 사이언, 노랑, 검정으로 구성된 4채널 신택스다. RGB 형식인 스켈레톤 텐서 및 오디오 텐서를 CMYK 형식으로 변환하는 과정은 다음과 같다. 각 텐서로부터 CMYK로 색상을 추출하고 각각 CMYK 형식의 신택스로 변환한다. 이때 스켈레톤 텐서는 그레이 스케일이므로 K인 검정 채널에만 값이 할당되고, 나머지 C,M, Y에는 0 값을 가지며, 오디오 텐서는 K 에 0 값을 갖게 된다. 최종적으로 CMYK 형식으로 변환된 스켈레톤 텐서 및 오디오 텐서를 가중치(Weight)와 함께 Combine 함수에 넣으면 신택스의 픽셀 단위로 곱하면 스켈레톤-오디오 밀결합 텐서가 생성된다.
상술한 설명은 모달 개별 텐서가 스켈레톤 텐서 및 오디오 텐서 두종류인 경우로, 모달 개별 텐서가 이미지인 한 예시이나, 모달 개별 텐서는 이미지에 한정하지 아니한다. 즉, N 종류의 모달 개별 텐서가 있고, 각 모달 개별 텐서의 신택스상의 채널 개수의 합보다 큰 채널을 갖는 신택스로 모달 개별 텐서들의 신택스를 변환하고, 모달 개별 텐서의 행렬을 곱하면 N 종류의 모달리티의 아이덴티티를 동시에 포함하는 밀결합 텐서를 생성할 수 있다.
바람직하게는 밀결합 텐서의 해상도를 높이면 분류모델의 성능이 향상될 수 있는데, 해상도를 높이기 위해서 밀결합 텐서에 이용된 모달 개별 텐서 중에서 크기 조절이 제한되는 모달 텐서의 행렬을 반복하여 할당할 수 있다. 예를 들어, 도 10에서 보이는 바와 같이 스켈레톤 텐서가 20*30으로 제한되고 20n*30n 해상도의 밀결합 텐서를 생성하려는 경우를 설명한다. 먼저, 스켈레톤 텐서 n*m개를 반복 할당하여 20n*30m 크기로 확장하는 방식으로 전처리하고, 크기 조절이 제한되지 않는 오디오 텐서와 같이 20n*30m*4 행렬인 신택스로 일치시킨뒤, 오디오 텐서와 스켈레톤 텐서를 나타내는 행렬을 결합하여 밀결합 텐서를 생성할 수 있다.
한편, 스켈레톤 정보와 같이 동영상의 프레임으로부터 추출되는 모달 개별 특징은 동영상마다 카메라의 방향과 피사체와 카메라의 거리가 상이한 문제가 있을 수 있다. 이때, 한 개의 프레임에 맞추어 전체 프레임의 값을 재조정하는 정규화를 통해 카메라의 방향과 피사체의 거리가 상이함에 따라 발생하는 오류가 모델에 반영되는 상황을 방지할 수 있다.
또한, 모달 개별 특징을 추출하고 부적절한 오프셋을 제거하기 위한 방법이 필요할 수 있다. 예를 들어, 모달 개별 특징에 관한 값이 소정의 기준에서 벗어난 널이 발생한 경우, 해당 값의 시퀀스의 전 시퀀스 및 후 시퀀스에 존재하는 동일한 위치의 픽셀 값의 평균값으로 대체하여 오프셋을 제거할 수 있다. 예를 들어, 데이터를 동일한 비율로 4등분하고, 75% 초과 및 25% 미만을 오프셋인 널로 정의한 경우, 널 값을 보완할 때 널 값이 발생한 전 시퀀스와 후 시퀀스의 평균값으로 널 값을 대체한다. 이때, 전 시퀀스나 후 시퀀스의 널 값 위치의 값이 널에 해당하면, 전전 시퀀스 및 후후 시퀀스의 픽셀 값의 평균값으로 널 값을 대체하는 식으로 널 값이 아닌 값을 발견할 때까지 위 방식으로 널 값을 보완할 수 있다.
마지막으로 상술한 과정을 통해서 생성한 밀결합 텐서를 이용하여 분류모델을 학습한다(S3). 밀결합 텐서의 일부를 학습 데이터로 하고 나머지 밀결합 텐서를 검증 데이터로 하여 적절한 신경망에 입력하고, 검증 데이터의 레이블과 결과를 비교하여 신경망 및 밀결합 텐서의 하이퍼파라미터를 조정하여 최적 성능의 분류모델을 생성한다.
여기서 신경망은 이미지 분류에 대표적으로 사용되는 알고리즘은 CNN(Convolutional netural network), RNN(Recurrent neural network), LSTM(Long short term memory) 등 일반적으로 알려진 신경망일 수 있으나 이에 한정하지 않는다.
또한, 하이퍼파라미터는 레이어의 개수, 필터 개수, 배치사이즈, 학습률, 모멘텀, 드롭아웃, 완전연결계층 개수, 모달 개별 텐서의 결합 가중치, 에포치, 해상도, 커널 사이즈, 스트라이드 사이즈 등이 될 수 있으나 이에 한정하지 않는다.
그리고 성능은 F1 점수 점수, 속도 등이 될 수 있으나 이에 한정하지 않는다.
도 11은 분류모델을 학습시키는 프로세스의 일 예시를 나타내었다. 구체적으로 1개의 합성곱 신경망 레이어를 사용할 수 있고 합성곱 신경망의 결과는 플래튼 함수를 거쳐 덴스 레이어로 이어지며, 최종 소프트맥스 함수로 분류를 진행하였다.
본 발명에 따른 밀결합 텐서로 학습된 분류모델을 이용하면 분류 대상인 멀티모달 컨텐츠를 단일 모달리티 알고리즘을 이용한 수준의 속도로 분류하면서도 분류 결과상 멀티 모달리티 아이덴티티를 보존하여 정확도 및 재현성이 향상될 수 있음을 알 수 있다.
도 12a 및 도 12d를 참조하여 설명한다. AN은 오디오 정보만 사용한 경우이다. AVN은 오디오 정보 및 비주얼 정보를 이용하되, 각각 별도의 신경망을 이용하여 플래튼 하고, 덴스 레이어로 만든 다음 소프트맥스 함수로 연결한 뒤 소프트맥스 연산하여 분류한 경우로 본 발명인 AV-TFN(Audio-Visual Tensor Fusion Network)과 같이 하나의 밀결합 텐서를 이용하지 않았고, 오디오에서 추출한 MFCC 정보와 openpose로 추출한 자세 좌표 데이터를 사용하였다.
도 12a의 x축과 y축은 입력 텐서의 해상도와 분류모델의 성능을 나타내는 F1점수이며, 입력 텐서의 해상도는 20*30의 배수이고 F1점수의 범위는 0-100이다. AN, AVN, AV-TFN 세 가지의 경우 입력 이미지 해상도가 증가함에 따라 F1점수가 높아지는 결과를 보였다. AVN의 경우 하나의 입력 값을 사용한 AN보다 F1점수가 낮았다. AV-TFN은 AN, AVN 보다 더 높은 F1점수를 보였다. AN, AVN, AV-TFN의 경우 이미지 해상도가 80*120 이상일 경우 F1 점수가 향상되지 않은 모습을 보였다. 이미지 해상도가 특정 수치 이상일 경우 정확도가 향상되지 않는다. 이미지 해상도가 높아질수록 MFCC의 샘플링 레이트와 멜 개수가 증가하는데 이로 인하여 고주파 노이즈가 증가하기 때문이라고 해석된다.
도 12b의 x축과 y축은 입력 텐서의 해상도 및 에러율(error rate)을 을 의미한다. AV-TFN이 AN, AVN 보다 더 낮은 에러율을 나타냈다.
도 12c의 x축과 y축은 입력 텐서의 해상도 및 트레이닝 시간을 의미한다. 입력 텐서 해상도는 배수로 증가시켰고, 트레이닝 속도 측정 단위는 초 단위이다. AN과 AVN은 입력 텐서 해상도가 증가함에 따라 트레이닝 속도와 테스트 시간이 길어지는 결과를 보였다. AV-TFN의 경우 입력 텐서 해상도가 증가해도 트레이닝 속도와 테스트 시간이 거의 증가하지 않는 결과를 보였다. 기존의 AVN 은 오디오 정보를 처리하는 네트워크와 비주얼 정보를 처리하는 네트워크를 차례로 처리해야 하기 때문에 테스트 속도와 트레이닝속도와 테스트 속도가 증가하지만 AV-TFN의 경우 두 가지 입력 값을 하나의 데이터 구조로 표현하고 이를 하나의 네트워크로 처리하기 때문에 트레이닝 속도와 테스트 속도가 빠르다.
도 12d는 이미지 해상도의 증가에 따른 실험 결과를 나타내는 표이다.(퍼센트 포인트 단위) 표를 참조하면, AV-TFN이 F1 점수에서 평균적으로 9.1161 퍼센트포인트 AN보다 높았으며, 16.7775 퍼센트포인트 AVN보다 높았다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형, 균등 내지 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100 : 수집 모듈
200 : 추출 모듈
300 : 결합 모듈
310 : 전처리 모듈
320 : 텐서생성 모듈
400 : 학습 모듈
500 : 분류 모듈

Claims (12)

  1. 멀티모달 밀결합 텐서 네트워크 구축 시스템에 의해 수행되는 멀티모달 밀결합 텐서 네트워크 구축 방법에 있어서,
    N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하는 단계;
    멀티모달 컨텐츠별로 상기 N 종류의 모달 개별 컨텐츠에서 N 종류의 모달 개별 특징을 추출하고, 상기 N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 하나의 밀결합 텐서를 생성하는 단계; 및
    상기 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  2. 제1항에 있어서,
    상기 밀결합 텐서를 생성하는 단계는,
    상기 N 종류의 모달 개별 특징을 N 종류의 모달 개별 텐서로 가공하고, 상기 N 종류의 모달 개별 텐서를 결합하여 상기 밀결합 텐서를 생성하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  3. 제1항에 있어서,
    상기 밀결합 텐서를 생성하는 단계는,
    상기 N 종류의 모달 개별 특징 간에 결합 가능하도록 상기 N 종류의 모달 개별 특징 각각을 신택스(syntax)로 변환하여 전처리하는 단계를 포함하고,
    상기 신택스(syntax)에 대응되고, 상기 N 종류의 모달 개별 특징에 관한 값을 포함하는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  4. 제3항에 있어서,
    상기 모달 개별 특징별 신택스(syntax)는,
    다차원의 행렬이며, 각각은 서로 동일한 차원, 채널 및 크기로 형성된 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  5. 제2항에 있어서,
    상기 밀결합 텐서를 생성하는 단계에서,
    상기 모달 개별 텐서는 상기 모달 개별 특징을 가공한 RGB 형식의 이미지 텐서이되,
    상기 모달 개별 텐서 중 어느 하나의 이미지 텐서는 그레이 스케일이며, 나머지 모달 개별 특징의 이미지 텐서는 컬러 스케일이고,
    상기 밀결합 텐서를 생성하는 단계는,
    상기 모달 개별 텐서 각각으로부터 CMYK 값을 추출하여 CMYK 신택스(syntax)로 변환하고, 상기 모달 개별 텐서 각각의 CMYK 신택스(syntax)에 대응되는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  6. 제3항에 있어서,
    상기 밀결합 텐서를 생성하는 단계는,
    상기 모달 개별 특징에 관한 값이 소정의 범위에서 벗어나 널이 발생하면, 상기 널이 발생한 시퀀스의 전 시퀀스 및 후 시퀀스의 평균값으로 상기 널의 값을 대체하는 단계를 포함하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  7. 제1항에 있어서,
    상기 분류모델을 이용하여 분류 대상인 멀티모달 컨텐츠를 분류하는 단계를 더 포함하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  8. 제1항에 있어서,
    상기 분류모델을 학습시키는 단계는,
    상기 밀결합 텐서의 일부를 학습 데이터로 하고, 나머지 밀결합 텐서를 검증 데이터로 하여 신경망에 입력하되, 분류 성능에 따라 상기 신경망 및 상기 밀결합 텐서의 하이퍼파라미터를 조정하여 분류모델을 학습시키는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  9. 제1항에 있어서,
    상기 밀결합 텐서를 생성하는 단계는,
    상기 모달 개별 특징별 결합 비율에 관한 가중치를 반영하여 상기 밀결합 텐서를 생성하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  10. 제1항에 있어서,
    상기 멀티모달 컨텐츠는 시청각 정보를 포함하는 동영상 데이터셋인 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 방법.
  11. N 종류의 모달 개별 컨텐츠를 포함하는 멀티모달 컨텐츠를 수집하는 수집 모듈;
    멀티모달 컨텐츠별로 상기 N 종류의 모달 개별 컨텐츠에서 추출된 N 종류의 모달 개별 특징을 생성하는 추출 모듈;
    상기 N 종류의 모달 개별 특징을 결합하여 멀티모달 컨텐츠별 밀결합 텐서를 생성하는 결합 모듈; 및
    상기 밀결합 텐서를 이용하여 멀티모달 컨텐츠의 분류모델을 학습시키는 학습 모듈;을 포함하는 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 시스템.
  12. 제11항에 있어서,
    상기 결합 모듈은,
    상기 멀티모달 컨텐츠를 M개의 시퀀스로 분할하고, 상기 시퀀스를 시계열적으로 정렬한 축을 포함하는 행렬의 집합인 제1 신택스(1st syntax)로 변환하여, 상기 모달 개별 특징을 정규화하고, 상기 모달 개별 특징을 모달 개별 텐서로 가공하는 전처리 모듈;
    상기 모달 개별 텐서별로 텐서 특징을 추출하고, 상기 텐서 특징을 N개 채널의 제 2 신택스(2nd syntax)로 변환하고, 상기 제2 신택스(2nd syntax)에 대응되는 행렬을 결합하여 상기 밀결합 텐서를 생성하는 텐서생성 모듈;을 포함하고,
    상기 제2 신택스(2nd syntax)의 각 채널은 상기 텐서 특징별로 할당된 것을 특징으로 하는,
    멀티모달 밀결합 텐서 네트워크 구축 시스템.
KR1020200156380A 2020-11-20 2020-11-20 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템 KR102553851B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200156380A KR102553851B1 (ko) 2020-11-20 2020-11-20 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200156380A KR102553851B1 (ko) 2020-11-20 2020-11-20 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20220069348A true KR20220069348A (ko) 2022-05-27
KR102553851B1 KR102553851B1 (ko) 2023-07-10

Family

ID=81791663

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200156380A KR102553851B1 (ko) 2020-11-20 2020-11-20 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR102553851B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306673A (zh) * 2023-03-16 2023-06-23 之江实验室 一种文本特征提取方法与系统、电子设备、介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
N. Majumder et al., "Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling," arXiv:1806.06228v1 [cs.CL] 16 Jun 2018 (2018.06.16.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306673A (zh) * 2023-03-16 2023-06-23 之江实验室 一种文本特征提取方法与系统、电子设备、介质
CN116306673B (zh) * 2023-03-16 2023-10-24 之江实验室 一种文本特征提取方法与系统、电子设备、介质

Also Published As

Publication number Publication date
KR102553851B1 (ko) 2023-07-10

Similar Documents

Publication Publication Date Title
EP4047598A1 (en) Voice matching method and related device
CN112088402A (zh) 用于说话者识别的联合神经网络
CN108363973B (zh) 一种无约束的3d表情迁移方法
KR101910089B1 (ko) 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
Sharma et al. Vision-based sign language recognition system: A Comprehensive Review
Wilhelm Towards facial expression analysis in a driver assistance system
Abiyev et al. Reconstruction of convolutional neural network for sign language recognition
Kumar et al. Artificial Emotional Intelligence: Conventional and deep learning approach
Wong et al. A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
Neverova Deep learning for human motion analysis
CN112183465A (zh) 一种基于人物属性和上下文的社会关系识别方法
CN112185515A (zh) 一种基于动作识别的病患辅助系统
KR102553851B1 (ko) 멀티모달 밀결합 텐서 네트워크 구축 방법 및 그 시스템
CN114743162A (zh) 一种基于生成对抗网络的跨模态行人重识别方法
US20200410210A1 (en) Pose invariant face recognition
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Afroze et al. An empirical framework for detecting speaking modes using ensemble classifier
Rohani et al. Lip segmentation in color images
Guo et al. Facial expression recognition: a review
Avanija et al. Facial expression recognition using convolutional neural network
Wang et al. Beyond view transformation: feature distribution consistent GANs for cross-view gait recognition
Yang et al. Fast image mosaicing for panoramic face recognition.
CN113902774A (zh) 一种稠密度光流特征在视频中的面部表情检测方法
Yaman et al. Ear2Face: Deep Biometric Modality Mapping
Abdulaziz et al. Optimized Deep Learning Model for Pose and Expression Invariant Face Recognition in an IoT-Cloud Environment

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant