KR20190056720A

KR20190056720A - 뉴럴 네트워크 학습 방법 및 디바이스

Info

Publication number: KR20190056720A
Application number: KR1020170153971A
Authority: KR
Inventors: 강성훈; 유창동
Original assignee: 삼성전자주식회사; 한국과학기술원
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2019-05-27
Also published as: US20190156203A1; KR102593438B1; US11640518B2

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다. 특히, 본 개시는 시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조(auxiliary) 모달리티 신호를 획득하고, 제 1 뉴럴 네트워크 모델을 이용한 타겟 모달리티 신호에 대한 특성 정보의 추출 및 제 2 뉴럴 네트워크 모델을 이용한 보조 모달리티 신호에 대한 시간 순서의 추정을 수행하며, 시간 순서의 추정 결과 및 추출된 특성 정보에 기초하여 타겟 모달리티 신호의 특성 정보 추출에 이용되는 제 1 뉴럴 네트워크 모델의 학습을 수행하는 뉴럴 네트워크 학습 방법에 관한 것이다.

Description

뉴럴 네트워크 학습 방법 및 디바이스 {METHOD AND DEVICE FOR LEARNING NEURAL NETWORK}

개시된 실시예는 뉴럴 네트워크 학습 방법, 뉴럴 네트워크 학습 디바이스 및 뉴럴 네트워크 학습 방법을 수행하는 프로그램이 기록된 기록매체에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

개시된 실시예는 서로 다른 도메인의 모달리티(modality) 신호에 기반하여 학습을 수행함으로써, 주목적에 해당하는 타겟 태스크의 성능을 향상시키는 뉴럴 네트워크 학습 방법 및 디바이스를 제공할 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 방법은, 시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조(auxiliary) 모달리티 신호를 획득하는 단계; 제 1 뉴럴 네트워크 모델을 이용한 타겟 모달리티 신호에 대한 특성 정보의 추출 및 제 2 뉴럴 네트워크 모델을 이용한 보조 모달리티 신호에 대한 시간 순서의 추정을 수행하는 단계; 및 시간 순서의 추정 결과 및 추출된 특성 정보에 기초하여 타겟 모달리티 신호의 특성 정보 추출에 이용되는 제 1 뉴럴 네트워크 모델의 학습을 수행하는 단계를 포함할 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 방법에 있어서, 학습을 수행하는 단계는, 시간 순서의 추정 결과를 기반으로 획득된 제 1 오류 신호 및 추출된 특성 정보를 기반으로 획득된 제 2 오류 신호를 이용하여, 제 1 뉴럴 네트워크 모델 및 제 2 뉴럴 네트워크 모델의 가중치를 업데이트 하여 학습을 수행할 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 방법에 있어서, 시간 순서의 추정을 수행하는 단계는, 추출된 특성 정보를 이용하여, 보조 모달리티 신호를 기초로 상기 시간 순서의 추정을 수행할 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 방법은, 객체를 구성하는 제 1 도메인의 모달리티 신호 및 제 2 도메인의 모달리티 신호를 획득하는 단계를 더 포함하고, 획득하는 단계는, 시간 순서에 따라 정렬된 제 1 도메인의 모달리티 신호 및 시간 순서에 따라 정렬되지 않은 제 2 도메인의 모달리티 신호를 각각 제 1 타겟 모달리티 신호 및 제 1 보조 모달리티 신호로 획득하고, 시간 순서에 따라 정렬된 제 2 타입의 모달리티 신호 및 시간 순서에 따라 정렬되지 않은 제 1 타입의 모달리티 신호를 각각 제 2 타겟 모달리티 신호 및 제 2 보조 모달리티 신호로 획득할 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 방법은, 제 1 타겟 모달리티 신호의 분류 결과 및 제 1 보조 모달리티 신호의 시간 순서의 추정 결과에 기초하여 학습된 뉴럴 네트워크 모델 및 제 2 타겟 모달리티 신호의 분류 결과 및 제 2 보조 모달리티 신호의 시간 순서의 추정 결과에 기초하여 학습된 뉴럴 네트워크 모델 각각으로부터 제 1 타겟 모달리티 신호의 특성 정보 및 제 2 타겟 모달리티 신호의 특성 정보를 조합하여, 객체의 카테고리를 결정하는 단계를 더 포함할 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 디바이스는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조(auxiliary) 모달리티 신호를 획득하고, 제 1 뉴럴 네트워크 모델을 이용한 타겟 모달리티 신호에 대한 특성 정보의 추출 및 제 2 뉴럴 네트워크 모델을 이용한 보조 모달리티 신호에 대한 시간 순서의 추정을 수행하며, 시간 순서의 추정 결과 및 추출된 특성 정보에 기초하여 타겟 모달리티 신호의 특성 정보 추출에 이용되는 제 1 뉴럴 네트워크 모델의 학습을 수행할 수 있다.

도 1은 일 실시예에 따른 뉴럴 네트워크 학습 방법을 설명하기 위한 흐름도이다.
도 2a 및 도 2b는 일 실시예에 따른 디바이스가 뉴럴 네트워크를 학습시키는 방법을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 디바이스가 서로 다른 도메인의 모달리티 신호를 이용하여 타겟 태스크를 수행하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 디바이스가 서로 다른 도메인의 모달리티 신호를 이용하여 타겟 태스크를 수행하는 방법을 보다 구체적으로 설명하기 위한 도면이다.
도 5 및 도 6은 일 실시예에 따른 클래스 인식을 위한 뉴럴 네트워크 학습 디바이스의 블록도이다.
도 7은 일 실시예에 따른 프로세서를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 데이터 학습부의 블록도이다.
도 9는 일 실시예에 따른 데이터 인식부의 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되지는 않는다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 항목들의 조합 또는 복수의 관련된 항목들 중의 어느 하나의 항목을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 특성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은 일 실시예에 따른 뉴럴 네트워크 학습 방법을 설명하기 위한 흐름도이다.

단계 S110에서, 뉴럴 네트워크 학습 디바이스(이하, 디바이스)는 시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조 모달리티 신호를 획득할 수 있다.

일 실시예에 따른 디바이스는 서로 다른 도메인의 모달리티 신호를 획득할 수 있다. 여기에서, 도메인은 신호가 포함하고 있는 정보의 종류에 따라 결정될 수 있으며, 예를 들어, 오디오 신호, 비전(vision) 신호, GPS 신호 및 가속도 신호 등은 서로 다른 도메인의 모달리티 신호로 설명될 수 있다.

일 실시예에 따른 디바이스는 서로 다른 도메인의 모달리티 신호를 타겟 모달리티 신호 및 보조 모달리티 신호로 구분할 수 있다. 이 때, 타겟 모달리티 신호 및 보조 모달리티 신호는 뉴럴 네트워크 모델을 이용하여 추출하고자 하는 특성 정보에 따라 결정될 수 있다. 예를 들어, 디바이스는 비전 신호에 해당하는 제 1 도메인의 모달리티 신호를 타겟 모달리티 신호로 결정하고, 오디오 신호에 해당하는 제 2 도메인의 모달리티 신호를 보조 모달리티 신호로 결정할 수 있다. 다만, 이는 일 예일 뿐, 디바이스에서 결정되는 타겟 모달리티 신호 및 보조 모달리티 신호가 비전 신호 및 오디오 신호에 한정되는 것은 아니다.

또한, 타겟 모달리티 신호의 경우 시간 순서에 따라 정렬된 신호이지만, 디바이스는 보조 모달리티 신호의 시간 순서가 임의의 순서대로 배열되도록 뒤섞음(shuffle)으로써, 시간 순서가 정렬되지 않은 보조 모달리티 신호를 획득할 수 있다.

단계 S120에서, 디바이스는 제 1 뉴럴 네트워크 모델을 이용한 타겟 모달리티 신호에 대한 특성 정보의 추출 및 제 2 뉴럴 네트워크 모델을 이용한 보조 모달리티 신호에 대한 시간 순서의 추정을 수행할 수 있다.

일 실시예에 따른 디바이스는 제 1 뉴럴 네트워크 모델을 이용하여 타겟 모달리티 신호로부터 특성 정보를 추출할 수 있다. 여기에서, 특성 정보는 타겟 모달리티 신호의 정보가 담겨있는 표현(representation)으로, 제 1 뉴럴 네트워크 모델은 타겟 태스크의 성능을 향상시킬 수 있는 특성 정보를 추출하기 위해 반복적으로 학습될 수 있다. 학습 과정에 대해서는 도 2a 및 도 2b를 참조하여 보다 구체적으로 후술하도록 한다. 본 명세서에서, 제 1 뉴럴 네트워크 모델은 시퀀셜(sequential) 모델로 설명될 수도 있다.

또한, 디바이스는 제 2 뉴럴 네트워크 모델을 이용하여 시간 순서에 따라 정렬되지 않은 보조 모달리티 신호의 시간 순서를 추정할 수 있다. 이 때, 디바이스는 보조 모달리티 신호의 시간 순서를 추정하기 위해, 제 1 뉴럴 네트워크 모델로부터 추출된 특성 정보를 이용할 수 있다. 제 2 뉴럴 네트워크 모델은 타겟 모달리티 신호의 특성 정보를 입력으로 획득함으로써, 타겟 모달리티 신호와 보조 모달리티 신호 간의 관계성에 대해 학습할 수 있다.

단계 S130에서, 디바이스는 시간 순서의 추정 결과 및 추출된 특성 정보에 기초하여 타겟 모달리티 신호의 특성 정보 추출에 이용되는 제 1 뉴럴 네트워크 모델의 학습을 수행할 수 있다.

디바이스는 시간 순서의 추정 결과를 기반으로 획득된 제 1 오류(loss) 신호와 추출된 특성 정보를 기반으로 획득된 제 2 오류 신호를 이용하여, 제 1 뉴럴 네트워크 모델 및 제 2 뉴럴 네트워크 모델의 가중치를 업데이트 할 수 있다. 또한, 디바이스는 시간 순서의 추정 결과를 기반으로 획득된 제 1 오류 신호를 기초로 제 2 뉴럴 네트워크 모델의 학습을 수행할 수 있다.

디바이스는 타겟 모달리티 신호의 특성 정보 뿐만 아니라, 다른 도메인에 해당하는 보조 모달리티 신호의 시간 순서의 추정 결과를 뉴럴 네트워크 모델의 학습에 이용함으로써, 목표가 되는 타겟 태스크의 성능을 향상시킬 수 있다. 여기에서, 타겟 태스크는 컨텐트, 사물, 사람 등을 포함하는 객체의 카테고리를 결정하는 등의 태스크를 포함할 수 있다. 예를 들어, 디바이스는 비디오를 구성하는 비전 신호의 특성 정보와 함께 시간 순서가 정렬되지 않은 오디오 신호에 대한 시간 순서의 추정 결과를 이용하여 뉴럴 네트워크 모델을 학습시킴으로써, 뉴럴 네트워크 모델의 타겟 태스크에 해당하는 비디오의 카테고리의 분류 성능을 향상시킬 수 있다.

도 2a 및 도 2b는 일 실시예에 따른 디바이스가 뉴럴 네트워크를 학습시키는 방법을 설명하기 위한 도면이다.

도 2a를 참조하면, 디바이스는 서로 다른 도메인의 모달리티 신호(210, 220)를 획득할 수 있다. 본 실시예에서는, 서로 다른 도메인의 모달리티 신호(210, 220) 중 제 1 도메인의 모달리티 신호(210)를 타겟 모달리티 신호로 이용하고, 제 2 도메인의 모달리티 신호(220)를 보조 모달리티 신호로 이용하는 것으로 가정한다. 예를 들어, 제 1 도메인의 모달리티 신호(210)는 비디오 컨텐트를 구성하는 비전 신호일 수 있고, 제 2 도메인의 모달리티 신호(220)는 비디오 컨텐트를 구성하는 오디오 신호일 수 있다.

한편, 디바이스는 시간 순서에 따라 정렬된 제 1 도메인의 모달리티 신호(210)를 제 1 네트워크 모델(220)에 입력할 수 있다. 디바이스는 제 1 뉴럴 네트워크 모델로부터 제 1 도메인의 모달리티 신호(210)의 특성 정보(240)를 추출할 수 있다. 추출된 특성 정보(240)는 비디오 컨텐트의 특성을 나타내는 벡터 형태의 정보일 수 있고, 특성 정보(240)를 기초로 비디오 컨텐트의 카테고리가 결정될 수 있다.

또한, 디바이스는 시간 순서에 따라 정렬되지 않은 제 2 도메인의 모달리티 신호(215)를 제 2 뉴럴 네트워크 모델에 입력할 수 있다. 또한, 디바이스는 제 1 뉴럴 네트워크 모델로부터 획득된 특성 정보를 제 2 뉴럴 네트워크 모델에 함께 적용하여, 제 2 도메인의 모달리티 신호(215)의 시간 순서를 추정할 수 있다. 이에 따라, 시간 순서에 따라 정렬된 제 2 도메인의 모달리티 신호(250)가 획득될 수 있다.

도 2b를 참조하면, 디바이스는 제 1 뉴럴 네트워크 모델의 출력을 기반으로 한 오류 신호와 제 2 뉴럴 네트워크 모델의 출력을 기반으로 한 오류 신호를 기초로 제 1 뉴럴 네트워크 모델의 학습을 수행할 수 있다. 일 실시예에 따른 디바이스는 서로 다른 도메인의 모달리티 신호를 이용함으로써, 제 1 뉴럴 네트워크 모델에 타겟 모달리티 신호와 보조 모달리티 신호와의 관계성을 학습시킬 수 있고, 동시에 제 1 뉴럴 네트워크 모델이 시간적 흐름 정보를 반영한 특성 정보를 추출하도록 학습시킬 수 있다.

도 3은 일 실시예에 따른 디바이스가 서로 다른 도메인의 모달리티 신호를 이용하여 타겟 태스크를 수행하는 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 디바이스는 서로 다른 도메인의 모달리티 신호에 대해 각각 타겟 모달리티 신호와 보조 모달리티 신호를 스위칭하여 획득한 결과를 조합하여, 타겟 태스크를 수행할 수 있다.

예를 들어, 디바이스는 비디오 컨텐트를 구성하는 비전 신호와 오디오 신호를 서로 다른 도메인의 모달리티 신호로서 획득할 수 있다. 디바이스는 시간 순서에 따라 정렬된 비전 신호를 제 1 타겟 모달리티 신호(310)로 결정하고, 시간 순서가 뒤섞인 오디오 신호를 제 1 보조 모달리티 신호(315)로 결정할 수 있다. 또한, 디바이스는 시간 순서에 따라 정렬된 오디오 신호를 제 2 타겟 모달리티 신호(320)로 결정하고, 시간 순서가 뒤섞인 비디오 신호를 제 2 보조 모달리티 신호(325)로 결정할 수 있다.

일 실시예에 따른 디바이스는 제 1 SPN(Sequence Puzzle Network, 330)에 제 1 타겟 모달리티 신호(310) 및 제 1 보조 모달리티 신호(315)를 입력할 수 있다. 여기에서, 제 1 SPN(330)은 도 1 및 도 2를 참조하여 전술한 제 1 뉴럴 네트워크 모델 및 제 2 뉴럴 네트워크 모델과 각각 동일한 역할을 수행하는 적어도 하나의 뉴럴 네트워크 모델로 구성될 수 있다.

디바이스의 제 1 SPN(330)으로부터 획득된 특성 정보는 제 1 LSTM(Long Short Term Memory, 350) 네트워크와 제 1 소프트맥스(softmax, 370)로 구성된 분류기에 전달될 수 있다. 디바이스는 분류기로부터 추정된 비디오 컨텐트의 카테고리 정보를 획득할 수 있다.

또한, 디바이스는 제 2 SPN(Sequence Puzzle Network, 340)에 제 2 타겟 모달리티 신호(320) 및 제 2 보조 모달리티 신호(325)를 입력할 수 있다. 여기에서, 제 2 SPN(340)은 도 1 및 도 2를 참조하여 전술한 제 1 뉴럴 네트워크 모델 및 제 2 뉴럴 네트워크 모델과 각각 동일한 역할을 수행하는 적어도 하나의 뉴럴 네트워크 모델로 구성될 수 있다.

디바이스의 제 2 SPN(340)으로부터 획득된 특성 정보는 제 2 LSTM(Long Short Term Memory, 360) 네트워크와 제 2 소프트맥스(softmax, 380)로 구성된 분류기에 전달될 수 있다. 디바이스는 분류기로부터 추정된 비디오 컨텐트의 카테고리 정보를 획득할 수 있다.

일 실시예에 따른 디바이스는 각각의 분류기로부터 획득된 비디오 컨텐트의 카테고리 정보를 조합(aggregation)하여, 최종적으로 비디오 컨텐트의 카테고리(395)를 결정할 수 있다.

전술한 제 1 SPN(330) 및 제 2 SPN(340)은 각각의 타겟 모달리티 신호로부터 추정된 비디오 컨텐트의 카테고리에 대한 오류 신호를 최소화하고, 시간 순서가 뒤섞인 보조 모달리티 신호로부터 추정되는 시간 순서 정보에 대한 오류 신호를 최소화하도록 학습될 수 있다.

도 4는 일 실시예에 따른 디바이스가 서로 다른 도메인의 모달리티 신호를 이용하여 타겟 태스크를 수행하는 방법을 보다 구체적으로 설명하기 위한 도면이다.

도 4를 참조하면, 디바이스는 시간 순서에 따라 정렬된 제 1 도메인의 모달리티 신호를 타겟 모달리티 신호(410)로서 획득할 수 있다. 또한, 디바이스는 순서가 뒤섞인 제 2 도메인의 모달리티 신호를 보조 모달리티 신호(420)로서 획득할 수 있다.

타겟 모달리티 신호(410)를 구성하는 신호들인

,

은 각각 대응되는 CNN(Convolution neural network, 430)으로부터 특성 정보가 추출될 수 있다. 또한, 신호들로부터 추출된 특성 정보는 시퀀셜 모델(450)을 통해, 타겟 모달리티 신호(410) 전체의 특성을 나타낼 수 있는 특성 정보(480)로 변환될 수 있다.

보조 모달리티 신호(420)를 구성하는 신호인

,

또한, 각각 대응되는 CNN(440)으로부터 특성 정보가 추출될 수 있다. 또한, 신호들로부터 추출된 각각의 특성 정보는 각각의 시퀀셜 모델(460)을 통해 변환될 수 있다. 순서 추정 모델(470)은 변환된 특성 정보를 기초로 보조 모달리티 신호(470)의 시간 순서를 추정할 수 있다.

디바이스는 추정된 시간 순서에 따라 정렬된 보조 모달리티 신호(490)를 기반으로 획득된 오류 신호 및 특성 정보(480)를 기반으로 획득된 오류 신호를 기초로 타겟 모달리티 신호(410)에 대한 시퀀셜 모델(450)의 학습을 수행할 수 있다.

또한, 도 3을 참조하여 전술한 바와 같이, 서로 다른 도메인의 신호에 대해 타겟 모달리티 신호와 보조 모달리티 신호를 스위칭하여 특성 정보를 추출하는 경우, 스위칭 하기 전의 SPN과 스위칭 후의 SPN의 시퀀셜 모델이 서로 공유될 수 있다. 예를 들어, 비전 신호가 타겟 모달리티 신호인 경우에 이용되는 시퀀셜 모델은 비전 신호가 보조 모달리티 신호인 경우에 이용되는 각각의 시퀀셜 모델로서 이용될 수 있다.

도 5 및 도 6은 일 실시예에 따른 뉴럴 네트워크 학습 디바이스(500)의 블록도이다.

도 5를 참조하면, 뉴럴 네트워크 학습 디바이스(500, 이하, 디바이스)는 프로세서(510) 및 메모리(520)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 디바이스(500)는 프로세서(510) 및 메모리(520) 보다 더 적거나 더 많은 구성 요소를 포함할 수 있다. 예를 들어, 도 6을 참조하면, 다른 실시예에 따른 디바이스(600)는 프로세서(510) 및 메모리(520) 이외에 통신부(530) 및 출력부(540)를 더 포함할 수 있다. 또한, 다른 예에 따라, 디바이스(500)는 복수의 프로세서들을 포함할 수도 있다.

프로세서(510)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.

일 실시예에 따라 프로세서(510)는 도 1 내지 도 4을 참고하여 전술한 디바이스의 동작을 수행할 수 있다. 예를 들어, 프로세서(510)는 시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조 모달리티 신호를 획득할 수 있다. 프로세서(510)는 타겟 모달리티 신호에 대한 특성 정보의 추출 및 보조 모달리티 신호에 대한 시간 순서의 추정을 수행할 수 있다. 프로세서(510)는 시간 순서의 추정 결과 및 추출된 특성 정보에 기초하여 타겟 모달리티 신호의 특성 정보 추출에 이용되는 뉴럴 네트워크 모델의 학습을 수행할 수 있다.

또한, 프로세서(510)는 시간 순서의 추정 결과 및 추출된 특성 정보 각각에 대해 역전파되는 오류(loss) 신호를 이용하여, 뉴럴 네트워크 모델의 학습을 수행할 수 있다.

한편, 프로세서(510)는 프로세서(510) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(120)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

메모리(520)는 프로세서(510)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(520)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다. 일 실시예에 따라 메모리(520)는 도 7을 참고하여 후술할 데이터 학습부 및 데이터 인식부가 소프트웨어 모듈로 구성될 수 있다. 또한, 데이터 학습부 및 데이터 인식부는 각각 독립적으로 학습 네트워크 모델을 포함하거나, 하나의 학습 네트워크 모델을 공유할 수 있다.

통신부(530)는 외부 서버(예를 들어, 도 4의 서버 등) 및 기타 외부 장치와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(530)는 서로 다른 도메인의 타겟 모달리티 신호와 보조 모달리티 신호를 외부의 서버로부터 수신할 수 있다. 또한, 통신부(530)는 학습된 뉴럴 네트워크 모델을 이용하여 도출한 타겟 태스크의 결과를 외부의 서버에 전달할 수도 있다.

출력부(540)는 디바이스(500)에서 처리되는 신호 및 정보들을 표시할 수 있다. 예를 들어, 출력부(540)는 학습된 뉴럴 네트워크 모델을 통해 출력된 타겟 태스크의 결과를 표시할 수 있다.

한편, 디바이스(500)는 예를 들어, PC, 랩톱, 휴대폰, 마이크로 서버, GPS(global positioning system) 장치, 스마트 폰, 웨어러블 단말기, 전자책 단말기, 가전기기, 자동차 내의 전자 장치 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있다. 그러나, 이에 제한되지 않으며, 디바이스(500)는 데이터 프로세싱 기능을 구비한 모든 종류의 기기를 포함할 수 있다.

도 7은 일 실시예에 따른 프로세서(510)를 설명하기 위한 도면이다.

도 7을 참조하면, 일 실시예에 따른 프로세서(510)는 데이터 학습부(710) 및 데이터 인식부(720)를 포함할 수 있다.

데이터 학습부(710)는 타겟 모달리티 신호 및 보조 모달리티 신호 각각으로부터 특성 정보 및 시간 순서 정보를 획득하기 위한 기준을 학습할 수 있다. 예를 들어, 데이터 학습부(710)는 시간 순서에 따라 정렬된 타겟 모달리티 신호로부터 타겟 태스크를 수행하는데 이용되는 특성 정보를 획득하기 위한 기준을 학습할 수 있다. 또한, 데이터 학습부(710)는 시간 순서에 따라 정렬되지 않은 보조 모달리티 신호로부터 시간 순서를 추정하기 위한 기준을 학습할 수 있다.

데이터 인식부(720)는 데이터 학습부(710)를 통해 학습된 기준에 기초하여, 타겟 태스크를 수행할 수 있다. 여기에서, 타겟 태스크는 예를 들어, 객체의 클래스 인식 또는 시계열 데이터의 인식 등을 수행할 수 있다.

데이터 학습부(710) 및 데이터 인식부(720) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 뉴럴 네트워크 학습 디바이스에 탑재될 수 있다. 예를 들어, 데이터 학습부(710) 및 데이터 인식부(720) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 뉴럴 네트워크 학습 디바이스에 탑재될 수도 있다.

이 경우, 데이터 학습부(710) 및 데이터 인식부(720)는 하나의 뉴럴 네트워크 학습 디바이스에 탑재될 수도 있으며, 또는 별개의 뉴럴 네트워크 학습 디바이스에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(710) 및 데이터 인식부(720) 중 하나는 디바이스에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(710) 및 데이터 인식부(720)는 유선 또는 무선으로 통하여, 데이터 학습부(710)가 구축한 모델 정보를 데이터 인식부(720)로 제공할 수도 있고, 데이터 인식부(720)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(710)로 제공될 수도 있다.

한편, 데이터 학습부(710) 및 데이터 인식부(720) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(710) 및 데이터 인식부(720) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

도 8은 일 실시예에 따른 데이터 학습부(710)의 블록도이다.

도 8을 참조하면, 일부 실시예에 따른 데이터 학습부(710)는 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850)를 포함할 수 있다. 다만, 이는 일 실시예일 뿐, 전술한 구성 들 보다 적은 구성 요소로 데이터 학습부(710)가 구성되거나, 전술한 구성들 이외에 다른 구성 요소가 추가적으로 데이터 학습부(710)에 포함될 수 있다.

데이터 획득부(810)는 서로 다른 도메인의 모달리티 신호를 학습 데이터로 획득할 수 있다.

전처리부(820)는 타겟 태스크 수행에 획득된 모달리티 신호가 이용될 수 있도록, 획득된 이미지를 전처리할 수 있다. 전처리부(820)는 후술할 모델 학습부(840)가 학습을 위하여 획득된 적어도 하나의 모달리티 신호를 이용할 수 있도록, 획득된 적어도 하나의 모달리티 신호를 기 설정된 포맷으로 가공할 수 있다. 예를 들어, 전처리부(820)는 보조 모달리티 신호의 시간 순서를 뒤바꿀 수 있다.

학습 데이터 선택부(830)는 전처리된 데이터 중에서 학습에 필요한 모달리티 신호를 선택할 수 있다. 선택된 모달리티 신호는 모델 학습부(840)에 제공될 수 있다. 학습 데이터 선택부(830)는 설정된 기준에 따라, 전처리된 이미지 중에서 학습에 필요한 모달리티 신호를 선택할 수 있다.

모델 학습부(840)는 학습 네트워크 모델 내의 복수의 레이어에서 이미지로부터 어떠한 정보를 이용하여, 특성 정보를 획득하거나, 시간 순서를 추정하는지에 대한 기준을 학습할 수 있다. 또한, 모델 학습부(840)는 획득된 특성 정보 또는 시간 순서 추정 결과로부터 역전파되는 오류 신호를 이용하여, 타겟 태스크를 수행하는데 필요한 특성 정보의 추출 기준을 학습할 수 있다.

다양한 실시예에 따르면, 모델 학습부(840)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 객체의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

또한, 모델 학습부(840)는, 예를 들어, 학습에 따라 인식된 클래스가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 생성 모델을 학습시킬 수 있다.

또한, 데이터 생성 모델이 학습되면, 모델 학습부(840)는 학습된 데이터 생성 모델을 저장할 수 있다. 이 경우, 모델 학습부(840)는 학습된 데이터 생성 모델을 데이터 획득부(810)를 포함하는 뉴럴 네트워크 학습 디바이스의 메모리에 저장할 수 있다. 또는, 모델 학습부(840)는 학습된 데이터 생성 모델을 뉴럴 네트워크 학습 디바이스와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 생성 모델이 저장되는 메모리는, 예를 들면, 뉴럴 네트워크 학습 디바이스의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 애플리케이션 프로그래밍 인터페이스(API) 및/또는 애플리케이션 프로그램(또는 "애플리케이션") 등을 포함할 수 있다.

모델 평가부(850)는 데이터 생성 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 추가 학습 데이터의 생성 결과, 소정 기준을 만족하지 못하는 경우, 모델 학습부(840)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 생성 모델을 평가하기 위한 기 설정된 데이터일 수 있다.

한편, 학습 네트워크 모델이 복수 개 존재하는 경우, 모델 평가부(750)는 각각의 학습 네트워크 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 학습 네트워크 모델로서 결정할 수 있다.

한편, 데이터 학습부(710) 내의 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 뉴럴 네트워크 학습 디바이스에 탑재될 수 있다. 예를 들어, 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 뉴럴 네트워크 학습 디바이스 에 탑재될 수도 있다.

또한, 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850)는 하나의 뉴럴 네트워크 학습 디바이스에 탑재될 수도 있으며, 또는 별개의 뉴럴 네트워크 학습 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850) 중 일부는 뉴럴 네트워크 학습 디바이스에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(810), 전처리부(820), 학습 데이터 선택부(830), 모델 학습부(840) 및 모델 평가부(850) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.

도 9는 일 실시예에 따른 데이터 인식부(720)의 블록도이다.

도 9를 참조하면, 일부 실시예에 따른 데이터 인식부(720)는 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950)를 포함할 수 있다.

데이터 획득부(910)는 서로 다른 도메인의 모달리티 신호를 학습 데이터로 획득할 수 있다. 또한, 전처리부(920)는 타겟 모달리티 신호의 특성 정보 추출 또는 보조 모달리티 신호의 시간 순서 추정을 위해 획득된 서로 다른 도메인의 모달리티 신호가 이용될 수 있도록, 획득된 모달리티 신호를 전처리할 수 있다. 전처리부(920)는 후술할 인식 결과 제공부(940)가 타겟 태스크를 수행하기 위해 모달리티 신호를 이용할 수 있도록, 획득된 모달리티 신호를 기 설정된 포맷으로 가공할 수 있다. 인식 데이터 선택부(930)는 전처리된 데이터 중에서 특성 추출 또는 클래스 인식에 필요한 모달리티 신호를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(840)에게 제공될 수 있다.

인식 결과 제공부(940)는 선택된 모달리티 신호를 일 실시예에 따른 학습 네트워크 모델에 적용하여 특성 정보를 추출하거나, 모달리티 신호와 관련된 객체의 카테고리를 인식할 수 있다. 학습 네트워크 모델에 적어도 하나의 이미지를 입력하여 특성 정보를 추출하거나 객체의 카테고리를 인식하는 방법은 도 1 내지 4을 참고하여 전술한 방법과 대응될 수 있다.

인식 결과 제공부(940)는 타겟 태스크를 수행한 결과를 제공할 수 있다.

모델 갱신부(950)는 인식 결과 제공부(940)에 의해 제공되는 타겟 태스크 수행 결과에 대한 평가에 기초하여, 학습 네트워크 모델에 포함된 종분류 네트워크 또는 적어도 하나의 특성 추출 레이어의 파라미터 등이 갱신되도록 평가에 대한 정보를 도 8을 참고하여 전술한 모델 학습부(840)에게 제공할 수 있다.

한편, 데이터 인식부(720) 내의 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 뉴럴 네트워크 학습 디바이스에 탑재될 수 있다. 예를 들어, 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950) 중 적어도 하나는 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 뉴럴 네트워크 학습 디바이스에 탑재될 수도 있다.

또한, 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950)는 하나의 뉴럴 네트워크 학습 디바이스에 탑재될 수도 있으며, 또는 별개의 뉴럴 네트워크 학습 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950) 중 일부는 뉴럴 네트워크 학습 디바이스에 포함되고, 나머지 일부는 서버에 포함될 수 있다.

또한, 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(910), 전처리부(920), 인식 데이터 선택부(930), 인식 결과 제공부(940) 및 모델 갱신부(950) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 어플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 어플리케이션에 의해 제공될 수 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조(auxiliary) 모달리티 신호를 획득하는 단계;
제 1 뉴럴 네트워크 모델을 이용한 상기 타겟 모달리티 신호에 대한 특성 정보의 추출 및 제 2 뉴럴 네트워크 모델을 이용한 상기 보조 모달리티 신호에 대한 시간 순서의 추정을 수행하는 단계; 및
상기 시간 순서의 추정 결과 및 상기 추출된 특성 정보에 기초하여 상기 타겟 모달리티 신호의 특성 정보 추출에 이용되는 상기 제 1 뉴럴 네트워크 모델의 학습을 수행하는 단계를 포함하는, 뉴럴 네트워크 학습 방법.
제 1 항에 있어서, 상기 학습을 수행하는 단계는,
상기 시간 순서의 추정 결과를 기반으로 획득된 제 1 오류 신호 및 상기 추출된 특성 정보를 기반으로 획득된 제 2 오류 신호를 이용하여, 상기 제 1 뉴럴 네트워크 모델 및 상기 제 2 뉴럴 네트워크 모델의 가중치를 업데이트 하여 학습을 수행하는, 뉴럴 네트워크 학습 방법.
제 1 항에 있어서, 상기 시간 순서의 추정을 수행하는 단계는,
상기 추출된 특성 정보를 이용하여, 상기 보조 모달리티 신호를 기초로 상기 시간 순서의 추정을 수행하는, 뉴럴 네트워크 학습 방법.
제 1 항에 있어서,
객체를 구성하는 제 1 도메인의 모달리티 신호 및 제 2 도메인의 모달리티 신호를 획득하는 단계를 더 포함하고,
상기 획득하는 단계는,
시간 순서에 따라 정렬된 제 1 도메인의 모달리티 신호 및 시간 순서에 따라 정렬되지 않은 제 2 도메인의 모달리티 신호를 각각 제 1 타겟 모달리티 신호 및 제 1 보조 모달리티 신호로 획득하고,
시간 순서에 따라 정렬된 제 2 타입의 모달리티 신호 및 시간 순서에 따라 정렬되지 않은 제 1 타입의 모달리티 신호를 각각 제 2 타겟 모달리티 신호 및 제 2 보조 모달리티 신호로 획득하는, 뉴럴 네트워크 학습 방법.
제 4 항에 있어서,
상기 제 1 타겟 모달리티 신호의 분류 결과 및 상기 제 1 보조 모달리티 신호의 시간 순서의 추정 결과에 기초하여 학습된 뉴럴 네트워크 모델 및 상기 제 2 타겟 모달리티 신호의 분류 결과 및 상기 제 2 보조 모달리티 신호의 시간 순서의 추정 결과에 기초하여 학습된 뉴럴 네트워크 모델 각각으로부터 제 1 타겟 모달리티 신호의 특성 정보 및 제 2 타겟 모달리티 신호의 특성 정보를 조합하여, 상기 객체의 카테고리를 결정하는 단계를 더 포함하는, 뉴럴 네트워크 학습 방법.
하나 이상의 인스트럭션을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
시간 순서에 따라 정렬된 제 1 도메인의 타겟 모달리티 신호와 시간 순서에 따라 정렬되지 않은 제 2 도메인의 보조(auxiliary) 모달리티 신호를 획득하고,
제 1 뉴럴 네트워크 모델을 이용한 상기 타겟 모달리티 신호에 대한 특성 정보의 추출 및 제 2 뉴럴 네트워크 모델을 이용한 상기 보조 모달리티 신호에 대한 시간 순서의 추정을 수행하며,
상기 시간 순서의 추정 결과 및 상기 추출된 특성 정보에 기초하여 상기 타겟 모달리티 신호의 특성 정보 추출에 이용되는 상기 제 1 뉴럴 네트워크 모델의 학습을 수행하는, 뉴럴 네트워크 학습 디바이스.
제 6항에 있어서, 상기 적어도 하나의 프로세서는,
상기 시간 순서의 추정 결과를 기반으로 획득된 제 1 오류 신호 및 상기 추출된 특성 정보를 기반으로 획득된 제 2 오류 신호를 이용하여, 상기 제 1 뉴럴 네트워크 모델 및 상기 제 2 뉴럴 네트워크 모델의 가중치를 업데이트 하여 학습을 수행하는, 뉴럴 네트워크 학습 디바이스.
제 6항에 있어서, 상기 적어도 하나의 프로세서는,
상기 추출된 특성 정보를 이용하여, 상기 보조 모달리티 신호를 기초로 상기 시간 순서의 추정을 수행하는, 뉴럴 네트워크 학습 디바이스.
제 6 항에 있어서, 상기 적어도 하나의 프로세서는,
객체를 구성하는 제 1 도메인의 모달리티 신호 및 제 2 도메인의 모달리티 신호를 획득하고,
시간 순서에 따라 정렬된 제 1 도메인의 모달리티 신호 및 시간 순서에 따라 정렬되지 않은 제 2 도메인의 모달리티 신호를 각각 제 1 타겟 모달리티 신호 및 제 1 보조 모달리티 신호로 획득하고,
시간 순서에 따라 정렬된 제 2 타입의 모달리티 신호 및 시간 순서에 따라 정렬되지 않은 제 1 타입의 모달리티 신호를 각각 제 2 타겟 모달리티 신호 및 제 2 보조 모달리티 신호로 획득하는, 뉴럴 네트워크 학습 디바이스.
제 9 항에 있어서, 상기 적어도 하나의 프로세서는,
상기 제 1 타겟 모달리티 신호의 분류 결과 및 상기 제 1 보조 모달리티 신호의 시간 순서의 추정 결과에 기초하여 학습된 뉴럴 네트워크 모델 및 상기 제 2 타겟 모달리티 신호의 분류 결과 및 상기 제 2 보조 모달리티 신호의 시간 순서의 추정 결과에 기초하여 학습된 뉴럴 네트워크 모델 각각으로부터 제 1 타겟 모달리티 신호의 특성 정보 및 제 2 타겟 모달리티 신호의 특성 정보를 조합하여, 상기 객체의 카테고리를 결정하는, 뉴럴 네트워크 학습 디바이스.
제 1항 내지 제 5항 중 어느 하나의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.