KR20230007998A

KR20230007998A - 멀티태스크의 인식 방법, 훈련 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램

Info

Publication number: KR20230007998A
Application number: KR1020220185130A
Authority: KR
Inventors: 난 펭; 비 리; 텡 시; 강 장
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2022-03-30
Filing date: 2022-12-27
Publication date: 2023-01-13
Also published as: CN114723966B; CN114723966A; US20230186607A1; JP2023040100A

Abstract

본 개시는 멀티태스크의 인식 방법, 훈련 방법, 장치, 전자 기기 및 저장 매체를 제공하고, 인공지능 기술분야에 관한 것이며, 특히 딥러닝, 영상 처리, 컴퓨터 비전 기술분야에 관한 것이고, 안면 등의 장면에 응용할 수 있다. 구체적인 구현 방안은, 피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하고; 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하고; 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하고; 제2 중간 특징 데이터를 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 것이다.

Description

멀티태스크의 인식 방법, 훈련 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램{Multi-task recognition method, training method, device, electronic device, storage medium and computer program}

본 개시는 인공지능 기술분야에 관한 것이며, 특히 딥러닝, 영상 처리, 컴퓨터 비전 기술분야에 관한 것이고, 안면 등의 장면에 응용할 수 있다. 구체적으로, 멀티태스크의 인식 방법, 훈련 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

컴퓨터 기술의 발전에 따라, 인공지능 기술도 발전되고 있다. 인공지능 기술은 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술, 머신러닝, 딥러닝, 빅데이터 처리 기술 및 지식 그래프 기술 등을 포함할 수 있다.

인공지능 기술은 여러 분야에 광범위하게 응용되고 있다. 예를 들어, 인공지능 기술을 이용하여 멀티태스크(Multi-Task)의 인식을 실현할 수 있다.

본 개시는 멀티태스크의 인식 방법, 훈련 방법, 장치, 전자 기기 및 저장 매체를 제공한다.

본 개시의 일 측면에 따르면, 피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하고; 목표 선택 전략(策略) 및 상기 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하고; 상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하고; 상기 제2 중간 특징 데이터를 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 것을 포함하는 멀티태스크의 인식 방법을 제공한다.

본 개시의 다른 측면에 따르면, 샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득하고; 선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하고; 상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하고; 상기 제2 중간 샘플 특징 데이터를 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하고; 상기 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득하는 것을 포함하는 딥러닝 모델의 훈련 방법을 제공한다.

본 개시의 다른 측면에 따르면, 피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하기 위한 제1 획득 모듈; 목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하기 위한 제2 획득 모듈; 상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하기 위한 제3 획득 모듈; 및 상기 제2 중간 특징 데이터를 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하기 위한 제4 획득 모듈을 포함하는 멀티태스크의 인식 장치를 제공한다.

본 개시의 다른 측면에 따르면, 샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득하기 위한 제5 획득 모듈; 선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하기 위한 제6 획득 모듈; 상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하기 위한 제7 획득 모듈; 상기 제2 중간 샘플 특징 데이터를 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하기 위한 제8 획득 모듈; 및 상기 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 상기 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득하기 위한 제9 획득 모듈을 포함하는 딥러닝 모델의 훈련 장치를 제공한다.

본 개시의 다른 측면에 따르면, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하며, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어가 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 본 개시의 방법을 수행 가능하게 하는 전자 기기를 제공한다.

본 개시의 다른 측면에 따르면, 컴퓨터로 하여금 본 개시의 방법을 수행하게 하기 위한 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체를 제공한다.

본 개시의 다른 측면에 따르면, 프로세서에 의해 실행될 때 본 개시의 방법을 구현하는 컴퓨터 프로그램이 포함되어 있는 컴퓨터 프로그램 제품을 제공한다.

이 부분에서 설명한 내용은 본 개시의 실시예의 핵심 또는 중요한 특징들을 표시하기 위한 것이 아니며, 본 개시의 범위를 한정하는 데 사용하지 않는다는 것을 이해해야 한다. 본 개시의 기타 특징은 아래의 명세서를 통해 쉽게 이해할 수 있게 될 것이다.

첨부된 도면은 본 방안을 더 잘 이해하기 위한 것이며, 본 개시에 대해 한정하지 않는다. 여기서,
도 1은 본 개시의 실시예에 따른 멀티태스크의 인식 방법, 딥러닝 모델의 훈련 방법 및 장치를 적용 가능한 예시적인 시스템 구성을 개략적으로 나타내고;
도 2는 본 개시의 실시예에 따른 멀티태스크의 인식 방법의 흐름도를 개략적으로 나타내고;
도 3은 본 개시의 실시예에 따른 피인식 영상을 토대로 제1 중간 특징 데이터를 획득하는 흐름도를 개략적으로 나타내고;
도 4는 본 개시의 실시예에 따른, 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하는 흐름도를 개략적으로 나타내고;
도 5는 본 개시의 실시예에 따른 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하는 흐름도를 개략적으로 나타내고;
도 6은 본 개시의 실시예에 따른 제2 중간 특징 데이터를 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 흐름도를 개략적으로 나타내고;
도 7은 본 개시의 실시예에 따른 멀티태스크의 인식 방법의 예시적인 설명도를 개략적으로 나타내고;
도 8은 본 개시의 실시예에 따른 딥러닝 모델의 훈련 방법의 흐름도를 개략적으로 나타내고;
도 9a는 본 개시의 실시예에 따른 딥러닝 모델의 예시적인 설명도를 개략적으로 나타내고;
도 9b는 본 개시의 실시예에 따른 백본 서브 모듈의 개략적인 예시도를 개략적으로 나타내고;
도 10은 본 개시의 실시예에 따른 딥러닝 모델의 훈련 방법의 개략적인 예시도를 개략적으로 나타내고;
도 11은 본 개시의 실시예에 따른 멀티태스크의 인식 장치의 블록도를 개략적으로 나타내고;
도 12는 본 개시의 실시예에 따른 딥러닝 모델의 훈련 장치의 블록도를 개략적으로 나타내고;
도 13은 본 개시의 실시예에 따른 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법을 실현하기에 적합한 전자 기기의 블록도를 개략적으로 나타낸다.

이하, 첨부된 도면을 참조하여 본 발명의 예시적인 실시예를 상세히 설명하기로 한다. 이해를 돕기 위하여 그 중에는 본 개시의 실시예의 다양한 세부사항이 포함되어 있으며, 이들을 단지 예시적인 것으로 간주해야 한다. 따라서, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 범위 및 사상을 벗어나는 것이 없이 여기서 설명된 실시예에 대해 다양한 변경 및 수정을 진행할 수 있음을 인식해야 한다. 마찬가지로, 명확하고 간결하기 위하여, 아래 설명 중에는 공지 기능 또는 구성에 대한 설명은 생략하도록 한다.

컴퓨터 비전의 인식 분야에서, 인식 모델의 훈련 과정은, 범용 공개 샘플 세트를 이용하여 사전 훈련을 진행하고, 하류 인식 태스크의 샘플을 이용하여 사전 훈련된 인식 모델의 모델 파라미터를 미세 조정하여, 인식 모델을 획득하는 것이다. 상술한 방식에 기초하여, 사전 훈련된 인식 모델에 대해 미세 조정하면 하류 인식 태스크에 대응하는 인식 모델을 획득할 수 있으며, 모델의 수렴 속도가 더 빨라지고, 계산 자원의 소비가 줄인다. 또한, 어떤 하류 인식 태스크의 샘플 수는 비교적 적기 때문에, 직접적으로 훈련하는 것보다, 더 높은 인식 정확도를 달성할 수 있다.

그러나, 하류 인식 태스크의 데이터 분포는 범용 공개 샘플의 데이터 분포와 차이가 있는데, 미세 조정 단계에서 재난적 망각 문제가 존재하기 때문에, 인식 정확도에 영향을 준다. 사전 훈련 단계에서 멀티태스크를 인식 하면, 즉, 하류 인식 태스크의 데이터와 유사한 데이터가 사전 훈련 단계의 모델 훈련에 참가하게 하면, 미세 조정 단계에서의 재난적 망각 문제를 효과적으로 피하여, 하류 인식 태스크의 인식 정확도를 더욱 높일 수 있다. 따라서, 멀티태스크의 인식에 대한 연구는 컴퓨터 비전의 인식 분야에서의 중요한 과제이다. 이에 따라, 멀티태스크의 인식 정확도를 높이기 위해서는 합리적인 멀티태스크의 인식 방안을 설계해야 한다.

도 1은 본 개시의 실시예에 따른 멀티태스크의 인식 방법, 딥러닝 모델의 훈련 방법 및 장치를 적용 가능한 예시적인 시스템 구성을 개략적으로 나타낸다.

도 1에 도시된 것은 본 개시의 실시예의 시스템 구성을 적용 가능한 예시일 뿐이며, 당업자가 본 개시의 기술 내용을 이해하는 데 돕기 위한 것이고, 본 개시의 실시예는 기타 기기, 시스템, 환경 또는 장면에 적용 불가능하다는 것을 의미하지 않는다는 점에 유의해야 한다. 예를 들어, 다른 실시예에서, 멀티태스크의 인식 방법, 딥러닝 모델의 훈련 방법 및 장치를 적용 가능한 예시적인 시스템 구성은 단말 기기를 포함할 수 있다. 단말 기기는 서버와 인터랙션 없이, 본 개시의 실시예에서 제공한 멀티태스크의 인식 방법, 딥러닝 모델의 훈련 방법 및 장치를 구현할 수 있다.

도 1에 도시된 바와 같이, 본 실시예에 따른 시스템 구성(100)은 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하기 위한 매체이다. 네트워크(104)는 다양한 연결 유형, 예를 들어 유선 및/또는 무선 통신 링크 등을 포함할 수 있다.

유저는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션하여, 메시지를 수신이나 송신 등을 할 수 있다. 단말 기기(101, 102, 103)에는 다양한 통신 클라이언트 애플리케이션, 예를 들어 지식 열람 유형 애플리케이션, 웹 브라우저 애플리케이션, 검색 유형 애플리케이션, 인스턴트 메신저, 메일 클라이언트 및/또는 소셜 플랫폼 소프트웨어 등을（예시만） 설치할 수 있다.

단말 기기(101, 102, 103)는 디스플레이를 갖추고 웹 브라우징을 지원하는 다양한 전자 기기일 수 있고, 스마트폰, 태블릿, 랩톱 및 데스크톱 등을 포함하지만 이에 제한되지 않는다.

서버(105)는 다양한 서비스를 제공하는 다양한 유형의 서버일 수 있다. 예를 들어, 서버(105)는 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서비스 체계의 하나의 호스트 제품이며, 전통적인 물리적 호스트와 VPS 서버（Virtual Private Server, 가상 사설 서버）에 존재하는 관리 난이도가 높고 업무 확장성이 약한 결함을 해결했다. 서버(105)는 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.

설명해야 할 것은, 본 개시의 실시예에서 제공하는 멀티태스크의 인식 방법은 일반적으로 단말 기기(101, 102, 또는 103)에 의해 수행할 수 있다. 이에 따라, 본 개시의 실시예에서 제공하는 멀티태스크의 인식 장치는 단말기기(101, 102, 또는 103)에 설치될 수도 있다.

대체적으로, 본 개시의 실시예에서 제공하는 멀티태스크의 인식 방법은 일반적으로 서버(105)에 의해 수행할 수도 있다. 이에 따라, 본 개시의 실시예에서 제공한 멀티태스크의 인식 장치는 일반적으로 서버(105)에 설치될 수 있다. 본 개시의 실시예에서 제공하는 멀티태스크의 인식 방법은 서버(105)와 다르고 단말 기기(101, 102, 103) 및/또는 서버(105)와 통신 가능한 서버 또는 서버 클러스터에 의해 수행할 수도 있다. 이에 따라, 본 개시의 실시예에서 제공하는 멀티태스크의 인식 장치는 서버(105)와 다르고 단말 기기(101, 102, 103) 및/또는 서버(105)와 통신 가능한 서버 또는 서버 클러스터에 설치될 수도 있다.

설명해야 할 것은, 본 개시의 실시예에서 제공하는 딥러닝 모델의 훈련 방법은 일반적으로 서버(105)에 의해 수행할 수 있다. 이에 따라, 본 개시의 실시예에서 제공하는 딥러닝 모델의 훈련 장치는 일반적으로 서버(105)에 설치될 수 있다. 본 개시의 실시예에서 제공하는 딥러닝 모델의 훈련 방법은 서버(105)와 다르고 단말 기기(101, 102, 103) 및/또는 서버(105)와 통신 가능한 서버 또는 서버 클러스터에 의해 수행할 수도 있다. 이에 따라, 본 개시의 실시예에서 제공하는 딥러닝 모델의 훈련 장치는 서버(105)와 다르고 단말 기기(101, 102, 103) 및/또는 서버(105)와 통신 가능한 서버 또는 서버 클러스터에 설치될 수도 있다.

대체적으로, 본 개시의 실시예에서 제공하는 딥러닝 모델의 훈련 방법은 일반적으로 단말 기기(101, 102, 또는 103)에 의해 수행할 수 있다. 이에 따라, 본 개시의 실시예에서 제공하는 딥러닝 모델의 훈련 장치는 단말기기(101, 102, 또는 103)에 설치될 수도 있다.

이해해야 할 것은, 도 1에서의 단말 기기, 네트워크 및 서버의 개수는 예시적일 뿐이다. 구현의 수요에 따라, 임의의 개수의 단말 기기, 네트워크 및 서버를 가질 수 있다.

유의해야 할 것은, 이하의 방법에서 각 동작의 순번은 설명을 위한 해당 동작의 표시일 뿐, 각 동작의 수행 순서를 나타내는 것으로 간주해서는 않 된다. 명시적으로 언급되지 않는 한, 해당 방법은 표시된 완전히 순서대로 수행될 필요가 없다.

도 2는 본 개시의 실시예에 따른 멀티태스크의 인식 방법의 흐름도를 개략적으로 나타낸다.

도 2에 도시된 바와 같이, 이 방법(200)은 동작 (S210~S240)을 포함한다.

동작 S210에서, 피인식 영상을 토대로, 제1 중간 특징 데이터를 획득한다.

동작 S220에서, 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득한다.

동작 S230에서, 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득한다.

동작 S240에서, 제2 중간 특징 데이터를 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득한다.

본 개시의 실시예에 따르면, 피인식 영상은 멀티태스크의 인식이 필요한 영상을 말할 수 있다. 멀티태스크의 인식은 복수의 태스크에 대한 영상 인식을 말할 수 있다. 멀티태스크의 인식은 생체 인식, 표지판 인식, 장애물 인식, 건물 인식 및 차량 인식 중 적어도 두개를 포함할 수 있다. 생체 인식은 안면 인식 및 인체 인식 중 적어도 하나를 포함할 수 있다. 인체 인식은 인체의 행동이나 행위의 인식을 포함할 수 있다. 피인식 영상은 피인식 생체 영상, 피인식 표지판 영상, 피인식 장애물 영상, 피인식 건물 영상 및 피인식 차량 영상 중 적어도 하나를 포함할 수 있다. 피인식 생체 영상은 피인식 안면 영상 및 피인식 인체 영상 중 적어도 하나를 포함할 수 있다.

본 개시의 실시예에 따르면, 목표 선택 전략은 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 결정하기 위한 전략을 말할 수 있다. 목표 선택 전략은 이 목표 선택 전략에 대응하는 모델 구조를 가질 수 있다. 즉, 목표 선택 전략에 대응하는 모델 구조를 이용하여, 제1 중간 특징 데이터를 토대로, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 목표 특징 추출 전략을 선택하는 것을 구현할 수 있다. 예를 들어, 목표 선택 전략에 대응하는 모델 구조는 전문가 선택 유닛을 포함할 수 있다. 피인식 영상과의 정합성이 가장 높다는 것은 피인식 영상에 대한 멀티태스크 인식 결과를 토대로 결정되는 인식 정확도가 예상 인식 정확도에 도달하게 할 수 있다고 예상되는 것을 말할 수 있다. 예상 인식 정확도는 가장 높은 인식 정확를 포함할 수 있다. 목표 선택 전략은 목표 특징 추출 전략의 선택과 관련된 목표 파라미터 데이터를 포함할 수 있다. 목표 파라미터 데이터는 행렬에서의 요소 값일 수 있다. 목표 파라미터 데이터는 과거 영상 세트 및 과거 영상 세트에 대해 멀티태스크 인식을 진행하여 획득하는 멀티태스크 인식 결과를 토대로 결정될 수 있다. 과거 영상 세트는 복수의 태스크 각각에 대응하는 과거 영상을 포함할 수 있다.

본 개시의 실시예에 따르면, 특징 추출 전략은 피인식 영상의 특징 데이터를 처리하기 위해 사용 가능한 전략을 말할 수 있다. 목표 특징 추출 전략은 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 말할 수 있다. 특징 추출 전략은 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하는 것을 구현하기 위해 사용될 수 있다. 특징 추출 전략은 이 특징 추출 전략에 대응하는 특징 추출 모델 구조를 가질 수 있다. 즉, 특징 추출 모델 구조를 이용하여 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하는 특징 추출 전략을 구현할 수 있다.

본 개시의 실시예에 따르면, 제1 중간 특징 데이터는 제1 클래스 특징 데이터를 포함할 수 있다. 제2 중간 특징 데이터는 제2 클래스 특징 데이터를 포함할 수 있다. 클래스 특징 데이터는 영상이 속하는 태스크의 클래스 차원관 관련된 데이터를 말할 수 있다.

본 개시의 실시예에 따르면, 멀티태스크 인식 결과는 피인식 영상이 속하는 목표 태스크의 목표 클래스를 나타낼 수 있다. 목표 태스크는 복수의 태스크 중 가능성이 가장 높은 태스크일 수 있다. 목표 클래스는 복수의 클래스 중 가능성이 가장 큰 클래스일 수 있다. 가능성은 확률 값으로 나타낼 수 있다. 가능성과 확률 값의 관계는 실제 업무 수요에 따라 설치할 수 있으며, 여기서는 한정하지 않는다. 예를 들어, 확률 값이 클 수록, 가능성이 높아진다. 대체적으로, 확률 값이 작을 수록, 가능성이 높아진다.

본 개시의 실시예에 따르면, 피인식 영상를 처리하여, 제1 중간 특징 데이터를 획득할 수 있다. 제1 중간 특징 데이터는 제1 클래스 특징 데이터를 포함할 수 있다. 또한, 제1 중간 특징 데이터는 제1 영상 특징 데이터를 포함할 수도 있다. 목표 선택 전략에 기초하여 제1 중간 특징 데이터를 처리하여 획득하는 결과를 토대로, 복수의 특징 추출 전략으로부터 목표 특징 추출 전략을 선택할 수 있다. 그 후에 목표 특징 추출 전략을 이용하여 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득한다. 제2 중간 특징 데이터는 제2 클래스 특징 데이터를 포함할 수 있다. 제2 클래스 특징 데이터를 토대로, 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 획득할 수 있다. 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 토대로, 피인식 영상이 속하는 목표 태스크의 목표 클래스를 나타내는 멀티태스크 인식 결과를 결정항다.

본 개시의 실시예에 따르면, 동작S210~S240은 전자 기기에 의해 수행할 수 있다. 전자 기기는 서버 또는 단말 기기를 포함할 수 있다. 서버는 도 1의 서버(105)일 수 있다. 단말 기기는 도 1의 단말 기기(101), 단말 기기(102) 또는 단말 기기(103)일 수 있다.

본 개시의 실시예에 따르면, 목표 선택 전략에 기초하여 제1 중간 특징 데이터를 토대로 복수의 특징 추출 전략으로부터 선택하는 피인식 영상과의 정합성이 가장 높은 목표 특징 추출 전략을 이용하여, 제1 중간 특징 데이터를 처리함으로써, 제2 중간 특징 데이터를 획득하며, 제2 중간 특징 데이터를 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득한다. 피인식 영상은 이 피인식 영상에 대응하는 목표 특징 추출 전략을 가지고, 상이한 피인식 영상의 목표 특징 추출 전략은 동일하거나 상이하다. 따라서, 피인식 영상에 대해 목표 특징 추출 전략의 동적인 선택을 구현할 수 있다. 이로써, 상이한 피인식 영상 사이의 특징 추출 전략의 결합 정도를 감소시킬 수 있다. 이 기초상에서, 목표 특징 추출 전략은 피인식 영상과의 정합성이 가장 높기 때문에, 목표 특징 추출 전략에 기초하여 제1 중간 특징 데이터를 처리하여 획득하는 멀티태스크 인식 결과의 멀티태스크 인식 정확도가 상대적으로 높다.

이하 도 3~도 6을 참조하여, 구체적인 실시예와 결합하여 본 개시의 실시예에 따른 멀티태스크의 인식 방법을 더 설명한다.

도 3은 본 개시의 실시예에 따른, 피인식 영상을 토대로 제1 중간 특징 데이터를 획득하는 흐름도를 개략적으로 나타낸다.

도 3에 도시된 바와 같이, 해당 방법(300)은 도 2의 동작S210을 더 한정하는 것으로, 이 방법(300)은 동작S311~S314을 포함한다.

동작 S311에서, 피인식 영상를 처리하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터를 획득한다.

동작 S312에서, 기설정된 데이터를 처리하여, 제1 클래스 특징 데이터를 획득한다.

동작 S313에서, 복수의 피인식 영상 블록 각각의 대상 특징 데이터 및 제1 클래스 특징 데이터를 토대로, 제4 중간 특징 데이터를 획득한다.

동작 S314에서, 제4 중간 특징 데이터를 처리하여, 제1 중간 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 기설정된 데이터는 제1 클래스 특징 데이터를 생성하는 것과 관련된 데이터를 말할 수 있다. 제1 클래스 특징 데이터는 피인식 영상이 속하는 태스크의 클래스 차원과 관련된 데이터를 말할 수 있다. 클래스 차원은 생체 인식과 관련된 적어도 하나의 클래스, 표지판 인식과 관련된 적어도 하나의 클래스, 장애물 인식과 관련된 적어도 하나의 클래스, 건물 인식과 관련된 적어도 하나의 클래스 및 차량 인식과 관련된 적어도 하나의 클래스 중 적어도 하나를 포함할 수 있다. 생체 인식과 관련된 적어도 하나의 클래스는 안면 인식과 관련된 적어도 하나의 클래스 및 인체 인식과 관련된 적어도 하나의 클래스 중 적어도 하나를 포함할 수 있다.

예를 들어, 안면 인식과 관련된 적어도 하나의 클래스는 노인 클래스, 중년 클래스, 청년 클래스, 소년 클래스, 유아 클래스 및 영아 클래스 중 적어도 하나를 포함할 수 있다. 인체 인식과 관련된 적어도 하나의 클래스는 보행 동작 클래스 및 운동 동작 클래스 중 적어도 하나를 포함할 수 있다. 차량 인식과 관련된 적어도 하나의 클래스는 승용차 클래스 및 상용차 클래스 중 적어도 하나를 포함할 수 있다. 승용차 클래스는 기본승용차 클래스, 다목적차량 클래스, 스포츠유틸리티차량 클래스 및 기타 차종 클래스 중 적어도 하나를 포함할 수 있다. 상용차 클래스는 객차 클래스, 화물차 클래스, 세미트레일러 클래스, 불완전한 객차 클래스 및 불완전한 화물차 클래스 중 적어도 하나를 포함할 수 있다.

본 개시의 실시예에 따르면, 영상은 복수의 영상 블록을 포함할 수 있다. 영상 블록은 영상에 대해 구분하여 획득될 수 있다. 영상 블록의 크기는 실제 업무 수요에 따라 설치할 수 있으며, 여기서는 한정하지 않는다. 상이한 영상 블록의 크기는 동일할 수 있다. 대상 특징 데이터는 영상 블록의 특징 데이터를 말할 수 있다. 피인식 영상에 대해, 피인식 영상은 복수의 피인식 영상 블록을 포함할 수 있다. 피인식 영상 블록은 피인식 영상에 대해 구분하여 획득할 수 있다. 상이한 피인식 영상 블록의 크기는 동일할 수 있다.

본 개시의 실시예에 따르면, 피인식 영상 및 기설정된 데이터를 획득할 수 있다. 피인식 영상를 처리하여, 복수의 피인식 영상 블록을 획득한다. 복수의 피인식 영상 블록를 처리하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터를 획득할 수 있다. 기설정된 데이터를 처리하여, 제1 클래스 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 제1 클래스 특징 데이터와 복수의 피인식 영상 각각의 대상 특징 데이터를 모아 이어서, 제4 중간 특징 데이터를 획득한다. 예를 들어, 제1 클래스 특징 데이터를 기설정된 위치에 설치하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터와 모아 이어서, 제4 중간 특징 데이터를 획득할 수 있다. 기설정된 위치는 실제 업무 수요에 따라 실치할 수 있으며, 여기서는 한정하지 않는다. 예를 들어, 피인식 영상의 복수의 피인식 영상 블록은 피인식 영상 블록의 시퀀스를 형성할 수 있다. 기설정된 위치는 피인식 영상 블록의 시퀀스의 시작 위치보다 앞의 위치일 수 있다. 대체적으로, 기설정된 위치는 피인식 영상 블록의 시퀀스의 종료 위치보다 뒤의 위치일 수 있다.

본 개시의 실시예에 따르면, 제4 중간 특징 데이터를 획득한 후, 제4 중간 특징 데이터에 대해 전역 특징 및 국부 특징 중 적어도 하나에 대해 특징 추출을 진행하여, 제1 중간 특징 데이터를 획득할 수 있다. 즉, 제4 중간 특징 데이터에 대해 전역 특징 추출을 진행하여, 제1 중간 특징 데이터를 획득할 수 있다. 대체적으로, 제4 중간 특징 데이터에 대해 국부 특징 추출을 진행하여, 제1 중간 특징 데이터를 획득한다. 대체적으로, 제4 중간 특징 데이터에 대해 전역 특징 및 국부 특징을 특징 추출을 진행하여, 제1 중간 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 동작(S311~S314)은 전자 기기에 의해 수행할 수 있다. 전자 기기는 서버 또는 단말 기기를 포함할 수 있다. 서버는 도 1의 서버(105)일 수 있다. 단말 기기는 도 1의 단말 기기(101), 단말 기기(102) 또는 단말 기기(103)일 수 있다.

본 개시의 실시예에 따르면, 동작(S314)은 아래와 같은 동작을 포함할 수 있다.

어텐션 전략에 기초하여, 제4 중간 특징 데이터를 처리하여, 제1 중간 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 어텐션 전략은 높은 가중치로 중요한 정보를 주목하고, 낮은 가중치로 중요하지 않은 정보를 무시하기 위해 사용할 수 있으며, 중요한 정보를 공유함으로써 기타 정보와 정보 교환을 하여, 중요한 정보의 전달을 구현할 수 있다. 본 개시의 실시예에서, 어텐션 전략은 제1 클래스 특징 데이터 자체, 피인식 영상 블록 내부 및 제1 클래스 특징 데이터와 피인식 영상 블록 사이의 정보를 추출하여, 피인식 영상에 대한 처리를 더 잘 수행하도록 할 수 있다.

본 개시의 실시예에 따르면, 어텐션 전략에 기초하여, 제4 중간 특징 데이터를 처리하여, 피인식 영상의 전역 특징을 나타내기 위한 제1 중간 특징 데이터를 획득할 수 있다. 예를 들어, 어텐션 전략을 토대로 어텐션 유닛을 결정할 수 있다. 어텐션 유닛을 이용하여 제4 중간 특징 데이터를 처리하고, 제1 중간 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 제1 중간 특징 데이터는 어텐션 전략에 기초하여 제4 중간 특징 데이터에 대해 처리하고 획득된 것이다. 따라서, 제1 중간 특징 데이터는 전역 셀프 어텐션 메커니즘에 참여하였으며, 전역 정보를 결합하였다. 따라서, 멀티태스크의 인식 정확도를 높일 수 있다.

본 개시의 실시예에 따르면, 제1 중간 특징 데이터는 딥러닝 모델의 예상 어텐션 유닛을 이용하여 제4 중간 특징 데이터를 처리하여 획득될 수 있다.

본 개시의 실시예에 따르면, 딥러닝 모델은 백본(Backbone) 모듈을 포함할 수 있다. 백본 모듈은 캐스케이드된 적어도 하나의 백본 서브 모듈을 포함할 수 있다. 백본 서브 모듈은 어텐션 유닛을 포함할 수 있다. 예상 어텐션 유닛은 적어도 하나의 어텐션 유닛 중의 하나일 수 있다. 예를 들어, 예상 어텐션 유닛은 1번째 계층의 백본 서브 모듈에 포함된 어텐션 유닛일 수 있다. 예상 어텐션 유닛을 이용하여 복수의 피인식 영상 블록 각각의 대상 특징 데이터 및 제1 클래스 특징 데이터를 처리하여,제1 중간 특징 데이터를 획득할 수 있다.

도 4는 본 개시의 실시예에 따른, 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하는 흐름도를 개략적으로 나타낸다.

도 4에 도시된 바와 같이, 해당 방법(400)은 도 2의 동작(S220)을 더욱 한정하는 것으로, 이 방법(400)은 동작(S421~S422)을 포함한다.

동작 S421에서, 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 제3 중간 특징 데이터를 획득한다.

동작 S422에서, 제3 중간 특징 데이터를 토대로, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득한다.

본 개시의 실시예에 따르면, 제3 중간 특징 데이터는 목표 특징 추출 전략을 결정하기 위한 것과 관련된 정보를 포함할 수 있다. 예를 들어, 제3 중간 특징 데이터는 중간 행렬일 수 있다. 중간 행렬에 포함되는 요소의 요소 값은 특징 추출 전략이 목표 특징 추출 전략으로 결정되는 확률을 나타내할 수 있다.

본 개시의 실시예에 따르면, 목표 선택 전략에 대응하는 목표 선택 파라미터 데이터를 결정할 수 있다. 목표 선택 파라미터 데이터 및 제1 중간 특징 데이터를 토대로, 제3 중간 특징 데이터를 획득한다. 그 후에 제3 중간 특징 데이터가 나타내는 정보를 토대로, 복수의 특징 추출 전략으로부터 피인식 영상에 대응하는 목표 특징 추출 전략을 결정한다. 즉, 제3 중간 특징 데이터는 복수의 특징 추출 전략 중 피인식 영상에 대응하는 목표 특징 추출 전략의 정보를 지시하고, 제3 중간 특징 데이터가 지시하는 정보를 토대로, 복수의 특징 추출 전략으로부터 피인식 영상에 대응하는 목표 특징 추출 전략을 결정한다.

본 개시의 실시예에 따르면, 동작S421~S422는 전자 기기에 의해 수행할 수 있다. 전자 기기는 서버 또는 단말 기기일 수 있다. 서버는 도 1의 서버(105)일 수 있다. 단말 기기는 도 1의 단말 기기(101), 단말 기기(102) 또는 단말 기기(103)일 수 있다.

본 개시의 실시예에 따르면, 동작(S421)은 아래와 같은 동작을 포함할 수 있다.

목표 선택 전략을 토대로, 목표 선택 행렬을 결정한다. 제1 중간 특징 데이터를 토대로, 중간 행렬을 결정한다. 목표 선택 행렬 및 중간 행렬을 토대로, 목표 전문가 확률 행렬을 결정한다. 목표 전문가 확률 행렬은 복수의 특징 추출 전략 각각에 대응하는 요소를 포함한다. 요소의 요소 값은 특징 추출 전략이 선택되는 확률을 나타낸다. 전문가 확률 행렬을 제3 중간 특징 데이터로 결정한다.

본 개시의 실시예에 따르면, 목표 선택 전략은 이 목표 선택 전략에 대응하는 목표 선택 행렬을 가질 수 있다. 목표 선택 전략에 대응하는 목표 선택 행렬을 결정할 수 있다. 제1 중간 특징 데이터를 처리하여, 중간 행렬을 획득한다. 그 후 목표 선택 행렬 및 중간 행렬을 토대로, 목표 전문가 확률 행렬을 획득한다. 예를 들어, 목표 선택 행렬과 중간 행렬을 가중하여 곱하고, 목표 전문가 확률 행렬을 획득할 수 있다. 대체적으로, 목표 선택 행렬과 중간 행렬을 가산하여, 목표 전문가 확률 행렬을 획득할 수 있다. 대체적으로, 목표 선택 행렬과 중간 행렬을 감산하여, 목표 전문가 확률 행렬을 획득할 수 있다.

본 개시의 실시예에 따르면, 목표 선택 행렬 및 중간 행렬을 토대로, 목표 전문가 확률 행렬을 결정하는 것은, 아래와 같은 동작을 포함할 수 있다.

목표 선택 행렬과 중간 행렬을 곱하여, 목표 전문가 확률 행렬을 획득한다.

본 개시의 실시예에 따르면, 제1 중간 특징 데이터를 처리하여, 목표 선택 행렬과의 곱하기를 구현 가능한 중간 행렬을 획득할 수 있다. 목표 선택 행렬 및 중간 행렬을 획득한 후, 목표 선택 행렬과 목표 전문가 확률 행렬을 곱하여, 목표 전문가 확률 행렬을 획득할 수 있다.

본 개시의 실시예에 따르면, 제3 중간 특징 데이터를 토대로, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

목표 전문가 확률 행렬로부터 요소 값이 한계값인 요소를 결정하여, 목표 요소를 획득한다. 한계값은 최대값 또는 최소값을 포함한다. 목표 요소에 대응하는 특징 추출 전략을 목표 특징 추출 전략으로 결정한다.

본 개시의 실시예에 따르면, 목표 전문가 확률 행렬로부터 요소 값이 한계값인 목표 요소를 결정할 수 있다. 목표 요소에 대응하는 특징 추출 전략을 목표 특징 추출 전략로 결정한다.

도 5는 본 개시의 실시예에 따른 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하는 흐름도를 개략적으로 나타낸다.

도 5에 도시된 바와 같이, 해당 방법(500)은 도 2의 동작(S230)을 더욱 한정하는 것으로, 이 방법(500)은 동작(S531)을 포함한다.

동작 S531에서, 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 제2 중간 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 제1 중간 특징 데이터는 제1 클래스 특징 데이터 및 복수의 피인식 영상 블록 각각의 제1 대상 특징 데이터를 포함할 수 있다. 제2 중간 특징 데이터는 제2 클래스 특징 데이터 및 복수의 피인식 영상 블록 각각의 제2 대상 특징 데이터를 포함할 수 있다.

본 개시의 실시예에 따르면, 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터에 대해 전역 특징 및 국부 특징 중 적어도 하나의 특징 추출을 진행하여, 제2 중간 특징 데이터를 획득할 수 있다. 즉, 목표 특징 추출 전략에 기초하여 제1 중간 특징 데이터에 대해 전역 특징 추출을 진행하여, 제2 중간 특징 데이터를 획득할 수 있다. 대체적으로, 목표 특징 추출 전략에 기초하여 제1 중간 특징 데이터에 대해 국부 특징 추출을 진행하여, 제2 중간 특징 데이터를 획득할 수 있다. 대체적으로, 목표 특징 추출 전략에 기초하여 제1 중간 특징 데이터에 대해 전역 특징 및 국부 특징의 특징 추출을 진행하여, 제2 중간 특징 데이터를 획득할 수 있다.

본 개시의 실시예에 따르면, 목표 특징 추출 전략은 목표 어텐션 전략 및 목표 국부 전략 중 적어도 하나를 포함할 수 있다. 목표 어텐션 전략은 제1 클래스 특징 데이터 자체, 피인식 영상 블록 내부, 및, 제1 클래스 특징 데이터와 피인식 영상 블록 사이의 정보를 추출하기 위해 사용 가능하여, 피인식 영상에 대한 처리를 더 잘 수행하도록 한다. 목표 국부 전략은 제1 클래스 특징 데이터 자체 및 피인식 영상 블록 내부의 정보을 추출하는 것을 구현하기 위해 사용될 수 있다.

본 개시의 실시예에 따르면, 목표 어텐션 전략 및 목표 국부 전략 중 적어도 하나에 기초하여, 제1 중간 특징 데이터를 처리하여, 피인식 영상의 전역 특징 및 국부 특징 중 적어도 하나를 나타내기 위한 제2 중간 특징 데이터를 획득할 수 있다.

본 개시의 실시예에 따르면, 동작(S531)은 전자 기기에 의해 수행할 수 있다. 전자 기기는 서버 또는 단말 기기일 수 있다. 서버는 도 1의 서버(105)일 수 있다. 단말 기기는 도 1의 단말 기기(101), 단말 기기(102) 또는 단말 기기(103)일 수 있다.

본 개시의 실시예에 따르면, 동작(S531)은 아래와 같은 동작을 포함할 수 있다.

딥러닝 모델에 포함되는 복수의 전문가 유닛으로부터 목표 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 전문가 유닛을 획득한다. 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함한다. 적어도 하나의 목표 전문가 유닛을 이용하여 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 딥러닝 모델은 백본 모듈을 포함할 수 있다. 백본 모듈은 캐스케이드된 적어도 하나의 백본 서브 모듈을 포함할 수 있다. 백본 서브 모듈은 복수의 전문가 유닛을 포함할 수 있다. 전문가 유닛은, 멀티-헤드 셀프 어텐션 （Multi-Head self Attention, MHA） 층 및 피드포워드 네트워크（Feed Forward Network, FFN） 층 중 적어도 하나를 포함할 수 있다. 백본 서브 모듈은 Transformer（즉, 컨버터） 기반의 모델 구조일 수 있다.

본 개시의 실시예에 따르면, 목표 특징 추출 전략은 이 목표 특징 추출 전략에 대응하는 적어도 하나의 목표 전문가 유닛을 가질 수 있다. 적어도 하나의 목표 전문가 유닛을 이용하여 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득할 수 있다. 목표 전문가 유닛은, 목표 멀티-헤드 셀프 어텐션 층, 목표 피드포워드 네트워크 층, 및, 캐스케이드된 목표 멀티-헤드 셀프 어텐션 층과 목표 피드포워드 네트워크 층 중 하나를 포함할 수 있다.

본 개시의 실시예에 따르면, 백본 서브 모듈은 전문가 선택 유닛을 더 포함할 수 있다.

본 개시의 실시예에 따르면, 적어도 하나의 목표 전문가 유닛을 이용하여 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

도 6은 본 개시의 실시예에 따른, 제2 중간 특징 데이터를 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 흐름도를 개략적으로 나타낸다.

본 개시의 실시예에 따르면, 제2 중간 특징 데이터는 제2 클래스 특징 데이터를 포함할 수 있다.

도 6에 도시된 바와 같이, 해당 방법(600)은 도 2의 동작(S240)을 더욱 한정하는 것으로, 이 방법(600)은 동작(S641~S642)을 포함한다.

동작 S641에서, 제2 클래스 특징 데이터를 토대로, 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 클래스 확률 값을 획득한다.

동작 S642에서, 복수의 클래스 확률 값을 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득한다.

본 개시의 실시예에 따르면, 피인식 영상의 클래스 확률 값은 피인식 영상이 복수의 태스크의 적어도 하나의 클래스 각각에 속하는 확률 값을 말할 수 있다. 예를 들어, 피인식 영상은 피인식 안면 영상이고, 태스크 차원은 안면 인식, 인체 인식 및 차량 인식을 포함하는 경우, 피인식 영상의 클래스 확률 값은 피인식 안면 영상이 안면 인식과 관련된 적어도 하나의 클래스에 속하는 확률 값, 인체 인식과 관련된 적어도 하나의 클래스에 속하는 확률 값 및 차량 인식과 관련된 적어도 하나의 클래스에 속하는 확률 값을 포함할 수 있다.

본 개시의 실시예에 따르면, 대상 특징 데이터는 딥러닝 모델의 대상 처리 유닛을 이용하여 피인식 영상 블록를 처리하고 획득하는 것일 수 있다.

본 개시의 실시예에 따르면, 제1 클래스 특징 데이터는 딥러닝 모델의 클래스 처리 유닛을 이용하여 기설정된 데이터를 처리하여 획득되는 것일 수 있다.

본 개시의 실시예에 따르면, 딥러닝 모델은 전처리 모듈을 포함할 수 있다. 전처리 모듈은 대상 처리 유닛 및 클래스 처리 유닛을 포함할 수 있다. 대상 처리 유닛은 피인식 영상에 포함되는 복수의 피인식 영상 블록를 처리하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터를 획득하기 위해 사용될 수 있다. 클래스 처리 유닛은 기설정된 데이터를 처리하여, 제1 클래스 특징 데이터를 획득하기 위해 사용될 수 있다. 대상 처리 유닛 및 클래스 처리 유닛은 모두 특징 추출의 구현에 사용 가능한 네트워크 구조를 포함할 수 있다. 예를 들어, 대상 처리 유닛은 컨볼루션 신경망을 포함할 수 있다. 클래스 처리 유닛은 컨볼루션 신경망을 포함할 수 있다. 대상 처리 유닛 및 클래스 처리 유닛의 네트워크 구조는 동일하거나 상이할 수 있다.

본 개시의 실시예에 따르면, 복수의 클래스 확률 값은 딥러닝 모델의 클래스 분류 모듈을 이용하여 제2 중간 특징 데이터에 포함되는 제2 클래스 특징 데이터를 처리하여 획득하는 것일 수 있다.

본 개시의 실시예에 따르면, 딥러닝 모델은 클래스 분류 모듈을 포함할 수 있다. 클래스 분류 모듈은 제2 클래스 특징 데이터를 처리하여, 복수의 클래스 확률 값을 획득하기 위해 사용될 수 있다. 클래스 분류 모듈은 분류의 구현에 사용 가능한 네트워크 구조를 포함할 수 있다. 예를 들어, 클래스 분류 모듈은 모두 선형 분류기 및 비선형 분류기 중 하나를 포함할 수 있다.

본 개시의 실시예에 따르면, 클래스 분류 모듈을 이용하여 제2 클래스 특징 데이터를 처리하여, 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 획득하여, 복수의 클래스 확률 값을 획득할 수 있다.

본 개시의 실시예에 따르면, 동작(S641~S642)은 전자 기기에 의해 수행할 수 있다. 전자 기기는 서버 또는 단말 기기일 수 있다. 서버는 도 1의 서버(105)일 수 있다. 단말 기기는 도 1의 단말 기기(101), 단말 기기(102) 또는 단말 기기(103)일 수 있다.

도 7은 본 개시의 실시예에 따른 멀티태스크의 인식 방법의 예시적인 설명도를 개략적으로 나타낸다.

도 7에 도시된 바와 같이, 700에서 피인식 영상(701) 및 기설정된 데이터(703)를 획득할 수 있다.

피인식 영상(701)를 처리하여,피인식 영상(701)에 포함되는 복수의 피인식 영상 블록 각각의 대상 특징 데이터(702)를 획득한다. 기설정된 데이터(703)를 처리하여, 제1 클래스 특징 데이터(704)를 획득한다. 제1 클래스 특징 데이터(704) 및 복수의 피인식 영상 블록 각각의 대상 특징 데이터(702)를 토대로, 제4 중간 특징 데이터(705)를 획득한다. 어텐션 전략에 기초하여, 제4 중간 특징 데이터(705)를 처리하여, 제1 중간 특징 데이터(706)를 획득한다.

목표 선택 전략(707)을 토대로, 목표 선택 행렬(708)을 결정한다. 제1 중간 특징 데이터(706)를 토대로, 중간 행렬(709)을 결정한다. 목표 선택 행렬(708) 및 중간 행렬(709)을 토대로, 목표 전문가 확률 행렬(710)을 결정한다. 목표 전문가 확률 행렬(710)은 복수의 특징 추출 전략(711) 각각에 대응하는 요소를 포함한다. 요소의 요소 값은 특징 추출 전략(711)이 선택되는 확률을 나타낸다. 목표 전문가 확률 행렬(710)로부터 요소 값이 한계값인 요소를 결정하여, 목표 요소를 획득한다. 목표 요소에 대응하는 특징 추출 전략을 목표 특징 추출 전략(712)로 결정한다.

목표 특징 추출 전략(712)에 기초하여, 제1 중간 특징 데이터(706)의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 제2 중간 특징 데이터(713)를 획득한다. 제2 중간 특징 데이터(713)는 제2 클래스 특징 데이터(714)를 포함한다. 제2 클래스 특징 데이터(714)를 토대로,피인식 영상(701)이 복수의 태스크 각각에 속하는 클래스 확률 값(715)을 결정하여, 복수의 클래스 확률 값(715)을 획득한다. 복수의 클래스 확률 값(715)을 토대로, 피인식 영상(701)에 대한 멀티태스크 인식 결과(716)를 획득한다.

도 8은 본 개시의 실시예에 따른 딥러닝 모델의 훈련 방법의 흐름도를 개략적으로 나타낸다.

도 8에 도시된 바와 같이, 이 방법(800)은 동작(S810~S850)을 포함한다.

동작 S810에서, 샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득한다.

동작 S820에서, 선택 전략 및 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득한다.

동작 S830에서, 목표 샘플 특징 추출 전략에 기초하여, 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득한다.

동작 S840에서, 제2 중간 샘플 특징 데이터를 토대로, 샘플 영상에 대한 멀티태스크 인식 결과를 획득한다.

동작 S850에서, 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득한다.

본 개시의 실시예에 따르면, 샘플 영상, 제1 중간 샘플 특징 데이터 및 제2 중간 샘플 특징 데이터에 대한 설명은, 상술한 피인식 영상, 제1 중간 특징 데이터 및 제2 중간 특징 데이터에 대한 관련 내용을 참조할 수 있으며, 여기서는 반복해서 설명하지 않는다.

본 개시의 실시예에 따르면, 딥러닝 모델은 전처리 모듈, 백본 모듈 및 클래스 분류 모듈을 포함할 수 있다.

본 개시의 실시예에 따르면, 손실 함수에 기초하여, 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득할 수 있다. 훈련된 딥러닝 모델은 멀티태스크 인식을 구현하기 위해 사용될 수 있다. 손실 함수는 실제 업무 수요에 따라 구성할 수 있으며, 여기서는 한정하지 않는다. 예를 들어, 손실 함수는 크로스 엔트로피 손실 함수, 지수 손실 함수 및 제곱 손실 함수 중 적어도 하나를 포함할 수 있다. 기설정된 조건은 출력 값이 수렴하는 것 및 훈련 차수이 최대 훈련 차수에 도달하는 것 중 적어도 하나를 포함할 수 있다.

본 개시의 실시예에 따르면, 동작(S810~S850)은 전자 기기에 의해 수행할 수 있다. 전자 기기는 서버 또는 단말 기기일 수 있다. 서버는 도 1의 서버(105)일 수 있다. 단말 기기는 도 1의 단말 기기(101), 단말 기기(102) 또는 단말 기기(103)일 수 있다.

본 개시의 실시예에 따르면, 샘플 영상은 이 샘플 영상에 대응하는 목표 샘플 특징 추출 전략을 가지고 있으며, 상이한 샘플 영상의 목표 샘플 특징 추출 전략은 동일하거나 상이하다. 따라서, 샘플 영상에 대해 목표 샘플 특징 추출 전략을 동적으로 선택하는 것을 구현할 수 있다. 이로써, 상이한 샘플 영상 사이의 샘플 특징 추출 전략의 결합 정도를 감소시킬 수 있다. 또한, 목표 샘플 특징 추출 전략은 샘플 영상과의 정합성이 가장 높다. 따라서, 목표 샘플 특징 추출 전략에 기초하여 제1 중간 샘플 특징 데이터를 처리하여 획득하는 멀티태스크 인식 결과를 이용하여 딥러닝 모델을 훈련함으로써, 모델 파라미터의 업데이트에 있어서 상이한 태스크의 모순을 감소시킬 수 있다. 이로써, 멀티태스크 인식 모델의 멀티태스크 인식 정확도를 높일 수 있다.

본 개시의 실시예에 따르면, 동작S820은 아래와 같은 동작을 포함할 수 있다.

선택 전략 및 제1 중간 샘플 특징 데이터에 기초하여, 제3 중간 샘플 특징 데이터를 획득한다. 제3 중간 샘플 특징 데이터를 토대로, 복수의 샘플 특징 추출 전략으로부터 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득한다.

본 개시의 실시예에 따르면, 선택 전략 및 제1 중간 샘플 특징 데이터에 기초하여, 제3 중간 샘플 특징 데이터를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

선택 전략을 토대로, 선택 행렬을 결정한다. 제1 중간 샘플 특징 데이터를 토대로, 중간 샘플 행렬을 결정한다. 선택 행렬 및 중간 샘플 행렬을 토대로, 샘플 전문가 확률 행렬을 결정한다. 샘플 전문가 확률 행렬은 복수의 샘플 특징 추출 전략 각각에 대응하는 샘플 요소를 포함한다. 샘플 요소의 요소 값은 샘플 특징 추출 전략이 선택되는 확률을 나타낸다. 샘플 전문가 확률 행렬을 제3 중간 샘플 특징 데이터로 결정한다.

본 개시의 실시예에 따르면, 선택 행렬 및 중간 샘플 행렬을 토대로, 샘플 전문가 확률 행렬을 결정하는 것은, 아래와 같은 동작을 포함할 수 있다.

선택 행렬과 중간 샘플 행렬을 곱하여, 샘플 전문가 확률 행렬을 획득한다.

본 개시의 실시예에 따르면, 제3 중간 샘플 특징 데이터를 토대로, 복수의 샘플 특징 추출 전략으로부터 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

샘플 전문가 확률 행렬로부터 샘플 요소 값이 한계값인 샘플 요소를 결정하여, 목표 샘플 요소를 획득한다. 한계값은 최대값 또는 최소값을 포함한다. 목표 샘플 요소에 대응하는 샘플 특징 추출 전략을 목표 샘플 특징 추출 전략으로 결정한다.

본 개시의 실시예에 따르면, 동작S810은 아래와 같은 동작을 포함할 수 있다.

샘플 영상를 처리하여, 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터를 획득한다. 기설정된 샘플 데이터를 처리하여, 제1 샘플 클래스 특징 데이터를 획득한다. 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터 및 제1 샘플 클래스 특징 데이터를 토대로, 제4 중간 샘플 특징 데이터를 획득한다. 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

어텐션 전략에 기초하여, 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 딥러닝 모델은 백본 모듈을 포함한다. 백본 모듈은 캐스케이드된 적어도 하나의 백본 서브 모듈을 포함할 수 있다. 백본 서브 모듈은 어텐션 유닛을 포함할 수 있다.

본 개시의 실시예에 따르면, 어텐션 전략에 기초하여, 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

백본 모듈 중의 예상 어텐션 유닛을 이용하여 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 목표 샘플 특징 추출 전략에 기초하여, 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

목표 샘플 특징 추출 전략에 기초하여, 제1 중간 샘플 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 제2 중간 샘플 특징 데이터를 획득한다

본 개시의 실시예에 따르면, 백본 서브 모듈은 복수의 전문가 유닛을 더 포함할 수 있다. 전문가 유닛은, 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함할 수 있다.

본 개시의 실시예에 따르면, 목표 샘플 특징 추출 전략에 기초하여, 제1 중간 샘플 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 제2 중간 샘플 특징 데이터를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

복수의 전문가 유닛으로부터 목표 샘플 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 샘플 전문가 유닛을 획득한다. 적어도 하나의 목표 샘플 전문가 유닛을 이용하여 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득한다.

본 개시의 실시예에 따르면, 적어도 하나의 목표 샘플 전문가 유닛을 이용하여 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득는 것은, 아래와 같은 동작을 포함할 수 있다.

본 개시의 실시예에 따르면, 목표 샘플 전문가 유닛은 목표 멀티-헤드 셀프 어텐션 층 및 목표 피드포워드 네트워크 층을 포함할 수 있다.

본 개시의 실시예에 따르면, 샘플 영상은 이 샘플 영상에 대응하는 목표 샘플 전문가 유닛을 가지고 있으며, 상이한 샘플 영상의 목표 샘플 전문가 유닛은 동일하거나 상이하다. 따라서, 샘플 영상에 대해 목표 샘플 전문가 유닛을 동적으로 선택하는 것을 구현할 수 있다. 이로써, 백본 모듈의 결합 정도를 감소시킬 수 있다. 또한, 목표 샘플 전문가 유닛은 샘플 영상과의 정합성이 가장 높다. 따라서, 목표 샘플 전문가 유닛에 의해 제1 중간 샘플 특징 데이터를 처리하여 획득하는 멀티태스크 인식 결과을 이용하여 딥러닝 모델을 훈련함으로써, 모델 파라미터의 업데이트에 있어서 상이한 태스크의 모순을 감소시킬 수 있다. 이로써, 멀티태스크 인식 모델의 멀티태스크 인식 정확도를 높일 수 있다.

본 개시의 실시예에 따르면, 제2 중간 샘플 특징 데이터는 제2 샘플 클래스 특징 데이터를 포함할 수 있다.

본 개시의 실시예에 따르면, 제2 중간 샘플 특징 데이터를 토대로, 샘플 영상에 대한 멀티태스크 인식 결과를 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

제2 샘플 클래스 특징 데이터를 토대로, 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득한다. 복수의 샘플 클래스 확률 값을 토대로, 샘플 영상에 대한 멀티태스크 인식 결과를 획득한다.

본 개시의 실시예에 따르면, 딥러닝 모델은 클래스 분류 모듈을 포함할 수 있다.

본 개시의 실시예에 따르면, 제2 샘플 클래스 특징 데이터를 토대로, 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득하는 것은, 아래와 같은 동작을 포함할 수 있다.

클래스 분류 모듈을 이용하여 제2 샘플 클래스 특징 데이터를 처리하여, 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득한다.

본 개시의 실시예에 따르면, 복수의 샘플 클래스 확률 값 및 라벨 값을 손실 함수에 입력하여, 출력 값을 획득할 수 있다. 기설정된 종료 조건이 만족될 때까지 출력 값을 토대로 딥러닝 모델의 모델 파라미터를 조정할 수 있다. 기설정된 종료 조건이 만족될 경우에 획득하는 딥러닝 모델을 훈련된 딥러닝 모델로 결정할 수 있다. 기설정된 종료 조건은 출력 값이 수렴하는 것 및 훈련 차수이 최대 훈련 차수에 도달하는 것 중 적어도 하나를 포함할 수 있다. 예를 들어, 역 전파 알고리즘 또는 랜덤 구배 강하 알고리즘을 토대로, 기설정된 종료 조건이 만족될 때까지 딥러닝 모델의 모델 파라미터를 조정할 수 있다.

본 개시의 실시예에 따르면, 아래의 식（1）을 토대로 손실 함수를 결정할 수 있다.

본 개시의 실시예에 따르면, 딥러닝 모델은 전처리 모듈을 포함할 수 있다. 전처리 모듈은 대상 처리 유닛 및 클래스 처리 유닛을 포함할 수 있다.

본 개시의 실시예에 따르면, 샘플 대상 특징 데이터는 대상 처리 유닛을 이용하여 샘플 영상 블록을 처리하여 획득하는 것이다.

본 개시의 실시예에 따르면, 제1 샘플 클래스 특징 데이터는 클래스 처리 유닛을 이용하여 기설정된 샘플 데이터를 처리하여 획득하는 것이다.

이하 도 9a, 도 9b 및 도 10을 참고하여, 구체적인 실시예와 결합하여 본 개시의 실시예에 따른 딥러닝 모델의 훈련 방법에 대해 더 설명한다.

도 9a는 본 개시의 실시예에 따른 딥러닝 모델의 예시적인 설명도를 개략적으로 나타낸다.

도 9a에 도시된 바와 같이, 900A에서, 딥러닝 모델(901)은 전처리 모델(902), 백본 모델(903) 및 클래스 분류 모델(904)을 포함한다.

전처리 모델(902)은 대상 처리 유닛(9020) 및 클래스 처리 유닛(9021)을 포함할 수 있다.

백본 모델(903)은 캐스케이드된 M개의 백본 서브 모듈, 즉, 백본 서브 모델(903_1), ……, 백본 서브 모델(903_m), ……, 백본 서브 모델(903_M)을 포함할 수 있다. M은 1보다 크거나 같은 정수일 수 있다.

도 9b는 본 개시의 실시예에 따른 백본 서브 모듈의 개략적인 예시도를 개략적으로 나타낸다.

도 9b에 도시된 바와 같이, 900B에서, 백본 서브 모듈(905)은 어텐션 유닛(905_1), 전문가 선택 유닛(905_2) 및 Q개의 전문가 유닛의 전문가 유닛 세트(905_3)을 포함한다. 전문가 유닛 세트(905_3)는 Q개의 전문가 유닛, 즉, 전문가 유닛(905_3_1), ……, 전문가 유닛(905_3_q), ……, 전문가 유닛(905_3_Q)을 포함한다. Q는 1보다 큰 정수일 수 있다. 어텐션 유닛(905_3_1)은 멀티-헤드 셀프 어텐션 유닛일 수 있다. 전문가 선택 유닛(905_3_2)은 요소 값을 업데이트 가능한 선택 행렬일 수 있다. 전문가 유닛(905_3_q)은 멀티-헤드 셀프 어텐션 층, 피드포워드 네트워크 층, 및, 캐스케이드된 멀티-헤드 셀프 어텐션 층과 피드포워드 네트워크 층을 포함할 수 있다. 캐스케이드된 멀티-헤드 셀프 어텐션 층과 피드포워드 네트워크 층에서 멀티-헤드 셀프 어텐션 층의 출력은 피드포워드 네트워크 층의 입력으로 한다.

도 10은 본 개시의 실시예에 따른 딥러닝 모델의 훈련 방법의 개략적인 예시도를 개략적으로 나타낸다.

도 10에 도시된 바와 같이, 1000에서, 딥러닝 모델은 전처리 모듈, 백본 모듈 및 클래스 분류 모듈(1016)을 포함한다. 전처리 모듈은 대상 처리 유닛(1002) 및 클래스 처리 유닛(1005)을 포함한다. 백본 모듈은 어텐션 유닛(1008), 전문가 선택 유닛(1010) 및 3개의 전문가 유닛을 포함한다. 3개의 전문가 유닛은 전문가 유닛(1011), 전문가 유닛(1012) 및 전문가 유닛(1013)을 포함한다. 백본 모듈은 Transformer를 포함할 수 있다.

대상 처리 유닛(1002)을 이용하여 샘플 영상(1001)을 처리하여, 샘플 영상(1001)에 포함되는 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터(1003)를 획득한다. 클래스 처리 유닛(1005)을 이용하여 기설정된 샘플 데이터(1004)를 처리하여, 제1 샘플 클래스 특징 데이터(1006)를 획득한다. 제1 샘플 클래스 특징 데이터(1006) 및 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터(1003)를 토대로, 제4 중간 샘플 특징 데이터(1007)를 획득한다. 제4 중간 샘플 특징 데이터(1007)의 차원은（b, t+1, d）일 수 있다. b는 현재 배치(Batch)에 포함되는 샘플 영상의 개수를 나타낸다. T는 현재 배치에 포함되는 대상의 개수를 나타낸다. D는 각 대상의 특징 차원을 나타낸다.

어텐션 유닛(1008)을 이용하여 제4 중간 샘플 특징 데이터어텐션 유닛(1007)를 처리하여, 제1 중간 샘플 특징 데이터(1009)를 획득한다. 제1 중간 샘플 특징 데이터(1009)의 차원은（b, t+1, d）일 수 있다.

제1 중간 샘플 특징 데이터(1009)를 토대로, 중간 샘플 행렬을 결정한다. 즉, 제1 중간 샘플 특징 데이터(1009)의 마지막 두 차원을 합쳐, 차원이（b, td+d）인 중간 샘플 행렬을 획득할 수 있다. 전문가 선택 유닛(1010)을 이용하여 중간 샘플 행렬을 처리하여, 전문가 샘플 확률 행렬을 획득한다. 전문가 선택 유닛(1010)은 차원이（td+d, Q=3）이고요소 값을 업데이트 가능한 행렬일 수 있다. 전문가 샘플 확률 행렬의 차원은 （b, Q=3）일 수 있다. 샘플 전문가 확률 행렬로부터 샘플 요소 값이 한계값인 샘플 요소를 결정하여, 목표 샘플 요소를 획득한다. 목표 샘플 요소에 대응하는 전문가 선택 유닛(1011)을 목표 샘플 전문가 유닛으로 결정한다.

목표 샘플 전문가 유닛（즉 전문가 유닛(1011)）을 이용하여 제1 중간 샘플 특징 데이터(1009)를 처리하여, 제2 중간 샘플 특징 데이터(1014)를 획득한다. 제2 중간 샘플 특징 데이터(1014)는 제2 샘플 클래스 특징 데이터(1015)를 포함한다.

클래스 분류 모듈(1016)을 이용하여 제2 샘플 클래스 특징 데이터(1015)를 처리하여, 샘플 클래스 확률 값(1017)을 획득한다. 손실 함수(1019)에 기초하여, 샘플 클래스 확률 값(1017) 및 클래스 라벨 값(1018)을 이용하여, 출력 값(1020)을 획득한다.

출력 값(1020)을 토대로, 기설정된 종료 조건이 만족될 때까지, 대상 처리 유닛(1002), 클래스 처리 유닛(1005), 어텐션 유닛(1008), 전문가 선택 유닛(1010), 전문가 유닛(1011), 전문가 유닛(1012), 전문가 유닛(1013) 및 클래스 분류 모듈(1016)의 모델 파라미터를 조정하여, 훈련된 딥러닝 모델을 획득한다.

본 개시의 기술 방안에서, 관련된 사용자의 개인 정보의 수집, 저장, 사용, 이용, 전송, 제공 및 공개 등 처리는 모두 관련 법규의 규정에 부합하며, 또한 선량한 풍속에 위배하지 않는다.

이상은 예시적인 실시예일 뿐이고, 이에 한정되는 것이 아니다. 멀티태스크 인식 정확도를 높일 수만 있으면, 해당 분야에서 알려진 기타 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법을 더 포함될 수 있다.

도 11은 본 개시의 실시예에 따른 멀티태스크의 인식 장치의 블록도를 개략적으로 나타낸다.

도 11에 도시된 바와 같이, 멀티태스크의 인식 장치(1100)는 제1 획득 모듈(1110), 제2 획득 모듈(1120), 제3 획득 모듈(1130) 및 제4 획득 모듈(1140)을 포함할 수 있다.

제1 획득 모듈(1110)은 피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하기 위해 사용된다.

제2 획득 모듈(1120)은 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하기 위해 사용된다.

제3 획득 모듈(1130)은 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하기 위해 사용된다.

제4 획득 모듈(1140)은 제2 중간 특징 데이터를 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제2 획득 모듈(1120)은 제1 획득 서브 모듈 및 제2 획득 서브 모듈을 포함할 수 있다.

제1 획득 서브 모듈은 목표 선택 전략 및 제1 중간 특징 데이터에 기초하여, 제3 중간 특징 데이터를 획득하기 위해 사용된다.

제2 획득 서브 모듈은, 제3 중간 특징 데이터를 토대로, 복수의 특징 추출 전략으로부터 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제1 획득 서브 모듈은 제1 결정 유닛, 제2 결정 유닛, 제3 결정 유닛 및 제4 결정 유닛을 포함할 수 있다.

제1 결정 유닛은 목표 선택 전략을 토대로, 목표 선택 행렬을 결정하기 위해 사용된다.

제2 결정 유닛은 제1 중간 특징 데이터를 토대로, 중간 행렬을 결정하기 위해 사용된다.

제3 결정 유닛은 목표 선택 행렬 및 중간 행렬을 토대로, 목표 전문가 확률 행렬을 결정하기 위해 사용된다. 목표 전문가 확률 행렬은 복수의 특징 추출 전략 각각에 대응하는 요소를 포함한다. 요소의 요소 값은 특징 추출 전략이 선택되는 확률을 나타낸다.

제4 결정 유닛은 목표 전문가 확률 행렬을 제3 중간 특징 데이터로 결정하기 위해 사용된다.

본 개시의 실시예에 따르면, 제3 결정 유닛은 제1 획득 서브 유닛을 포함할 수 있다.

제1 획득 서브 유닛은 목표 선택 행렬과 중간 행렬을 곱하여, 목표 전문가 확률 행렬을 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제2 획득 서브 모듈은 제1 획득 유닛 및 제5 결정 유닛을 포함할 수 있다.

제1 획득 유닛은 목표 전문가 확률 행렬로부터 요소 값이 한계값인 요소를 결정하여, 목표 요소를 획득하기 위해 사용된다. 한계값은 최대값 또는 최소값을 포함한다.

제5 결정 유닛은 목표 요소에 대응하는 특징 추출 전략을 목표 특징 추출 전략으로 결정하기 위해 사용된다.

본 개시의 실시예에 따르면, 제1 획득 모듈(1110)은 제3 획득 서브 모듈, 제4 획득 서브 모듈, 제5 획득 서브 모듈 및 제6 획득 서브 모듈을 포함할 수 있다.

제3 획득 서브 모듈은, 피인식 영상를 처리하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터를 획득하기 위해 사용된다.

제4 획득 서브 모듈은, 기설정된 데이터를 처리하여, 제1 클래스 특징 데이터를 획득하기 위해 사용된다.

제5 획득 서브 모듈은, 복수의 피인식 영상 블록 각각의 대상 특징 데이터 및 제1 클래스 특징 데이터를 토대로, 제4 중간 특징 데이터를 획득하기 위해 사용된다.

제6 획득 서브 모듈은, 제4 중간 특징 데이터를 처리하여, 제1 중간 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제6 획득 서브 모듈은 제2 획득 유닛을 포함할 수 있다.

제2 획득 유닛은 어텐션 전략에 기초하여, 제4 중간 특징 데이터를 처리하여, 제1 중간 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제1 중간 특징 데이터는 딥러닝 모델의 예상 어텐션 유닛을 이용하여 제4 중간 특징 데이터를 처리하여 획득하는 것이다.

본 개시의 실시예에 따르면, 제3 획득 모듈(1130)은 제7 획득 서브 모듈을 포함할 수 있다.

제7 획득 서브 모듈은 목표 특징 추출 전략에 기초하여, 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 제2 중간 특징 데이터를 획득기 위해 사용된다.

본 개시의 실시예에 따르면, 제7 획득 서브 모듈은 제3 획득 유닛 및 제4 획득 유닛을 포함할 수 있다.

제3 획득 유닛은 딥러닝 모델에 포함되는 복수의 전문가 유닛으로부터 목표 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 전문가 유닛을 획득하기 위해 사용된다. 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함한다.

제4 획득 유닛은 적어도 하나의 목표 전문가 유닛을 이용하여 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제2 중간 특징 데이터는 제2 클래스 특징 데이터를 포함한다.

본 개시의 실시예에 따르면, 제4 획득 모듈(1140)은 제8 획득 서브 모듈 및 제9 획득 서브 모듈을 포함할 수 있다.

제8 획득 서브 모듈은 제2 클래스 특징 데이터를 토대로, 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 클래스 확률 값을 획득하기 위해 사용된다.

제9 획득 서브 모듈은 복수의 클래스 확률 값을 토대로, 피인식 영상에 대한 멀티태스크 인식 결과를 획득하기 위해 사용된다.

도 12는 본 개시의 실시예에 따른 딥러닝 모델의 훈련 장치의 블록도를 개략적으로 나타낸다.

도 12에 도시된 바와 같이, 딥러닝 모델의 훈련 장치(1200)은 제5 획득 모듈(1210), 제6 획득 모듈(1220), 제7 획득 모듈(1230), 제8 획득 모듈(1240) 및 제9 획득 모듈(1250)을 포함할 수 있다.

제5 획득 모듈(1210)은 샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

제6 획득 모듈(1220)은 선택 전략 및 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하기 위해 사용된다.

제7 획득 모듈(1230)은 목표 샘플 특징 추출 전략에 기초하여, 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득기 위해 사용된다.

제8 획득 모듈(1240)은 제2 중간 샘플 특징 데이터를 토대로, 샘플 영상에 대한 멀티태스크 인식 결과를 획득하기 위해 사용된다.

제9 획득 모듈(1250)은 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제6 획득 모듈(1220)은 제10 획득 서브 모듈 및 제11 획득 서브 모듈을 포함할 수 있다.

제10 획득 서브 모듈은 선택 전략 및 제1 중간 샘플 특징 데이터에 기초하여, 제3 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

제11 획득 서브 모듈은 제3 중간 샘플 특징 데이터를 토대로, 복수의 샘플 특징 추출 전략으로부터 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제10 획득 서브 모듈은 제6 결정 유닛, 제7 결정 유닛, 제8 결정 유닛 및 제9 결정 유닛을 포함할 수 있다.

제6 결정 유닛은 선택 전략을 토대로, 선택 행렬을 결정하기 위해 사용된다.

제7 결정 유닛은 제1 중간 샘플 특징 데이터를 토대로, 중간 샘플 행렬을 결정하기 위해 사용된다.

제8 결정 유닛은 선택 행렬 및 중간 샘플 행렬을 토대로, 샘플 전문가 확률 행렬을 결정하기 위해 사용된다. 샘플 전문가 확률 행렬은 복수의 샘플 특징 추출 전략 각각에 대응하는 샘플 요소를 포함하며, 샘플 요소의 요소 값은 샘플 특징 추출 전략이 선택되는 확률을 나타낸다.

제9 결정 유닛은 샘플 전문가 확률 행렬을 제3 중간 샘플 특징 데이터로 결정하기 위해 사용된다.

본 개시의 실시예에 따르면, 제8 결정 유닛은 제2 획득 서브 유닛을 포함할 수 있다.

제2 획득 서브 유닛은 선택 행렬과 중간 샘플 행렬을 곱하여, 샘플 전문가 확률 행렬을 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제11 획득 서브 모듈은 제5 획득 유닛 및 제10 결정 유닛을 포함할 수 있다.

제5 획득 유닛은, 샘플 전문가 확률 행렬로부터 샘플 요소 값이 한계값인 샘플 요소를 결정하여, 목표 샘플 요소를 획득하기 위해 사용된다. 한계값은 최대값 또는 최소값을 포함한다.

제10 결정 유닛은 목표 샘플 요소에 대응하는 샘플 특징 추출 전략을 목표 샘플 특징 추출 전략으로 결정하기 위해 사용된다.

본 개시의 실시예에 따르면, 제5 획득 모듈(1210)은 제12 획득 서브 모듈, 제13 획득 서브 모듈, 제14 획득 서브 모듈 및 제15 획득 서브 모듈을 포함할 수 있다.

제12 획득 서브 모듈은 샘플 영상를 처리하여, 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터를 획득하기 위해 사용된다.

제13 획득 서브 모듈은 기설정된 샘플 데이터를 처리하여, 제1 샘플 클래스 특징 데이터를 획득하기 위해 사용된다.

제14 획득 서브 모듈은 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터 및 제1 샘플 클래스 특징 데이터를 토대로, 제4 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

제15 획득 서브 모듈은 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제15 획득 서브 모듈은 제6 획득 유닛을 포함할 수 있다.

제6 획득 유닛은 어텐션 전략에 기초하여, 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 딥러닝 모델은 백본 모듈을 포함한다. 백본 모듈은 캐스케이드된 적어도 하나의 백본 서브 모듈을 포함한다. 백본 서브 모듈은 어텐션 유닛을 포함한다.

본 개시의 실시예에 따르면, 제6 획득 유닛은 제3 획득 서브 유닛을 포함할 수 있다.

제3 획득 서브 유닛은 백본 모듈 중의 예상 어텐션 유닛을 이용하여 제4 중간 샘플 특징 데이터를 처리하여, 제1 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 제7 획득 모듈(1230)은 제16 획득 서브 모듈을 포함할 수 있다.

제16 획득 서브 모듈은 목표 샘플 특징 추출 전략에 기초하여, 제1 중간 샘플 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 제2 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 백본 서브 모듈은 복수의 전문가 유닛을 더 포함한다. 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함한다.

본 개시의 실시예에 따르면, 제16 획득 서브 모듈은 제7 획득 유닛 및 제8 획득 유닛을 포함할 수 있다.

제7 획득 유닛은 복수의 전문가 유닛으로부터 목표 샘플 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 샘플 전문가 유닛을 획득하기 위해 사용된다.

제8 획득 유닛은 적어도 하나의 목표 샘플 전문가 유닛을 이용하여 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 백본 서브 모듈은 전문가 선택 유닛을 더 포함한다.

본 개시의 실시예에 따르면, 제8 획득 유닛은 제4 획득 서브 유닛, 제5 획득 서브 유닛, 제6 획득 서브 유닛 및 제7 획득 서브 유닛을 포함할 수 있다.

제4 획득 서브 유닛은 1번쩨 계층의 목표 샘플 전문가 유닛을 이용하여 상기 제1 중간 샘플 특징 데이터를 처리하여, 1번쩨 계층의 제5 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

제5 획득 서브 유닛은 1번쩨 계층의 제5 중간 샘플 특징 데이터를 토대로, 제2 중간 샘플 특징 데이터를 획득하기 위해 사용된다.

본 개시의 실시예에 따르면, 목표 샘플 전문가 유닛은 목표 멀티-헤드 셀프 어텐션 층 및 목표 피드포워드 네트워크 층을 포함한다.

본 개시의 실시예에 따르면, 제6 획득 서브 유닛은, 아래와 같은 것을 하기 위해 사용될 수 있다.

본 개시의 실시예에 따르면, 제2 중간 샘플 특징 데이터는 제2 샘플 클래스 특징 데이터를 포함한다.

본 개시의 실시예에 따르면, 제8 획득 모듈은 결정 서브 모듈 및 제17 획득 서브 모듈을 포함할 수 있다.

결정 서브 모듈은 제2 샘플 클래스 특징 데이터를 토대로, 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득한다.

제17 획득 서브 모듈은 복수의 샘플 클래스 확률 값을 토대로, 샘플 영상에 대한 멀티태스크 인식 결과를 획득하기 위해 사용된다

본 개시의 실시예에 따르면, 딥러닝 모델은 클래스 분류 모듈을 포함한다.

본 개시의 실시예에 따르면, 결정 서브 모듈은 제9 획득 유닛을 포함할 수 있다.

제9 획득 유닛은 클래스 분류 모듈을 이용하여 제2 샘플 클래스 특징 데이터를 처리하여, 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득하기 위해 사용된다

본 개시의 실시예에 따르면, 딥러닝 모델은 전처리 모듈을 포함한다. 전처리 모듈은 대상 처리 유닛 및 클래스 처리 유닛을 포함한다.

본 개시의 실시예에 따르면, 본 개시는 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램 제품을 더 제공한다.

본 개시의 실시예에 따르면, 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하며; 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 명령어가 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서로 하여금 상술한 방법을 수행 가능하게 한다.

본 개시의 실시예에 따르면, 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체에 있어서, 컴퓨터로 하여금 상술한 방법을 수행하게 한다.

본 개시의 실시예에 따르면, 컴퓨터 프로그램 제품은, 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램이 프로세서에 의해 실행될 때 상술한 방법을 구현한다.

도 13은 본 개시의 실시예에 따른 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법을 실현하기에 적합한 전자 기기의 블록도를 개략적으로 나타낸다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 프로세서, 셀룰러 전화, 스마트 폰, 웨어러블 디바이스 및 다른 유형의 컴퓨팅 장치 등 다양한 형태의 이동 장치를 의미할 수도 있다. 본 문장에 개시되는 부품, 이들의 연결과 관계 및 이들의 기능은 오직 예시일 뿐이고, 본 문장에서 설명 및/또는 요구되는 본 개시의 실현을 제한하는 것은 아니다.

도 13에 도시된 바와 같이, 전자 기기(1300)에는 리드 온리 메모리(ROM)(1302)에 저장된 컴퓨터 프로그램 또는 저장 유닛(1308)으로부터 랜덤 액세스 메모리(RAM)(1303)로 로딩되는 컴퓨터 프로그램에 근거하여 여러가지 적합한 동작과 처리를 실행할 수 있는 컴퓨팅 유닛(1301)이 포함된다. RAM(1303)에는, 전자 기기(1300)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장 될 수 있다. 컴퓨팅 유닛(1301), ROM(1302) 및 RAM(1303)은 버스(1304)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1305)도 버스(1304)에 연결된다.

전자 기기(1300)에서의 복수의 부품은 I/O 인터페이스(1305)에 연결되며, 상기 부품에는, 예를 들면 키보드, 마우스 등과 같은 입력 유닛(1306), 예를 들면 다양한 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1307), 예를 들면 디스크, 광 디스크 등과 같은 저장 유닛(1308); 및 예를 들면 네트워크 카드, 모뎀(modem), 무선통신 송수신기 등과 같은 통신 유닛(1309)이 포함된다. 통신 유닛(1309)은 전자 기기(1300)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 텔레콤 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있도록 허용한다.

컴퓨팅 유닛(1301)은 처리 능력과 컴퓨팅 능력을 갖는 다양한 범용 및/또는 전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(1301)의 일부 예시에는, 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등이 포함되지만 이에 한정되는 것은 아니다. 컴퓨팅 유닛(1301)은, 예를 들면, 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법과 같은 위에서 설명된 각 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법은 컴퓨터 소프트웨어 프로그램으로 구현되어, 저장 유닛(1308)과 같은 기계 판독가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1302) 및/또는 통신 유닛(1309)을 거쳐 전자 기기(1300)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1303)에 로딩되어 컴퓨팅 유닛(1301)에 의해 실행될 경우, 위에서 설명한 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법의 하나 이상의 단계를 실행할 수 있다. 선택적으로, 기타 실시예에서, 컴퓨팅 유닛(1301)은 기타 임의의 적합한 방식(예를 들면, 펌웨어를 이용함)을 통해 멀티태스크의 인식 방법 및 딥러닝 모델의 훈련 방법을 실행하도록 구성될 수 있다.

본 문에서 상기 설명한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래밍 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래밍 가능 로직 디바이스(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 상기 다양한 실시형태는 다음과 같은 내용을 포함할 수 있다. 하나 이상의 컴퓨터 프로그램에서 실시되고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석될 수 있다. 상기 프로그래밍 가능 프로세서는 전용 또는 범용 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하며, 또한 상기 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 데이터 및 명령어를 전송할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 시 흐름도 및/또는 블록도에서 규정된 기능/동작이 실시되도록, 이러한 프로그램 코드를 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 개별적인 소프트웨어 패키지(Software Package)로서 부분적으로 기계에서 실행되며, 부분적으로 원격 기계에서 실행되거나, 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 발명의 문맥에서, 기계 판독가능 매체는 유형적인 매체일 수 있다. 상기 기계 판독가능 매체에는, 명령어 실행 시스템, 장치 또는 기기에 사용되거나 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용되도록 제공되는 프로그램이 포함되거나 저장될 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독가능 저장 매체일 수 있다. 기계 판독가능 매체에는, 전자, 자성, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있지만 이에 한정되는 것은 아니다. 기계 판독가능 저장 매체의 더 구체적인 예시에는 하나 이상의 와이어에 의한 전기적인 연결, 휴대용 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 소거 가능 및 프로그램 가능 리드 온리 메모리(EPROM 또는 플래시 메모리), 광섬유，휴대용 콤팩트 디스크 리드 온리 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상기 내용의 임의의 적합한 조합이 포함될 수 있다.

사용자와의 인터랙션을 제공하기 위해, 여기에서 설명하는 시스템과 기술을 컴퓨터에서 실행할 수 있다. 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들면, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드, 포인팅 장치(예를 들면, 마우스 또는 트랙 볼)를 포함한다. 사용자는 상기 키보드 및 포인팅 장치를 통해 입력을 컴퓨터에 제공한다. 기타 클래스의 장치는 사용자와의 인터랙션을 제공하기 위해 사용될 수도 있다. 예를 들면, 사용자에게 제공하는 피드백은 임의의 형태의 센싱 피드백(예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있으며, 또한 사용자로부터의 입력은 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 수신될 수 있다.

여기에서 설명하는 시스템 및 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 부품을 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터, 사용자는 상기 그래픽 유저 인터페이스 또는 웹 브라우저를 통해 여기에서 설명하는 시스템 및 기술의 실시형태와 인터랙션을 진행할 수 있음), 또는 상기 백그라운드 부품, 미들웨어 부품 또는 프론트 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실행할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망（LAN）, 광대역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함한다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있으며, 통신망을 통해 인터랙션을 진행한다. 해당 컴퓨터에서 실행되고, 또한 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있으며, 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.

상기의 다양한 형태의 프로세스를 이용하여, 단계를 다시 순서 배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 단계는 병행하여 실행할 수 있고, 순서대로 실행할 수도 있으며, 서로 다른 순서로 실행할 수도 있는데, 본 발명에 의해 개시되는 기술방안이 기대하는 결과를 실현할 수만 있다면, 이에 대해 제한하지 않는다.

상기 구체적인 실시형태는 본 발명의 보호 범위에 대해 제한하지 않는다. 당업자는 설계 요구와 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 사상 및 원칙 내에서 진행되는 수정, 균등한 교체 및 개선 등은 모두 본 발명의 보호 범위에 포함되어야 한다.

Claims

피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하고;
목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하고;
상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하고;
상기 제2 중간 특징 데이터를 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제1항에 있어서,
목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하는 것은,
상기 목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 제3 중간 특징 데이터를 획득하고;
상기 제3 중간 특징 데이터를 토대로, 상기 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 상기 목표 특징 추출 전략을 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제2항에 있어서,
상기 목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 제3 중간 특징 데이터를 획득하는 것은,
상기 목표 선택 전략을 토대로, 목표 선택 행렬을 결정하고;
상기 제1 중간 특징 데이터를 토대로, 중간 행렬을 결정하고;
상기 목표 선택 행렬 및 상기 중간 행렬을 토대로, 목표 전문가 확률 행렬을 결정하되, 상기 목표 전문가 확률 행렬은 상기 복수의 특징 추출 전략 각각에 대응하는 요소를 포함하며, 상기 요소의 요소 값은 상기 특징 추출 전략이 선택되는 확률을 나타내고;
상기 목표 전문가 확률 행렬을 상기 제3 중간 특징 데이터로 결정하는 것을 포함하는
멀티태스크의 인식 방법.
제3항에 있어서,
상기 목표 선택 행렬 및 상기 중간 행렬을 토대로, 목표 전문가 확률 행렬을 결정하는 것은,
상기 목표 선택 행렬과 상기 중간 행렬을 곱하여, 상기 목표 전문가 확률 행렬을 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제3항 또는 제4항에 있어서,
상기 제3 중간 특징 데이터를 토대로, 상기 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 상기 목표 특징 추출 전략을 획득하는 것은,
상기 목표 전문가 확률 행렬로부터 요소 값이 한계값인 요소를 결정하여, 목표 요소를 획득하되, 상기 한계값은 최대값 또는 최소값을 포함하고;
상기 목표 요소에 대응하는 특징 추출 전략을 상기 목표 특징 추출 전략으로 결정하는 것을 포함하는
멀티태스크의 인식 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하는 것은,
상기 피인식 영상를 처리하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터를 획득하고;
기설정된 데이터를 처리하여, 제1 클래스 특징 데이터를 획득하고;
상기 복수의 피인식 영상 블록 각각의 대상 특징 데이터 및 상기 제1 클래스 특징 데이터를 토대로, 제4 중간 특징 데이터를 획득하고;
상기 제4 중간 특징 데이터를 처리하여, 상기 제1 중간 특징 데이터를 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제6 항에 있어서,
상기 제4 중간 특징 데이터를 처리하여, 상기 제1 중간 특징 데이터를 획득하는 것은,
어텐션 전략에 기초하여, 상기 제4 중간 특징 데이터를 처리하여, 상기 제1 중간 특징 데이터를 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제7항에 있어서,
상기 제1 중간 특징 데이터는 딥러닝 모델의 예상 어텐션 유닛을 이용하여 상기 제4 중간 특징 데이터를 처리하여 획득하는 멀티태스크의 인식 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하는 것은,
상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 상기 제2 중간 특징 데이터를 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제9항에 있어서,
상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 상기 제2 중간 특징 데이터를 획득하는 것은,
딥러닝 모델에 포함되는 복수의 전문가 유닛으로부터 상기 목표 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 전문가 유닛을 획득하되, 상기 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함하고;
상기 적어도 하나의 목표 전문가 유닛을 이용하여 상기 제1 중간 특징 데이터를 처리하여, 상기 제2 중간 특징 데이터를 획득하는 것을 포함하는
멀티태스크의 인식 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 제2 중간 특징 데이터는 제2 클래스 특징 데이터를 포함하고;
상기 제2 중간 특징 데이터를 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 것은,
상기 제2 클래스 특징 데이터를 토대로, 상기 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 클래스 확률 값을 획득하고;
상기 복수의 클래스 확률 값을 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하는 것을 포함하는
멀티태스크의 인식 방법.
샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득하고;
선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하고;
상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하고;
상기 제2 중간 샘플 특징 데이터를 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하고;
상기 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 상기 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제12항에 있어서,
선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하는 것은,
상기 선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 제3 중간 샘플 특징 데이터를 획득하고;
상기 제3 중간 샘플 특징 데이터를 토대로, 상기 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 상기 목표 샘플 특징 추출 전략을 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제13항에 있어서,
상기 선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 제3 중간 샘플 특징 데이터를 획득하는 것은,
상기 선택 전략을 토대로, 선택 행렬을 결정하고;
상기 제1 중간 샘플 특징 데이터를 토대로, 중간 샘플 행렬을 결정하고;
상기 선택 행렬 및 상기 중간 샘플 행렬을 토대로, 샘플 전문가 확률 행렬을 결정하되, 상기 샘플 전문가 확률 행렬은 상기 복수의 샘플 특징 추출 전략 각각에 대응하는 샘플 요소를 포함하며, 상기 샘플 요소의 요소 값은 상기 샘플 특징 추출 전략이 선택되는 확률을 나타내고;
상기 샘플 전문가 확률 행렬을 상기 제3 중간 샘플 특징 데이터로 결정하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제14항에 있어서,
상기 선택 행렬 및 상기 중간 샘플 행렬을 토대로, 샘플 전문가 확률 행렬을 결정하는 것은,
상기 선택 행렬과 상기 중간 샘플 행렬을 곱하여, 상기 샘플 전문가 확률 행렬을 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제14항 또는 제15항에 있어서,
상기 제3 중간 샘플 특징 데이터를 토대로, 상기 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 상기 목표 샘플 특징 추출 전략을 획득하는 것은,
상기 샘플 전문가 확률 행렬로부터 샘플 요소 값이 한계값인 샘플 요소를 결정하여, 목표 샘플 요소를 획득하되, 상기 한계값은 최대값 또는 최소값을 포함하고;
상기 목표 샘플 요소에 대응하는 샘플 특징 추출 전략을 상기 목표 샘플 특징 추출 전략으로 결정하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제12항 내지 제15항 중 어느 한 항에 있어서,
샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득하는 것은,
상기 샘플 영상를 처리하여, 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터를 획득하고;
기설정된 샘플 데이터를 처리하여, 제1 샘플 클래스 특징 데이터를 획득하고;
상기 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터 및 상기 제1 샘플 클래스 특징 데이터를 토대로, 제4 중간 샘플 특징 데이터를 획득하고;
상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제17항에 있어서,
상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하는 것은,
어텐션 전략에 기초하여, 상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제18항에 있어서,
상기 딥러닝 모델은 백본 모듈을 포함하며, 상기 백본 모듈은 캐스케이드된 적어도 하나의 백본 서브 모듈을 포함하며, 상기 백본 서브 모듈은 어텐션 유닛을 포함하고;
어텐션 전략에 기초하여, 상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하는 것은,
상기 백본 모듈의 예상 어텐션 유닛을 이용하여 상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제19항에 있어서,
상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하는 것은,
상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 상기 제2 중간 샘플 특징 데이터를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제20항에 있어서,
상기 백본 서브 모듈은 복수의 전문가 유닛을 더 포함하며, 상기 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함하고;
상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 상기 제2 중간 샘플 특징 데이터를 획득하는 것은,
상기 복수의 전문가 유닛으로부터 상기 목표 샘플 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 샘플 전문가 유닛을 획득하고;
상기 적어도 하나의 목표 샘플 전문가 유닛을 이용하여 상기 제1 중간 샘플 특징 데이터를 처리하여, 상기 제2 중간 샘플 특징 데이터를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제21항에 있어서,
상기 백본 모듈은 캐스케이드된 M개의 상기 백본 서브 모듈을 포함하며, M은 1보다 크거나 같은 정수이고;
상기 백본 서브 모듈은 전문가 선택 유닛을 더 포함하고;
상기 적어도 하나의 목표 샘플 전문가 유닛을 이용하여 상기 제1 중간 샘플 특징 데이터를 처리하여, 상기 제2 중간 샘플 특징 데이터를 획득하는 것은,
M = 1인 경우,
1번째 계층의 목표 샘플 전문가 유닛을 이용하여 상기 제1 중간 샘플 특징 데이터를 처리하여, 1번째 계층의 제5 중간 샘플 특징 데이터를 획득하고;
상기 1번째 계층의 제5 중간 샘플 특징 데이터를 토대로, 상기 제2 중간 샘플 특징 데이터를 획득하는 것을 포함하며;
M > 1 이고 m > 1인 경우,
m 번째 계층의 목표 샘플 전문가 유닛을 이용하여 m 번째 계층의 제6 중간 샘플 특징 데이터를 처리하여, m 번째 계층의 제5 중간 샘플 특징 데이터를 획득하고, 여기서, 상기 m 번째 계층의 제6 중간 샘플 특징 데이터는 m 번째 계층의 어텐션 유닛이 (m -1) 번째 계층의 제5 중간 샘플 특징 데이터를 처리하여 획득하는 것이고, 상기 m 번째 계층의 목표 샘플 전문가 유닛은 m 번째 계층의 전문가 선택 유닛을 이용하여 상기 (m-1) 번째 계층의 제5 중간 샘플 특징 데이터를 처리하여 획득하는 결과를 토대로 결정되는 것이고;
N 번째 계층의 제5 중간 샘플 특징 데이터를 토대로, 상기 제2 중간 샘플 특징 데이터를 획득하되, N 은 1보다 크거나 같으며 M 보다 작은 정수인 것을 포함하는
딥러닝 모델의 훈련 방법.
제22항에 있어서,
상기 목표 샘플 전문가 유닛은 목표 멀티-헤드 셀프 어텐션 층 및 목표 피드포워드 네트워크 층을 포함하고;
m 번째 계층의 목표 샘플 전문가 유닛을 이용하여 m 번째 계층의 제6 중간 샘플 특징 데이터를 처리하여, m 번째 계층의 제5 중간 샘플 특징 데이터를 획득하는 것은,
m 번째 계층의 목표 멀티-헤드 셀프 어텐션 층을 이용하여 상기 m 번째 계층의 제6 중간 샘플 특징 데이터를 처리하여, m 번째 계층의 제7 중간 샘플 특징 데이터를 획득하고;
m 번째 계층의 목표 피드포워드 네트워크 층을 이용하여 상기 m 번째 계층의 제7 중간 샘플 특징 데이터를 처리하여, 상기 m 번째 계층의 제5 중간 샘플 특징 데이터를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제12항 내지 제15항 중 어느 한 항에 있어서,
상기 제2 중간 샘플 특징 데이터는 제2 샘플 클래스 특징 데이터를 포함하고;
상기 제2 중간 샘플 특징 데이터를 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하는 것은,
상기 제2 샘플 클래스 특징 데이터를 토대로, 상기 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득하고;
상기 복수의 샘플 클래스 확률 값을 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제24항에 있어서,
상기 딥러닝 모델은 클래스 분류 모듈을 포함하고;
상기 제2 샘플 클래스 특징 데이터를 토대로, 상기 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득하는 것은,
상기 클래스 분류 모듈을 이용하여 상기 제2 샘플 클래스 특징 데이터를 처리하여, 상기 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 상기 복수의 샘플 클래스 확률 값을 획득하는 것을 포함하는
딥러닝 모델의 훈련 방법.
제17항에 있어서,
상기 딥러닝 모델은 전처리 모듈을 포함하며, 상기 전처리 모듈은 대상 처리 유닛 및 클래스 처리 유닛을 포함하고;
상기 샘플 대상 특징 데이터는 상기 대상 처리 유닛을 이용하여 상기 샘플 영상 블록을 처리하여 획득하는 것이고;
상기 제1 샘플 클래스 특징 데이터는 상기 클래스 처리 유닛을 이용하여 상기 기설정된 샘플 데이터를 처리하여 획득하는 것인
딥러닝 모델의 훈련 방법.
피인식 영상을 토대로, 제1 중간 특징 데이터를 획득하기 위한 제1 획득 모듈;
목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 목표 특징 추출 전략을 획득하기 위한 제2 획득 모듈;
상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터를 처리하여, 제2 중간 특징 데이터를 획득하기 위한 제3 획득 모듈; 및
상기 제2 중간 특징 데이터를 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하기 위한 제4 획득 모듈을 포함하는
멀티태스크의 인식 장치.
제27항에 있어서,
상기 제2 획득 모듈은,
상기 목표 선택 전략 및 상기 제1 중간 특징 데이터에 기초하여, 제3 중간 특징 데이터를 획득하기 위한 제1 획득 서브 모듈; 및
상기 제3 중간 특징 데이터를 토대로, 상기 복수의 특징 추출 전략으로부터 상기 피인식 영상과의 정합성이 가장 높은 특징 추출 전략을 선택하여, 상기 목표 특징 추출 전략을 획득하기 위한 제2 획득 서브 모듈을 포함하는
멀티태스크의 인식 장치.
제28항에 있어서,
상기 제1 획득 서브 모듈은,
상기 목표 선택 전략을 토대로, 목표 선택 행렬을 결정하기 위한 제1 결정 유닛;
상기 제1 중간 특징 데이터를 토대로, 중간 행렬을 결정하기 위한 제2 결정 유닛;
상기 목표 선택 행렬 및 상기 중간 행렬을 토대로, 목표 전문가 확률 행렬을 결정하기 위한 제3 결정 유닛이되, 상기 목표 전문가 확률 행렬은 상기 복수의 특징 추출 전략 각각에 대응하는 요소를 포함하며, 상기 요소의 요소 값은 상기 특징 추출 전략이 선택되는 확률을 나타내는 상기 제3 결정 유닛; 및
상기 목표 전문가 확률 행렬을 상기 제3 중간 특징 데이터로 결정하기 위한 제4 결정 유닛을 포함하는
멀티태스크의 인식 장치.
제29항에 있어서,
상기 제3 결정 유닛은,
상기 목표 선택 행렬과 상기 중간 행렬을 곱하여, 상기 목표 전문가 확률 행렬을 획득하기 위한 제1 획득 서브 유닛을 포함하는
멀티태스크의 인식 장치.
제29항 또는 제30항에 있어서,
상기 제2 획득 서브 모듈은,
상기 목표 전문가 확률 행렬로부터 요소 값이 한계값인 요소를 결정하여, 목표 요소를 획득하기 위한 제1 획득 유닛이되, 상기 한계값은 최대값 또는 최소값을 포함하는 상기 제1 획득 유닛; 및
상기 목표 요소에 대응하는 특징 추출 전략을 상기 목표 특징 추출 전략으로 결정하기 위한 제5 결정 유닛을 포함하는
멀티태스크의 인식 장치.
제27항 내지 제30항 중 어느 한 항에 있어서,
상기 제1 획득 모듈은,
상기 피인식 영상를 처리하여, 복수의 피인식 영상 블록 각각의 대상 특징 데이터를 획득하기 위한 제3 획득 서브 모듈;
기설정된 데이터를 처리하여, 제1 클래스 특징 데이터를 획득하기 위한 제4 획득 서브 모듈;
상기 복수의 피인식 영상 블록 각각의 대상 특징 데이터 및 상기 제1 클래스 특징 데이터를 토대로, 제4 중간 특징 데이터를 획득하기 위한 제5 획득 서브 모듈; 및
상기 제4 중간 특징 데이터를 처리하여, 상기 제1 중간 특징 데이터를 획득하기 위한 제6 획득 서브 모듈을 포함하는
멀티태스크의 인식 장치.
제32항에 있어서,
상기 제6 획득 서브 모듈은,
어텐션 전략에 기초하여, 상기 제4 중간 특징 데이터를 처리하여, 상기 제1 중간 특징 데이터를 획득하기 위한 제2 획득 유닛을 포함하는
멀티태스크의 인식 장치.
제33항에 있어서,
상기 제1 중간 특징 데이터는 딥러닝 모델의 예상 어텐션 유닛을 이용하여 상기 제4 중간 특징 데이터를 처리하여 획득하는 멀티태스크의 인식 장치.
제27항 내지 제30항 중 어느 한 항에 있어서,
상기 제3 획득 모듈은,
상기 목표 특징 추출 전략에 기초하여, 상기 제1 중간 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 상기 제2 중간 특징 데이터를 획득하기 위한 제7 획득 서브 모듈을 포함하는
멀티태스크의 인식 장치.
제35항에 있어서,
상기 제7 획득 서브 모듈은,
딥러닝 모델에 포함되는 복수의 전문가 유닛으로부터 상기 목표 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 전문가 유닛을 획득하기 위한 제3 획득 유닛이되, 상기 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함하는 상기 제3 획득 유닛; 및
상기 적어도 하나의 목표 전문가 유닛을 이용하여 상기 제1 중간 특징 데이터를 처리하여, 상기 제2 중간 특징 데이터를 획득하기 위한 제4 획득 유닛을 포함하는
멀티태스크의 인식 장치.
제27항 내지 제30항 중 어느 한 항에 있어서,
상기 제2 중간 특징 데이터는 제2 클래스 특징 데이터를 포함하고;
상기 제4 획득 모듈은,
상기 제2 클래스 특징 데이터를 토대로, 상기 피인식 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 클래스 확률 값을 획득하기 위한 제8 획득 서브 모듈; 및
상기 복수의 클래스 확률 값을 토대로, 상기 피인식 영상에 대한 멀티태스크 인식 결과를 획득하기 위한 제9 획득 서브 모듈을 포함하는
멀티태스크의 인식 장치.
샘플 영상을 토대로, 제1 중간 샘플 특징 데이터를 획득하기 위한 제5 획득 모듈;
선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 목표 샘플 특징 추출 전략을 획득하기 위한 제6 획득 모듈;
상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터를 처리하여, 제2 중간 샘플 특징 데이터를 획득하기 위한 제7 획득 모듈;
상기 제2 중간 샘플 특징 데이터를 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하기 위한 제8 획득 모듈; 및
상기 샘플 영상에 대한 멀티태스크 인식 결과 및 라벨 값을 이용하여 상기 딥러닝 모델을 훈련하여, 훈련된 딥러닝 모델을 획득하기 위한 제9 획득 모듈을 포함하는
딥러닝 모델의 훈련 장치.
제38항에 있어서,
상기 제6 획득 모듈은,
상기 선택 전략 및 상기 제1 중간 샘플 특징 데이터에 기초하여, 제3 중간 샘플 특징 데이터를 획득하기 위한 제10 획득 서브 모듈; 및
상기 제3 중간 샘플 특징 데이터를 토대로, 상기 복수의 샘플 특징 추출 전략으로부터 상기 샘플 영상과의 정합성이 가장 높은 샘플 특징 추출 전략을 선택하여, 상기 목표 샘플 특징 추출 전략을 획득하기 위한 제11 획득 서브 모듈을 포함하는
딥러닝 모델의 훈련 장치.
제39항에 있어서,
상기 제10 획득 서브 모듈은,
상기 선택 전략을 토대로, 선택 행렬을 결정하기 위한 제6 결정 유닛;
상기 제1 중간 샘플 특징 데이터를 토대로, 중간 샘플 행렬을 결정하기 위한 제7 결정 유닛;
상기 선택 행렬 및 상기 중간 샘플 행렬을 토대로, 샘플 전문가 확률 행렬을 결정하기 위한 제8 결정 유닛이되, 상기 샘플 전문가 확률 행렬은 상기 복수의 샘플 특징 추출 전략 각각에 대응하는 샘플 요소를 포함하며, 상기 샘플 요소의 요소 값은 상기 샘플 특징 추출 전략이 선택되는 확률을 나타내는 상기 제8 결정 유닛; 및
상기 샘플 전문가 확률 행렬을 상기 제3 중간 샘플 특징 데이터로 결정하기 위한 제9 결정 유닛을 포함하는
딥러닝 모델의 훈련 장치.
제40항에 있어서,
상기 제8 결정 유닛은,
상기 선택 행렬과 상기 중간 샘플 행렬을 곱하여, 상기 샘플 전문가 확률 행렬을 획득하기 위한 제2 획득 서브 유닛을 포함하는 딥러닝 모델의 훈련 장치.
제40항 또는 제41항에 있어서,
상기 제11 획득 서브 모듈은,
상기 샘플 전문가 확률 행렬로부터 샘플 요소 값이 한계값인 샘플 요소를 결정하여, 목표 샘플 요소를 획득하기 위한 제5 획득 유닛이되, 상기 한계값은 최대값 또는 최소값을 포함하는 상기 제5 획득 유닛; 및
상기 목표 샘플 요소에 대응하는 샘플 특징 추출 전략을 상기 목표 샘플 특징 추출 전략으로 결정하기 위한 제10 결정 유닛을 포함하는
딥러닝 모델의 훈련 장치.
제38항 내지 제41항 중 어느 한 항에 있어서,
상기 제5 획득 모듈은,
상기 샘플 영상를 처리하여, 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터를 획득하기 위한 제12 획득 서브 모듈;
기설정된 샘플 데이터를 처리하여, 제1 샘플 클래스 특징 데이터를 획득하기 위한 제13 획득 서브 모듈;
상기 복수의 샘플 영상 블록 각각의 샘플 대상 특징 데이터 및 상기 제1 샘플 클래스 특징 데이터를 토대로, 제4 중간 샘플 특징 데이터를 획득하기 위한 제14 획득 서브 모듈; 및
상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하기 위한 제15 획득 서브 모듈을 포함하는
딥러닝 모델의 훈련 장치.
제43항에 있어서,
상기 제15 획득 서브 모듈은,
어텐션 전략에 기초하여, 상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하기 위한 제6 획득 유닛을 포함하는 딥러닝 모델의 훈련 장치.
제44항에 있어서,
상기 딥러닝 모델은 백본 모듈을 포함하며, 상기 백본 모듈은 캐스케이드된 적어도 하나의 백본 서브 모듈을 포함하며, 상기 백본 서브 모듈은 어텐션 유닛을 포함하고;
상기 제6 획득 유닛은,
상기 백본 모듈 중의 예상 어텐션 유닛을 이용하여 상기 제4 중간 샘플 특징 데이터를 처리하여, 상기 제1 중간 샘플 특징 데이터를 획득하기 위한 제3 획득 서브 유닛을 포함하는 딥러닝 모델의 훈련 장치.
제45항에 있어서,
상기 제7 획득 모듈은,
상기 목표 샘플 특징 추출 전략에 기초하여, 상기 제1 중간 샘플 특징 데이터의 전역 특징 및 국부 특징 중 적어도 하나를 추출하여, 상기 제2 중간 샘플 특징 데이터를 획득하기 위한 제16 획득 서브 모듈을 포함하는 딥러닝 모델의 훈련 장치.
제46항에 있어서,
상기 백본 서브 모듈은 복수의 전문가 유닛을 더 포함하며, 상기 전문가 유닛은 멀티-헤드 셀프 어텐션 층 및 피드포워드 네트워크 층 중 적어도 하나를 포함하고;
상기 제16 획득 서브 모듈은,
상기 복수의 전문가 유닛으로부터 상기 목표 샘플 특징 추출 전략에 대응하는 적어도 하나의 전문가 유닛을 결정하여, 적어도 하나의 목표 샘플 전문가 유닛을 획득하기 위한 제7 획득 유닛; 및
상기 적어도 하나의 목표 샘플 전문가 유닛을 이용하여 상기 제1 중간 샘플 특징 데이터를 처리하여, 상기 제2 중간 샘플 특징 데이터를 획득하기 위한 제8 획득 유닛을 포함하는
딥러닝 모델의 훈련 장치.
제47항에 있어서,
상기 백본 모듈은 캐스케이드된 M 개의 상기 백본 서브 모듈을 포함하며, M은 1보다 크거나 같은 정수이고;
상기 백본 서브 모듈은 전문가 선택 유닛도 포함하고;
상기 제8 획득 유닛은,
M = 1인 경우,
1번째 계층의 목표 샘플 전문가 유닛을 이용하여 상기 제1 중간 샘플 특징 데이터를 처리하여, 1번째 계층의 제5 중간 샘플 특징 데이터를 획득하기 위한 제4 획득 서브 유닛; 및
상기 1번째 계층의 제5 중간 샘플 특징 데이터를 토대로, 상기 제2 중간 샘플 특징 데이터를 획득하기 위한 제5 획득 서브 유닛을 포함하고
M > 1 이고, m>1인 경우,
m 번째 계층의 목표 샘플 전문가 유닛을 이용하여 m 번째 계층의 제6 중간 샘플 특징 데이터를 처리하여, m 번째 계층의 제5 중간 샘플 특징 데이터를 획득하기 위한 제6 획득 서브 유닛이되, 여기서, 상기 m 번째 계층의 제6 중간 샘플 특징 데이터는 m 번째 계층의 어텐션 유닛이 (m -1) 번째 계층의 제5 중간 샘플 특징 데이터를 처리하여 획득하는 것이며, 상기 m 번째 계층의 목표 샘플 전문가 유닛은 m 번째 계층의 전문가 선택 유닛을 이용하여 상기 (m -1) 번째 계층의 제5 중간 샘플 특징 데이터를 처리하여 획득하는 결과를 토대로 결정하는 것인 상기 제6 획득 서브 유닛; 및
N 번째 계층의 제5 중간 샘플 특징 데이터를 토대로, 상기 제2 중간 샘플 특징 데이터를 획득하기 위한 제7 획득 서브 유닛이되, 여기서, N 은 1보다 크거나 같으며 M 보다 작은 정수인 상기 제7 획득 서브 유닛을 포함하는
딥러닝 모델의 훈련 장치.
제48항에 있어서,
상기 목표 샘플 전문가 유닛은 목표 멀티-헤드 셀프 어텐션 층 및 목표 피드포워드 네트워크 층을 포함하고;
상기 제6 획득 서브 유닛은,
제48항에 있어서,
상기 목표 샘플 전문가 유닛은 목표 멀티-헤드 셀프 어텐션 층 및 목표 피드포워드 네트워크 층을 포함하고;
상기 제6 획득 서브 유닛은,
m 번째 계층의 목표 멀티-헤드 셀프 어텐션 층을 이용하여 상기 m 번째 계층의 제6 중간 샘플 특징 데이터를 처리하여, m 번째 계층의 제7 중간 샘플 특징 데이터를 획득하고;
m 번째 계층의 목표 피드포워드 네트워크 층을 이용하여 상기 m 번째 계층의 제7 중간 샘플 특징 데이터를 처리하여, 상기 m 번째 계층의 제5 중간 샘플 특징 데이터를 획득하기 위해 사용되는
딥러닝 모델의 훈련 장치.
제38항 내지 제41항 중 어느 한 항에 있어서,
상기 제2 중간 샘플 특징 데이터는 제2 샘플 클래스 특징 데이터를 포함하고;
상기 제8 획득 모듈은,
상기 제2 샘플 클래스 특징 데이터를 토대로, 상기 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 복수의 샘플 클래스 확률 값을 획득하기 위한 결정 서브 모듈; 및
상기 복수의 샘플 클래스 확률 값을 토대로, 상기 샘플 영상에 대한 멀티태스크 인식 결과를 획득하기 위한 제17 획득 서브 모듈을 포함하는
딥러닝 모델의 훈련 장치.
제50항에 있어서,
상기 딥러닝 모델은 클래스 분류 모듈을 포함하고;
상기 결정 서브 모듈은,
상기 클래스 분류 모듈을 이용하여 상기 제2 샘플 클래스 특징 데이터를 처리하여, 상기 샘플 영상이 복수의 태스크 각각에 속하는 클래스 확률 값을 결정하여, 상기 복수의 샘플 클래스 확률 값을 획득하기 위한 제9 획득 유닛을 포함하는
딥러닝 모델의 훈련 장치.
제43항에 있어서,
상기 딥러닝 모델은 전처리 모듈을 포함하며, 상기 전처리 모듈은 대상 처리 유닛 및 클래스 처리 유닛을 포함하고;
상기 샘플 대상 특징 데이터는 상기 대상 처리 유닛을 이용하여 상기 샘플 영상 블록을 처리하여 획득하는 것이고;
상기 제1 샘플 클래스 특징 데이터는 상기 클래스 처리 유닛을 이용하여 상기 기설정된 샘플 데이터를 처리하여 획득하는 것인
딥러닝 모델의 훈련 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어 있고, 상기 명령어가 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제4항 중 어느 한 항의 멀티태스크의 인식 방법 또는 제12항 내지 제15항 중 어느 한 항의 딥러닝 모델의 훈련 방법을 수행 가능하게 하는
전자 기기.
컴퓨터로 하여금 제1항 내지 제4항 중 어느 한 항의 멀티태스크의 인식 방법 또는 제12항 내지 제15항 중 어느 한 항의 딥러닝 모델의 훈련 방법을 수행하게 하기 위한 컴퓨터 명령어가 저장되어 있는 비휘발성 컴퓨터 판독 가능 저장 매체.
저장 매체에 저장되어 있으며, 프로세서에 의해 실행될 때 제1항 내지 제4항 중 어느 한 항의 멀티태스크의 인식 방법 또는 제12항 내지 제15항 중 어느 한 항의 딥러닝 모델의 훈련 방법을 구현하는 컴퓨터 프로그램.