KR102645533B1

KR102645533B1 - 이미지 식별 방법 및 기기, 식별 모델 훈련 방법 및 기기, 그리고 저장 매체

Info

Publication number: KR102645533B1
Application number: KR1020217029414A
Authority: KR
Inventors: 신루이 좡; 웨샹 리; 예펑 정
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2019-06-21
Filing date: 2020-06-20
Publication date: 2024-03-07
Also published as: EP3989109A4; KR20210119539A; CN110263724A; JP2022520390A; CN111046855A; US12112556B2; JP7233555B2; EP3989109A1; WO2020253852A1; US20210374475A1

Abstract

이미지 식별 방법 및 기기, 식별 모델 훈련 방법 및 기기, 그리고 저장 매체를 제공한다. 상기 이미지 식별 방법은, 식별될 타깃 3차원 이미지를 획득하는 단계(S202); 상기 타깃 3차원 이미지를 제1 식별 모델에 입력하는 단계(S204) - 상기 제1 식별 모델은 상기 타깃 3D 이미지를 식별하여 상기 타깃 3차원 이미지의 이미지 유형을 획득하는 데 사용되고, 상기 제1 식별 모델의 컨벌루션 블록은 상기 타깃 3차원 이미지를 식별하기 위한 제2 식별 모델의 컨벌루션 블록과 동일하고 상기 제2 식별 모델은 타깃 훈련 샘플을 사용하여 원래 식별 모델을 훈련하여 획득되고, 상기 타깃 훈련 샘플은 3차원 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -; 및 상기 제1 식별 모델에 의해 출력되는 상기 타깃 3차원 이미지의 이미지 유형을 획득하는 단계(S206)를 포함한다.

Description

이미지 식별 방법 및 기기, 식별 모델 훈련 방법 및 기기, 그리고 저장 매체

관련 출원

본 출원은 2019년 6월 21일에 출원된 중국 특허출원 제201910544392.0호에 기초하고 이를 우선권으로 주장하며, 그 내용 전체가 인용에 의해 본 출원에 포함된다.

본 개시는 컴퓨터 분야에 관한 것으로, 특히 이미지 인식 방법 및 장치, 인식 모델 훈련 방법 및 장치, 그리고 저장 매체에 관한 것이다.

관련 기술에서, 3차원(three-dimensional, 3D) 이미지의 유형을 인식하는 경우, 통상 대량의 3D 이미지 샘플을 사용하여 3차원 모델을 훈련시키는 것이 필요하며, 그런 다음 훈련된 3D 모델을 사용하여 3D 이미지의 유형을 인식할 수 있다.

그러나 전술한 방법을 사용하면, 모델의 훈련에 오랜 시간이 소요되어, 모델 훈련 효율이 낮아지게 된다.

본 개시의 실시예는 모델 훈련 효율을 향상시키고 또한 이미지 인식 정확도를 향상시키기 위한, 이미지 인식 방법 및 장치, 인식 모델 훈련 방법 및 장치, 그리고 저장 매체를 제공한다.

개시의 일 실시예는 이미지 인식 방법을 제공하며, 상기 이미지 인식 방법은,

인식될 타깃(to-be-recognized target) 3D 이미지를 획득하는 단계;

상기 인식될 타깃 3D 이미지를 제1 인식 모델에 입력하는 단계 -

상기 제1 인식 모델은 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하여 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고,

상기 제1 인식 모델의 컨벌루션 블록(convolutional block)은 제2 인식 모델의 컨벌루션 블록과 동일하고, 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하도록 구성되고,

상기 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래(original) 인식 모델을 훈련하여 획득되고,

상기 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브(target cube)를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -; 및

상기 제1 인식 모델에 의해 출력되는 상기 타깃 3D 이미지의 이미지 유형을 획득하는 단계를 포함한다.

본 개시의 일 실시예는 단말기에서 수행되는 이미지 인식 방법을 제공한다. 상기 단말기는 하나 이상의 프로세서, 메모리, 및 하나 이상의 프로그램을 포함하며, 상기 하나 이상의 프로그램은 메모리에 저장되고, 상기 프로그램은 하나 이상의 유닛을 포함하고, 상기 하나 이상의 유닛 각각은 명령어의 세트에 대응하고, 상기 하나 이상의 프로세서는 명령어를 실행하도록 구성된다. 상기 이미지 인식 방법은,

인식될 타깃 3D 이미지를 획득하는 단계;

상기 제1 인식 모델은 상기 타깃 3D 이미지를 인식하여 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고,

상기 제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하도록 구성되고,

상기 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되는 모델이고,

상기 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -; 및

본 개시의 일 실시예는 네트워크 기기에 의해 수행되는 인식 모델 훈련 방법을 더 제공한다. 상기 네트워크 기기는 하나 이상의 프로세서, 메모리, 및 하나 이상의 프로그램을 포함하며, 상기 하나 이상의 프로그램은 메모리에 저장되고, 상기 프로그램은 하나 이상의 유닛을 포함하고, 상기 하나 이상의 유닛 각각은 명령어의 세트에 대응하고, 상기 하나 이상의 프로세서는 명령어를 실행하도록 구성된다. 상기 인식 모델 훈련 방법은,

3D 샘플 이미지를 획득하고, 상기 3D 샘플 이미지로부터 N개의 타깃 큐브를 세그먼트화하는 단계 - N은 1보다 큰 자연수임 -;

상기 N개의 타깃 큐브를 회전 및 정렬하여 타깃 훈련 샘플을 획득하는 단계; 및

상기 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하는 단계를 포함하고,

상기 제2 인식 모델의 컨벌루션 블록은 제1 인식 모델의 컨벌루션 블록과 동일하고, 상기 제1 인식 모델을 사용하여 타깃 3D 이미지를 인식하여, 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성된다.

본 개시의 일 실시예는 인식 모델 훈련 방법을 더 제공하며, 상기 인식 모델 훈련 방법은,

상기 N개의 타깃 큐브를 회전 및 정렬하고여 타깃 훈련 샘플을 획득하는 단계; 및

개시의 일 실시예는 이미지 인식 장치를 더 제공하며, 상기 이미지 인식 장치는,

인식될 타깃 3D 이미지를 획득하도록 구성된 제1 획득 유닛;

상기 타깃 3D 이미지를 제1 인식 모델에 입력하도록 구성된 제1 입력 유닛 -

상기 제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 상기 타깃 3D 이미지를 인식하도록 구성되고,

상기 제1 인식 모델에 의해 출력되는 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성된 제2 획득 모듈을 포함한다.

본 개시의 일 실시예는 인식 모델 훈련 장치를 더 제공하며, 상기 인식 모델 훈련 장치는,

3D 샘플 이미지를 획득하고, 상기 3D 샘플 이미지로부터 N개의 타깃 큐브를 세그먼트화하도록 구성된 세그먼트화 유닛 - N은 1보다 큰 자연수임 -;

상기 N개의 타깃 큐브를 회전 및 정렬하여 타깃 훈련 샘플을 획득하도록 구성된 처리 유닛; 및

상기 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하도록 구성된 훈련 유닛을 포함하고,

상기 제2 인식 모델의 컨벌루션 블록은 제1 인식 모델의 컨벌루션 블록과 동일하고, 상기 제1 인식 모델을 사용하여 타깃 3D 이미지를 인식하여, 상기 타깃 3D 이미지의 유형을 획득하도록 구성된다.

본 개시는 컴퓨터 저장 매체를 더 제공하며, 상기 컴퓨터 저장 매체는 컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램은 실행될 때, 전술한 이미지 인식 방법을 수행하도록 구성된다.

본 개시의 일 실시예는 전자 장치를 더 제공하며, 상기 전자 장치는 메모리, 프로세서, 및 상기 메모리에 저장되고 상기 프로세서에서 실행될 수 있는 컴퓨터 프로그램을 포함하고, 상기 프로세서는 상기 컴퓨터 프로그램을 실행함으로써 전술한 이미지 인식 방법을 수행한다.

본 개시의 실시예에 따른 이미지 인식 방법 및 장치, 인식 모델 훈련 방법 및 장치, 저장 매체의 적용을 통해, 제1 인식 모델을 사용하기 전에 제1 인식 모델을 훈련함으로써, 제1 인식 모델의 훈련 효율을 향상시키고 이미지 인식 정확도 또한 향상시킨다.

여기에 설명된 첨부 도면은 본 개시의 더 깊은 이해를 제공하기 위해 사용되며, 본 개시의 일부를 형성한다. 본 개시의 예시적인 실시예 및 그 설명은 본 개시를 설명하기 위해 사용되며, 본 개시에 대해 어떠한 부적절한 한정사항도 구성하지 않는다. 첨부 도면에서,
도 1은 본 발명의 일 실시예에 따른 이미지 인식 방법의 적용 환경의 개략도이다.
도 2는 본 발명의 일 실시예에 따른 이미지 인식 방법의 개략 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 이미지 인식 방법의 개략도이다.
도 4는 본 개시의 일 실시예에 따른 다른 이미지 인식 방법의 개략도이다.
도 5는 본 발명의 일 실시예에 따른 또 다른 이미지 인식 방법의 개략도이다.
도 6은 본 발명의 일 실시예에 따른 또 다른 이미지 인식 방법의 개략도이다.
도 7은 본 발명의 일 실시예에 따른 또 다른 이미지 인식 방법의 개략도이다.
도 8은 본 개시의 일 실시예에 따른 또 다른 이미지 인식 방법의 개략도이다.
도 9는 본 발명의 일 실시예에 따른 또 다른 이미지 인식 방법의 개략도이다.
도 10은 본 발명의 일 실시예에 따른 인식 모델 훈련 방법의 개략 구성도이다.
도 11은 본 발명의 일 실시예에 따른 이미지 인식 장치의 개략 구성도이다.
도 12는 본 발명의 일 실시예에 따른 인식 모델 훈련 장치의 개략 구성도이다.
도 13은 본 발명의 일 실시예에 따른 전자 장치의 개략 구성도이다.
도 14는 본 발명의 일 실시예에 따른 전자 장치의 개략 구성도이다.

당업자가 본 개시의 방안을 더 잘 이해할 수 있도록, 이하에서는 본 개시의 실시예에서 첨부 도면을 참조하여 본 개시의 실시예에 따른 기술적 방안을 명확하고 완전하게 설명한다. 명백히, 설명된 실시예는 본 개시의 실시예의 뿐이고 전부는 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 창의적인 노력 없이 본 개시의 실시예에 기초하여 획득한 다른 모든 실시예는 본 발명의 보호 범위에 속한다.

본 명세서, 특허청구범위 및 첨부된 도면에서 "제1", "제2" 등의 용어는 유사한 대상을 구별하기 위한 것으로, 반드시 특정한 순서 또는 시퀀스를 지시하는 것은 아니다. 이러한 식으로 사용되는 데이터는 적절한 경우에 호환될 수 있으며, 이에 따라 여기에 기술된 본 개시의 실시예는 여기에 예시되거나 기술된 시퀀스가 아닌 다른 시퀀스로 구현될 수 있다. 또한, 용어 "포함하다(include, contain)" 및 기타 변형은 비배타적 포함(non-exclusive inclusion)을 망라하는 것을 의미하며, 예를 들어 단계 또는 유닛의 목록을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기는 명시적으로 나열된 단계 또는 유닛으로 반드시 한정되는 것이 아니라, 명시적으로 나열되지 않았거나 그러한 프로세스, 방법, 시스템, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 포함할 수 있다.

자기 공명 이미지화(magnetic resonance imaging, MRI)은 의학적 이미지화의 한 유형이다.

컴퓨터 단층 촬영술(computed tomography, CT)는 의학적 이미화의 한 유형으로, 여러 질병을 검사하는 데 사용될 수 있다.

컨벌루션 신경망(convolutional neural network, CNN)이 사용된다.

다중모드 뇌종양 세그먼트화(brain tumor segmentation, BRATS)가 사용된다.

특징 맵(feature map)은 이미지와 필터의 컨볼루션을 통해 획득된다. 실제 애플리케이션에서, 특징 맵은 새로운 특징 맵을 생성하기 위해 필터와 컨볼루션될 수 있다.

샴 네트워크(Siamese network )는 동일한 구조를 갖는 수 개의 CNN을 포함하며, 이들 네트워크는 가중치 파라미터를 서로 공유할 수 있다.

두 문자열의 대응하는 위치에서 서로 다른 문자의 수량을 측정하기 위해 해밍 거리(Hamming distance)가 사용된다.

완전한 컨벌루션 네트워크(fully convolutional network, FCN)은 이미지 세그먼트화 기술의 컨볼루션 네트워크로, 컨볼루션 계층(convolutional layer)과 풀링 계층(pooling layer)으로 구성된다.

본 개시의 일 실시예는 이미지 인식 방법을 제공한다. 이 이미지 인식 방법은 도 1에 도시된 환경에 적용 가능하지만 이에 한정되지 않는다.

도 1에서, 사용자(102)는 사용자 장비(104)와 인간-컴퓨터 상호작용을 수행할 수 있다. 사용자 장비(104)는 상호작용 데이터를 저장하도록 구성된 메모리(106) 및 상호작용 데이터를 처리하도록 구성된 프로세서(108)를 포함한다. 사용자 장비(104)와 서버(112)는 네트워크(110)를 통해 서로 데이터 교환을 수행할 수 있다. 서버(112)는 상호작용 데이터를 저장하도록 구성된 데이터베이스(114) 및 상호작용 데이터를 처리하도록 구성된 처리 엔진(116)을 포함한다. 사용자 장비(104)는 제1 인식 모델을 포함한다. 사용자 장비(104)는 인식될 타깃 3D 이미지(104-2)를 획득하고, 타깃 3D 이미지(104-2)를 인식하고, 타깃 3D 이미지(104-2)의 이미지 유형(104-4)을 출력할 수 있다.

일부 실시예에서, 전술한 이미지 인식 방법은 데이터 컴퓨팅이 가능한 단말기, 예를 들어, 이동전화, 태블릿 컴퓨터, 랩톱 컴퓨터, 개인용 컴퓨터(PC) 또는 기타 단말기에 적용 가능하지만 이에 한정되지 않는다. 네트워크로는 무선 네트워크 또는 유선 네트워크를 포함할 수 있지만 이에 한정되지 않는다. 무선 네트워크로는 블루투스(Bluetooth), Wi-Fi 및 무선 통신을 구현하는 다른 네트워크를 포함한다. 유선 네트워크는 광역 네트워크(wide area network), 대도시 네트워크(metropolitan area network) 및 근거리 네트워크(local area network)를 포함할 수 있지만 이에 한정되지 않는다. 서버는 컴퓨팅을 수행할 수 있는 모든 하드웨어 기기장치를 포함할 수 있지만 이에 한정되지 않는다. 예를 들어, 서버는 독립된 물리 서버일 수 있거나, 복수의 물리 서버를 포함하는 서버 클러스터 또는 분산 시스템 일 수 있거나, 클라우드 서비스, 클라우드 데이터베이스, 클라우드 컴퓨팅, 클라우드 기능, 클라우드 저장장치, 네트워크 서비스, 클라우드 통신, 미들웨어 서비스, 도메인 명칭 서비스, 보안 서비스, 그리고 빅데이터 및 인공지능 플랫폼과 같은 기본적인 클라우드 컴퓨팅 서비스를 제공하는 클라우드 서버일 수 있다.

부 실시예에서는, 도 2에 도시된 바와 같이, 전술한 이미지 인식 방법은 다음 단계를 포함한다:

S202. 인식될 타깃 3D 이미지를 획득한다.

S204. 제1 인식 모델에 인식될 타깃 3D 이미지를 입력한다.

제1 인식 모델은 인식될 타깃 3D 이미지를 인식하여 인식될 타깃 3D 이미지의 이미지 유형을 획득하도록 구성된다.

제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 타깃 3D 이미지를 인식하도록 구성된다.

제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득된다. 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수이다.

S206. 제1 인식 모델에 의해 출력되는 타깃 3D 이미지의 제1 유형을 획득한다.

일부 실시예에서, 전술한 이미지 인식 방법은 이미지 인식 분야에 적용 가능하지만 이에 한정되지 않는다. 예를 들어, 전술한 이미지 인식 방법은 3D 이미지의 유형을 인식하는 프로세스, 예를 들어 3차원 질병 이미지에서 질병의 유형을 인식하는 프로세스에 적용 가능하다. 예를 들어, 뇌출혈의 유형을 인식하는 중에, 3D 질병 이미지(3D 질병 영상은 MRI 이미지 또는 CT 이미지일 수 있음)을 획득한 후, 3D 질병 이미지를 제1 인식 모델에 입력하여 제1 모델을 사용하여 인식하고, 3D 질병 이미지의 제1 유형을 출력한다. 예를 들어, 제1 유형은 건강, 또는 동맥류(aneurysm), 동정맥 기형(arteriovenous malformation), 모야모야병(moyamoya disease), 고혈압 등일 수 있다.

전술한 방법에서는, 3D 이미지에서 추출된 큐브를 사용하여 제2 인식 모델을 사전 훈련하므로, 제2 인식 모델의 훈련 효율이 향상되고; 제2 인식 모델의 컨벌루션 블록이 제1 인식 모델의 컨벌루션 블록으로 사용되고, 제1 인식 모델을 사용하여 3D 이미지를 인식함으로써, 제1 인식 모델의 훈련 효율을 크게 향상시킨다.

일부 실시예에서는, 타깃 3D 이미지를 획득하기 전에, 제2 인식 모델을 먼저 훈련할 필요가 있다. 훈련하는 동안에, 3D 샘플 이미지를 먼저 획득해야 한다. 3D 샘플 이미지는 태그 주석(tag annotation)이 없는 이미지이다. 3D 샘플 이미지를 획득한 후, 3D 샘플 이미지에서 원래(original) 큐브를 추출해야 하며, 원래 큐브를 N개의 타깃 큐브로 분할된다.

일부 실시예에서는, 원래 큐브를 추출하는 경우, 3D 샘플 이미지의 기하학적 중심을 먼저 결정할 수 있다. 기하학적 중심이 결정된 후, 이 기하학적 중심이 원래 큐브의 기하학적 중심으로 사용되고, 원래 큐브가 결정된다. 원래 큐브의 한 변의 길이는 3D 샘플 이미지의 최소 변의 길이보다 작다.

예를 들어, 도 3에 도시된 바와 같이, 3D 샘플 이미지(302)에 대해, 3D 샘플 이미지(302)의 기하학적 중심(304)이 먼저 결정되고, 기하학적 중심(304)은 그 다음 원래 큐브(306)의 기하학적 중심으로서 결정된다.

일부 실시예에서는, 3D 샘플 이미지의 기하학적 중심을 결정한 후, 반경 r을 추가로 결정하고, 그런 다음 3D 샘플 이미지의 기하학적 중심을 구의 중심으로 그리고 반경 r을 구의 반경으로 사용하여 구를 만들고; 그런 다음 임의의 점을 구에서 전술한 원래 큐브의 기하학적 중심으로서 선택하여, 전술한 원래 큐브를 결정한다. 결정된 원래 큐브는 3D 샘플 이미지에 위치하며, 3D 샘플 이미지의 범위를 벗어나지 않는다.

일부 실시예에서는, 원래 큐브를 결정한 후, 원래 큐브가 분할하여 N개의 타깃 큐브를 획득해야 한다. 분할하는 동안, 원래 큐브에서 N개의 타깃 큐브를 무작위로 파내거나 원래 큐브의 일부를 분할하여 N개의 타깃 큐브를 획득하는 것과 같은, 임의의 방법을 사용할 수 있다. 대안으로, 원래 큐브가 N개의 타깃 큐브로 균등하게 분할되며, N은 양의 정수의 세제곱이다. 예를 들어, N은 8과 같다. 도 4에 도시된 바와 같이, 원래 큐브(404)는 화살표(402-1, 402-2, 402-3)로 지시된 방향으로 분할되어 8개의 타깃 큐브가 획득된다(도 4의 분할 방법은 예시일 뿐임). 대안으로, 분할하는 동안, 모든 인접한 두 큐브 사이의 간격은 M개의 복셀(voxel)이다. 예를 들어, M은 2와 같다. 도 5에 도시된 바와 같이, 원래 큐브(502)는 8개의 타깃 큐브(504)로 분할된다. 원래 큐브(502)의 한 변의 길이가 10개 복셀이면, 타깃 큐브(504)의 변의 길이는 4개 복셀이다.

일부 실시예에서는, N개의 타깃 큐브를 획득한 후, N개의 타깃 큐브 중의 제1 타깃 큐브는 추가로 90도 또는 180도와 같은 제1 각도로 회전될 수 있다. 제1 타깃 큐브는 하나 이상일 수 있고, 모든 제1 타깃 큐브의 회전 각도는 동일하거나 상이할 수 있다. 회전된 제1 타깃 큐브와 나머지 회전되지 않은 타깃 큐브는 정렬되며, 정렬은 무작위로 수행되어, 정렬 후의 타깃 훈련 샘플을 획득할 수 있다.

타깃 훈련 샘플을 획득한 후, 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하며, 원래 인식 모델은 타깃 훈련 샘플 중의 타깃 큐브 각각의 회전 유형 및 타깃 큐브의 정렬 시퀀스의 확률을 출력한다. 이 확률은 제1 타깃 함수를 충족할 수도 있고 충족하지 못할 수도 있다. 제1 타깃 함수는 손실 함수일 수 있다. 확률이 제1 타깃 함수를 충족하면, 원래 인식 모델의 인식 결과가 정확함을 지시한다. 확률이 제1 타깃 함수를 충족하지 않으면, 원래 인식 모델의 인식 결과가 부정확함을 지시한다. 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 큰 경우 원래 인식 모델을 제2 인식 모델로 결정한다. 이는 제2 인식 모델의 정확도가 제1 임계값보다 큰 것은 지시한다. 예를 들어 정확도는 99.95% 이상에 이른다.

제2 인식 모델의 훈련 효율은 전술한 훈련 방법을 사용함으로써 크게 향상된다.

일부 실시예에서는, 훈련을 통해 제2 인식 모델을 획득한 후, 제2 인식 모델의 컨벌루션 블록을 획득할 수 있으며, 이 컨벌루션 블록이 제1 인식 모델의 컨벌루션 블록으로 사용되고, 제1 인식 모델은 제1 훈련 샘플을 사용하여 훈련된다. 제1 훈련 샘플은 이미지 유형을 포함하는 3D 이미지이다. 제1 인식 모델의 인식 정확도가 제2 임계값보다 크면, 제1 인식 모델이 사용될 수 있다. 예를 들어, 3D 이미지의 질병 유형이 인식된다. 도 6에 도시된 바와 같이, 단말기의 디스플레이 인터페이스(602)에 선택 버튼(602-1)이 표시되고, 사용자는 인식될 타깃 3D 이미지(604)를 선택할 수 있으며, 단말기는 인식될 타깃 3D 이미지(604)를 인식하고, 인식될 타깃 3D 이미지의 제1 유형(606)을 출력한다.

예를 들어, 뇌 질병이 인지되는 경우, 협력 병원으로부터 획득된 공개적인 BRATS-2018 뇌신경교종 세그먼트화 데이터세트(brain glioma segmentation dataset) 및 뇌출혈 분류 데이터세트(cerebral hemorrhage classification dataset)를 획득하여, 실험 데이터로 사용할 수 있다.

BRATS-2018 데이터세트는 285명의 환자의 MRI 이미지를 포함하고, 환자 각각의 MRI 이미지는 4가지 다른 모드: T1, T1Gd, T2 및 FLAIR을 포함하고, 상이한 모드의 모든 데이터가 함께 등록되며, 각각의 이미지의 크기 240 x 240 x 155이다.

뇌출혈 데이터세트는 뇌출혈에 대한 1486개의 뇌 CT 스캔 이미지를 포함하며, 뇌출혈의 유형은 동맥류, 동정맥 기형, 모야모야병 및 고혈압이다. 각각의 CT 영상의 크기는 230 x 270 x 30이다.

전술한 이미지는 제2 인식 모델의 훈력에 사용된다. 도 7에 도시된 바와 같이, 이미지의 경우, 이미지에서 원래 큐브가 추출되고, 원래 큐브를 타깃 큐브로 분할된다. 원래 큐브를 선택하는 구체적인 방법에 대해서는 전술한 예를 참조하고, 세부사항은 여기서 반복 설명하지 않는다. 원래 큐브가 선택된 후, 루빅 큐브(Rubik's cube)를 복원하는 프록시 태스크(proxy task)를 통해 픽셀 분포의 낮은 수준의 통계적 특징 정보보다 높은 수준의 의미적 특징 정보를 네트워크가 학습하도록 조장하기 위해, 원래 큐브를 세그먼트화하여 타깃 큐브를 획득하는 경우, 10개의 복셀 이내의 무작위 간격이 인접한 두 타깃 큐브 사이에 예약되고(reserved), 각각의 타깃 큐브 내의 복셀에 대해 [-1, 1] 정규화 작업(normalization operation)을 수행하여, 타깃 훈련 샘플을 획득한다.

타깃 훈련 샘플을 획득한 후에, 제2 인식 모델을 훈련해야 한다. 도 7에 도시된 바와 같이, 샴 네트워크는 가중치를 서로 공유하는 X개의 서브네트워크를 포함하며, 여기서 X는 타깃 큐브의 수량을 나타낸다. 8개의 타깃 큐브가 입력되는 8개를 하나로 만든(eight-in-one) 샴 네트워크가 실험에 사용되었으며, 서브 네트워크들은 동일한 네트워크 구조를 가지며 서로 가중치를 공유한다. 각각의 서브네트워크의 백본 구조(backbone structure)는 다양한 유형의 기존 3D CNN을 사용할 수 있으며, 실험에서는 3D VGG 네트워크를 사용하였다. 모든 서브네트워크의 마지막 완전 연결 계층(fully-connected layer)에서 출력된 특징 맵은 중첩된 다음 상이한 브랜치(branch)에 입력되어, 타깃 큐브의 공간 재배열 태스크와 타깃 큐브의 회전 결정 태스크에 개별적으로 사용된다. 특징 맵은 컨볼루션 모델에서 임의의 네트워크에서 출력된 내용이다.

1. 타깃 큐브의 재배열

이 방안에서의 루빅 큐브의 복원 작업을 위해, 첫 번째 단계는 타깃 큐브를 재배열하는 것이다. 포켓 큐브(pocket cube)가 예로 사용된다. 도 7에 도시된 바와 같이, 총 2 x 2 x 2 = 8개의 타깃 큐브가 있다. 8개의 타깃 큐브의 모든 순열과 조합 시퀀스 P = (P1, P2, …, P8!)가 먼저 생성되고, 순열 시퀀스는 루빅 큐브의 복원 작업 복잡도를 제어한다. 두 개의 순열 시퀀스가 서로 너무 유사하면, 네트워크의 학습 프로세스는 매우 단순해지고, 복잡한 특징 정보를 학습하기는 곤란하다. 학습의 효율성을 보장하기 위해, 해밍 거리를 측정 지표(measurement index)로 사용하고, 서로 크게 다른 K개의 시퀀스가 순차적으로 선택된다. 루빅 큐브의 복원 각각의 훈련 입력 데이터에 대해, (2, 5, 8, 4, 1, 7, 3 또는 6)과 같은, 하나의 시퀀스가 K개의 시퀀스에서 무작위로 추출된 다음, 트리밍된(trimmed) 8개의 타깃 큐브가 시퀀스 순서에 따라 재배열된다. 재배열된 타깃 큐브는 그 후 순차적으로 네트워크에 입력되고, 네트워크의 학습 목표는 최종적으로 K개의 시퀀스에서의 입력된 시퀀스의 위치를 결정하는 것이다. 따라서 타깃 큐브 재배열에 대한 손실 함수는 다음과 같다:

위 식에서, l_j는 시퀀스의 참 태그(true tag) 중 one-hot 태그를 나타내고, p_j는 각각의 시퀀스에 대해 네트워크에 의해 출력되는 예측 확률을 나타낸다.

2. 타깃 큐브의 회전

3D 루빅 큐브의 복원 태스크에 새로운 연산, 즉 타깃 큐브의 회전이 추가되고, 이 연산을 사용하여, 네트워크는 3D 이미지 블록의 회전 불변 특성(rotation-invariant feature)을 학습할 수 있다.

타깃 큐브는 일반적으로 큐브 구조이다. 타깃 큐브가 공간에서 자유롭게 회전하는 것이 허용되면, 3(회전축: x, y, z축) x 2(회전 방향: 시계 방향, 반시계 방향) x 4(회전 각도: 0, 90°, 180°, 270°) = 24개의 다른 가능성이 있다.

태스크의 복잡도를 줄이고 타깃 큐브의 회전 옵션을 제한하기 위해, 타깃 큐브가 수평 또는 수직 방향으로 180°만 회전할 수 있는 것으로 지정된다. 도 2에 도시된 바와 같이, 큐브 블록 3과 4는 수평 방향으로 180° 회전하고, 큐브 블록 5와 7은 수직 방향으로 180° 회전한다. 회전된 큐브 블록이 네트워크에 입력된 후, 네트워크는 각각의 타깃 큐브의 회전 유형을 결정해야 한다. 따라서, 큐브 블록 회전 태스크에 대한 손실 함수는 다음과 같다:

위 식에서, M은 타깃 큐브의 수량을 나타내고, g_i ^hor은 타깃 큐브의 수직 회전을 위한 one-hot 태그를 나타내고, g_i ^ver는 타깃 큐브의 수평 회전을 위한 one-hat 태그를 나타내고, r_i ^hor과 r_i ^ver는 각각 수직 방향과 수평 방향에서의 네트워크의 예측된 출력 확률을 나타낸다.

전술한 정의에 따르면, 모델의 타깃 함수는 순열 손실 함수와 회전 손실 함수의 선형 가중치이며, 모델의 전체 손실 함수는 다음과 같다:

여기서 a 및 b는 각각 두 손실 함수의 가중치이며, 두 서브태스크 간의 상호 영향을 제어하고; 두 개의 가중치 값은 실험에서 모두 0.5로 설정되어, 사전 훈련이 더 나은 효과를 달성할 수 있다.

전술한 훈련 후에, 제2 인식 모델이 획득될 수 있다. 제2 인식 모델은 제1 임계값보다 더 높은 정확도를 갖는다.

이 경우, 제2 인식 모델의 컨볼루션 블록이 추출되며, 미세 조정된 후 다른 타깃 태스크에 사용될 수 있다.

예를 들어, 제2 인식 모델의 컨볼루션 블록을 추출하여 제1 인식 모델에서 3D 이미지의 유형을 인식하는 데 사용한다. 분류 태스크의 경우, CNN 네트워크 이후의 완전 연결 계층만 재훈련하면 되며, 완전 연결 계층 이전의 컨볼루션 계층은 더 작은 학습률을 사용하여 미세하게 조정될 수 있다.

대안적으로, 제2 인식 모델의 컨볼루션 블록은 세그먼트화 태스크에 사용된다. 세그먼트화 태스크에 대해, 사전 훈련 네트워크는 이미지 세그먼트 태스크에서 보다 일반적으로 사용되는 FCN을 사용할 수 있으며, 예를 들어 도 8에 도시된 바와 같이, 3D U-Net 구조를 사용할 수 있다. 그러나 초기 단계에서 루빅 큐브 복원의 사전 훈련은 U-Net 다운샘플링 단계(downsampling stage)에서만 사용될 수 있으며, 무작위 초기화(random initialization )가 U-Net 업샘플링 단계(upsampling stage)의 네트워크 파라미터의 훈련 중에 여전히 수행되어야 한다. 따라서, 초기 단계 사전 훈련 효과에 대한 대량의 파라미터 초기화의 영향을 피하기 위해, 원래의 전치된 컨볼루션(transposed convolution)이 고밀도 업샘플링 컨볼루션(dense upsampling convolution, DUC) 모듈로 대체되어, 특징 맵을 업샘플링하여 원래의 이미지 입력 크기를 복원한다. DUC 모듈의 구조는 도 9에 도시되어 있다. C는 채널의 수량을 나타내고, d는 확대 계수(expansion factor)를 나타낸다. H는 특징 맵의 길이이고, W는 특징 맵의 너비이다.

본 실시예에 따르면, 3D 이미지로부터 추출된 큐브를 사용하여 제2 인식 모델이 사전 훈련되기 때문에, 제2 인식 모델의 훈련 효율이 향상되고; 제2 인식 모델의 컨벌루션 블록이 제1 인식 모델의 컨벌루션 블록으로 사용되고, 제1 인식 모델을 사용하여 3D 이미지를 인식함으로써, 제1 인식 모델의 훈련 효율을 크게 향상시킨다.

일부 실시예에서, 인식될 타깃 3D 이미지를 획득하기 전에, 상기한 방법은 다음 단계를 더 포함할 수 있다:

S1. 3D 샘플 이미지를 획득한다.

S2. 3D 샘플 이미지에서 원래 큐브를 결정한다.

S3. 원래 큐브를 N개의 타깃 큐브로 분할한다.

일부 실시예에서, 3D 샘플 이미지와 타깃 3D 이미지는 동일한 이미지일 수 있다. 즉, 3D 샘플 이미지를 사용하여 제2 인식 모델을 훈련하고, 제2 인식 모델의 컨벌루션 블록을 제1 인식 모델의 컨벌루션 블록으로 사용한 후, 제1 인식 모델에 3D 샘플 이미지를 입력할 수 있으며, 제1 인식 모델은 3D 샘플 이미지의 유형을 인식한다. 3D 샘플 이미지가 2차 인식 모델에 입력되는 경우, 3D 샘플 이미지의 유형을 입력할 필요가 없다.

전술한 본 발명의 실시예의 적용을 통해, 제1 인식 모델을 사용하기 전에, N개의 타깃 큐브를 획득하여 제2 인식 모델을 훈련하여, 제2 인식 모델의 훈련 효율 및 제1 인식 모델의 훈련 효율을 향상시킨다.

일부 실시예에서, N은 1보다 큰 양의 정수의 세제곱이고, 원래 큐브를 N개의 타깃 큐브로 분할하는 단계는 다음 단계를 포함한다:

S1. 두 개의 인접한 타깃 큐브 사이에 M개의 복셀 간격을 유지하면서 원래 큐브로부터 N개의 타깃 큐브를 분할하며, M은 0보다 크고 J-1보다 작은 양의 정수이고, J는 타깃 큐브의 한 변의 길이이다.

일부 실시예에서, N개의 타깃 큐브가 결정되는 경우, 두 개의 인접한 타깃 큐브 사이의 간격은 M개의 복셀이므로, 제2 인식 모델은 픽셀 분포의 저레벨의 통계적 특징 정보가 아닌 고레벨의 의미적 특징 정보를 학습할 수 있어, 제2 인식 모델의 훈련 효율과 제1 인식 모델의 훈련 효율을 향상시킨다.

S1. N개의 타깃 큐브 중에서 제1 타깃 큐브를 결정한다.

S2. 제1 타깃 큐브를 제1 각도로 회전시킨다.

S3. 제1 각도로 회전된 제1 타깃 큐브를 N개의 타깃 큐브 중의 다른 타깃 큐브와 정렬하여 타깃 훈련 샘플을 획득한다.

일부 실시예에서, 정렬은 N개의 타깃 큐브를 무작위로 정렬하는 것일 수 있다. 회전은 N개의 타깃 큐브 중의 복수의 제1 타깃 큐브를 회전시키는 것일 수 있으며, 회전은 임의의 각도로 수행될 수 있다.

전술한 본 개시의 실시예의 적용을 통해, 제1 인식 모델을 사용하기 전에, N개의 타깃 큐브를 획득한 후 N개의 타깃 큐브 중의 제1 타깃 큐브를 회전시킴으로써, 제2 타깃 인식 모델의 훈련 효율과 제1 인식 모델의 훈련 효율을 향상시킨다.

일부 실시예에서, 제1 각도로 회전된 제1 타깃 큐브를 N개의 타깃 큐브 중의 다른 타깃 큐브와 정렬하여 타깃 훈련 샘플을 획득한 후, 상기한 방법은,

타깃 훈련 샘플을 원래 인식 모델에 입력하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하는 단계를 더 포함할 수 있다.

전술한 본 발명의 실시예의 적용을 통해, 제2 인식 모델의 훈련 효율이 향상된다.

S1. 원래 인식 모델이 타깃 훈련 샘플을 인식한 후에 출력되는 인식 결과를 획득하며, 인식 결과는 타깃 훈련 샘플에서 타깃 큐브의 다중 정렬 시퀀스의 확률 및 각각의 타깃 큐브의 회전 각도를 포함한다.

S2. 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 큰 경우 원래 인식 모델을 제2 인식 모델로서 결정한다.

일부 실시예에서, 제2 인식 모델의 인식 정확도가 정확도 값보다 클 때, 제2 인식 모델이 요건을 충족하는 것으로 생각된다. 따라서 제2 인식 모델의 훈련이 중지된다.

여기서, 종료 조건을 설정하여 제2 인식 모델의 학습을 중지함으로써, 제2 인식 모델의 훈련 효율을 향상시킨다.

일부 실시예에서, 인식될 타깃 3D 이미지를 획득하기 전에, 상기한 방법은 다음 단계들을 더 포함할 수 있다:

S1. 제2 인식 모델의 컨볼루션 블록을 제1 인식 모델의 컨볼루션 블록으로 결정한다.

S2. 제1 인식 모델의 정확도가 제2 임계값보다 클 때까지 제1 훈련 샘플을 사용하여 제1 인식 모델을 훈련하며, 제1 훈련 샘플은 제1 3D 이미지 및 제1 3D 이미지의 유형을 포함한다.

일부 실시예에서, 제1 인식 모델이 훈련될 때, 태그가 있는 제1 샘플 이미지가 입력될 수 있다. 그러면 제1 인식 모델의 인식 정확도가 제2 임계값보다 클 때까지 제1 인식 모델이 훈련된다. 이 경우, 제1 인식 모델이 사용될 수 있다.

전술한 본 개시의 실시예의 적용을 통해, 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되는 모델이며, 타깃 훈련 샘플은 3D 샘플 이미지에서 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포하고; 3D 제2 인식 모델은 3D 이미지에서 추출된 큐브를 사용하여 사전 훈련된다. 따라서, 제2 인식 모델의 훈련 효율 및 3D 이미지 인식의 정확도가 향상된다.

제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하기 때문에, 즉, 제2 인식 모델을 사용하여 훈련된 컨벌루션 블록이 제1 인식 모델의 컨벌루션 블록으로 사용되므로, 제1 인식 모델의 훈련 효율이 향상된다.

제2 인식 모델에서의 컨볼루션 블록과 동일한 제1 인식 모델에서의 컨볼루션 블록을 사용하여 타깃 3D 이미지를 인식함으로써, 인식 정확도를 향상시킬 수 있다. 제1 인식 모델이 사용되기 전에 제1 인식 모델은 훈련되므로, 제1 인식 모델의 훈련 효율을 향상시킨다.

설명의 편의를 위해, 전술한 방법 실시예는 일련의 동작의 조합으로 기술된다. 그러나 당업자는 본 개시가 기술된 동작 시퀀스에 한정되지 않는다는 것을 이해하는데, 이는 본 개시에 따르면, 일부 단계가 다른 시퀀스로 수행되거나 동시에 수행될 수 있기 때문이다. 또한, 당업자는 본 명세서에 기재된 실시예가 모두 예시적인 실시예이며, 관련된 동작 및 모듈이 본 개시에 반드시 필요한 것은 아님을 또한 이해할 수 있을 것이다.

본 발명의 일 실시예는 인식 모델 훈련 방법을 더 제공한다. 도 10에 도시된 바와 같이, 이 인식 모델 훈련 방법은 다음 단계를 포함한다:

S1002. 3D 샘플 이미지를 획득하고, 3D 샘플 이미지로부터 N개의 타깃 큐브를 세그먼트화한다.

N은 1보다 큰 자연수이다.

S1004. N개의 타깃 큐브에 대해 미리 정해진 작업을 수행하여 타깃 훈련 샘플을 획득하며, 미리 정해진 작업은 N개의 타깃 큐브를 회전 및 정렬하는 것을 포함한다.

S1006. 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득한다.

원래 인식 모델은 타깃 훈련 샘플에 대한 인식 결과를 출력하고, 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 큰 경우 원래 인식 모델을 제2 인식 모델로 결정하도록 구성된다.

제2 인식 모델의 컨볼루션 블록은 제1 인식 모델의 컨볼루션 블록과 동일하며, 제1 인식 모델에서 타깃 3D 이미지를 인식하여 타깃 3D 이미지의 이미지 유형을 획득하는 데 사용된다.

일부 실시예에서, 전술한 방법은 모델 훈련 프로세스에 적용 가능하지만 이에 한정되지 않는다. 원래 인식 모델을 훈련하는 경우, 3D 샘플 이미지 중에서 N개의 타깃 큐브를 추출하고, N개의 타깃 큐브를 회전 및 정렬하여 획득되는 N개의 큐브을 타깃 훈련 샘플로서 원래 인식 모델에 입력한다. 추출, 회전 및 정렬 방법에 대해서는 전술한 실시예의 방법을 참조하고, 이 실시예에서는 세부사항을 다시 설명하지 않는다. 원래 인식 모델이 훈련되는 경우, 원래 인식 모델은 타깃 훈련 샘플 중의 타깃 큐브 각각의 회전 유형 및 타깃 큐브의 정렬 시퀀스의 확률을 출력한다. 확률은 제1 타깃 함수를 충족할 수도 있고 충족하지 않을 수도 있다. 제1 타깃 함수는 손실 함수일 수 있다. 확률이 제1 타깃 함수를 충족하면, 원래 인식 모델의 인식 결과가 정확함을 지시한다. 확률이 제1 타깃 함수를 충족하지 않으면, 원래 인식 모델의 인식 결과가 부정확함을 지시한다. 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 클 때 현재의 원래 인식 모델이 성숙한 훈련된 모델로서 결정된다.

전술한 방법을 사용함으로써, 원래 인식 모델의 훈련 효율을 크게 향상시킬 수 있다.

일부 실시예에서는, 성숙한 원래 인식 모델이 훈련을 통해 획득된 후, 원래 인식 모델의 컨볼루션 블록을 추출할 수 있다. 새로운 완전 연결 계층이 추가된 후, 새로운 인식 모델이 형성되고, 새로운 인식 모델을 사용하여 기타 인물(character)를 인식할 수 있다. 적은 수량의 샘플을 사용하여 훈련되는 새로운 인식 모델은 비교적 높은 인식 정확도를 보인다. 예를 들어, 새로운 인식 모델은 3D 이미지의 유형을 인식하는 프로세스에 적용 가능하거나, 새로운 인식 모델은 3D 이미지의 세그먼트화와 같은 태스크에 적용 가능하다. 여기서는 세부 사항을 다시 설명하지 않는다.

본 개시의 일부 실시예는 이미지 인식 장치를 더 제공한다. 도 11에 도시된 바와 같이, 이 이미지 인식 장치는,

인식될 타깃 3D 이미지를 획득하도록 구성된 제1 획득 유닛(1102);

인식될 타깃 3D 이미지를 제1 인식 모델에 입력하도록 구성된 제1 입력 유닛(1104) -

제1 인식 모델은 인식될 타깃 3D 이미지를 인식하여 인식될 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고,

제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 타깃 3D 이미지를 인식하도록 구성되고,

제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되는 모델이고,

타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -; 및

제1 인식 모델에 의해 출력되는 인식될 타깃 3D 이미지의 제1 유형을 획득하도록 구성된 제2 획득 모듈(1106)을 포함한다.

일부 실시예에서, 전술한 이미지 인식 장치는 이미지 인식 분야에 적용 가능하지만 이에 한정되지 않는다. 예를 들어, 상기한 방법은 3D 이미지의 유형을 인식하는 프로세스, 예를 들어 3차원 질병 이미지에서 질병의 유형을 인식하는 프로세스에 적용 가능하다. 예를 들어, 뇌출혈의 유형을 인식하는 중에, 3D 질병 이미지를 획득한 후, 3D 질병 이미지를 제1 인식 모델에 입력하여 제1 모델을 사용하여 인식하고, 3D 질병 이미지의 제1 유형을 출력한다. 예를 들어, 제1 유형은 건강, 또는 동맥류, 동정맥 기형, 모야모야병, 고혈압 등일 수 있다.

일부 실시예에서는, 타깃 3D 이미지를 획득하기 전에, 제2 인식 모델을 먼저 훈련할 필요가 있다. 훈련하는 동안에, 3D 샘플 이미지를 먼저 획득해야 한다. 3D 샘플 이미지는 태그 주석이 없는 이미지이다. 3D 샘플 이미지를 획득한 후, 3D 샘플 이미지에서 원래 큐브를 추출해야 하며, 원래 큐브를 N개의 타깃 큐브로 분할된다.

일부 실시예에서는, 원래 큐브를 결정한 후, 원래 큐브가 분할하여 N개의 타깃 큐브를 획득해야 한다. 분할하는 동안, 원래 큐브에서 N개의 타깃 큐브를 무작위로 파내거나 원래 큐브의 일부를 분할하여 N개의 타깃 큐브를 획득하는 것과 같은, 임의의 방법을 사용할 수 있다. 대안으로, 원래 큐브가 N개의 타깃 큐브로 균등하게 분할되며, N은 양의 정수의 세제곱이다. 예를 들어, N은 8과 같다. 도 4에 도시된 바와 같이, 원래 큐브(404)는 화살표(402-1, 402-2, 402-3)로 지시된 방향으로 분할되어 8개의 타깃 큐브가 획득된다(도 4의 분할 방법은 예시일 뿐임). 대안으로, 분할하는 동안, 모든 인접한 두 큐브 사이의 간격은 M개의 복셀이다. 예를 들어, M은 2와 같다. 도 5에 도시된 바와 같이, 원래 큐브(502)는 8개의 타깃 큐브(504)로 분할된다. 원래 큐브(502)의 한 변의 길이가 10개 복셀이면, 타깃 큐브(504)의 변의 길이는 4개 복셀이다.

전술한 본 개시의 실시예의 적용을 통해, 3D 이미지에서 추출된 큐브를 사용하여 제2 인식 모델을 사전 훈련하기 때문에, 제2 인식 모델의 훈련 효율이 향상되고; 제2 인식 모델의 컨벌루션 블록을 제1 인식 모델의 컨벌루션 블록으로 사용하고, 제1 인식 모델을 사용하여 3D 이미지를 인식함으로써, 제1 인식 모델의 훈련 효율을 크게 향상시킨다.

일부 실시예에서, 상기 장치는,

인식될 타깃 3D 이미지를 획득하기 전에 3D 샘플 이미지를 획득하도록 구성된 제3 획득 유닛;

3D 샘플 이미지로부터 원래 큐브를 결정하도록 구성된 제1 결정 유닛; 및

원래 큐브를 N개의 타깃 큐브로 분할하도록 구성된 분할 유닛을 더 포함한다.

일부 실시예에서, 3D 샘플 이미지와 타깃 3D 이미지는 동일한 이미지일 수 있다. 즉, 3D 샘플 이미지를 사용하여 제2 인식 모델을 훈련하고, 제2 컨벌루션 블록을 제1 인식 모델의 컨벌루션 블록으로 사용한 후, 제1 인식 모델에 3D 샘플 이미지를 입력할 수 있고, 제1 인식 모델은 3D 샘플 이미지의 유형을 인식한다. 3D 샘플 이미지가 2차 인식 모델에 입력되는 경우, 3D 샘플 이미지의 유형을 입력할 필요가 없다.

전술한 본 개시의 실시예의 적용을 통해, 제1 인식 모델을 사용하기 전에, N개의 타깃 큐브를 획득하여 제2 인식 모델을 훈련함으로써, 제2 인식 모델의 훈련 효율 및 제1 인식 모델의 훈련 효율을 향상시킨다.

일부 실시예에서, N은 1보다 큰 양의 정수의 세제곱이고, 분할 유닛은,

두 개의 인접한 타깃 큐브 사이에 M개의 복셀 간격을 유지하면서 원래 큐브로부터 N개의 타깃 큐브를 분할하도록 구성된 분할 모듈을 포함하고, M은 0보다 크고 J-1보다 작은 양의 정수이고, J는 타깃 큐브의 한 변의 길이이다.

일부 실시예에서, 상기 장치는,

인식될 타깃 3D 이미지를 획득하기 전에 N개의 타깃 큐브 중에서 제1 타깃 큐브를 결정하도록 구성된 제2 결정 유닛;

제1 타깃 큐브를 제1 각도로 회전시키도록 구성된 회전 유닛; 및

제1 각도로 회전된 제1 타깃 큐브를 N개의 타깃 큐브 중의 다른 타깃 큐브와 정렬하여 타깃 훈련 샘플을 획득하도록 구성된 정렬 유닛을 더 포함한다.

전술한 본 개시의 실시예의 적용을 통해, 제1 인식 모델을 사용하기 전에, N개의 타깃 큐브를 획득한 후, N개의 타깃 큐브 중의 제1 타깃 큐브를 회전시킴으로써, 제2 타깃 인식 모델의 훈련 효율과 제1 인식 모델의 훈련 효율을 향상시킨다.

일부 실시예에서, 상기 장치는,

제1 각도로 회전된 제1 타깃 큐브를 N개의 타깃 큐브 중의 다른 타깃 큐브와 정렬하여 타깃 훈련 샘플을 획득한 다음, 타깃 훈련 샘플을 원래 인식 모델에 입력하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하도록 구성된 제2 입력 유닛을 더 포함한다.

일부 실시예에서, 상기 장치는,

인식될 타깃 3D 이미지를 획득하기 전에, 원래 인식 모델이 타깃 훈련 샘플을 인식한 후에 출력되는 인식 결과를 획득하도록 구성된 제4 획득 유닛 - 인식 결과는 타깃 훈련 샘플에서 타깃 큐브의 다중 정렬 시퀀스의 확률 및 각각의 타깃 큐브의 회전 각도를 포함함 -; 및

인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 큰 경우 원래 인식 모델을 제2 인식 모델로서 결정하도록 구성된 제3 결정 모듈을 더 포함한다.

일부 실시예에서, 상기 장치는,

인식될 타깃 3D 이미지가 획득되기 전에 제2 인식 모델의 컨벌루션 블록을 제1 인식 모델의 컨벌루션 블록으로서 결정하도록 구성된 제4 결정 유닛; 및

제1 인식 모델의 정확도가 제2 임계값보다 클 때까지 제1 훈련 샘플을 사용하여 제1 인식 모델을 훈련하도록 구성된 훈련 유닛 - 제1 훈련 샘플은 제1 3D 이미지 및 제1 3D 이미지의 유형을 포함함-을 더 포함한다.

제1 인식 모델을 사용하기 전에 제1 인식 모델을 훈련함으로써, 제1 인식 모델의 훈련 효율을 향상시킨다.

본 개시의 일 실시예는 전술한 인식 모델 훈련 방법을 구현하도록 구성된 인식 모델 훈련 장치를 더 제공한다. 도 12에 도시된 바와 같이, 이 인식 모델 훈련 장치는,

3D 샘플 이미지를 획득하고, 3D 샘플 이미지로부터 N개의 타깃 큐브를 세그먼트화하도록 구성된 세그먼트화 유닛(1202);

상기 N개의 타깃 큐브에 대해 미지 정해진 작업을 수행하여 타깃 훈련 샘플을 획득하도록 구성된 처리 유닛(1204_ - 미리 정해진 작업은 N개의 타깃 큐브의 회전 및 정렬을 포함함 -; 및

타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하도록 구성된 훈련 유닛(1206)을 포함하고, 원래 인식 모델은 타깃 훈련 샘플에 대한 인식 결과를 출력하고, 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 클 때 원래 인식 모델을 제2 인식 모델로서 결정하도록 구성된다.

일부 실시예에서, 전술한 장치는 모델 훈련 프로세스에 적용 가능하지만 이에 한정되지 않는다. 원래 인식 모델을 훈련하는 경우, 3D 샘플 이미지 중에서 N개의 타깃 큐브를 추출하고, N개의 타깃 큐브를 회전 및 정렬하여 획득되는 N개의 큐브를 타깃 훈련 샘플로서 원래 인식 모델에 입력한다. 추출, 회전 및 정렬의 구체적인 방법에 대해서는 전술한 실시예의 방법을 참조하고, 이 실시예에서는 세부사항을 다시 설명하지 않는다. 원래 인식 모델이 훈련되는 경우, 원래 인식 모델은 타깃 훈련 샘플 중의 타깃 큐브 각각의 회전 유형 및 타깃 큐브의 정렬 시퀀스의 확률을 출력한다. 확률은 제1 타깃 함수를 충족할 수도 있고 충족하지 않을 수도 있다. 제1 타깃 함수는 손실 함수일 수 있다. 확률이 제1 타깃 함수를 충족하면, 원래 인식 모델의 인식 결과가 정확함을 지시한다. 확률이 제1 타깃 함수를 충족하지 않으면, 원래 인식 모델의 인식 결과가 부정확함을 지시한다. 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 클 때 현재의 원래 인식 모델이 성숙한 훈련된 모델로서 결정된다.

일부 실시예에서는, 성숙한 원래 인식 모델이 훈련을 통해 획득된 후, 원래 인식 모델의 컨볼루션 블록을 추출할 수 있다. 새로운 완전 연결 계층이 추가된 후, 새로운 인식 모델이 형성되고, 새로운 인식 모델을 사용하여 기타 인물를 인식할 수 있다. 적은 수량의 샘플을 사용하여 훈련되는 새로운 인식 모델은 비교적 높은 인식 정확도를 보인다. 예를 들어, 새로운 인식 모델은 3D 이미지의 유형을 인식하는 프로세스에 적용 가능하거나, 새로운 인식 모델은 3D 이미지의 세그먼트화와 같은 태스크에 적용 가능하다. 여기서는 세부 사항을 다시 설명하지 않는다.

본 발명의 일 실시예는 전술한 이미지 인식 방법을 구현하도록 구성된 전자 장치를 더 제공한다. 도 13에 도시된 바와 같이, 이 전자 장치는 메모리(1302) 및 프로세서(1304)를 포함한다. 메모리(1302)는 컴퓨터 프로그램을 저장하고, 프로세서(1304)는 컴퓨터 프로그램을 사용하여 본 개시의 실시예에 따른 이미지 인식 방법을 수행하도록 구성된다.

일부 실시예에서, 전자 장치는 컴퓨터 네트워크의 복수의 네트워크 기기 중 적어도 하나에 위치할 수 있다.

일부 실시예에서, 프로세서는 컴퓨터 프로그램을 사용하여 다음 단계를 수행하도록 구성될 수 있다:

S1. 인식될 타깃 3D 이미지를 획득한다.

S2. 제1 인식 모델에 인식될 타깃 3D 이미지를 입력하며, 제1 인식 모델은 인식될 타깃 3D 이미지를 인식하여 인식될 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고, 제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되는 모델이고, 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수이다.

S3. 제1 인식 모델에 의해 출력되는 인식될 타깃 3D 이미지의 제1 유형을 획득한다.

일부 실시예에서, 당업자는 도 13에 도시된 구성이 개략도일 뿐임을 이해할 수 있을 것이다. 전자 장치는 스마트폰(안드로이드 이동전화, iOS 이동전화 등), 태블릿 컴퓨터, 팜탑 컴퓨터, 모바일 인터넷 기기(mobile Internet device, MID), 또는 PAD와 같은, 단말기 기기일 수 있다. 도 13은 전술한 전자 장치의 구성에 대한 한정사항이 아니다. 예를 들어, 전자 장치는 도 13에 도시된 것보다 더 많거나 더 적은 구성요소(예: 네트워크 인터페이스)를 더 포함할 수 있거나, 도 13에 도시된 것과 다른 구성을 가질 수 있다.

메모리(1302)는 소프트웨어 프로그램 및 모듈, 예를 들어, 본 개시의 실시예에서의 이미지 인식 방법 및 장치에 대응하는 프로그램 명령어/모듈을 저장하도록 구성될 수 있고, 프로세서(1304)는 메모리(1302)에 저장된 소프트웨어 프로그램 및 모듈을 실행함으로써 다양한 기능 애플리케이션 및 데이터 처리를 수행한다, 즉 전술한 이미지 인식 방법을 구현한다. 메모리(1302)로는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 비휘발성 메모리, 예를 들어 하나 이상의 자기 저장 장치, 플래시 메모리, 또는 기타 비휘발성 솔리드 스테이트 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(1302)는 프로세서(1304)에 대해 원격 배치된 메모리를 더 포함할 수 있고, 원격 메모리는 네트워크를 통해 단말기에 연결될 수 있다. 네트워크의 예로는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지는 않는다. 일례로, 도 13에 도시된 바와 같이, 메모리(1302)는 구체적으로 인식될 타깃 3D 이미지와 같은 정보를 저장하도록 구성될 수 있지만 이에 한정되지 않는다. 일례에서, 도 13에 도시된 바와 같이, 메모리(1302)는 전술한 이미지 인식 장치에서의 제1 획득 유닛(1102), 제1 입력 유닛(1104) 및 제2 획득 유닛(1106)을 포함할 수 있지만 이에 한정되지 않는다. 또한, 메모리는 전술한 이미지 인식 장치의 다른 모듈 또는 유닛을 더 포함할 수 있지만 이에 한정되지 않으며, 이 예에서는 세부사항을 다시 설명하지 않는다.

일부 실시예에서, 송신 장치(1306)는 네트워크를 통해 데이터를 수신하거나 송신하도록 구성된다. 전술한 네트워크의 구체적인 예로는 유선 네트워크 및 무선 네트워크를 포함할 수 있다. 일례에서, 송신 장치(1306)는 네트워크 인터페이스 제어기(network interface controlle, NIC)를 포함한다. NIC는 네트워크 케이블을 사용하여 다른 네트워크 장치 및 라우터와 연결되어, 인터넷이나 근거리 통신망과 통신할 수 있다. 일례에서, 송신 장치(1306)는 무선 방식으로 인터넷과 통신하도록 구성될 수 있는 무선 주파수(radio frequency, RF) 모듈이다.

또한, 전자 장치는, 제1 유형의 인식될 타깃 3D 이미지를 표시하도록 구성된 디스플레이(1308); 및 전술한 전자 장치의 다양한 모듈 구성요소를 연결하도록 구성된 연결 버스(1310)를 더 포함한다.

본 발명의 일 실시예는 전술한 인식 모델 훈련 방법을 구현하도록 구성된 전자 장치를 더 제공한다. 도 14에 도시된 바와 같이, 전자 장치는 메모리(1402) 및 프로세서(1404)를 포함한다. 메모리(1402)는 컴퓨터 프로그램을 저장하고, 프로세서(1404)는 컴퓨터 프로그램을 사용하여 본 개시의 실시예에 따른 전술한 인식 모델 훈련 방법을 수행하도록 구성된다.

일부 실시예에서, 전자 장치는 컴퓨터 네트워크의 복수의 네트워크 장치 중 적어도 하나에 위치할 수 있다.

일부 실시예에서, 프로세서는 컴퓨터 프로그램을 사용하여 다음 단계를 수행하도록 구성될 수 있다.

S1. 3D 샘플 이미지를 획득하고, 3D 샘플 이미지로부터 N개의 타깃 큐브를 세그먼트화한다.

S2. N개의 타깃 큐브에 대해 미리 정해진 작업을 수행하여 타깃 훈련 샘플을 획득하며, 미리 정해진 작업은 N개의 타깃 큐브를 회전 및 정렬하는 것을 포함한다.

S3. 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하며, 원래 인식 모델은 타깃 훈련 샘플에 대한 인식 결과를 출력하고, 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 큰 경우 원래 인식 모델을 제2 인식 모델로 결정하도록 구성된다.

일부 실시예에서, 당업자는 도 14에 도시된 구성이 개략도일 뿐임을 이해할 수 있을 것이다. 전자 기기는 스마트폰(안드로이드 이동전화, iOS 이동전화 등), 태블릿 컴퓨터, 팜탑 컴퓨터, 모바일 인터넷 기기(MID), 또는 PAD와 같은, 단말기 기기일 수 있다. 도 14는 전술한 전자 장치의 구성에 대한 한정사항이 아니다. 예를 들어, 전자 장치는 도 14에 도시된 것보다 더 많거나 더 적은 구성요소(예: 네트워크 인터페이스)를 더 포함할 수 있거나, 도 43에 도시된 것과 다른 구성을 가질 수 있다.

메모리(1402)는 소프트웨어 프로그램 및 모듈, 예를 들어, 본 개시의 실시예에서의 인식 모델 훈련 방법 및 장치에 대응하는 프로그램 명령어/모듈을 저장하도록 구성될 수 있고, 프로세서(1404)는 메모리(1402)에 저장된 소프트웨어 프로그램 및 모듈을 실행함으로써 다양한 기능 애플리케이션 및 데이터 처리를 수행한다, 즉 전술한 인식 모델 훈련 방법을 구현한다. 메모리(1402)로는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 비휘발성 메모리, 예를 들어 하나 이상의 자기 저장 장치, 플래시 메모리, 또는 기타 비휘발성 솔리드 스테이트 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(1402)는 프로세서(1404)에 대해 원격 배치된 메모리를 더 포함할 수 있고, 원격 메모리는 네트워크를 통해 단말기에 연결될 수 있다. 네트워크의 예로는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지는 않는다. 일례로, 도 14에 도시된 바와 같이, 메모리(1402)는 구체적으로 3D 샘플 이미지와 같은 정보를 저장하도록 구성될 수 있지만 이에 한정되지 않는다. 일례에서, 도 14에 도시된 바와 같이, 메모리(1402)는 전술한 인식 모델 훈련 장치에서의 세그먼트화 유닛(1202), 처리 유닛(1204) 및 훈련 유닛(1206)을 포함할 수 있지만 이에 한정되지 않는다. 또한, 메모리는 전술한 인식 모델 훈련 장치의 다른 모듈 또는 유닛을 더 포함할 수 있지만 이에 한정되지 않으며, 이 예에서는 세부사항을 다시 설명하지 않는다.

일부 실시예에서, 송신 장치(1406)는 네트워크를 통해 데이터를 수신하거나 송신하도록 구성된다. 전술한 네트워크의 구체적인 예로는 유선 네트워크 및 무선 네트워크를 포함할 수 있다. 일례에서, 송신 장치(1406)는 네트워크 인터페이스 제어기(NIC)를 포함한다. NIC는 네트워크 케이블을 사용하여 다른 네트워크 기기 및 라우터와 연결되어, 인터넷이나 근거리 통신망과 통신할 수 있다. 일례에서, 송신 장치(1406)는 무선 방식으로 인터넷과 통신하도록 구성될 수 있는 무선 주파수(RF) 모듈이다.

또한, 전자 장치는, 원래 인식 모델의 훈련 정확도를 표시하도록 구성된 디스플레이(1408); 및 전술한 전자 장치의 다양한 모듈 구성요소를 연결하도록 구성된 연결 버스(1410)를 더 포함한다.

본 개시의 일 실시예는 컴퓨터 프로그램을 저장하는 저장 매체를 더 제공하며, 컴퓨터 프로그램을 실행될 때, 본 개시의 일 실시예에 따른 인식 모델 훈련 방법을 수행하도록 구성된다.

일부 실시예에서, 저장 매체는 다음 단계를 수행하도록 구성된 컴퓨터 프로그램을 저장하도록 구성될 수 있다:

S1. 인식될 타깃 3D 이미지를 획득한다.

S2. 인식될 타깃 3D 이미지를 제1 인식 모델에 입력하며, 제1 인식 모델은 인식될 타깃 3D 이미지를 인식하여 인식될 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고, 제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 타깃 3D 이미지를 인식하도록 구성된다.

제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되는 모델이며, 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득한 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하고, N은 1보다 큰 자연수이다.

S3. 제1 인식 모델에 의해 출력된 인식될 타깃 3D 이미지의 제1 유형을 획득한다.

대안적으로, 일부 실시예에서, 저장 매체는 다음 단계를 수행하도록 구성된 컴퓨터 프로그램을 저장하도록 구성될 수 있다:

일부 실시예에서, 당업자는 전술한 실시예의 방법의 단계의 전부 또는 일부가 단말기 기기의 관련 하드웨어에 명령하는 프로그램으로 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터로 판독 가능한 저장매체에 저장될 수 있다. 저장 매체로는 플래시 디스크, 판독 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크, 광 디스크 등을 포함할 수 있다.

본 발명의 전술한 실시예의 시퀀스 번호는 단지 설명을 위한 것으로, 실시예 중 선호도를 나타내려는 것은 아니다.

전술한 실시예의 통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되어 독립적인 제품으로 판매되거나 사용되는 경우, 통합된 유닛은 전술한 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 기술적 방안은 본질적으로, 또는 관련 기술분야에 기여하는 부분, 또는 기술적 방안의 전부 또는 일부가 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며 하나 이상의 컴퓨터 기기(개인용 컴퓨터(PC), 서버, 네트워크 장치 등일 수 있음)에게 본 개시의 실시예에 기재된 방법의 단계 중 일부 또는 ㅈQ부를 수행하도록 명령하는 여러 명어를 포함한다.

본 개시의 전술한 실시예에서, 실시예의 설명은 각각의 중점을 갖는다. 일 실시예에서 상세하게 설명되지 않은 부분은 다른 실시예의 관련 설명을 참조할 수 있다.

본 개시에서 제공되는 여러 실시예에서, 개시된 클라이언트는 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 전술한 장치 실시예는 단지 예시적인 것일 뿐이다. 예를 들어, 유닛 분할은 단순히 논리적 기능 분할이며 실제 구현 시 다른 분할이 될 수 있다. 예를 들어, 복수의 유닛 또는 구성요소가 다른 시스템에 결합되거나 통합될 수 있거나, 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 소정의 인터페이스를 통해 구현될 수 있다. 유닛 또는 모듈 간의 간접 결합 또는 통신 연결은 전기적 또는 다른 형태로 구현될 수 있다.

별개의 구성요소로 설명된 유닛은 물리적으로 분리되거나 분리되지 않을 수 있으며, 유닛으로 표시된 구성요소는 물리 유닛일 수도 있고 아닐 수도 있으며, 한 곳에 위치하거나 복수의 네트워크 유닛에 분산될 수 있다. 유닛의 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위해 실제 요건에 따라 선택될 수 있다.

또한, 본 개시의 실시예에서, 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다. 통합된 유닛은 하드웨어의 형태로 구현될 수도 있거나, 소프트웨어 기능 유닛의 형태로 구현될 수 있다.

이상의 설명은 단지 본 개시의 예시적인 구현일 뿐이다. 당업자는 본 개시의 원리를 벗어나지 않고 여러 개선 및 수정을 가할 수 있으며, 이러한 개선 및 수정 또한 본 개시의 보호 범위에 속하는 것으로 간주된다.

본 발명의 실시예에서, 상기 방법은,

인식될 타깃 33D 이미지를 획득하는 단계; 인식될 타깃 3D 이미지를 제1 인식 모델에 입력하는 단계 - 제1 인식 모델은 타깃 3D 이미지를 인식하여 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고, 제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 타깃 3D 이미지를 인식하도록 구성되고, 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되고, 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -; 및 제1 인식 모델에 의해 출력되는 타깃 3D 이미지의 이미지 유형을 획득하는 단계를 포함한다. 이와 같이, 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득된 모델이고, 타깃 훈련 샘플은 3D 샘플 이미지에서 획득한 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함한다. 3D 이미지에서 추출된 큐브를 사용하여 2차 인식 모델을 사전 훈련함으로써, 2차 인식 모델의 훈련 효율을 향상시키고 3D 이미지의 인식 정확도 또한 향상시킨다. 제1 인식 모델의 컨벌루션 블록이 제2 인식 모델의 컨벌루션 블록과 동일하기 때문에, 즉 제2 인식 모델을 사용하여 훈련된 컨벌루션 블록을 제1 인식 모델의 컨벌루션 블록으로 사용하므로, 제1 인식 모델의 훈련 효율이 향상된다. 제1 인식 모델에서 제2 인식 모델에서의 컨볼루션 블록과 동일한 컨볼루션 블록을 사용하여 타깃 3D 이미지를 인식함으로써 인식 정확도를 향상시킨다.

Claims

단말기에 의해 수행되는 이미지 인식 방법으로서,
인식될 타깃(to-be-recognized target) 3차원(three-dimensional, 3D) 이미지를 획득하는 단계;
상기 인식될 타깃 3D 이미지를 제1 인식 모델에 입력하는 단계 - 상기 제1 인식 모델은 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하여 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고, 상기 제1 인식 모델의 컨벌루션 블록(convolutional block)은 제2 인식 모델의 컨벌루션 블록과 동일하고, 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하도록 구성되고, 상기 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래(original) 인식 모델을 훈련하여 획득되고, 상기 원래 인식 모델은 훈련을 수행하지 않은 모델이며, 상기 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브(target cube)를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -; 및
상기 제1 인식 모델에 의해 출력되는 상기 타깃 3D 이미지의 이미지 유형을 획득하는 단계를 포함하고,
상기 인식될 타깃 3D 이미지를 획득하는 단계 전에, 상기 이미지 인식 방법은,
상기 3D 샘플 이미지를 획득하는 단계;
상기 3D 샘플 이미지로부터 원래(original) 큐브를 결정하는 단계; 및
상기 원래 큐브를 N개의 타깃 큐브로 분할하는 단계
를 더 포함하는 이미지 인식 방법.
삭제
제1항에 있어서,
N의 값은 1보다 큰 양의 정수의 세제곱이고,
상기 원래 큐브를 N개의 타깃 큐브로 분할하는 단계는,
두 개의 인접한 타깃 큐브 사이에 M개의 복셀 간격을 유지하면서 상기 원래 큐브로부터 상기 N개의 타깃 큐브를 분할하는 단계 - M은 0보다 크고 J-1보다 작은 양의 정수이고, J는 상기 타깃 큐브의 한 변의 길이임 -를 포함하는, 이미지 인식 방법.
제1항에 있어서,
상기 인식될 타깃 3D 이미지를 획득하는 단계 전에,
상기 N개의 타깃 큐브 중에서 제1 타깃 큐브를 결정하는 단계;
상기 제1 타깃 큐브를 제1 각도로 회전시키는 단계; 및
상기 제1 각도로 회전된 제1 타깃 큐브를 상기 N개의 타깃 큐브 중의 다른 타깃 큐브와 정렬하여 상기 타깃 훈련 샘플을 획득하는 단계를 더 포함하는 이미지 인식 방법.
제4항에 있어서,
상기 타깃 훈련 샘플을 획득하는 단계 후에, 상기 이미지 인식 방법은,
상기 타깃 훈련 샘플을 상기 원래 인식 모델에 입력하여 상기 원래 인식 모델을 훈련하여, 상기 제2 인식 모델을 획득하는 단계를 더 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식될 타깃 3D 이미지를 획득하는 단계 전에,
상기 원래 인식 모델이 타깃 훈련 샘플을 인식한 후에 출력되는 인식 결과를 획득하는 단계 - 상기 인식 결과는 상기 타깃 훈련 샘플에서 상기 타깃 큐브의 다중 정렬 시퀀스의 확률 및 각각의 타깃 큐브의 회전 각도를 포함함 -; 및
상기 인식 결과가 제1 타깃 함수를 충족할 확률이 제1 임계값보다 큰 경우 상기 원래 인식 모델을 상기 제2 인식 모델로서 결정하는 단계를 더 포함하는 이미지 인식 방법.
제1항에 있어서,
상기 인식될 타깃 3D 이미지를 획득하는 단계 전에,
상기 제2 인식 모델의 컨벌루션 블록을 상기 제1 인식 모델의 컨벌루션 블록으로 결정하는 단계; 및
상기 제1 인식 모델의 정확도가 제2 임계값보다 클 때까지 제1 훈련 샘플을 사용하여 상기 제1 인식 모델을 훈련하는 단계 - 상기 제1 훈련 샘플은 제1 3D 이미지 및 제1 3D 이미지의 유형을 포함함 -를 더 포함하는 이미지 인식 방법.
단말기에 의해 수행되는 인식 모델 훈련 방법으로서,
3D 샘플 이미지를 획득하는 단계;
상기 3D 샘플 이미지로부터 원래(original) 큐브를 결정하는 단계;
상기 원래 큐브를 N개의 타깃 큐브로 분할하는 단계 - N은 1보다 큰 자연수임 -;
상기 N개의 타깃 큐브를 회전 및 정렬하여 타깃 훈련 샘플을 획득하는 단계; 및
상기 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하는 단계를 포함하고,
상기 제2 인식 모델의 컨벌루션 블록은 제1 인식 모델의 컨벌루션 블록과 동일하고, 상기 제1 인식 모델을 사용하여 타깃 3D 이미지를 인식하여, 상기 타깃 3D 이미지의 유형을 획득하도록 구성되는,
인식 모델 훈련 방법.
이미지 인식 장치로서,
인식될 타깃 3D 이미지를 획득하도록 구성된 제1 획득 유닛;
상기 타깃 3D 이미지를 제1 인식 모델에 입력하도록 구성된 제1 입력 유닛 - 상기 제1 인식 모델은 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하여 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성되고, 상기 제1 인식 모델의 컨벌루션 블록은 제2 인식 모델의 컨벌루션 블록과 동일하고, 상기 타깃 3D 이미지에 대해 이미지 인식을 수행하도록 구성되고, 상기 제2 인식 모델은 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여 획득되고, 상기 원래 인식 모델은 훈련을 수행하지 않은 모델이며, 상기 타깃 훈련 샘플은 3D 샘플 이미지로부터 획득된 N개의 타깃 큐브를 회전 및 정렬하여 획득되는 큐브를 포함하며, N은 1보다 큰 자연수임 -;
상기 제1 인식 모델에 의해 출력되는 상기 타깃 3D 이미지의 이미지 유형을 획득하도록 구성된 제2 획득 유닛;
상기 인식될 타깃 3D 이미지를 획득하는 단계 전에, 상기 3D 샘플 이미지를 획득하도록 구성된 제3 획득 유닛;
상기 3D 샘플 이미지로부터 원래 큐브를 결정하도록 구성된 제1 결정 유닛; 및
상기 원래 큐브를 N개의 타깃 큐브로 분할하도록 구성된 분할 유닛
을 포함하는 이미지 인식 장치.
인식 모델 훈련 장치로서,
3D 샘플 이미지를 획득하고, 상기 3D 샘플 이미지로부터 원래 큐브를 결정하며, 상기 원래 큐브를 N개의 타깃 큐브로 분할하도록 구성된 세그먼트화 유닛 - N은 1보다 큰 자연수임 -;
상기 N개의 타깃 큐브를 회전 및 정렬하여 타깃 훈련 샘플을 획득하도록 구성된 처리 유닛; 및
상기 타깃 훈련 샘플을 사용하여 원래 인식 모델을 훈련하여, 제2 인식 모델을 획득하도록 구성된 훈련 유닛을 포함하고,
상기 제2 인식 모델의 컨벌루션 블록은 제1 인식 모델의 컨벌루션 블록과 동일하고, 상기 제1 인식 모델을 사용하여 타깃 3D 이미지를 인식하여, 상기 타깃 3D 이미지의 유형을 획득하도록 구성되는,
인식 모델 훈련 장치.
컴퓨터 프로그램을 저장하는 비일시적 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 프로그램은 실행될 때, 제1항, 제3항 내지 제7항 중 어느 한 항에 따른 이미지 인식 방법 또는 제8항에 따른 인식 모델 훈련 방법을 수행하는,
비일시적 컴퓨터 판독 가능한 저장 매체.
메모리 및 프로세서를 포함하는 전자 장치로서,
상기 메모리는 컴퓨터 프로그램을 저장하고, 상기 프로세서는 상기 컴퓨터 프로그램이 실행될 때 제1항, 제3항 내지 제7항 중 어느 한 항에 따른 이미지 인식 방법 또는 제8항에 따른 인식 모델 훈련 방법을 수행하도록 구성되는,
전자 장치.
삭제
삭제
삭제
삭제
삭제