KR20210040883A - 이미지 처리 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

이미지 처리 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210040883A
KR20210040883A KR1020210038744A KR20210038744A KR20210040883A KR 20210040883 A KR20210040883 A KR 20210040883A KR 1020210038744 A KR1020210038744 A KR 1020210038744A KR 20210038744 A KR20210038744 A KR 20210038744A KR 20210040883 A KR20210040883 A KR 20210040883A
Authority
KR
South Korea
Prior art keywords
dimensional
features
fusion
feature
convolution
Prior art date
Application number
KR1020210038744A
Other languages
English (en)
Other versions
KR102487260B1 (ko
Inventor
잉잉 리
샤오 탄
민유에 지앙
하오 순
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210040883A publication Critical patent/KR20210040883A/ko
Application granted granted Critical
Publication of KR102487260B1 publication Critical patent/KR102487260B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • G06K9/6277
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/629
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Image Processing (AREA)

Abstract

본 출원은 이미지 처리 방법, 장치, 전자 기기 및 저장 매체를 개시하며, 컴퓨터 비전 분야에 관한 것이다. 구체적인 구현 수단은, 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되 N은 양의 정수이고, 상기 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되 M은 N보다 작거나 같은 양의 정수이며, 상기 N차원의 특징 중 다른 융합되지 않은 특징 및 상기 M차원 융합 특징에 따라 이미지 처리를 수행하는 것이다. 이로써, 이미지 처리에서 이미지의 공간적 특징을 추출할 뿐만 아니라, 상이한 차원 간의 특징 관계를 고려하고 각각의 공간적 특징의 상이한 차원 간의 차원 융합 특징을 추출함으로써, 학습 효과를 향상시키고 이미지 처리의 정확도를 높일 수 있으며, 종래의 기술에서 이미지 분류 네트워크의 바람직하지 못한 효과를 초래하여 이미지 처리의 정확도가 높지 않은 기술적 문제를 해결한다.

Description

이미지 처리 방법, 장치, 전자 기기 및 저장 매체{IMAGE PROCESSING METHOD, DEVICE, ELECTRONIC DEVICE, AND STORAGE MEDIUM}
본 출원의 실시예는 전체적으로 이미지 처리 기술 분야에 관한 것으로, 보다 구체적으로 컴퓨터 비전 분야에 관한 것이다.
현재, 딥 러닝 이미지 분류 네트워크는 상대적으로 성숙하다. 종래의 이미지 분류 네트워크는 주로 컨볼루션 신경 네트워크(Convolutional Neural Networks; CNN)를 기반으로 이미지 특징을 추출하고, 추출된 이미지 특징을 기반으로 학습한다.
그러나, 이미지 특징 기반 학습은 단지 이미지 분류 네트워크가 공간적 차원의 특징을 융합하도록 하므로, 이미지 분류 네트워크의 바람직하지 못한 효과를 초래하고, 이미지 분류 네트워크의 정확도를 낮춤으로써 이미지 처리의 정확도를 낮춘다.
이미지 분류 네트워크의 학습 효과를 향상시키고 이미지 처리의 정확도를 높이기 위한 이미지 처리 방법, 장치, 전자 기기 및 저장 매체가 제공된다.
제1 측면으로, 이미지 처리 방법이 제공되는바, 상기 방법은,
분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하는 단계 - N은 양의 정수임 - ;
상기 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 단계 - M은 N보다 작거나 같은 양의 정수임 - ; 및
상기 N차원의 특징 중 다른 융합되지 않은 특징 및 상기 M차원 융합 특징에 따라 이미지 처리를 수행하는 단계
를 포함한다.
제2 측면으로, 이미지 처리 장치가 제공되는바, 상기 장치는,
분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하는 특징 생성 모듈 - N은 양의 정수임 - ;
상기 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 융합 모듈 - M은 N보다 작거나 같은 양의 정수임 - ; 및
상기 N차원의 특징 중 다른 융합되지 않은 특징 및 상기 M차원 융합 특징에 따라 이미지 처리를 수행하는 처리 모듈
을 포함한다.
제3 측면으로, 전자 기기가 제공되는바, 상기 전자 기기는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리
를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우 상기 적어도 하나의 프로세서가 제1 측면에 따른 이미지 처리 방법을 수행한다.
제4 측면으로, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체가 제공되는바, 상기 컴퓨터 프로그램의 명령이 실행될 경우 제1 측면에 따른 이미지 처리 방법이 수행된다.
제5 측면으로, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 제공하는바, 상기 컴퓨터 프로그램의 명령이 실행될 경우 제1 측면에 따른 이미지 처리 방법이 수행된다.
본 출원에서 제공된 이미지 처리 방법, 장치, 전자 기기 및 저장 매체는 하기와 같은 유익한 효과를 갖는다.
분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되 N은 양의 정수이며, N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되 M은 N보다 작거나 같은 양의 정수이고, N차원의 특징 중 다른 융합되지 않은 특징 및 M차원 융합 특징에 따라 이미지 처리를 수행하며, 이로써 이미지 처리에서 이미지의 공간적 특징을 추출할 뿐만 아니라, 상이한 차원 간의 특징 관계를 고려하고 각각의 공간적 특징의 상이한 차원 간의 차원 융합 특징을 추출하여 학습 효과를 향상시키고 이미지 처리의 정확도를 높일 수 있으며, 종래의 기술에서 이미지 특징 기반 학습은 단지 이미지 분류 네트워크가 공간적 차원의 특징을 융합하도록 하므로, 이미지 분류 네트워크의 바람직하지 못한 효과를 초래하고, 이미지 분류 네트워크의 정확도를 낮춤으로써 이미지 처리의 정확도를 낮추는 기술적 문제를 해결한다.
본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 출원의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1은 본 출원의 제1 실시예에 따른 이미지 처리 방법의 흐름 모식도이다.
도 2는 본 출원의 제2 실시예에 따른 이미지 처리 방법의 흐름 모식도이다.
도 3은 본 출원의 제3 실시예에 따른 이미지 처리 방법의 흐름 모식도이다.
도 4는 본 출원의 제4 실시예에 따른 이미지 처리 장치의 구조 모식도이다.
도 5는 본 출원의 제5 실시예에 따른 이미지 처리 장치의 구조 모식도이다.
도 6은 본 출원의 제6 실시예에 따른 이미지 처리 장치의 구조 모식도이다.
도 7은 본 출원의 실시예의 이미지 처리 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
이하, 첨부된 도면을 참조하여 본 출원의 이미지 처리 방법, 장치, 전자 기기 및 저장 매체를 설명한다.
종래의 딥러닝 이미지 분류 네트워크는 주로 CNN에 기반하여 이미지 특징을 추출하며, 또한 완전 연결층 등의 컴포넌트를 결합하고 softmax 멀티 클래스 분류기와 멀티 클래스 크로스 엔트로피 손실 함수를 사용하여 학습함으로써 이미지 처리용 네트워크 모델을 획득한다.
그러나, 종래의 네트워크 구조 디자인은 대부분 이미지 공간의 특징 추출 및 융합에 중점을 두며, 예를 들어 고해상도 네트워크 HRNet은 공간 해상도를 유지하는 특징 융합 방안을 제안하고, EfficientNet 네트워크는 다양한 해상도의 이미지 디자인의 다양한 네트워크 깊이와 너비에 따라 특징 추출을 수행하며, 딥 레지듀얼 네트워크 ResNet은 네트워크가 보다 깊고 우수한 특징 정보를 추출하도록 점퍼 연결 구조를 제안하고, 딥 레이어 어그리게이션 네트워크(DLA)는 상이한 컨볼루션 블록, 상이한 깊이 사이의 특징 융합을 구현한다. 상술한 네트워크 구조 디자인의 컨볼루션 수행은 이미지 공간적 차원에서 네트워크가 특징 추출 및 융합을 더 잘 수행하도록 하여 상이한 차원 간의 특징 관계를 무시하므로, 네트워크의 바람직하지 못한 학습 효과를 초래하고 정확도를 낮춤으로써 이미지 처리의 정확도를 낮춘다.
상술한 문제에 대하여, 본 출원은 이미지 처리 방법을 개시하는바, 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하고, N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하며, M은 N보다 작거나 같은 양의 정수이고, N차원의 특징 중 다른 융합되지 않은 특징 및 M차원 융합 특징에 따라 이미지 처리를 수행하며, 이로써 이미지 처리에서 이미지의 공간적 특징을 추출할 뿐만 아니라, 상이한 차원 간의 특징 관계를 고려하고 각각의 공간적 특징의 상이한 차원 간의 차원 융합 특징을 추출함으로써, 학습 효과를 향상시키고 이미지 처리의 정확도를 높일 수 있다.
도 1은 본 출원의 제1 실시예에 따른 이미지 처리 방법의 흐름 모식도이고, 상기 방법은 본 출원에서 제공된 이미지 처리 장치에 의해 수행될 수 있고, 전자 기기에 의해 수행될 수도 있으며, 전자 기기는 서버일 수 있고, 데스크톱 컴퓨터, 노트북 컴퓨터와 같은 단말 기기일 수도 있으며, 본 출원은 이에 대해 한정하지 않는다. 아래에 본 출원에서 제공된 이미지 처리 장치가 본 출원의 이미지 처리 방법을 수행하는 것을 예로 본 출원을 설명한다.
도 1에 도시된 바와 같이, 상기 이미지 처리 방법은 단계 101 내지 단계 103을 포함한다.
단계 101에서, 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되, N은 양의 정수이다.
본 출원에서, 이미지에 포함된 객체에 대해 분류, 검출, 분할 등의 처리 동작을 수행해야 할 경우, 처리할 이미지를 상응된 특징 추출 모델에 입력할 수 있으며, 예를 들어 이미지의 객체를 분류해야 할 경우, 분류할 이미지를 이미지의 객체 분류에 사용되는 특징 추출 모델에 입력하여 이미지 분류 처리를 수행할 수 있다.
여기서, 특징 추출 모델은 HRNet 네트워크, ResNet 네트워크, EfficientNet 네트워크 등과 같은 임의의 하나의 이미지 분류 네트워크일 수 있다.
일반적으로, 각각의 이미지 분류 네트워크는 다중 레이어의 컨볼루션 레이어를 가지고 있으며, 이는 입력된 이미지에 대해 특징 맵에서 컨볼루션 동작을 수행하여 특징을 추출 및 융합하는데 사용되며, 각각의 컨볼루션 레이어의 출력은 입력 이미지의 공간적 특징이다. 이로써 본 출원의 실시예에서, 분류할 이미지를 이미지 분류 네트워크에 입력하여 다수의 공간적 특징을 생성할 수 있으며, 예를 들어 생성된 공간적 특징의 개수는 N일 수 있고, N은 양의 정수이다. 다시 말하면, 본 출원에서, 분류할 이미지를 이미지 분류 네트워크에 입력하여 N차원의 특징을 생성할 수 있고, N의 개수는 이미지 분류 네트워크 중 컨볼루션 레이어의 레이어 개수와 관련되며, 상기 N차원의 특징은 공간적 차원에서 분류할 이미지와 대응되는 특징 맵의 공간적 특징을 의미한다.
단계 102에서, N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되, M은 N보다 작거나 같은 양의 정수이다.
본 실시예에서, 분류할 이미지의 N개의 특징을 획득한 후, 이 N개의 특징으로부터 M개의 특징을 선택하고 차원 융합을 수행하여 M차원 융합 특징을 획득할 수 있으며, 여기서 M은 N보다 크지 않은 양의 정수이다. M개의 특징을 선택할 경우, N개의 특징으로부터 M개의 특징을 랜덤으로 선택할 수 있고, 연속된 M개의 특징을 선택할 수 있거나, 또는 상위 컨볼루션 레이어로부터 일부 특징을 선택하고 하위 컨볼루션 레이어로부터 일부 특징을 선택하여 모두 M개의 특징을 선택할 수 있으며, 본 출원은 M개의 특징의 선택 방식에 대해 한정하지 않는다.
차원 융합을 수행할 경우, M개의 특징 중 각각의 특징에 대해 차원 융합을 수행하고, 구체적으로 각각의 특징에 대해 기설정된 컨볼루션 커널 크기 및 기설정된 채널 개수에 따라 상기 특징의 차원 공간에서 여러 번의 컨볼루션 및 융합을 수행하여 상기 특징과 대응되는 차원 융합 특징을 획득할 수 있다. 여기서, 각각의 특징에 대한 컨볼루션 및 융합 횟수는 컨볼루션 커널의 크기와 관련된다.
설명해야 할 것은, M개의 특징에 대해 차원 융합을 수행하여 M차원 융합 특징을 획득하는 상세한 과정은 후속 실시예에서 제공되므로, 여기서 더이상 설명하지 않는다.
단계 103에서, N차원의 특징 중 다른 융합되지 않은 특징 및 M차원 융합 특징에 따라 이미지 처리를 수행한다.
본 실시예에서 선택된 M개의 특징에 대해 차원 융합을 수행하여 대응되는 M차원 융합 특징을 획득한 후, 나머지 N-M개의 융합되지 않은 특징 및 융합하여 획득한 M차원 융합 특징에 따라 이미지 처리를 수행하여, 분류할 이미지에 대한 분류, 검출 등의 처리 동작을 완료할 수 있다.
본 출원의 실시예에서, 이미지 처리는 이미지 분류, 이미지 분할, 또는 이미지 검출 등의 이미지 처리 동작 중 어느 하나를 포함하지만 이에 한정되는 것은 아니다. 다시 말하면, 본 출원에서 제공된 이미지 처리 방법은 분류, 분할, 검출 등의 다양한 이미지 처리 태스크에 적용될 수 있고, 유연성이 강하며 적용 범위가 넓다.
이미지 처리가 이미지 분류인 것을 예로 들면, 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하며, N개의 특징의 일부 또는 전부 특징에 대해 차원 융합을 수행하여 융합된 차원 융합 특징을 획득함으로써, N개의 특징 중 나머지 특징 및 생성된 차원 융합 특징에 대해 이미지 분류 처리를 수행하여 이미지 분류를 완료한다. 차원 융합 특징은 특징의 차원 공간에 대한 컨볼루션 및 융합을 통해 획득되는 것이기에, 특징 맵의 이미지 공간에서만 특징을 추출 및 융합하지 않고 특징의 상이한 차원 공간 간의 관계까지 고려하므로, 차원 융합 특징 및 나머지 융합되지 않은 특징을 이용하여 이미지 분류를 수행하면, 이미지 특징의 학습 능력과 학습 효과를 향상시킬 수 있고, 이미지 분류의 정확도를 높일 수 있다.
본 실시예의 이미지 처리 방법은, 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되 N은 양의 정수이며, N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되 M은 N보다 작거나 같은 양의 정수이고, N차원의 특징 중 다른 융합되지 않은 특징 및 M차원 융합 특징에 따라 이미지 처리를 수행하며, 이로써 이미지 처리에서 이미지의 공간적 특징을 추출할 뿐만 아니라, 상이한 차원 간의 특징 관계를 고려하고 각각의 공간적 특징의 상이한 차원 간의 차원 융합 특징을 추출함으로써, 학습 효과를 향상시키고 이미지 처리의 정확도를 높일 수 있다.
전술한 실시예에서 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 구체적인 구현 과정을 보다 명확하게 설명하기 위해, 아래에서 도 2를 결부하여 자세하게 설명한다.
도 2는 본 출원의 제2 실시예에 따른 이미지 처리 방법의 흐름 모식도이다. 도 2에 도시된 바와 같이, 도 1에 도시된 실시예의 기초상에서 단계 102는 단계 201 내지 단계 202를 포함할 수 있다.
단계 201에서, N차원의 특징의 차원수에 따라 N차원의 특징으로부터 M개의 특징을 선택한다.
본 실시예에서, 차원 융합을 수행할 M개의 특징을 선택할 경우 N차원의 특징의 차원수에 따라 선택할 수 있다. 여기서, 상기 차원수는 N차원의 특징을 출력하는 컨볼루션 레이어의 레이어 개수를 의미한다.
예를 들어, 특징 추출 모델이 ResNet 네트워크인 것을 예로 들면, ResNet 네트워크에 대해 전반 네트워크는 conv1, conv2_x, conv3_x, conv4_x, conv5_x 및 fc 층(분류를 위함)을 포함하고, 상기 네트워크는 5개의 컨볼루션 레이어를 포함하므로 ResNet 네트워크에서 생성된 N차원의 특징의 차원수는 5이다.
본 실시예에서, N차원의 특징의 차원수에 따라 M개의 특징을 선택할 경우, 태스크 특징과 데이터의 차이점에 따라 상이한 방식으로 선택할 수 있으며 본 출원은 M개의 특징의 선택 방식에 대해 한정하지 않는다.
일 가능한 구현 방식으로서, N개의 특징의 하이 레벨(high-level)로부터 선택하고 N개의 특징으로부터 M개의 하이 레벨 특징을 선택할 수 있다. 일반적으로 로우 레벨(low-level) 특징은 세부 정보를 더 많이 학습하고 하이 레벨 특징은 의미 정보를 더 많이 학습하는데, 이미지 분류 태스크의 경우 이미지가 어느 타입에 속하는지를 판단하기 위해 의미 정보가 보다 많이 필요하며, 따라서 이미지 처리가 이미지 분류인 경우 M개의 하이 레벨 특징을 선택하여 차원 융합을 수행할 수 있다. 또한, ResNet 네트워크를 예로 들면, conv3_x, conv4_x 및 conv5_x 이 3개의 컨볼루션 레이어에 의해 출력된 특징을 최종적으로 선택된 M개의 특징으로 선택할 수 있으므로, M개의 특징에 대한 차원 융합을 수행할 경우에 보다 많은 의미 정보를 학습할 수 있어 이미지 분류의 정확도를 향상시킨다.
다른 가능한 구현 방식으로서, N개의 특징의 차원수에 따라 N개의 특징을 제1 차원 범위와 제2 차원 범위로 구분할 수 있으며, 제2 차원 범위는 제1 차원 범위보다 크고 N차원의 특징 중 제1 차원 범위 및 제2 차원 범위로부터 M개의 특징을 각각 선택할 수 있다. 다시 말하면, 본 구현 방식에서 N개의 특징을 로우 레벨 특징 범위(즉, 제1 차원 범위)와 하이 레벨 특징 범위(즉, 제2 차원 범위)로 구분할 수 있으며, 로우 레벨 특징 범위와 하이 레벨 특징 범위로부터 각각 선택하고 모두 M개의 특징을 선택한다. 또한, ResNet 네트워크를 예로 들면, conv1과 conv2_x에 의해 출력된 특징은 로우 레벨 특징 범위에 대응되고 conv3_x, conv4_x 및 conv5_x에 의해 출력된 특징은 하이 레벨 특징 범위에 대응된다고 가정하면, conv1, conv4_x 및 conv5_x 이 3개의 컨볼루션 레이어에 의해 출력된 특징을 최종적으로 선택된 M개의 특징으로 선택한다. 이로써 로우 레벨 특징뿐만 아니라 하이 레벨 특징도 선택함으로써 M개의 특징에 대한 차원 융합을 수행할 경우에 하이 레벨 정보와 로우 레벨 정보를 융합할 수 있고, 세밀화(fine-grained) 인식 태스크를 완료하는 데 유리하며, 이미지 세부 특징 인식의 정확도를 확보한다.
단계 202에서, M개의 특징에 대해 각각 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득한다.
본 실시예에서, N개의 특징으로부터 M개의 특징을 추출한 다음 M개의 특징에 대해 각각 차원 융합을 수행하여 대응되는 M차원 융합 특징을 획득할 수 있다.
구체적으로, 우선 M개의 특징을 변환하여 M차원 특징을 형성한 다음, M차원 특징에 대해 컨볼루션을 수행하여 M차원 융합 특징을 획득함으로써 M개의 특징의 차원 융합을 완료한다.
여기서, M개의 특징에 대한 변환은 M개의 특징 중 각각의 특징에 대해 특징의 특징 맵 차원수와 특징 맵 크기를 변환시키는 것을 의미하며, 변환된 특징은 차원 특징으로 지칭된다.
ResNet101 네트워크를 예로 들면, conv3_x의 특징은 (512, 28*28)로 출력되고 conv4_x의 특징은 (1024, 14*14)로 출력되며 conv5_x의 특징은 (2048, 7*7)로 출력되되, 512, 1024, 2048은 특징 맵의 차원수를 내타내고, 28*28, 14*14, 7*7은 특징 맵의 크기를 나타낸다. 차원 융합을 위해 선택된 M개의 특징이 (512, 28*28), (1024, 14*14) 및 (2048, 7*7)이라고 가정하면, 각각의 선택된 특징을 변환시켜 대응되는 차원 특징을 획득하는바, 각각 (28*28, 512),(14*14, 1024) 및 (7*7, 2048)이다.
변환을 통해 특징 맵 공간 및 차원 공간 사이의 변환을 구현하며, 이는 후속 차원 공간에서 컨볼루션을 수행하고 차원 공간의 특징 추출 및 융합을 구현하기 위한 기반을 마련한다.
이어서, M개의 특징을 변환시켜 M차원 특징을 형성한 후, M차원 특징에 대해 컨볼루션을 수행하여 M차원 융합 특징을 획득할 수 있다. 하기에서 도 3을 결부하여, M차원 융합 특징을 획득하는 구체적인 과정을 자세하게 설명한다.
도 3은 본 출원의 제3 실시예에 따른 이미지 처리 방법의 흐름 모식도이다. 도 3에 도시된 바와 같이, M차원 특징에 대해 컨볼루션을 수행하여 M차원 융합 특징을 획득하는 단계는 단계 301 내지 단계 306을 포함할 수 있다.
단계 301에서, 기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 M차원 특징에 대해 제1회 컨볼루션 및 제2회 컨볼루션을 수행하여 제1 컨볼루션 결과 및 제2 컨볼루션 결과를 형성한다.
여기서, 기설정된 채널 및 기설정된 컨볼루션 커널값은 태스크 수요에 따라 설정될 수 있으므로, 채널과 컨볼루션 커널값에 대한 유연한 설정을 구현하고, 방법의 유연성과 적용성을 향상시킨다.
단계 302에서, 제1 컨볼루션 결과 및 제2 컨볼루션 결과를 융합하여 제i 융합 결과를 생성하되, i = 1이다.
단계 303에서, 기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 제i 융합 결과에 대해 컨볼루션을 수행하여 제i+2 컨볼루션 결과를 형성한다.
단계 304에서, 제1 컨볼루션 결과 내지 제i+2 컨볼루션 결과를 융합하여 제i+1 융합 결과를 생성한다.
단계 305에서, i가 (기설정된 컨볼루션 커널값-2)보다 작을 경우, i를 i = i + 1로 업데이트하고 되돌아가 단계 303 내지 단계 304를 수행한다.
단계 306에서, i가 (기설정된 컨볼루션 커널값-2)와 같을 경우, 제i+1 융합 결과를 M차원 융합 특징으로 결정한다.
본 실시예에서, M차원 특징에 대해 컨볼루션을 수행하여 M차원 융합 특징을 획득할 때 컨볼루션 동작 횟수 및 융합 동작 횟수는 기설정된 컨볼루션 커널값과 관련되기에, 보다 바람직한 학습 효과를 얻기 위해 기설정된 컨볼루션 커널값은 3보다 작지 않게 설정될 수 있으므로, 차원 융합 특징 생성 시 컨볼루션 동작 횟수는 기설정된 컨볼루션 커널값과 같고 융합 동작 횟수는 (기설정된 컨볼루션 커널값-1)회이다.
(5, 4*4) 컨볼루션을 예로 들면, 5는 채널이고 4*4는 컨볼루션 커널의 크기일 경우, M차원 특징 중 각 차원 특징에 대하여, 차원 특징 (28*28, 512)를 예로 하고, 우선 기설정된 채널 및 컨볼루션 커널에 따라 제1회 컨볼루션 및 제2회 컨볼루션을 수행하여 제1 컨볼루션 결과 및 제2 컨볼루션 결과를 획득하는바, 모두 (5, 512)이며, 획득된 2개의 컨볼루션 결과를 융합하여 제1 융합 결과 (10, 512)를 획득하고, 이어서 기설정된 채널 및 컨볼루션 커널에 따라 제1 융합 결과에 대해 컨볼루션을 수행하여 제3 컨볼루션 결과 (5, 512)를 획득하며, 3개의 컨볼루션 결과를 융합하여 제2 융합 결과 (15, 512)를 획득한다. 이때, i = 1이고 i의 값이 (컨볼루션 커널값-2 = 2)보다 작을 경우, i의 값을 i = i + 1 = 2로 업데이트하며, 또한 기설정된 채널 및 컨볼루션 커널값에 따라 제2 융합 결과에 대해 컨볼루션을 수행하여 제4 컨볼루션 결과를 형성하는바, 제4 컨볼루션 결과는 (5, 512)이고, 제4 컨볼루션 결과를 융합하여 (20, 512)인 제3 융합 결과를 획득하며, 이때 i = 2이고 i = 2의 값이 (컨볼루션 커널값-2)와 같으며 제3 융합 결과 (20, 512)를 차원 특징 (28*28, 512)에 대한 차원 융합을 통해 획득되는 차원 융합 특징으로 결정한다.
설명해야 할 것은, 기설정된 컨볼루션 커널값이 3보다 작지 않을 경우, 상술한 구현 과정을 이용하여 M차원 특징에 대응되는 M차원 융합 특징을 획득할 수 있으며, 기설정된 컨볼루션 커널값이 1일 경우, 융합하지 않고 M차원 특징에 대해 한 번만 컨볼루션을 수행하면 되고, 획득된 컨볼루션 결과는 바로 차원 융합 특징으로 되며, 기설정된 컨볼루션 커널값이 2일 경우 각각의 차원 특징에 대해 두 번 컨볼루션을 수행하여 2개의 컨볼루션 결과를 획득한 다음 2개의 컨볼루션 결과를 융합하여 융합 결과를 획득하며, 이 융합 결과는 바로 차원 특징에 대응되는 차원 융합 특징이다.
기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 M차원 특징에 대해 컨볼루션을 수행하여 M차원 융합 특징을 획득하며, 이로써 차원 특징을 충분하게 추출하고 융합하며 차원 간의 관계를 충분하게 학습하고, 이미지 처리 효과를 향상시키는 데 유리하다.
본 실시예의 이미지 처리 방법에 있어서, N차원의 특징의 차원수에 따라 N차원의 특징으로부터 M개의 특징을 선택하고 M개의 특징에 대해 각각 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하며, 이로써 실제 태스크 수요에 따라 차원 융합을 수행할 특징을 선택하는 데 유리하고, 방법의 유연성 및 적용성을 향상시켜며, 또한 특징에 대한 차원 융합을 통해 차원 융합 특징을 획득하여 상이한 차원 간의 관계를 충분하게 학습하는 데 유리하고, 학습 효과 및 이미지 처리의 정확도를 향상시킨다.
실제 응용에서, 본 출원에서 제공된 이미지 처리 방법을 네트워크 모델의 트레이닝에 적용할 수 있는바, 종래의 네트워크 모델의 기초상에서 차원 특징 학습을 부가하여 모델의 학습 능력을 향상시키고 모델의 효과를 높이며, 또한 트레이닝이 완료된 모델을 이용하여 이미지 분류, 분할, 검출 등과 같은 이미지 처리를 수행하면 이미지 처리의 정확도를 향상시킬 수 있다.
ResNet101 네트워크를 예로 들어, conv3_x의 특징은 (512, 28*28)로 출력되고 conv4_x의 특징은 (1024, 14*14)로 출력되며, conv5_x의 특징은 (2048, 7*7)로 출력되고, 그 3개의 특징에 대해 차원 융합을 수행하며, conv3_x를 예로 들어 (512, 28*28)를 (28*28, 512)로 변환시키고, (4, 3*3) 컨볼루션을 예로 들어, 2번의 컨볼루션을 각각 수행하여 2개의 (4, 512)의 특징을 획득하며, 획득된 2개의 (4, 512)를 (8, 512)로 융합한 다음 (8, 512)에 대해 다시 한번 컨볼루션을 수행하여 (4, 512)를 획득한 후, 3번의 컨볼루션을 통해 획득된 (4, 512)를 융합하여 차원 융합 특징 (12, 512)를 획득한다. 이러한 방식으로 유추하면, conv3_x, conv4_x 및 conv5_x에 대해 각각 상기 과정에서 설명된 특징 추출 및 융합을 수행하여 대응되는 차원 융합 특징을 획득하는바, 각각은 (12, 512), (12, 1024) 및 (12, 2048)이다. 더 나아가, 3개의 레이어를 추출하고 융합하여 획득한 차원 융합 특징을 각각 완전 연결층에 전송하고 손실 함수를 결합하여 모델을 트레이닝하며, 여러 번의 반복(iteration)을 수행하여 트레이닝이 완료된 네트워크 모델을 획득한다. 여기서, 모델 트레이닝 과정은 딥러닝 분야의 선행 기술이기에 여기서 자세하게 설명하지 않기로 한다. 예측 과정에서 3개의 분기의 출력을 간단하게 융합할 수 있으며, 예를 들어 3개의 분기의 출력에 대해 합계를 구하거나 가중합을 구하여 최종 처리 결과를 획득한다.
더 나아가, 처리할 이미지를 트레이닝이 완료된 모델에 입력하면 정확한 처리 결과를 획득할 수 있다. 트레이닝이 완료된 모델은 이미지 공간 특징을 추출할 뿐만 아니라 특징 차원 간의 관계를 충분하게 학습하고 모델의 학습 효과가 우수하므로, 트레이닝이 완료된 모델을 이용하여 이미지 처리를 수행하면 이미지 처리의 정확도를 향상시킬 수 있다.
상술한 실시예를 구현하기 위해 본 출원은 이미지 처리 장치를 더 제공한다.
도 4는 본 출원의 제4 실시예에 따른 이미지 처리 장치의 구조 모식도이다. 도 4에 도시된 바와 같이 상기 이미지 장치(40)는 특징 생성 모듈(410), 융합 모듈(420) 및 처리 모듈(430)을 포함한다.
특징 생성 모듈(410)은 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되, N은 양의 정수이다.
융합 모듈(420)은 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되, M은 N보다 작거나 같은 양의 정수이다.
처리 모듈(430)은 N차원의 특징 중 다른 융합되지 않은 특징 및 상기 M차원 융합 특징에 따라 이미지 처리를 수행한다.
여기서, 이미지 치리는 이미지 분류, 이미지 분할, 또는 이미지 검출 등의 이미지 처리 동작 중 어느 하나를 포함하지만 이에 한정되지 않는다.
본 출원 실시예의 가능한 구현 측면에서, 도 5에 도시된 바와 같이, 도 4에 도시된 실시예의 기초상에서 융합 모듈(420)은 하기와 같은 유닛을 포함한다.
선택 유닛(421)은 N차원의 특징의 차원수에 따라 N차원의 특징으로부터 M개의 특징을 선택한다.
일 가능한 구현 방식으로서, 선택 유닛(421)은 구체적으로 N차원의 특징 중 제1 차원 범위 및 제2 차원 범위로부터 M개의 특징을 각각 선택하되, 제2 차원 범위는 제1 차원 범위보다 크다.
제1 차원 범위 및 제2 차원 범위로부터 M개의 특징을 선택하되, 제2 차원 범위는 제1 차원 범위보다 크며, 이로써 로우 레벨 특징뿐만 아니라 하이 레벨 특징도 선택함으로써 M개의 특징에 대한 차원 융합을 수행할 경우에 하이 레벨 정보와 로우 레벨 정보를 융합할 수 있고, 세밀화(fine-grained) 인식 태스크를 완료하는 데 유리하며, 이미지 세부 특징 인식의 정확도를 확보한다.
융합 유닛(422)은 M개의 특징에 대해 각각 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득한다.
본 출원 실시예의 일 가능한 구현 방식에서, 도 6에 도시된 바와 같이, 도 5에 도시된 실시예의 기초상에서 융합 유닛(422)은,
M개의 특징을 변환시켜 M차원 특징을 형성하는 변환 서브 유닛(4221); 및
M차원 특징에 대해 컨볼루션을 수행하여 상기 M차원 융합 특징을 획득하는 처리 서브 유닛(4222)
을 포함한다.
본 실시예에서, 처리 서브 유닛(4222)은,
기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 M차원 특징에 대해 제1회 컨볼루션 및 제2회 컨볼루션을 수행하여 제1 컨볼루션 결과 및 제2 컨볼루션 결과를 형성하는 처리 동작 S1;
제1 컨볼루션 결과 및 제2 컨볼루션 결과를 융합하여 제i 융합 결과를 생성하는 처리 동작 S2 - i = 1임 - ;
기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 제i 융합 결과에 대해 컨볼루션을 수행하여 제i+2 컨볼루션 결과를 형성하는 처리 동작 S3;
제1 컨볼루션 결과 내지 제i+2 컨볼루션 결과를 융합하여 제i+1 융합 결과를 생성하는 처리 동작 S4;
i가 (기설정된 컨볼루션 커널값-2)보다 작을 경우, i를 i = i + 1로 업데이트하고 되돌아가 단계 S3~단계 S4를 수행하는 처리 동작 S5; 및
i가 (기설정된 컨볼루션 커널값-2)와 같을 경우, 제i+1 융합 결과를 M차원 융합 특징으로 결정하는 처리 동작 S6
을 수행한다.
설명해야 할 것은, 기설정된 컨볼루션 커널값이 3보다 작지 않을 경우, 처리 서브 유닛(4222)은 상술한 처리 동직을 수행하여 M차원 특징에 대응되는 M차원 융합 특징을 획득할 수 있으며, 기설정된 컨볼루션 커널값이 1일 경우, 처리 서브 유닛(4222)은 융합하지 않고 M차원 특징에 대해 한번만 컨볼루션을 수행하면 되고 획득된 컨볼루션 결과는 바로 차원 융합 특징이며, 기설정된 컨볼루션 커널값이 2일 경우, 각각의 차원 특징에 대해 처리 서브 유닛(4222)은 두 번 컨볼루션을 수행하여 2개의 컨볼루션 결과를 획득한 다음 2개의 컨볼루션 결과를 융합하여 융합 결과를 획득하며, 이 융합 결과는 바로 차원 특징에 대응되는 차원 융합 특징이다.
기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 M차원 특징에 대해 컨볼루션을 수행하여 M차원 융합 특징을 획득하며, 이로써 차원 특징을 충분하게 추출하고 융합하며 차원 간의 관계를 충분하게 학습하는 데 유리하고, 이미지 처리 효과를 향상시킨다.
본 실시예의 이미지 처리 장치는, 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되 N은 양의 정수이며, N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되 M은 N보다 작거나 같은 양의 정수이고, N차원의 특징 중 다른 융합되지 않은 특징 및 M차원 융합 특징에 따라 이미지 처리를 수행하며, 이로써 이미지 처리에서 이미지의 공간적 특징을 추출할 뿐만 아니라, 상이한 차원 간의 특징 관계를 고려하고 각각의 공간적 특징의 상이한 차원 간의 차원 융합 특징을 추출함으로써, 학습 효과를 향상시키고 이미지 처리의 정확도를 높일 수 있다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 더 제공한다.
도 7을 참조하면, 본 출원의 실시예의 이미지 처리 방법을 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 한정하려는 의도가 아니다.
도 7에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 다수의 프로세서(701), 메모리(702) 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있고, 상기 명령은 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령을 포함한다. 다른 실시형태에서, 수요되면, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 7에서는 하나의 프로세서(701)를 예로 한다.
메모리(702)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 이미지 처리 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 상기 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 이미지 처리 방법을 수행하도록 한다.
메모리(702)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 이미지 처리 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 4에 도시된 특징 생성 모듈(410), 융합 모듈(420) 및 처리 모듈(430))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(701)는 메모리(702)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 이미지 처리 방법을 구현한다.
메모리(702)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고, 데이터 저장 영역은 이미지 처리 방법을 수행하는 전자 기기를 사용하여 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(702)는 프로세서(701)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 이미지 처리 방법을 수행하는 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
이미지 처리 방법을 수행하는 전자 기기는 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 7에서는 버스를 통한 연결을 예로 한다.
입력 장치(703)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 이미지 처리 방법을 수행하는 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등의 입력 장치일 수 있다. 출력 장치(704)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우 본 출원 실시예의 이미지 처리 방법이 실행된다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에 사용된 바와 같이, "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. "기계 판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터) 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 출원의 실시예의 기술적 해결수단은 분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하되 N은 양의 정수이며, N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하되 M은 N보다 작거나 같은 양의 정수이고, N차원의 특징 중 다른 융합되지 않은 특징 및 M차원 융합 특징에 따라 이미지 처리를 수행하며, 이로써 이미지 처리에서 이미지의 공간적 특징을 추출할 뿐만 아니라, 상이한 차원 간의 특징 관계를 고려하고 각각의 공간적 특징의 상이한 차원 간의 차원 융합 특징을 추출함으로써, 학습 효과를 향상시키고 이미지 처리의 정확도를 높일 수 있다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 디자인 요구 및 다른 요소에 따라 다양한 수정, 조합, 하위 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims (14)

  1. 이미지 처리 방법에 있어서,
    분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하는 단계 - N은 양의 정수임 - ;
    상기 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 단계 - M은 N보다 작거나 같은 양의 정수임 - ; 및
    상기 N차원의 특징 중 다른 융합되지 않은 특징 및 상기 M차원 융합 특징에 따라 이미지 처리를 수행하는 단계
    를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  2. 제1항에 있어서,
    상기 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 단계는,
    상기 N차원의 특징의 차원수에 따라 상기 N차원의 특징으로부터 상기 M개의 특징을 선택하는 단계; 및
    상기 M개의 특징에 대해 각각 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 단계
    를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  3. 제2항에 있어서,
    상기 N차원의 특징의 차원수에 따라 상기 N차원의 특징으로부터 상기 M개의 특징을 선택하는 단계는,
    상기 N차원의 특징 중 제1 차원 범위 및 제2 차원 범위로부터 상기 M개의 특징을 각각 선택하는 단계
    를 포함하고,
    상기 제2 차원 범위는 상기 제1 차원 범위보다 큰 것을 특징으로 하는 이미지 처리 방법.
  4. 제2항에 있어서,
    상기 M개의 특징에 대해 각각 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 단계는,
    상기 M개의 특징을 변환시켜 M차원 특징을 형성하는 단계; 및
    상기 M차원 특징에 대해 컨볼루션을 수행하여 상기 M차원 융합 특징을 획득하는 단계
    를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  5. 제4항에 있어서,
    상기 M차원 특징에 대해 컨볼루션을 수행하여 상기 M차원 융합 특징을 획득하는 단계는,
    기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 상기 M차원 특징에 대해 제1회 컨볼루션 및 제2회 컨볼루션을 수행하여 제1 컨볼루션 결과 및 제2 컨볼루션 결과를 형성하는 단계 S1;
    상기 제1 컨볼루션 결과 및 상기 제2 컨볼루션 결과를 융합하여 제i 융합 결과를 생성하는 단계 S2 - i = 1임 - ;
    상기 기설정된 채널 및 상기 기설정된 컨볼루션 커널값에 따라 상기 제i 융합 결과에 대해 컨볼루션을 수행하여 제i+2 컨볼루션 결과를 형성하는 단계 S3;
    상기 제1 컨볼루션 결과 내지 상기 제i+2 컨볼루션 결과를 융합하여 제i+1 융합 결과를 생성하는 단계 S4;
    상기 i가 (상기 기설정된 컨볼루션 커널값-2)보다 작을 경우, 상기 i를 i = i + 1로 업데이트하고 되돌아가 단계 S3 내지 단계 S4를 수행하는 단계 S5; 및
    상기 i가 (상기 기설정된 컨볼루션 커널값-2)와 같을 경우, 상기 제i+1 융합 결과를 상기 M차원 융합 특징으로 결정하는 단계 S6
    을 포함하는 것을 특징으로 하는 이미지 처리 방법.
  6. 제1항에 있어서,
    상기 이미지 처리는 이미지 분류, 이미지 분할, 또는 이미지 검출을 포함하는 것을 특징으로 하는 이미지 처리 방법.
  7. 이미지 처리 장치에 있어서,
    분류할 이미지를 특징 추출 모델에 입력하여 N차원의 특징을 생성하는 특징 생성 모듈 - N은 양의 정수임 - ;
    상기 N차원의 특징 중 M개의 특징에 대해 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 융합 모듈 - M은 N보다 작거나 같은 양의 정수임 - ; 및
    상기 N차원의 특징 중 다른 융합되지 않은 특징 및 상기 M차원 융합 특징에 따라 이미지 처리를 수행하는 처리 모듈
    을 포함하는 것을 특징으로 하는 이미지 처리 장치.
  8. 제7항에 있어서,
    상기 융합 모듈은,
    상기 N차원의 특징의 차원수에 따라 상기 N차원의 특징으로부터 상기 M개의 특징을 선택하는 선택 유닛; 및
    상기 M개의 특징에 대해 각각 차원 융합을 수행하여 융합된 M차원 융합 특징을 획득하는 융합 유닛
    을 포함하는 것을 특징으로 하는 이미지 처리 장치.
  9. 제8항에 있어서,
    상기 선택 유닛은,
    상기 N차원의 특징 중 제1 차원 범위 및 제2 차원 범위로부터 상기 M개의 특징을 각각 선택하고,
    상기 제2 차원 범위는 상기 제1 차원 범위보다 큰 것을 특징으로 하는 이미지 처리 장치.
  10. 제8항에 있어서,
    상기 융합 유닛은,
    상기 M개의 특징을 변환시켜 M차원 특징을 형성하는 변환 서브 유닛; 및
    상기 M차원 특징에 대해 컨볼루션을 수행하여 상기 M차원 융합 특징을 획득하는 처리 서브 유닛
    을 포함하는 것을 특징으로 하는 이미지 처리 장치.
  11. 제10항에 있어서,
    상기 처리 서브 유닛은,
    기설정된 채널 및 기설정된 컨볼루션 커널값에 따라 상기 M차원 특징에 대해 제1회 컨볼루션 및 제2회 컨볼루션을 수행하여 제1 컨볼루션 결과 및 제2 컨볼루션 결과를 형성하는 처리 동작 S1;
    상기 제1 컨볼루션 결과 및 상기 제2 컨볼루션 결과를 융합하여 제i 융합 결과를 생성하는 처리 동작 S2 - i = 1임 - ;
    상기 기설정된 채널 및 상기 기설정된 컨볼루션 커널값에 따라 상기 제i 융합 결과에 대해 컨볼루션을 수행하여 제i+2 컨볼루션 결과를 형성하는 처리 동작 S3;
    상기 제1 컨볼루션 결과 내지 상기 제i+2 컨볼루션 결과를 융합하여 제i+1 융합 결과를 생성하는 처리 동작 S4;
    상기 i가 (상기 기설정된 컨볼루션 커널값-2)보다 작을 경우, 상기 i를 i = i + 1로 업데이트하고 되돌아가 단계 S3~단계 S4를 수행하는 처리 동작 S5; 및
    상기 i가 (상기 기설정된 컨볼루션 커널값-2)와 같을 경우, 상기 제i+1 융합 결과를 상기 M차원 융합 특징으로 결정하는 처리 동작 S6
    을 수행하는 것을 특징으로 하는 이미지 처리 장치.
  12. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리
    를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항의 이미지 처리 방법을 수행하는 것을 특징으로 하는 전자 기기.
  13. 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우 제1항 내지 제6항 중 어느 한 항의 이미지 처리 방법이 수행되는 것을 특징으로 하는 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체.
  14. 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우 제1항 내지 제6항 중 어느 한 항의 이미지 처리 방법이 수행되는 것을 특징으로 하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210038744A 2020-04-17 2021-03-25 이미지 처리 방법, 장치, 전자 기기 및 저장 매체 KR102487260B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010309211.9 2020-04-17
CN202010309211.9A CN111598131B (zh) 2020-04-17 2020-04-17 图像处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210040883A true KR20210040883A (ko) 2021-04-14
KR102487260B1 KR102487260B1 (ko) 2023-01-10

Family

ID=72190371

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038744A KR102487260B1 (ko) 2020-04-17 2021-03-25 이미지 처리 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11727676B2 (ko)
EP (1) EP3819824A3 (ko)
JP (1) JP7177878B2 (ko)
KR (1) KR102487260B1 (ko)
CN (1) CN111598131B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215243A (zh) * 2020-10-30 2021-01-12 百度(中国)有限公司 图像特征提取方法、装置、设备及存储介质
CN113239899B (zh) * 2021-06-17 2024-05-28 阿波罗智联(北京)科技有限公司 用于处理图像和生成卷积核的方法、路侧设备和云控平台
CN113724393B (zh) * 2021-08-12 2024-03-19 北京达佳互联信息技术有限公司 三维重建方法、装置、设备及存储介质
CN113989569B (zh) * 2021-10-29 2023-07-04 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101907883B1 (ko) * 2017-05-10 2018-10-16 국방과학연구소 객체 검출 및 분류 방법
CN110276411A (zh) * 2019-06-28 2019-09-24 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN110348537A (zh) * 2019-07-18 2019-10-18 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
US20200074243A1 (en) * 2017-11-30 2020-03-05 Tencent Technology (Shenzhen) Company Limited Image classification method, personalized recommendation method, computer device and storage medium

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229296B (zh) * 2017-09-30 2021-04-02 深圳市商汤科技有限公司 人脸皮肤属性识别方法和装置、电子设备、存储介质
US10552664B2 (en) * 2017-11-24 2020-02-04 International Business Machines Corporation Image feature classification and localization using discriminative representations for robotic surgical control
CN108229341B (zh) * 2017-12-15 2021-08-06 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质
CN107942943B (zh) * 2017-12-25 2019-12-31 北京信息科技大学 一种基于多源信息融合的高端数控装备状态识别方法
CN108573038A (zh) * 2018-04-04 2018-09-25 北京市商汤科技开发有限公司 图像处理、身份验证方法、装置、电子设备和存储介质
CN108596154B (zh) * 2018-05-14 2021-09-24 河海大学 基于高维特征选择与多级融合的遥感图像分类方法
CN108830322A (zh) * 2018-06-15 2018-11-16 联想(北京)有限公司 一种图像处理方法及装置、设备、存储介质
CN109359696B (zh) * 2018-10-29 2021-04-02 重庆中科云从科技有限公司 一种车款识别方法、系统及存储介质
CN110321942A (zh) * 2019-06-25 2019-10-11 华中科技大学 一种基于球形特征的细粒度图像分类方法与装置
US20220230282A1 (en) * 2021-01-12 2022-07-21 Samsung Electronics Co., Ltd. Image processing method, image processing apparatus, electronic device and computer-readable storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101907883B1 (ko) * 2017-05-10 2018-10-16 국방과학연구소 객체 검출 및 분류 방법
US20200074243A1 (en) * 2017-11-30 2020-03-05 Tencent Technology (Shenzhen) Company Limited Image classification method, personalized recommendation method, computer device and storage medium
CN110276411A (zh) * 2019-06-28 2019-09-24 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN110348537A (zh) * 2019-07-18 2019-10-18 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP3819824A2 (en) 2021-05-12
US20210232856A1 (en) 2021-07-29
US11727676B2 (en) 2023-08-15
JP7177878B2 (ja) 2022-11-24
CN111598131A (zh) 2020-08-28
EP3819824A3 (en) 2021-09-29
JP2021103558A (ja) 2021-07-15
CN111598131B (zh) 2023-08-25
KR102487260B1 (ko) 2023-01-10

Similar Documents

Publication Publication Date Title
KR102514434B1 (ko) 지식 표현 학습 방법, 장치, 전자 기기, 저장 매체 및 프로그램
KR102487260B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 저장 매체
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
KR102648232B1 (ko) 다중 모드 사전 훈련 모델 취득 방법, 장치, 전자 기기 및 기록 매체
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
KR20210152924A (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
KR20210040319A (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
US20230103430A1 (en) Method and apparatus for generating vector representation of knowledge graph
US20210334579A1 (en) Method and apparatus for processing video frame
CN111950292B (zh) 文本纠错模型的训练方法、文本纠错处理方法和装置
KR20210037623A (ko) 차량 재인식 방법, 장치, 기기 및 저장매체
KR102475235B1 (ko) 리소스 정렬 방법, 정렬 모델을 트레이닝하는 방법 및 대응하는 장치
US11620496B2 (en) Convolutional neural network, and processing method, processing device, processing system and medium for the same
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
KR102553763B1 (ko) 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체
US11983849B2 (en) Image filling method and apparatus, device, and storage medium
CN110826696A (zh) 超网络的搜索空间构建方法、装置以及电子设备
KR20210035787A (ko) 키포인트 위치결정 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US20230135109A1 (en) Method for processing signal, electronic device, and storage medium
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP2021111400A (ja) ビデオセグメント記述の生成方法、装置、プログラム、電子デバイス及び記憶媒体
KR20220113830A (ko) 안면 키포인트 검출 방법, 장치 및 전자 기기
CN112558810B (zh) 检测指尖位置的方法、装置、设备和存储介质
US11508044B2 (en) Method for translating image, method for training image translation model

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant