KR20200100558A - 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체 - Google Patents

이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체 Download PDF

Info

Publication number
KR20200100558A
KR20200100558A KR1020200019621A KR20200019621A KR20200100558A KR 20200100558 A KR20200100558 A KR 20200100558A KR 1020200019621 A KR1020200019621 A KR 1020200019621A KR 20200019621 A KR20200019621 A KR 20200019621A KR 20200100558 A KR20200100558 A KR 20200100558A
Authority
KR
South Korea
Prior art keywords
image
processed
area
rotation angle
style
Prior art date
Application number
KR1020200019621A
Other languages
English (en)
Inventor
웨이화 장
진푸 왕
케 린
창웨이 왕
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20200100558A publication Critical patent/KR20200100558A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • G06T3/608Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 4G 시스템 이후 보다 높은 데이터 전송률을 지원하기 위한 5G 통신 시스템을 IoT 기술과 융합하는 통신 기법 및 그 시스템에 관한 것이다. 본 개시는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스 (예를 들어, 스마트 홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 헬스 케어, 디지털 교육, 소매업, 보안 및 안전 관련 서비스 등)에 적용될 수 있다. 본 출원의 실시예는 이미지 처리 분야에 속하는 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체를 제공한다. 방법은 처리될 이미지에서 타겟 영역을 얻기 위해 처리될 이미지를 분할하는 단계; 및 타겟 영역 상에서 스타일 전송을 수행하는 단계를 포함한다. 본 출원의 실시예에서 제공되는 솔루션은 이미지 처리 효과를 효과적으로 향상시키고, 실제 응용의 요구 사항을 보다 잘 충족시킬 수 있다.

Description

이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체{IMAGE PROCESSING METHOD AND APPARATUS, ELECTRONIC DEVICE AND COMPUTER READABLE STORAGE MEDIUM}
본 출원은 이미지 처리 기술 분야에 관한 것으로서, 특히 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
4G 통신 시스템 상용화 이후 증가 추세에 있는 무선 데이터 트래픽 수요를 충족시키기 위해, 개선된 5G 통신 시스템 또는 pre-5G 통신 시스템을 개발하기 위한 노력이 이루어지고 있다. 이러한 이유로, 5G 통신 시스템 또는 pre-5G 통신 시스템은 4G 네트워크 이후 (Beyond 4G Network) 통신 시스템 또는 LTE 시스템 이후 (Post LTE) 시스템이라 불리어지고 있다. 높은 데이터 전송률을 달성하기 위해, 5G 통신 시스템은 초고주파(mmWave) 대역 (예를 들어, 60기가(60GHz) 대역과 같은)에서의 구현이 고려되고 있다. 초고주파 대역에서의 전파의 경로손실 완화 및 전파의 전달 거리를 증가시키기 위해, 5G 통신 시스템에서는 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO), 전차원 다중입출력(Full Dimensional MIMO: FD-MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 및 대규모 안테나 (large scale antenna) 기술들이 논의되고 있다. 또한 시스템의 네트워크 개선을 위해, 5G 통신 시스템에서는 진화된 소형 셀, 개선된 소형 셀 (advanced small cell), 클라우드 무선 액세스 네트워크 (cloud radio access network: cloud RAN), 초고밀도 네트워크 (ultra-dense network), 기기 간 통신 (Device to Device communication: D2D), 무선 백홀 (wireless backhaul), 이동 네트워크 (moving network), 협력 통신 (cooperative communication), CoMP (Coordinated Multi-Points), 및 수신 간섭제거 (interference cancellation) 등의 기술 개발이 이루어지고 있다. 이 밖에도, 5G 시스템에서는 진보된 코딩 변조(Advanced Coding Modulation: ACM) 방식인 FQAM (Hybrid FSK and QAM Modulation) 및 SWSC (Sliding Window Superposition Coding)과, 진보된 접속 기술인 FBMC(Filter Bank Multi Carrier), NOMA(non orthogonal multiple access), 및SCMA(sparse code multiple access) 등이 개발되고 있다.
한편, 인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 IoT(Internet of Things, 사물인터넷) 망으로 진화하고 있다. 클라우드 서버 등과의 연결을 통한 빅데이터(Big data) 처리 기술 등이 IoT 기술에 결합된 IoE (Internet of Everything) 기술도 대두되고 있다. IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication)등의 기술이 연구되고 있다. IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT(Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT(information technology)기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.
이에, 5G 통신 시스템을 IoT 망에 적용하기 위한 다양한 시도들이 이루어지고 있다. 예를 들어, 센서 네트워크(sensor network), 사물 통신(Machine to Machine, M2M), MTC(Machine Type Communication)등의 기술이 5G 통신 기술인 빔 포밍, MIMO, 및 어레이 안테나 등의 기법에 의해 구현되고 있는 것이다. 앞서 설명한 빅데이터 처리 기술로써 클라우드 무선 액세스 네트워크(cloud RAN)가 적용되는 것도 5G 기술과 IoT 기술 융합의 일 예라고 할 수 있을 것이다.
딥 러닝(deep learning) 방법은 컴퓨터 비전(computer vision) 분야의 개발을 가속화했으며, 머신은 멀티미디어 정보를 보다 빠르고 정확하게 식별할 수 있다. 스마트 단말기, 특히 모바일 단말기의 인기로 인해 이미지 데이터가 크게 증가했으며, 이미지에 대한 사람의 엔터테인먼트 요구가 급증했다. 이미지 스타일 전송(image style transfer)은 사용자에 의한 이미지 편집 및 처리의 필요성이 시급하다. 이미지 처리의 효과를 개선하는 방법은 항상 이미지 처리 분야에서 중요한 연구 양태가 되었다.
본 출원의 목적은 이미지 처리 효과를 효과적으로 개선할 수 있는 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체를 제공하는 것이다.
제1 양태에서, 본 출원의 실시예는 이미지 처리 방법을 제공하며, 이러한 방법은,
처리될 이미지의 타겟 영역을 획득하기 위해 처리될 이미지를 분할하는(segmenting) 단계; 및
타겟 영역 상에서 스타일 전송(style transfer)을 수행하는 단계를 포함한다.
제2 양태에서, 본 출원의 실시예는 이미지 처리 장치를 제공하며, 이러한 장치는,
처리될 이미지의 타겟 영역을 획득하기 위해 처리될 이미지를 분할하도록 구성된 이미지 분할 모듈; 및
타겟 영역 상에서 스타일 전송을 수행하도록 구성된 이미지 스타일 전송 모듈을 포함한다.
제3 양태에서, 본 출원의 실시예는 프로세서 및 메모리를 포함하는 전자 디바이스를 제공하는데,
메모리는 머신 판독 가능 명령어를 저장하도록 구성되며;
프로세서는 머신 판독 가능 명령어를 실행할 때 제1 양태에 따른 방법을 수행하도록 구성된다.
제4 양태에서, 본 출원의 실시예는 컴퓨터 명령어가 저장되는 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 명령어가 프로세서에 의해 실행될 때, 제1 양태에 따른 방법이 수행된다.
본 출원에서 제공되는 기술적 솔루션은 다음과 같은 장점을 갖는다. 본 출원의 실시예에서 제공되는 솔루션에서, 처리될 이미지 상에서 이미지 스타일을 수행할 때, 처리될 이미지의 타겟 영역을 획득하기 위해 처리될 이미지를 분할함으로써, 타겟 영역 상의 스타일 전송이 달성된다. 따라서, 이러한 솔루션은 이미지 스타일 전송의 효과를 효과적으로 개선하고, 실제 응용의 요구 사항을 보다 잘 충족시킬 수 있다.
본 출원의 실시예에서의 기술적 솔루션을 보다 명확하게 설명하기 위해, 본 출원의 실시예의 설명에서 사용된 도면은 아래에서 간략하게 소개될 것이다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법을 도시하는 흐름도이다.
도 2는 본 출원의 예에서 이미지를 회전 보정하는(rotation correcting) 방식을 도시하는 개략도이다.
도 3은 본 출원의 예에서 처리될 이미지를 전처리하는(preprocessing) 방식을 도시하는 흐름도이다.
도 4는 본 출원의 예에서 이미지를 회전 보정하는 방식을 도시하는 개략도이다.
도 5는 본 출원의 예에서 처리될 이미지에 상응하는 회전 각도(rotation angle)를 예측하는 방식을 도시하는 개략도이다.
도 6은 본 출원의 예에서 처리될 이미지에 상응하는 회전 각도를 예측하는 방식을 도시하는 흐름도이다.
도 7a는 각도 예측 모델의 기존의 특징 추출 유닛을 도시하는 개략적인 구조도이다.
도 7b는 본 출원의 예에서 각도 예측 모델의 특징 추출 유닛을 도시하는 개략적인 구조도이다.
도 8은 본 출원의 예에서 인간 골격 구조(human skeleton structure)를 도시하는 개략적인 구조도이다.
도 9는 본 출원의 예에서 인간의 골격 키포인트(keypoint)에 기초하여 사람의 회전 각도를 예측하는 프로세스를 도시하는 개략적인 흐름도이다.
도 10a, 도 10a, 도 10b, 도 10c 및 도 10d는 각각 본 출원의 예에서 인간의 골격 키포인트에 기초하여 사람의 회전 각도를 예측하는 원리를 도시하는 개략도이다.
도 11은 본 출원의 예에서 회전 각도에 기초하여 처리될 이미지의 객체 영역을 회전하는 방식을 도시하는 개략도이다.
도 12는 본 출원의 예에서 처리될 이미지 상에서 회전 보정 및 이미지 분할을 수행하는 방식을 도시하는 개략적인 흐름도이다.
도 13a, 도 13b 및 도 13c는 본 출원의 예에서 이미지의 다수의 사람의 영역을 필터링 및 병합하는 방식을 도시하는 개략도이다.
도 13d는 본 출원의 예에서 처리될 이미지의 개략도이다.
도 13e는 기존의 솔루션을 사용하여 도 13d에 도시된 처리될 이미지를 분할하는 객체 분할 결과의 개략도이다.
도 13f는 도 13e의 확대도이다.
도 13g는 본 출원의 실시예에서 제공되는 솔루션에 기초하여 도 13d에서 처리될 이미지 상에서 객체 검출을 수행하는 검출 결과의 개략도이다.
도 13h는 도 13g의 객체 검출 결과를 크로핑(cropping)한 후의 객체 영역의 이미지이다.
도 13i는 도 13h에 도시된 이미지의 객체 분할 결과의 개략도이다.
도 14a는 종래 기술의 피라미드 장면 파싱 네트워크(pyramid scene parsing network)를 도시하는 개략적인 구조도이다.
도 14b는 본 출원의 실시예에 따른 개선된 피라미드 장면 파싱 네트워크를 도시하는 개략적인 구조도이다.
도 15는 본 출원의 예에서 Markov 랜덤 필드 기반 스타일 전송 방법을 사용하여 스타일 전송 이미지 그라운드 트루스(style transfer image ground truth)를 생성하는 방식을 도시하는 개략적인 흐름도이다.
도 16은 본 출원의 예에서 생성적 적대 네트워크(generative adversarial network)를 도시하는 개략도이다.
도 17a는 기존의 생성자를 도시한 개략적인 구조도이다.
도 17b는 본 출원의 예에서 생성자를 도시하는 개략적인 구조도이다.
도 18a는 이미지 확률 분포 맵을 도시하는 개략도이다.
도 18b는 종래 기술에 의해 도 18a에 도시된 확률 분포 맵을 이진화한 후의 확률 분포 맵을 도시하는 개략도이다.
도 18c는 본 출원의 예에서 도 18a에 도시된 확률 분포 맵 상에서 선형 변환이 수행된 후의 확률 분포 맵을 도시하는 개략도이다.
도 18d는 종래 기술의 객체 분할 모델을 도시하는 개략적인 구조도이다.
도 18e는 본 출원의 실시예에 따른 객체 분할 모델을 도시하는 개략적인 구조도이다.
도 18f는 기존의 이미지 분할 기술에 기초한 다중 스타일 이미지 융합의 효과를 도시하는 개략도이다.
도 18g는 본 출원의 실시예에서 제안된 소프트 분할 기술에 기초한 다중 스타일 이미지 융합의 효과를 도시하는 개략도이다.
도 18h는 본 출원의 예에서 이미지 스타일 전송 처리를 도시하는 개략적인 흐름도이다.
도 18i는 본 출원의 다른 예에서 이미지 스타일 전송 처리를 도시하는 개략적인 흐름도이다.
도 19는 본 출원의 예에서 이미지 처리 방법의 원리를 도시하는 개략도이다.
도 20은 본 출원의 실시예에 따른 이미지 처리 장치를 도시하는 개략적인 구조도이다.
도 21은 본 출원의 실시예에 따른 전자 디바이스를 도시하는 개략적인 구조도이다.
이하, 본 개시의 실시예는 상세히 설명될 것이며, 동일하거나 유사한 참조 번호는 동일하거나 유사한 기능을 갖는 동일하거나 유사한 요소를 지칭하는 첨부된 도면에 도시된다. 첨부된 도면을 참조하여 설명되는 실시예는 예시적이고, 본 개시를 설명하기 위해서만 사용되며, 이에 대한 어떠한 제한으로서 간주되지 않아야 한다.
통상의 기술자는 단수 형태"a", "an", "the"및"said"가 달리 언급되지 않는 한 다수 형태도 포함하도록 의도될 수 있는 것으로 해석되어야 한다. 또한, 본 명세서에서 사용된 "포함한다/포함하는(include/including)"라는 용어는 언급된 특징, 정수(integer), 단계, 동작, 요소 및/또는 구성 요소의 존재를 특정하지만, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 구성 요소, 및/또는 이의 조합의 존재 또는 부가를 배제하지는 않는 것으로 이해되어야 한다. 구성 요소가 다른 구성 요소에 "연결(connected)"되거나 "결합(coupled)"된다고 할 때, 이는 다른 요소에 직접 연결되거나 결합될 수 있거나, 그 사이에 개재된 요소가 제공될 수 있다. 게다가, 본 명세서에 사용된 바와 같은 "연결됨" 또는 "결합됨"은 무선 연결 또는 무선 결합을 포함할 수 있다. 본 명세서에 사용된 바와 같이, "및/또는"이라는 용어는 열거된 하나 이상의 연관 항목의 모두 또는 임의의 것 및 이의 조합을 포함한다.
본 출원의 실시예에 의해 제공되는 솔루션들을 더 잘 이해하기 위해, 다음에는 먼저 본 출원에 관련된 관련 기술을 간략하게 설명한다.
스타일 전송은 이미지에서 이미지로의 전송 방법이며, 이는 현재 대중적인 딥 러닝 기반 이미지 생성 방법에 의해 실현될 수 있다. 딥 러닝 방법은 머신이 멀티미디어 정보, 특히 얼굴 및 인간 자세와 같은 사람과 관련된 데이터 정보를 보다 빠르고 정확하게 식별할 수 있도록 한다. 이미지에서 인물 사진(portrait)의 정확한 분할을 달성하는 방법은 특히 모바일 단말기의 경량 및 실시간 요구 사항에 대해 제출된 매우 중요한 연구이며, 이는 인물 사진 또는 배경에 대한 상이한 처리를 더 달성하고, 다양한 엔터테인먼트 기능을 달성하며, 사람의 실제 응용 요구를 더 잘 충족할 수 있게 한다.
게다가, 스마트 폰과 같은 모바일 단말기의 인기로 인해 이미지 데이터가 크게 증가했으며, 이미지에 대한 사람의 엔터테인먼트 요구가 급증했다. 스타일 전송은 사용자에 의한 이미지 편집 및 처리를 위해 시급히 필요하며, 신경망의 중요한 연구 방향이기도 하다. 신경망의 복잡성으로 인해, 제한된 저장 공간 및 컴퓨팅 파워(computing power)를 갖는 모바일 디바이스 상에서의 신경망 기반 스타일 전송 처리의 처리 속도는 느리며, 따라서 사용자의 요구를 충족시키기가 어렵다.
연구 후, 본 출원의 발명자는 기존의 이미지 처리 방법이 개선될 필요가 있는 적어도 다음과 같은 기술적 문제 또는 영역을 갖는다는 것을 발견하였다.
1) 사용자가 이미지를 편집할 때, 이미지 회전 편집이 수행될 수 있고, 이미지 내의(사람과 같은) 객체는 이에 따라 회전될 수 있다. 이때, 객체의 방향은 정상적인 수직 또는 수평 방향이 아닐 수 있으며, 즉, 객체의 중심 축과 이미지 사이에 큰 회전 각도(편향 각도라고도 할 수 있음)가 존재한다. 대안으로, 이미지 내의 객체의 자세가 비정상적인 자세 또는 특이한 자세인 것으로 간주될 수 있다. 게다가, 사용자가 사진을 찍을 때, 촬영 디바이스는 수평으로 배치되지 않을 수 있다. 이때, 이미지에서 획득된 객체의 방향은 정상적인 수직 또는 수평 방향이 아닐 수 있으며, 즉, 객체의 자세는 비정상적인 자세에 있을 수 있다. 스타일 전송 처리가 회전된 이미지 또는 비수직 또는 비수평 방향으로 찍힌 이미지 상에서 수행되는 경우, 종래 기술에서 이미지의 객체에 상응하는 영역을 결정하는 정확도는 낮아져, 최종 스타일 전송 효과가 불량해진다. 이미지 내의 객체에 상응하는 영역을 결정하는 네트워크는 영역 분할 네트워크, 객체 분할 네트워크, 분할 네트워크, 객체 분할 모델, 영역 분할 모델, 분할 모델 등으로서 지칭될 수 있다. 즉, 이미지 내의 객체의 비정상적인 자세는 종래 기술에서 객체 분할 모델의 낮은 분할 정확도로 이어진다. 비정상적인 자세를 가진 객체를 포함하는 이미지를 사용함으로써 객체 분할 모델을 트레이닝(training)할 때에도, 모든 상황을 커버하기가 어렵다. 이러한 트레이닝 방법은 정상적인 자세를 가진 객체 상의 분할 정확도에도 영향을 미친다.
2) 종래 기술에서, 에지(edge) 추출 방법은 대부분 타겟 객체의 영역을 결정하는데 사용된다. 그러나, 에지 추출 방법은 객체 카테고리를 구별하지 못할 수 있으며, 예를 들어 객체가 사람인지 동물인지를 구별하지 못할 수 있다. 따라서, 사용자가 이미지 상에서 스타일 전송을 수행할 때, 객체의 카테고리는 유연하게 선택되지 않을 수 있다. 게다가, 두 객체 사이에 중첩 영역이 존재하는 경우, 두 객체의 영역은 에지 추출 방법을 사용함으로써 정확하게 추출되지 않을 수 있다. 요약하면, 종래 기술에서 객체 영역을 결정하는 방법의 정확성 및 유연성은 모두 낮다.
3) 사용자가 사진을 찍고, 전체 이미지에서 사람의 비율이 작을 때, 타겟 사람 영역이 전체 이미지에서 결정되는 경우 정확성은 낮아진다.
4) 네트워크의 복잡성으로 인해, 종래 기술의 객체 분할 모델 및 스타일 전송 모델은 단말 디바이스 상에서 구현될 때 처리 속도가 더 느리다. 따라서, 단말 디바이스 상에서의 구현 가능성이 낮거나 단말 디바이스 상에서의 구현 효과가 열악하며, 실시간 처리를 보장하는 것이 어렵다. 스타일 전송 모델은 처리 중에 여러 번 반복할 필요가 있으므로, 처리가 시간이 많이 걸리고, 실시간 스타일 전송이 달성될 수 없다.
5) 종래 기술에서, 이미지 상에서 스타일 전송을 수행할 때, 이미지에서 전경 부분과 배경 부분 사이의 전환 영역(transition region)(즉, 상이한 영역의 에지 부분)의 융합 효과는 이상적이지 않다. 예를 들어, 톱니 에지(saw tooth edge)가 나타날 수 있으며, 이는 부자연스런 에지 부분과 불량한 시각화로 이어질 수 있다.
종래 기술에서 개선될 필요가 있는 상술한 기술적 문제 또는 영역 중 적어도 하나와 관련하여, 본 출원의 실시예는 이미지 상에서 처리하는 효과를 개선하고 실제 응용 요구를 보다 잘 충족하기 위해 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체를 제공한다.
다음에는 본 출원의 기술적 솔루션 및 본 출원의 기술적 솔루션이 특정 실시예를 참조하여 상술한 기술적 문제를 해결하는 방법을 구체적으로 설명한다. 다음의 특정 실시예는 서로 조합될 수 있다. 동일하거나 유사한 개념 또는 프로세스는 일부 실시예에서 반복되지 않을 수 있다. 본 출원의 실시예는 도면을 참조하여 아래에 설명될 것이다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법을 도시하는 흐름도이다. 도 1에 도시된 바와 같이, 방법은,
단계(S110): 처리될 이미지의 타겟 영역을 획득하기 위해 처리될 이미지를 분할하는 단계; 및
단계(S120): 타겟 영역 상에서 스타일 전송을 수행하는 단계를 포함할 수 있다.
처리될 이미지는 스타일 전송될 필요가 있는 임의의 이미지일 수 있다. 예를 들어, 이는 이미지 획득 디바이스(예를 들어, 모바일 단말기상의 카메라)에 의해 캡처된 이미지일 수 있거나, 다른 디바이스로부터 수신되거나 네트워크 측으로부터 획득된 이미지 일 수 있거나, 다른 편집 프로세스를 겪은 후의 이미지일 수도 있다. 처리될 이미지는 처리를 위해 사용자에 의해 선택된 이미지, 또는 자동으로 처리될 필요가 있는 이미지일 수 있다. 예를 들어, 응용 시나리오에서, 캡처된 이미지, 수신된 이미지 또는 다른 방법에 의해 획득된 이미지의 전부 또는 일부가 자동으로 스타일로 전송되도록 미리 설정되는 경우, 이러한 이미지는 처리될 이미지이다.
본 출원의 실시예에서, 타겟 영역은 처리될 이미지에서 처리될 필요가 있는 이미지 영역을 지칭하는 것으로 이해될 수 있다. 구체적으로, 이미지 상에서 스타일 전송이 수행될 필요가 있는 경우, 타겟 영역은 처리될 이미지에서 스타일로 전송될 필요가 있는 이미지 영역을 지칭한다. 타겟 영역은 전경 이미지 영역, 배경 이미지 영역, 및 처리될 이미지 내에 적어도 하나의 객체 또는 적어도 하나의 타입의 객체가 위치되는 이미지 영역 중 하나 이상일 수 있다. 실제 응용에서, 이미지의 어떤 영역은 구체적으로 타겟 영역이 실제 요구에 따라 설정될 수 있거나, 단말 디바이스는 미리 설정된 요구 사항에 따라 자동으로 타겟 영역을 결정할 수 있거나(예를 들어, 단말 디바이스는 전경 부분에서 사람의 스타일을 전송하도록 미리 설정되고, 그 후 단말 디바이스는 이미지 내의 타겟 영역이 사람이 전경 부분에 위치되는 영역임을 자동으로 결정할 수 있음), 사용자는 실제 요구에 따라 타겟 영역을 명시할 수 있다. 처리될 이미지를 분할함으로써, 이미지는 여러 영역으로 분할될 수 있다. 구체적으로, 이미지는 이미지 내의 타겟 영역, 즉 스타일 전송될 필요가 있는 영역을 획득하기 위해 이미지 내의 객체에 기초하여 분할될 수 있다. 예를 들어, 스타일 전송될 필요가 있는 영역이 전경 이미지 영역 또는 배경 이미지 영역인 경우, 이미지는 타겟 영역을 획득하기 위해 전경 이미지 영역과 배경 이미지 영역으로 분할될 수 있다. 다른 예의 경우, 타겟 영역이 객체의 카테고리가 처리될 이미지 내에 위치되는 이미지 영역인 경우, 이미지는 객체의 카테고리에 기초하여 분할되어, 타겟 영역, 즉 분할 결과에 기초하여 이러한 종류의 객체가 위치되는 이미지 영역을 획득할 수 있다.
게다가, 본 출원의 실시예에서, 처리될 이미지의 객체는 배경 부분, 즉 이미지 내의 전경 객체의 전부 또는 일부, 또는 이미지의 설정된 조건을 충족하는 전경 객체를 제외한 이미지 내의 피사체(subject)의 전부 또는 일부를 지칭한다는 것이 주목되어야 한다. 이미지 내의 피사체는 이미지 내의 사람, 동물, 건물 등을 포함할 수 있지만, 이에 제한되지는 않는다는 것이 이해될 수 있다. 예를 들어, 인물 이미지의 경우, 이미지 내의 객체는 이미지 내의 사람을 포함할 수 있고, 사람 및 동물을 포함하는 이미지의 경우, 이미지 내의 객체는 이미지 내의 사람 및 동물 중 적어도 하나를 포함할 수 있거나, 이미지 내의 명시된 객체일 수 있다. 상술한 명시된 객체는 이미지 내의 적어도 하나의 객체일 수 있으며, 이는 사용자에 의해 명시되거나 시스템에 의해 미리 설정될 수 있다. 예를 들어, 실제 응용에서, 사용자가 양식화될 필요가 있는 처리될 이미지에서의 사람임을 명시한 경우, 사람은 명시된 객체이고, 사람이 처리될 이미지에 위치되는 영역은 처리될 이미지의 타겟 영역이다.
게다가, 이미지에서 전경 및 배경의 바운딩(demarcation)는 이미지 콘텐츠에 기초하여 정의될 수 있거나, 설정 정보에 기초하여 정의될 수 있으며, 이는 시스템에 의해 미리 설정될 수 있거나 요구 사항에 따라 사용자에 의해 설정될 수 있다. 예를 들어, 설정 정보는 어떤 속성 또는 타입, 즉 정보의 카테고리가 이미지의 전경이고, 그 후 설정 정보와 일치하는 처리될 이미지의 부분이 이미지의 전경 부분이며, 나머지 부분은 이미지의 배경 부분임을 명시할 수 있다.
또한, 양식화될 필요가 있는 타겟 영역은 하나의 영역 또는 다수의 영역일 수 있다는 것이 주목되어야 한다. 다수의 타겟 영역이 있을 때, 모든 타겟 영역은 동일한 이미지 스타일에 상응할 수 있거나 다수의 이미지 스타일에 상응할 수 있다. 게다가, 처리될 전체 이미지는 양식화될 필요가 있을 수 있다. 예를 들어, 처리될 이미지는 전경 이미지 영역 및 배경 이미지 영역으로 분할될 수 있으며, 이러한 두 영역은 모두 타겟 영역이다. 전경 이미지 영역은 스타일로 전송될 필요가 있고, 배경 이미지 영역은 다른 스타일로 전송될 필요가 있다.
설명의 편의를 위해, 처리될 이미지는 이하 원본 이미지로서 간단히 지칭될 수 있다.
타겟 영역의 스타일 전송이 완료된 후, 원본 이미지가 완전한 양식화된 이미지를 획득하기 위해 타겟 영역 및 비타겟 영역으로 분할되는 경우, 본 출원의 실시예에서의 방법은,
타겟 이미지(즉, 원본 이미지가 양식화된 후의 최종 이미지)를 획득하기 위해 양식화된 타겟 영역을 원본 이미지의 비타겟 영역과 융합하는 단계를 더 포함할 수 있는 것으로 이해될 수 있다.
전체 원본 이미지가 양식화될 필요가 있는 경우, 즉 원본 이미지가 각각의 타겟 영역의 스타일 전송을 완료한 후 타겟 영역으로 분할되는 경우, 방법은 타겟 이미지를 획득하기 위해 양식화된 타겟 영역을 융합하는 단계를 더 포함할 수 있다.
본 출원의 실시예에서, 단계(S120)에서, 타겟 영역 상에서 스타일 전송을 수행할 때, 스타일 전송은 처리될 전체 이미지 상에서 수행될 수 있거나, 또는 타겟 영역 상에서만 수행될 수 있다. 두 가지 상이한 전송 방법은 두 가지 예를 사용함으로써 아래에 구체적으로 설명된다.
일례에서, 스타일 전송을 수행할 때, 스타일 전송은 전체 원본 이미지 상에서 수행될 수 있다. 이러한 예에서, 타겟 영역은 이미지 내의 전경 이미지 영역 및 배경 이미지 영역 중 적어도 하나일 수 있다. 구체적으로, 사용자가 원본 이미지의 전경 이미지를 제1 타겟 스타일로 전송하고, 배경 이미지를 변경하지 않기로 선택하면, 전체 원본 이미지는 스타일 전송을 수행할 때 제1 타겟 스타일로 전송될 수 있으며, 그 다음, 후처리(post-processing) 동안, 전송된 스타일 이미지의 전경 이미지의 영역은 타겟 이미지를 획득하기 위해 전송 전에 원본 이미지의 배경 이미지와 융합된다. 또는, 사용자가 배경 이미지를 제2 타겟 스타일로 전송하고, 전경 이미지를 변경하지 않기로 선택하면, 전체 원본 이미지는 스타일 전송을 수행할 때 제2 타겟 스타일로 전송될 수 있으며, 그 다음, 후처리 동안, 스타일 전송된 이미지의 배경 이미지의 영역은 객체 분할 결과에 따라 타겟 이미지를 획득하기 위해 전송 전에 원본 이미지의 전경 이미지의 영역과 융합된다. 또는, 사용자가 전경 이미지를 제1 타겟 스타일로 전송하고 배경 이미지를 제2 타겟 스타일로 전송하기로 선택하면, 스타일 전송을 수행할 때, 전체 원본 이미지는 각각 제1 타겟 스타일 및 제2 타겟 스타일로 전송될 수 있으며, 그 다음, 후처리 동안, 제1 타겟 스타일로 전송된 이미지의 전경 이미지의 영역은 객체 분할 결과에 따라 타겟 이미지를 획득하기 위해 제2 타겟 스타일로 전송된 이미지의 배경 이미지의 영역과 융합된다.
다른 예에서, 스타일 전송을 수행할 때, 스타일 전송은 양식화될 필요가 있는 영역, 즉 타겟 영역 상에서만 수행될 수 있다. 구체적으로, 사용자가 전경 이미지를 제1 타겟 스타일로 전송하기로 선택하고 배경 이미지를 변경하지 않기로 선택하면(즉, 타겟 영역은 전경 이미지 영역임), 스타일 전송을 수행할 때, 전경 이미지의 영역만이 객체 분할 결과에 기초하여 제1 타겟 스타일로 전송되며, 그 다음, 후처리 동안, 전경 이미지의 양식화된 영역은 원본 이미지의 배경 이미지와 융합된다. 또는, 사용자가 배경 이미지를 제2 타겟 스타일로 전송하기로 선택하고 전경 이미지를 변경하지 않기로 선택하면(즉, 타겟 영역은 배경 이미지 영역임), 스타일 전송을 수행할 때, 배경 이미지 영역만이 객체 분할 결과에 기초하여 제2 타겟 스타일로 전송되며, 그 다음, 후처리 동안, 배경 이미지의 양식화된 영역은 원본 이미지의 전경의 영역과 융합된다. 또는, 사용자가 전경 이미지를 제1 타겟 스타일로 전송하고 배경 이미지를 제2 타겟 스타일로 전송하기로 선택하면(즉, 타겟 영역은 전경 이미지 및 배경 이미지를 포함함), 스타일 전송을 수행할 때, 전경 이미지 영역은 제1 타겟 스타일로 전송되고, 배경 이미지 영역은 객체 분할 결과에 기초하여 제2 타겟 스타일로 전송되며, 그 다음, 후처리 동안, 제1 타겟 스타일로 전송된 후 전경 객체의 영역은 제2 타겟 스타일로 전송된 후 배경 이미지 영역과 융합된다.
본 출원의 실시예에서 제공되는 이미지 처리 방법에서, 스타일 전송이 처리될 이미지를 분할함으로써 처리될 이미지 상에서 수행될 때, 양식화될 필요가 있는 타겟 영역은 이미지 분할 결과에 기초하여 획득되어, 결과적으로, 처리될 이미지에서 타겟 영역의 스타일 전송을 달성한다. 이러한 방법에 기초하여, 이미지의 스타일 전송의 효과는 효과적으로 향상될 수 있다.
본 출원의 실시예에서, 처리될 이미지는 직접 분할될 수 있거나, 처리될 이미지에서 각각의 객체 영역을 검출한 다음 각각의 객체 영역 상에서 스타일 전송을 수행하거나, 객체 영역을 병합한 후 병합된 이미지를 분할하거나, 처리될 이미지 상에서 회전 보정을 수행한 다음 보정된 이미지에 기초하여 이미지 분할을 수행하는 것과 같이 처리될 객체 상에서 소정의 전처리 후에 분할될 수 있다는 것이 주목되어야 한다.
본 출원의 선택적인 실시예에서, 상술한 단계(S110)에서, 처리될 이미지를 분할하는 단계는 구체적으로,
처리될 이미지에 상응하는 회전 각도를 예측하는 단계;
회전 각도에 따라 처리될 이미지 상에서 회전 보정을 수행하는 단계; 및
처리될 보정된 이미지를 분할하는 단계를 포함할 수 있다.
스타일 전송 처리가 종래 기술에서 회전된 이미지 또는 비수평 또는 비수직 방향으로 캡처된 이미지 상에서 수행될 때, 처리될 이미지를 분할할 때, 이미지는 일반적으로 객체 분할을 위한 객체 분할 모델에 직접 입력된다. 이미지의 객체와 이미지의 중심 축 사이에서 회전 각도가 클 때, 모델로부터 출력된 분할 결과의 정확도가 낮음으로써, 최종 스타일 전송의 효과는 불량해진다.
이러한 문제를 해결하기 위해, 본 출원의 실시예의 솔루션에서, 타겟 영역을 획득하기 위해 처리될 이미지를 분할하기 전에, 이미지 편집 처리 동안 사용자에 의해 회전된 이미지, 또는 비수평 또는 비수직 방향으로 캡처된 이미지에 대해, 이미지를 보정하는데 필요한 회전 각도, 즉 처리될 이미지에 상응하는 회전 각도는 예측될 수 있다. 예측된 회전 각도에 기초하여, 이미지는 이미지 내의 타겟 영역을 획득하기 위해 이미지가 보정된 후에 분할될 수 있다. 처리될 이미지의 분할 효과가 향상될 수 있고, 획득된 타겟 영역의 정확도가 향상될 수 있다.
실제 응용에서, 처리될 이미지에 상응하는 회전 각도를 예측한 후에, 회전 각도가 0도가 아닌 경우, 이미지 상의 회전 보정은 회전 각도에 기초하여 수행될 수 있다는 것이 주목되어야 한다. 대안으로, 회전 각도가 특정 조건을 만족하는지가 먼저 결정될 수 있다. 예를 들어, 미리 설정된 조건이 만족되면, 회전 보정 프로세스가 수행되고, 미리 설정된 조건이 만족되지 않으면, 회전 보정이 수행되지 않을 수 있다. 예를 들어, 회전 각도가 미리 설정된 각도 범위 내에 있지 않을 때, 회전 보정은 수행되지 않을 수 있다.
본 출원의 선택적인 실시예에서, 처리될 이미지에 상응하는 회전 각도를 예측하는 단계는 구체적으로,
객체가 처리될 이미지에 위치되는 제1 객체 영역을 검출하는 단계; 및
처리될 이미지에 상응하는 회전 각도로서 간주되는 제1 객체 영역에 상응하는 회전 각도를 예측하는 단계를 포함할 수 있다.
즉, 처리될 이미지에 상응하는 회전 각도로서 처리될 이미지의 회전 각도를 사용하는 것 외에, 객체가 처리될 이미지에 위치되는 영역에 상응하는 회전 각도는 또한 처리될 이미지에 상응하는 회전 각도로서 사용될 수 있으며, 즉 처리될 이미지의 일부에 상응하는 회전 각도는 처리될 이미지에 상응하는 회전 각도로서 사용될 수 있다.
예로서, 도 2에 도시된 바와 같이, 도면에 도시된 입력 이미지는 이러한 예에서 처리될 이미지이다. 객체가 위치되는 영역의 검출, 즉 도면에 도시된 타겟 객체 검출은 먼저 입력 이미지 상에서 수행될 수 있다. 이러한 예에서 제1 객체 영역은 도면에 도시된 사람이 입력 이미지(도 2에 도시된 중간 부분의 이미지)에 위치되는 영역이다. 그 다음, 제1 객체 영역의 회전 각도가 예측되고, 회전 보정, 즉 도면에 도시된 회전 각도 예측 및 보정은 회전 보정된 이미지, 즉 도면에 도시된 보정된 이미지를 획득하기 위해 회전 각도에 기초하여 처리될 이미지 상에서 수행될 수 있다.
본 출원의 선택적인 실시예에서, 상술한 제1 객체 영역은 미리 설정된 조건을 충족시키는 객체 영역일 수 있다. 미리 설정된 조건은,
명시된 위치에서의 객체 영역, 명시된 객체가 위치되는 영역, 명시된 카테고리의 객체가 위치되는 영역, 및 미리 설정된 영역 크기를 만족하는 객체 영역 중 적어도 하나를 포함할 수 있다.
즉, 원본 이미지 내의 객체 영역은 필터링될 수 있고, 처리될 데이터의 양을 감소시키며, 따라서 데이터 처리 효율을 향상시키기 위해 미리 설정된 조건을 충족하는 객체 영역에 기초하여서만 추가의 처리가 수행될 수 있다. 미리 설정된 조건은 실제 요구 사항에 따라 설정될 수 있고, 구체적으로 시스템 설정일 수 있거나, 필요에 따라 사용자에 의해 설정될 수 있다. 미리 설정된 조건을 충족하는 객체 영역은 구체적으로 처리될 이미지 내의 객체가 미리 설정된 조건을 충족하거나, 또는 객체가 위치되는 영역이 미리 설정된 조건을 충족한다는 것을 의미할 수 있다(예를 들어, 제1 객체 영역은 명시된 객체가 위치되는 영역임). 예를 들어, 객체의 타입 또는 카테고리는 미리 설정된 조건을 충족하거나(예를 들어, 제1 객체 영역은 명시된 카테고리의 객체가 위치되는 영역임), 객체가 위치되는 영역의 위치 및/또는 크기가 미리 설정된 조건을 충족하는 것일 수 있다(예를 들어, 제1 객체 영역은 명시된 위치에서의 객체 영역이거나 미리 설정된 영역 크기를 만족하는 객체 영역임).
예로서, 도 3은 처리될 객체를 분할하기 전에 처리될 객체를 전처리하는 개략적인 흐름도를 도시한다. 도면에 도시된 바와 같이, 처리될 이미지(도면에 도시된 입력 이미지)를 분할하기 전에, 이미지 검출 모델이 먼저 처리될 이미지 내에 객체가 존재하는지 여부, 즉 도면에 도시된 이미지 내의 객체 영역을 검출하기 위해 사용된다. 게다가, 이미지 검출 모델의 출력이 이미지 내에 객체가 없음을 나타낼 때, 객체를 분할할 필요가 없으며, 즉, 이미지를 객체 분할 모델에 입력할 필요가 없고, 객체 분할 처리는 불필요한 작업 부하(workload)를 줄이기 위해 종료된다. 특히, 이미지 배치(batch) 또는 비디오 이미지 시퀀스가 처리될 필요가 있을 때, 이러한 방법의 장점이 더 명백해진다. 이미지 검출 모델의 출력이 이미지 내에 객체가 있음을 나타낼 때, 객체 필터링이 더 수행될 수 있으며, 즉, 이미지에서 미리 설정된 조건을 충족하는 객체가 존재하는지가 결정된다. 예를 들어, 객체가 요구 사항을 충족하는지가 결정될 수 있다. 구체적으로, 선택적인 솔루션으로서, 상술한 요구 사항은 객체의 위치 및/또는 크기와 관련하여 미리 설정될 수 있다. 예를 들어, 객체 영역의 크기가 미리 설정된 크기를 충족할 때만 객체가 요구 사항을 충족하는 것으로 간주된다는 것이 미리 설정될 수 있다. 객체가 미리 설정된 조건을 충족할 때, 이미지의 회전 보정과 같은 후속 처리가 수행되고, 이미지 상의 객체 분할 처리가 수행된다. 객체가 미리 설정된 조건을 충족하지 않을 때, 이미지는 분할되지 않을 수 있다.
본 출원의 선택적인 실시예에서, 처리될 이미지에 상응하는 회전 각도를 예측하는 단계는,
처리될 이미지 내의 객체의 회전 각도에 따라 처리될 이미지에 상응하는 회전 각도를 결정하는 단계를 포함할 수 있다.
선택적인 방식으로서, 실제 응용에서, 처리될 이미지에 상응하는 회전 각도는 처리될 이미지에 포함된 객체의 회전 각도에 기초하여 결정될 수 있다. 구체적으로, 예를 들어, 처리될 이미지에 포함된 객체의 회전 각도 또는 처리될 이미지 내의 제1 객체 영역에서의 객체의 회전 각도는 처리될 이미지에 상응하는 회전 각도로서 사용될 수 있다. 도 2에 도시된 예에 도시된 바와 같이, 도면에서의 사람의 회전 각도는 이러한 예에서 처리될 이미지에 상응하는 회전 각도로서 사용될 수 있고, 처리될 이미지는 회전 각도에 따라 회전 보정되어 보정된 이미지를 획득한다. 다른 예의 경우, 도 4에 도시된 사람 객체를 포함하는 이미지의 경우, 이미지 평면상에서 사람 객체의 검출된 시계 방향 회전 각도가 α인 경우, 이미지는 (정상적인 자세 또는 규칙적인 자세로서 간주될 수 있는) 이미지 평면상에서 사람을 수직으로 만들기 위해 각도 α 반시계 방향으로 회전될 수 있고, 이미지 처리 효과를 향상시키기 위해 회전 보정된 이미지 상에서 후속 처리가 수행될 수 있다.
본 출원의 선택적인 실시예에서, 처리될 이미지가 적어도 2개의 객체를 포함할 때, 처리될 이미지에서의 객체의 회전 각도에 따라 처리될 이미지에 상응하는 회전 각도를 결정하는 단계는,
처리될 이미지에 상응하는 회전 각도로서 처리될 이미지에서 가장 큰 면적비(area ratio)를 갖는 객체의 회전 각도를 결정하는 단계; 또는
처리될 이미지 내의 객체의 회전 각도를 융합하고, 융합된 회전 각도를 처리될 이미지에 상응하는 회전 각도로서 결정하는 단계; 또는
각각 처리될 이미지에 상응하는 회전 각도로서 객체의 회전 각도를 결정하는 단계를 포함할 수 있다.
선택적인 방식으로서, 객체의 회전 각도가 각각 처리될 이미지에 상응하는 회전 각도로서 결정될 때, 회전 각도에 따라 처리될 이미지 상에서 회전 보정을 수행하는 단계는 구체적으로,
각각 상응하는 회전 각도에 따라 객체가 별개로 위치되는 영역 상에서 회전 보정을 수행하는 단계; 및
이에 상응하여, 처리될 보정된 이미지를 분할하는 단계를 포함할 수 있으며, 이러한 분할하는 단계는,
객체가 별개로 위치되는 회전 보정된 영역을 분할한 다음, 처리될 이미지의 분할 결과를 획득하기 위해 객체가 별개로 위치되는 영역의 분할 결과를 융합하는 단계; 또는, 객체가 별개로 위치되는 회전 보정된 영역을 병합하고, 처리될 이미지의 분할 결과를 획득하기 위해 병합된 이미지를 분할하는 단계를 포함한다.
이미지가 다수(2개를 포함함)의 객체를 포함하거나 다수의 객체가 미리 설정된 조건을 충족하는 경우, 이미지에서 가장 큰 면적비를 갖는 단일 객체(즉, 처리될 이미지에서 가장 큰 면적을 갖는 제1 객체 영역의 객체)의 회전 각도에 기초하여 회전 보정은 처리될 이미지 상에서 수행될 수 있거나: 객체 상에서 회전 각도는 각각 예측될 수 있고, 객체의 회전 각도는 융합된 회전 각도를 획득하기 위해 융합되며, 이미지는 융합된 회전 각도에 기초하여 보정된다. 회전 각도의 융합 방식은 본 출원의 실시예에서 제한되지 않으며, 다수의 회전 각도 상에서 평균 융합 또는 가중된 융합을 수행하는 단계를 포함할 수 있지만, 이에 제한되지는 않는다. 게다가, 이미지 내의 객체 상에서 회전 각도는 각각 계산되고, 보정 처리는 각각의 객체가 이에 상응하는 회전 각도에 따라 위치되는 영역 상에서 수행될 수 있고, 분할 처리는 각각의 분할 결과를 획득하기 위해 각각의 객체에 상응하는 보정된 영역 상에서 수행되며, 분할 결과는 함께 병합되어, 전체 이미지의 분할 결과를 획득하거나; 이미지 처리 속도로 다수의 객체 영역 상에서 분할 처리의 영향을 피하며, 객체가 위치되는 보정된 영역은 하나의 이미지로 병합될 수 있고, 병합된 이미지는 한 번 분할되고, 각각의 객체의 분할 결과는 분할 결과에서 상응하는 영역에 기초하여 획득되고, 이러한 분할 결과는 전체 이미지의 분할 결과를 획득하기 위해 함께 병합된다.
본 출원의 선택적인 실시예에서, 처리될 이미지에 상응하는 회전 각도를 예측하는 단계는 다음과 같은 두 가지 방식을 포함할 수 있다.
방식 1: 처리될 이미지에 상응하는 회전 각도는 각도 예측 모델을 통해 예측되며, 여기서 각도 예측 모델은 이미지 특징 추출 모듈을 포함하고, 이미지 특징 추출 모듈의 적어도 하나의 특징 추출 유닛에서의 배치 정규화(batch normalization, BN) 계층의 수는 설정된 값보다 작다.
이러한 방식으로, 처리될 이미지 내의 객체의 회전 각도와 같이 처리될 이미지에 상응하는 회전 각도는 각도 예측 모델을 통해 획득될 수 있다. 구체적으로, 심층 신경망(deep neural network)에 기초한 각도 예측 모델을 트레이닝함으로써, 이미지의 축에 대한 사람, 건축, 자연 및 풍경과 같은 임의의 콘텐츠를 포함하는 이미지의 회전 각도가 획득된다.
실제 응용에서, 회전 각도는 시계 방향의 회전 각도 또는 반시계 방향의 회전 각도로 표현될 수 있다. 설명의 편의를 위해, 이하에서 달리 명시되지 않으면, 회전 각도는 모두 예로서 시계 방향으로 취함으로써 설명된다. 게다가, 본 출원의 실시예에서 설명된 회전 각도는 실제 회전 각도 값일 수 있거나, 회전 각도에 상응하는 각도 범위는 예를 들어 0도와 360도 사이의 임의의 값일 수 있거나, 0 내지 15도, 16 내지 30도, 31 내지 45도 등과 같은 객체의 실제 회전 각도를 포함하는 각도 범위일 수 있다. 즉, 실제 응용에서, 회전 각도 값에 더하여, 객체의 회전 각도를 포함하는 범위는 또한 회전 각도 공간이 다수의 각도 범위(즉, 0 내지 360도)로 나뉘어진 후에 객체의 회전 각도로서 사용될 수 있다. 이때, 회전 각도 값은 각도 범위에 상응하도록 설정될 수 있으며, 객체의 회전 각도를 포함하는 각도 범위가 결정될 때, 각도 범위에 상응하는 회전 각도 값에 따라 회전 보정이 수행될 수 있다.
예로서, 이미지가 도 5에 도시된 바와 같이 처리되는 경우, 미리 트레이닝함으로써 획득된 각도 예측 모델을 사용함으로써 이미지 내의 객체의 회전 각도를 예측하는 개략적인 흐름도가 도 6에 도시된다. 구체적으로, 처리될 이미지는 심층 신경망의 입력 이미지일 수 있고, 심층 신경망에 의해 입력 이미지 상에서 특징 추출이 수행되고, 추출된 특징 정보에 기초하여 회전 각도가 예측된다. 도 5에 도시된 바와 같이, 사람의 회전 각도(도면에 도시된 예측된 각도)는 15도이며, 즉, 이미지의 수직 중심 축에 대한 도 5의 사람의 편향 각도는 15 도이다.
신경망을 통해 이미지 처리를 수행할 때, 신경망의 복잡성으로 인해, 저장 공간과 컴퓨팅 파워가 제한적인 모바일 단말 디바이스 상에서 신경망 기반 스타일 전송 처리를 구현하는 처리 속도는 느려서, 사용자의 요구를 충족시키기 어렵다. 따라서, 최적화된 신경망이 또한 모바일 단말 디바이스에 적합하지만, 모바일 단말 디바이스 상에서의 배치에 제한되지 않도록 신경망 상에서 경량 최적화(lightweight optimization)를 수행하는 방법은 또한 해결될 필요가 있는 중요한 문제 중 하나이다.
이러한 문제와 관련하여, 본 출원의 실시예의 방식 1에서, 심층 신경망을 통해 특징 추출을 수행할 때, 경량 특징 추출 모듈(도 6의 경량 특징 추출에 상응함)은 모바일 단말 디바이스 상에서 실행하는데 적절하도록 사용될 수 있으며, 즉 이미지 특징 추출 모듈의 적어도 하나의 특징 추출 유닛에서의 BN 계층의 수는 설정된 값보다 작다. 특징 추출 유닛의 BN 계층의 수를 감소시킴으로써, 신경망의 전체 구조는 간결하고, 신경망의 계산량 및 이미지 처리 동안 디바이스 메모리의 점유가 감소되어, 신경망의 휴대성 및 일반성을 향상시킴으로써, 신경망이 제한된 자원을 갖는 모바일 단말 디바이스 상에 배치될 수 있도록 한다.
상술한 BN 계층의 수가 설정된 값보다 작다는 것은 특징 추출 유닛에서의 BN 계층의 수가 일반적으로 사용되는 기존의 특징 추출 유닛에서의 BN 계층의 수보다 작다는 것을 의미한다. 즉, 설정된 값의 최대 값은 일반적으로 사용되는 기존의 특징 추출 유닛에서의 BN 계층의 수일 수 있다. 물론, 설정된 값은 또한 0일 수 있으며, 즉, 본 출원의 예에서 이미지 특징 추출 모듈의 적어도 하나의 특징 추출 유닛은 BN 계층을 포함하지 않을 수 있다.
예로서, 도 7a는 종래 기술 MobileNetV2에서 하나의 (실제 응용에서, 하나 이상이 사용될 수 있음) 특징 추출을 위한 기본 유닛, 즉, 특징 추출 유닛(도면에서 점선으로 도시된 부분)을 도시하는 개략적인 구조도이다. 도면에 도시된 바와 같이, 특징 추출 유닛은 이미지 특징 정보를 출력하기 위해 깊이 방향 컨볼루션 계층(depth-wise convolution layer), 여러 BN 계층 및 컨볼루션 계층으로 구성될 수 있다. BN 계층은 2개의 인접한 컨볼루션 계층(깊이 방향 컨볼루션 계층 및 도면에 도시된 컨볼루션 계층) 사이에 배치될 수 있으며, 그 중에서 컨볼루션 계층 및 깊이 방향 컨볼루션 계층은 기본 특징 추출 기능을 완료하고, BN 계층은 컨볼루션 계층을 지원하는데 사용된다. BN 계층은 딥 러닝 신경망의 트레이닝 프로세스를 가속화하고 촉진할 수 있다. 일부 네트워크에서, BN 계층의 존재는 중요하며, 즉, 이는 BN 계층을 사용하지 않고 전체 네트워크가 수렴하지 않고 제대로 작업하지 않을 수 있게 한다. 그러나, 다른 네트워크에서, 트레이닝 프로세스 및 정상적인 작업은 BN 계층을 사용하지 않고도 완료될 수 있다.
예로서, 도 7b는 본 출원의 실시예에 따라 모바일 단말 디바이스 상에 배치될 수 있는 경량 특징 추출의 선택적 기본 유닛(도면에서 점선 박스로 도시됨)을 도시하는 개략적인 구조도이다. 도면에 도시된 바와 같이, 도 7a에 도시된 구조와 비교하여, 일부 BN 계층은 경량 특징 추출 유닛으로부터 제거되어, 전체 구조가 간결하다. 실험은 경량 특징 추출 유닛의 구조가 네트워크를 사용시에 정상적으로 작업하게 할 수 있다는 것을 증명했다. 따라서, BN 계층은 본 출원의 실시예의 배치에서 불필요할 수 있고, 네트워크의 전체 성능에 대한 영향은 크지 않다. 한편, BN 계층의 사용은 비용이 든다. BN 계층의 사용은 계산 및 메모리 사용량을 증가시키고, BN 계층에 대해 지원 가능한 모든 모바일 플랫폼이 아니기 때문에 네트워크의 휴대성과 일반성을 감소시킨다. 따라서, 경량 기본 유닛으로부터 BN 계층을 제거하는 이점은 계산량을 감소시킬 뿐만 아니라 네트워크 플랫폼 호환성을 향상시키는 것이 분명하다.
본 출원의 선택적인 실시예에서, 처리될 이미지에 상응하는 회전 각도가 처리될 이미지 내의 객체의 회전 각도에 따라 결정될 때, 처리될 이미지 내의 객체의 회전 각도는 다음과 같은 방법에 의해 예측될 수 있다.
방식 2: 객체의 골격 키포인트는 자세 추정 모델에 의해 검출되고, 객체의 회전 각도는 객체의 골격 키포인트에 따라 예측된다.
이러한 방식과 관련하여, 이미지에 상응하는 회전 각도가 이미지 내의 객체의 회전 각도에 기초하여 결정될 때, 객체의 회전 각도는 자세 추정 모델에 의해 검출된 키포인트 정보를 통해 획득될 수 있다.
상술한 설명으로부터 이미지 내의 객체는 사람을 포함할 수 있지만, 이에 제한되지 않으며, 골격 키포인트를 갖는 동물 또는 다른 객체일 수도 있다는 것이 알려질 수 있다. 실제 응용에서, 어떤 골격 키포인트가 구체적으로 검출되고, 어떤 키포인트가 객체의 회전 각도의 예측에 의해 기초하는지는 실제 요구 및/또는 응용 시나리오에 따라 설정될 수 있다. 동일한 자세 추정 모델 또는 상이한 자세 추정 모델은 상이한 객체의 골격 키포인트의 검출을 위해 사용될 수 있다.
예로서, 다음과 같은 것은 예로서 객체를 사람인 것으로 취함으로써 객체의 골격 키포인트를 설명한다. 사람의 경우, 인간 자세 추정 모델은 인간의 골격 키포인트를 검출하는데 사용될 수 있다. 인간 자세 추정의 결과는 도 8에 도시된 바와 같이 17개의 인간 골격 키포인트(이하 뼈 노드(bone node)로서 지칭됨)로 구성된 인간 골격을 포함할 수 있지만, 이에 제한되지 않는다. 예를 들어, 인간 골격은 또한 인간 볼기뼈 노드(hip bone node)를 포함할 수 있다. 설명의 편의를 위해, 각각의 뼈 노드는 도 8에서 번호가 매겨져 있다. 다음과 같은 설명에서, 상응하는 뼈 노드는 다음과 같이 도면에 도시된 숫자에 의해 나타내어진다.
뼈 노드 1 및 뼈 노드 2는 눈 부분의 뼈 노드이고;
뼈 노드 4 및 뼈 노드 5는 귀 부분의 뼈 노드이고;
뼈 노드 3은 코 부분의 뼈 노드이고;
뼈 노드 6 및 뼈 노드 9는 어깨 부분의 뼈 노드이고;
뼈 노드 7 및 뼈 노드 10은 팔꿈치 부분의 뼈 노드이고;
뼈 노드 8 및 뼈 노드 11은 손목 부분의 뼈 노드이고;
뼈 노드(12) 및 뼈 노드(15)는 허리 부분의 뼈 노드이고;
뼈 노드(13) 및 뼈 노드(16)는 무릎 부분의 뼈 노드이며;
뼈 노드(14) 및 뼈 노드(17)는 발목 부분의 뼈 노드이다.
설명의 편의를 위해, 이하, 상응하는 번호를 가진 뼈 노드는 p1 내지 p17에 의해 나타내어질 수 있다. 예를 들어, 뼈 노드 6은 p6에 의해 나타내어진다.
방식 2에 기초하여, 이러한 예에서, 이미지에서의 인체의 회전 각도는 상술한 자세 추정 결과, 즉 검출된 인간의 골격 키포인트에 기초하여 예측될 수 있다. 본 출원의 실시예에서, 인간 자세 추정의 특정 방법은 제한되지 않는다.
본 출원의 선택적인 실시예에서, 객체의 골격 키포인트에 따라 사람의 회전 각도를 예측하는 단계는,
객체의 적어도 2개의 골격 키포인트 사이의 위치 관계에 따라 객체의 회전 각도를 예측하는 단계를 포함한다.
2개의 키포인트가 라인을 구성할 수 있으므로, 객체의 회전 각도는 객체의 적어도 2개의 골격 키포인트에 기초하여 예측될 수 있다. 적어도 2개의 키포인트의 위치 관계는 (수평 중심 축 또는 수직 중심 축일 수 있는) 이미지의 중심 축에 대한 객체의 편차 각도를 특징 짓는 위치 관계를 지칭한다. 특정 위치 관계는 실제 요구에 따라 설정될 수 있다. 본 출원의 실시예는 특정 형태의 위치 관계를 제한하지 않는다. 예를 들어, 위치 관계는 두 키포인트 사이의 라인을 포함할 수 있지만, 이에 제한되지 않는다. 이미지의 중심 축으로부터의 라인의 편차 각도는 객체의 회전 각도로서 사용될 수 있다. 객체의 골격 키포인트가 적어도 3일 때, 위치 관계는 또한 2개의 키포인트의 라인과 다른 키포인트 사이의 위치 관계를 지칭할 수 있다.
본 출원의 선택적인 실시예에서, 적어도 2개의 키포인트는 적어도 2개의 상응하는 키포인트를 포함한다.
2개의 상응하는 키포인트는 구체적으로 각각 객체의 좌측 및 우측상의 2개의 상응하는 뼈 노드를 각각 지칭할 수 있다. 예를 들어, 사람의 경우, 인체의 2개의 상응하는 골격 키포인트는 인체의 좌측 및 우측 상의 상응하는 골격 키포인트를 지칭할 수 있다. 도 8에 도시된 바와 같이, 어깨 부분의 뼈 노드(6) 및 뼈 노드(9), 및 허리 부분의 뼈 노드(12) 및 뼈 노드(15)는 둘 다 2개의 상응하는 키포인트이다.
객체가 비교적 직립일 때, 객체의 상응하는 2개의 골격 키포인트는 일반적으로 대칭이다. 따라서, 객체의 회전 각도는 예측의 정확성을 향상시키기 위해 객체의 상응하는 키포인트 사이의 위치 관계에 기초하여 예측될 수 있다. 선택적인 방식으로서, 설명은 도 8에 도시된 예와 함께 계속된다. 도 9는 도 8에 도시된 인체의 골격 키포인트에 기초하여 인체의 회전 각도를 예측하는 것을 예시하는 개략적인 흐름도이다. 도 10a, 도 10b, 도 10c 및 도 10d는 인체의 회전 각도를 계산하는 4가지 방법을 도시하는 개략도이다. 구체적으로, 도 9, 도 10a, 도 10b, 도 10c 및 도 10d에 도시된 바와 같이, 본 예에서 인체의 회전 각도를 예측하는 방식은 주로 다음의 것을 포함할 수 있다:
(1) 뼈 노드의 수가 0과 같으면, 이미지에 사람이 없는 것으로 간주될 수 있으므로, 이미지의 회전 각도는 0이고; 그렇지 않으면, 방법은 (2)로 진행한다.
(2) 인체의 뼈 노드 중에서, 어깨와 허리의 뼈 노드는 인체의 자세를 가장 잘 반영할 수 있다. 따라서, 이러한 솔루션은 어깨와 허리의 뼈 노드가 먼저 순서대로 검출될 수 있다고 제안한다. 뼈 노드 p6 및 뼈 노드 p9가 검출되면, 방법은 (3)으로 진행하고; 그렇지 않으면, 방법은 (6)으로 진행한다.
(3) 뼈 노드 p12 및 뼈 노드 p15가 검출되면, 방법은 (4)로 진행하고; 그렇지 않으면, 방법은 (5)로 진행한다.
(4) 인체의 회전 각도는 방식 1에 따라 계산된다. 도 10a에 도시된 바와 같이, 라인 세그먼트 l1의 2개의 종점은 각각 뼈 노드 p6와 뼈 노드 p9 사이의 연결 라인의 중간점 A, 및 뼈 노드(12)와 뼈 노드(15) 사이의 연결 라인의 중간 점 B이다. l1과 이미지의 y 축(수직 중심 축) 사이의 각도 α1는 계산되며, 이는 인물 사진의 회전 각도(인체의 회전 각도)이다.
(5) 인체의 회전 각도는 방식 2에 따라 계산된다. 도 10b에 도시된 바와 같이, 라인 세그먼트 l2의 2개의 종점은 각각 뼈 노드 p6 및 뼈 노드 p9이다. l2와 이미지의 x 축(가로 중심 축, 즉 수평 중심 축) 사이의 각도 α1는 계산되며, 이는 인물 사진의 회전 각도이다.
(6) 뼈 노드 p12 및 뼈 노드 p15가 검출되면, 방법은 (7)로 진행하고; 그렇지 않으면, 방법은 (8)로 진행한다.
(7) 인체의 회전 각도는 방식 3에 따라 계산된다. 도 10c에 도시된 바와 같이, 라인 세그먼트 l3의 2개의 종점은 각각 뼈 노드 p12 및 뼈 노드 p15이다. l3과 이미지의 x 축 사이의 각도 α3는 계산되며, 이는 인물 사진의 회전 각도이다.
(8) 뼈 노드 p1 내지 p3이 검출되면, 방법은 (9)로 진행하고; 그렇지 않으면, 이미지 회전 각도는 0인 것으로 간주된다.
(9) 인체의 회전 각도는 방식 4에 따라 계산된다. 도 10d에 도시된 바와 같이, 라인 세그먼트 l4의 2개의 종점은 각각 뼈 노드 p1와 뼈 노드 p2 사이의 연결 라인의 중간점 C, 및 뼈 노드 p3이다. l4와 이미지의 y 축 사이의 각도 α4는 계산되며, 이는 인물 사진의 회전 각도이다.
본 출원의 실시예에서 제공되는 회전 각도를 예측하는 상술한 방법은 별개로 또는 동시에 사용될 수 있다는 것이 주목되어야 한다. 예를 들어, 예로서, 처리될 이미지 내의 객체의 회전 각도는 방식 1 및/또는 방식 2를 사용함으로써 예측될 수 있고, 처리될 이미지에 상응하는 회전 각도는 방식 1 및/또는 방식 2를 사용함으로써 예측된 객체의 회전 각도에 기초하여 결정된다. 예를 들어, 이미지에 상응하는 회전 각도는 방식 중 하나를 사용함으로써 예측된 회전 각도에 기초하여 결정될 수 있다. 또는, 방식 1 및 방식 2를 사용함으로써 예측된 객체의 회전 각도는 융합될 수 있고, 융합된 각도는 이미지에 상응하는 회전 각도로서 사용될 수 있다. 게다가, 객체의 회전 각도는 이미지 내의 객체 카테고리에 기초하여 상이한 방식을 사용함으로써 예측될 수 있다. 예를 들어, 이미지에서 사람의 회전 각도는 방식 2를 사용함으로써 예측될 수 있고, 사람을 제외한 이미지에서 다른 객체의 회전 각도는 방식 1을 사용함으로써 예측될 수 있으며, 처리될 이미지에 상응하는 회전 각도는 적어도 하나의 방식을 사용함으로써 획득된 예측 결과에 기초하여 결정될 수 있다. 이러한 예는 단순히 여러 선택적 솔루션을 나열하는 것으로 이해될 수 있다. 실제 응용에서, 본 출원의 실시예에서 제공되는 두 가지 방식에 기초하여, 특정 선택된 방식은 실제 요구에 따라 결정될 수 있거나 설정 옵션을 사용자에게 제공함으로써 사용자에 의해 설정될 수 있다.
본 출원의 선택적인 실시예에서, 회전 각도에 따라 처리될 이미지 상에서 회전 보정을 수행하는 단계는,
제1 객체 영역 상에서 회전 보정을 수행하는 단계; 및
처리될 보정된 이미지를 분할하는 단계를 포함할 수 있으며, 이러한 분할하는 단계는,
보정된 제1 객체 영역을 분할하는 단계; 및
제1 객체 영역의 분할 결과에 기초하여 처리될 객체의 분할 결과를 획득하는 단계를 포함할 수 있다.
처리될 이미지에서 (사람과 같은) 객체의 비율이 작을 때, 타겟 영역이 전체 이미지의 이미지 분할에 의해 결정되면, 분할 정확도는 더 낮아질 수 있다. 더욱이, 처리될 데이터의 양은 많아져, 처리 효율은 전체 이미지가 분할될 때 더 낮아질 수 있다. 이러한 문제를 해결하기 위해, 선택적인 방식으로서, 처리될 이미지 상에서 회전 보정을 수행할 때, 처리될 전체 이미지는 회전될 수 있다. 또는, 원본 이미지 내의 객체 영역만이 회전될 수 있고, 회전 보정된 객체 영역이 분할될 수 있으며, 원본 이미지의 분할 결과가 회전 보정된 객체 영역의 분할 결과에 기초하여 획득된다. 이러한 방식으로, 분할이 전체 원본 이미지 상에서 수행될 필요가 없으므로, 처리될 필요가 있는 데이터의 양은 감소될 수 있고, 이미지 분할 효율은 향상될 수 있다. 그리고 분할이 회전 보정된 객체 영역 상에서 수행되므로, 이미지 분할의 정확성은 동시에 보장될 수 있다.
예로서, 도 2에 도시된 바와 같은 중간 부분의 이미지는 객체 영역이고, 이미지 회전 보정은 이러한 영역 상에서만 수행될 수 있다. 도 11에 도시된 바와 같이, 회전 보정된 영역의 이미지는 획득되고, 이미지 분할이 수행될 때, 이러한 회전된 이미지만이 분할된 인물 사진 및 비인물 사진 부분을 획득하기 위해 분할될 수 있다. 분할 결과는 예측된 회전 각도에 기초하여 역회전되고, 원본 이미지의 역회전 결과와 비객체 영역은 원본 이미지의 분할 결과를 획득하기 위해 병합된다.
본 출원의 선택적인 실시예에서, 처리될 이미지를 분할하는 단계는,
객체가 각각 처리될 이미지 내에 위치되는 제2 객체 영역을 검출하는 단계;
제2 객체 영역을 각각 분할하거나, 병합된 이미지를 획득하기 위해 제2 객체 영역을 병합하고 병합된 이미지를 분할하는 단계; 및
제2 객체 영역의 분할 결과에 기초하여 처리될 이미지의 분할 결과를 획득하는 단계를 포함할 수 있다.
이러한 솔루션에서 처리될 이미지는 회전 보정되지 않은 이미지 또는 회전 보정된 이미지일 수 있다는 것이 주목되어야 한다. 이러한 솔루션에서 제2 객체 영역은 상술한 제1 객체 영역과 동일하거나 상이할 수 있다. 제1 객체 영역은 처리될 객체 상에서 회전 보정을 수행할 때 처리될 객체에 상응하는 회전 각도를 결정하는데 사용되는 객체 영역이며, 여기서 제1 객체 영역에 상응하는 회전 각도는 처리될 객체에 상응하는 회전 각도로서 결정되고, 회전 보정을 수행할 때, 처리될 이미지 또는 제1 객체 영역은 회전 각도에 기초하여 보정되어 보정된 이미지를 획득할 수 있다. 제2 객체 영역은 처리될 이미지 및 회전 보정된 이미지 상에서 분할을 수행할 때 분할될 결정된 이미지 내의 객체 영역이며, 여기서 이미지가 분할될 때, 이미지 내의 제2 객체 영역은 분할될 수 있거나, 병합된 이미지는 각각의 제2 객체 영역을 병합한 후에 분할될 수 있다.
게다가, 실제 응용에서, 회전 보정이 제1 객체 영역에 상응하는 회전 각도에 기초하여 이미지 상에서 수행될 때, 처리될 이미지의 분할에 대하여, 각각의 제2 객체 영역을 검출하고, 이러한 솔루션에서 제2 객체 영역에 기초하여 분할을 수행하는 방식으로 수행될 수 있거나, 또한 보정된 제1 객체 영역을 분할하고, 상술한 제1 객체 영역의 분할 결과에 기초하여 처리될 객체의 분할 결과를 획득하는 방식으로 수행될 수 있다.
선택적으로, 제2 객체 영역을 분할하는 단계는 구체적으로 제2 객체 영역을 확대 또는 축소하는 단계, 및 확대되거나 축소된 제2 객체 영역을 분할하는 단계를 포함할 수 있다.
선택적으로, 제2 객체 영역을 병합하고 병합된 이미지를 분할하는 단계는 구체적으로 제2 객체 영역을 병합하는 단계, 병합된 이미지를 확대하거나 축소하는 단계, 및 확대되거나 축소된 병합된 이미지를 분할하는 단계를 포함할 수 있다.
분할 정확도를 향상시키기 위해 처리될 이미지 또는 처리될 회전 보정된 이미지를 분할할 때, 처리될 이미지 또는 처리될 보정된 이미지의 객체 영역은 먼저 검출될 수 있고, 검출된 객체 영역은 분할되어, 처리될 데이터의 양을 줄이고 분할 정확도를 향상시킬 수 있다.
선택적인 솔루션으로서, 이미지의 분할 정확도를 더 향상시키기 위해, 이미지의 회전 보정이 완료된 후, 보정된 이미지에서 객체 영역, 즉 제2 객체 영역이 검출된다. 즉, 이미지의 보정이 완료된 후, 보정된 이미지의 객체 영역은 다시 검출된다. 검출이 보정된 이미지에 기초하므로, 검출된 객체 영역은 더 정확하다. 정확도 분할은 재검출된 객체 영역을 분할함으로써 구현되고, 처리될 필요가 있는 데이터의 양은 또한 감소될 수 있다.
제2 객체 영역이 검출될 때, 각각의 제2 객체 영역은 각각의 제2 객체 영역의 분할 결과를 획득하기 위해 분할될 수 있다. 게다가, 다수의 제2 객체 영역이 있을 때, 분할 효율을 향상시키고, 각각의 제2 객체 영역 상에서 별개의 분할에 의해 야기된 분할 속도에 대한 영향을 피하기 위해, 다수의 제2 객체 영역은 먼저 하나의 이미지로 병합될 수 있으며, 그런 다음 병합된 이미지는 분할 속도를 향상시키기 위해 분할된다. 게다가, 분할 정확도를 향상시키기 위해, 분할될 이미지를 분할할 때(각각의 제2 객체 영역 또는 병합된 이미지), 다음의 두 가지 솔루션이 사용될 수 있다. 분할될 이미지 또는 분할될 이미지 내의 객체 영역이 작을 때 분할 정확도를 보장하기 위해, 이미지 확대 처리는 먼저 분할될 이미지 상에서 수행될 수 있고, 그 후 확대된 이미지는 분할된다. 이에 따라, 분할이 완료된 후, 상응하는 이미지 축소 처리는 분할될 이미지의 분할 결과를 획득하기 위해 분할 결과 상에서 수행될 수 있다. 분할될 이미지 또는 분할될 이미지 내의 객체 영역이 클 때 분할 효율을 보장하기 위해, 이미지 축소 처리는 먼저 분할될 이미지 상에서 수행될 수 있으며, 그 다음 축소된 이미지는 분할될 수 있다. 마찬가지로, 분할이 완료된 후, 상응하는 이미지 확대 처리는 분할될 이미지의 분할 결과를 획득하기 위해 분할 결과 상에서 수행될 수 있다.
게다가, 본 출원의 실시예에 의해 제공되는 솔루션에 기초하여, 분할의 정확도 및 속도를 향상시키는 것에 더하여, 각각의 객체의 카테고리를 검출하는 처리 방법이 먼저 사용되며, 이는 이미지에서 관련 없는 카테고리의 객체를 필터링할 수 있다. 따라서, 분할 처리를 직접 사용하는 것과 비교하여, 이러한 검출 처리의 부가는 분할 결과에 관련 없는 카테고리의 객체를 포함시키는 에러 확률을 감소시킬 수 있고, 더 높은 분할 정확도가 더 나은 스타일 전송 품질로 변환될 수 있도록 분할의 성능을 향상시킬 수 있다.
예로서, 도 12에 도시된 바와 같이, 처리될 객체가 객체 분할 모델을 통해 분할되기 전에, 검출 모듈(도면에 도시된 타겟 객체 검출) 및 객체 회전 각도 예측 및 보정 모듈은 객체 분할 모델 전에 부가될 수 있다. 검출 모듈은 입력 이미지, 즉 도면에 도시된 상부의 중간 이미지에서 객체의 영역(즉, 제1 객체 영역)을 검출할 수 있다. 객체 회전 각도 예측 및 보정 모듈은 영역 내의 객체의 회전 각도를 예측하고, 보정된 이미지를 획득하기 위해 회전 각도에 기초하여 입력 이미지 상에서 회전 보정을 수행한 다음, 보정된 이미지에서 객체 위치를 다시 검출하여 여기에서 객체 영역(즉, 제2 객체 영역)을 획득하며, 이는 이러한 예에서 도 12의 하부 상의 3개의 이미지에서 가장 우측 이미지이다. 이는 2개의 검출 결과로부터 보여질 수 있으며, 회전 보정된 이미지에 기초하여 검출된 객체 영역은 원본 이미지에 기초하여 검출된 객체 영역에 비해 상당히 높은 정확도를 갖는다. 보다 정확한 객체 분할 결과(하부상의 3개 이미지의 중간 이미지)는 제2 객체 영역을 객체 분할 모델의 입력 이미지로서 사용함으로써 획득될 수 있고, 그 다음 이를 처리하여 이미지의 후속 처리를 위한 원본 이미지의 객체 분할 결과를 생성할 수 있다. 구체적으로, 도면에 도시된 정확하게 분할된 이미지는 회전 각도에 따라 역으로 회전될 수 있고, 역으로 회전된 이미지는 이러한 영역을 제외한 원본 이미지의 이미지 영역과 융합되어 원본 이미지, 즉 하부 상의 3개의 이미지에서 가장 왼쪽 이미지의 정확한 분할 결과를 획득한다.
구체적으로, 제1 객체 영역을 검출하고 객체 영역에 상응하는 회전 각도α를 예측한 후에, 제1 객체 영역은 구체적으로 입력 이미지로부터 도 12의 상부 상에서 중간 이미지를 획득하기 위해 다음과 같은 변환 매트릭스에 기초하여 크로핑(cropping)되고 회전될 수 있다:
M = RT
Figure pat00001
여기서, R은 회전 보정 매트릭스이고, T는 크로핑 매트릭스(cropping matrix)이고, dx 및 dy는 각각 처리될 이미지 내의 객체 영역의 위치 정보(보통 객체 영역의 좌측 상단 좌표점의 수평 및 수직 좌표값)이며, sx 및 sy는 각각 객체 영역이 크로핑될 때 객체 영역의 스케일링 비율을 나타낸다. 예를 들어, 처리될 이미지 내의 객체 영역의 폭 및 높이가 각각 w 및 h이고, 획득된 크로핑된 객체 영역의 폭 및 높이가 각각 W 및 H인 경우, sx = w/W이고, sy = h/H이다. 이는 수축 또는 확대가 수행되지 않을 경우, w = W이고 h = H인 것으로 이해될 수 있다.
상술한 설명으로부터, 다른 선택적인 방식으로서, 처리될 이미지 상에서 분할을 수행할 때, 이미지 분할은 또한 회전 보정되지 않은 이미지에 기초하여 수행될 수 있다는 것이 알려질 수 있다. 도 12에 도시된 예에 도시된 바와 같이, 검출 모듈에 의해 입력 이미지(도면에 도시된 상부의 중간 이미지)에서 객체 영역을 검출한 후, 객체 영역은 직접 분할되어 객체 분할 결과를 획득할 수 있고, 객체 분할 결과는 이러한 영역을 제외한 원본 이미지의 이미지 영역과 융합되어 원본 이미지의 분할 결과를 획득한다.
본 출원의 선택적인 실시예에서, 제2 객체 영역은 처리될 이미지 또는 처리될 보정된 이미지에서 미리 설정된 조건을 만족시키는 객체 영역이다.
제1 객체 영역이 상술한 미리 설정된 조건을 만족시키는 객체 영역인 원리와 유사하게, 제2 객체 영역은 또한 처리될 이미지 또는 회전 보정된 이미지에서 미리 설정된 조건을 만족시키는 객체 영역일 수 있어, 처리될 데이터의 양을 줄이고 데이터 처리 효율성을 향상시킨다.
제1 객체 영역에 상응하는 상술한 미리 설정된 조건은 여기서 제2 객체 영역에 상응하는 미리 설정된 조건과 동일하거나 상이할 수 있으며, 이는 둘 다 실제 응용 요구 사항에 따라 설정되고 조정될 수 있는 것으로 이해될 수 있다.
게다가, 이미지가 미리 설정된 조건을 만족하는 다수의 객체를 포함할 때, 즉 다수의 제2 객체 영역이 있을 때, 선택적인 방식으로서, 모든 객체의 영역은 후속 처리를 위해 조합되어 별개로 다수의 객체 영역 상의 분할 처리로 인해 속도의 감소를 피할 수 있다.
예로서, 도 13a에서, 처리될 이미지 또는 회전 보정된 이미지가 도시된다. 이러한 이미지의 경우, 이미지 검출 모델은 제2 객체 영역을 검출하고, 3개의 객체 영역, 즉 도면에 도시된 객체 영역 ①, ② 및 ③의 결과를 출력한다. 이러한 영역 중에서, 객체 영역 ① 및 ②는 미리 설정된 조건을 만족하고, 객체 영역 ③은 미리 설정된 조건을 만족하지 않으므로 무시된다. 검출된 객체 영역 ① 및 ② 상에서 분할하는 동안, 객체 영역 ① 및 ②는 먼저 후속 분할 처리를 위한 입력 이미지로서 병합될 수 있다. 병합 방식은 본 출원의 실시예에서 제한되지 않으며, 이는 실제 요구 사항에 따라 설정될 수 있다. 예를 들어, 후속 분할 처리의 입력으로서 (도 13b에 도시된 바와 같이) 다수의 객체의 최대 바운딩 박스(maximum bounding box)에 상응하는 이미지 영역을 단순히 사용하는 병합 방식이 사용될 수 있다. 대안으로, (도 13c에 도시된) 후속 분할 처리의 입력으로서 다수의 객체 영역을 함께 배치함으로써 이미지를 사용하는 병합 방식이 사용될 수 있다.
이미지에서 객체 영역(제1 객체 영역 및/또는 제2 객체 영역)을 검출하는 특정 방식은 본 출원의 실시예에서 제한되지 않으며, 이는 실제 요구 사항에 따라 설정될 수 있다. 예를 들어, 선택적 솔루션으로서, 객체 검출은 YOLO(You Only Look Once) SSD(Single Shot MultiBox Detector) 등에 기초한 방법을 사용함으로써 수행될 수 있다. 이러한 검출 모델은 작은 저장 용량과 빠른 실행 속도를 가지며, 이는 모바일 단말 디바이스 상에 배치하기에 적절하다.
처리될 원본 객체 상에서 이미지 분할을 직접 수행하는 기존의 솔루션과 비교하여, 먼저 처리될 이미지 또는 처리될 회전 보정된 이미지에서 객체 영역을 검출한 다음 객체 영역을 별개로 분할하거나 본 출원의 실시예에서 제공되는 객체 영역을 병합한 후에 병합된 객체 영역을 분할하는 솔루션은 이미지 분할의 정확도를 효과적으로 향상시킬 수 있다. 이러한 효과를 보다 잘 설명하기 위해, 특정 예가 아래에 설명될 것이다.
도 13d는 본 출원의 예에서 처리될 이미지를 도시하는 개략도이며, 여기서 도면에서의 객체는 도면에서의 사람이다. 도 13e는 기존의 이미지 분할 방법을 사용함으로써 이미지 분할이 도 13d에서의 이미지 상에서 수행된 후의 개략도를 도시한다. 도 13f는 도 13e의 사람 객체 부분의 확대도이다. 도 13e 및 도 13f로부터 알 수 있는 바와 같이, 획득된 이미지 분할 결과의 분할 정확도는 낮고, 기존의 이미지 분할 방법을 사용함으로써 객체의 에지 분할 효과가 흐려진다.
도 13d에 도시된 처리될 객체의 경우, 이미지 내의 객체 영역은 이미지 검출 모델(예컨대, YOLO, 또는 SSD 검출 모델)에 의해 검출될 수 있다. 도 13g에 도시된 객체 영역 검출 결과에 도시된 바와 같이, dx 및 dy는 각각 처리될 이미지에서 객체 영역의 바운딩 박스의 좌측 상위 코너 상의 좌표 점의 좌표 값을 나타내며, 여기서 좌표 원점은 일반적으로 처리될 이미지의 좌측 하위 코너 상의 좌표 점이며, w 및 h는 각각 바운딩 박스의 폭 및 높이, 즉 검출된 객체 영역의 폭 및 높이를 나타낸다. 객체 영역을 검출한 후, 도 13h에 도시된 바와 같이, 처리될 이미지는 객체 영역의 이미지를 획득하기 위해 검출된 객체 영역의 위치 정보(dx, dy, w, 및 h를 포함함)에 따라 크로핑될 수 있다. 그 후, 객체 영역은 도 13i에 도시된 분할 결과를 획득하도록 분할될 수 있다. 도 13i와 도 13f를 비교함으로써, 본 출원의 실시예에 기초한 솔루션은 이미지 분할 정확도를 효과적으로 향상시키는 것을 알 수 있다. 구체적으로, 객체 영역의 이미지가 처리될 이미지를 크로핑함으로써 획득될 때, 다음과 같은 공식이 사용될 수 있다:
Figure pat00002
여기서, x 및 y는 각각 처리될 이미지에서 객체 영역의 이미지 좌표 점의 좌표 값, 즉, 도 13g에 도시된 객체 영역의 좌표 점의 좌표 값을 나타내고; x' 및 y'는 크로핑된 이미지에서 객체 영역의 상응하는 좌표 점의 좌표 값, 즉, 도 13h에서 객체 영역에 상응하는 도 13h에서의 좌표 점의 좌표 값을 나타내며; sx 및 sy는 이미지 스케일링 비율이며, 구체적으로, sx = w/W 및 sy = h/H이며, 여기서 W 및 H는 스케일링된 이미지의 폭 및 높이, 즉 도 13h에 도시된 바와 같이 크로핑 후에 획득된 객체 영역의 이미지의 폭 및 높이를 나타낸다.
본 출원의 선택적인 실시예에서, 처리될 이미지를 분할하는 단계는,
객체 분할 모델을 통해 처리될 이미지를 분할하는 단계를 포함할 수 있으며;
여기서, 객체 분할 모델은 신경망을 트레이닝시킴으로써 획득된다.
게다가, 객체 분할 모델은 입력 이미지에서 객체의 카테고리에 기초하여 입력 이미지를 분할하는 모델일 수 있다.
종래 기술에서, 에지 추출 방법은 객체의 영역을 결정할 때 주로 사용된다. 그러나, 에지 추출 방법은 객체 카테고리를 구별하지 못할 수 있고, 즉, 이미지 내의 객체가 사람인지 동물인지 등을 구별하지 못할 수 있다. 따라서, 이미지 스타일 전송을 수행할 때, 타겟 객체의 카테고리를 유연하게 선택할 수 없다. 게다가, 이미지에서 둘 이상의 객체 사이에 중첩 영역이 존재하는 경우, 에지 추출 방법을 사용함으로써 둘 이상의 객체의 영역을 정확하게 추출하지 못할 수 있다. 따라서, 종래 기술에서 객체 영역을 결정하는 정확성 및 유연성은 낮아서, 이미지 분할 결과가 만족스럽지 않다.
이러한 문제를 고려하여, 본 출원의 선택적인 실시예에서, 객체의 영역을 결정할 때, 신경망에 기초한 객체 분할 방법이 사용될 수 있다. 이러한 방법은 상이한 객체 카테고리에 기초하여 분할을 달성할 수 있을 뿐만 아니라, 객체 사이에 중첩 영역이 존재할 때 타겟 객체를 정확하게 분할하여, 객체 영역을 결정하는 정확성 또는 유연성을 향상시킬 수 있다.
본 출원의 선택적인 실시예에서, 타겟 영역은 명시된 카테고리의 객체가 처리될 이미지에 위치되는 영역을 포함할 수 있다.
본 출원의 실시예에서 제공되는 객체 분할 모델은 객체 카테고리에 기초하여 이미지 분할을 구현할 수 있기 때문에, 실제 응용에서, 스타일 전송은 하나 또는 일부 명시된 카테고리의 객체가 실제 요구에 따라 이미지에 위치되는 영역 상에서 수행될 수 있다. 명시된 카테고리는 시스템에 의해 미리 설정된 카테고리, 또는 실제 요구에 따라 사용자에 의해 명시된 카테고리일 수 있다.
본 출원의 선택적인 실시예에서, 방법은,
양식화될 필요가 있는 객체의 명시된 카테고리를 포함하는 스타일 전송 요청을 수신하는 단계를 더 포함할 수 있다. 즉, 스타일 전송 요청은 특정 카테고리인 객체의 카테고리 상에서 정보를 반송할 수 있다. 즉, 사용자는 이러한 카테고리의 객체를 양식화될 이미지로서 명시한다. 객체가 처리될 이미지에 위치되는 영역은 타겟 영역이다.
즉, 이미지 상에서 스타일 전송을 수행할 때, 사용자는 실제 요구에 따라 양식화될 필요가 있는 객체의 카테고리를 유연하게 선택할 수 있으며, 이는 사용자의 요구를 보다 잘 충족시킨다. 물론, 실제 응용에서, 양식화될 필요가 있는 이미지의 영역이 하나 또는 일부 명시된 카테고리의 객체가 위치되는 영역을 포함하지 않는 영역인 경우, 스타일 전송 요청은 또한 객체의 명시된 카테고리 상의 정보를 포함할 수 있다. 여기에 명시된 카테고리는 양식화될 필요가 없는 객체의 카테고리이다.
본 출원의 선택적인 실시예에서, 객체 분할 모델은 PSPNet(Pyramid Scene Parsing Network)을 포함하며, 여기서 PSPNet의 피라미드 풀링 모듈(pyramid pooling module)의 계층의 수는 설정된 수보다 작다. 따라서, 피라미드 풀링 모듈의 계층의 수는 감소될 수 있고, 모델의 경량화는 달성될 수 있다.
객체 분할 모델을 더 많은 종류의 단말 디바이스에 더 잘 적용하고, 모바일 단말 디바이스 상에서 정상적으로 실행되도록 하기 위해, 본 출원의 실시예에서 사용되는 객체 분할 모델은 원래의 PSPNet에 기초하여 개선된다. 기존의 PSPNet에서 피라미드 풀링 모듈의 계층 수를 줄임으로써, 모델의 경량화는 분할 정확도를 보장한다는 전제하에 달성될 수 있으므로, 모델이 모바일 단말 디바이스에 잘 적용될 수 있다.
원래의 PSPNet은 글로벌 콘텍스트의 우선 순위 구조, 즉 피라미드 풀링 모듈을 제공하며, 피라미드 풀링 모듈은 네트워크 구조에 계층적 글로벌 우선 순위를 부여하고, 상이한 크기의 상이한 하위 영역에 대한 정보를 포함하여, 더욱 정확한 분할 결과를 얻는다. 도 14a에 도시된 바와 같이, 원래의 PSPNet에서, 처리될 이미지(도면에 도시된 입력 이미지)에 대해, 특징 추출 네트워크(예컨대, 도면에 도시된 잔차 네트워크(residual network))가 먼저 입력 이미지의 특징 맵을 획득하기 위해 사용된다. 특징 맵은 피라미드 풀링 모듈의 입력으로서 사용된다. 이러한 모듈은 4가지 상이한 피라미드 스케일(scale)을 가진 특징을 융합한다. 도면에 도시된 바와 같이, 특징 맵은 4개의 특징 맵, 즉, 도면에 도시된 바와 같은 특징 맵 1 내지 4를 획득하기 위해 4개의 상이한 스케일로 풀링된다. 글로벌 특징의 비율을 제어하기 위해, 풀링의 결과는 각각 상응하는 컨볼루션 계층에 의해 처리되어 특징 맵 1 내지 4의 크기를 감소시켜 감소된 차원의 특징 맵 1' 내지 4'를 획득한다. 차원이 낮은 특징 맵 1' 내지 4'는 업샘플링(up-sampling)되고, 업샘플링된 특징 맵은 피라미드 풀링 모듈의 입력인 특징 맵에 연결되어(스티칭(stitching)이라고도 함), 최종 특징 맵을 획득한다. 최종 특징 맵은 컨볼루션 계층에 입력되어, 최종 이미지 분할 결과, 즉 도면에 도시된 출력 이미지를 획득한다.
본 출원의 실시예에서 사용된 객체 분할 모델에서 선택적 솔루션으로서 모델을 단말 디바이스에 더 잘 적용하기 위해, 피라미드 풀링 모듈의 제3 계층은 제거되어(즉, 특징 맵 3의 동작), 3개의 상이한 피라미드 스케일에 대한 정보를 획득할 수 있다. 이러한 계층을 제거한 후, PSPNet 상의 멀티 스케일 정보는 또한 분할 정확도를 보장하기 위해 유지되며, 동시에 네트워크 구조는 모델을 단말기 상에서 더 빨리 실행되게 하도록 축소됨으로써, 모바일 단말 디바이스를 포함하는 더 많은 타입의 단말 디바이스 상에서 실행될 수 있도록 한다. 상술한 예에서, 설정된 계층의 수는 4일 수 있으며, 즉 피라미드 풀링 모듈의 계층의 수는 4보다 작다.
예로서, 도 14b는 본 출원의 실시예에 따라 개선된 피라미드 장면 파싱 네트워크를 도시한 개략적인 구조도이다. 도 14a와 비교하여, 피라미드 모델의 제3 층은 모델로부터 제거되며, 즉, 컨볼루션 커널(convolution kernel)은 도면에 도시된 바와 같이 3 * 3 계층이다. 이러한 모델에 기초하여, 3개의 상이한 피라미드 스케일을 갖는 특징이 획득될 수 있다. 피라미드의 멀티 스케일 특징을 유지한다는 전제에서, 하나의 스케일의 파라미터는 감소되며, 이는 정확도를 보장할 뿐만 아니라 모델의 실행 시간을 감소시킨다.
본 출원의 선택적인 실시예에서, 타겟 영역 상에서 스타일 전송을 수행하는 단계는,
스타일 전송 모델을 통해 타겟 영역 상에서 이미지 스타일 전송을 수행하는 단계로서, 스타일 전송 모델은 GAN(generalative adversarial network)을 포함하는, 상기 수행하는 단계를 포함할 수 있다. GAN에서의 생성자의 네트워크 구조는,
컨볼루션 계층, 잔차 네트워크(잔차 연결 블록으로도 지칭됨) 및 순차적으로 캐스케이드된(cascaded) 디컨볼루션 계층을 포함하는 조건;
컨볼루션 계층 및 순차적으로 캐스케이드된 디컨볼루션 계층을 포함하는 조건;
컨볼루션 계층, 깊이 방향 컨볼루션 계층 및 순차적으로 캐스케이드된 디컨볼루션 계층을 포함하는 조건; 및
컨볼루션 계층, 깊이 방향 컨볼루션 계층, 잔차 네트워크 및 순차적으로 캐스케이드된 디컨볼루션 계층을 포함하는 조건 중 어느 하나를 충족하며;
적어도 하나의 컨볼루션 계층에서의 채널의 수는 설정된 수보다 작다.
기존의 네트워크 구조와 비교하여, 본 출원의 실시예에서 제공되는 GAN 생성자의 네트워크 구조는 네트워크 구조의 적어도 하나의 컨볼루션 계층에서 채널의 수를 감소시켜 네트워크 구조에서 파라미터의 양을 감소시킴으로써 네트워크 구조의 경량화를 실현할 수 있다. 네트워크 구조의 입력 이미지와 출력 이미지 사이의 이미지 크기의 일관성(consistency)은 디컨볼루션 계층을 네트워크 구조에 부가함으로써 보장될 수 있다. 다른 방식으로, 잔차 네트워크 및 깊이 방향 컨볼루션 계층 중 적어도 하나는 컨볼루션 계층 중 일부를 대체하여 이미지 처리 효과를 더 향상시키고, 파라미터의 양을 감소시키는 데 사용될 수 있다. 본 출원의 실시예에서 제공되는 생성자의 네트워크 구조의 효과에 대한 상세한 설명에 대해서는 아래의 예에서 추가의 설명을 참조한다.
GAN은 이미지 생성 분야에서 일반적으로 사용되는 트레이닝 방법이며, 이러한 방법은 얼굴 생성, 얼굴 속성 편집 및 이미지 채색과 같은 응용에서 양호한 결과를 달성하였다. 따라서, 선택적인 방식으로서, 타겟 영역의 스타일 전송은 GAN을 포함하는 스타일 전송 모델에 기초하여 실현될 수 있다.
스타일 전송 태스크(task)의 경우, GAN은 각각의 콘텐츠 이미지의 스타일 전송 전후 사이에 쌍을 이룬 샘플을 트레이닝시킬 필요가 있으므로, 다른 방법이 각각의 트레이닝 콘텐츠 이미지에 대한 상응하는 스타일 전송 이미지 그라운드 트루스를 생성하는데 사용될 필요가 있다. 선택적인 방식으로서, Markov 랜덤 필드에 기초한 느린 스타일 전송 방법은 스타일 전송 이미지 그라운드 트루스를 생성하는데 사용될 수 있다.
예로서, 도 15는 Markov 랜덤 필드 기반 스타일 전송 방법을 이용함으로써 스타일 전송 이미지 그라운드 트루스를 생성하는 방식을 도시하는 개략적인 흐름도이다. 도면에 도시된 바와 같이, 주어진 콘텐츠 이미지 XC 및 스타일 이미지 XS의 경우, 본 발명의 목적은 XS와 비슷한 스타일과 XC와 동일한 콘텐츠를 갖는 이미지 X(즉, 스타일 전송 타겟 이미지)를 생성하는 것이며, 즉, 콘텐츠 이미지 XC는 XS와 동일한 스타일을 가진 이미지 X로 전송된다. X는 랜덤 노이즈로 초기화될 수 있다. 각각의 후속 반복에서, X, XC 및 XS는 고정된 파라미터를 갖는 컨볼루션 신경망에 입력되어 특징 맵 F(즉, 스타일 전송 타겟 이미지 특징 맵), FC(즉, 콘텐츠 이미지 특징 맵), 및 FS(즉, 스타일 이미지 특징 맵)의 여러 계층을 획득하며, 여기서 신경망은 실제 필요에 따라 선택될 수 있으며, 이는 VGG(Visual Geometry Group) 및 AlexNet 등과 같은 신경망 구조를 포함할 수 있지만, 이에 제한되지 않는다. F와 FS 사이의 Markov 랜덤 필드 손실 및 F와 FC 사이의 L2 손실(즉, 평균 제곱 에러 손실)이 계산된다. 두 손실은 가중되고 X로 다시 전송되어 X를 업데이트하며, 이는 역 그라디언트 계산(reverse Gradient calculation)이다. Markov 랜덤 필드 손실은 로컬 정보에 더 많은 관심을 기울이고, L2 손실은 글로벌 정보에 더 많은 관심을 기울인다. 가중된 손실 변화가 수렴하는 경향이 있을 때, 반복은 중지된다. 이때, X는 XC와 동일한 콘텐츠를 가져야 하며, XS와 비슷한 스타일을 가져야 한다. 이때, X는 XC의 그라운드 트루스이다. 모든 트레이닝 콘텐츠 이미지는 GAN의 적대적인 생성 트레이닝을 위한 이러한 방법에서 스타일 전송 이미지 그라운드 트루스를 생성하는데 사용될 수 있다.
예로서, 도 16은 GAN의 네트워크 구조를 도시하는 개략도이다. 도면에 도시된 바와 같이, GAN에서, 생성자는 이미지 스타일 전송을 담당하고, 판별자(discriminator)를 혼동한다. 콘텐츠 이미지 XC는 생성자에 입력되고, 생성자는 스타일 전송 이미지 XG를 생성하며, 판별자는 생성된 이미지가 현재 모델에 의해 생성되는지 스타일 전송 이미지 그라운드 트루스에 의해 생성되는지를 결정하는 책임을 맡으며, 즉 생성자에 의해 생성된 이미지 XG가 콘텐츠 이미지 XC의 스타일 전송 이미지 그라운드 트루스인지를 결정하는 책임을 맡는다. 생성자 손실은 GAN 손실, 특징 손실 및 픽셀 손실을 포함한다. GAN 손실은 현재 생성자에 의해 출력된 스타일 전송 이미지 XG 및 스타일 전송 이미지 그라운드 트루스 X가 판별자에 입력된 후 판별자에 의해 출력된 교차 엔트로피 손실(cross-entropy loss)을 지칭한다. 특징 손실은 XG 및 X가 고정된 파라미터를 갖는 VGG 네트워크(다른 타입의 신경망일 수도 있음)에 입력된 후 특정 계층에서 XG 및 X의 특징 맵의 L2 손실을 지칭한다. 픽셀 손실은 TV(Total Variation) 손실, L2 손실과 같은 XG 및 X의 픽셀 별 손실(pixel-by-pixel loss)을 지칭한다. GAN 네트워크를 트레이닝시킬 때, 판별자의 파라미터는 생성자가 트레이닝될 때 고정될 수 있고, 생성자의 파라미터는 상술한 3가지 타입의 손실을 가중 합산하여 업데이트될 수 있다. 판별자를 트레이닝시킬 때, 생성자의 파라미터는 고정되고, 판별자는 XG 및 X가 판별자에 입력된 후 판별자에 의해 출력된 교차 엔트로피 손실을 분류함으로써 업데이트된다. 생성자와 판별자는 둘 다 수렴에 가까워질 때까지 교대로 트레이닝되며, 따라서 GAN의 트레이닝은 완료된다. 이때, 생성자에 의해 생성된 스타일 전송 이미지는 고품질을 가진 스타일 전송 이미지 그라운드 트루스와 매우 가까워야 한다.
일반적으로, 더 나은 결과를 생성하기 위해, 딥 러닝 모델은 종종 매우 복잡한 네트워크 구조로 설계되며, 이는 모델이 더 많은 양의 파라미터 및 더 느린 실행 속도를 갖게 할 수 있다. 스타일 전송 모델이 휴대 전화 및 태블릿과 같은 휴대용 단말 디바이스 상에서 실시간으로 실행되고, 더 많은 타입의 단말 디바이스 상에서 실행되도록 하기 위해, 경량 프로세스가 본 출원의 실시예에서 전자 디바이스 상에서 스타일 전송 모델의 모델 크기 및 이 모델의 실행 속도 상에서 수행된다. 구체적으로, 스타일 전송 모델에서의 생성자의 네트워크 구조는 최적화되어 모델 크기를 줄이고 실행 속도를 향상시킨다.
본 출원의 실시예에 의해 제공되는 생성자의 경량 네트워크 구조에서의 선택적인 구조로서, 잔차 연결 블록이 사용될 수 있다. 정상 컨볼루션 동작과 비교하여, 잔차 연결 블록은 파라미터의 양을 감소시키는데 기여한다. 게다가, 잔차 연결 블록은 입력을 후속 계층에 직접 연결하는 많은 바이패스 브랜치를 가짐으로써, 후속 계층은 잔차(residual)를 직접 러닝(learning)할 수 있다. 종래의 컨볼루션 계층은 정보 전송 동안 다소 정보 손실을 가지므로, 잔차 연결 블록은 이러한 문제를 어느 정도 해결한다. 정보의 무결성을 보호하기 위해 입력 정보를 출력으로 직접 바이패스함으로써, 전체 네트워크는 입력과 출력의 차이 부분만을 러닝할 필요가 있으므로, 러닝의 목표와 어려움을 단순화할 수 있다.
게다가, 이러한 솔루션에서 적어도 하나의 컨볼루션 계층의 채널의 수(컨볼루션 커널의 수)는 또한 이에 따라 파라미터의 양을 더 감소시키기 위해 감소될 수 있다. 예를 들어, 도 17b에 도시된 생성자의 네트워크 구조에서, 컨볼루션 계층의 컨볼루션 커널의 수(도면에 도시된 컨볼루션 계층, 깊이 방향 컨볼루션 계층 또는 디컨볼루션 계층 중 적어도 하나일 수 있음)는 이에 상응하여 실제 요구에 따라 감소될 수 있다.
예로서, 도 17a는 VGG-19에 기초한 네트워크 구조인 기존의 생성자의 네트워크 구조를 도시하는 개략도이다. 도면에 도시된 바와 같이, 생성자는 컨볼루션 계층 사이에 위치된 다중 레벨의 컨볼루션 계층들 및 풀링 계층을 포함한다. 컨볼루션 계층에 뒤따른 숫자 중에서, 첫 번째 숫자는 필터의 수, 즉 컨볼루션 커널의 수를 나타내고, 두 번째 숫자는 컨볼루션 커널의 크기를 나타낸다. 풀링 계층에 뒤따른 숫자는 풀링 계층의 풀링 커널의 크기를 나타낸다. 예를 들어, 도면에 도시된 컨볼루션 계층(64, 3)에서, 64는 컨볼루션 커널의 수를 나타내고, 3은 컨볼루션 커널의 크기가 3×3임을 나타낸다. 도면에 도시된 풀링 계층(2)은 풀링 커널이 2×2임을 나타낸다. 도 17a에 도시된 VGG-19 네트워크 구조의 모델 크기는 약 115Mb이고, 이미지 상의 처리는 약 2500ms가 걸리므로, 모델이 너무 커서 이미지 처리 속도가 너무 느리며, 이는 실제 응용 요구 사항을 충족하지 않을 수 있다. 특히, 모바일 단말 디바이스 상의 적용 가능성이 너무 열악하다.
예로서, 도 17b는 본 출원의 실시예에서 제공되는 GAN 네트워크에서 생성자의 네트워크 구조를 도시한 개략도이다. 도면에 도시된 바와 같이, 생성자의 네트워크 구조는 풀링 계층, 4개의 컨볼루션 계층, 깊이 방향 컨볼루션 계층, 4개의 잔차 연결 블록(도면에서 점선으로 둘러싸인 부분이 잔차 연결 블록임), 및 3개의 디컨볼루션 계층을 포함할 수 있다. 이러한 네트워크 구조에 기초하여, 네트워크 구조의 채널의 수는 기존의 생성자에 사용된 채널의 수보다 적으며, 예를 들어, 도 17b에 도시된 네트워크 구조의 컨볼루션 커널의 채널의 수가 도 17a에 도시된 네트워크 구조에서의 컨볼루션 커널의 수보다 적으므로, 네트워크 구조의 모델 크기는 경량 구조를 달성하기 위해 효과적으로 감소될 수 있다. 게다가, 이러한 예에서, 깊이 방향 컨볼루션 계층 구조가 사용될 수 있다. 깊이 컨볼루션 계층은 종래의 컨볼루션 계층과 비교하여 감소된 파라미터를 갖기 때문에, 깊이 방향 컨볼루션 계층의 사용은 처리될 데이터의 양을 더 감소시킬 수 있다. 예를 들어, 도 17b에 도시된 깊이 컨볼루션 계층(128, 4)의 컨볼루션 커널의 크기는 4이며, 즉 2개의 연속적인 컨볼루션 커널 4×1 및 1×4가 계산을 위해 사용된다. 파라미터의 양은 종래의 컨볼루션 계층(예컨대, 컨볼루션 계층(64, 3))에 비해 효과적으로 감소될 수 있다.
상술한 설명으로부터 알 수 있는 바와 같이, 컨볼루션 계층과 비교하여, 도 17b의 잔차 네트워크, 즉 잔차 연결 블록은 더 나은 데이터 처리 효과를 가지며, 이의 파라미터의 양은 더 감소될 수 있다. 게다가, 컨볼루션 동작은 원래의 입력 이미지의 크기를 감소시킬 수 있기 때문에, 이러한 예에서의 네트워크 구조는 디컨볼루션 계층을 부가하여 업샘플링의 효과를 달성함으로써, 입력 이미지의 크기로 컨볼루션 후 감소된 특징 맵을 복원하며, 이는 이미지 처리 효과를 향상시키고 실제 요구를 더 잘 충족시킨다.
도 17b에 도시된 경량 생성자의 모델 크기는 약 2Mb이고, 이미지 상의 처리는 약 250ms가 걸린다. 기존의 스타일 전송 모델 구조와 비교하여, 본 출원의 실시예에서 제공되는 GAN 네트워크 모델의 크기는 상당히 감소되고, 이미지 처리 효율은 또한 크게 개선되어, 실제 요구를 더 잘 충족시키고 사용자의 사용 경험을 향상시킨다.
본 출원의 선택적인 실시예에서, 방법은,
처리될 이미지가 양식화된 후에 획득된 이미지에 포함된 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵을 획득하기 위해 객체 분할 모델을 통해 처리될 이미지를 분할하는 단계로서, 객체 확률 분포 맵의 각각의 픽셀 포인트는 처리될 이미지 내의 요소 포인트에 상응하는 픽셀 포인트가 이미지 스타일에 상응하는 분할 카테고리의 픽셀 포인트에 속하는 확률을 나타내고; 분할 카테고리가 상응하는 이미지 스타일로 전송될 때, 확률 분포 맵의 각각의 요소 포인트는 처리될 이미지의 요소 포인트에 상응하는 픽셀 포인트가 이미지 스타일의 픽셀 포인트에 속하는 확률을 나타내는, 상기 분할하는 단계; 및
각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여 객체 이미지를 획득하기 위해 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합하는 단계를 더 포함한다.
구체적으로, 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여 객체 이미지를 획득하기 위해 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합하는 단계는,
각각의 이미지 스타일에 상응하는 객체 확률 분포 맵을 상응하는 양식화된 이미지의 가중치 맵으로서 사용하고, 타겟 이미지에서 상응하는 픽셀 포인트의 픽셀 값을 획득하기 위해 각각 양식화된 이미지 내의 픽셀 포인트의 픽셀 값을 가중 합산하는 단계를 포함할 수 있다.
선택적으로, 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵이 상응하는 양식화된 이미지의 가중치 맵으로서 사용되고, 양식화된 이미지 내의 픽셀 포인트의 픽셀 값이 가중 합산되어 타겟 이미지 내의 각각의 픽셀 포인트의 픽셀 값을 획득할 때, 다음과 같은 방식:
각각의 이미지 스타일에 상응하는 객체 확률 분포 맵을 전처리하는 단계; 및
각각의 이미지 스타일에 상응하는 전처리된 객체 확률 분포 맵을 상응하는 양식화된 이미지의 가중치 맵으로서 사용하고, 타겟 이미지에서 상응하는 픽셀 포인트의 픽셀 값을 획득하기 위해 각각 양식화된 이미지 내의 픽셀 포인트의 픽셀 값을 가중 합산하는 단계가 사용될 수 있다.
전처리는 선형 변환 프로세스 또는 비선형 변환 프로세스일 수 있다.
객체 분할의 결과에 따라, 스타일 전송이 처리될 이미지에서 타겟 영역의 이미지 상에서 수행된 후, 스타일 전송이 처리될 이미지의 일부 상에서 수행되는 경우, 즉 타겟 영역이 처리될 이미지 내의 영역의 일부인 경우, 처리될 이미지 내의 비타겟 영역(즉, 스타일 전송이 없는 영역의 이미지)은 전송된 타겟 영역의 이미지와 융합된다. 대안으로, 스타일 전송이 처리될 이미지의 각각의 영역 상에서 수행되는 경우, 즉, 타겟 영역이 전체 이미지 영역인 경우, 상이한 스타일의 타겟 영역에 상응하는 이미지는 다수의 스타일이 공존하는 이미지를 획득하기 위해, 즉 양식화된 타겟 이미지를 획득하기 위해 융합될 필요가 있다.
설명의 편의를 위해, 처리될 이미지의 이미지 스타일, 즉 원본 이미지는 원래 스타일로서 지칭되고, 타겟 영역이 전송될 필요가 있는 스타일은 타겟 스타일로서 지칭된다.
본 출원의 실시예에서 제공되는 방법은 하나 이상의 스타일 전송이 이미지 상에서 수행되는 장면에 적용 가능하다. 하나의 스타일 전송만을 가진 장면의 경우, 전송된 이미지의 이미지 스타일은 원래 스타일과 하나의 타겟 스타일을 포함한다. 상이한 실제 응용 요구 사항에 기초하여 다수의 타겟 영역 상에서 다수의 스타일 전송을 가진 장면의 경우, 전송된 이미지에 포함된 이미지 스타일은 상이할 수 있다. 예를 들어, 2개의 상이한 스타일 전송이 이미지의 전경 이미지 영역 및 배경 이미지 영역 상에서 수행되는 경우, 전송된 이미지는 2개의 상이한 타겟 스타일을 포함한다. 다른 예의 경우, 하나의 스타일 전송이 이미지의 하나 이상의 타겟 영역 상에서 수행되고, 다른 스타일 전송이 다른 하나 이상의 타겟 영역 상에서 수행되며, 또한 비타겟 영역이 있는 경우, 전송된 이미지는 2개의 상이한 타겟 스타일과 하나의 원래 스타일을 포함한다.
동일한 픽셀 포인트에 대해, 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵 상에서 픽셀 포인트에 상응하는 요소 포인트의 값의 합은 1인 것으로 이해될 수 있다. 상술한 확률의 값은 구체적으로 부동 소수점 데이터(floating-point data)일 수 있으며, 구체적으로 [0.0, 1.0] 범위의 값일 수 있다.
실제 응용에서, 객체 분할의 결과는 사용된 분할 모델의 성능과 매우 상관되므로, 전환 영역(transition region)이 너무 크거나 작을 수 있다. 전환 영역이 너무 크거나 작게 되어 전환 영역에서 상이한 양식화된 이미지 사이의 융합 효과에 영향을 미치지 않도록 하기 위해, 각각의 양식화된 이미지에 상응하는 객체 확률 분포 맵은 양식화된 이미지의 융합 전에 전처리될 수 있다. 구체적으로, 전환 영역이 너무 작으면, 전환이 충분히 매끄럽지 않고, 퍼지 알고리즘이 처리를 위해 사용될 수 있으며, 본 출원은 본 명세서에서 반복되지 않을 것이다. 전환 영역이 너무 큰 경우, 객체 확률 분포 맵은 다시 전송되어 전환 영역을 감소시킬 수 있다. 전송 방법은 선형 변환 및 비선형 변환을 포함하지만 이에 제한되지 않는다.
실제 응용에서, 객체 확률 분포 맵 상에서의 전처리는 분할 모델 내부 또는 분할 모델 외부에서 수행될 수 있다는 것이 주목되어야 한다. 예를 들어, 전처리가 모델의 계층 구조로서 사용되는 경우, 전처리 계층은 객체 확률 분포 맵의 출력 계층에 연결된다. 대안으로, 전처리는 객체 확률 분포 맵이 모델을 통해 출력된 후에 모델 외부에서 수행될 수 있다.
이하, 본 출원의 실시예에서 제공되는 이미지 융합 방식은 특정 예로 설명될 것이다.
예 1
이러한 예에서, 스타일 전송된 이미지가 2개의 스타일을 포함하는 장면은 설명을 위한 예로서 사용된다. 두 가지 스타일은 원래 스타일과 타겟 스타일, 또는 두 가지 타겟 스타일일 수 있다. 이러한 예는 두 가지 스타일을 예로서 원래 스타일과 타겟 스타일인 것으로 취한다.
이러한 예에서, 스타일 전송은 전경 이미지 영역이 아니라 처리될 이미지의 배경 이미지 영역에서만 수행된다고 가정된다. 구체적으로, 처리될 이미지에서 배경 이미지 영역을 획득하기 위해 처리될 이미지를 분할한 후, 스타일 전송은 배경 이미지 영역 상에서 수행되어 상응하는 양식화된 이미지를 획득할 수 있다. 상술한 설명에서 설명된 바와 같이, 스타일 전송을 수행할 때, 배경 이미지 영역의 스타일만을 전송할 수 있다. 전송이 완료된 후, 전송된 배경 이미지 영역은 처리될 이미지의 전경 이미지 영역과 융합되어 상응하는 양식화된 이미지를 획득한다. 대안으로, 처리될 전체 이미지는 전송될 수 있고, 전송된 이미지의 배경 이미지 영역은 전송 전에 처리될 이미지의 전경 이미지 영역과 융합되어 상응하는 양식화된 이미지를 획득한다.
처리될 이미지에 대해, 전송된 이미지에서 각각 원래 스타일 및 타겟 스타일에 상응하는 객체 확률 분포 맵은 이미지 분할 모델을 통해 획득될 수 있다. 2개의 이미지 스타일만이 포함될 때, 이미지의 하나의 픽셀 포인트에 대해, 이러한 2개의 확률 분포 맵에서 상응하는 확률의 합은 1이다. 따라서, 실제 응용에서, 전송된 이미지가 두 가지 스타일만을 포함할 때, 객체 분할 모델은 객체 확률 분포 맵 중 하나만을 출력할 수 있고(P2로서 기록될 수 있음), 다른 객체 확률 분포 맵은 1-P2로서 표현될 수 있다. 각각의 스타일에 상응하는 객체 확률 분포 맵을 획득한 후, 원래 스타일에 상응하는 스타일 이미지는 2개의 확률 분포 맵에 기초하여 타겟 스타일에 상응하는 스타일 이미지와 융합될 수 있다.
구체적으로, 다음과 같은 공식을 통해 달성될 수 있다:
Output_style=P2*Foreground_style+(1- P2)*Background_style
여기서, Output_style은 타겟 이미지를 나타내고, Foreground_style은 처리된 이미지의 전경 스타일(즉, 원래 스타일)에 상응하는 스타일 이미지, 즉 원본 이미지를 나타내고, Background_style은 처리된 이미지의 배경 스타일(즉, 타겟 스타일)에 상응하는 스타일 이미지를 나타내며, 이는 처리될 이미지가 타겟 스타일에 기초하여 전송된 후에 획득된 이미지로서 이해될 수 있고, P2는 전경 스타일에 상응하는 객체 확률 분포 맵을 나타내고, 1-P2는 타겟 스타일에 상응하는 객체 확률 분포 맵을 나타낸다.
본 출원의 실시예에서, 객체 분할 결과의 표현 방식은 객체 확률 분포 맵, 즉 원본 이미지의 각각의 픽셀 포인트가 전경 객체에 속하는 확률이며, 이의 값 범위는 [a1, a2]로서 표현될 수 있다. 본 출원의 실시예는 구체적으로 a1 및 a2에 제한되지 않으며, [a1, a2]는 일반적으로 [0, 1] 또는 [0, 100]일 수 있으며, 여기서 0은 픽셀 포인트가 전경 객체가 아님을 나타내고, 즉, 픽셀 포인트는 배경 영역의 픽셀 포인트이고, 1 또는 100은 픽셀 포인트가 전경 객체, 즉 픽셀 포인트가 전경 영역의 픽셀 포인트임을 나타낸다. [0, 1]은 이하의 설명을 위한 예로서 사용된다.
종래 기술에서, 객체 분할 결과는 일반적으로 객체 확률 맵 상의 이진 프로세스 후의 결과이다. 즉, 확률 임계치 a0가 설정되고, 객체의 확률이 a0보다 클 때, 픽셀 포인트의 확률은 1로 설정되고, 그렇지 않으면 0으로 설정된다. 도 18a는 객체 확률 분포 맵 p0을 도시하는 개략도이다. 기존의 방식에 기초하여, 확률 임계치 a0이 0.5인 경우, 객체 확률 분포 맵 p0에서 0.5 이상의 확률 값은 1로 이진화되고, 0.5보다 작은 확률 값은 0으로 이진화된다. 도 18b는 이진화된 객체 확률 분포 맵 p1을 도시한다. 이진화된 객체 확률 분포 맵 p1이 객체 영역과 배경을 융합하기 위해 직접 사용될 때, 심각한 시각적 콘트라스트(severe visual contrast)는 전환 부분에 나타날 수 있다. 종래 기술에서, p1은 일반적으로 전환 영역을 부드럽게 하기 위해 흐려진다. 그러나, 이러한 동작은 전환 영역의 크기를 일정하게 하고, 원래의 전환 영역과의 일관성을 유지하지 못하여, 시각 효과가 불량하다. 종래 기술에서의 상술한 문제점을 고려하여, 본 출원의 실시예는 처리될 이미지에서 전경 이미지 영역 상에서 스타일 전송을 수행하고, 배경 이미지 영역 상에서 스타일 전송을 수행하지 않도록 함으로써, 타겟 이미지가 원래 스타일 및 타겟 스타일을 포함하도록 제안한다. 본 출원의 실시예에 의해 제공되는 이미지 소프트 분할 방식에 기초하여, 본 출원에 의해 제안된 객체 소프트 분할 결과 객체 확률 분포 맵은 전경 및 배경을 융합하기 위한 템플릿(template)으로서 직접 사용될 수 있다. 객체 분할 모델에 의해 출력된 결과는 객체 확률 분포 맵이고, 확률 분포 맵은 객체 전경의 확률 분포 맵, 즉 타겟 스타일(즉, 분포 맵 내의 각각의 요소 포인트에 상응하는 각각의 픽셀 포인트의 확률은 처리될 이미지의 전경 이미지 영역에 있으며, 즉, 픽셀 포인트의 확률은 타겟 스타일의 픽셀 포인트임), 또는 객체 배경의 확률 분포 맵, 즉, 원래 스타일일 수 있으므로, 확률 분포 맵이 전경과 배경을 융합하기 위한 템플릿으로서 직접 사용되는 경우, 원본 이미지에서의 전환 영역의 크기 및 위치는 가장 크게 유지되어, 전환 영역을 보다 자연스럽고 더 나은 시각적 효과를 얻게 한다.
구체적으로, 처리될 이미지에서 비타겟 영역 및 전송된 타겟 영역의 이미지의 융합은 다음의 것 중 어느 하나를 포함한다.
A: 처리될 이미지의 임의의 픽셀 포인트에 대해, 픽셀 포인트의 타겟 영역 확률 값이 제1 설정된 확률 값보다 크지 않으면, 픽셀 포인트의 타겟 영역 확률 값은 설정된 최소 확률 값이 되도록 설정되는 것;
B: 처리될 이미지의 임의의 픽셀 포인트에 대해, 픽셀 포인트의 타겟 영역 확률 값이 제2 설정된 확률 값보다 작으면, 픽셀 포인트의 타겟 영역 확률 값은 설정된 최대 확률 값이 되도록 설정되는 것; 및
C: 처리될 이미지의 임의의 픽셀 포인트에 대해, 픽셀 포인트의 타겟 영역 확률 값이 제1 설정된 확률 값과 제2 설정된 확률 값 사이에 있는 경우, 변환 처리(예컨대, 선형 변환 처리)는 픽셀 포인트의 타겟 영역 확률 값에서 수행되는 것.
제2 설정된 확률값은 제1 설정된 확률값보다 크고, 최대 확률값은 최소 확률값보다 크다.
게다가, 객체 분할의 결과는 사용된 분할 모델의 성능과 높은 상관 관계가 있기 때문에, 전환 영역이 너무 크거나 작을 수 있다. 전환 영역이 너무 작으면, 전환이 충분히 매끄럽지 않고, 퍼지(fuzzy) 알고리즘에 의해 처리될 수 있으며, 본 출원은 본 명세서에서 반복하지 않을 것이다. 전환 영역이 너무 크면, 원래 분할 모델 결과는 다시 전송되어 전환 영역을 감소시킬 수 있다. 전송 방법은 선형 변환 및 비선형 변환을 포함하지만 이에 제한되지 않는다.
예로서, 선형 변환을 예로서 취하면, 2개의 확률 임계 값 α0 및 α1은 각각 배경 및 객체의 확률 임계 값으로서 설정될 수 있다. 객체 확률 값 p0 ≤ α0이면, 여기에서의 객체 확률 값은 0으로 설정될 수 있다. 객체 확률 값 p0 ≥ α1이면, 여기에서의 객체 확률 값은 1로 설정될 수 있다. 나머지는 다음과 같은 선형 변환 공식
Figure pat00003
에 따라 처리될 수 있다. 도 18a에서 확률 분포 맵을 전송함으로써 획득된 객체 확률 분포 맵 p2는 도 18c에 도시된다. 도 18a을 도 18c와 비교함으로써, 전송 처리 후의 전환 영역은 실제 상황에 더 부합하는 원래 객체 확률 맵 p0의 것보다 작다는 것을 알 수 있다.
예로서, 도 18d는 기존의 객체 분할 모델을 도시하는 개략적인 구조도이다. 도면에 도시된 바와 같이, 객체 분할 모델은 구체적으로 순차적으로 캐스케이드되는 잔차 네트워크, 피라미드 풀링 모듈, 디코딩 네트워크, SoftMax 계층 및 Argmax 계층을 포함한다. 잔차 네트워크 및 피라미드 풀링 모듈에 대해서는 도 14a의 잔차 네트워크 및 피라미드 풀링 모듈에 대한 설명을 참조하며, 디코딩 네트워크, SoftMax 계층 및 Argmax 계층은 도 14a에 도시된 컨볼루션 구조의 마지막 계층의 특정 구현에 상응한다. 디코딩 네트워크는 스위칭된 특징 맵을 업샘플링하고, 특징 맵을 픽셀 공간에 투영하고, SoftMax 계층 및 Argmax 계층을 통해 각각의 픽셀 포인트의 카테고리의 라벨링, 즉, 각각의 픽셀의 분할 결과를 구현하는데 사용된다. 기존의 모델에서, SoftMax 계층의 출력에 대해, 각각의 출력 채널은 카테고리를 나타내고, SoftMax 계층의 각각의 채널에 상응하는 특징 맵(확률 분포 맵이라고도 함)의 각각의 요소 포인트 값은 상응하는 픽셀이 채널에 상응하는 카테고리에 속하는 확률이다. SoftMax 계층에 뒤따른 Argmax 계층은 SoftMax 계층의 출력 채널의 확률 분포 맵에서 픽셀 포인트의 값을 비교하고, 각각의 픽셀 포인트의 최대 확률 값에 상응하는 카테고리를 픽셀 포인트의 최종 카테고리로서 선택하여, 각각의 픽셀 포인트의 이진화된 분류 결과를 획득하는데 사용된다. 타겟 이미지에 포함된 각각의 이미지 스타일에 대해, 하나의 이미지 스타일은 하나의 카테고리에 상응할 수 있다. 기존의 분할 모델에 의해 출력된 분할 결과에서, 각각의 픽셀 포인트에 대해, 상응하는 스타일 결과가 이러한 카테고리이거나 이러한 카테고리가 아니다는 이진화 결과만이 있다.
본 출원의 실시예에 의해 제공되는 이미지 소프트 분할 방식에 기초하여, 도 18e는 이러한 방식의 원리에 기초한 객체 분할 모델을 도시하는 개략적인 구조도이다. 도 18d와 비교하여, 모델은 기존의 피라미드 풀링 모듈을 본 출원에서 제공되는 간결한 피라미드 풀링 모듈(예컨대, 도 14b에 도시된 피라미드 풀링 모델)로 대체할 뿐만 아니라 Softmax 계층의 출력을 최종 출력으로서 사용하기 위해 Argmax 계층을 제거할 수 있음으로써, 더 많은 카테고리에 상응하는 확률 분포 맵이 획득될 수 있다는 것을 알 수 있으며, 즉, 각각의 픽셀 포인트가 각각의 카테고리에 속하는 확률은 0 또는 1의 간단한 결과 대신에 획득될 수 있다. 따라서, 더 부드러운 이미지 스타일이 실현되고, 더 자연스러운 융합 결과가 분할 결과에 기초하여 양식화된 이미지를 융합할 때 획득된다.
예로서, 도 18f 및 도 18g는 각각 기존의 객체 분할 모델 및 본 출원의 실시예에서 제공되는 객체 분할 모델의 분할 결과에 기초하여 상이한 스타일을 갖는 이미지를 융합하는 효과를 도시하는 개략도이다. 이러한 예에서, 스타일 전송은 전경 부분(이미지 내의 사람이 완전히 도시되지 않은 도면에서 모자를 쓴 사람)이 아닌 이미지의 배경 부분 상에서 수행되며, 즉 전경은 스타일에 상응하고, 배경은 다른 스타일에 상응한다. 타겟 이미지에서 전경 부분과 배경 부분 사이의 전환 영역(즉, 상이한 영역의 에지 부분)에 대해, 두 그림에서 볼 수 있는 바와 같이, 두 그림에서 검은 타원에 의해 원형으로 표시된 영역을 예로서 취하면, 융합 효과는 이상적이지 않고, 에지 부분은 도 18g에서 충분히 자연스럽지 않으며, 그러나, 융합 효과는 도 18g에서와 비교하여 상당히 개선되고, 에지 부분의 가시화 효과는 도 18f에서 더 자연스럽다.
본 출원의 실시예에서 제공되는 솔루션을 적용함으로써, 배경 이미지를 스타일링한 결과 또는 객체를 스타일링한 결과가 획득될 수 있다. 객체가 없는 이미지의 경우, 스타일 전송 모델은 예술적 스타일 전송(artistic style transfer)에 직접 적용된다. 객체가 있는 이미지의 경우, 객체 분할 모듈 및 스타일 전송 모델은 객체 및 배경에 대해 상이한 예술적 스타일 전송을 달성하기 위해 적용된다. 객체 분할 모델은 회전 각도 예측 모듈 및 객체 검출 모듈을 통해 정확도를 보장함으로써, 실제 요구를 보다 잘 충족시킬 수 있다.
본 출원의 실시예에서 제공되는 솔루션에서의 회전 각도 예측 방식 및 객체 분할 방식은 이미지에서의 스타일 전송의 처리에 적용 가능할 뿐만 아니라 이미지 분할을 필요로 하는 다른 이미지 처리 솔루션에도 적용 가능한 것으로 이해될 수 있다. 예를 들어, 이미지 내의 명시된 객체 또는 명시된 영역을 편집하기 위한 종래의 처리 솔루션의 경우, 이미지 내의 타겟 영역(즉, 처리될 영역)은 본 출원의 실시예에서 제공되는 솔루션에 기초하여 이미지 상에서 분할 처리를 수행함으로써 획득되어, 이미지 분할의 정확도를 향상시켜, 이미지의 처리 효과 및 효율을 향상시킨다.
다음의 것은 본 출원에 의해 제공되는 솔루션을 설명하기 위한 특정 선택적 예를 제공한다.
도 19는 이러한 선택적 예에서의 원리를 도시하는 개략적인 흐름도이다. 도면에 도시된 바와 같이, 이러한 예에서의 이미지 처리 방법은 주로,
처리될 이미지, 즉 도면에 도시되는 양식화될 원본 이미지를 획득하는 단계; 및
처리될 이미지 내의 타겟 영역을 획득하기 위해 처리될 이미지를 분할하는 단계, 즉, 도면에 도시된 양식화된 이미지를 획득하는 단계를 포함할 수 있다. 구체적으로, 처리될 이미지 내의 각각의 타겟 영역을 결정한 후, 타겟 영역 상의 이미지 스타일 전송은 본 출원의 실시예에서 제공되는 GAN 기반 경량 스타일 전송 모델을 통해 구현되어(도 17b에 도시된 구조 네트워크와 같은 스타일 전송 네트워크라고도 할 수 있음), 전송된 이미지(도면에 도시된 양식화된 이미지)를 획득할 수 있다. 양식화될 필요가 있는 타겟 영역을 획득하기 위해 처리될 이미지를 분할하기 위한 특정 방식은 기존의 이미지 분할 방식일 수 있다.
처리될 이미지에 대해, 이미지 분할의 정확도를 향상시키기 위해, 회전 보정이 먼저 이미지 상에서 수행될 수 있으며, 즉, 처리될 이미지에 상응하는 회전 각도가 예측되고, 처리될 이미지가 회전 각도에 기초하여 회전 보정되어 보정된 이미지를 획득하며, 이는 도면에 도시된 이미지를 예측하고 회전시키는 단계에 상응한다. 이러한 단계는 (도 7b에 도시된 모델 구조와 같이 도면에 도시된 회전 네트워크에 상응하는) 각도 예측 모델에 의해 구현될 수 있다. 구체적으로, 처리될 이미지는 이러한 모델에 입력되고, 처리될 이미지의 회전 각도 α는 이러한 모델을 통해 획득된다. 이러한 예에서, 회전 보정이 이미지 상에서 수행되는지를 결정하는 조건(즉, 도면에 도시된 회전 각도 범위 45° 내지 315°)이 미리 설정된다. 각도 예측 모델에 의해 예측된 회전 각도 α가 각도 범위 내에 있다면, 처리될 이미지는 회전 각도에 기초하여 보정되어(도면에 도시된 보정 이미지), 보정된 이미지를 획득하고; 예측된 회전 각도 α가 이러한 각도 범위에 속하지 않으면, 회전 보정이 수행되지 않는다.
상술한 보정 처리가 완료된 후, 타겟 객체 영역(즉, 미리 설정된 조건을 충족하는 객체 영역)은 보정되지 않은 이미지 또는 보정된 이미지에 기초하여 검출될 수 있다. 구체적으로, 이미지 검출 모델(도면에 도시된 검출 네트워크)을 통해 구현될 수 있다. 예를 들어, 도 3에 도시된 솔루션을 통해, 검출될 이미지(즉, 보정되지 않은 이미지 또는 보정된 이미지)는 이미지 검출 모델에 입력될 수 있고, 객체가 이미지 내에 존재하는지는 이미지 검출 모델에 의해 검출되며, 따라서 검출 결과가 획득된다. 검출 결과는 구체적으로 이미지 내의 타겟 객체 바운딩 박스의 위치 정보이다. 바운딩 박스의 수가 0보다 큰 것으로 결정되는 경우, 즉 모델이 적어도 하나의 바운딩 박스 상에서 위치 정보를 출력하는 경우, 이는 객체 영역이 존재하여, 객체 영역이 바운딩 박스의 위치 정보에 따라 크로핑되어 각각의 타겟 영역을 획득할 수 있다는 것을 의미한다. 이러한 검출된 객체 영역은 분할될 필요가 있는 이미지 영역이다. 객체 영역이 없는 경우, 즉 바운딩 박스의 수가 0인 경우, 이는 미리 설정된 조건을 충족하는 이미지 내에 객체 영역이 없어, 심층 객체 분할 처리가 수행되지 않을 수 있다는 것을 의미한다.
각각의 객체 영역을 획득한 후, 본 출원의 실시예에 의해 제공되는 소프트 분할 방식(도면에 도시된 간결한 소프트 분할 네트워크)에 기초한 객체 분할 모델은 분할을 위해 사용되어, 스타일 전송된 이미지에 포함된 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵을 획득할 수 있다. 그 후, 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여, 처리될 이미지 내의 이미지 스타일에 상응하는 양식화된 이미지는 융합되어 타겟 이미지를 획득한다(즉, 스타일 전송된 이미지를 출력함).
기존의 이미지 처리 방법과 비교하여, 본 출원의 실시예에서 제공되는 이미지 처리 방법은 적어도 다음과 같은 효과를 갖는다:
1) 본 출원은 객체 영역이 결정되기 전에 객체 회전 각도 예측 및 보정 모듈이 부가될 수 있다고 제안한다. 이러한 모듈은 이미지에 상응하는 회전 각도를 예측할 수 있다. 이미지 편집 처리 동안 사용자에 의해 회전된 이미지, 또는 비수평 방향 또는 비수직 방향으로 취해진 이미지의 경우, 이미지를 직립 시키는데 필요한 회전 각도가 예측된다. 이미지에서의 객체 영역은 예측된 회전 각도에 기초하여 이미지가 직립된 후에 결정됨으로써, 객체 영역을 결정하는 정확도 및 객체 분할의 정확도가 향상될 수 있도록 한다.
2) 본 출원은 객체 영역을 결정할 때 신경망에 기초한 객체 분할 방법이 사용될 수 있다고 제안한다. 이러한 방법은 상이한 객체 카테고리에 기초하여 분할을 달성할 수 있을 뿐만 아니라, 객체 사이에 중첩 영역이 있을 때 객체를 정확하게 분할할 수 있으며, 이는 객체 영역을 결정하는 정확성 및 유연성을 향상시킨다. 본 출원의 실시예에서의 객체 분할 방식은 사람의 분할 모델에 적용할 수 있을 뿐만 아니라, 사람 이외의 객체의 분할 모델에도 적용할 수 있으며, 이는 각각의 분할 모델의 정확도를 효과적으로 향상시킬 수 있다. 실제 응용에서, 다수의 분할 모델은 다수의 타입의 객체를 검출하고 분할하는데 사용될 수 있거나, 다수의 분할 모델은 각각 상이한 타입의 객체를 검출하고 분할하는데 사용될 수 있다. 게다가, 이미지를 분할할 때, 회전 보정된 이미지가 분할될 수 있거나, 보정된 이미지의 타겟 영역이 먼저 검출된 다음, 검출된 객체 영역이 분할되어 분할 정확도를 더욱 향상시킬 수 있다. 이러한 방법에서, 이미지에서 객체가 점유하는 영역의 비율이 작을 때, 분할은 객체 영역에 기초하여 수행된다. 검출된 객체 영역에서의 객체의 비율이 더 크므로, 분할 효과는 더 우수하다.
3) 본 출원은 객체 분할 전에 객체 검출 모듈이 부가될 수 있다고 제안한다. 이러한 모듈을 통해 객체의 바운딩 박스(즉, 제1 객체 영역)가 획득될 수 있다. 객체의 바운딩 박스에 기초하여, 요구 사항, 즉 미리 설정된 조건을 충족하는 객체가 검출될 수 있으며, 이는 객체 분할의 정확도를 향상시키고, 더 처리될 필요가 있는 데이터의 양을 감소시킬 수 있다. 게다가, 분할 결과가 관련되지 않은 카테고리의 픽셀을 포함하는 확률이 감소되어, 분할 정확도를 향상시킨다.
4) 본 출원에서 제공되는 솔루션은 컴퓨팅 파워를 제한한 모바일 단말 디바이스에 최적화되지만, 모바일 디바이스 상의 배치에 제한되지는 않는다. 본 출원의 실시예에서의 솔루션은 더 많은 타입의 단말 디바이스에 적용될 수 있고, 모바일 단말 디바이스에 대한 사용자 경험을 크게 개선시킨다.
5) 본 출원에서 제공되는 객체 분할 방식은 이미지를 회전 보정하고, 객체 영역 상의 분할에 기초하여 이미지를 분할하는 것과 같이 다수의 처리 방법에 의해 복잡한 이미지가 처리될 때에도 객체 분할을 보다 견고하게 하고 최종 분할 결과가 양호한 분할 정확도를 유지하게 할 수 있다.
본 출원의 실시예는 실제 그림으로부터 예술적 창작(artistic creation)의 빠른 생성을 실현하기 위해 객체 분할에 기초한 이미지 스타일 전송 시스템을 제안한다. 본 출원의 실시예는 객체 분할의 정확도를 향상시키고, 원본 이미지 스타일 전송 알고리즘을 향상시키고 최적화하며, 양식화된 출력 이미지의 시각적 효과를 개선하기 위해 입력 이미지 상에서 적절한 전처리를 수행하고, 모바일 단말기의 컴퓨팅 파워를 제한한 문제와 관련하여 많은 최적화를 수행할 것을 제안하지만, 이는 모바일 단말기 상의 배치에 제한되지 않으며, 이는 모바일 단말 디바이스 상의 사용자 경험을 크게 향상시킨다.
예에서, 이미지 상에서 스타일 전송 처리를 수행하는 시스템은,
1. 이미지 내의 객체 영역 및 객체의 회전 각도를 검출하고, 이미지 상에서 회전 보정을 수행하도록 구성된 전처리 모듈;
2. 보정된 이미지에 대해, 이미지 내의 객체 영역을 정확하게 분할하고, 객체 확률 맵을 출력하도록 구성된 객체 분할 모듈;
3. 타겟 스타일을 객체 및/또는 배경에 적용하도록 구성된 스타일 전송 모듈; 및
4. 객체 분할 결과에 기초하여 객체와 배경을 융합시키도록 구성된 후처리 모듈을 포함할 수 있다.
예에서, 도 18h에 도시된 바와 같이, 스타일 전송을 수행할 때, 스타일 전송은 전체 원본 이미지(즉 입력 이미지) 상에서 수행될 수 있다. 사용자가 타겟 객체를 제1 타겟 스타일로 전송하고, 배경 이미지를 변경하지 않도록 선택한 경우, 스타일 전송을 수행할 때, 스타일 전송 모듈은 전체 원본 이미지를 제1 타겟 스타일로 전송하며, 그 후, 후처리 동안, 후처리 모듈은 객체 분할 모듈의 분할 결과에 기초하여 양식화된 타겟 객체의 영역을 원본 이미지의 배경 이미지와 융합시킨다. 또는, 사용자가 배경 이미지를 제2 타겟 스타일로 전송하고, 타겟 객체를 변경하지 않도록 선택한 경우, 스타일 전송을 수행할 때, 스타일 전송 모듈은 전체 원본 이미지를 제2 타겟 스타일로 전송하며, 그 후, 후처리 동안, 후처리 모듈은 객체 분할 모듈의 분할 결과에 기초하여 양식화된 배경 이미지의 영역을 원본 이미지의 타겟 객체의 영역과 융합시킨다. 또는, 사용자가 타겟 객체를 제1 타겟 스타일로 전송하고 배경 이미지를 제2 타겟 스타일로 전송하도록 선택한 경우, 스타일 전송을 수행할 때, 스타일 전송 모듈은 전체 원본 이미지를 각각 제1 타겟 스타일 및 제2 타겟 스타일로 전송한 후, 후처리 동안, 후처리 모듈은 제1 타겟 스타일로 전송된 타겟 객체의 영역과 제2 타겟 스타일로 전송된 배경 이미지의 영역을 객체 분할 모듈의 분할 결과에 기초하여 융합시켜, 출력 이미지를 획득한다. 게다가, 객체 분할 모듈이 분할 처리를 수행하기 전에, 전처리 모듈은 이미지의 회전 각도를 예측하고, 회전 각도에 따라 이미지 상에서 회전 보정을 수행할 수 있다.
다른 예에서, 도 18i에 도시된 바와 같이, 스타일 전송을 수행할 때, 스타일 전송은 전송될 필요가 있는 영역 상에서만 수행될 수 있다. 사용자가 타겟 객체를 제1 타겟 스타일로 전송하고, 배경 이미지를 변경하지 않도록 선택한 경우, 스타일 전송을 수행할 때, 스타일 전송 모듈은 객체 분할 모듈의 분할 결과에 기초하여 타겟 객체의 영역을 제1 타겟 스타일로만 전송한 후, 후처리 동안, 후처리 모듈은 양식화된 타겟 객체의 영역을 원본 이미지의 배경 이미지와 융합시킨다. 또는, 사용자가 배경 이미지를 제2 타겟 스타일로 전송하고, 타겟 객체를 변경하지 않도록 선택한 경우, 스타일 전송을 수행할 때, 스타일 전송 모듈은 객체 분할 모듈의 분할 결과에 기초하여 배경 이미지의 영역을 제2 타겟 스타일로만 전송한 후, 후처리 동안, 후처리 모듈은 양식화된 배경 이미지의 영역을 원본 이미지의 타겟 객체의 영역과 융합시킨다. 또는, 사용자가 타겟 객체를 제1 타겟 스타일로 전송하고 배경 이미지를 제2 타겟 스타일로 전송하도록 선택한 경우, 스타일 전송을 수행할 때, 스타일 전송 모듈은 객체 분할 모듈의 분할 결과에 기초하여 각각 타겟 객체의 영역을 제1 타겟 스타일로 전송하고, 배경 이미지의 영역을 제2 타겟 스타일로 전송한 후, 후처리 동안, 후처리 모듈은 제1 타겟 스타일로 전송된 타겟 객체의 영역과 제2 타겟 스타일로 전송된 배경 이미지의 영역을 융합시켜, 출력 이미지를 획득한다. 게다가, 객체 분할 모듈이 분할 처리를 수행하기 전에, 전처리 모듈은 이미지의 회전 각도를 예측하고, 회전 각도에 따라 이미지 상에서 회전 보정을 수행할 수 있다.
도 1에 도시된 방법과 동일한 원리에 기초하여, 본 출원의 실시예는 이미지 처리 장치를 더 제공한다. 도 20에 도시된 바와 같이, 이미지 처리 장치(100)는 이미지 분할 모듈(110) 및 이미지 스타일 전송 모듈(120)을 포함할 수 있다.
이미지 분할 모듈(110)은 처리될 이미지에서 타겟 영역을 획득하기 위해 처리될 이미지를 분할하도록 구성된다.
이미지 스타일 전송 모듈(120)은 타겟 영역 상에서 스타일 전송을 수행하도록 구성된다.
선택적으로, 처리될 이미지를 분할할 때, 이미지 분할 모듈(110)은 구체적으로,
처리될 이미지에 상응하는 회전 각도를 예측하고;
회전 각도에 따라 처리될 이미지 상에서 회전 보정을 수행하며;
처리될 보정된 이미지를 분할하도록 구성된다.
선택적으로, 처리될 이미지에 상응하는 회전 각도를 예측할 때, 이미지 분할 모듈(110)은 구체적으로,
객체가 처리될 이미지에 위치되는 제1 객체 영역을 검출하며;
처리될 이미지에 상응하는 회전 각도로서 간주되는 제1 객체 영역에 상응하는 회전 각도를 예측하도록 구성된다.
선택적으로, 제1 객체 영역은 미리 설정된 조건을 충족시키는 객체 영역이다. 미리 설정된 조건은,
명시된 위치에서의 객체 영역, 명시된 객체가 위치되는 영역, 명시된 카테고리의 객체가 위치되는 영역, 및 미리 설정된 영역 크기를 만족하는 객체 영역 중 적어도 하나를 포함한다.
선택적으로, 처리될 이미지에 상응하는 회전 각도를 예측할 때, 이미지 분할 모듈(110)은 구체적으로,
처리될 이미지 내의 객체의 회전 각도에 따라 처리될 이미지에 상응하는 회전 각도를 결정하도록 구성된다.
선택적으로, 처리될 이미지가 적어도 2개의 객체를 포함하는 경우, 처리될 이미지 내의 객체의 회전 각도에 따라 처리될 이미지에 상응하는 회전 각도를 결정할 때, 이미지 분할 모듈(110)은 구체적으로,
처리될 이미지에 상응하는 회전 각도로서 처리될 이미지에서 가장 큰 면적비를 갖는 객체의 회전 각도를 결정하거나;
처리될 이미지 내의 객체의 회전 각도를 융합하고, 융합된 회전 각도를 처리될 이미지에 상응하는 회전 각도로서 결정하거나;
각각 처리될 이미지에 상응하는 회전 각도로서 객체의 회전 각도를 결정하도록 구성된다.
선택적으로, 객체의 회전 각도가 각각 처리될 이미지에 상응하는 회전 각도로서 결정될 때, 회전 각도에 따라 처리될 이미지 상에서 회전 보정을 수행할 때, 이미지 분할 모듈(110)은 구체적으로,
객체가 각각 상응하는 회전 각도에 따라 별개로 위치되는 영역 상에서 회전 보정을 수행하도록 구성될 수 있다.
이에 상응하여, 처리될 보정된 이미지를 분할할 때, 이미지 분할 모듈(110)은 구체적으로,
객체가 별개로 위치되는 회전 보정된 영역을 분할한 다음, 객체가 처리될 이미지의 분할 결과를 획득하기 위해 별개로 위치되는 영역의 분할 결과를 융합하거나; 객체가 별개로 위치되는 회전 보정된 영역을 병합하고, 처리될 이미지의 분할 결과를 획득하기 위해 병합될 이미지를 분할하도록 구성될 수 있다.
선택적으로, 처리될 이미지에 상응하는 회전 각도를 예측할 때, 이미지 분할 모듈(110)은 구체적으로,
각도 예측 모델을 통해 처리될 이미지에 상응하는 회전 각도를 예측하도록 구성되는데, 여기서 각도 예측 모델은 이미지 특징 추출 모듈을 포함하고, 이미지 특징 추출 모듈의 적어도 하나의 특징 추출 유닛 내의 BN 계층의 수는 설정된 값보다 작다.
선택적으로, 이미지 분할 모듈(110)은 자세 추정 모델을 통해 객체의 골격 키포인트를 검출하고, 객체의 골격 키포인트에 기초하여 객체의 회전 각도를 예측하는 방식으로 처리될 이미지 내의 객체의 회전 각도를 예측한다:
선택적으로, 객체의 골격 키포인트에 기초하여 객체의 회전 각도를 예측할 때, 이미지 분할 모듈(110)은 구체적으로,
객체의 골격 키포인트 중 적어도 2개의 키포인트 사이의 위치 관계에 따라 객체의 회전 각도를 예측하도록 구성될 수 있다.
선택적으로, 적어도 2개의 키포인트는 객체의 적어도 2개의 상응하는 골격 키포인트를 포함한다.
선택적으로, 회전 각도에 따라 처리될 이미지 상에서 회전 보정을 수행할 때, 이미지 분할 모듈(110)은 구체적으로,
제1 객체 영역 상에서 회전 보정을 수행하도록 구성된다.
처리될 보정된 이미지를 분할할 때, 이미지 분할 모듈(110)은 구체적으로,
보정된 제1 객체 영역을 분할하고;
제1 객체 영역의 분할 결과에 기초하여 처리될 객체의 분할 결과를 획득하도록 구성된다.
선택적으로, 처리될 이미지를 분할할 때, 이미지 분할 모듈(110)은 구체적으로,
객체가 각각 처리될 이미지에 위치되는 제2 객체 영역을 검출하고;
제2 객체 영역을 각각 분할하거나, 제2 객체 영역을 병합하여 병합된 이미지를 획득하고 병합된 이미지를 분할하며;
제2 객체 영역의 분할 결과에 기초하여 처리될 이미지의 분할 결과를 획득하도록 구성된다.
선택적으로, 제2 객체 영역은 처리될 이미지 또는 처리될 보정된 이미지에서 미리 설정된 조건을 충족시키는 객체 영역이다.
선택적으로, 처리될 이미지를 분할할 때, 이미지 분할 모듈(110)은 구체적으로,
객체 분할 모델을 통해 처리될 이미지를 분할하도록 구성되는데,
여기서, 객체 분할 모델은 신경망을 트레이닝시킴으로써 획득된다.
선택적으로, 타겟 영역은 명시된 카테고리의 객체가 처리될 이미지에 위치되는 영역을 포함한다.
선택적으로, 이미지 처리 장치(100)는,
양식화될 필요가 있는 객체의 명시된 카테고리 상의 정보를 포함하는 스타일 전송 요청을 수신하도록 구성된 처리 요청 수신 모듈을 더 포함할 수 있다.
선택적으로, 객체 분할 모델은 PSPNet을 포함하며, 여기서 PSPNet의 피라미드 풀링 모듈에서의 계층의 수는 설정된 수보다 작다.
선택적으로, 타겟 영역 상에서 스타일 전송을 수행할 때, 이미지 스타일 전송 모듈(120)은 구체적으로,
스타일 전송 모델을 통해 타겟 영역 상에서 이미지 스타일 전송을 수행하도록 구성되는데, 여기서 스타일 전송 모델은 GAN을 포함하고, GAN에서의 생성자의 네트워크 구조는,
순차적으로 캐스케이드된 컨볼루션 계층, 잔차 네트워크 및 디컨볼루션 계층을 포함하는 조건;
순차적으로 캐스케이드된 컨볼루션 계층 및 디컨볼루션 계층을 포함하는 조건;
순차적으로 캐스케이드된 컨볼루션 계층, 깊이 방향 컨볼루션 계층 및 디컨볼루션 계층을 포함하는 조건; 및
순차적으로 캐스케이드된 컨볼루션 계층, 깊이 방향 컨볼루션 계층, 잔차 네트워크 및 디컨볼루션 계층을 포함하는 조건 중 어느 하나를 만족시키며,
적어도 하나의 컨볼루션 계층에서의 채널 수는 설정된 수보다 작다.
선택적으로, 이미지 처리 장치(100)는 이미지 융합 모듈을 더 포함할 수 있으며, 이미지 융합 모듈은,
처리될 이미지가 양식화된 후에 획득된 이미지에 포함된 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵 - 객체 확률 분포 맵의 각각의 픽셀 포인트는 처리될 이미지 내의 요소 포인트에 상응하는 픽셀 포인트가 이미지 스타일에 상응하는 분할 카테고리의 픽셀 포인트에 속하는 확률을 나타내고; 분할 카테고리가 상응하는 이미지 스타일로 전송될 때, 확률 분포 맵의 각각의 요소 포인트는 처리될 이미지의 요소 포인트에 상응하는 픽셀 포인트가 이미지 스타일의 픽셀 포인트에 속하는 확률을 나타냄 - 을 획득하기 위해 객체 분할 모델을 통해 처리될 이미지를 분할하며;
각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여 객체 이미지를 획득하기 위해 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합하도록 구성된다.
선택적으로, 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여 객체 이미지를 획득하기 위해 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합할 때, 이미지 융합 모듈은 구체적으로,
각각의 이미지 스타일에 상응하는 객체 확률 분포 맵을 상응하는 양식화된 이미지의 가중치 맵으로서 사용하고, 타겟 이미지에서 상응하는 픽셀 포인트의 픽셀 값을 획득하기 위해 각각 양식화된 이미지 내의 픽셀 포인트의 픽셀 값을 가중 합산하도록 구성될 수 있다.
선택적으로, 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합할 때, 이미지 융합 모듈은 구체적으로,
각각의 객체 확률 분포 맵을 전송하고;
전송 후 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵에 기초하여, 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합시키도록 구성될 수 있다.
본 출원의 실시예에서 제공되는 이미지 처리 방법 및 이미지 처리 장치와 동일한 원리에 기초하여, 본 출원의 실시예는 프로세서 및 메모리를 포함하는 전자 디바이스를 더 제공한다. 메모리는 머신 판독 가능 명령어를 저장하도록 구성된다. 프로세서는 머신 판독 가능 명령어를 실행할 때 본 출원의 임의의 실시예에 도시된 이미지 처리 방법을 수행하도록 구성된다.
본 출원의 실시예는 컴퓨터 명령어가 저장되는 컴퓨터 판독 가능 저장 매체를 더 제공한다. 컴퓨터 명령어가 프로세서에 의해 실행될 때, 본 출원의 임의의 실시예에 도시된 방법이 수행된다.
예로서, 도 21은 본 출원의 실시예에 적합한 전자 디바이스(4000)를 도시하는 개략적인 구조도이다. 도 21에 도시된 바와 같이, 전자 디바이스(4000)는 프로세서(4001) 및 메모리(4003)를 포함할 수 있다. 프로세서(4001)는 예를 들어 버스(4002)를 통해 메모리(4003)에 연결된다. 선택적으로, 전자 디바이스(4000)는 송수신기(4004)를 더 포함할 수 있다. 송수신기(4004)는 실제 응용에서 하나로 제한되지 않으며, 전자 디바이스(4000)의 구조는 본 출원의 실시예로 제한되지 않는다는 것이 주목되어야 한다.
프로세서(4001)는 중앙 처리 유닛(central processing unit, CPU), 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application specific integrated circuit, ASIC), 필드 프로그램 가능 게이트 어레이(field programmable gated array, FPGA) 또는 다른 프로그램 가능 논리 디바이스, 트랜지스터 논리 디바이스, 하드웨어 구성 요소 또는 이의 임의의 조합일 수 있다. 본 개시와 관련하여 설명된 다양한 예시적인 논리 블록, 모듈 및 회로가 구현되거나 실행될 수 있다. 프로세서(4001)는 또한 하나 이상의 마이크로 프로세서, DSP 및 마이크로 프로세서의 조합 등을 포함하는 조합과 같은 컴퓨팅 기능을 구현하는 조합일 수 있다.
버스(4002)는 상술한 구성 요소 간에 정보를 전달하는 경로를 포함할 수 있다. 버스(4002)는 PCI(peripheral component interconnect) 버스 또는 EISA(extended industry standard architecture) 버스 등일 수 있다. 버스(4002)는 어드레스 버스, 데이터 버스, 제어 버스 등으로 나뉘어질 수 있다. 표현을 용이하게 하기 위해, 버스는 도 21에서 하나의 굵은 선으로만 표현되지만, 하나의 버스 또는 하나의 버스 타입만이 있다는 것을 의미하지 않는다.
메모리(4003)는 정적 정보 및 명령어를 저장할 수 있는 ROM(read only memory) 또는 다른 타입의 정적 저장 디바이스, 정보 및 명령어를 저장할 수 있는 RAM(random access memory) 또는 다른 타입의 동적 저장 디바이스일 수 있다. 이는 또한 EEPROM(electrically erasable programmable read only memory), CD-ROM(compact disc read only memory) 또는 다른 광 디스크 스토리지, 디스크 스토리지(콤팩트 디스크, 레이저 디스크, 광 디스크, 디지털 다기능 디스크(digital versatile disc), 블루레이 디스크 등을 포함함), 자기 디스크 저장 매체 또는 다른 자기 저장 디바이스, 또는 명령 또는 데이터 구조의 형태로 원하는 프로그램 코드를 반송하거나 저장할 수 있고, 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체일 수 있지만, 이에 제한되지 않는다.
메모리(4003)는 본 출원의 솔루션을 수행하기 위한 애플리케이션 프로그램 코드를 저장하도록 구성되고, 프로세서(4001)에 의해 제어된다. 프로세서(4001)는 메모리(4003)에 저장된 애플리케이션 프로그램 코드를 실행하여 상술한 방법 실시예 중 어느 하나에 보여준 솔루션을 구현하도록 구성된다.
도면의 흐름도에서의 다양한 단계가 화살표로 나타내어진 바와 같이 순차적으로 도시되지만, 이러한 단계는 화살표로 나타내어진 바와 같이 반드시 순차적으로 수행되지는 않는다는 것이 이해되어야 한다. 본 명세서에서 명시적으로 언급되지 않는 한, 이러한 단계의 실행은 엄격하게 순차적으로 제한되지 않고 다른 순서로 수행될 수 있다. 더욱이, 도면의 흐름도의 단계 중 적어도 일부는 반드시 동시에 완료될 필요는 없지만, 상이한 시간에 수행될 수 있는 복수의 하위 단계 또는 스테이지를 포함할 수 있으며, 이의 순서는 반드시 순차적으로 수행되지는 않지만, 다른 단계의 하위 단계 또는 스테이지 중 적어도 일부와 차례로 또는 교대로 수행될 수 있다.
상술한 것은 본 출원의 부분적 실시예일뿐이며, 본 출원의 원리를 벗어나지 않고 통상의 기술자에게는 여러 수정 및 개선이 이루어질 수 있으며, 이러한 개선은 또한 본 출원의 범위 내에 있는 것으로 간주되어야 한다는 것이 주목되어야 한다.

Claims (20)

  1. 이미지 처리 방법에 있어서,
    처리될 이미지에서 타겟 영역을 획득하기 위해 처리될 이미지를 분할하는 단계; 및
    상기 타겟 영역 상에서 스타일 전송을 수행하는 단계를 포함하는, 이미지 처리 방법.
  2. 제 1 항에 있어서,
    상기 처리될 이미지를 분할하는 단계는,
    상기 처리될 이미지에 상응하는 회전 각도를 예측하는 단계;
    상기 회전 각도에 따라 상기 처리될 이미지 상에서 회전 보정을 수행하는 단계; 및
    처리될 보정된 이미지를 분할하는 단계를 포함하는, 이미지 처리 방법.
  3. 제 2 항에 있어서,
    상기 처리될 이미지에 상응하는 상기 회전 각도를 예측하는 단계는,
    객체가 상기 처리될 이미지에 위치되는 제1 객체 영역을 검출하는 단계; 및
    상기 처리될 이미지에 상응하는 상기 회전 각도로서 간주되는 상기 제1 객체 영역에 상응하는 회전 각도를 예측하는 단계를 포함하는, 이미지 처리 방법.
  4. 제 3 항에 있어서,
    상기 제1 객체 영역은 미리 설정된 조건을 충족시키는 객체 영역이며;
    상기 미리 설정된 조건은,
    명시된 위치에서의 객체 영역, 명시된 객체가 위치되는 영역, 명시된 카테고리의 객체가 위치되는 영역, 및 미리 설정된 영역 크기를 만족하는 객체 영역 중 적어도 하나를 포함하는, 이미지 처리 방법.
  5. 제 2 항에 있어서,
    상기 처리될 이미지에 상응하는 상기 회전 각도를 예측하는 단계는,
    상기 처리될 이미지 내의 객체의 회전 각도에 따라 상기 처리될 이미지에 상응하는 상기 회전 각도를 결정하는 단계를 포함하는, 이미지 처리 방법.
  6. 제 5 항에 있어서,
    상기 처리될 이미지가 적어도 2개의 객체를 포함할 때, 상기 처리될 이미지 내의 상기 객체의 회전 각도에 따라 상기 처리될 이미지에 상응하는 상기 회전 각도를 결정하는 단계는,
    상기 처리될 이미지에 상응하는 상기 회전 각도로서 상기 처리될 이미지에서 가장 큰 면적비를 갖는 객체의 회전 각도를 결정하는 단계; 또는
    상기 처리될 이미지 내의 상기 객체의 회전 각도를 융합하고, 융합된 회전 각도를 상기 처리될 이미지에 상응하는 상기 회전 각도로서 결정하는 단계; 또는
    각각 상기 처리될 이미지에 상응하는 상기 회전 각도로서 상기 객체의 회전 각도를 결정하는 단계를 포함하는, 이미지 처리 방법.
  7. 제 6 항에 있어서,
    상기 객체의 회전 각도가 각각 상기 처리될 이미지에 상응하는 회전 각도로서 결정될 때, 상기 회전 각도에 따라 상기 처리될 이미지 상에서 회전 보정을 수행하는 단계는,
    각각 상기 상응하는 회전 각도에 따라 상기 객체가 별개로 위치되는 영역 상에서 상기 회전 보정을 수행하는 단계; 및
    상기 처리될 보정된 이미지를 분할하는 단계를 포함하는데, 상기 분할하는 단계는,
    상기 객체가 별개로 위치되는 회전 보정된 영역을 분할한 다음, 상기 처리될 이미지의 분할 결과를 획득하기 위해 상기 객체가 별개로 위치되는 영역의 분할 결과를 융합하는 단계; 또는
    상기 객체가 별개로 위치되는 상기 회전 보정된 영역을 병합하고, 상기 처리될 이미지의 분할 결과를 획득하기 위해 병합된 이미지를 분할하는 단계를 포함하는, 이미지 처리 방법.
  8. 제 2 항 에 있어서,
    상기 처리될 이미지에 상응하는 상기 회전 각도를 예측하는 단계는,
    각도 예측 모델을 통해 상기 처리될 이미지에 상응하는 상기 회전 각도를 예측하는 단계를 포함하는데, 상기 각도 예측 모델은 이미지 특징 추출 모듈을 포함하고, 상기 이미지 특징 추출 모듈의 적어도 하나의 특징 추출 유닛 내의 BN(batch normalization) 계층의 수는 설정된 값보다 작은, 이미지 처리 방법.
  9. 제 3 항에 있어서,
    상기 회전 각도에 따라 상기 처리될 이미지 상에서 상기 회전 보정을 수행하는 단계는,
    상기 제1 객체 영역 상에서 상기 회전 보정을 수행하는 단계; 및
    상기 처리될 보정된 이미지를 분할하는 단계를 포함하며, 상기 분할하는단계는,
    상기 보정된 제1 객체 영역을 분할하는 단계; 및
    상기 제1 객체 영역의 분할 결과에 기초하여 상기 처리될 객체의 분할 결과를 획득하는 단계를 포함하는, 이미지 처리 방법.
  10. 제 1 항에 있어서,
    상기 처리될 이미지를 분할하는 단계는,
    객체가 각각 상기 처리될 이미지에 위치되는 제2 객체 영역을 검출하는 단계;
    상기 제2 객체 영역을 각각 분할하거나, 병합된 이미지를 획득하기 위해 상기 제2 객체 영역을 병합하고 병합된 이미지를 분할하는 단계; 및
    상기 제2 객체 영역의 분할 결과에 기초하여 상기 처리될 이미지의 분할 결과를 획득하는 단계를 포함하는, 이미지 처리 방법.
  11. 제 1 항에 있어서,
    상기 처리될 이미지를 분할하는 단계는,
    객체 분할 모델을 통해 상기 처리될 이미지를 분할하는 단계를 포함하는데,
    상기 객체 분할 모델은 신경망을 트레이닝시킴으로써 획득되는, 이미지 처리 방법.
  12. 제 11 항에 있어서,
    상기 타겟 영역은 명시된 카테고리의 객체가 상기 처리될 이미지에 위치되는 영역을 포함하는, 이미지 처리 방법.
  13. 제 12 항에 있어서,
    양식화될 필요가 있는 상기 객체의 명시된 카테고리 상의 정보를 포함하는 스타일 전송 요청을 수신하는 단계를 더 포함하는, 이미지 처리 방법.
  14. 제 11 항에 있어서,
    상기 객체 분할 모델은 PPSNet(pyramid scene parsing network)을 포함하고, PSPNet의 피라미드 풀링 모듈에서의 계층의 수는 설정된 수보다 작은, 이미지 처리 방법.
  15. 제 11 항에 있어서,
    상기 타겟 영역 상에서 스타일 전송을 수행하는 단계는,
    스타일 전송 모델을 통해 상기 타겟 영역 상에서 이미지 스타일 전송을 수행하는 단계를 포함하는데, 상기 스타일 전송 모델은 GAN(generalative adversarial network)을 포함하고, 상기 GAN에서의 생성자의 네트워크 구조는,
    순차적으로 캐스케이드된 컨볼루션 계층, 잔차 네트워크 및 디컨볼루션 계층을 포함하는 조건;
    순차적으로 캐스케이드된 컨볼루션 계층 및 디컨볼루션 계층을 포함하는 조건;
    순차적으로 캐스케이드된 컨볼루션 계층, 깊이 방향 컨볼루션 계층 및 디컨볼루션 계층을 포함하는 조건; 및
    순차적으로 캐스케이드된 컨볼루션 계층, 깊이 방향 컨볼루션 계층, 잔차 네트워크 및 디컨볼루션 계층을 포함하는 조건 중 어느 하나를 만족시키며,
    적어도 하나의 컨볼루션 계층에서의 채널 수는 설정된 수보다 작은, 이미지 처리 방법.
  16. 제 11 항에 있어서,
    상기 처리될 이미지가 양식화된 후에 획득된 이미지에 포함된 각각의 이미지 스타일에 상응하는 객체 확률 분포 맵을 획득하기 위해 상기 객체 분할 모델을 통해 상기 처리될 이미지를 분할하는 단계로서, 상기 객체 확률 분포 맵의 각각의 픽셀 포인트는 상기 처리될 이미지 내의 요소 포인트에 상응하는 픽셀 포인트가 상기 이미지 스타일에 상응하는 분할 카테고리의 픽셀 포인트에 속하는 확률을 나타내는, 상기 분할하는 단계; 및
    각각의 이미지 스타일에 상응하는 상기 객체 확률 분포 맵에 기초하여 객체 이미지를 획득하기 위해 상기 처리될 이미지의 이미지 스타일에 상응하는 양식화된 이미지를 융합하는 단계를 더 포함하는, 이미지 처리 방법.
  17. 제 16 항에 있어서,
    각각의 이미지 스타일에 상응하는 상기 객체 확률 분포 맵에 기초하여 상기 객체 이미지를 획득하기 위해 상기 처리될 이미지의 이미지 스타일에 상응하는 상기 양식화된 이미지를 융합하는 단계는,
    각각의 이미지 스타일에 상응하는 상기 객체 확률 분포 맵을 상기 상응하는 양식화된 이미지의 가중치 맵으로서 사용하고, 상기 타겟 이미지에서 상응하는 픽셀 포인트의 픽셀 값을 획득하기 위해 각각 상기 양식화된 이미지 내의 픽셀 포인트의 픽셀 값을 가중 합산하는 단계를 포함하는, 이미지 처리 방법.
  18. 이미지 처리 장치에 있어서,
    처리될 이미지에서 타겟 영역을 획득하기 위해 처리될 이미지를 분할하도록 구성된 이미지 분할 모듈; 및
    상기 타겟 영역 상에서 스타일 전송을 수행하도록 구성된 이미지 스타일 전송 모듈을 포함하는, 이미지 처리 장치.
  19. 프로세서 및 메모리를 포함하는 전자 디바이스에 있어서,
    상기 메모리는 머신 판독 가능 명령어를 저장하도록 구성되고;
    상기 프로세서는 상기 머신 판독 가능 명령어를 실행할 때 제 1 항 내지 제 17 항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 전자 디바이스.
  20. 컴퓨터 판독 가능 저장 매체로서,
    컴퓨터 명령어가 저장되고, 프로세서에 의해 실행될 때, 제 1 항 내지 제 17 항 중 어느 한 항에 따른 방법을 수행하는, 컴퓨터 판독 가능 저장 매체.
KR1020200019621A 2019-02-18 2020-02-18 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체 KR20200100558A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN201910120691 2019-02-18
CN201910120691.1 2019-02-18
CN201910492428.5 2019-06-06
CN201910492428 2019-06-06
CN201911177083.0 2019-11-26
CN201911177083.0A CN111583097A (zh) 2019-02-18 2019-11-26 图像处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
KR20200100558A true KR20200100558A (ko) 2020-08-26

Family

ID=72116872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200019621A KR20200100558A (ko) 2019-02-18 2020-02-18 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체

Country Status (4)

Country Link
US (1) US20220108542A1 (ko)
KR (1) KR20200100558A (ko)
CN (1) CN111583097A (ko)
WO (1) WO2020171550A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686887A (zh) * 2021-01-27 2021-04-20 上海电气集团股份有限公司 混凝土表面裂纹的检测方法、系统、设备和介质
KR102479841B1 (ko) * 2022-02-18 2022-12-28 인하대학교 산학협력단 해석 가능한 얼굴 이미지 품질 평가 기법
WO2023128469A1 (ko) * 2022-01-03 2023-07-06 삼성전자주식회사 이미지 기반의 이미지 효과를 제공하는 전자 장치 및 그 제어 방법
WO2024106630A1 (ko) * 2022-11-15 2024-05-23 주식회사 빛글림 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116161A1 (zh) * 2020-12-04 2022-06-09 深圳市优必选科技股份有限公司 人像卡通化方法、机器人及存储介质
CN112507904B (zh) * 2020-12-15 2022-06-03 重庆邮电大学 一种基于多尺度特征的教室人体姿态实时检测方法
CN112613445B (zh) * 2020-12-29 2024-04-30 深圳威富优房客科技有限公司 人脸图像生成方法、装置、计算机设备和存储介质
CN113570678A (zh) * 2021-01-20 2021-10-29 腾讯科技(深圳)有限公司 基于人工智能的图像上色方法、装置、电子设备
CN113096069A (zh) * 2021-03-08 2021-07-09 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN112967180B (zh) * 2021-03-17 2023-12-22 福建库克智能科技有限公司 一种生成对抗网络的训练方法、图像风格转换方法和装置
CN112966639B (zh) * 2021-03-22 2024-04-26 新疆爱华盈通信息技术有限公司 车辆检测方法、装置、电子设备及存储介质
CN112991158B (zh) * 2021-03-31 2024-05-31 商汤集团有限公司 一种图像生成方法、装置、设备及存储介质
CN113076904B (zh) * 2021-04-15 2022-11-29 华南理工大学 一种基于深度学习的室外停车场空余车位检测方法
CN113011402B (zh) * 2021-04-30 2023-04-25 中国科学院自动化研究所 基于卷积神经网络的灵长类动物姿态估计系统、方法
CN113239844B (zh) * 2021-05-26 2022-11-01 哈尔滨理工大学 一种基于多头注意力目标检测的智能化妆镜系统
CN113191348B (zh) * 2021-05-31 2023-02-03 山东新一代信息产业技术研究院有限公司 一种基于模板的文本结构化提取方法及工具
CN113436148B (zh) * 2021-06-02 2022-07-12 中国人民解放军海军航空大学青岛校区 一种基于深度学习的舰载机轮廓关键点检测方法及系统
CN113344905B (zh) * 2021-06-28 2024-05-28 燕山大学 一种带材跑偏量检测方法及系统
CN113781292A (zh) * 2021-08-23 2021-12-10 北京达佳互联信息技术有限公司 图像处理方法和装置、电子设备及存储介质
CN114331820A (zh) * 2021-12-29 2022-04-12 北京字跳网络技术有限公司 图像处理方法、装置、电子设备及存储介质
CN114943639B (zh) * 2022-05-24 2023-03-28 北京瑞莱智慧科技有限公司 图像获取方法、相关装置及存储介质
CN115359271B (zh) * 2022-08-15 2023-04-18 中国科学院国家空间科学中心 一种大尺度不变性的深空小天体图像匹配的方法
US20240070891A1 (en) * 2022-08-26 2024-02-29 Adobe Inc. Generating symmetrical repeat edits for images
CN116205806B (zh) * 2023-01-28 2023-09-19 荣耀终端有限公司 一种图像增强方法及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4862080B2 (ja) * 2007-07-12 2012-01-25 パナソニック株式会社 画像処理装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体、および、画像処理プロセッサ
US8588550B2 (en) * 2010-10-04 2013-11-19 Sony Corporation Virtual level for a digital camera
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
US10049297B1 (en) * 2017-03-20 2018-08-14 Beihang University Data driven method for transferring indoor scene layout and color style
US10504267B2 (en) * 2017-06-06 2019-12-10 Adobe Inc. Generating a stylized image or stylized animation by matching semantic features via an appearance guide, a segmentation guide, and/or a temporal guide
KR20190007816A (ko) * 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN108629747B (zh) * 2018-04-25 2019-12-10 腾讯科技(深圳)有限公司 图像增强方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686887A (zh) * 2021-01-27 2021-04-20 上海电气集团股份有限公司 混凝土表面裂纹的检测方法、系统、设备和介质
WO2023128469A1 (ko) * 2022-01-03 2023-07-06 삼성전자주식회사 이미지 기반의 이미지 효과를 제공하는 전자 장치 및 그 제어 방법
KR102479841B1 (ko) * 2022-02-18 2022-12-28 인하대학교 산학협력단 해석 가능한 얼굴 이미지 품질 평가 기법
WO2024106630A1 (ko) * 2022-11-15 2024-05-23 주식회사 빛글림 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법

Also Published As

Publication number Publication date
CN111583097A (zh) 2020-08-25
US20220108542A1 (en) 2022-04-07
WO2020171550A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
KR20200100558A (ko) 이미지 처리 방법 및 장치, 전자 디바이스 및 컴퓨터 판독 가능 저장 매체
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
CN111754394B (zh) 鱼眼图像中的对象检测方法、装置及存储介质
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN111797983A (zh) 一种神经网络构建方法以及装置
US20220222824A1 (en) Fully automated multimodal system architecture for semantic segmentation of large-scale 3d outdoor point cloud data
CN113592709B (zh) 图像超分处理方法、装置、设备及存储介质
CN110648397A (zh) 场景地图生成方法、装置、存储介质及电子设备
CN112270755B (zh) 三维场景构建方法、装置、存储介质与电子设备
CN117095019B (zh) 一种图像分割方法及相关装置
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN116097307A (zh) 图像的处理方法及相关设备
Zhang et al. Construction of a feature enhancement network for small object detection
CN113034666B (zh) 一种基于金字塔视差优化代价计算的立体匹配方法
CN113538704A (zh) 一种基于光源位置绘制虚拟对象光影的方法及设备
CN115908120A (zh) 图像处理方法和电子设备
Khan et al. A robust light-weight fused-feature encoder-decoder model for monocular facial depth estimation from single images trained on synthetic data
CN115222578A (zh) 图像风格迁移方法、程序产品、存储介质及电子设备
CN114565764A (zh) 基于舰船实例分割的港口全景感知系统
CN114241167A (zh) 一种从视频到视频的无模板虚拟换衣方法及装置
WO2021173489A1 (en) Apparatus, method, and system for providing a three-dimensional texture using uv representation
KR101764531B1 (ko) 네트워크 기반 다중 카메라 영상 처리 및 데이터 전송 방법 및 그 시스템
CN116228607B (zh) 图像处理方法和电子设备
CN116740777B (zh) 人脸质量检测模型的训练方法及其相关设备
KR20220080696A (ko) 깊이 추정 방법, 디바이스, 전자 장비 및 컴퓨터 판독가능 저장 매체