KR102635373B1

KR102635373B1 - 이미지 처리 방법 및 장치, 단말 및 컴퓨터 판독 가능 저장 매체

Info

Publication number: KR102635373B1
Application number: KR1020207028918A
Authority: KR
Inventors: 웨이 슝; 페이 황
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2018-07-23
Filing date: 2019-06-03
Publication date: 2024-02-07
Also published as: EP3828769A4; CN110147805A; CN110147805B; EP3828769A1; EP3828769B1; JP2021524957A; US20230222770A1; US11631275B2; JP7058760B2; US20200394388A1; WO2020019873A1; KR20200128565A

Abstract

컴퓨터 기술 분야에 속하는 이미지 처리 방법 및 장치, 단말 및 컴퓨터 판독 가능 저장 매체가 개시된다. 이 방법은, 훈련된 픽셀 분류 모델을 획득하는 단계 ― 픽셀 분류 모델은 임의의 이미지에서 각각의 픽셀의 분류 식별자를 결정하기 위해 사용되고, 분류 식별자는 적어도 머리 분류 식별자를 포함하며, 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하기 위해 사용됨 ―; 픽셀 분류 모델에 기초하여 타깃 이미지에서 각각의 픽셀을 분류하고, 타깃 이미지의 각각의 픽셀의 분류 식별자를 획득하는 단계; 및 분류 식별자가 머리 분류 식별자인 픽셀에 따라, 타깃 이미지의 머리 영역을 결정하고, 머리 영역을 편집하는 단계를 포함한다.

Description

이미지 처리 방법 및 장치, 단말 및 컴퓨터 판독 가능 저장 매체

본 출원은 2018년 7월 23일에 중국 특허청에 출원된 중국 특허 출원 제2018108126754호('이미지 처리 방법 및 장치, 단말, 및 저장 매체')의 우선권을 주장하며 이것은 그 전체가 참조로서 본 명세서 포함된다.

본 개시의 실시예는 컴퓨터 기술 분야에 관한 것으로, 구체적으로는 이미지 처리 방법 및 장치, 단말 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.

인터넷의 대중화 증가와 멀티미디어 기술의 급속한 발전에 따라, 사진 및 짧은 동영상과 같은 멀티미디어 데이터가 인터넷을 통해 널리 보급되고, 다양한 이미지 처리 모드가 등장하였다. 이들 모드 중 하나의 새롭고 독특하며 흥미로운 모드는 이미지에서 머리 영역을 인식하고 머리 영역을 편집하는 것이며 사용자들 사이에서 널리 사용되고 있다.

사진 속의 이미지 또는 짧은 동영상의 경우, 사용자가 이미지 내에서 머리를 편집하고자 하는 경우, 머리가 직사각형 박스 내에 위치할 수 있도록 직사각형 박스가 스와이프 조작 또는 드래그 조작을 사용하여 머리 위치에서 결정될 수 있다. 단말은 사용자에 의해 결정된 직사각형 박스를 머리 영역으로 사용하여 머리 영역을 편집한다.

사용자에 의해 직사각형 박스를 수동으로 결정하는 전술한 모드를 사용함으로써, 머리 영역은 머리와 머리를 둘러싸는 영역을 포함한다. 결과적으로, 결정된 머리 영역이 부정확하여 부적절한 편집 효과가 발생한다.

본 출원의 실시예에 따르면, 이미지 처리 방법 및 장치, 단말 및 컴퓨터 판독 가능한 저장 매체가 제공된다.

이미지 처리 방법은 단말에 의해 수행되며,

훈련된 픽셀 분류 모델을 획득하는 단계 ― 상기 픽셀 분류 모델은 임의의 이미지에서 각각의 픽셀의 분류 식별자를 결정하기 위해 사용되고, 상기 분류 식별자는 적어도 머리 분류 식별자를 포함하며, 상기 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하기 위해 사용됨 ―;

타깃 이미지의 상기 픽셀의 분류 식별자를 획득하기 위해 상기 픽셀 분류 모델에 기초하여 상기 타깃 이미지의 각각의 픽셀을 분류하는 단계; 및

상기 분류 식별자의 머리 분류 식별자에 따라 상기 타깃 이미지의 머리 영역을 결정하고, 상기 머리 영역을 편집하는 단계를 포함한다.

이미지 처리 장치는,

훈련된 픽셀 분류 모델을 획득하도록 구성된 제1 획득 모듈 ― 상기 픽셀 분류 모델은 임의의 이미지에서 각각의 픽셀의 분류 식별자를 결정하기 위해 사용되고, 상기 분류 식별자는 적어도 머리 분류 식별자를 포함하며, 상기 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하기 위해 사용됨 ―;

타깃 이미지의 상기 픽셀의 분류 식별자를 획득하기 위해 상기 픽셀 분류 모델에 기초하여 상기 타깃 이미지의 각각의 픽셀을 분류하도록 구성된 분류 모듈; 및

상기 분류 식별자의 머리 분류 식별자에 따라 상기 타깃 이미지의 머리 영역을 결정하고, 상기 머리 영역을 편집하도록 구성된 제1 처리 모듈을 포함한다.

이미지 처리 단말은 프로세서와 메모리를 포함하고, 상기 메모리는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저정하며, 상기 명령, 상기 프로그램, 상기 코드 세트 또는 상기 명령 세트는 상기 이미지 처리 방법의 단계를 수행하기 위해 상기 프로세서에 의해 로딩된다.

컴퓨터 판독 가능 저장 매체는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저장하며, 상기 명령, 상기 프로그램, 상기 코드 세트 또는 상기 명령 세트는 상기 이미지 처리 방법의 단계를 수행하기 위해 상기 프로세서에 의해 로딩된다.

본 출원의 하나 이상의 실시예의 세부 사항은 첨부된 도면 및 아래의 설명에서 제공된다. 본 출원의 다른 특징 및 이점은 명세서, 첨부 도면 및 청구 범위로부터 명백해질 것이다.

본 개시의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위해, 이하에서는 실시예를 설명하기 위해 필요한 첨부 도면을 간략히 설명한다. 명백하게도, 이하의 설명에서 첨부된 도면은 본 개시의 일부 실시예에 불과하며, 당업자는 창의적인 노력 없이도 첨부된 도면으로부터 다른 도면을 도출할 수 있다.
도 1a는 본 개시의 실시예에 따른 이미지 처리 방법의 응용 환경을 나타낸 도면이다.
도 1b는 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 2는 본 개시의 실시예에 따른 표현 인식 모델을 학습하는 흐름도이다.
도 3은 본 개시의 실시예에 따른 픽셀 분류 모델을 학습하는 흐름도이다.
도 4는 본 개시의 실시예에 따른 픽셀 분류 모델의 개략적인 구조도이다.
도 5는 본 개시의 실시예에 따른 머리 영역의 처리 효과의 개략도이다.
도 6은 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 7은 본 개시의 실시예에 따른 이미지 처리 장치의 개략적인 구조도이다.
도 8은 본 개시의 실시예에 따른 단말의 개략적인 구조도이다.

본 출원의 목적, 기술적 해결수단 및 이점을 보다 명확하고 이해하기 쉽게 하기 위해, 본 출원은 첨부된 도면 및 실시예를 참조하여 아래에서 더 상세히 설명된다. 본 명세서에서 설명된 특정 실시예는 본 출원을 제한하기 보다는 본 출원을 설명하기 위해서만 사용된다는 것이 이해되어야 한다.

관련 기술에서, 타깃 이미지의 머리 영역이 편집되어야 하는 경우, 일반적으로 머리 영역이 사용자에 의해 먼저 수동으로 결정된다. 결과적으로, 결정된 머리 영역은 머리와 머리를 둘러싸는 영역을 포함하여 머리 에지의 미세한 매팅(matting)을 구현할 수 없게 된다. 본 개시의 실시예는 머리 에지의 미세한 매팅이 구현될 수 있도록 픽셀 분류 모델을 기반으로 타깃 이미지에서 픽셀을 분류하고, 타깃 이미지에서 머리 영역을 결정함으로써 픽셀 레벨의 머리 인식을 구현할 수 있는 이미지 처리 방법을 제공한다. 또한, 미세한 매팅을 통해 획득된 머리 영역이 편집됨으로써, 정확도를 향상시킬 수 있다.

본 개시의 본 실시예는 이미지의 머리 영역이 편집되는 모든 시나리오에 적용될 수 있다. 예를 들어, 단말이 사진을 촬영하는 경우, 본 개시의 본 실시예에 따른 방법은 사진의 머리 영역을 편집하는 데 사용될 수 있다. 다르게는, 단말이 비디오를 촬영했거나 비디오를 촬영하고 있는 경우, 본 개시의 본 실시예에 따른 방법은 비디오의 이미지의 각각의 프레임에서 머리 영역을 편집하는 데 사용될 수 있다.

다르게는, 이미지를 편집하는 데 특별히 사용되는 제3자 애플리케이션이 단말에 설치된다. 갤러리의 사진 또는 비디오는 제3자 애플리케이션에서 호출될 수 있으며, 본 개시의 본 실시예에 따른 방법은 사진 또는 비디오의 머리 영역을 편집하는 데 사용될 수 있다. 편집된 사진 및 비디오는 갤러리에 저장된다. 전술한 갤러리는 로컬 갤러리 또는 서버 측 갤러리일 수 있다.

도 1a는 실시예에 따른 이미지 처리 방법의 애플리케이션 환경을 도시한 도면이다. 도 1을 참조하면, 이미지 처리 방법은 이미지 처리 시스템에 적용된다. 이미지 처리 시스템은 단말(110) 및 서버(120)를 포함한다. 단말(110)은 네트워크에 의해 서버(120)와 연결된다. 단말(110)은 카메라를 사용하여 타깃 이미지(또는 비디오)를 획득하거나 또는 서버(120)의 갤러리 또는 로컬 갤러리로부터 타깃 이미지(또는 비디오)를 획득한다. 다음, 훈련된 픽셀 분류 모델이 획득되고, 픽셀 분류 모델은 임의의 이미지 내의 각각의 픽셀의 분류 식별자를 결정하는 데 사용되며, 분류 식별자는 적어도 머리 분류 식별자를 포함하고, 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하는 데 사용된다. 타깃 이미지의 각각의 픽셀은 타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 픽셀 분류 모델에 기초하여 분류된다. 타깃 이미지의 머리 영역은 분류 식별자의 머리 분류 식별자에 따라 결정되고, 머리 영역이 편집된다.

단말(110)은 구체적으로 데스크탑 단말 또는 이동 단말일 수 있다. 이동 단말은 구체적으로 이동 전화기, 태블릿 컴퓨터, 노트북 컴퓨터 등 중 적어도 하나일 수 있다. 서버(120)는 독립적인 서버 또는 복수의 서버로 구성된 서버 클러스터로 구현될 수 있다.

도 1b는 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도이다. 본 개시의 본 실시예는 단말에 의해 실행된다. 도 1b를 참조하면, 이 방법은 다음의 단계를 포함한다.

단계 101. 단말은 처리될 타깃 이미지를 결정하고, 타깃 이미지에서 얼굴 영역을 획득하기 위해 타깃 이미지에 대한 얼굴 검출을 수행한다.

단계 102. 단말은 훈련된 표정 인식 모델을 획득하고, 얼굴 영역의 표정 클래스를 획득하기 위해 표정 인식 모델에 기초하여 얼굴 영역에 대한 인식을 수행한다.

본 개시의 본 실시예는 타깃 이미지의 머리 영역이 편집되는 시나리오에 적용된다. 단말은 처리될 타깃 이미지를 결정하고, 타깃 이미지의 머리 영역이 인식된 후에 편집을 수행할 수 있다.

또한, 단말은 타깃 이미지에서 얼굴 영역의 표정에 따라 편집을 수행할 수 있다. 얼굴 영역 외에도, 단말에 의해 결정된 타깃 이미지는 비 얼굴 영역(non-face region)을 더 포함할 수 있다. 이 경우, 얼굴 영역을 획득하기 위해 타깃 이미지에 대해 얼굴 검출이 수행되고, 표정 인식 모델이 획득된다. 얼굴 영역은 표정 클래스를 획득하기 위해 표정 인식 모델에 입력되고 인식된다.

얼굴 검출을 수행하는 경우, 미리 설정된 얼굴 검출 알고리즘이 사용될 수 있거나, 또는 단말에 의해 제공된 얼굴 검출 인터페이스가 타깃 이미지에 대한 얼굴 검출을 수행하기 위해 호출될 수 있다. 표정 인식 모델은 얼굴 영역을 적어도 2개의 표정 클래스, 예를 들어, 놀란 표정과 행복한 표정으로 분류하기 위해 사용된다. 적어도 2개의 표정 클래스는 표정 인식 모델의 훈련 중에 결정될 수 있다.

표정 인식 모델을 훈련하는 과정에서, 훈련 장치는 복수의 샘플 얼굴 이미지와 각각의 샘플 얼굴 이미지의 표정 클래스를 획득하고, 훈련된 표정 인식 모델의 인식 정확도가 제2 미리 설정된 임계값에 도달할 때까지 표정 인식 모델을 획득하기 위해 복수의 샘플 얼굴 이미지 및 각각의 샘플 얼굴 이미지의 표정 클래스에 따라 반복 학습을 반복적으로 수행할 수 있다.

가능한 구현에서, 훈련 장치는 초기 표정 인식 모델을 구축하고 훈련 데이터 세트 및 테스트 데이터 세트를 획득할 수 있다. 훈련 데이터 세트 및 테스트 데이터 세트 각각은 복수의 샘플 얼굴 이미지 및 대응하는 표정 클래스를 포함한다. 예를 들어, 훈련 장치는 복수의 샘플 얼굴 이미지를 획득하기 위해 네트워크에서 얼굴 이미지를 캡처하는 크롤러(crawler) 프로그램을 사용할 수 있고, 각각의 샘플 얼굴 이미지의 표정 클래스를 표시할 수 있다.

훈련 단계에서, 훈련 데이터 세트 내의 복수의 샘플 얼굴 이미지는 표정 인식 모델의 입력으로 사용되고 대응하는 표정 클래스는 표정 인식 모델의 출력으로 사용된다. 반복 훈련은 표정 인식 모델이 얼굴 이미지에서 표정 특징을 학습할 수 있도록 표정 인식 모델에 대해 수행된다. 다음, 테스트 데이터 세트 내의 각각의 샘플 얼굴 이미지는 표정 인식 모델의 입력으로 사용되고, 각각의 샘플 얼굴 이미지에 대응하는 테스트 표정 클래스는 표정 인식 모델에 기초하여 획득된다. 테스트 표정 클래스는 표정 인식 모델의 인식 정확도를 결정하기 위해 표시된 실제 표정 클래스와 비교된다. 표정 인식 모델의 인식 정확도가 제2 미리 설정된 임계값보다 작은 경우, 훈련 데이터 세트에 따라 훈련이 계속 수행되고 훈련된 표정 인식 모델의 인식 정확도가 제2 미리 설정된 임계값에 도달하는 경우에 완료된다.

제2 미리 설정된 임계값은 표정 인식의 정확도 요구사항 및 계산량 요구사항에 따라 결정될 수 있으며, 95% 또는 99%와 같은 값일 수 있다. 훈련 장치는 단말 자체일 수도 있거나 또는 단말이 아닌 다른 장치, 예를 들어 서버일 수도 있다. 오프라인 훈련 후, 훈련 장치는 사용을 위해 표정 인식 모델을 단말로 전송한다. 훈련 장치는 표정 인식 모델을 훈련시키기 위해 선형 분류기, 지원 벡터 머신, 심층 신경망, 결정 트리와 같은 훈련 알고리즘 중 적어도 하나를 사용할 수 있다. 이에 상응하여, 훈련된 표정 인식 모델은 선형 분류기 모델, 지원 벡터 머신 모델, 심층 신경망 모델, 결정 트리 모델 중 적어도 하나를 포함할 수 있다.

예를 들어, 표정 인식 모델을 훈련하는 흐름도가 도 2에 도시될 수 있다. 예를 들어, 표정 인식 모델은 모바일넷(Mobilenet, 경량 심층 신경망 모델)이다. 네트워크 모델은 빠른 운영 속도, 작은 네트워크 모델 크기, 상대적으로 높은 인식 정확도를 가지고 있으며, 많은 사용자의 요구에 신속하게 대응할 수 있어서 백엔드 부하를 줄일 수 있다.

입력된 타깃 이미지의 크기가 224*224라고 가정하면, 네트워크 모델의 각각의 네트워크 계층의 파라미터는 다음의 [표 1]과 같이 나타낼 수 있다.

"Conv"는 컨볼루션 계층이고, "DepthSepConv"의 네트워크 계층은 3*3 딥 컨볼루션 연산이 먼저 수행된 후 1*1 포인트 클라우드 컨볼루션 연산이 수행되는 깊이별 분리형 컨볼루션 계층이며, "풀링(pooling)"은 풀링 계층이다.

각각의 네트워크 계층의 컨볼루션 연산의 스트라이드(stride) 파라미터는 s1 또는 s2이고, s1의 값은 1이며, s2의 값은 2이다. 각각의 네트워크 계층의 특징 맵의 크기는 네트워크 계층에 의해 출력되는 데이터의 크기이고, 마지막 계층에 의해 출력되는 특징 맵의 크기는 1*1*N이며, N은 표정 클래스의 수량이다.

전술한 네트워크 모델을 통해 표정 인식 모델에 224*224 타깃 이미지가 입력된 후, 결국 N 차원 데이터가 출력되고, N 차원 데이터에서 가장 확률이 높은 데이터가 softmax(유연한 최대 전달 함수)를 통해 계산될 수 있다는 것을 알 수 있다. N 차원 데이터는 타깃 이미지의 얼굴 표정이 N개의 표정 클래스에 속할 확률을 나타낼 수 있으며, 확률이 가장 높은 데이터는 타깃 이미지 내의 얼굴 표정이 가장 속할 가능성이 높은 표정 클래스일 수 있다.

단계 103. 단말은 얼굴 영역의 표정 클래스가 타깃 표정 클래스인 경우 훈련된 픽셀 분류 모델을 획득하고, 타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 픽셀 분류 모델에 기초하여 타깃 이미지의 각각의 픽셀을 분류한다.

단말은 타깃 이미지가 타깃 표정 클래스와 일치하는 얼굴 영역을 갖는 경우에만 타깃 이미지에서 하나 이상의 타깃 표정 클래스를 설정하고 머리 영역을 편집할 수 있다. 따라서, 단말이 표정 인식 모델에 기초하여 타깃 영상에서 얼굴 영역의 표정 클래스를 결정하는 경우, 그 표정 클래스가 타깃 표정 클래스인지 여부를 판정한다. 표정 클래스가 타깃 표정 클래스가 아닌 경우 편집이 중지된다.

그러나, 표정 클래스가 타깃 표정 클래스인 경우, 타겟 이미지에서 머리 영역을 인식하기 위해, 단말은 먼저 픽셀 분류 모델을 획득하고, 픽셀 분류 모델에 타깃 이미지를 입력하며, 타깃 이미지 내의 픽셀의 분류 식별자를 획득하기 위해 타깃 이미지의 각각의 픽셀을 분류한다.

픽셀 분류 모델은 임의의 이미지에서 픽셀의 분류 식별자를 결정하기 위해 사용된다. 분류 식별자는 머리 분류 식별자와 비 머리 분류 식별자를 포함한다. 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하는 데 사용된다. 비 머리 분류 식별자는 대응하는 픽셀이 비 머리 영역에 위치함을 지시하는 데 사용된다. 이러한 방식으로, 각각의 픽셀은 머리 영역 또는 비 머리 영역으로 분류될 수 있다. 머리 분류 식별자와 비 머리 분류 식별자는 픽셀 분류 모델의 훈련 중에 결정된 서로 다른 분류 식별자이다. 예를 들어, 머리 분류 식별자는 1이고, 비 머리 분류 식별자는 0이다.

픽셀 분류 모델을 훈련시키는 과정에서, 훈련 장치는 복수의 샘플 이미지와 각각의 샘플 이미지의 각각의 픽셀의 분류 식별자를 획득하고, 훈련된 픽셀 분류 모델의 분류 정확도가 제1 미리 설정된 임계값에 도달할 때까지 픽셀 분류 모델을 획득하기 위해 복수의 샘플 이미지와 각각의 샘플 이미지 내의 각각의 픽셀의 분류 식별자에 따라 반복 학습을 반복적으로 수행할 수 있다.

가능한 구현에서, 훈련 장치는 초기 픽셀 분류 모델을 구축하고 훈련 데이터 세트 및 테스트 데이터 세트를 획득할 수 있다. 훈련 데이터 세트 및 테스트 데이터 세트 각각은 복수의 샘플 이미지 및 각각의 샘플 이미지 내의 각각의 픽셀의 분류 식별자를 포함한다. 예를 들어, 훈련 장치는 복수의 샘플 이미지를 획득하기 위해 네트워크에서 샘플 이미지를 캡처하는 크롤러 프로그램을 사용하고, 각각의 샘플 이미지의 머리 영역에 따라 각각의 샘플 이미지 내의 각각의 픽셀의 분류 식별자를 표시할 수 있다.

훈련 단계에서, 훈련 데이터 세트의 복수의 샘플 이미지는 픽셀 분류 모델의 입력으로 사용되고, 샘플 이미지 내의 각각의 픽셀의 분류 식별자는 픽셀 분류 모델의 출력으로 사용된다. 반복 훈련은 머리 영역의 픽셀을 분류하는 기능을 제공하기 위해 픽셀 분류 모델이 샘플 이미지에서 머리 영역의 특징을 학습할 수 있도록 픽셀 분류 모델에 대해 수행된다. 다음으로, 테스트 데이터 세트의 각각의 샘플 이미지는 픽셀 분류 모델의 입력으로 사용되며, 각각의 샘플 이미지의 각각의 픽셀의 테스트 분류 식별자는 픽셀 분류 모델에 기초하여 획득되며, 테스트 분류 식별자는 픽셀 분류 모델의 분류 정확도를 결정하기 위해 표시된 실제 분류 식별자와 비교된다. 픽셀 분류 모델의 분류 정확도가 제1 미리 설정된 임계값 미만인 경우, 훈련 데이터 세트에 따라 훈련이 계속 수행되고 훈련된 픽셀 분류 모델의 분류 정확도가 제1 미리 설정된 임계값에 도달하는 경우에 훈련이 완료된다.

제1 미리 설정된 임계값은 샘플 이미지에서 픽셀 분류의 정확도 요구사항 및 계산량 요구사항에 따라 결정될 수 있으며, 95% 또는 99%와 같은 값일 수 있다. 훈련 장치는 단말 자체일 수도 있거나 또는 단말이 아닌 다른 장치, 예를 들어 서버일 수도 있다. 오프라인 훈련 후, 훈련 장치는 사용을 위해 픽셀 분류 모델을 단말로 전송한다. 훈련 장치는 픽셀 분류 모델을 훈련시키기 위해 선형 분류기, 지원 벡터 머신, 심층 신경망, 결정 트리와 같은 훈련 알고리즘 중 적어도 하나를 사용할 수 있다. 이에 상응하여, 훈련된 픽셀 분류 모델은 선형 분류기 모델, 지원 벡터 머신 모델, 심층 신경망 모델 및 결정 트리 모델 중 적어도 하나를 포함할 수 있다.

예를 들어, 픽셀 분류 모델을 훈련시키는 흐름도가 도 3에 도시될 수 있다. 예를 들어, 픽셀 분류 모델은 시맨틱 세그먼테이션 네트워크(semantic segmentation network)와 모바일넷(Mobilenet) 기본 네트워크 모델에 의해 형성된 네트워크 모델이다. 도 4를 참조하면, 네트워크 모델에 타깃 이미지가 입력되고, 시맨틱 세그먼테이션 네트워크를 사용하여 대략적인 예측이 수행된다. 그런 다음, 다중 해상도 컨볼루션 및 디컨볼루션 연산을 통해 타깃 이미지의 크기가 획득된다. 그 후, 타깃 이미지 내의 각각의 픽셀이 분류된다. 분류를 통해 획득된 분류 식별자가 1인 경우, 픽셀이 머리 영역에 위치하는 것으로 간주되고, 그렇지 않으면 픽셀이 비 머리 영역에 위치하는 것으로 간주된다.

단계 104. 단말은 분류 식별자가 머리 분류 식별자인 픽셀에 따라 타깃 이미지에서 머리 영역을 결정한다.

타깃 이미지 내의 각각의 픽셀의 분류 식별자가 결정된 후, 분류 식별자가 머리 분류 식별자인 복수의 픽셀에 의해 형성된 영역이 타깃 이미지의 머리 영역으로 결정될 수 있다.

단계 105. 단말은 표정 클래스와 처리 모드 사이의 미리 설정된 대응관계에 따라 타깃 표정 클래스에 대응하는 타깃 처리 모드를 결정하고, 타깃 처리 모드를 사용하여 타깃 이미지에서 머리 영역을 편집한다.

본 개시의 실시예에서, 대응하는 처리 모드가 특정 표정 클래스에 속하는 머리 영역을 편집하는 데 사용될 수 있음을 지시하는, 표정 클래스와 처리 모드 사이의 미리 설정된 대응관계를 미리 설정할 수 있다. 따라서, 단말은 타깃 표정 클래스에 대응하는 타깃 처리 모드를 결정하고, 타깃 처리 모드를 사용하여 타깃 이미지의 머리 영역을 편집한다.

대응관계에서 설정된 처리 모드는, 머리 영역의 스케일 업 또는 스케일 다운, 머리 영역에 재료 추가, 머리 영역을 흔드는 동적 효과 디스플레이, 또는 기타 처리 모드 중 적어도 하나을 포함할 수 있다. 추가될 수 있는 재료는 특수 조명 효과, 스티커, 액세서리 등을 포함할 수 있다.

예를 들어, 표정 클래스와 처리 모드 사이의 미리 설정된 대응관계는 [표 2]에서 나타낼 수 있다.

도 5를 참조하면, 타깃 이미지의 표정이 "행복" 클래스로 인식되는 경우, 행복 표정과 매칭되는 "얼굴에 행복(Happiness on the face)"이라는 텍스트 스티커와 웃는 얼굴 스티커가 타깃 이미지의 머리 영역의 좌측에 추가된다.

다른 실시예에서, 대응관계를 설정하는 대신에, 단말은 또한 타깃 이미지가 타깃 표정 클래스와 매칭되는 얼굴 영역을 갖는 경우, 미리 설정된 처리 모드에 따라 머리 영역을 편집할 수도 있다. 미리 설정된 처리 모드는 기본적으로 단말에 의해 설정될 수 있거나 또는 사용자에 의해 미리 설정될 수 있거나 또는 사용자에 의한 타깃 이미지에 대한 편집 조작에 따라 결정될 수 있다.

예를 들어, 단말은 스티커 추가 옵션과 특수 조명 효과 추가 옵션을 디스플레이한다. 사용자에 의한 특수 조명 효과 추가 옵션의 선택 조작이 검출되는 경우, 머리 영역에 특수 조명 효과가 추가된다.

본 개시의 본 실시예에서, 표정 인식은 먼저 타깃 이미지의 얼굴 영역에 대해 수행되고, 머리 영역은 표정 클래스가 타깃 표정 클래스인 경우에만 편집된다. 그러나, 다른 실시예에서, 타깃 이미지의 얼굴 영역에 대한 표정 인식을 수행하는 대신에, 단말은 또한 타깃 이미지가 획득된 경우 머리 영역을 편집하기 위해 단계 103 내지 105를 직접 수행할 수도 있다.

본 개시의 본 실시예에서, 타깃 이미지는 설명을 위한 예시로서만 사용되며, 타깃 이미지는 단일 이미지 또는 비디오 내의 이미지일 수 있다. 단일 이미지 또는 비디오는 단말에 의해 촬영될 수 있거나 또는 다른 장치에 의해 단말로 전송될 수 있다.

예를 들어, 단말은 순차적으로 배열된 복수의 이미지를 포함하는 타깃 비디오를 획득한다. 복수의 이미지 각각은 타깃 이미지로 사용되고, 비디오 내의 복수의 이미지의 각각의 픽셀이 분류된다. 분류 식별자가 획득된 후, 본 개시의 본 실시예에서 제공되는 방법을 사용하여 비디오의 각각의 이미지의 머리 영역이 편집될 수 있다.

도 6은 본 개시의 실시예에 따른 이미지 처리 방법의 흐름도이다. 도 6을 참조하면, 단말이 비디오를 촬영하는 경우, 얼굴 검출이 먼저 비디오의 각각의 이미지에 대해 수행되고, 검출된 얼굴 영역이 표정 인식 모델에 기초하여 인식된다. 인식된 표정 클래스가 타깃 표정 클래스인 경우, 타깃 이미지에서 머리 영역을 결정하기 위해 픽셀 분류 모델에 기초하여 타깃 이미지에 대해 픽셀 레벨 분류가 수행되고, 머리 영역이 편집된다.

본 개시의 본 실시예에서 제공되는 방법에 따르면, 타깃 이미지 내의 각각의 픽셀은 타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 픽셀 분류 모델에 기초하여 분류되고, 타깃 이미지의 머리 영역은 분류 식별자가 머리 분류 식별자인 픽셀에 따라 결정된다. 픽셀 레벨 머리 인식을 구현하기 위해 타깃 이미지에서 머리 영역을 결정하도록 타깃 이미지의 픽셀이 픽셀 분류 모델에 기초하여 분류될 수 있으므로, 머리 에지의 미세한 매팅(matting)이 구현될 수 있어 머리 영역의 정확도를 향상시키고 머리 영역의 편집 효과를 향상시킬 수 있다.

또한, 머리 인식이 수행되기 전에, 먼저 타깃 이미지의 얼굴 영역에 대해 표정 인식이 수행된 다음, 얼굴 영역의 표정 클래스가 타깃 표정 클래스인 경우에만 타깃 이미지에 대해 픽셀 레벨 머리 인식이 수행되어, 특정 표정을 가진 얼굴 영역이 더 표적화된 방식으로 편집될 수 있다.

또한, 타깃 표정 클래스에 대응하는 타깃 처리 모드는 처리 모드가 머리 영역의 표정과 일치는 것을 보장함으로써 처리 효과를 더욱 향상시키기 위해 머리 영역을 편집하는 데 사용된다.

도 1b 내지 도 3 및 도 6의 흐름도에서의 단계들이 화살표 지시에 기초하여 순서대로 표시되어 있지만, 그 단계들이 반드시 화살표에 의해 지시된 순서에 기초하여 순서대로 수행되는 것은 아니다. 본 출원에서 달리 명시하지 않는 한, 단계들의 실행 순서는 엄격하게 제한되지 않으며, 그 단계들은 다른 순서로 수행될 수 있다. 더욱이, 도 1b 내지 도 3 및 도 6에서의 단계들 중 적어도 일부는 복수의 서브 단계 또는 복수의 스테이지를 포함할 수 있다. 서브 단계 또는 스테이지는 반드시 같은 순간에 수행되는 것은 아니지만, 다른 순간에 수행될 수 있다. 서브 단계 또는 스테이지는 반드시 순차적으로 수행되는 것은 아니지만, 다른 단계의 적어도 일부 또는 다른 단계의 서브 단계 또는 스테이지와 차례대로 또는 교대로 수행될 수 있다.

도 7은 본 개시의 실시예에 따른 이미지 처리 장치의 개략적인 구조도이다. 도 7을 참조하면, 그 장치는,

훈련된 픽셀 분류 모델을 획득하는 전술한 실시예의 단계를 수행하도록 구성된 제1 획득 모듈(701);

픽셀 분류 모델에 기초하여 타깃 이미지의 각각의 픽셀을 분류하는 전술한 실시예의 단계를 수행하도록 구성된 분류 모듈(702); 및

타깃 이미지에서 머리 영역을 결정하고 머리 영역을 편집하는 전술한 실시예의 단계를 수행하도록 구성된 제1 처리 모듈(703)

을 포함한다.

선택적으로, 그 장치는,

복수의 샘플 이미지 및 복수의 샘플 이미지 내의 각각의 픽셀의 분류 식별자를 획득하는 전술한 실시예의 단계를 수행하도록 구성된 제2 획득 모듈; 및

복수의 샘플 이미지 및 복수의 샘플 이미지 내의 각각의 픽셀의 분류 식별자에 따라 훈련을 수행하는 전술한 실시예의 단계를 수행하도록 구성된 제1 훈련 모듈

을 더 포함한다.

선택적으로, 그 장치는,

타깃 이미지에서 얼굴 영역을 획득하기 위해 타깃 이미지에 대해 얼굴 검출을 수행하는 전술한 실시예의 단계를 수행하도록 구성된 검출 모듈;

훈련된 표정 인식 모델을 획득하는 전술한 실시예의 단계를 수행하도록 구성된 제3 획득 모듈; 및

얼굴 영역의 표정 클래스를 획득하기 위해 표정 인식 모델에 기초하여 얼굴 영역에 대한 인식을 수행하는 전술한 실시예의 단계를 수행하도록 구성된 표정 인식 모듈

을 더 포함하고,

분류 모듈(702)은 얼굴 영역의 표정 클래스가 타깃 표정 클래스인 경우, 픽셀 분류 모델에 기초하여 타깃 이미지 내의 각각의 픽셀을 분류하는 전술한 실시예의 단계를 수행하도록 추가로 구성된다.

선택적으로, 제1 처리 모듈(703)은,

타깃 표정 클래스에 대응하는 타깃 처리 모드를 결정하는 전술한 실시예의 단계를 수행하도록 구성된 타깃 처리 유닛; 및

타깃 처리 모드를 사용하여 머리 영역을 편집하는 전술한 실시예의 단계를 수행하도록 구성된 편집 유닛

을 포함한다.

선택적으로, 그 장치는,

복수의 샘플 얼굴 이미지 및 각각의 샘플 얼굴 이미지의 표정 클래스를 획득하는 전술한 실시예의 단계를 수행하도록 구성된 제4 획득 모듈; 및

복수의 샘플 얼굴 이미지 및 각각의 샘플 얼굴 이미지의 표정 클래스에 따라 훈련을 수행하는 전술한 실시예의 단계를 수행하도록 구성된 제2 훈련 모듈

를 더 포함한다.

선택적으로, 그 장치는,

타깃 비디오를 획득하고 복수의 이미지 각각을 타깃 이미지로 사용하는 전술 한 실시예의 단계를 수행하도록 구성된 비디오 처리 모듈

을 더 포함한다.

선택적으로, 제1 처리 모듈(703)은,

머리 영역을 스케일 업(scaling up)하거나 또는 스케일 다운(scalin down)하는 전술한 실시예의 단계를 수행하도록 구성된 스케일링 유닛; 또는

머리 영역에 재료를 추가하는 전술한 실시예의 단계를 수행하도록 구성된 재료 추가 유닛; 또는

머리 영역을 흔드는 동적 효과를 디스플레이하는 전술한 실시예의 단계를 수행하도록 구성된 동적 처리 유닛

을 포함한다.

전술한 기능 모듈의 분할은 전술한 실시예에서 제공된 이미지 처리 장치가 이미지를 처리하는 경우의 설명을 위한 예로서만 사용된다. 실제 적용 중에, 전술한 기능은 요구사항에 따라 서로 다른 기능 모듈에 의해 할당되고 완료될 수 있다. 즉, 단말의 내부 구조는 위에서 설명한 기능의 전부 또는 일부를 구현하기 위해 서로 다른 기능 모듈로 분할된다. 또한, 전술한 실시예에서 제공된 이미지 처리 장치는 이미지 처리 방법과 동일한 개념에 속한다. 구체적인 구현 프로세스에 대해서는 방법 실시예를 참조한다.

전술한 이미지 처리 장치는 컴퓨터 프로그램의 형태로 구현될 수 있다. 컴퓨터 프로그램은 단말에서 실행될 수 있다. 단말 상의 컴퓨터 판독 가능 저장 매체는 이미지 처리 장치를 형성하는 프로그램 모듈, 예를 들어 도 7에 도시된 제1 획득 모듈(701), 분류 모듈(702) 및 제1 처리 모듈(703)을 저장할 수 있다. 프로그램 모듈에 의해 형성된 컴퓨터 프로그램은 프로세서에 의해 실행될 때 프로세서로 하여금 본 출원의 실시예에서의 이미지 처리 방법의 단계를 수행하게 한다.

도 8은 본 개시의 예시적인 실시예에 따른 단말(800)의 개략적인 구조도이다. 단말(800)은 휴대용 이동 단말, 예를 들어 스마트폰, 태블릿 컴퓨터, MP3(Moving Picture Experts Group Audio Layer III) 플레이어, MP4(Moving Picture Experts Group Audio Layer IV) 플레이어, 노트북 컴퓨터, 데스크탑 컴퓨터, 헤드 마운트 장치 또는 기타 스마트 단말일 수 있다. 단말(800)은 또한 사용자 장치, 휴대용 단말, 랩탑 단말 또는 데스크탑 단말과 같은 다른 이름으로도 지칭될 수 있다.

일반적으로 단말(800)은 프로세서(801) 및 메모리(802)를 포함한다.

프로세서(801)는 하나 이상의 처리 코어, 예를 들어 4-코어 프로세서 또는 8-코어 프로세서를 포함할 수 있다. 프로세서(801)는 DSP(digital signal processor), FPGA(field-programmable gate array), PLA(programmable logic array) 중 적어도 하나의 하드웨어 형태로 구현될 수 있다. 프로세서(801)는 또한 메인 프로세서 및 코프로세서를 포함할 수 있다. 메인 프로세서는 깨어있는 상태에서 데이터를 처리하도록 구성된 프로세서이며 중앙 처리 장치(central processing unit, CPU)로 지칭된다. 코프로세서는 대기 상태에서 데이터를 처리하도록 구성된 저전력 소비 프로세서이다. 일부 실시예에서, 프로세서(801)는 그래픽 처리 장치(graphic processing unit, GPU)와 통합될 수 있다. GPU는 디스플레이 화면에 디스플레이해야 하는 콘텐츠의 렌더링 및 그리기를 담당하도록 구성된다. 일부 실시예에서, 프로세서(801)는 인공 지능(artificial intelligence, AI) 프로세서를 더 포함할 수 있다. AI 프로세서는 기계 학습과 관련된 계산 작업을 처리하도록 구성된다.

메모리(802)는 하나 이상의 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 컴퓨터 판독 가능 저장 매체는 비 휘발성 및/또는 휘발성 메모리일 수 있다. 비 휘발성 메모리는 ROM(read-only memory), 프로그래밍 가능 ROM(programmmable ROM, PROM), 전기적 프로그래밍 가능 ROM(electrically programmable ROM, EPROM), 전기적 소거 가능 프로그래밍 가능 ROM(electrically erasable programmable ROM, EEPROM) 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 RAM(Random Access Memory) 또는 외부 고속 캐시를 포함할 수 있다. 제한이 아닌 설명의 목적으로, RAM은 정적 RAM(static SRAM), 동적 RAM(dynamic DRAM), 동기식 DRAM(synchronous DRAM, SDRAM), 이중 데이터 속도 SDRAM(double data rate SDRAM, DDRSDRAM), 향상된 SDRAM(enhanced SDRAM, ESDRAM), 동기화 링크 DRAM(synchlink DRAM, SLDRAM), 램버스 다이렉트 RAM(rambus direct RAM, RDRAM), 다이렉트 램버스 동적 RAM(direct rambus dynamic RAM, DRDRAM) 및 램버스 동적 RAM(rambus dynamic RAM, RDRAM)과 같은 복수의 형태로 사용 가능하다. 일부 실시예에서, 메모리(802)의 비 일시적 컴퓨터 판독 가능 저장 매체는 적어도 하나의 명령을 저장하도록 구성되고, 적어도 하나의 명령은 본 출원의 방법 실시예에서 제공된 이미지 처리 방법의 작동을 구현하기 위해 프로세서(801)에 의해 실행되는 데 사용된다.

일부 실시예에서, 단말(800)은 선택적으로 주변기기 인터페이스(803) 및 적어도 하나의 주변기기를 더 포함할 수 있다. 프로세서(801), 메모리(802) 및 주변기기 인터페이스(803)는 버스 또는 신호 케이블로 연결될 수 있다. 각각의 주변기기는 버스, 신호 케이블 또는 회로 기판에 의해 주변기기 인터페이스(803)에 연결될 수 있다. 구체적으로, 주변기기는 무선 주파수(RF) 회로(804), 터치 디스플레이 스크린(805), 카메라 컴포넌트(806), 오디오 회로(807), 포지셔닝 컴포넌트(808) 및 전원 공급 장치(809) 중 적어도 하나를 포함한다.

주변기기 인터페이스(803)는 적어도 하나의 입출력(I/O) 관련 주변기기를 프로세서(801) 및 메모리(802)에 연결하도록 구성될 수 있다. 일부 실시예에서, 프로세서(801), 메모리(802) 및 주변기기 인터페이스(803)는 동일한 칩 또는 회로 기판에 통합된다. 일부 다른 실시예에서, 프로세서(801), 메모리(802) 및 주변기기 인터페이스(803) 중 임의의 하나 또는 둘은 독립적인 칩 또는 회로 기판 상에 구현될 수 있다. 이것은 본 실시예에서 제한되지 않는다.

RF 회로(804)는 전자기 신호로도 지칭되는 RF 신호를 수신 및 전송하도록 구성된다. RF 회로(804)는 전자기 신호를 사용하여 통신 네트워크 및 다른 통신 장치와 통신한다. RF 회로(804)는 전기 신호를 전송을 위한 전자기 신호로 변환하거나, 또는 수신된 전자기 신호를 전기 신호로 변환한다. 선택적으로, RF 회로(804)는 안테나 시스템, RF 트랜시버, 하나 이상의 증폭기, 튜너, 발진기, 디지털 신호 프로세서, 코덱 칩셋, 가입자 식별 모듈 카드 등을 포함한다. RF 회로(804)는 적어도 하나의 무선 통신 프로토콜을 사용하여 다른 단말과 통신할 수 있다. 무선 통신 프로토콜은 대도시 지역 네트워크, 다양한 세대(2G, 3G, 4G 및 5G)의 이동 통신 네트워크, 무선 근거리 통신망 및/또는 와이파이(Wi-Fi) 네트워크를 포함하지만 이에 제한되지는 않는다. 일부 실시예에서, RF 회로(804)는 NFC(near field communication) 관련 회로를 더 포함할 수 있다. 이것은 본 출원에서 제한되지 않는다.

디스플레이 스크린(805)은 사용자 인터페이스(UI)를 디스플레이하도록 구성된다. UI는 이미지, 텍스트, 아이콘, 비디오 및 이들의 조합을 포함할 수 있다. 디스플레이 스크린(805)이 터치 디스플레이 스크린인 경우, 디스플레이 스크린(805)은 디스플레이 스크린(805)의 표면 상 또는 그 위에서 터치 신호를 더 획득할 수 있다. 터치 신호는 처리를 위한 제어 신호로서 프로세서(801)에 입력될 수 있다. 이 경우, 디스플레이 스크린(805)은 가상 버튼 및/또는 가상 키보드를 제공하도록 추가로 구성될 수 있으며, 이는 또한 소프트 버튼 및/또는 소프트 키보드로 지칭된다. 일부 실시예에서, 하나의 디스플레이 스크린(805)이 단말(800)의 전면 패널에 배치될 수 있다. 일부 다른 실시예에서, 적어도 두 개의 디스플레이 스크린(805)은 단말(800)의 서로 다른 표면에 별도로 배치되거나 또는 접을 수 있는 형태로 설계될 수 있다. 또 다른 일부 실시예에서, 디스플레이 스크린(805)은 단말(800)의 곡면 또는 접힌 면에 배치되는 플렉서블 디스플레이 스크린일 수 있다. 심지어, 디스플레이 스크린(805)은 직사각형이 아닌 불규칙한 그래프, 즉 특수한 형상의 스크린을 갖도록 추가로 배치될 수 있다. 디스플레이 스크린(805)은 액정 디스플레이(liquid crystal display, LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 등과 같은 재료를 사용하여 제조될 수 있다.

카메라 컴포넌트(806)는 이미지 또는 비디오를 획득하도록 구성된다. 선택적으로, 카메라 컴포넌트(806)는 전면 카메라 및 후면 카메라를 포함한다. 일반적으로, 전면 카메라는 단말 전면 패널에 배치되고, 후면 카메라는 단말의 후면에 배치된다. 일부 실시예에서, 메인 카메라와 피사계심도 카메라의 융합을 통해 배경 흐림 기능, 메인 카메라와 광각 카메라의 융합을 통해 파노라마 사진 촬영 및 가상 현실(virtual reality, VR) 촬영, 또는 다른 융합 촬영 기능을 구현하기 위해 적어도 2개의 후면 카메라가 있으며, 각각은 메인 카메라, 피사계심도 카메라, 광각 카메라 및 망원 카메라 중 임의의 하나이다. 일부 실시예에서, 카메라 컴포넌트(806)는 플래시를 더 포함할 수 있다. 플래시는 단일 색온도 플래시 또는 이중 색온도 플래시일 수 있다. 이중 색온도 플래시는 웜(warm) 플래시와 콜드(cold) 플래시의 조합이며, 서로 다른 색온도에서 광선 보정을 수행하도록 구성될 수 있다.

오디오 회로(807)는 마이크로폰 및 라우드스피커를 포함할 수 있다. 마이크로폰은 사용자 및 환경의 음파를 획득하고, 음파를 전기 신호로 변환하며, 처리를 위해 프로세서(801)로 전기 신호를 입력하거나, 또는 음성 통신을 구현하기 위해 RF 회로(804)에 전기 신호를 입력하도록 구성된다. 스테레오 획득 또는 잡음 감소를 위해, 단말(800)의 서로 다른 부분에 각각 배치된 복수의 마이크로폰이 있을 수 있다. 마이크로폰은 다르게는 마이크로폰 어레이 또는 무지향성 획득 마이크로폰일 수 있다. 라우드스피커는 프로세서(801) 또는 RF 회로(804)로부터의 전기 신호를 음파로 변환하도록 구성된다. 라우드스피커는 통상적인 박막 라우드스피커 또는 압전 세라믹 라우드스피커일 수 있다. 라우드스피커가 압전 세라믹 라우드스피커인 경우, 전기 신호는 사람의 귀가 들을 수 있는 음파로 변환되거나 또는 거리 측정 등을 위해 사람의 귀에 들리지 않는 음파로 변환될 수 있다. 일부 실시예에서, 오디오 회로(807)는 이어폰 잭을 더 포함할 수 있다.

포지셔닝 컴포넌트(808)는 내비게이션 또는 위치 기반 서비스(location based service, LBS)를 구현하기 위해, 단말(800)의 현재의 지리적 위치에 위치시키도록 구성된다. 포지셔닝 컴포넌트(808)는 미국의 GPS(Global Positioning System), 중국의 BeiDou 시스템, 러시아의 GLONASS 시스템 또는 유럽 연합의 GALILEO 시스템에 기반한 포지셔닝 컴포넌트일 수 있다.

파워 서플라이(809)는 단말(800)의 다양한 컴포넌트에 전원을 공급하도록 구성된다. 파워 서플라이(809)는 교류, 직류, 일회용 배터리 또는 충전식 배터리일 수 있다. 파워 서플라이(809)가 충전식 배터리를 포함하는 경우, 충전식 배터리는 유선 충전 또는 무선 충전을 지원할 수 있다. 충전식 배터리는 급속 충전 기술을 지원하도록 추가로 구성될 수 있다.

일부 실시예에서, 단말(800)은 하나 이상의 센서(810)를 더 포함할 수 있다. 하나 이상의 센서(810)는 가속도 센서(811), 자이로스코프 센서(812), 압력 센서(813), 지문 센서(814), 광학 센서(815) 및 근접 센서(816)을 포함하지만 이에 제한되는 것은 아니다.

가속도 센서(811)는 단말(800)에 의해 구축된 좌표계의 세 좌표축에서 가속도를 검출할 수 있다. 예를 들어, 가속도 센서(811)는 세 좌표축에서 중력 가속도 성분을 검출하도록 구성될 수 있다. 프로세서(801)는 가속도 센서(811)에 의해 획득된 중력 가속도 신호에 따라 터치 디스플레이 스크린(805)을 제어하여 UI를 가로보기 또는 세로보기로 디스플레이할 수 있다. 가속도 센서(811)는 게임 또는 사용자의 움직임 데이터를 획득하도록 추가로 구성될 수 있다.

자이로스코프 센서(812)는 신체 방향 및 단말(800)의 회전 각도를 검출할 수 있다. 자이로스코프 센서(812)는 가속도 센서(811)와 연동하여 단말(800)에 대한 사용자의 3D 동작을 획득할 수 있다. 프로세서(801)는 자이로스코프 센서(812)에 의해 획득된 데이터에 따라, 움직임 감지(예를 들어, 사용자의 틸트 조작에 따른 UI 변경), 촬영시 손떨림 보정, 게임 제어 및 관성 내비게이션의 기능을 구현할 수 있다.

압력 센서(813)는 단말(800)의 측면 프레임 및/또는 터치 디스플레이 스크린(805)의 하부층에 배치될 수 있다. 압력 센서(813)가 단말(800)의 측면 프레임에 배치되는 경우, 단말(800)에 대한 사용자의 홀딩 신호가 검출될 수 있고, 압력 센서(813)에 의해 획득된 홀딩 신호에 따라 프로세서(801)에 의해 왼손/오른손 인식 및 급동 작용(quick action)이 수행될 수 있다. 압력 센서(813)가 터치 디스플레이 스크린(805)의 하부층에 배치된 경우, 프로세서(801)는 터치 디스플레이 스크린(805)에 대한 사용자의 압력 조작에 따라 UI에서 조작 가능한 제어를 제어한다. 조작 가능한 제어는 버튼 제어, 스크롤바 제어, 아이콘 제어 및 메뉴 제어 중 적어도 하나를 포함한다.

지문 센서(814)는 사용자의 지문을 획득하도록 구성되고, 프로세서(801)는 지문 센서(814)에 의해 획득된 지문에 따라 사용자의 신원을 식별하거나, 또는 지문 센서(814)는 획득된 지문에 따라 사용자의 신원을 식별한다. 사용자의 신원이 신뢰할 수 있는 신원으로 식별되는 경우, 프로세서(801)는 관련된 민감한 동작을 사용자에게 승인하고, 민감한 동작은 화면 잠금 해제, 암호화된 정보 보기, 소프트웨어 다운로드, 결제, 설정 변경 등을 포함한다. 지문 센서(814)는 단말(800)의 전면, 후면 또는 측면에 배치될 수 있다. 단말(800)에 물리적인 버튼 또는 제조사 로고가 배치된 경우, 지문 센서(814)는 물리적인 버튼 또는 제조사 로고와 통합될 수 있다.

광학 센서(815)는 주변 광 강도를 획득하도록 구성된다. 실시예에서, 프로세서(801)는 광학 센서(815)에 의해 획득된 주변 광 강도에 따라 터치 디스플레이 스크린(805)의 디스플레이 밝기를 제어할 수 있다. 특히, 주변 밝기가 비교적 높은 경우, 터치 디스플레이 스크린(805)의 디스플레이 밝기가 높게 조정된다. 주변 광 강도가 비교적 낮은 경우, 터치 디스플레이 스크린(805)의 디스플레이 밝기가 낮게 조정된다. 다른 실시예에서, 프로세서(801)는 또한 광학 센서(815)에 의해 획득된 주변 광 강도에 따라 카메라 컴포넌트(806)의 카메라 파라미터를 동적으로 조정할 수 있다.

거리 센서로도 지칭되는 근접 센서(816)는 일반적으로 단말(800)의 전면 패널 상에 배치된다. 근접 센서(816)는 사용자와 단말(800)의 전면 사이의 거리를 획득하도록 구성된다. 실시예에서, 근접 센서(816)가 사용자와 단말(800)의 전면 사이의 거리가 점차 감소하는 것을 검출하는 경우, 터치 디스플레이 스크린(805)은 스크린 온 상태에서 스크린 오프 상태로 스위칭하도록 프로세서(801)에 의해 제어된다. 근접 센서(816)가 사용자와 단말(800)의 전면 사이의 거리가 점차 증가하는 것을 검출하는 경우, 터치 디스플레이 스크린(805)은 스크린 오프 상태에서 스크린 온 상태로 스위칭하도록 프로세서(801)에 의해 제어된다.

당업자라면 도 8에 도시된 구조가 단말(800)에 대한 제한을 구성하지 않으며, 단말이 도면에 도시된 것보다 더 많거나 더 적은 컴포넌트를 포함할 수 있거나, 또는 일부 컴포넌트가 결합될 수 있거나, 또는 다른 컴포넌트 배치가 사용될 수 있다는 것을 이해할 수 있다.

본 발명의 실시예는 이미지 처리 단말을를 더 제공한다. 단말은 프로세서 및 메모리를 포함한다. 메모리는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저장한다. 명령, 프로그램, 코드 세트 또는 명령 세트는 프로세서에 의해 로딩되고 전술한 실시예에서의 이미지 처리 방법을 수행하는 작동을 갖는다.

본 개시의 실시예는 컴퓨터 판독 가능 저장 매체를 더 제공한다. 컴퓨터 판독 가능 저장 매체는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령어 세트를 저장한다. 명령, 프로그램, 코드 세트 또는 명령 세트는 프로세서에 의해 로딩되고 전술한 실시예에서의 이미지 처리 방법을 수행하는 작동을 갖는다.

당업자는 실시예의 모든 단계 또는 일부 단계가 하드웨어 또는 관련 하드웨어를 지시하는 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 상술한 저장 매체는 ROM, 자기 디스크 또는 광 디스크일 수 있다.

전술한 실시예의 기술적 특징은 랜덤하게 결합될 수 있다. 간결한 설명을 위해, 실시예에서의 기술적 특징의 가능한 모든 조합이 설명되는 것은 아니다. 그러나, 기술적 특징의 조합은 모두 서로 상충하지 않는 한 본 명세서에서 기록된 범위에 속하는 것으로 간주될 것이다.

전술한 실시예는 본 출원의 여러 구현을 보여주고 상세하게 설명하였으나, 본 개시의 특허 범위를 제한하는 것으로 해석되어서는 안된다. 당업자는 본 출원의 개념을 벗어나지 않고 다양한 변경 및 개선을 할 수 있으며, 이는 모두 본 출원의 보호 범위 내에 속한다. 따라서, 본 출원 특허의 보호 범위는 첨부된 청구 범위에 따른다.

Claims

단말에 의해 수행되는 이미지 처리 방법으로서,
훈련된 픽셀 분류 모델을 획득하는 단계 ― 상기 픽셀 분류 모델은 임의의 이미지의 각각의 픽셀의 분류 식별자를 결정하기 위해 사용되고, 상기 분류 식별자는 머리(head) 분류 식별자와 비 머리(non-head) 분류 식별자를 포함하며, 상기 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하기 위해 사용되고, 상기 비 머리 분류 식별자는 대응하는 픽셀이 비 머리 영역에 위치함을 지시하기 위해 사용됨 ―;
타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 상기 픽셀 분류 모델에 기초하여 상기 타깃 이미지의 각각의 픽셀을 분류하는 단계; 및
상기 분류 식별자의 머리 분류 식별자에 따라 상기 타깃 이미지에서 머리 영역을 결정하고, 상기 머리 영역을 편집하는 단계
를 포함하며,
상기 타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 상기 픽셀 분류 모델에 기초하여 상기 타깃 이미지의 각각의 픽셀을 분류하는 단계 전에, 상기 이미지 처리 방법은,
상기 타깃 이미지에서 얼굴 영역을 획득하기 위해 상기 타깃 이미지에 대해 얼굴 검출을 수행하는 단계;
훈련된 표정 인식 모델을 획득하는 단계;
상기 얼굴 영역의 표정 클래스를 획득하기 위해 상기 표정 인식 모델에 기초하여 상기 얼굴 영역에 대한 인식을 수행하는 단계; 및
상기 얼굴 영역의 표정 클래스가 타깃 표정 클래스인 경우에 상기 픽셀 분류 모델에 기초하여 타깃 이미지에서 각각의 픽셀을 분류하는 작동을 수행하는 단계
를 더 포함하는 이미지 처리 방법.
제1항에 있어서,
상기 훈련된 픽셀 분류 모델을 획득하는 단계 전에, 상기 이미지 처리 방법은,
복수의 샘플 이미지 및 상기 복수의 샘플 이미지 내의 각각의 픽셀의 분류 식별자를 획득하는 단계; 및
상기 훈련된 픽셀 분류 모델의 분류 정확도가 제1 미리 설정된 임계값에 도달할 때까지, 상기 복수의 샘플 이미지 및 상기 복수의 샘플 이미지 내의 각각의 픽셀의 분류 식별자에 따라 훈련을 수행하는 단계
를 더 포함하는 이미지 처리 방법.
제1항에 있어서,
상기 머리 영역을 편집하는 단계는,
표정 클래스와 처리 모드 사이에 미리 설정된 대응관계에 따라, 상기 타깃 표정 클래스에 대응하는 타깃 처리 모드를 결정하는 단계; 및
상기 타깃 처리 모드를 사용하여 상기 머리 영역을 편집하는 단계
를 포함하는, 이미지 처리 방법.
제1항에 있어서,
상기 훈련된 표정 인식 모델을 획득하는 단계 전에, 상기 이미지 처리 방법은,
복수의 샘플 얼굴 이미지 및 각각의 샘플 얼굴 이미지의 표정 클래스를 획득하는 단계; 및
상기 훈련된 표정 인식 모델의 인식 정확도가 제2 미리 설정된 임계값에 도달할 때까지, 상기 복수의 샘플 얼굴 이미지 및 상기 각각의 샘플 얼굴 이미지의 표정 클래스에 따라 훈련을 수행하는 단계
를 더 포함하는 이미지 처리 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 상기 픽셀 분류 모델에 기초하여 상기 타깃 이미지의 각각의 픽셀을 분류하는 단계 전에, 상기 이미지 처리 방법은,
순서대로 배열된 복수의 이미지를 포함하는 타깃 비디오를 획득하는 단계; 및
상기 복수의 이미지 각각을 상기 타깃 이미지로 사용하고, 상기 픽셀 분류 모델에 기초하여 타깃 이미지의 각각의 픽셀을 분류하는 작동을 수행하는 단계
를 더 포함하는 이미지 처리 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 머리 영역을 편집하는 단계는,
상기 머리 영역을 스케일 업(scale up)시키거나, 또는
상기 머리 영역을 스케일 다운(scale down)시키거나, 또는
상기 머리 영역에 재료를 추가하거나, 또는
상기 머리 영역을 흔드는 동적 효과를 디스플레이하는 단계
를 포함하는, 이미지 처리 방법.
이미지 처리 장치로서,
훈련된 픽셀 분류 모델을 획득하도록 구성된 제1 획득 모듈 ― 상기 픽셀 분류 모델은 임의의 이미지의 각각의 픽셀의 분류 식별자를 결정하기 위해 사용되고, 상기 분류 식별자는 머리 분류 식별자와 비 머리 분류 식별자를 포함하며, 상기 머리 분류 식별자는 대응하는 픽셀이 머리 영역에 위치함을 지시하기 위해 사용되고, 상기 비 머리 분류 식별자는 대응하는 픽셀이 비 머리 영역에 위치함을 지시하기 위해 사용됨 ―;
타깃 이미지의 픽셀의 분류 식별자를 획득하기 위해 상기 픽셀 분류 모델에 기초하여 상기 타깃 이미지의 각각의 픽셀을 분류하도록 구성된 분류 모듈; 및
상기 분류 식별자의 머리 분류 식별자에 따라 상기 타깃 이미지에서 머리 영역을 결정하고, 상기 머리 영역을 편집하도록 구성된 제1 처리 모듈
을 포함하며,
상기 타깃 이미지에서 얼굴 영역을 획득하기 위해 상기 타깃 이미지에 대해 얼굴 검출을 수행하도록 구성된 검출 모듈;
훈련된 표정 인식 모델을 획득하도록 구성된 제3 획득 모듈; 및
상기 얼굴 영역의 표정 클래스를 획득하기 위해 상기 표정 인식 모델에 기초하여 상기 얼굴 영역에 대한 인식을 수행하도록 구성된 표정 인식 모듈
을 더 포함하고,
상기 분류 모듈은 상기 얼굴 영역의 표정 클래스가 타깃 표정 클래스인 경우, 상기 픽셀 분류 모델에 기초하여 타깃 이미지의 각각의 픽셀을 분류하는 작동을 수행하도록 더 구성되는 이미지 처리 장치.
제7항에 있어서,
복수의 샘플 이미지 및 상기 복수의 샘플 이미지 내의 각각의 픽셀의 분류 식별자를 획득하도록 구성된 제2 획득 모듈; 및
상기 훈련된 픽셀 분류 모델의 분류 정확도가 제1 미리 설정된 임계값에 도달할 때까지, 상기 복수의 샘플 이미지 및 상기 복수의 샘플 이미지 내의 각각의 픽셀의 분류 식별자에 따라 훈련을 수행하도록 구성된 제1 훈련 모듈
을 더 포함하는 이미지 처리 장치.
제7항에 있어서,
상기 제1 처리 모듈은,
표정 클래스와 처리 모드 사이에 미리 설정된 대응관계에 따라, 상기 타깃 표정 클래스에 대응하는 타깃 처리 모드를 결정하도록 구성된 타깃 처리 유닛; 및
상기 타깃 처리 모드를 사용하여 상기 머리 영역을 편집하도록 구성된 편집 유닛
을 포함하는, 이미지 처리 장치.
제7항에 있어서,
복수의 샘플 얼굴 이미지 및 각각의 샘플 얼굴 이미지의 표정 클래스를 획득하도록 구성된 제4 획득 모듈; 및
상기 훈련된 표정 인식 모델의 인식 정확도가 제2 미리 설정된 임계값에 도달할 때까지, 상기 복수의 샘플 얼굴 이미지 및 상기 각각의 샘플 얼굴 이미지의 표정 클래스에 따라 훈련을 수행하도록 구성된 제2 훈련 모듈
을 더 포함하는 이미지 처리 장치.
제7항 내지 제10항 중 어느 한 항에 있어서,
타깃 비디오를 획득하도록 구성된 비디오 처리 모듈 ― 상기 타깃 비디오는 순서대로 배열된 복수의 이미지를 포함하고, 상기 복수의 이미지 각각은 상기 타깃 이미지로 사용됨 ―
을 더 포함하는 이미지 처리 장치.
이미지 처리 단말로서,
프로세서 및 메모리를 포함하며,
상기 메모리는 적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저장하고, 상기 명령, 상기 프로그램, 상기 코드 세트 또는 상기 명령 세트는,
제1항 내지 제4항 중 어느 하나의 항에 따른 이미지 처리 방법을 수행하기 위해 상기 프로세서에 의해 로딩되는,
이미지 처리 단말.
컴퓨터 판독 가능 저장 매체로서,
적어도 하나의 명령, 적어도 하나의 프로그램, 코드 세트 또는 명령 세트를 저장하고, 상기 명령, 상기 프로그램, 상기 코드 세트 또는 상기 명령 세트는, 프로세서에 의해 로딩되어 실행되는 경우, 상기 프로세서로 하여금,
제1항 내지 제4항 중 어느 하나의 항에 따른 이미지 처리 방법을 수행하게 하는, 컴퓨터 판독 가능 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제