KR20230090815A

KR20230090815A - 딥러닝을 활용한 이미지 내 객체 제거 방법 및 이를 위한 연산장치

Info

Publication number: KR20230090815A
Application number: KR1020210179899A
Authority: KR
Inventors: 이한솔; 손민성; 이현기; 곽승근; 손종수; 서현석; 김보경
Original assignee: 씨제이올리브네트웍스 주식회사
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2023-06-22
Also published as: KR102594092B1

Abstract

본 발명은 딥러닝을 활용하여 이미지 내 객체를 제거하는 방법 및 이를 위한 연산 장치에 관한 것으로, 어느 이미지 또는 이미지들 내에서 제거하고자 하는 객체를 검출해 내고, 그 객체를 제거하는 과정을 학습시켜 둠으로써 실제 이미지 내에서 제거가 필요한 객체를 자동으로 검출 및 제거할 수 있도록 한 방법 및 연산 장치에 관한 것이다.

Description

딥러닝을 활용한 이미지 내 객체 제거 방법 및 이를 위한 연산장치{A METHOD FOR REMOVING OBJECTS IN AN IMAGE USING DEEP LEARNING AND AN APPARATUS FOR THE SAME}

바야흐로 콘텐츠의 시대라 할 수 있을 만큼 최근의 문화는 콘텐츠, 특히 사용자들에게 가장 많이 노출되는 영상 콘텐츠에 의해 주도되고 있다. 영상을 촬영할 수 있는 장치, 그리고 이를 공유할 수 있는 통신 네트워크 및 플랫폼 환경이 갖추어지면서 이제는 누구든지 쉽게 콘텐츠를 제작 및 공유할 수 있는 시대가 되었으며, 이에 맞추어 콘텐츠를 제작 및 납품하는 업체들 역시 그 수준이 높아지고 있다.

한편, 영상 콘텐츠들이 대량으로 생산 및 공유됨으로 인해 부작용도 많이 드러나고 있는데, 그 중 하나는 영상 콘텐츠 내에서 노출되지 않아야 할 객체들, 예를 들어 사전에 협의되지 않은 브랜드 로고와 같은 객체들이 무분별하게 노출이 됨으로써 이와 관련된 많은 분쟁들이 야기되고 있는 것이다.

상당수 업체들이 분쟁을 사전에 예방하기 위해 브랜드 로고를 테이프로 가린 채 촬영을 하는 등 노력을 기울이고 있긴 하나, 이러한 처리는 오히려 시청자들로 하여금 브랜드 로고에 대한 궁금증을 더하게 하거나 영상 콘텐츠의 품질 자체를 떨어트릴 염려가 있는 등 한계가 분명하다 할 것이다. 또한, 영상 내에서 이미지 처리 알고리즘을 활용하여 브랜드 로고를 지워내는 방식도 고려되고 있으나, 이는 하나의 영상 데이터를 구성하는 수 많은 프레임으로부터 각각 특정 객체를 삭제하여야 하는 작업을 요하므로 상당한 비용 및 노력이 들어갈 수 밖에 없다.

본 발명은 이와 같은 문제점을 해결하기 위해 제안된 것으로, 학습이 가능한 알고리즘들을 활용하여 영상 내 객체, 더 정확하게는 영상을 구성하는 복수의 이미지 내 객체를 제거하는 방법, 그리고 이를 위한 연산장치에 관한 것이다.

한국등록특허공보 10-2247025 (2021.04.26 등록)

본 발명은 영상 콘텐츠를 구성하는 이미지들로부터 객체를 제거하기 위한 것으로, 특히 학습된 알고리즘을 활용함으로써 객체 제거 과정이 자동으로 빠르게 이루어질 수 있게 하는 것을 목적으로 한다.

또한 본 발명은 반복된 학습을 실행시킴으로써 객체의 검출 및 제거 과정에서의 정확도가 지속적으로 향상될 수 있게 하는 것을 목적으로 한다.

한편, 본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

위와 같은 문제점을 해결하기 위하여, 본 발명에 따른 중앙처리유닛 및 메모리를 포함하는 연산장치를 이용하여 이미지로부터 객체를 제거하는 방법은, (a)영상을 구성하는 프레임 이미지들 중 특정 프레임 이미지 내에서 객체를 적어도 하나 이상 검출하는 단계; (b)검출된 객체들 중 제거대상객체를 결정하는 단계; (c)상기 제거대상객체에 대응되는 마스크를 생성하는 단계; 및 (d)상기 마스크를 이용하여 상기 프레임 이미지로부터 제거대상객체를 제거하는 단계;를 포함한다.

또한, 상기 객체 제거 방법에 있어서 상기 제거대상객체를 결정하는 단계는, 상기 검출된 객체들 중 사용자에 의해 선택된 것을 제거대상객체로 결정하는 단계인 것을 특징으로 할 수 있다.

또한, 상기 객체 제거 방법에 있어서 상기 제거대상객체를 결정하는 단계 이후에는, 상기 제거대상객체의 제거방식을 결정하는 단계;를 더 포함할 수 있고, 이 때 상기 제거방식은 블러(blur)방식 또는 이레이즈(erase)방식 중 하나를 포함할 수 있다.

또한 상기 객체 제거 방법은, 상기 객체를 적어도 하나 이상 검출하는 단계 이후에는, 검출된 객체들 중 제거가 가능한 객체들을 선별하는 단계;를 더 포함하고, 상기 제거대상객체는, 상기 선별된 객체들 중에서 결정되는 것을 특징으로 할 수 있다.

또한, 상기 객체 제거 방법에 있어서 상기 제거대상객체를 제거하는 단계는, 상기 프레임 이미지로부터 객체영역을 크롭하는 단계; 상기 마스크의 객체영역을 상기 제거방식에 따라 처리하는 단계; 상기 프레임 이미지 및 마스크를 합성하는 단계;를 포함할 수 있다.

또한, 상기 객체 제거 방법에 있어서 상기 (a)단계 내지 (d)단계는 상기 영상 중 일부 재생부분을 구성하는 프레임 이미지들에 대해 수행되는 것을 특징으로 할 수 있다.

또한, 상기 객체 제거 방법에 있어서 상기 (a)단계는 학습된 제1 알고리즘에 의해 실행되되, 상기 제1 알고리즘의 학습은 임의의 이미지로부터 검출된 추론객체와 기 생성되어 있는 정답객체 간 비교를 반복함으로써 이루어지는 것을 특징으로 할 수 있다.

또한, 상기 객체 제거 방법에 있어서 상기 (c)단계는 학습된 제2 알고리즘에 의해 실행되되, 상기 제2 알고리즘의 학습은 임의의 이미지로부터 생성된 추론마스크와 기 생성되어 있는 정답마스크 간 비교를 반복함으로써 이루어지는 것을 특징으로 할 수 있다.

또한, 상기 객체 제거 방법에 있어서 상기 (d)단계는 학습된 제3 알고리즘에 의해 실행되되, 상기 제3 알고리즘의 학습은 임의의 이미지로부터 특정 객체가 제거된 상태의 추론이미지와 기 생성되어 있는 정답이미지 간 비교를 반복함으로써 이루어지는 것을 특징으로 할 수 있다.

한편, 본 발명의 또 다른 실시예에 따른 이미지로부터 객체를 검출하기 위한 제1 알고리즘을 학습시키는 방법은, 특정 이미지를 로드(load)하는 단계; 상기 이미지로부터 추출된 객체를 정답객체로 정의하는 단계; 상기 제1 알고리즘을 이용하여 상기 이미지로부터 임의의 객체를 검출시키고 검출된 객체를 추론객체로 정의하는 단계; 및 상기 추론객체와 정답객체를 비교하는 단계;를 포함할 수 있다.

한편, 본 발명의 또 다른 실시예에 따른 이미지로부터 마스크를 생성하기 위한 제2 알고리즘을 학습시키는 방법은, 객체를 포함하는 특정 이미지를 로드(load)하는 단계; 상기 이미지로부터, 상기 객체가 차지하는 영역 및 그 외의 영역으로 구분되는 정답마스크를 생성하는 단계; 상기 제2 알고리즘을 이용하여, 상기 이미지와 객체 이미지 - 상기 객체 이미지는, 상기 로드된 이미지 내 포함되어 있는 객체의 이미지임 - 의 비교연산을 함으로써 추론마스크를 생성하는 단계; 상기 추론마스크와 정답마스크를 비교하는 단계;를 포함할 수 있다.

한편, 본 발명의 또 다른 실시예에 따른 이미지로부터 객체를 제거하기 위한 제3 알고리즘을 학습시키는 방법은, 객체가 포함되어 있는 상태의 원본이미지, 객체가 제거되어 있는 상태의 정답이미지, 및 상기 객체에 대응되는 마스크를 로드(load)하는 단계; 상기 제3 알고리즘을 이용하여, 상기 마스크 내 포함되어 있는 객체영역을 이미지 처리하고, 상기 이미지 처리 된 마스크와 상기 원본이미지를 합성시켜 추론이미지를 생성하는 단계; 및 상기 추론이미지 및 정답이미지를 비교하는 단계;를 포함할 수 있다.

한편, 본 발명의 또 다른 실시예에 따른 이미지로부터 객체를 제거하기 위한 연산장치는, 영상을 구성하는 이미지들 중 특정 이미지 내에서 객체를 적어도 하나 이상 검출하는 객체 검출부; 검출된 객체들 중 제거대상객체로 결정된 것에 대응되는 마스크를 생성하는 마스크 생성부; 상기 마스크를 이용하여 상기 이미지로부터 제거대상객체를 제거하는 객체 처리부; 상기 객체 검출부, 마스크 생성부, 및 객체 처리부를 제어하는 제어부;를 포함할 수 있다.

본 발명에 따르면 영상 콘텐츠 내에서 노출 시키고 싶지 않은 객체들을 선별하여 삭제할 수 있게 되는 효과가 있다.

또한 본 발명에 따르면 높은 정확도로 객체를 제거할 수 있게 되는 효과가 있다.

또한 본 발명에 따르면 영상 콘텐츠 제작자가 큰 비용이나 노력을 들이지 않더라도 손쉽게 객체를 제거할 수 있는 효과가 있다.

또한 본 발명에 따르면 영상 콘텐츠 제작자에게 직접 제거하고자 하는 객체를 선택할 수 있게 함으로써 사용자 편의성을 높일 수 있는 효과가 있다.

한편, 본 발명에 의한 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 활용예를 이해하기 쉽게 설명하기 위한 도면이다.
도 2는 본 발명에 따른 객체 제거 방법을 순서에 따라 도시한 것이다.
도 3은 검출된 객체들을 사용자에게 표시하는 모습을 도시한 것이다.
도 4는 마스크가 생성된 모습을 도시한 것이다.
도 5는 객체 제거 방법을 구성하는 단계들 중 특히 객체 제거 단계를 세부단계들로 나누어 도시한 것이다.
도 6은 이미지 및 마스크로부터 객체 부분을 크롭핑하고, 크롭핑 된 객체 부분을 합성함으로써 최종적으로 객체가 제거된 상태의 이미지를 생성하는 과정을 도시한 것이다.
도 7은 이미지로부터 객체를 검출하기 위한 제1 알고리즘의 학습 단계를 도시한 것이며, 도 8은 학습 단계를 쉽게 이해하기 위한 도면이다.
도 9는 객체에 대응되는 마스크를 생성하기 위한 제2 알고리즘의 학습 단계를 도시한 것이며, 도 10은 학습 단계를 쉽게 이해하기 위한 도면이다.
도 11은 이미지 내에서 객체를 제거 내지 처리하기 위한 제3 알고리즘의 학습 단계를 도시한 것이며, 도 12는 학습 단계를 쉽게 이해하기 위한 도면이다.

본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.

본 명세서에서 개시되는 실시 예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시 예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시 예들로 한정되는 것을 의도하지 않는다.

도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.

또한, 어떤 구성요소들을 포함한다는 표현은 "개방형"의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.

나아가 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.

이하에서는 도면들을 참조하여 본 발명의 각 실시 예들에 대해 살펴보기로 한다.

먼저 도 1은 본 발명에 따른 객체 제거 방법의 활용 예를 설명하기 위한 도면이다. 도 1에는 복수 개의 프레임 이미지(Frame Image; FI)들이 하나의 영상 콘텐츠를 이루며, 이 때 임의의 한 프레임 이미지 내에는 한 남자가 걸어가는 모습이 표시되고 있음을 알 수 있다. 이 때, 위 남자가 입고 있는 겉옷에는 특정 브랜드 로고, 즉 객체(10)가 함께 노출되어 있을 수 있는데, 이 객체(10)가 만일 사전에 해당 브랜드 업체와 협의가 이루어지지 않은 상태의 브랜드 로고인 경우, 또는 상기 특정 브랜드 로고를 불특정 다수가 시청하는 방송 프로그램에 그대로 노출 시킬 시 정해진 규칙에 반하는 경우 등에는 위 객체(10)를 영상 콘텐츠로부터 제거시킬 필요가 있다.

본 발명에 따른 객체 제거 방법 및 연산장치는 영상 콘텐츠를 구성하는 각 프레임 이미지(FI)들로부터 없애고자 하는 객체를 자동으로 검출 및 제거함으로써 궁극적으로는 도 1의 우측 프레임 이미지에 보이는 것과 같이 객체(10)가 제거된 상태의 영상 콘텐츠를 생성해 내는 것을 목적으로 한다.

한편, 영상 콘텐츠 내에서 제거하고자 하는 객체에는 다양한 종류의 것들, 예를 들어 브랜드 로고, 시청자들이 보기에 유해한 물건들 등 다양한 것들이 존재할 수 있겠으나, 본 상세한 설명에서는 발명의 이해를 돕기 위하여 객체(10)가 브랜드 로고인 실시예를 위주로 설명하기로 한다.

이상 도 1을 참고하여 본 발명에 따라 제공되는 객체 제거 방법의 활용예에 대해 살펴 보았다.

도 2는 본 발명에 따른 객체 제거 방법의 시작부터 끝까지의 단계들을 나열한 것이다. 참고로 객체 제거 방법은 중앙처리유닛 및 메모리를 갖춘 연산장치 상에서 실행될 수 있는 것으로, 여기에는 컴퓨터, 스마트 디바이스 등 연산 수행 및 데이터 저장이 가능한 장치라면 모든 종류의 것들이 포함될 수 있다. 또한, 중앙처리유닛은 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 불릴 수 있다. 또한 중앙처리유닛은 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있는데, 하드웨어를 이용하여 구현하는 경우에는 ASIC(application specific integrated circuit) 또는 DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array) 등으로, 펌웨어나 소프트웨어를 이용하여 구현하는 경우에는 위와 같은 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등을 포함하도록 펌웨어나 소프트웨어가 구성될 수 있다. 또한, 메모리는 ROM(Read Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래쉬(flash) 메모리, SRAM(Static RAM), HDD(Hard Disk Drive), SSD(Solid State Drive) 등으로 구현될 수 있다.

다시 도 2에 대한 설명을 이어가 볼 때, 객체 제거 방법은 가장 먼저 영상을 로드(load)하는 단계(S101)로부터 시작될 수 있다. 영상을 로드한다는 것의 의미는 해당 영상에 대한 편집이 가능하도록, 다시 말해 연산장치 상에서 영상에 대한 이미지 프로세스 처리가 가능하도록 메모리 상에 불러오는 과정을 의미할 수 있다. 한편, 본 단계는 단순히 영상을 편집 가능한 상태로 불러오는 것뿐만 아니라, 상기 영상을 구성하는 프레임 이미지들을 로드하는 단계로도 이해될 수 있다. 상식적으로 영상은 여러 장의 프레임 이미지들로 구성되며, 영상을 편집할 때에는 각 프레임 이미지들에 대한 편집이 이루어져야 하는데, 본 S101 단계는 이렇게 편집이 필요한 프레임 이미지(들)를 로드하는 단계로도 이해될 수 있다.

S101단계 이후에는 상기 영상을 구성하는 프레임 이미지들 중 임의의 프레임 이미지 내에서 객체를 검출하는 단계(S102)가 실행될 수 있다. 이 때 바람직하게는 상기 영상을 구성하는 프레임 이미지들 중 첫 번째 프레임 이미지 내에서부터 객체를 검출하는 단계가 실행될 수 있는데, 이는 영상의 시작점부터 객체를 검출 및 제거해 냄으로써 객체가 사용자들에게 원천적으로 노출되지 않도록 하기 위함이다.

객체를 검출하는 단계에서는 사전에 이미 학습이 되어 있는 제1 알고리즘이 활용될 수 있는데, 이 때 제1 알고리즘은 사전에 사용자가 정의해 둔 정답객체를 참고하여 임의의 이미지들로부터 정답객체를 검출해 내는 학습 과정을 거친 상태의 것일 수 있다.

본 단계에서 검출되는 객체의 종류에는 다양한 것들이 포함될 수 있으며, 예를 들어 특정 브랜드의 브랜드 로고, 담배와 같은 유해물품 등 이미지로서 정의 가능한, 그리고 제1 알고리즘이 학습 가능한 모든 종류의 것들이 포함될 수 있다.

또한 본 단계에서는 하나의 프레임 이미지 내에서 복수 개의 객체들이 검출될 수도 있으며, 같은 종류의 객체들이 복수 개 검출될 수도 있고 서로 다른 종류의 객체들이 복수 개 검출될 수도 있다. 후자의 경우 제1 알고리즘은 프레임 이미지 내에서 검출하고자 하는 객체의 종류를 복수 개 학습한 상태일 것을 전제로 한다.

한편, 본 발명에 따른 객체 제거 방법은 복수 개의 프레임 이미지들을 대상으로 반복적으로 실행될 수 있으며, 따라서 S102 단계 역시 프레임 이미지 순서대로 반복 실행될 수 있다. 일반적으로 n번째 프레임 이미지의 바로 다음 순서 프레임 이미지인 n+1번째 프레임 이미지 내에 내에는 n번째 프레임 이미지 내에서 검출하였던 객체들과 동일한 객체들이 앞선 프레임 이미지 내에서와 같은 위치 또는 오차가 매우 작은 범위 내에서의 위치에 존재할 수 있는데, 이처럼 인접한 프레임 이미지들에 대해 객체 검출 하는 단계를 반복적으로 수행하게 되는 경우 서비스 서버(100)는 이전 프레임 이미지 상에서의 검출 결과물을 참고하여 검출을 위한 연산을 빠르게 수행할 수 있다.

한편, 서비스 서버(100)는 복수 개의 객체들을 검출한 후 이들 중에서 제거 대상이 되는 객체들을 선별하는 단계, 즉 제거의 필요성이 높은 객체들 또는 제거가 가능한 객체들만을 따로 선별하는 단계(S103)를 더 실행할 수도 있다. 즉, 서비스 서버(100)는 1차적으로 복수 개의 객체들을 검출할 수 있으며, 2차적으로 실제 제거가 가능한 객체들을 다시 추려내어 선별할 수 있다. 선별 기준에는 다양한 것들이 존재할 수 있는데, 예를 들어 검출된 객체의 크기가 설정범위를 벗어난 경우, 검출된 객체의 명도가 설정값보다 낮은 경우 등이 선별기준이 될 수 있다. 즉, 프레임 이미지로부터 검출된 객체가 너무 작아서 굳이 제거를 하지 않더라도 인지가 어려운 경우, 또는 객체가 프레임 이미지 내에서 차지하는 면적이 너무 커서 제거 자체가 불가능한 경우 이러한 객체들은 2차 선별 기준에 의해 걸러질 수 있다. 다만, 언급한 S103 단계는 본 발명에 따른 객체 제거 방법에 있어서 필수적인 단계는 아니라 할 것이며, 알고리즘 설계자의 의도에 따라, 또는 이를 사용하는 사용자의 의도에 따라 단계 포함여부가 결정될 수 있다.

다음으로, 서비스 서버(100)는 복수 개의 검출된 객체들 중에서 적어도 어느 하나의 객체를 제거대상객체로 결정(S104)할 수 있다. 본 단계는 서비스 서버(100)가 자체 연산에 따라 특정 객체를 제거대상객체로 결정하는 방식으로 구현될 수도 있고, 또는 서비스 서버(100)가 사용자로부터 선택된 객체를 제거대상객체로 결정하는 방식으로 구현될 수도 있다. 전자의 경우, 서비스 서버(100)는 검출된 복수 개의 객체들 중 사용자가 제거하고자 하는 객체와 가장 유사도가 높은 객체, 또는 유사도가 기 설정값 이상인 객체들을 제거대상객체로 결정할 수 있으며, 결정 후에는 제거대상객체를 처리하기 위한 후속 단계들을 실행할 수 있다. 후자의 경우, 서비스 서버(100)는 사용자에게 직접 제거되기를 원하는 객체를 선택할 수 있도록 객체선택 인터페이스를 제공할 수 있으며, 상기 사용자가 특정 객체를 선택하는 경우 그 객체를 제거대상객체로 결정할 수 있다.

도 3은 앞서 설명한 S101단계 내지 S103단계의 이해를 돕기 위한 것으로, 임의의 프레임 이미지 내에서 여러 개의 객체들이 검출된 모습을 도시한 것이다. 도면을 살펴볼 때, 프레임 이미지 내에서 총 4개의 객체들(11(a)~11(d))이 검출되었는데 이 중 점선으로 표시가 되어 있는 객체#4(11(d))는 서비스 서버(100)에 의해 객체로서 검출이 되긴 하였으나 제거가 필요한 객체 또는 제거가 가능한 객체로 선별되지는 못한 것을 표시한 것이다. 반면 객체#1 내지 #3(11(a)~11(c))은 모두 제거가 필요하거나 제거가 가능한 객체로 선별된 것임을 표시한 것이다.

한편, 도 3에 도시되어 있는 화면은 사용자, 즉 영상 콘텐츠로부터 객체 제거를 원하는 사용자에게 제공될 수 있으며, 서비스 서버(100)는 사용자로부터 어떤 객체의 제거를 원하는지에 대한 선택 입력을 수신할 수 있다. 예를 들어, 영상 콘텐츠 편집자가 사용자라 가정할 때, 서비스 서버(100)는 사용자에게 도 3의 객체#1 내지 #3까지가 표시된 화면을 제공할 수 있고, 사용자가 이 중 특정 브랜드 로고에 대응되는 객체#1 및 객체#2를 선택하였다면 서비스 서버(100)는 위 두 개의 객체들을 제거대상객체로 결정한 뒤 후속 단계들을 진행시킬 수 있다.

다시 도 2에 대한 설명으로 돌아올 때, S104단계를 통해 제거대상객체가 결정된 후에는 상기 제거대상객체를 어떤 방식으로 처리를 할 것인지를 결정하는 단계(S105)가 실행될 수 있다. 본 단계 역시 S103단계와 마찬가지로 서비스 서버(100)가 자체적인 연산에 의해 어느 하나의 방식을 선택하도록 구현될 수 있으며, 또는 서비스 서버(100)가 사용자로부터 선택된 방식을 제거대상객체를 제거하는 방식으로 결정하도록 구현될 수도 있다. 서비스 서버(100)가 자체적인 연산에 의해 어느 하나의 방식을 선택하도록 구현된 경우, 실질적으로 S102단계 또는 S103단계로부터 S105단계까지는 일부 사용자로부터의 선택입력을 받는 순간 이외에 단계 간의 경계가 구분이 되지 않은 채 객체의 검출부터 제거대상객체의 결정 및 제거 방식의 선택까지가 마치 하나의 단계처럼 이어질 수 있다.

참고로 제거대상객체를 제거하는 방식에는 대표적으로 블러(blur) 방식, 그리고 이레이즈(erase) 방식이 포함될 수 있다. 블러 방식은 제거대상객체가 포함된 영역 주변부를 흐릿하게 처리하는 방식을 의미하며, 이레이즈 방식은 제거대상객체가 포함된 영역을 지운 후 해당 영역에 주변부 이미지를 삽입시키는 등의 방법으로 객체를 제거하는 방식을 의미한다. 그러나 제거대상객체를 제거하는 방식에는 위 두 가지 방법만 있는 것은 아니며, 다양한 이미지 처리 방식이 활용 가능함을 이해하기로 한다.

제거대상객체 및 제거 방식이 결정된 이후에는 상기 제거대상객체에 대응되는 마스크를 생성하는 단계(S106)가 실행될 수 있다. 마스크란, 후속적으로 객체가 블러 또는 이레이즈 처리 된 상태의 프레임 이미지와 합성될 때 상기 블러 또는 이레이즈 처리된 객체에 대응되는 영역의 Ground Truth로 사용되는 것으로, 추후 객체가 블러 또는 이레이즈 처리 된 상태의 프레임 이미지와 합성되어 최종 결과물, 즉 객체가 제거된 상태의 프레임 이미지를 생성해 내는 데에 필요한 일 구성이라 할 것이다.

도 4는 마스크 생성 단계를 이해하기 위한 도면으로, 앞서 본 도 3에서 객체#1(11(a)) 및 객체#2(11(b))가 제거대상객체로 결정되었다고 가정할 때 이에 대응되는 마스크가 우측에 도시되어 있다. 도면에서도 볼 수 있듯 마스크에는 객체#1에 대응되는 객체영역(13(a))과 객체#2에 대응되는 객체영역(13(b))가 포함될 수 있으며, 그 외의 영역들은 검은색의 마스킹 영역으로 이루어져 있다.

마스크 생성 단계는 기 학습된 제2 알고리즘에 따라 이루어질 수 있는데, 제2 알고리즘은 사전에 특정 이미지, 그리고 상기 이미지 내에 존재하는 특정 개체에 대응되는 것으로서 특정 개체가 차지하는 영역과 그 외의 영역으로 구분되어 있는 정답마스크를 비교함으로써 학습된 것을 특징으로 할 수 있다. 도 4의 우측에 도시되어 있는 마스크 역시 도 4의 좌측에 도시되어 있는 프레임 이미지 내 객체들의 객체영역을 인식하고, 객체영역의 경계를 가능한 한 정교하게 추출해 냄으로써 생성될 수 있다.

마스크가 생성된 이후, 서비스 서버(100)는 상기 마스크를 이용하여 앞서의 프레임 이미지로부터 제거대상객체를 제거하는 단계(S107)를 실행할 수 있으며, 본 단계는 기 학습된 제3 알고리즘을 활용하여 진행될 수 있다. S107단계는 도 5에서 세부단계들을 나열하고 있으며, 도 6에서는 이해를 돕기 위한 도면이 도시되어 있다. 이들을 참고할 때, 제거대상객체를 제거하는 단계는 가장 먼저 프레임 이미지로부터 객체영역을 크롭하는 단계(S1071), 그리고 마스크로부터도 객체영역을 크롭하는 단계(S1072)로부터 시작될 수 있다. 이후, 크롭된 객체영역을 이미지 처리한 후 서로 합성시킴으로써 크롭된 상태에서의 결과물이 획득(S1073)될 수 있으며, 최종적으로 크롭 결과물을 원래의 프레임 이미지에 적용하면 객체가 제거된 상태의 최종 결과물을 얻을 수 있다(S1074)

다른 한편, 본 발명에 따른 객체 제거 방법의 또 다른 실시예에서는 도 5 및 도 6에서 설명한 것과 달리 프레임 이미지나 마스크로부터 객체영역을 크롭하는 단계 없이 진행이 될 수도 있다. 다시 말해, 도 6을 기준으로 서비스 서버(100)는 마스크에서의 객체영역 부분을 선택된 제거 방식에 따라 이미지 처리한 후, (크롭이 되지 않은 상태의) 프레임 이미지와 합성함으로써 곧바로 객체가 제거된 상태의 결과물을 얻을 수도 있다.

이처럼 프레임 이미지로부터 제거대상객체를 제거하는 단계(S107)는 마스크를 활용할 수 있는 한 크롭여부와 관계 없이 다양한 방식으로 구현될 수 있음을 이해하기로 한다.

한편, 객체가 복수 개의 프레임 이미지들로부터 제거된 이후에는 마지막으로 이들 프레임 이미지들을 머지(merge)하여 객체가 제거된 상태의 영상을 생성하는 단계(S108)가 실행될 수 있다.

이상 도 2 내지 도 6을 참고하여 본 발명에 따른 객체 제거 방법에 대해 살펴 보았다.

참고로 앞서 설명한 객체 제거 방법은 연산장치에 의해 실행이 될 수 있으며, 이 때 연산장치를 그 기능에 따라 구성을 나누어 보자면 객체 검출부, 마스크 생성부, 객체 처리부, 제어부를 포함하는 것으로 이해될 수 있다. 객체 검출부는 영상을 구성하는 프레임 이미지들 중 특정 프레임 이미지 내에서 객체를 적어도 하나 이상 검출해 내는 구성이며, 마스크 생성부는 검출된 객체들 중 제거대상객체로 결정된 것에 대응되는 마스크를 생성하는 구성이고, 객체 처리부는 상기 마스크를 이용하여 상기 프레임 이미지로부터 제거대상객체를 실제 제거하는 구성이다.

도 7은 앞서 잠시 언급하였던 제1 알고리즘, 즉 특정 이미지로부터 객체를 검출하는 데에 사용되는 제1 알고리즘을 학습시키는 과정을 도시한 것이며, 도 8은 이해를 돕기 위한 도면이다.

도 7 및 도 8을 참고할 때, 제1 알고리즘을 학습시키는 방법은 가장 먼저 특정 이미지를 로드(load)하는 단계(S201)로부터 시작될 수 있다. 이미지를 로드한다는 것의 의미는 앞서 도 2의 S101 단계에서 설명한 것과 실질적으로 동일한 의미로 이해될 수 있다. 다만, 제1 알고리즘을 학습시키는 방법에 있어서는 상기 이미지가 반드시 어떤 영상의 프레임 이미지일 필요는 없으며, 특정 객체, 즉 제거시킬 수 있는 객체를 포함하고 있는 이상 이미지의 종류에 제한은 없다 할 것이다. 도 8에는 한 손으로 아령을 들고 운동하는 한 남성 이미지가 도시되어 있는데, 이 남성이 입고 있는 상의 겉면에는 제거하고자 하는 객체(10)가 표시되어 있다. 이렇듯 학습이 가능한 형태의 이미지, 즉 제거하고자 하는 객체(10)를 적어도 하나 이상 포함하는 이미지라면 그 종류를 가리지 않음을 이해한다.

한편 특정 이미지가 로드된 후에는, 상기 이미지로부터 추출된 객체를 정답객체로 정의하는 단계(S202)가 실행될 수 있다. 본 단계는 제1 알고리즘을 학습시키는 과정에서 궁극적으로 어떻게 객체를 검출해 내야 올바르게 검출한 것으로 판단할 것인지에 대한 질의에 정답을 제시하기 위한 것이다. 본 단계의 실제 구현은, 예를 들어 사용자가 도 8에서와 같이 로드된 이미지 상에서 검출하고자 하는 정답객체(15)를 둘러싸도록 바운딩 박스를 직접 설정할 수 있게 함으로써 이루어질 수 있다. 정답객체(15)를 정의하는 단계가 반드시 사용자로부터의 입력을 수반하지 않을 수 있으나, 바람직한 실시예는 아무래도 의도한 객체를 가장 정확하게 지정할 수 있는 사용자가 직접 정답객체(15)를 정할 수 있게 하는 것이 될 것이다.

정답객체(15)가 정의된 후에는, 상기 제1 알고리즘을 이용하여 상기 이미지로부터 임의의 객체를 검출시키고, 검출된 객체를 추론객체(16(a), (b))로 정의하는 단계(S203)가 실행될 수 있으며, 이후에는 추론객체와 앞서의 정답객체를 비교하는 단계(S204)가 실행될 수 있다. 즉, 본 단계들은 제1 알고리즘을 이용하여 현재 로드된 이미지 상에서 객체를 검출해 보도록 한 후 이렇게 검출해 본 객체가 얼마나 정답에 가까웠는지를 반복적으로 평가하는 과정이라 할 수 있다. 제1 알고리즘에 의해 검출된 추론객체와 앞서 미리 정의되어 있는 정답객체 간에는 얼마나 서로 유사한지를 평가하기 위한 유사도 연산이 반복될 수 있고, 연산된 유사도 값이 더 높은 값이 되도록 상기 제1 알고리즘 학습 방법이 반복될 수 있다. 도 8에는 제1 알고리즘을 이용하여 검출된 추론객체들(16(a), 16(b))이 표시되어 있는데, 이렇게 제1 알고리즘에 의해 검출된 추론객체들은 추후 정답객체(15)와 비교의 대상이 된다. 또한 참고로, S203단계는 검출된 객체를 추론객체로 정의하는 단계로 설명되었으나, 반드시 검출된 객체를 추론객체라고 지정하여 정의하는 형식적 단계가 필요한 것은 아닐 수 있으며, 객체가 검출된 과정만으로 검출된 객체가 추론객체로 정의된 것으로 이해될 수 있다.

도 9는 제2 알고리즘, 즉 특정 이미지 내에서 임의의 객체(제거대상객체)가 정의되었을 때 상기 객체에 대응되는 마스크를 생성하기 위한 알고리즘을 학습시키는 단계를 도시한 것이며, 도 10은 제2 알고리즘의 학습 과정에 대한 이해를 돕기 위한 도면이다.

도 9를 참고할 때, 제2 알고리즘을 학습시키는 방법은 가장 먼저 객체를 포함하는 특정 이미지를 로드하는 단계(S301)로부터 시작된다. 제2 알고리즘의 학습에 있어서는 반드시 객체가 포함되어 있는 이미지가 로드되어야 하며, 이는 상기 객체가 이미지 내에서 차지하고 있는 영역, 즉 객체영역에 대응되는 마스크를 찾는 것이 학습되어야 하기 때문이다.

이미지가 로드된 이후에는, 상기 이미지로부터 객체가 차지하는 영역 및 그 외의 영역으로 구분되는 정답마스크를 생성하는 단계(S302)가 실행될 수 있다. 정답마스크란 말 그대로 제2 알고리즘에 의해 결과적으로 생성되어야 할 이상적인 마스크를 이르는 것으로, 정답마스크 역시 앞서 제1 알고리즘 학습 방법에서의 정답객체와 마찬가지로 사용자로부터 수신되는 입력에 의해 직접 생성될 수 있다. 쉬운 일 예로, 사용자는 제2 알고리즘을 학습시키기 위한 정답마스크를 생성하기 위해 특정 브랜드 로고가 포함된 이미지를 이미지 편집 소프트웨어 상에서 로드시킨 뒤 해당 프로그램의 기능을 활용하여 정답마스크를 생성한 뒤 이것이 제2 알고리즘에 의해 정답마스크로 인식될 수 있게 할 수 있다. 한편, 정답마스크를 생성하는 단계는 반드시 사용자 입력을 수반하지 않을 수도 있다. 제2 알고리즘을 학습시키는 주체(예. 서비스 서버)는 기 저장되어 있는 복수 개의 이미지들에 대해 자체적으로 이미지 편집 프로세스를 수행하고, 이를 통하여 복수 개의 마스크를 생성할 수도 있다.

정답마스크가 생성된 후에는, 제2 알고리즘으로 하여금 상기 이미지와 객체 이미지의 비교연산을 통해 추론마스크(inferred mask)를 생성하게 하는 단계(S303), 및 상기 추론마스크와 정답마스크를 비교하는 단계(S304)가 실행될 수 있다. 객체 이미지란, 상기 로드된 이미지 내에 포함되어 있는 객체의 이미지를 일컬으며, 이 객체 이미지는 제2 알고리즘을 통해 마스크를 생성할 시 이미지 내에서 특정 객체를 찾아내는 데에 참고가 되는 이미지일 수 있다. 쉽게 말해, 제2 알고리즘의 학습 과정에서는 객체 이미지를 참고하여 이미지 내에서 어떤 객체를 식별해야 하는지를 인지하는 과정, 그리고 식별된 객체에 대응되는 객체영역을 포함하는 추론마스크 생성과정이 포함될 수 있으며, 이렇게 생성된 추론마스크와 정답마스크와의 유사성을 연산함으로써 추론마스크가 정답마스크에 더 유사해 질 수 있도록 학습 과정이 반복될 수 있다.

도 10은 제2 알고리즘의 학습과정을 이해하기 쉽게 한 것으로, "YOUR LOGO HERE"라는 객체가 포함된 (로드된) 이미지, 그리고 이와 비교하여 객체를 식별해 내기 위한 객체 이미지가 도시되어 있으며, 두 이미지 간의 유사도 연산, 즉 객체 이미지를 참고하여 로드된 이미지로부터 객체영역을 식별하는 과정을 거친 후 도면 하단의 추론마스크가 생성된 모습이 도시되어 있다. 추론마스크(inferred mask)에는 객체영역(18)이 흰색으로 구별되어 표시되어 있는 것도 확인할 수 있다. 이렇게 생성된 추론마스크는 미리 생성 및 저장되어 있던 정답마스크(17)와 비교연산 됨으로써 제2 알고리즘의 학습이 이루어질 수 있다.

도 11은 이미지로부터 객체를 제거하기 위한 제3 알고리즘을 학습시키는 방법을 단계 별로 나열한 것이며, 도 12는 제3 알고리즘의 학습과정에 대한 이해를 돕기 위한 도면이다.

도 11을 참고할 때, 제3 알고리즘을 학습시키는 방법은 가장 먼저 객체가 포함되어 있는 상태의 원본이미지, 객체가 제거되어 있는 상태의 정답이미지, 그리고 상기 객체에 대응되는 마스크를 데이터베이스화 하는 단계(S401)로부터 시작된다. 제3 알고리즘의 학습은, 앞서 도 6에서 설명하였던 과정과 유사한 단계를 거쳐 원본 이미지와 마스크를 합성하여 추론이미지를 생성하고, 이렇게 합성된 추론이미지와 정답이미지 간 비교를 함으로써 추론이미지가 정답이미지에 가까워지도록 반복적으로 학습시키는 것을 목적으로 한다. 따라서 이러한 용도의 제3 알고리즘을 학습시키기 위해서는 객체가 포함된 상태의 원본이미지, 궁극적으로 객체가 제거되어 있는 상태의 정답이미지, 그리고 객체에 대응되는 마스크가 필요하다 할 것인데, 상기 S401 단계는 바로 이 학습에 필수적인 구성들을 미리 준비해 놓는 단계로 이해될 수 있다.

S401단계 후에는 제3 알고리즘을 이용하여 상기 마스크 내 포함되어 있는 객체영역을 이미지 처리(예. 블러)하고, 이미지 처리 된 마스크와 상기 원본 이미지를 합성시켜 추론이미지를 생성하는 단계(S402)가 실행될 수 있으며, 이후 추론이미지와 정답이미지를 비교하는 단계(S403)로 이어질 수 있다.

도 12는 제3 알고리즘을 학습시키는 과정이 간략히 도시되어 있는데, 도면에는 원본이미지와 마스크가 합성되어 추론이미지(inferred image)가 생성된 모습, 그리고 추론이미지와 정답이미지가 서로 비교됨으로써 학습이 이루어지는 모습이 도시되어 있다. 비교 결과, 즉 추론이미지와 정답이미지 간 유사도를 평가해 본 결과 그 값이 기 설정한 값에 미치지 못한 경우, 제3 알고리즘 학습 과정은 상기 추론이미지를 생성하는 단계에서부터 다시 반복 실시될 수 있으며, 이는 추론이미지와 정답이미지 간 유사도가 기 설정한 값에 이를 때까지 반복될 수 있다.

이상 이미지로부터 객체를 제거하는 방법, 이를 위한 알고리즘을 학습시키는 방법, 및 이를 위한 연산장치에 대해 살펴보았다. 한편, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 구별되어 이해되어서는 안 될 것이다.

10 객체
11, 16 추론된 객체
12 바운딩 박스
13 마스크 내 객체영역
15 정답객체
17 정답마스크
18 추론마스크
100 서비스 서버

Claims

중앙처리유닛 및 메모리를 포함하는 연산장치를 이용하여 이미지로부터 객체를 제거하는 방법에 있어서,
(a)영상을 구성하는 프레임 이미지들 중 특정 프레임 이미지 내에서 객체를 적어도 하나 이상 검출하는 단계;
(b)검출된 객체들 중 제거대상객체를 결정하는 단계;
(c)상기 제거대상객체에 대응되는 마스크를 생성하는 단계; 및
(d)상기 마스크를 이용하여 상기 프레임 이미지로부터 제거대상객체를 제거하는 단계;
를 포함하는,
객체 제거 방법.
제1항에 있어서,
상기 제거대상객체를 결정하는 단계는,
상기 검출된 객체들 중 사용자에 의해 선택된 것을 제거대상객체로 결정하는 단계인 것을 특징으로 하는,
객체 제거 방법.
제2항에 있어서,
상기 제거대상객체를 결정하는 단계 이후,
상기 제거대상객체의 제거방식을 결정하는 단계;
를 더 포함하는,
객체 제거 방법.
제3항에 있어서,
상기 제거방식은 블러(blur)방식 또는 이레이즈(erase)방식 중 하나를 포함하는 것을 특징으로 하는,
객체 제거 방법.
제1항에 있어서,
상기 객체를 적어도 하나 이상 검출하는 단계 이후,
검출된 객체들 중 제거가 가능한 객체들을 선별하는 단계;를 더 포함하고,
상기 제거대상객체는, 상기 선별된 객체들 중에서 결정되는 것을 특징으로 하는,
객체 제거 방법.
제3항에 있어서,
상기 제거대상객체를 제거하는 단계는,
상기 프레임 이미지로부터 객체영역을 크롭하는 단계;
상기 마스크의 객체영역을 상기 제거방식에 따라 처리하는 단계;
상기 프레임 이미지 및 마스크를 합성하는 단계;
를 포함하는,
객체 제거 방법.
제1항에 있어서,
상기 (a)단계 내지 (d)단계는 상기 영상 중 일부 재생부분을 구성하는 프레임 이미지들에 대해 수행되는 것을 특징으로 하는,
객체 제거 방법.
제1항에 있어서,
상기 (a)단계는 학습된 제1 알고리즘에 의해 실행되되,
상기 제1 알고리즘의 학습은 임의의 이미지로부터 검출된 추론객체와 기 생성되어 있는 정답객체 간 비교를 반복함으로써 이루어지는 것을 특징으로 하는,
객체 제거 방법.
제1항에 있어서,
상기 (c)단계는 학습된 제2 알고리즘에 의해 실행되되,
상기 제2 알고리즘의 학습은 임의의 이미지로부터 생성된 추론마스크와 기 생성되어 있는 정답마스크 간 비교를 반복함으로써 이루어지는 것을 특징으로 하는,
객체 제거 방법.
제1항에 있어서,
상기 (d)단계는 학습된 제3 알고리즘에 의해 실행되되,
상기 제3 알고리즘의 학습은 임의의 이미지로부터 특정 객체가 제거된 상태의 추론이미지와 기 생성되어 있는 정답이미지 간 비교를 반복함으로써 이루어지는 것을 특징으로 하는,
객체 제거 방법.
이미지로부터 객체를 검출하기 위한 제1 알고리즘을 학습시키는 방법에 있어서,
특정 이미지를 로드(load)하는 단계;
상기 이미지로부터 추출된 객체를 정답객체로 정의하는 단계;
상기 제1 알고리즘을 이용하여 상기 이미지로부터 임의의 객체를 검출시키고 검출된 객체를 추론객체로 정의하는 단계; 및
상기 추론객체와 정답객체를 비교하는 단계;
를 포함하는,
이미지로부터 객체를 검출하기 위한 제1 알고리즘을 학습시키는 방법.
이미지로부터 마스크를 생성하기 위한 제2 알고리즘을 학습시키는 방법에 있어서,
객체를 포함하는 특정 이미지를 로드(load)하는 단계;
상기 이미지로부터, 상기 객체가 차지하는 영역 및 그 외의 영역으로 구분되는 정답마스크를 생성하는 단계;
상기 제2 알고리즘을 이용하여, 상기 이미지와 객체 이미지 - 상기 객체 이미지는, 상기 로드된 이미지 내 포함되어 있는 객체의 이미지임 - 의 비교연산을 함으로써 추론마스크를 생성하는 단계;
상기 추론마스크와 정답마스크를 비교하는 단계;
를 포함하는,
이미지로부터 마스크를 생성하기 위한 제2 알고리즘을 학습시키는 방법.
이미지로부터 객체를 제거하기 위한 제3 알고리즘을 학습시키는 방법에 있어서,
객체가 포함되어 있는 상태의 원본이미지, 객체가 제거되어 있는 상태의 정답이미지, 및 상기 객체에 대응되는 마스크를 로드(load)하는 단계;
상기 제3 알고리즘을 이용하여, 상기 마스크 내 포함되어 있는 객체영역을 이미지 처리하고, 상기 이미지 처리 된 마스크와 상기 원본이미지를 합성시켜 추론이미지를 생성하는 단계; 및
상기 추론이미지 및 정답이미지를 비교하는 단계;
를 포함하는,
이미지로부터 객체를 제거하기 위한 제3 알고리즘을 학습시키는 방법.
이미지로부터 객체를 제거하기 위한 연산장치에 있어서,
영상을 구성하는 이미지들 중 특정 이미지 내에서 객체를 적어도 하나 이상 검출하는 객체 검출부;
검출된 객체들 중 제거대상객체로 결정된 것에 대응되는 마스크를 생성하는 마스크 생성부;
상기 마스크를 이용하여 상기 이미지로부터 제거대상객체를 제거하는 객체 처리부;
상기 객체 검출부, 마스크 생성부, 및 객체 처리부를 제어하는 제어부;
를 포함하는,
연산장치.