KR102443630B1 - 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치 - Google Patents

영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치 Download PDF

Info

Publication number
KR102443630B1
KR102443630B1 KR1020190175874A KR20190175874A KR102443630B1 KR 102443630 B1 KR102443630 B1 KR 102443630B1 KR 1020190175874 A KR1020190175874 A KR 1020190175874A KR 20190175874 A KR20190175874 A KR 20190175874A KR 102443630 B1 KR102443630 B1 KR 102443630B1
Authority
KR
South Korea
Prior art keywords
image
line
mask
area
correct answer
Prior art date
Application number
KR1020190175874A
Other languages
English (en)
Other versions
KR20210083524A (ko
Inventor
신재섭
류성걸
손세훈
김형덕
김효성
Original Assignee
주식회사 픽스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 픽스트리 filed Critical 주식회사 픽스트리
Priority to KR1020190175874A priority Critical patent/KR102443630B1/ko
Priority to PCT/KR2020/018690 priority patent/WO2021133002A2/ko
Publication of KR20210083524A publication Critical patent/KR20210083524A/ko
Application granted granted Critical
Publication of KR102443630B1 publication Critical patent/KR102443630B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치를 개시한다.
본 실시예는 입력 이미지에서 보존하고자 하는 영역을 제외한 영역에 대한 에너지 맵(Energy Map)에서 추출된 라인(Line)을 삽입한 이미지를 획득하여 영상 비율이 확장하거나, 정답 이미지에서 보존하고자 하는 영역을 제외한 영역에 대한 에너지 맵에서 추출된 라인 삭제 이미지를 획득하여 영상 비율을 축소하는 영상 리타겟팅 방법 및 장치를 제공한다.

Description

영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치{Method And Apparatus for Retargeting Video}
본 실시예는 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
사용자의 편의에 따라 새로운 영상을 형성하기 위해 영상의 단편을 수정하거나 합성하는 영상 편집/합성 기술은 다양한 방법으로 개발되어 왔다. 영상 편집/합성 기술은 일반적으로 원치 않는 영상 부분을 지우거나 원하는 부분을 분리하고 새로운 부분과 합성하는 목적을 가지고 개발되고 있다.
영상을 합성하기 위하여 이미지 내의 객체 추출이 요구되는데, 객체를 추출하는 영상 분할 기술(Image Segmentation)로는 워터쉐드(Watershed) 알고리즘과 그래프 컷(Graph Cut) 알고리즘 등의 기술들이 개발되어 다양한 방법으로 활용되고 있다.
영상 크기 조정을 위해 개발된 기술로는 심 카빙(seam carving/insertion) 알고리즘이 있다. 심 카빙 알고리즘은 원본 영상에서 각각의 화소(pixel)간 중요도를 계산하여, 동적 계획법(Dynamic Programming)에 의해 중요도가 낮은 화소들을 연결시킨 라인(Line)을 구성하고, 중요도가 낮은 순서로 라인을 제거(Removal)하거나 삽입(Insertion)하여 영상의 크기를 축소하거나 확장한다. 심 카빙 기술은 본래 다양한 해상도를 갖는 장치에서 이미지를 표시하는 데 있어서 왜곡 없이 나타내기 위한 목적으로 고안되었다.
종래기술들은 단순히 배경영상에 객체영상을 덮어씌워 합성하는 방식을 이용하였다. 영상의 확대 및 축소 과정에서도 객체영상과 배경영상의 비율 등에 상관없이 단순히 전체 영상을 확대하거나 축소하였기 때문에 영상 편집/합성에 한계가 있으며, 이에 따라 자연스러운 합성영상을 제공하기 어려운 문제점이 있다.
본 실시예는 입력 이미지에서 보존하고자 하는 관심 영역을 설정하고, 해당 영역을 제외한 나머지 영역에 대해 관심 정도가 낮은 순서로 빈 라인(Line)을 삽입한 영상을 구성하여, 기계 학습에 기반하여 해당 라인을 채우거나 보정하는 것을 목표로 하는 영상 리타겟팅 방법 및 장치를 제공하는 데 목적이 있다.
본 실시예의 일 측면에 의하면, 입력 이미지(Input Image)(I)를 입력받는 과정; 상기 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하는 과정; 상기 입력 이미지(I)로부터 상기 보존 마스크(M)를 제외한 영역에 대한 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성하는 과정; 상기 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출하는 과정; 상기 보존 마스크(M)의 영역을 보존하면서 상기 라인 삽입 이미지(I+)를 획득하는 과정; 상기 라인 삽입 이미지(I+)를 미리 기계 학습 기반으로 학습된 인공지능 모델을 이용하여 영상 비율이 확장된 리타겟 이미지(I^ R)로 생성하는 과정을 포함하는 것을 특징으로 하는 영상 리타겟팅 방법을 제공한다.
본 실시예의 다른 측면에 의하면, 입력 이미지(Input Image)(I)를 입력받는 입력부; 상기 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하는 마스크 설정부; 상기 입력 이미지(I)로부터 상기 보존 마스크(M)를 제외한 영역에 대한 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성하는 에너지맵 생성부; 상기 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출하는 라인 추출부; 상기 보존 마스크(M)의 영역을 보존하면서 상기 라인 삽입 이미지(I+)를 획득하는 라인 삽입부; 미리 기계 학습 기반으로 학습된 인공지능 모델을 이용하여 상기 라인 삽입 이미지(I+)를 영상 비율이 확장된 리타겟 이미지(I^ R)로 생성하는 영상 비율 확장부;를 포함하는 것을 특징으로 하는 영상 리타겟팅 장치를 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 입력 이미지에서 보존하고자 하는 영역을 제외한 영역에 대한 에너지 맵(Energy Map)에서 추출된 라인(Line)을 삽입한 이미지를 획득하여 영상 비율이 확장하거나, 정답 이미지에서 보존하고자 하는 영역을 제외한 영역에 대한 에너지 맵에서 추출된 라인을 삭제한 이미지를 획득하여 영상 비율을 축소할 수 있는 효과가 있다.
도 1a,1b,1c는 본 실시예에 따른 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 장치를 개략적으로 나타낸 블럭 구성도이다.
도 2a,2b,2c는 본 실시예에 따른 영상 리타겟팅 장치 내에 탑재되는 영상 리타겟팅 프로그램을 개략적으로 나타낸 블럭 구성도이다.
도 3은 본 실시예에 따른 영상 비율을 확장 또는 축소하는 방식을 나타낸 도면이다.
도 4는 본 실시예에 따른 영상 비율을 확장하는 방법을 설명하기 위한 순서도이다.
도 5는 본 실시예에 따른 영상 비율을 축소하는 방법을 설명하기 위한 순서도이다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1a,1b,1c는 본 실시예에 따른 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 장치를 개략적으로 나타낸 블럭 구성도이다.
본 실시예에 따른 영상 리타켓팅 장치(110)는 탑재된 영상 리타겟팅 프로그램(120)을 이용하여 영상의 비율을 확장 또는 축소한다. 영상 리타겟팅 프로그램(120)은 라인 카빙, 인페이팅 기술, 인공지능 모델을 이용하여 영상의 비율을 확장 또는 축소한다.
영상 리타켓팅 장치(110)는 영상 리타겟팅 프로그램(120)을 이용하여 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하고, 에너지 맵(Energy Map)을 생성한 후 추출된 라인(Line)을 삽입한 이미지(I+)를 획득한 후 기 학습된 인공지능 모델에 이용하여 영상 비율을 확장한다.
영상 리타켓팅 장치(110)는 영상 리타겟팅 프로그램(120)을 이용하여 정답 이미지(IR)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하고, 에너지 맵(Energy Map)을 생성한 후 추출된 라인(Line)을 삭제한 이미지(I-)를 획득한 후 기 학습된 인공지능 모델에 이용하여 영상 비율을 축소한다.
영상 리타켓팅 장치(110)는 영상 리타겟팅 프로그램(120)을 탑재하는 사용자 단말기 또는 응용 서버, 서비스 서버, 서버 단말기일 수 있다.
영상 리타켓팅 장치(110)는 각기 (ⅰ) 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, (ⅱ) 영상 비율을 확장하기 위한 각종 프로그램과 데이터를 저장하기 위한 메모리, (ⅲ) 영상 리타겟팅 프로그램(120)을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치를 의미할 수 있다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다.
일반적으로 학습에 필요한 데이터 셋을 생성하는 과정에서, 라인(Line)을 만든 다음에 일반적인 인페이딩 기술로 라인을 채우는 경우, 라인에 채워지는 영상의 통계적인 특성이 다르기 때문에, 영상이 이질감을 갖게 된다. 예컨대, 사람의 얼굴이 좌우로 늘어난 경우, 데이터 셋 자체를 해당 환경에 맞게 만들어야 한다.
따라서, 본 실시예에 따른 영상 리타겟팅 프로그램(120)은 기계 학습을 기반으로 보존하고자 하는 영역에 보존 마스크(M)를 설정한 후 보존 마스크 영역을 제외한 나머지 영역에서 라인을 찾는다. 이후, 영상 리타겟팅 프로그램(120)은 라인을 제거하면 축소 영상을 만들 수 있으며, 정답 영상(IR)에서 축소 영상을 만드는 과정에서 보존 마스크(M)가 설정될 영역을 기계 학습으로 찾을 수 있다. 영상 리타겟팅 프로그램(120)은 보존 마스크(M)가 설정될 영역을 찾은 다음에 라인을 제거하여 데이터 셋(입력 이미지(I), 정답 이미지(IR))을 만들 수 있다.
영상 리타겟팅 프로그램(120)은 라인 카빙과 인페이팅 기술을 활용하여 영상의 비율을 확장한다. 영상 리타겟팅 프로그램(120)은 기계 학습 기술 대비 아티팩트가 적고 일반화 성능이 뛰어난 라인 카빙 기술을 이용하여 영상 비율을 확장하고, 확장된 라인을 인페인팅 기술을 통해 채운다.
영상 리타겟팅 프로그램(120)은 입력 이미지(I)에서 보존 마스크(M)의 영역을 보존하면서 라인 삽입 이미지(I+)를 획득하고, 정답 이미지(IR)에서 보존 마스크(M)의 영역을 보존하면서 라인 삭제 이미지(I-)를 획득할 수 있다. 영상 리타겟팅 프로그램(120)은 라인 삽입 이미지(I+)를 생성할 때, 인페이팅(Inpainting) 기법을 이용할 수 있다.
따라서, 학습에 필요한 데이터셋을 만들 때, 정답 이미지(IR)가 존재하면 라인 삭제 이미지(I-), 라인 삽입 이미지(I+)를 쌍으로 학습 데이터에 이용할 수 있다. 여기서, 정답 이미지(IR)는 학습에 필요한 이미지를 의미한다.
영상 리타겟팅 프로그램(120)은 학습 데이터를 만들 때는 정답 이미지(IR)(오리지널 영상)로부터 라인을 제거한 영상 라인 삭제 이미지(I-)를 만든 후 입력 영상(I), 영상 비율이 확장된 리타겟 이미지(I^ R)와 함께 학습에 이용한다. 영상 리타겟팅 프로그램(120)은 라인 삽입 이미지(I+)를 CNN에 입력하여 정답 이미지(IR)를 만든다.
영상 리타겟팅 프로그램(120)은 학습 데이터를 기초로 늘려야 하는 입력 영상(I)이 입력되면, 영상 비율이 확장된 리타겟 이미지(I^ R)를 만든다. 영상 리타겟팅 프로그램(120)은 인공지능 모델을 학습시킬 때, 라인 삭제 이미지(I-), 정답 이미지(IR)를 입력한다. 영상 리타겟팅 프로그램(120)은 라인 삽입 이미지(I+)와 라인 삭제 이미지(I-)를 쌍으로 입력받아 학습하여 인공지능 모델을 학습한다.
도 2a,2b,2c는 본 실시예에 따른 영상 리타겟팅 장치 내에 탑재되는 영상 리타겟팅 프로그램을 개략적으로 나타낸 블럭 구성도이다.
본 실시예에 따른 영상 리타겟팅 프로그램(120)은 입력부(210), 마스크 설정부(220), 에너지맵 생성부(230), 라인 추출부(240), 라인 삽입부(252), 라인 삭제부(254), 영상 비율 확장부(262), 영상 비율 축소부(264), 학습부(270)를 포함한다. 영상 리타겟팅 프로그램(120)에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.
영상 리타겟팅 프로그램(120)에 포함된 각 구성요소는 장치 내부의 소프트웨어적인 모듈 또는 하드웨어적인 모듈을 연결하는 통신 경로에 연결되어 상호 간에 유기적으로 동작할 수 있다. 이러한 구성요소는 하나 이상의 통신 버스 또는 신호선을 이용하여 통신한다.
도 2에 도시된 영상 리타겟팅 프로그램(120)의 각 구성요소는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 소프트웨어적인 모듈, 하드웨어적인 모듈 또는 소프트웨어와 하드웨어의 결합으로 구현될 수 있다.
입력부(210)는 입력 이미지(Input Image)(I)를 입력받는다. 입력부(210)는 정답 이미지(IR)를 입력받는다.
마스크 설정부(220)는 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정한다. 마스크 설정부(220)는 입력 이미지(I)에 대해 인스턴스 세그먼트(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency Map)와 인스턴스 세그먼트(Instance Segmentation)를 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 보전 마스크(M)를 설정한다.
마스크 설정부(220)는 정답 이미지(IR)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정한다. 마스크 설정부(220)는 정답 이미지(IR)에 대한 인스턴스 세그멘테이션(Instance Segmentation) 또는 오브젝트 디텍션(object detection)을 샐리언시 맵(Saliency Map)과 결합하는 방식을 이용하여 보존 마스크(M)를 설정한다. 마스크 설정부(220)는 정답 이미지(IR)에 대한 인스턴스 세그먼트(Instance Segmentation)를 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency map)와 인스턴스 세그먼트(Instance Segmentation)를 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 보전 마스크(M)를 설정한다.
에너지맵 생성부(230)는 입력 이미지(I)로부터 보존 마스크(M)를 제외한 영역에 대한 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성한다. 에너지맵 생성부(230)는 정답 이미지(IR)로부터 보존 마스크(M)를 제외한 영역에 대해 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성한다.
라인 추출부(240)는 입력 이미지(I)에 대한 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출한다. 라인 추출부(240)는 정답 이미지(IR)에 대한 에너지 맵 내의 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출한다.
라인 삽입부(252)는 입력 이미지(I) 내의 보존 마스크(M)의 영역을 보존하면서 라인 삽입 이미지(I+)를 획득한다. 라인 삭제부(254)는 정답 이미지(IR) 내의 보존 마스크(M)의 영역을 보존하면서 라인 삭제 이미지(I-)를 획득한다.
영상 비율 확장부(262)는 미리 기계 학습 기반으로 학습된 인공지능 모델을 이용하여 라인 삽입 이미지(I+)를 영상 비율이 확장된 리타겟 이미지(I^ R)로 생성한다. 영상 비율 축소부(264)는 인공지능 모델을 이용하여 라인 삭제 이미지(I-)를 영상 비율이 축소된 리타겟 이미지로 생성한다.
학습부(270)는 입력 이미지(I) 내의 보존 마스크(M)의 영역을 보존하면서 라인을 삽입한 라인 삽입 이미지(I+)와 정답 이미지(IR) 내의 보존 마스크(M)의 영역을 보존하면서 라인을 삭제한 라인 삭제 이미지(I-)를 쌍으로 학습하여 인공지능 모델을 학습시킨다.
학습부(270)는 정답 이미지(IR) 내의 보존 마스크(M)의 영역을 보존하면서 라인을 삭제한 라인 삭제 이미지(I-)를 순차적으로 획득하면서 원래의 입력 이미지(I)를 생성하는 과정을 학습한다. 학습부(270)는 입력 이미지(I) 내의 보존 마스크(M)의 영역을 보존하면서 라인을 삽입한 라인 삽입 이미지(I+)를 순차적으로 획득하여 정답 이미지(IR)를 생성한다.
도 3은 본 실시예에 따른 영상 비율을 확장 또는 축소하는 방식을 나타낸 도면이다.
영상 리타겟팅 프로그램(120)은 입력 이미지(I)에 대한 세그멘테이션을 수행한다.
영상 리타겟팅 프로그램(120)은 각각의 세그멘테이션에 대한 점수(Saliency Map)를 산출한다. 이때, 영상 리타겟팅 프로그램(120)에서 인스턴스 세그먼트(객체로 사람이 존재하면, 사람마다 세그먼테이션)를 수행하여 각 세그먼트 영역마다 점수를 부여한다.
영상 리타겟팅 프로그램(120)은 각 세그먼트 영역마다 부여된 점수(Saliency map)와 인스턴스 세그먼트(Instance Segmentation)를 수행한 결과를 합쳐서 보전 마스크(Preservation mask)(M)를 생성한다.
영상 리타겟팅 프로그램(120)은 입력 이미지(I)로부터 보존 마스크(M)를 설정할 영역을 예측한다. 영상 리타겟팅 프로그램(120)은 인스턴스 세그멘테이션 또는 오브젝트 디텍션을 샐리언시 맵과 결합하여 보존 마스크(M)를 설정할 영역을 예측할 수 있다.
영상 리타겟팅 프로그램(120)은 중요한 영역을 판별하여 유지하기 위한 보존 마스크(M)를 생성한다. 즉, 영상 리타겟팅 프로그램(120)은 일반적인 심 카빙을 수행하는 것이 아니라 각 세그먼트 영역마다 부여된 점수(Saliency map)와 인스턴스 세그먼트(Instance Segmentation)를 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 보전 마스크(M)를 설정한다.
일반적인 심 카빙 방식에도 마스크를 설정하나 본 실시예에서는 영상 리타겟팅 프로그램(120)이 보존 마스크(M)를 설정할 때, 보존 마스크(M) 영역을 세그먼테이션하여 점수를 부여하여, 의미 있는 영역만을 보존 마스크(M)로 설정한다. 세그먼테이션 영역 중 점수가 낮은 영역은 보존하지 않는다. 다시 말해, 일반적인 심 카빙 방식에서는 마스크를 만들 때 사람이 직접 영역 또는 개체를 선택하였으나, 본 실시예에서는 영상 리타겟팅 프로그램(120) 인공지능을 이용하여 영역 또는 객체를 자동으로 보존 마스크(M)로 설정한다.
심 카빙 알고리즘은 사람이 관심을 가지지 않는 영역을 라인으로 찾은 다음에 라인으로 채우면서 영상을 확장시키는 방식이다. 에너지 맵은 각각의 픽셀값마다 점수값이 부여되고, 점수값을 맵 형태로 펼쳐진 것을 의미한다. 심 카빙 알고리즘은 점수값을 픽셀에서의 그래디언트 매그니튜드로 계산한다.
그래디언트 매그니튜드는 픽셀값을 기준으로 예컨대, 왼쪽에 있는 픽셀값과 차이와 위쪽에 있는 픽셀값의 차이값의 절대값의 합을 의미한다. 영상 내에서의 변화량이 큰 영역은 사람이 존재하는 영역은 변화량이 크기 때문에, 마스크를 씌우지 않아도, 라인을 피해나갈 수 있다.
심 카빙 방식은 이미지를 연장할 때, 채워야하는 라인을 채우는 방식을 의미하며, 영상을 확장 또는 축소시킬 수 있다. 영상을 축소할 때는 라인을 찾은 다음 라인을 그대로 제거한다. 라인이 불필요하다고 판단하고, 라인을 찾아서 합치면서 줄여나간다. 영상을 확장할 때는 라인을 찾은 다음 라인을 2배로 확장한다. 라인을 확장한 다음에 적당한 값(보간값(interpolation))을 채워 넣는다.
심 카빙 방식은 마스킹을 필요한 경우, 특정 영역에 마스크를 씌울 수 있다. 라인을 찾기 전에 에너지 맵을 구성하며, 에너지 맵은 그래디언트 매그니튜드로 계산한다. 예컨대, 붉은 마스크는 에너지를 최대값으로 만들게 되며, 보존할 영역에 씌워진 붉은 마스크는 라인을 피할 수 있다. 예컨대, 녹색 마스크는 에너지를 최소값으로 만들게 되며, 지워야할 영역에 씌워진 녹색 마스크는 라인을 지나게 된다.
일반적인 심 카빙 방식에서는 사람이 직접 마스킹했으나, 본 실시예에서는 사람이 관심을 갖는 영역을 선별하여 마스킹을 수행한다.
영상 리타겟팅 프로그램(120)은 입력 이미지(I)에서 보전 마스크(M)를 제외한 나머지에 대해서만 심 카빙(Seam Carving)을 수행하며, 보존 마스크(M)의 영역을 보존하면서 라인 삽입 이미지(I+)를 획득한다.
영상 리타겟팅 프로그램(120)은 입력 이미지(I)에서 심 카빙을 수행할 때, 예컨대, 8k 정답 이미지(IR)를 심 카빙하면서 줄여나가면서 에너지 맵을 순차적으로 생성한 후 정보 제거하면서 원래의 입력 이미지(I)를 만든 다음, 다시 입력 이미지(I)를 기반으로 정답 이미지(IR)을 만드는 과정을 학습한다.
즉, 영상 리타겟팅 프로그램(120)은 심 카빙을 역으로 수행한 결과값을 기반으로 다시 학습할 수 있다. 영상 리타겟팅 프로그램(120)은 확장된 원본 영역(정답 이미지(IR))을 역으로 심 카빙하여 축소된 이미지를 생성한다. 영상 리타겟팅 프로그램(120)은 축소된 이미지를 가지고 심 카빙하여 정답 이미지(IR)을 만드는 학습을 수행한다.
영상 리타겟팅 프로그램(120)은 라인 삽입 이미지(I+)의 삽입된 라인을 마스크로 하여 영상 비율이 확장된 리타겟 이미지(I^ R)를 예측한다. 즉, 영상 리타겟팅 프로그램(120)은 심 카빙과 인페이팅 기술을 활용하여 영상의 비율을 확장한다.
영상 리타겟팅 프로그램(120)은 학습을 수행하기 위해 정답 이미지(IR)로부터 보존 마스크(M)를 예측한다. 영상 리타겟팅 프로그램(120)은 보존 마스크(M)의 영역을 보존하면서 라인 삭제 이미지(I-)를 획득한다. 영상 리타겟팅 프로그램(120)은 라인 삭제 이미지(I-)와 리타겟 이미지(IR)을 쌍으로 하여 학습 데이터를 구성한다.
도 4는 본 실시예에 따른 영상 비율을 확장하는 방법을 설명하기 위한 순서도이다.
영상 리타겟팅 프로그램(120)은 입력 이미지(Input Image)(I)를 입력받는다(S410). 영상 리타겟팅 프로그램(120)은 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정한다(S420).
단계 S420에서, 영상 리타겟팅 프로그램(120)은 입력 이미지(I)에 대해 인스턴스 세그먼트(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency Map)와 인스턴스 세그먼트(Instance Segmentation)를 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 보전 마스크(M)를 설정한다.
영상 리타겟팅 프로그램(120)은 입력 이미지(I)로부터 보존 마스크(M)를 제외한 영역에 대한 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성한다(S430).
영상 리타겟팅 프로그램(120)은 입력 이미지(I)에 대한 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출한다(S440).
영상 리타겟팅 프로그램(120)은 입력 이미지(I) 내의 보존 마스크(M)의 영역을 보존하면서 라인 삽입 이미지(I+)를 획득한다(S450).
영상 리타겟팅 프로그램(120)은 미리 기계 학습 기반으로 학습된 인공지능 모델을 이용하여 라인 삽입 이미지(I+)를 영상 비율이 확장된 리타겟 이미지(I^ R)로 생성한다(S460).
도 4에서는 단계 S410 내지 단계 S460을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 4에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 4는 시계열적인 순서로 한정되는 것은 아니다.
전술한 바와 같이 도 4에 기재된 본 실시예에 따른 영상 비율을 확장하는 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 영상 비율을 확장하는 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
도 5는 본 실시예에 따른 영상 비율을 축소하는 방법을 설명하기 위한 순서도이다.
영상 리타겟팅 프로그램(120)은 정답 이미지(IR)를 입력받는다(S510). 영상 리타겟팅 프로그램(120)은 정답 이미지(IR)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정한다(S520).
단계 S520에서, 영상 리타겟팅 프로그램(120)은 정답 이미지(IR)에 대한 인스턴스 세그멘테이션(Instance Segmentation) 또는 오브젝트 디텍션(object detection)을 샐리언시 맵(Saliency Map)과 결합하는 방식을 이용하여 보존 마스크(M)를 설정한다.
영상 리타겟팅 프로그램(120)은 정답 이미지(IR)에 대한 인스턴스 세그먼트(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency map)와 인스턴스 세그먼트(Instance Segmentation)를 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 보전 마스크(M)를 설정한다.
영상 리타겟팅 프로그램(120)은 정답 이미지(IR)로부터 보존 마스크(M)를 제외한 영역에 대해 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성한다(S530).
영상 리타겟팅 프로그램(120)은 정답 이미지(IR)에 대한 에너지 맵 내의 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출한다(S540).
영상 리타겟팅 프로그램(120)은 정답 이미지(IR) 내의 보존 마스크(M)의 영역을 보존하면서 라인 삭제 이미지(I-)를 획득한다(S550). 영상 리타겟팅 프로그램(120)은 인공지능 모델을 이용하여 라인 삭제 이미지(I-)를 영상 비율이 축소된 리타겟 이미지로 생성한다(S560).
도 5에서는 단계 S510 내지 단계 S560을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 5에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 5는 시계열적인 순서로 한정되는 것은 아니다.
전술한 바와 같이 도 5에 기재된 본 실시예에 따른 영상 비율을 축소하는 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 영상 비율을 축소하는 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110: 영상 리타겟팅 장치
120: 영상 리타겟팅 프로그램
210: 입력부 220: 마스크 설정부
230: 에너지맵 생성부 240: 라인 추출부
252: 라인 삽입부 254: 라인 삭제부
262: 영상 비율 확장부 264: 영상 비율 축소부
270: 학습부
I : 입력 이미지(Input Image)
M: 보존 마스크(Preservation Mask)
I+: 라인 삽입 이미지(Seam Inserted Image)
I-: 라인 삭제 이미지(Seam Removed Image)
I^ R: 영상 비율이 확장된 리타겟 이미지((Predicted) Retargeted Image)
IR: 정답 이미지((Ground-Truth) Retargeted Image)

Claims (15)

  1. 입력 이미지(Input Image)(I)를 입력받는 과정;
    상기 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하는 과정;
    상기 입력 이미지(I)로부터 상기 보존 마스크(M)를 제외한 영역에 대한 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성하는 과정;
    상기 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출하는 과정;
    정답 이미지(IR)를 입력받는 과정;
    상기 입력 이미지(I) 내의 보존 마스크(M)의 영역을 보존하면서 라인을 삽입한 라인 삽입 이미지(I+) 및 상기 정답 이미지(IR) 내의 보존 마스크(M)의 영역을 보존하면서 라인을 삭제한 라인 삭제 이미지(I-)를 획득하는 과정; 및
    상기 라인 삽입 이미지(I+) 및 상기 라인 삭제 이미지(I-)를 쌍으로 미리 기계 학습 기반으로 학습된 인공지능 모델을 이용하여 영상 비율이 확장된 리타겟 이미지(I^ R)로 생성하는 과정을 포함하는 것을 특징으로 하는 영상 리타겟팅 방법.
  2. 제1항에 있어서,
    상기 보존 마스크(M)로 설정하는 과정은,
    상기 입력 이미지(I)에 대해 인스턴스 세그멘테이션(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency map)와 상기 인스턴스 세그멘테이션(Instance Segmentation)을 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 상기 보존 마스크(M)를 설정하는 것을 특징으로 하는 영상 리타겟팅 방법.
  3. 제1항에 있어서,
    상기 정답 이미지(IR)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하는 과정;
    상기 정답 이미지(IR)로부터 상기 보존 마스크(M)를 제외한 영역에 대해 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성하는 과정;
    상기 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출하는 과정;
    상기 보존 마스크(M)의 영역을 보존하면서 상기 라인 삭제 이미지(I-)를 획득하는 과정;
    상기 인공지능 모델을 이용하여 상기 라인 삭제 이미지(I-)를 영상 비율이 축소된 리타겟 이미지로 생성하는 과정
    을 추가로 포함하는 것을 특징으로 하는 영상 리타겟팅 방법.
  4. 제3항에 있어서,
    상기 리타겟 이미지(I^ R)로 생성하는 과정은,
    상기 라인 삽입 이미지(I+)와 상기 라인 삭제 이미지(I-)를 쌍으로 학습하여 상기 인공지능 모델을 학습되도록 하는 과정;을 추가로 포함하는 것을 특징으로 하는 영상 리타겟팅 방법
  5. 제4항에 있어서,
    상기 인공지능 모델을 학습하도록 하는 과정은,
    상기 정답 이미지(IR) 내의 상기 보존 마스크(M)의 영역을 보존하면서 라인을 삭제한 상기 라인 삭제 이미지(I-)를 순차적으로 획득하면서 상기 입력 이미지(I)를 생성하는 과정을 학습하고,
    상기 입력 이미지(I) 내의 상기 보존 마스크(M)의 영역을 보존하면서 라인을 삽입한 상기 라인 삽입 이미지(I+)를 순차적으로 획득하여 상기 정답 이미지를 생성하는 과정을 학습하는 것을 특징으로 하는 영상 리타겟팅 방법.
  6. 제3항에 있어서,
    상기 보존 마스크(M)로 설정하는 과정은
    상기 정답 이미지(IR)에 대한 인스턴스 세그멘테이션(Instance Segmentation) 또는 오브젝트 디텍션(object detection)을 부여된 점수(Saliency Map)과 결합하는 방식을 이용하는 것을 특징으로 하는 영상 리타겟팅 방법.
  7. 제6항에 있어서,
    상기 보존 마스크(M)로 설정하는 과정은,
    상기 정답 이미지(IR)에 대한 상기 인스턴스 세그멘테이션(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency map)와 상기 인스턴스 세그멘테이션(Instance Segmentation)을 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 상기 보존 마스크(M)를 설정하는 것을 특징으로 하는 영상 리타겟팅 방법.
  8. 입력 이미지(Input Image)(I) 및 정답 이미지(IR)를 입력받는 입력부;
    상기 입력 이미지(I)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하는 마스크 설정부;
    상기 입력 이미지(I)로부터 상기 보존 마스크(M)를 제외한 영역에 대한 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성하는 에너지맵 생성부;
    상기 에너지 맵에서 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출하는 라인 추출부;
    상기 보존 마스크(M)의 영역을 보존하면서 상기 라인 삽입 이미지(I+)를 획득하는 라인 삽입부;
    미리 기계 학습 기반으로 학습된 인공지능 모델을 이용하여 상기 라인 삽입 이미지(I+)를 영상 비율이 확장된 리타겟 이미지(I^ R)로 생성하는 영상 비율 확장부; 및
    상기 입력 이미지(I) 내의 상기 보존 마스크(M)의 영역을 보존하면서 라인을 삽입한 상기 라인 삽입 이미지(I+)와 상기 정답 이미지(IR) 내의 상기 보존 마스크(M)의 영역을 보존하면서 라인을 삭제한 상기 라인 삭제 이미지(I-)를 쌍으로 학습하여 상기 인공지능 모델을 학습하도록 하는 학습부를 포함하는 것을 특징으로 하는 영상 리타겟팅 장치.
  9. 제8항에 있어서,
    상기 마스크 설정부는,
    상기 입력 이미지(I)에 대해 인스턴스 세그멘테이션(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency Map)와 상기 인스턴스 세그멘테이션(Instance Segmentation)을 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 상기 보존 마스크(M)를 설정하는 것을 특징으로 하는 영상 리타겟팅 장치.
  10. 제8항에 있어서,
    상기 입력부에서 정답 이미지(IR)를 입력받으면,
    상기 마스크 설정부에서 상기 정답 이미지(IR)의 일부 영역을 보존 마스크(Preservation Mask)(M)로 설정하는 과정;
    상기 에너지맵 생성부에서 상기 정답 이미지(IR)로부터 상기 보존 마스크(M)를 제외한 영역에 대해 모든 화소(Pixel)에 대해 중요도를 계산하고, 각 화소의 중요도로 구성된 에너지 맵(Energy Map)을 생성하고
    상기 라인 추출부에서 상기 에너지 맵 내의 상대적으로 중요도가 낮은 화소의 연결로 이루어지는 라인(Line)을 탐색하여 추출하는 것을 특징으로 하는 영상 리타겟팅 장치.
  11. 제10항에 있어서,
    상기 보존 마스크(M)의 영역을 보존하면서 상기 라인 삭제 이미지(I-)를 획득하는 라인 삭제부;
    상기 인공지능 모델을 이용하여 상기 라인 삭제 이미지(I-)를 영상 비율이 축소된 리타겟 이미지로 생성하는 영상 비율 축소부
    를 추가로 포함하는 것을 특징으로 하는 영상 리타겟팅 장치.
  12. 삭제
  13. 제11항에 있어서,
    상기 학습부는,
    상기 정답 이미지(IR) 내의 상기 보존 마스크(M)의 영역을 보존하면서 라인을 삭제한 상기 라인 삭제 이미지(I-)를 순차적으로 획득하면서 원래의 상기 입력 이미지(I)를 생성하는 과정을 학습하고,
    상기 입력 이미지(I) 내의 상기 보존 마스크(M)의 영역을 보존하면서 라인을 삽입한 상기 라인 삽입 이미지(I+)를 순차적으로 획득하여 상기 정답 이미지(IR)을 생성하는 과정을 학습하는 것을 특징으로 하는 영상 리타겟팅 장치.
  14. 제11항에 있어서,
    상기 마스크 설정부는,
    상기 정답 이미지(IR)에 대한 인스턴스 세그멘테이션(Instance Segmentation) 또는 오브젝트 디텍션(object detection)을 부여된 점수(Saliency Map)과 결합하는 방식을 이용하여 상기 보존 마스크(M)를 설정하는 것을 특징으로 하는 영상 리타겟팅 장치.
  15. 제13항에 있어서,
    상기 마스크 설정부는,
    상기 정답 이미지(IR)에 대한 인스턴스 세그멘테이션(Instance Segmentation)을 수행하고, 각 세그멘테이션 영역마다 부여된 점수(Saliency map)와 상기 인스턴스 세그멘테이션(Instance Segmentation)을 수행한 결과를 합쳐서 중요한 영역으로 판별되는 곳에 상기 보존 마스크(M)를 설정하는 것을 특징으로 하는 영상 리타겟팅 장치.
KR1020190175874A 2019-12-27 2019-12-27 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치 KR102443630B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190175874A KR102443630B1 (ko) 2019-12-27 2019-12-27 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치
PCT/KR2020/018690 WO2021133002A2 (ko) 2019-12-27 2020-12-18 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190175874A KR102443630B1 (ko) 2019-12-27 2019-12-27 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210083524A KR20210083524A (ko) 2021-07-07
KR102443630B1 true KR102443630B1 (ko) 2022-09-15

Family

ID=76573202

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190175874A KR102443630B1 (ko) 2019-12-27 2019-12-27 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102443630B1 (ko)
WO (1) WO2021133002A2 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220020113A1 (en) * 2020-07-15 2022-01-20 Instasize, Inc. Image resizing using seam carving
KR102492121B1 (ko) * 2022-05-25 2023-01-26 경북대학교 산학협력단 데이터 증강 기술을 이용한 이미지 분류 방법 및 상기 방법을 수행하는 컴퓨팅 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747107B2 (en) * 2007-03-06 2010-06-29 Mitsubishi Electric Research Laboratories, Inc. Method for retargeting images
KR100988380B1 (ko) * 2008-12-24 2010-10-18 포항공과대학교 산학협력단 중요도 확산을 이용한 영상 리타겟팅 방법, 이를 수행하는 프로그램을 기록한 기록매체 및 이를 수행하는 장치
KR100999648B1 (ko) * 2009-03-12 2010-12-08 중앙대학교 산학협력단 영상 크기 조정 장치 및 방법
KR101134362B1 (ko) * 2009-12-28 2012-04-19 포항공과대학교 산학협력단 이미지 크기 변환 장치
KR20110084593A (ko) * 2010-01-18 2011-07-26 계명대학교 산학협력단 혈액 세포 영상 압축 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Weimin Tan 등, Cycle-IR: Deep Cyclic Image Retargeting, arXiv:1905.03556v1(2019.05.09.)*

Also Published As

Publication number Publication date
WO2021133002A2 (ko) 2021-07-01
KR20210083524A (ko) 2021-07-07
WO2021133002A3 (ko) 2021-08-19

Similar Documents

Publication Publication Date Title
KR102349289B1 (ko) 시멘틱 이미지 추론 방법 및 장치
CN106254933B (zh) 字幕提取方法及装置
KR102443630B1 (ko) 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치
JP2008520152A (ja) 画像中のテキストの検出および修正
CN110443140B (zh) 文本定位的方法、装置、计算机设备及存储介质
KR102142567B1 (ko) 가상 크로마키 배경을 이용하여 영상을 합성하는 장치, 방법 및 컴퓨터 프로그램
KR20200054613A (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
CN111385644A (zh) 一种视频处理方法、电子设备及计算机可读存储介质
US20240161449A1 (en) Apparatus and methods for converting lineless talbes into lined tables using generative adversarial networks
KR102225753B1 (ko) 딥러닝 기반 파노라마 영상의 품질 평가 방법 및 그 장치
JP7363384B2 (ja) 解析装置、解析プログラム及び解析方法
CN111881904A (zh) 板书记录方法和系统
CN115294055A (zh) 图像处理方法、装置、电子设备和可读存储介质
KR102546631B1 (ko) 영상 데이터 증식 장치 및 방법
CN112418033B (zh) 基于mask rcnn神经网络的滑坡坡面分割识别方法
KR20220065666A (ko) 비디오 처리 장치 및 방법
JP7363383B2 (ja) 解析装置、解析プログラム及び解析方法
CN116596895A (zh) 一种变电设备图像缺陷识别方法及系统
CN116721008A (zh) 一种用户自定义表情合成方法及系统
KR101544156B1 (ko) 동영상 리타겟팅 방법 및 이러한 기능이 탑재된 동영상 장치
CN115689882A (zh) 一种图像处理方法、装置和计算机可读存储介质
KR20220102905A (ko) 얼굴 영상을 생성하는 장치, 방법 및 컴퓨터 프로그램
JP2000132692A (ja) 曲線の特徴点抽出方法及びこの方法を記録した記録媒体
KR101167644B1 (ko) 응답 속도를 개선한 내용 기반의 영상 크기 조절 방법 및 장치
KR102492430B1 (ko) 영상 영역 밖의 정보를 생성하는 영상 처리 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right