KR102620823B1 - 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템 - Google Patents

인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템 Download PDF

Info

Publication number
KR102620823B1
KR102620823B1 KR1020210088349A KR20210088349A KR102620823B1 KR 102620823 B1 KR102620823 B1 KR 102620823B1 KR 1020210088349 A KR1020210088349 A KR 1020210088349A KR 20210088349 A KR20210088349 A KR 20210088349A KR 102620823 B1 KR102620823 B1 KR 102620823B1
Authority
KR
South Korea
Prior art keywords
marker
artificial intelligence
deformable
recognizing
markers
Prior art date
Application number
KR1020210088349A
Other languages
English (en)
Other versions
KR20230007698A (ko
Inventor
김민혁
버크 얄디즈 무스타파
메울레만 안드레아스
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020210088349A priority Critical patent/KR102620823B1/ko
Priority to US17/857,444 priority patent/US20230016057A1/en
Publication of KR20230007698A publication Critical patent/KR20230007698A/ko
Application granted granted Critical
Publication of KR102620823B1 publication Critical patent/KR102620823B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/80Shading
    • G06T5/006
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 메시지 인코딩 및 디코딩의 엔드투엔드(end-to-end) 방식으로 광범위하게한 변형가능한 마커를 높은 정확도로 인식할 수 있는 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 기술에 관한 것으로서, 마커 생성기에서, 입력 이진 메시지에 고유한 마커 패턴을 생성하는 단계, 이미지 시뮬레이터에서, 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하는 단계 및 렌더링된 이미지로 마커 검출기를 훈련하는 단계를 포함한다.

Description

인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템{METHOD FOR END-TO-END GENERATING AND RECOGNIZING OF DEFORMABLE FIDUCIAL MARKERS BASED ON ARTIFICIAL INTELLIGENCE AND THE SYSTEM THEREOF}
본 발명은 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 기술에 관한 것으로서, 보다 구체적으로 메시지 인코딩 및 디코딩의 엔드투엔드(end-to-end) 방식으로 광범위하게 변형가능한 마커를 높은 정확도로 인식할 수 있는 방법 및 그 시스템에 관한 것이다.
QR 코드, ARTag, ARToolKit, AprilTag, ArUco, CharUco 등과 같은 이진 패턴을 가진 기준 마커가 식별 코드로 인코딩된다. 이는 다양한 컴퓨터 그래픽, 비전, 로봇 공학 응용 프로그램에 메시지를 임베딩한다.
이러한 기준 시스템의 유용성에도 불구하고, 기존의 기준 마커는 여전히 몇 가지 한계를 보여준다. 첫째, 모든 기존 마커는 이상적인 평면 및 단단한 표면에서 인쇄된다고 가정하므로 기존 마커 시스템은 심하게 변형된 마커 이미지를 감지할 수 없다. 둘째, 마커 인식은 실제 환경에서 마커를 캡처할 때 광학/원근 왜곡과 모션 블러의 다양한 이미지 아티팩트로 인해 실패하는 경우가 많다. 마지막으로, 마커에 포함될 수 있는 메시지의 크기는 이진 또는 색 패턴의 공간 해상도에 의해 제한된다.
이전 연구[DeGol 등 2017; Munoz-Salinas 2012; Olson 2011; OpenCV 2020; Wang과 Olson 2016]에서 다양한 수작업으로 조작된 시각적 특징이 대체적으로 제안되었지만, 과제의 곤란으로 기준 마커의 변형은 거의 논의되지 않았다. 또한 이미지 조건에서도 몇 가지 가정이 제기되었다. 예를 들어, 광학 왜곡과 모션 블러가 없다. 안타깝게도 실제 환경에서 카메라로 물리적으로 인쇄된 마커를 캡처할 때 이러한 가정이 항상 유지되지는 않으며, 종종 마커 메시지의 신뢰할 수 없는 위치 파악, 탐지 및 디코딩을 초래한다.
최근에는 일련의 학습 가능한 기능을 통해 기준 마커 시스템의 성능을 향상시키기 위한 학습 기반 접근 방식이 제안되거나, 기존 마커 감지 방법의 학습 기반 향상을 제공하고 있다. 그러나, 이전 방법은 또한 기준 마커가 훈련 이미지의 중심 영역에 위치하거나 이상적인 평면 표면에 완벽하게 배치되어 중요한 위치 지정 기능을 놓치는 이상적인 설정에서 네트워크를 훈련시킨다. 후자의 방법은 이상적인 이미징 시나리오를 가정하는 전통적인 마커 시스템인 ChArUco [OpenCV 2020]에 의존하여 기준 코너와 카메라 포즈를 감지하고 미세화한다.
이에 따라서, 기존에는 메시지 기능과 탐지 성능을 희생시키지 않고 변형된 마커 감지 문제를 해결할 강력하고 실용적인 솔루션이 존재하지 않는다.
Joseph DeGol, Timothy Bretl, and Derek Hoiem. 2017. ChromaTag: a colored marker and fast detection algorithm. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 1472-1481. Rafael Munoz-Salinas. 2012. Aruco: a minimal library for augmented reality applications based on opencv. Universidad de Cordoba (2012). OpenCV. 2020. Open Source Computer Vision Library. https://opencv.org/. Version 4.2.0. John Wang and Edwin Olson. 2016. AprilTag 2: Efficient and robust fiducial detection. In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 4193-4198.
본 발명의 실시예들은, 변형가능한 마커 생성기와 이미지 시뮬레이터 및 마커 탐지기의 검출기 네트워크를 이용하여 엔드투엔드 방식으로 구별 가능한 광실현적 렌더러를 통해 공동으로 최적화되어, 광범위하게 변형가능한 마커를 높은 정확도로 강력하게 인식할 수 있는 방법 및 그 시스템을 제공한다.
본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법은 마커 생성기에서, 입력 이진 메시지에 고유한 마커 패턴을 생성하는 단계, 이미지 시뮬레이터에서, 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하는 단계 및 렌더링된 이미지로 마커 검출기를 훈련하는 단계를 포함한다.
상기 생성하는 단계는 고유한 시각적 코드에서 정보를 인코딩하기 위해 일련의 자유 형식 패턴인 마커 패턴을 생성할 수 있다.
상기 마커 검출기는 위치 지정기(localizer) 및 마커 디코더(marker decoder)로 구성되며, 상기 훈련하는 단계는 상기 렌더링된 이미지에서 관심 영역을 추출하며, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련할 수 있다.
상기 이미지 시뮬레이터는 차동 렌더러(Differentiable renderer)와 이미징 아티팩트 증강기(Imaging artifact augmenter)로 구성되며, 상기 렌더링하는 단계는 상기 차동 렌더러에 의해, 기준 마커의 사실적인 외관을 시뮬레이션하고, 상기 이미징 아티팩트 증강기에 의해, 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션할 수 있다.
상기 생성하는 단계는 상기 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용하는 FC 계층 단계, 컨볼루션 생성 블록을 통해 마커의 외관을 제어하며, 생성 블록을 업샘플링한 후, 컨볼루션 및 표준화하는 생성 블록 단계 및 처리된 출력을 시그모이드 함수에 적용하여 렌더링 시, 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화하는 정규화 단계를 포함할 수 있다.
상기 FC 계층 단계는 상기 입력 이진 메시지에 상기 FC 선형 변환을 적용하고, 변환된 기능을 정규화하며, 활성화 함수를 적용할 수 있다.
상기 FC 계층 단계는 상기 FC 선형 변환을 적용하여 정규화 재구성된 기능을 4×4 모양으로 크기 조정할 수 있다.
상기 생성 블록 단계는 상기 FC 선형 변환이 적용된 메시지 기능에 적응형 인스턴스 정규화 연산자(Adaptive Instance normalization operator; AdaIn)의 가중치를 적용할 수 있다.
상기 렌더링된 이미지는 특정 반사, 광학 왜곡, 디포커스 및 모션 블러, 색상 변경, 이미지노이즈 및 마커의 형상 변형이 포함된 사실적인 음영을 포함할 수 있다.
본 발명의 다른 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법은 마커 생성기에서, 입력 이진 메시지에 고유한 마커 패턴을 생성하는 단계 및 검출기 네트워크에서, 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하고, 렌더링된 이미지로 훈련하는 단계를 포함한다.
상기 생성하는 단계는 상기 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용하는 FC 계층 단계, 컨볼루션 생성 블록을 통해 마커의 외관을 제어하며, 생성 블록을 업샘플링한 후, 컨볼루션 및 표준화하는 생성 블록 단계 및 처리된 출력을 시그모이드 함수에 적용하여 렌더링 시, 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화하는 정규화 단계를 포함할 수 있다.
상기 렌더링하고, 훈련하는 단계는 상기 검출기 네트워크 내 차동 렌더러(Differentiable renderer)에 의해, 기준 마커의 사실적인 외관을 시뮬레이션하고, 상기 검출기 네트워크 내 이미징 아티팩트 증강기(Imaging artifact augmenter)에 의해, 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션하여 이미지를 렌더링하는 단계 및 상기 검출기 네트워크 내 위치 지정기(localizer) 및 마커 디코더(marker decoder)에 의해, 상기 렌더링된 이미지에서 관심 영역을 추출하며, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템은 입력 이진 메시지에 고유한 마커 패턴을 생성하는 마커 생성기, 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하는 이미지 시뮬레이터 및 렌더링된 이미지로 훈련하는 마커 검출기를 포함한다.
상기 마커 생성기는 고유한 시각적 코드에서 정보를 인코딩하기 위해 일련의 자유 형식 패턴인 마커 패턴을 생성할 수 있다.
상기 마커 생성기는 상기 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용하고, 컨볼루션 생성 블록을 통해 마커의 외관을 제어하며, 생성 블록을 업샘플링한 후, 컨볼루션 및 표준화하고, 처리된 출력을 시그모이드 함수에 적용하여 렌더링 시, 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화할 수 있다.
상기 이미지 시뮬레이터는 차동 렌더러(Differentiable renderer)와 이미징 아티팩트 증강기(Imaging artifact augmenter)로 구성되며, 상기 차동 렌더러는, 기준 마커의 사실적인 외관을 시뮬레이션하고, 상기 이미징 아티팩트 증강기는, 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션할 수 있다.
상기 마커 검출기는 위치 지정기(localizer) 및 마커 디코더(marker decoder)로 구성되며, 상기 렌더링된 이미지에서 관심 영역을 추출하고, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련할 수 있다.
본 발명의 다른 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템은 입력 이진 메시지에 고유한 마커 패턴을 생성하는 마커 생성기 및 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하고, 렌더링된 이미지로 훈련하는 검출기 네트워크를 포함한다.
상기 검출기 네트워크는 차동 렌더러(Differentiable renderer)를 이용하여, 기준 마커의 사실적인 외관을 시뮬레이션하고, 이미징 아티팩트 증강기(Imaging artifact augmenter)를 이용하여, 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션하여 이미지를 렌더링할 수 있다.
상기 검출기 네트워크는 위치 지정기(localizer) 및 마커 디코더(marker decoder)를 이용하여, 상기 렌더링된 이미지에서 관심 영역을 추출하며, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련할 수 있다.
본 발명의 실시예들에 따르면, 변형가능한 마커 생성기와 이미지 시뮬레이터 및 마커 탐지기의 검출기 네트워크를 이용하여 엔드투엔드 방식으로 구별 가능한 광실현적 렌더러를 통해 공동으로 최적화되어, 광범위하게 변형가능한 마커를 높은 정확도로 강력하게 인식할 수 있다.
본 발명의 실시예들에 따르면, 심각한 형상 변형으로 최대 29fps에서 36비트 메시지를 성공적으로 디코딩함으로써, 기존 및 데이터 기반 마커 방법을 크게 능가할 수 있다.
본 발명의 학습 기반의 변형가능한 기준 마커 생성 및 인식 기술은 인체의 비용 효율적인 모션 캡처, 구조화된 조명 패턴으로 기준 마커 어레이를 사용한 능동 3D 스캐닝, 동적 표면에서 가상 객체의 강력한 증강 현실 렌더링과 같은 기준 마커의 새롭고 흥미로운 응용 프로그램에 적용할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법에 대한 동작 흐름도를 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템의 개략도를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 렌더링의 예를 설명하기 위해 도시한 것이다.
도 4는 본 발명의 일 실시예에 따른 렌더링 구성 요소를 도시한 것이다.
도 5는 본 발명의 일 실시예에 따른 마커 구성의 예를 도시한 것이다.
도 6은 본 발명의 일 실시예에 따른 이미징 아티팩트의 예를 도시한 것이다.
도 7은 본 발명의 일 실시예에 따른 훈련된 데이터셋의 예를 설명하기 위해 도시한 것이다.
도 8은 본 발명의 일 실시예에 따른 코너 헤드(corner head)의 세부 구성을 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명의 실시예들은, 변형가능한 마커 생성기와 이미지 시뮬레이터 및 마커 탐지기의 검출기 네트워크를 이용하여 엔드투엔드 방식으로 구별 가능한 광실현적 렌더러를 통해 공동으로 최적화되어, 광범위하게 변형가능한 마커를 높은 정확도로 강력하게 인식하는 것을 그 요지로 한다.
기준 마커는 카메라를 통해 탐지할 수 있는 개체를 식별하거나 메시지를 포함하기 위해 광범위하게 사용되고 있다. 기본적으로 기존 탐지 방법은 마커가 이상적인 평면 표면에 인쇄된다고 가정한다. 메시지 또는 식별 코드의 크기는 마커에서 이진 패턴의 공간 해상도에 의해 제한된다. 광학/원근 왜곡과 모션 블러의 다양한 이미지 아티팩트로 인해 마커를 인식하지 못하는 경우가 많다.
이러한 한계를 극복하기 위해 본 발명에서는 엔드투엔드 방식으로 변형가능한 마커를 생성하고 탐지하도록 특별히 설계된 새로운 변형가능한 기준 마커 시스템을 제안한다. 본 발명의 학습 기반 방법은 세 가지 주요 부분으로 구성된다. 첫째, 기준 마커 생성 네트워크는 학습 가능한 기준 마커 패턴을 생성하여 실제 자유형 표면에 부착할 수 있는 대규모 메시지 임베딩 기능을 향상시킨다. 둘째, 새로운 차별화 가능한 렌더링 프레임워크는 최적화 중에 현실적인 훈련 데이터셋을 생성하며, 일련의 기준 마커는 특정 반사, 원근법/렌즈 왜곡, 디포커스 및 모션 블러, 색상 변경 및 다음에서 차별할 수 있는 방식으로 시뮬레이션된 이미징 노이즈 등 표면 변형 및 사실적 이미징 조건으로 시뮬레이션된다. 마지막으로, 마커 감지 네트워크는 로컬라이저 네트워크와 변형과 관련하여 마커의 특징을 샘플링하는 새로운 마커 디코더 네트워크로 구성된다. 그런 다음, 프레임 안에 포함된 메시지를 디코딩한다. 본 발명의 마커 생성기와 탐지기는 다양한 환경에서 심하게 변형된 표면에서도 여러 마커의 코드를 성공적으로 감지할 수 있도록 자동으로 생성된 광실현적 훈련 데이터셋을 통해 공동으로 훈련된다. 실제 장면에 대한 몰입형 마커를 생성하는 차별화 가능한 렌더링 프레임워크는 고품질 사실감을 달성하여 훈련 데이터셋에서 잠재적인 도메인 격차를 최소화하며 사진에 마커를 겹치는 기존 학습 기반 접근 방식을 능가한다.
본 발명의 엔드투엔드 마커 시스템은 고유한 기준 마커로서 매우 많은 수의 메시지를 생성할 수 있으며, 예를 들어 32×32 픽셀 해상도로 이론적으로 최대 687억 개(=236)의 36비트 이진 메시지가 실현 가능하며, 이는 최대 29fps에서 매우 강력하고 성공적으로 인식될 수 있다.
이하에서는 도 1 내지 도 8을 참조하여 본 발명에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법에 대한 동작 흐름도를 도시한 것이며, 도 2는 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템의 개략도를 도시한 것이다.
도 1의 각 단계들(S110, S120, S130)은 도 2에 도시된 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)의 마커 생성기(210), 이미지 시뮬레이터(220) 및 마커 검출기(230)에 의해 수행된다.
도 1 및 도 2를 참조하면, 단계 S110에서, 마커 생성기(210)는 입력 이진 메시지에 고유한 마커 패턴을 생성한다. 마커 생성기(210)는 고유한 시각적 코드에서 정보를 인코딩하기 위해 일련의 자유 형식 색상 패턴(흑백 및 컬러)인 마커 패턴을 생성할 수 있다.
단계 S110에서, 마커 생성기(210)는 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용하는 FC 계층 단계(211), 컨볼루션 생성 블록을 통해 마커의 외관을 제어하며, 생성 블록을 업샘플링한 후, 컨볼루션 및 표준화하는 생성 블록 단계(212, 213, 214) 및 처리된 출력을 시그모이드 함수에 적용하여 렌더링 시, 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화하는 정규화 단계(215)를 포함할 수 있다.
FC 계층 단계(211)는 입력 이진 메시지에 FC 선형 변환을 적용하고, 변환된 기능을 정규화하며, 활성화 함수를 적용할 수 있다. 또한, FC 계층 단계(211)는 FC 선형 변환을 적용하여 정규화 재구성된 기능을 4×4 모양으로 크기 조정할 수 있다.
생성 블록 단계(212, 213, 214)는 FC 선형 변환이 적용된 메시지 기능에 적응형 인스턴스 정규화 연산자(Adaptive Instance normalization operator; AdaIn)의 가중치를 적용할 수 있다.
단계 S120에서, 이미지 시뮬레이터(220)는 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링한다.
이미지 시뮬레이터(220)는 차동 렌더러(Differentiable renderer, 221)와 이미징 아티팩트 증강기(Imaging artifact augmenter, 222)로 구성되며, 차동 렌더러(221)를 이용하여 기준 마커의 사실적인 외관을 시뮬레이션하고, 이미징 아티팩트 증강기(222)를 이용하여 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션할 수 있다.
이때, 상기 렌더링된 이미지는 특정 반사, 광학 왜곡, 디포커스 및 모션 블러, 색상 변경, 이미지노이즈 및 마커의 형상 변형이 포함된 사실적인 음영이 포함할 수 있다.
단계 S130에서, 마커 검출기(230)는 렌더링된 이미지로 훈련한다.
마커 검출기(230)는 위치 지정기(localizer, 231) 및 마커 디코더(marker decoder, 232)로 구성되며, 렌더링된 이미지에서 관심 영역을 추출하며, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련할 수 있다.
이하에서는 도 3 내지 도 8을 참조하여 도 2에 도시된 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템에 대해 상세히 설명하고자 한다.
도 3은 본 발명의 일 실시예에 따른 렌더링의 예를 설명하기 위해 도시한 것이며, 도 4는 본 발명의 일 실시예에 따른 렌더링 구성 요소를 도시한 것이고, 도 5는 본 발명의 일 실시예에 따른 마커 구성의 예를 도시한 것이다. 또한, 도 6은 본 발명의 일 실시예에 따른 이미징 아티팩트의 예를 도시한 것이며, 도 7은 본 발명의 일 실시예에 따른 훈련된 데이터셋의 예를 설명하기 위해 도시한 것이고, 도 8은 본 발명의 일 실시예에 따른 코너 헤드(corner head)의 세부 구성을 도시한 것이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)은 메시지 인코딩 및 디코딩의 엔드투엔드 훈련에 따라 세 폴드로 진행하며, 마커 생성기(210), 이미지 시뮬레이터(220) 및 마커 검출기(230)를 포함한다.
마커 생성기(210)는 입력 이진 메시지에서 고유한 마커 패턴을 생성한다. 생성된 기준 마커는 차동 렌더러(221)와 이미징 아티팩트 증강기(222)로 구성된 이미지 시뮬레이터(220)에 공급되며, 이미지 시뮬레이터(220)는 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링한다. 차동 렌더러(221)는 마커의 사실적인 외관을 시뮬레이션하며, 이미징 아티팩트 증강기(222)는 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 다양한 이미징 아티팩트를 시뮬레이션한다.
마지막으로, 마커 검출기(230)은 렌더링된 이미지로 훈련된다. 마커 검출기(230)는 관심 영역을 얻기 위한 위치 지정기(231)와 변형 인식 변환을 통해 코너를 감지하고 메시지를 디코딩하는 마커 디코더(232)로 구성된다. 이때, 추론하는 동안 마커의 이진 메시지 식별은 마커 사전으로 평가된다.
이하에서는, 도 2 내지 도 8을 참조하여 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)의 마커 생성기(210), 이미지 시뮬레이터(220) 및 마커 검출기(230) 각각에 대해 보다 세부적으로 설명한다.
마커 생성기(Marker generator, 210)
기준 마커는 많은 수의 메시지를 인코딩 및 디코딩할 수 있도록 다양한 모양을 포함해야 한다. 동시에 기준 마커 그룹은 마커 탐지 방법에 의해 강력하게 탐지되는 방식으로 그들 사이에서 유사해 보여야 한다. 반면에, 탐지기의 관점에서 마커 패턴은 명확하게 감지되기 위해 실제 자연 물체의 외관과 비교하여 고유하게 보여야 한다. 그렇지 않으면 탐지기가 거짓 양성 식별로 실패할 수 있다.
기존의 기준 마커는 테두리로 둘러싸인 검은색/흰색(또는 색상) 패턴으로 구성된다. 마커 패턴은 전술한 목표를 달성하기 위해 분석적으로 설계된다. 그러나 이러한 수작업 패턴의 수는 수백 개로 매우 제한되며, 그럼에도 불구하고 이러한 패턴은 변형, 왜곡 및 모션 블러 하에서 강력한 성능을 보장할 수 없다.
많은 수의 메시지를 포함하는 기능을 달성하기 위해, 본 발명은 다른 메시지 내에 메시지를 숨기는 관행인 스테가노그래피를 적용하였으며, 설계 통찰력은 내장된 메시지의 이진 인코딩과 디코딩을 기반으로 한다. 그러나 기존의 스테가노그래피와는 달리, 본 발명의 방법은 엔드투엔드 방식으로 공동 훈련된 실시간 객체 감지 네트워크의 잠재 표현과 관련된 이진 코드의 대체 표현을 학습한다. 본 발명의 접근 방식은 메시지/비트 수에 의해 기하급수적으로 증가하는 매우 많은 이진 메시지를 포함할 수 있다.
도 2에 도시된 바와 같이, 마커 생성기(210)는 기본 생성 모델인 StyleGan으로 시작하며, 특징 채널의 평균과 분산을 정렬하는 방법을 배우는 적응형 인스턴스 정규화 연산자(Adaptive Instance normalization operator; AdaIn)를 포함할 수 있다. 적응형 인스턴스 정규화 연산자(Adaptive Instance normalization operator; AdaIn)는 더 나은 검출 및 디코딩으로 인한 마커 생성을 위해 이진 메시지 도메인에서 실제 도메인으로 변환하는 데 도움된다.
나아가, 마커 생성기(210)는 AdaIn 연산자와 StyleGan의 생성 블록을 채택할 수 있다. 원본 생성 모델을 기반으로 점진적으로 더 높은 해상도를 가진 영상에 대해 훈련되며, 자연 이미지에 비해 상대적으로 작은 해상도(32×32)를 사용하기 때문에 점진적 해상도 접근 방식을 포함하지 않는다.
상세하게, 본 발명의 일 실시예에 따른 마커 생성기(210)는 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용(211)한다. 그런 다음 이러한 변환된 기능을 정규화하고 활성화 함수를 적용한다. 이때, FC 계층(211)의 기능을 4×4 모양으로 크기 조정한다. 다음으로, 마커 생성기(210)는 컨볼루션 생성 블록을 통해 마커의 외관을 제어(212)한다. 각각의 생성 블록은 처음에는 업샘플링을 적용한 후 컨볼루션 및 표준화 작업(213, 214)을 수행한다. AdaIn의 가중치를 제어하는 스타일은 FC 계층 변환을 변환된 메시지 기능에 추가로 적용하여 계산된다. 또한, 본 발명은 컨볼루션 계층 뒤에 Leaky ReLu 활성화 함수를 사용할 수 있다. 마커 생성 네트워크의 출력이 최종적으로 시그모이드 함수에 적용되어 렌더링 시 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화(215)한다.
이미지 시뮬레이터(Imaging simulator, 220)
이미지 시뮬레이터(220)는 두 가지 통찰력으로 설계되었다. 첫째, 기존의 학습 기반 접근 방식은 MS COCO 또는 ImageNet 데이터셋의 사진에 마커를 겹쳐서 마커 생성기 또는 탐지기를 훈련시켰다. 마커는 장면 지오메트리 및 조도를 무시한 채 임의의 위치에 배치된다. 도 3을 참조하면, 무작위로 중첩된 훈련 데이터셋의 사실성(도 3(a))은 실제 장면에서 기준 마커를 포함하는 사실적인 이미지(도 3(b))보다 훨씬 낮다. 무작위로 중첩된 이미지와 기준 마커의 자연 이미지 사이의 도메인 간격은 훈련 성능을 심각하게 저하시킬 수 있다. 그것은 도메인 적응의 추가적인 노력이 필요하다. 훈련의 도메인 격차를 줄이기 위해, 본 발명의 접근 방식은 실제 사진으로 구성된 물리적 기반 렌더링에 의해 생성된 마커가 매끄럽게 렌더링되는 훈련을 위한 사실적 렌더링 이미지를 만드는 것이다. 둘째, 본 발명의 방법은 색 패턴을 이용하여 지수 규모로 메시징 기능을 증가시켰다. 그러나 색 코드가 환경에 따라 다른 코드로 잘못 해석될 수 있기 때문에 실제 환경에서 색 패턴의 외관 변화를 학습하는 것이 더 중요해진다. 이 두 가지 과제를 완화하기 위해 생성된 기준 마커의 사실적 렌더링을 위한 구별 가능한 이미지 시뮬레이터(220)를 고안한다.
이미지 시뮬레이터(220)의 차동 렌더러(Differentiable renderer, 221)는 기준 마커의 사실적인 외관을 시뮬레이션 한다. 본 발명의 엔드투엔드 최적화 프레임워크에서는 생성된 마커가 런타임에 실제 장면에 배치되는 많은 수의 사실적 훈련 이미지가 필요하다. 물리적 기반 렌더링 프레임워크를 통해 생성된 기준 마커를 렌더링하는 경우 렌더링 프로세스는 단일 고해상도 이미지를 얻는 데 몇 시간이 걸릴 수 있다. 대신 현실적인 마커 이미지를 효율적으로 생성할 수 있는 실용적인 솔루션을 제안한다. 간단히 말해서, 본 발명은 먼저 공간 홀더로서 여러 개의 화이트 보드가 배치된 다른 조명 아래에서 수천 개의 실제 비디오 프레임을 준비한다. 그런 다음 생성된 마커를 장면 조명의 확산 음영과 합성 스펙트럼 반사로 보드에 렌더링한다. 마지막으로, 본 발명의 증강 연산자는 변형, 투영, 노이즈, 조명 등의 다양한 이미징 아티팩트를 시뮬레이션한다.
주 교육 파이프라인의 경우 실제 이미지 데이터셋, 이른바 배치 데이터셋을 수집한다. 도 4a를 참조하면, 단순한 장면에서 많은 객체가 있는 복잡한 장면에 이르기까지 실제 장면에서 평면 화이트 보드의 비디오로 구성된다. 이때, 본 발명은 2대의 DSLR 카메라(각각 22mm와 50mm 렌즈를 장착한 Canon EOS 5D)로 실내와 실외의 다양한 조명 조건에서 140개의 실제 장면의 비디오 프레임을 캡처한다. 모션 블러와 같은 이미징 아티팩트 없이 고품질 사진을 캡처하기 위해 3축 짐벌 2개를 사용하여 짧은 셔터 속도로 비디오를 캡처한다. 화이트 보드는 모서리의 초기 Aruco 마커를 포함하며, 화이트 보드의 자동 위치 지정을 위해 사용된다. 초기 마커에서 화이트 보드의 위치와 방향을 감지하고 나중에 마커 배치에 대한 호모그래피를 추정한다. 이후에, 도 4b에 도시된 바와 같이, 렌더링을 위한 무결점 표면을 제공하기 위해 두 개의 인페인팅 알고리즘을 사용하여 초기 Aruco 마커를 제거한다.
훈련 중에 본 발명은 각 반복마다 96개의 고유한 메시지를 생성하고 이를 생성기에 공급한다. 또한, 도 4c의 마커는 도 5에 도시된 바와 같이, 각 보드에 대해 사전 설정된 레이아웃 구성 중 하나를 선택한다. 다음으로 보드 호모그래피 및 레이아웃에 따라 96개의 마커 중에서 임의로 선택하여 마커를 배치한다. 반복당 96개의 고유 마커를 사용하는 것이 각 위치에 대해 고유 마커를 사용하는 것과 달리 더 나은 수렴을 제공했다. 또한 마커의 식별 지수는 나중에 평균 정밀도 점수를 계산할 수 있는 지상 검증 라벨을 제공한다.
평면 보드의 경우 표면이 대부분 램버트 반사를 나타내도록 알루미늄 판에 고르게 부착된 확산 백지를 사용한다. 용지 표면 mp와 마커 표면 mt가 일정한 BRDF: , 를 갖는다고 가정할 때, 카메라 방향 의 경우 표면 점 x로부터의 광도는 3D로 이다. 따라서 표면의 반사 광도는 대상 렌더링 표면과 용지 표면 사이의 확산 반사율에 비례한다. 반사광도는 로 계산할 수 있다. 그런 다음 마커 색상을 해당 표면 픽셀로 곱하고 표면의 비례 확산 반사율(도 4(d))로 나눈다. 본 발명은 선형 색상 공간에서 색상을 계산한 다음 탐지 네트워크에 제공하기 전에 감마를 수정한다.
실제 용지와 프린터 잉크는 종종 특정한 반사를 나타낸다. 실제 용지의 반짝임을 시뮬레이션하기 위해 특정 렌더링(도 4(e))을 나타낸다. 본 발명은 표면 정상, 보기 방향 및 표면 픽셀 값을 사용하여 특정 효과를 생성하며, 보드 내에서 가장 밝은 지점의 완벽한 반사 방향에서 빛의 방향을 선택한다. 그리고 본 발명은 빛의 색상을 무작위 강도 전력 값을 가진 가장 밝은 점의 정규화된 색상으로 정의하며, 보드의 전체 밝기에 따라 조정된다. 본 발명은 표면에 특정 강조 표시를 렌더링하기 위해 GGX microfacet 분포 함수와 함께 Cook-Torrance microfacet BRDF 모델을 사용한다. 특정 구성 요소의 경우, 본 발명은 표면 전체에 걸친 거칠기와 특정 알베도를 작은 정규 섭동으로 수정한다. 이 접근 방식은 야생에서 발생하는 특정 효과의 실행 가능한 렌더링을 보여준다(훈련에 사용되는 렌더링 결과는 도 3(b) 및 도 4(f) 참조).
이미지 시뮬레이터(220)의 이미징 아티팩트 증강기(Imaging artifact augmenter, 222)는 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션한다.
앞에서 논의한 바와 같이, 많은 에지 케이스가 인식을 위해 존재한다. 따라서 레이블로 렌더링된 이미지를 단순히 탐지 파이프라인에 공급하는 것만으로는 충분하지 않다. 따라서, 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)은 어려운 조건에 대해 일반화하기 위해 렌더링된 이미지의 차별화 가능한 증강을 위한 이미징 아티팩트 시뮬레이터를 고안한다. 도 6은 아티팩트의 예를 보여준다.
마커의 변형되고 평평하지 않은 배치 시나리오를 시뮬레이션하기 위해 훈련 시간에 얇은 판 스플라인(Thin-Plate Splines; TPS)을 사용하여 렌더링된 이미지를 왜곡한다. 본 발명은 미리 정의된 비평면 표면을 캡처하는 대신 알고리즘 방식으로 표면을 의도적으로 변형한다. 이 결정은 네트워크가 제한된 수의 미리 정의된 모양에 과도하게 적합될 수 있는 잠재적 위험을 방지하기 위해 취해진다. 또한, 다양한 모양의 실제 물체를 준비하는 것은 번거롭다.
세부적으로, 본 발명은 먼저 대상 이미지의 제어 지점을 균일한 그리드로 정의한다. 그런 다음 소스 이미지의 제어 지점을 얻기 위해 각각 임의의 방향과 진폭으로 이동한다. 마지막으로, 본 발명은 판 스플라인(TPS)을 사용하여 제어 지점을 따라 고밀도 샘플링 그리드를 생성했다. 이 프로세스는 다양한 변형과 변형을 가능하게 하며 TPS의 특성은 부드러움을 보장한다(도 6(a)) 참조).
이러한 비선형 기하학적 왜곡을 적용하는 동안, 본 발명은 마커 코너와 같은 지상 검증 레이블을 다시 계산해야 했다는 것에 주목할 필요가 있다. 또한 균일한 마커 샘플링 위치를 저장하고 다시 계산하며, 나중에 네트워크에 마커에 적용된 모든 비선형 변환을 명시적으로 뒤집도록 가르치는 데 사용된다.
또한, 보다 다양한 관점 왜곡을 다루기 위해, 본 발명은 무작위 호모그래피를 이선형 샘플링으로 이미지에 적용했다. 본 발명은 또한 3개의 무작위 계수와 무작위 초점 길이와 왜곡 중심을 가진 Brown-Conrady 모델[프라이어 및 브라운 1986]에 이어 방사형 왜곡을 시뮬레이션한다. 특히, 널리 사용되는 넓은 시야 렌즈 분야는 대개 그러하기 쉽기 때문에 본 발명은 배럴 왜곡(음성 계수)에 초점을 맞춘다.
본 발명의 방법은 색 특징을 사용하기 때문에, 환경의 다양한 색상과 밝기를 현실적으로 갖는 것이 중요하다. 특수 반사, 표면 거칠기, 그림자 및 희소한 빛 노출과 같은 환경 조명 조건은 측정된 조도에 영향을 미친다. 본 발명은 렌더링 섹션의 다른 거칠기 값과 그림자를 가진 특정 반사를 다룬다. 조건 없는 조명 하에서 검출기의 견고성을 높이기 위해 전체 이미지에 무작위 밝기를 재스케일로 적용한다. 또한 무작위 감마 보정을 통한 비선형 변환을 도입하고 다른 조명 환경으로 더 나은 일반화를 위해 색조를 이동한다.
본 발명은 카메라와 관련된 영상 아티팩트를 시뮬레이션한다. 즉, 임의의 크기의 원형 조리개를 가정하고 가변 크기와 방향의 영상과 모션 블러(motion blur)에 대한 일정한 깊이를 가정한다. 또한 다른 ISO 매개변수를 가진 CMOS 센서 노이즈를 모방하기 위해 무작위 표준 편차의 가우스 노이즈를 도입한다. 본 발명은 마침내 차별화 가능한 JPEG 근사를 통해 압축 아티팩트를 재현할 수 있다.
증강이 적용된 후, 본 발명은 증강된 색상으로 다시 sRGB 값으로 변환하는 감마 보정을 적용하고 감지 네트워크에 대한 유효한 범위로 고정한다. 훈련 중에, 본 발명은 기준 마커를 생성하기 위해 주어진 비트의 임의의 이진 메시지를 생성한다. 12개의 epoch을 마칠 때까지, 본 발명은 모든 증강이 포함된 약 561,912개의 고유한 이미지를 생성한다. 이때, 훈련 데이터셋의 예는 도 7에 도시된 바와 같다.
마커 검출기(Marker detector, 230)
본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)에서 마커 감지를 위한 최종 목표는 영상 내에서 여러 마커를 감지하고 각 마커의 이진 메시지를 실시간으로 디코딩하는 것이다. 새로운 실시간 마커 검출기(230)를 개발하기 위해, 본 발명은 영역 제안과 분류 작업 모두에 전용으로 백본 기능을 사용하는 2단계 Faster-RCNN 접근 방식에서 영감을 받았다. 또한, 본 발명은 스케일 불변성을 위해 마커 탐지기가 필요하다. 이에 따라서, 본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)은 백본 기능의 서로 다른 규모에 걸쳐 공유되는 두 개의 주요 RoI 헤드, 즉 (1) 코너 감지 및 (2) 메시지 디코딩 헤드를 설계한다. 백본 기능을 효율적으로 활용하기 위해, 본 발명은 재샘플링의 두 단계를 통해 역 워핑을 통해 백본 기능을 공간적으로만 변환하고 비용이 많이 드는 컨볼루션 작업을 피한다. 이는 네트워크 깊이를 얕게 유지하면서 디코딩 네트워크를 비선형 변형 변환에 불변하게 만든다.
본 발명의 일 실시예에 따른 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 시스템(200)은 객체 감지 백본 네트워크의 기능을 독점적으로 사용한다. 첫째, 관심 영역(Regions of Interest; RoIs) 및 초기 경계 상자 제안을 얻기 위해 영역 제안 네트워크(Region Proposal Network; RPN)가 특징을 사용한다. 둘째, 경계 상자 제안을 사용하여 RoI 조정 연산에 의해 특징이 다시 샘플링된다. 마지막으로, 풀링된 특징은 (1) affine 변환 매트릭스를 추정하여 코너를 예측하는 데 직접 사용되며, (2) 변형 인식 샘플링을 통해 메시지를 디코딩한다.
또한, 본 발명은 가능한 스케일 차이를 추가로 지원하기 위해 네트워크에 특징 피라미드 네트워크(Feature Pyramid Network; FPN)를 포함하고, 탐지 실시간 성능을 고려하여 백본 네트워크로 VovNet를 선택한다.
마커의 모서리는 기준 마커의 다양한 응용에 중요한 정보로 객체 추적 및 카메라 포즈 추정이 가능하다. 그러나, 코너는 높은 수준의 의미론적 의미를 포함하지 않는 정보의 한 유형이기 때문에 코너 탐지기를 훈련시키기 위해 높은 수준의 기능을 사용할 때, 그것은 매우 잘 수행될 수 없었다. 따라서, 본 발명은 높은 수준의 FPN 기능이 아닌 백본 네트워크의 낮은 수준의 스템 기능을 직접 사용하기로 결정했다. 코너 탐지기의 자세한 아키텍처는 도 8에 도시된다. 모서리의 강력한 탐지를 위해, 본 발명은 표준화된 RoI 도메인의 중심 근원과 관련하여 각 모서리에 대한 샘플링 윈도우의 affine 변환을 추정한다. 그런 다음 변환을 통해 줄기 특징을 샘플링한 다음 컨볼루션과 두 개의 완전히 연결된 계층을 적용하여 코너 위치를 예측한다. 예측된 모서리를 사용하여 하기의 [수식 1]과 같이 공식화된 모서리 손실을 계산한다.
[수식 1]
여기서 Ntotal은 총 영역 수를 나타내며, xgt와 xpredict 은 각각 지상 검증과 예측의 현재 픽셀 좌표이며 손실은 전경 영역에만 대해서만 계산된다.
공간 변환기 네트워크는 최적의 역변환을 추론하여 분류 성능을 향상시키기 위해 객체 분류에 광범위하게 사용되어 왔다. 그러나 기하학적 변환에 대한 명확한 지식이 부족하다. 대조적으로, 본 발명은 마커에 적용된 기하학적 변환에 대한 명시적 지식을 적극적으로 활용하여 변형 역 변환을 추정한다.
이를 위해 먼저 마커 영역에서 균일한 샘플링 위치를 계산한다. 변환이 적용될 때마다 이러한 위치를 다시 계산한다. 렌더링을 위해 호모그래피 변환을 적용한 다음 증강 단계에서 affine 증강, 렌즈 변형 및 얇은 판의 스플라인 왜곡을 연속적으로 적용하고 샘플링 위치를 다시 계산한다. 네트워크가 이러한 위치를 올바르게 예측할 수 있는 경우, 적용된 전방 워핑을 이해하고 이를 역순으로 처리하여 마커를 생성된 마커 도메인으로 다시 정규화할 수 있다고 가정한다. 12×12 풀링된 RoI 영역의 샘플링 해상도는 9×9로 설정된다. 또한, 본 발명은 하기의 [수식 2]와 같이 공식화할 수 있는 디코딩을 위한 계산된 지상 검증 특징 샘플 위치로부터 샘플링 손실을 설정한다.
[수식 2]
여기서 Nsample은 샘플 위치(9×9)의 총 수를 나타낸다.
다음 단계에서는 이선형 샘플링이 포함된 예측 샘플링 위치를 사용하여 풀링된 RoI 기능을 사용하여 샘플링한다. 그런 다음 완전히 연결된 계층을 기하학적으로 정규화된 마커 특징에 적용한다. 기존 마커의 비교 연구를 위해 크로스 엔트로피 손실은 마커 클래스를 예측하는 데 사용된다. 학습된 마커의 경우 하기의 [수식 3]과 같이 공식화된 디코딩 손실이 있다.
[수식 3]
여기서 Nbits는 이진 메시지의 총 비트 수를 나타내며, mencoded와 mdecoded는 각각 지상 검증의 인코딩된 이진 메시지와 디코딩된 메시지를 나타낸다.
본 발명은 각 RoI에 대한 객관성을 예측한다. 또한, 본 발명은 개체성 손실 Lobj로 이진 교차 엔트로피를 사용하며, 이는 나중에 최대가 아닌 억제에 사용된다.
본 발명의 최종 손실 항은 하기의 [수식 4]와 같이 공식화된다.
[수식 4]
여기서 Lrpn 손실은 지역 제안 네트워크의 객체성과 경계 상자 예측에서 비롯되며, 이는 원래 탐지 네트워크로부터 변경되지 않는다.
메시지를 인코딩/디코딩하기 위해 종단 간 시스템을 훈련하면 마커 탐지기 네트워크를 사용하여 마커를 식별할 수 있다. 디코더 네트워크에서 이진 코드의 36비트 차원 기능 벡터인 이진 메시지를 수신하고 각 메시지의 이진 코드를 사전과 비교하여 식별을 확인한다. 이때, 일치 신뢰 수준이 80%보다 낮으면 식별이 거부된다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 마커 생성기에서, 입력 이진 메시지에 고유한 마커 패턴을 생성하는 단계;
    이미지 시뮬레이터에서, 생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하는 단계; 및
    렌더링된 이미지로 마커 검출기를 훈련하는 단계
    를 포함하고,
    상기 이미지 시뮬레이터는
    차동 렌더러(Differentiable renderer)와 이미징 아티팩트 증강기(Imaging artifact augmenter)로 구성되며,
    상기 렌더링하는 단계는
    상기 차동 렌더러에 의해, 기준 마커의 사실적인 외관을 시뮬레이션하고, 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  2. 제1항에 있어서,
    상기 생성하는 단계는
    고유한 시각적 코드에서 정보를 인코딩하기 위해 일련의 자유 형식 패턴인 마커 패턴을 생성하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  3. 제1항에 있어서,
    상기 마커 검출기는
    위치 지정기(localizer) 및 마커 디코더(marker decoder)로 구성되며,
    상기 훈련하는 단계는
    상기 렌더링된 이미지에서 관심 영역을 추출하며, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  4. 제1항에 있어서,
    상기 렌더링하는 단계는
    상기 차동 렌더러에 의해, 기준 마커의 사실적인 외관을 시뮬레이션하고, 상기 이미징 아티팩트 증강기에 의해, 변형, 원근/렌즈 왜곡, 모션 블러 및 압축 아티팩트에 따른 이미징 아티팩트(Imaging artifact)를 시뮬레이션하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  5. 제1항에 있어서,
    상기 생성하는 단계는
    상기 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용하는 FC 계층 단계;
    컨볼루션 생성 블록을 통해 마커의 외관을 제어하며, 생성 블록을 업샘플링한 후, 컨볼루션 및 표준화하는 생성 블록 단계; 및
    처리된 출력을 시그모이드 함수에 적용하여 렌더링 시, 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화하는 정규화 단계
    를 포함하는 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  6. 제5항에 있어서,
    상기 FC 계층 단계는
    상기 입력 이진 메시지에 상기 FC 선형 변환을 적용하고, 변환된 기능을 정규화하며, 활성화 함수를 적용하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  7. 제6항에 있어서,
    상기 FC 계층 단계는
    상기 FC 선형 변환을 적용하여 정규화 재구성된 기능을 4×4 모양으로 크기 조정하는 것을 특징으로 하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  8. 제5항에 있어서,
    상기 생성 블록 단계는
    상기 FC 선형 변환이 적용된 메시지 기능에 적응형 인스턴스 정규화 연산자(Adaptive Instance normalization operator; AdaIn)의 가중치를 적용하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  9. 제1항에 있어서,
    상기 렌더링된 이미지는
    특정 반사, 광학 왜곡, 디포커스 및 모션 블러, 색상 변경, 이미지노이즈 및 마커의 형상 변형이 포함된 사실적인 음영이 포함되는 것을 특징으로 하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 입력 이진 메시지에 고유한 마커 패턴을 생성하는 마커 생성기;
    생성된 기준 마커로 사실적인 장면 이미지의 훈련 데이터셋을 생성하여 이미지를 렌더링하는 이미지 시뮬레이터; 및
    렌더링된 이미지로 훈련하는 마커 검출기
    를 포함하고,
    상기 이미지 시뮬레이터는
    차동 렌더러(Differentiable renderer)와 이미징 아티팩트 증강기(Imaging artifact augmenter)로 구성되며,
    기준 마커의 사실적인 외관을 시뮬레이션하고, 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 시스템.
  14. 제13항에 있어서,
    상기 마커 생성기는
    고유한 시각적 코드에서 정보를 인코딩하기 위해 일련의 자유 형식 패턴인 마커 패턴을 생성하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 시스템.
  15. 제13항에 있어서,
    상기 마커 생성기는
    상기 입력 이진 메시지에 완전히 연결된(Fully-Connected; FC) 선형 변환을 적용하고, 컨볼루션 생성 블록을 통해 마커의 외관을 제어하며, 생성 블록을 업샘플링한 후, 컨볼루션 및 표준화하고, 처리된 출력을 시그모이드 함수에 적용하여 렌더링 시, 세 가지 컬러 채널에서 [0, 1] 범위 내의 출력 값을 정규화하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 시스템.
  16. 제13항에 있어서,
    상기 이미징 아티팩트 증강기는, 변형, 원근/렌즈 왜곡, 모션 블러, 압축 아티팩트 및 다양한 조명 조건의 이미징 아티팩트(Imaging artifact)를 시뮬레이션하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 시스템.
  17. 제13항에 있어서,
    상기 마커 검출기는
    위치 지정기(localizer) 및 마커 디코더(marker decoder)로 구성되며,
    상기 렌더링된 이미지에서 관심 영역을 추출하고, 역 변형 변환을 통해 적어도 하나 이상의 마커 패턴을 동시에 인식하여 훈련하는, 인공지능 기반의 변형가능한 기준 마커 생성 및 인식하는 시스템.
  18. 삭제
  19. 삭제
  20. 삭제
KR1020210088349A 2021-07-06 2021-07-06 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템 KR102620823B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210088349A KR102620823B1 (ko) 2021-07-06 2021-07-06 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템
US17/857,444 US20230016057A1 (en) 2021-07-06 2022-07-05 Method for generating and recognizing deformable of fiducial markers based on artificial intelligence in end-to-end manner and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210088349A KR102620823B1 (ko) 2021-07-06 2021-07-06 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
KR20230007698A KR20230007698A (ko) 2023-01-13
KR102620823B1 true KR102620823B1 (ko) 2024-01-04

Family

ID=84890328

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210088349A KR102620823B1 (ko) 2021-07-06 2021-07-06 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템

Country Status (2)

Country Link
US (1) US20230016057A1 (ko)
KR (1) KR102620823B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524217B (zh) * 2023-07-03 2023-08-25 北京七维视觉传媒科技有限公司 人体姿态图像匹配方法、装置、电子设备及存储介质
CN118429403B (zh) * 2024-07-04 2024-09-27 湘江实验室 用于髋臼周围截骨术的图像配准方法、终端设备及介质
CN118660118A (zh) * 2024-08-20 2024-09-17 中国人民解放军海军航空大学 高效实时视频拼接方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200342652A1 (en) * 2019-04-25 2020-10-29 Lucid VR, Inc. Generating Synthetic Image Data for Machine Learning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102332476B1 (ko) * 2017-05-26 2021-11-30 구글 엘엘씨 신경망을 이용한 타일 이미지 압축
US10482337B2 (en) * 2017-09-29 2019-11-19 Infineon Technologies Ag Accelerating convolutional neural network computation throughput

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200342652A1 (en) * 2019-04-25 2020-10-29 Lucid VR, Inc. Generating Synthetic Image Data for Machine Learning

Also Published As

Publication number Publication date
KR20230007698A (ko) 2023-01-13
US20230016057A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
KR102620823B1 (ko) 인공지능 기반의 변형가능한 기준 마커 생성 및 인식 방법 및 그 시스템
US20180012411A1 (en) Augmented Reality Methods and Devices
JP5049798B2 (ja) グラウンドトルース・データからの合成画像及びビデオの生成
CN105453546B (zh) 图像处理装置、图像处理系统和图像处理方法
US11893789B2 (en) Deep neural network pose estimation system
JP4692773B2 (ja) 物体の姿勢推定及び照合システム、物体の姿勢推定及び照合方法、並びにそのためのプログラム
JP4868186B2 (ja) マーカ生成及びマーカ検出のシステム、方法とプログラム
KR20210089166A (ko) 신경망을 사용한 밝은 반점 제거
US10062013B2 (en) Method of image processing
RU2665273C2 (ru) Обучаемые визуальные маркеры и способ их продуцирования
Yaldiz et al. Deepformabletag: End-to-end generation and recognition of deformable fiducial markers
CN109993086A (zh) 人脸检测方法、装置、系统及终端设备
CN112183150A (zh) 图像二维码及其制备方法、解析装置和解析方法
Peace et al. E2etag: An end-to-end trainable method for generating and detecting fiducial markers
Park et al. Neural object learning for 6d pose estimation using a few cluttered images
Kageyama et al. Efficient distortion-free neural projector deblurring in dynamic projection mapping
CN113435557B (zh) 一种二维码生成、解码、识别方法、装置及设备
CN112749664A (zh) 一种手势识别方法、装置、设备、系统及存储介质
Ernst et al. Check my chart: A robust color chart tracker for colorimetric camera calibration
Tybusch et al. Color-based and recursive fiducial marker for augmented reality
Chang et al. Robust identification of visual markers under boundary occlusion condition
CN111652174A (zh) 一种基于激光数据的语义化标定方法及装置
Bhandari Motion and Activity Understanding in 360° Videos: An Egocentric Perspective
Berral-Soler et al. DeepArUco: Marker Detection and Classification in Challenging Lighting Conditions
Rasmussen et al. Deepmorph: A system for hiding bitstrings in morphable vector drawings

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right