KR20230108104A

KR20230108104A - 영상 내 마커 위치 검출 방법 및 시스템

Info

Publication number: KR20230108104A
Application number: KR1020220003482A
Authority: KR
Inventors: 구형일; 신동원
Original assignee: 아주대학교산학협력단
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2023-07-18

Abstract

본 개시의 기술적 사상에 의한 일 양태에 따른 적어도 하나의 컴퓨팅 장치를 포함하는 마커 위치 검출 시스템의 영상 내 마커 위치 검출 방법은, 복수의 프레임을 포함하는 영상을 획득하는 단계, 상기 영상에 포함된 복수의 프레임 중 적어도 하나의 프레임에 기초한 입력 데이터를, 머신 러닝 기반으로 구축된 마커 검출기로 입력하는 단계, 상기 마커 검출기로부터, 상기 적어도 하나의 프레임 중 어느 하나에 대해, 마커의 중심 위치를 예측한 예측 결과를 획득하는 단계, 및 획득된 예측 결과에 기초하여, 상기 어느 하나의 프레임에 포함된 마커를 검출하는 단계를 포함한다.

Description

영상 내 마커 위치 검출 방법 및 시스템{METHOD AND SYSTEM FOR DETECTING POSITION OF MARKER IN IMAGE}

본 개시(disclosure)의 기술적 사상은 영상 내에 포함된 마커의 위치를 검출하는 방법 및 시스템에 관한 것이다.

카메라를 통해 획득한 영상 내에 포함된 특정 객체를 인식하는 영상 인식 기술은 다양한 산업 분야에서 널리 활용되고 있다. 특히 딥러닝 등의 머신러닝 기술이 발전함에 따라, 영상 인식 기술 또한 급격히 발전하고 있다.

이러한 영상 인식 기술이 발전함에 따라, 영상 내에 포함된 객체를 단순히 식별하는 기술뿐만 아니라, 객체의 위치를 정밀하게 검출하는 기술 또한 요구되고 있다. 일례로, 전자기파 분석 기기의 경우, 영상 내에 포함된 프로브(마커)의 위치를 정밀하게 검출하고 해당 위치의 노이즈 발생 여부를 시각화하여 제공하고자 한다.

그러나, 종래의 영상 인식 기술에 따르면, 마커가 빠르게 움직이거나, 복잡한 배경이 포함된 영상이 입력되는 상황에서 마커의 검출 성능이 급격히 저하되는 문제가 발생한다. 또한, 종래의 영상 인식 기술들은 신경망의 학습 시 마커의 모양이나 패턴 자체를 학습하도록 구현되는 바, 이에 따라 구축된 신경망은 다른 모양이나 패턴을 갖는 마커의 인식에는 활용되지 못하는 한계가 존재한다.

1. 대한민국 공개특허공보 제10-2021-0102180호 (2021.08.19. 자 공개)

본 발명이 해결하고자 하는 일 과제는, 영상 내에 포함된 마커의 위치를 보다 정확히 검출할 수 있는 방법을 제공하는 것이다.

상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상에 의한 일 양태(aspect)에 따른 영상 내 마커 위치 검출 방법은, 복수의 프레임을 포함하는 영상을 획득하는 단계, 상기 영상에 포함된 복수의 프레임 중 적어도 하나의 프레임에 기초한 입력 데이터를, 머신 러닝 기반으로 구축된 마커 검출기로 입력하는 단계, 상기 마커 검출기로부터, 상기 적어도 하나의 프레임 중 어느 하나에 대해, 마커의 중심 위치를 예측한 예측 결과를 획득하는 단계, 및 획득된 예측 결과에 기초하여, 상기 어느 하나의 프레임에 포함된 마커를 검출하는 단계를 포함한다.

일 실시 예에 따라, 상기 적어도 하나의 프레임은 연속한 둘 이상의 프레임을 포함하고, 상기 입력하는 단계는, 상기 연속한 둘 이상의 프레임 각각의 픽셀 값들을 포함하는 상기 입력 데이터를 상기 마커 검출기로 입력하는 단계를 포함할 수 있다.

일 실시 예에 따라, 상기 적어도 하나의 프레임은 연속한 제1 프레임 및 제2 프레임을 포함하고, 상기 입력하는 단계는, 상기 제1 프레임과 제2 프레임 각각의 픽셀 값들, 및 상기 제1 프레임과 제2 프레임의 픽셀들 간 차이값을 포함하는 상기 입력 데이터를 상기 마커 검출기로 입력하는 단계를 포함할 수 있다.

일 실시 예에 따라, 상기 예측 결과는, 상기 어느 하나의 프레임의 픽셀들 각각에 대한 상기 마커의 중심 위치 확률을 포함할 수 있다.

일 실시 예에 따라, 상기 마커를 검출하는 단계는, 상기 예측 결과로부터, 상기 중심 위치 확률이 가장 높은 픽셀을 상기 마커의 중심 위치로서 검출하는 단계를 포함할 수 있다.

일 실시 예에 따라, 상기 방법은, 상기 검출된 중심 위치를 나타내는 마커 인디케이터를 표시한 프레임을 출력하는 단계를 더 포함할 수 있다.

일 실시 예에 따라, 상기 방법은, 적어도 하나의 연속한 프레임 및 정답 마스크를 이용하여 상기 마커 검출기의 학습을 수행하는 단계를 더 포함하고, 상기 정답 마스크는, 상기 적어도 하나의 연속한 프레임 중 어느 하나에 포함된 마커의 중심 위치에 대한 정보를 포함할 수 있다.

일 실시 예에 따라, 상기 정답 마스크는, 상기 중심 위치에 대응하는 픽셀의 값이 1이고, 나머지 픽셀들의 값이 0인 이진화 이미지를 포함할 수 있다.

본 개시의 기술적 사상에 의한 일 양태에 따른 적어도 하나의 컴퓨팅 장치를 포함하는 영상 내 마커 위치 검출 시스템은, 영상에 포함된 복수의 프레임 중 적어도 하나의 프레임을 처리하여 입력 데이터를 생성하는 영상 처리 모듈; 상기 입력 데이터로부터 상기 적어도 하나의 프레임 중 어느 하나에 포함된 마커의 중심 위치를 예측한 예측 결과를 출력하는, 머신 러닝 기반으로 구축된 마커 검출기; 및 상기 예측 결과에 기초하여, 상기 어느 하나의 프레임에 포함된 마커를 검출한 검출 결과를 출력하는 검출 결과 출력 모듈을 포함한다.

본 개시의 실시 예에 따른 영상 내 마커의 위치 검출 방법은, 연속한 프레임들의 픽셀 값들, 또는 추가적으로 연속한 프레임들 간의 픽셀 값 차이를 포함하는 데이터로부터 프레임 내의 마커의 중심 위치를 검출하도록 학습된 마커 검출기를 이용함으로써, 마커가 빠르게 움직이거나 배경이 복잡한 영상에 대해서도 마커의 위치를 보다 정확히 검출할 수 있다.

또한, 본 개시의 실시 예에 따른 영상 내 마커의 위치 검출 방법은, FCN(Fully Convolutional Network)을 포함하는 마커 검출기를 이용하여 영상의 프레임에 포함된 마커의 중심 위치만을 예측하도록 구현됨으로써, 마커의 검출 속도를 향상시킬 수 있다. 뿐만 아니라, 다른 형상의 마커를 검출하기 위한 마커 검출기의 학습 데이터 생성 시, 정답 마스크는 마커의 중심 위치 정보만을 포함할 수 있고, 이는 본 개시의 실시 예에 따른 마커의 위치 검출 방법이 적용되는 마커 형상에 대한 제약을 해소할 수 있다.

본 개시의 기술적 사상에 따른 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 개시의 예시적 실시 예에 따른 영상 내 마커의 위치 검출 동작의 개념도이다.
도 2는 본 개시의 예시적 실시 예에 따른 영상 내 마커의 위치 검출 동작을 수행하는 시스템의 개략적인 구성도이다.
도 3은 본 개시의 예시적 실시 예에 따른 마커 검출기의 학습을 위해 제공되는 학습 데이터의 구성을 보여주는 예시도이다.
도 4는 본 개시의 예시적 실시 예에 따른 영상 내 마커의 위치 검출 방법을 설명하기 위한 플로우차트이다.
도 5 내지 도 6은 도 2에 도시된 영상 처리 모듈이, 획득된 영상 내 프레임들을 마커 검출기로 입력하기 위한 처리 동작의 예를 설명하기 위한 예시도들이다.
도 7은 입력된 영상의 프레임 변화에 따라 검출되는 마커의 위치 변화를 보여주는 예시도이다.
도 8은 본 개시의 실시 예에 따른 마커 검출기가 적용되는 다양한 의 일례로서, 영상으로부터 사람의 머리 위치를 검출하는 동작을 나타낸다.
도 9 내지 도 10은 본 개시의 실시 예에 따라 학습된 마커 검출기와 종래 기술 간의 성능 비교를 설명하기 위한 데이터를 나타낸다.
도 11은 본 개시의 예시적 실시 예에 따른 마커 위치 검출 방법을 수행하는 디바이스의 개략적인 블록도이다.

본 개시의 기술적 사상에 따른 예시적인 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 개시의 기술적 사상을 더욱 완전하게 설명하기 위하여 제공되는 것으로, 아래의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예들은 본 개시를 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.

본 개시에서 제1, 제2 등의 용어가 다양한 부재, 영역, 층들, 부위 및/또는 구성 요소들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들, 부위 및/또는 구성 요소들은 이들 용어에 의해 한정되어서는 안 됨은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역, 부위, 또는 구성 요소를 다른 부재, 영역, 부위 또는 구성 요소와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역, 부위 또는 구성 요소는 본 개시의 기술적 사상의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역, 부위 또는 구성 요소를 지칭할 수 있다. 예를 들면, 본 개시의 권리 범위로부터 이탈되지 않은 채 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 개시의 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것이다.

어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들면, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.

첨부한 도면에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 개시의 기술적 사상에 의한 실시 예들은 본 개시에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면, 제조 과정에서 초래되는 형상의 변화를 포함하여야 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고, 이들에 대한 중복된 설명은 생략한다.

여기에서 사용된 '및/또는' 용어는 언급된 부재들의 각각 및 하나 이상의 모든 조합을 포함한다.

이하에서는 첨부한 도면들을 참조하여 본 개시의 기술적 사상에 의한 실시 예들에 대해 상세히 설명한다.

도 1은 본 개시의 예시적 실시 예에 따른 영상 내 마커의 위치 검출 동작의 개념도이다. 도 2는 본 개시의 예시적 실시 예에 따른 영상 내 마커의 위치 검출 동작을 수행하는 시스템의 개략적인 구성도이다. 도 3은 본 개시의 예시적 실시 예에 따른 마커 검출기의 학습을 위해 제공되는 학습 데이터의 구성을 보여주는 예시도이다.

도 1 내지 도 2를 참조하면, 본 개시의 실시 예에 따른 영상 내 마커의 위치 검출 동작은, 머신러닝(딥러닝) 기반의 신경망 구조를 포함하는 마커 검출기(100)를 포함하는 마커 위치 검출 시스템(200; 이하 '시스템'으로 약칭함)에 의해 수행될 수 있다. 마커 검출기(100)는 마커(11)가 포함된 영상(10)이 입력되면, 입력된 영상(10) 내의 픽셀들 각각에 대해 마커가 위치한 확률을 예측한 예측 결과(20)를 제공할 수 있다. 실시 예에 따라, 예측 결과(20)는 영상(10) 내의 픽셀들 각각에 대해 마커(11)의 중심 위치일 확률을 예측한 결과일 수 있다. 시스템(200)은 마커 검출기(100)로부터 제공되는 예측 결과(20)에 기초하여, 마커(11)의 위치를 나타내는 마커 인디케이터(31)를 표시한 영상(30)을 제공할 수 있다.

이러한 시스템(200)은 적어도 하나의 컴퓨팅 장치를 포함할 수 있다. 예컨대, 상기 적어도 하나의 컴퓨팅 장치 각각은 프로세서, 메모리, 통신 인터페이스, 입력부, 및/또는 출력부 등을 포함하는 하드웨어 기반의 장치에 해당한다. 이 경우, 시스템(200)에 포함되는 구성들(모듈들)은 하드웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있으며, 상기 적어도 하나의 컴퓨팅 장치에 통합 또는 분할되어 구현될 수 있다.

본 개시의 일 실시 예에 따른 시스템(200)은 영상 처리 모듈(210), 마커 검출기(100), 검출 결과 출력 모듈(230), 학습 모듈(240), 및 데이터베이스(250)를 포함할 수 있으나, 이에 한정되는 것은 아니고 보다 많거나 적은 구성을 포함할 수도 있다.

영상 처리 모듈(210)은, 마커의 검출이 수행될 영상을 마커 검출기(100)로 입력하기 위한 처리 동작을 수행할 수 있다. 본 개시의 실시 예에 따르면, 영상 처리 모듈(210)은 상기 영상의 하나의 프레임 또는 연속한 둘 이상의 프레임각각에 포함된 모든 픽셀들의 값(R,G,B 값 중 적어도 하나) 또는 적어도 일부의 픽셀들의 값을 획득하고, 획득된 값들을 포함하는 입력 데이터를 마커 검출기(100)로 입력할 수 있다. 일 실시 예에 따라, 영상 처리 모듈(210)은 상기 영상의 연속한 두 프레임의 모든 픽셀들의 값과, 상기 연속한 두 프레임의 모든 픽셀들 각각의 차이 값을 포함하는 입력 데이터를 획득하고, 획득된 입력 데이터를 마커 검출기(100)로 입력할 수도 있다.

마커 검출기(100)는 영상 처리 모듈(210)로부터 제공되는 입력 데이터로부터, 영상에 포함된 프레임의 픽셀들 각각에 대해 마커 위치(중심 위치)일 확률을 예측하고, 예측 결과를 출력할 수 있다. 예컨대 상기 예측 결과는, 입력 데이터에 포함된 연속한 프레임들 중 마지막 프레임에 대한 픽셀들 각각의 마커 위치 확률을 포함할 수 있으나, 반드시 그러한 것은 아니다.

이러한 마커 검출기(100)는 머신러닝(딥러닝) 기반으로 학습된 네트워크(인공 신경망)를 포함하고, 상기 네트워크를 이용하여 상기 입력 데이터로부터 프레임의 픽셀들 각각에 대한 마커 위치 확률을 예측할 수 있다. 상기 네트워크는 콘볼루션 신경망(convolutional neural network (CNN)) 기반의 네트워크인 FCN(Fully Convolutional Network)로 구현될 수 있으나, 반드시 그러한 것은 아니다. 상기 FCN은 기존 CNN의 완전연결 계층(fully connected layer)을 동일 기능을 갖는 콘볼루션 계층(convolutional layer)으로 대체한 네트워크로서, 영상 내의 모든 픽셀에 대한 추론 작업 시 처리 속도가 향상되는 장점을 갖는다.

검출 결과 출력 모듈(230)은, 마커 검출기(100)로부터 제공되는 예측 결과에 기초하여 영상 내의 마커 위치에 대한 정보를 출력할 수 있다. 예컨대, 검출 결과 출력 모듈(230)은 상기 예측 결과에 포함된 픽셀들 각각의 마커 위치 확률(중심 위치일 확률) 중 가장 높은 확률을 갖는 픽셀을, 상기 영상에 포함된 마커의 중심 위치인 것으로 검출할 수 있다. 검출 결과 출력 모듈(230)은, 상기 영상의 프레임 상에, 검출된 마커의 위치를 나타내는 마커 인디케이터를 표시할 수 있다.

영상 처리 모듈(210), 마커 검출기(100), 및 검출 결과 출력 모듈(230)은, 상기 영상의 프레임 경과에 따라 프레임들 각각에 대해 마커를 검출하고 검출된 마커의 위치에 대한 정보를 출력하는 동작을 반복할 수 있다. 이에 따라, 영상의 전체 프레임 각각에 대한 마커의 위치가 검출될 수 있다.

학습 모듈(240)은 마커 검출기(100)에 포함된 네트워크의 학습 동작을 수행할 수 있다. 학습 모듈(240)은 학습용 영상에 대한 마커의 검출 결과와, 학습 데이터의 정답 마스크 사이의 차이에 기초하여 상기 네트워크에 포함된 노드들 간의 가중치(weight) 등을 변경함으로써, 상기 네트워크의 학습을 수행할 수 있다. 구체적으로, 학습 모듈(240)은 후술할 학습 데이터의 학습용 영상에 대한 마커의 검출 결과가, 상기 학습 데이터의 정답 마스크와 일치하도록 설계되는 손실 함수(loss function)를 이용하여 마커 검출기(100)의 학습 동작을 수행할 수 있다. 상기 손실 함수의 일례로서 Lin, Tsung-Yi, et al. "Focal loss for dense object detection"에서 개시된 Focal loss가 활용될 수 있으나, 이에 한정되는 것은 아니다.

한편, 본 명세서에서 사용되는 '학습'은 러닝(learning), 훈련(또는 트레이닝(training))과 동일한 의미일 수 있으며, 학습을 수행한다는 의미는 네트워크가 학습을 수행하거나, 네트워크를 학습시키는 의미 모두를 포함할 수 있다.

데이터베이스(250)는, 마커 검출기(100)의 학습을 위한 학습 데이터를 저장할 수 있다. 상기 학습 데이터는 학습용 영상 및 그에 대응하는 정답 마스크를 포함할 수 있다. 데이터베이스(250)는 컴퓨팅 장치에 포함되는 메모리, 또는 서버나 데이터 센터와 같은 디바이스나 시스템으로 구현될 수 있다.

구체적으로 도 3a의 예시도를 참조하면, 학습 데이터는 하나의 프레임 또는 복수의 연속한 프레임(F1, F2, ...)을 포함하는 학습용 영상(310)과, 학습용 영상(310)에 대응하는 정답 마스크(320)를 포함할 수 있다. 학습용 영상(310)에 포함되는 연속한 프레임의 수는 마커 검출기(100)로 한 번에 입력될 수 있는 프레임의 수에 해당할 수 있다. 예컨대 마커 검출기(100)가 두 개의 연속한 프레임을 입력받도록 구현되는 경우, 학습용 영상(310)에는 두 개의 연속한 프레임이 포함될 수 있다.

학습용 영상(310)의 프레임 각각에는 마커 검출기(100)의 검출 대상에 해당하는 마커(312)가 포함될 수 있다. 정답 마스크(320)는, 학습용 영상(310)의 프레임들 중 어느 하나의 프레임에 포함된 마커(312)의 중심 위치(322)에 대한 정보를 나타낼 수 있다. 일례로, 정답 마스크(320)는 중심 위치(322)에 대응하는 픽셀은 '1'의 값을 갖고, 나머지 픽셀들은 '0'의 값을 갖는 이진화 이미지(binary image)를 포함할 수 있다. 또는, 정답 마스크(320)는 중심 위치(322)에 대한 좌표 정보를 포함할 수 있다.

예컨대, 정답 마스크(320)는 학습용 영상(310)의 프레임들 중 마지막 프레임에 포함된 마커(312)의 중심 위치(322)에 대한 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다.

도 3b를 참조하면, 학습 모듈(240) 또는 시스템(200) 내의 프로세서는 학습용 영상(310)의 프레임들 각각에 포함된 마커(312)의 위치 정보에 기초하여 정답 마스크(320)를 생성할 수 있다. 상기 위치 정보는 프레임 내에서 마커(312)가 존재하는 영역 또는 지점을 나타내는 정보로서, 마커(312)의 형상에 기초하여 영역 또는 지점의 형태로 제공될 수 있다. 예컨대 상기 위치 정보는 제1 이미지(330) 내지 제3 이미지(350)에 도시된 바와 같이 원형, 사각형, 점 등의 다양한 형태로 제공될 수 있다. 도 3의 실시 예에서, 마커(312)의 형상이 대략 원형을 갖는 바, 상기 위치 정보는 제1 이미지(330)와 같이 원형으로 제공되는 것이 바람직할 수 있을 것이다.

학습 모듈(240) 또는 시스템(200) 내의 프로세서는, 상기 위치 정보에 기초하여 마커(312)의 중심 위치를 산출하고, 산출된 중심 위치의 픽셀 값이 '1'이고 나머지 픽셀들의 값은 '0'인 이진화 이미지를 정답 마스크(320)로서 생성할 수 있다.

본 개시에 따르면, 마커 검출기(100)는 FCN을 이용하여 영상 내에 포함된 마커의 중심 위치만을 예측하도록 구현됨으로써, 마커의 검출 속도를 종래에 비해 크게 향상시킬 수 있다. 또한, 마커 검출기(100)가 다른 형상의 마커를 검출하기 위한 학습 시, 정답 마스크를 손쉽게 생성할 수 있으므로 학습 데이터의 생성에 대한 부하를 효과적으로 줄일 수 있다.

이하 도면들을 참조하여, 본 개시의 실시 예에 따른 영상 내 마커의 검출 방법을 구체적으로 설명하기로 한다.

도 4는 본 개시의 예시적 실시 예에 따른 영상 내 마커의 위치 검출 방법을 설명하기 위한 플로우차트이다. 도 5 내지 도 6은 도 2에 도시된 영상 처리 모듈이, 획득된 영상 내 프레임들을 마커 검출기로 입력하기 위한 처리 동작의 예를 설명하기 위한 예시도들이다. 도 7은 입력된 영상의 프레임 변화에 따라 검출되는 마커의 위치 변화를 보여주는 예시도이다.

도 4를 참조하면, 마커 위치 검출 방법은 마커의 위치 검출을 위한 영상(검출 대상 영상)을 획득하는 단계(S400), 획득된 영상의 프레임을 마커 검출기(100)로 입력하는 단계(S410), 및 마커 검출기(100)로부터 영상(프레임)의 픽셀들 각각에 대한 마커의 중심 위치 확률을 예측한 예측 결과를 획득하는 단계(S420)를 포함한다.

시스템(200)은 상기 영상을 통신 수단(미도시)을 통해 외부 기기로부터 수신하거나, 메모리(미도시)로부터 상기 영상을 로드함으로써 상기 영상을 획득할 수 있다.

시스템(200)의 영상 처리 모듈(210)은 획득된 영상을 마커 검출기(100)로 입력하기 위한 처리를 수행하고, 처리 결과에 기초한 입력 데이터를 마커 검출기(100)로 입력할 수 있다.

이와 관련하여 도 5의 실시 예를 참조하면, 영상 처리 모듈(210)은 획득된 영상에 포함된 연속한 두 프레임(500, 501) 각각에 포함된 모든 픽셀들의 값(R,G,B 값 중 적어도 하나) 또는 적어도 일부의 픽셀들의 값을 획득하고, 획득된 값들을 연결(510; 또는 나열)한 입력 데이터를 생성할 수 있다. 영상 처리 모듈(210)은 생성된 입력 데이터를 마커 검출기(100)로 입력할 수 있다. 마커 검출기(100)는 상기 입력 데이터로부터 마커의 위치(522)를 예측한 예측 결과(520)를 출력할 수 있다.

한편, 도 6의 실시 예를 참조하면, 영상 처리 모듈(210)은 연속한 두 프레임(600, 601)의 픽셀 값들 각각의 차이(602)를 산출하고, 산출된 차이 값과 연속한 두 프레임(600, 601) 각각에 포함된 픽셀들의 값을 연결(610; 또는 나열)한 입력 데이터를 생성할 수 있다. 상기 차이 값은 연속한 두 프레임(600, 601)에서 변화가 발생한 픽셀들의 값만을 가질 수 있는 바, 변화의 정도가 낮은 성분(배경 등)이 효과적으로 제거될 수 있고 마커의 움직임과 관련된 정보가 중점적으로 반영될 수 있을 것이다. 영상 처리 모듈(210)은 생성된 입력 데이터를 마커 검출기(100)로 입력할 수 있다. 마커 검출기(100)는 상기 입력 데이터로부터 마커의 위치(622)를 예측한 예측 결과(620)를 출력할 수 있다.

이 때, 마커 검출기(100)로부터 출력되는 예측 결과(520, 620)는 입력된 연속한 프레임 중 어느 하나의 프레임에 존재하는 마커의 위치에 대한 예측 결과일 수 있다. 예컨대, 마커 검출기(100)의 학습 시 사용된 정답 마스크가 연속한 프레임 중 마지막 프레임에 존재하는 마커의 중심 위치를 나타내는 경우, 예측 결과(520, 620)는 입력된 연속한 프레임 중 마지막 프레임에 존재하는 마커의 위치에 대한 예측 결과일 수 있다.

본 개시에 따르면, 마커 검출기(100)는 연속한 프레임들의 픽셀 값, 또는 추가적으로 연속한 프레임들 간의 픽셀 값 차이를 포함하는 입력 데이터로부터 마커의 위치를 검출하도록 구현됨으로써, 마커가 빠르게 움직이거나 배경이 복잡한 영상에 대해서도 마커의 위치를 보다 정확히 검출할 수 있다.

다시 도 4를 설명한다.

본 개시의 실시 예에 따른 마커 검출 방법은, 획득된 예측 결과에 기초하여 영상 상에 마커 인디케이터를 출력하는 단계(S430)를 포함할 수 있다.

시스템(200)의 검출 결과 출력 모듈(230)은, 마커 검출기(100)로부터 출력되는 예측 결과(520, 620)로부터 마커의 위치(예컨대 중심 위치)(522, 622)를 검출하고, 검출 결과를 출력할 수 있다. 상술한 바와 같이, 예측 결과(520, 620)는 프레임의 픽셀들 각각에 대한 마커의 중심 위치 확률을 포함하고, 검출 결과 출력 모듈(230)은 확률이 가장 높은 픽셀의 마커의 중심 위치로 검출할 수 있다.

검출 결과 출력 모듈(230)은 상기 영상의 프레임들 각각에, 해당 프레임에 대해 검출된 마커의 중심 위치를 나타내는 마커 인디케이터를 표시할 수 있다. 시스템(200) 또는 시스템(200)과 연결된 기기는, 디스플레이(미도시) 등을 통해 마커 인디케이터가 표시된 영상의 프레임들을 재생할 수 있다.

도 7의 (a)를 참조하면, 검출 결과 출력 모듈(230)은 영상의 제1 재생 시점에 해당하는 제1 프레임(710)에 대한 예측 결과(700)로부터, 마커의 중심 위치에 대응하는 픽셀(702)을 검출하고, 제1 프레임(710) 상의 검출된 픽셀 위치에 마커 인디케이터(712)를 표시할 수 있다. 또한, 도 7의 (b)를 참조하면, 검출 결과 출력 모듈(230)은 영상의 제2 재생 시점에 해당하는 제2 프레임(730)에 대한 예측 결과(720)로부터, 마커의 중심 위치에 대응하는 픽셀(722)을 검출하고, 제2 프레임(730) 상의 검출된 픽셀 위치에 마커 인디케이터(732)를 표시할 수 있다. 상기 영상이 디스플레이 등을 통해 출력될 때, 프레임들 각각에 대해 마커 인디케이터가 표시될 수 있을 것이다.

도 8은 본 개시의 실시 예에 따른 마커 검출기가 적용되는 다양한 의 일례로서, 영상으로부터 사람의 머리 위치를 검출하는 동작을 나타낸다.

상술한 바와 같이, 본 개시의 마커 검출기(100)는 마커의 중심 위치를 예측하도록 구현되는 바, 다양한 모양의 마커에 대한 학습이 보다 용이하게 이루어질 수 있다. 일례로 상기 마커는 사람의 머리에 해당할 수 있고, 마커 검출기(100)는 영상에 포함된 사람의 수 및/또는 위치를 검출하는 용도로 활용될 수 있다. 도 8의 (a) 내지 (c)에 도시된 바와 같이, 영상의 프레임(800)이 마커 검출기(100)로 입력되면, 마커 검출기(100)는 프레임(800)의 픽셀들 각각에 대해 머리의 중심 위치 확률을 예측한 예측 결과(810)를 출력할 수 있다. 시스템(200)은 예측 결과(810)로부터 확률값이 기준값 이상인 픽셀들, 또는 기 정의된 크기의 영역 내의 픽셀들의 확률값 평균이 기준값 이상인 영역들을 검출하고, 검출된 픽셀들 또는 영역들에 마커 인디케이터를 표시한 영상(820)을 표시할 수 있다.

도 9 내지 도 10은 본 개시의 실시 예에 따라 학습된 마커 검출기와 종래 기술 간의 성능 비교를 설명하기 위한 데이터를 나타낸다.

도 9의 (a)에 도시된 표는 검출 대상 객체의 사이즈에 따른 검출 성능(정확도)을 나타낸 데이터이다. 우측의 박스에서, AP_S는 소형 사이즈 객체의 평균 검출 정확도(Average Precision of small size object)를 의미하고, AP_M은 중간 사이즈 객체의 평균 검출 정확도(Average Precision of medium size object)를 의미하며, AP_L은 대형 사이즈 객체의 평균 검출 정확도(Average Precision of large size object)를 의미한다. 도 9의 (a)의 표에 따르면, 종래의 객체(또는 마커) 검출 기술들(객체 검출 모델들)은 객체(마커)의 크기가 작아질수록 검출 정확도가 크게 감소함을 알 수 있다.

도 9의 (b)에 도시된 표는 검출 대상 객체의 이동 속도에 따른 검출 성능(정확도)을 나타낸 데이터이다. 검출 대상 객체의 이동 속도가 빠를수록 영상에 발생하는 모션 블러(motion blur)의 정도가 높을 것이다. 하측의 박스를 참조하면, 객체의 이동 속도가 증가할수록 검출 정확도가 감소함을 확인할 수 있다.

즉, 종래의 객체 검출 기술들은 객체의 크기 감소, 및 객체의 이동 속도 증가에 의해 검출 정확도가 떨어지는 문제를 갖는다. 반면, 본 개시의 실시 예에 따른 마커 검출 방법에 의할 경우, 마커의 중심 위치를 예측하는 방식이 활용됨으로써 마커의 사이즈에 대한 영향이 최소화될 수 있고, 마커 검출기(100)는 연속한 프레임들의 픽셀값을 일체로 입력받아 마커의 위치를 예측하는 바, 프레임 간의 마커 위치 이동에 대한 정보까지 고려됨으로써 마커의 이동에 대해서도 강인한 특성을 가질 수 있다.

도 10은 종래의 객체 검출 기술(객체 검출 모델)과 본 개시의 마커 검출 방법이 구현된 시스템(200) 간의 성능 비교를 나타낸 그래프이다. 상기 그래프는 임계 거리(r)에 따른 F1 score를 나타낸다. 임계 거리(r)는 예측된 마커의 중심 위치와 실제 마커의 중심 위치 사이의 거리가 임계 거리(r) 이내인 경우를 정답으로 판단하는 기준에 해당한다.

이에 기초하여 도 10을 참조하면, 본 개시의 실시 예에 따른 마커 검출 방법은 종래 의 객체 검출 모델에 비해 F1 score가 높음(즉, 성능이 우수함)을 알 수 있다. 특히, 마커 검출기(100)로 연속한 프레임들이 입력되는 경우에 대한 성능이 유의미하게 높음을 확인할 수 있다.

도 11은 본 개시의 예시적 실시 예에 따른 마커 위치 검출 방법을 수행하는 디바이스의 개략적인 블록도이다.

도 11을 참조하면, 본 개시의 실시 예에 따른 디바이스(1100)는 도 2에서 상술한 마커 검출 시스템(200)을 구성하는 적어도 하나의 컴퓨팅 장치 중 어느 하나에 대응할 수 있다. 이 경우, 디바이스(1100)는 본 명세서에서 상술한 영상 처리 동작, 영상에 포함된 마커의 중심 위치를 예측하는 동작, 예측 결과에 기초하여 마커를 검출하고 검출 결과를 출력하는 동작, 및 마커 검출기(100)의 학습 동작 등을 수행하는 디바이스에 해당할 수 있다.

이러한 디바이스(1100)는 프로세서(1110) 및 메모리(1120)를 포함할 수 있다. 다만, 디바이스(1100)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들어, 디바이스(1100)는 전술한 구성 요소들보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수 있다. 또한, 프로세서(1110)는 적어도 하나일 수 있으며, 메모리(1120) 또한 적어도 하나일 수 있다. 또한, 프로세서(1110) 및 메모리(1120) 중 둘 이상이 하나의 칩으로 결합된 형태일 수도 있다.

일 실시 예에 따라, 프로세서(1110)는 상술한 영상 처리 모듈(210), 마커 검출기(100), 검출 결과 출력 모듈(230), 및 학습 모듈(240) 중 적어도 하나에 대응하거나, 상기 모듈들 중 적어도 하나를 실행 또는 제어할 수 있다.

이러한 프로세서(1110)는 CPU, AP(application processor), 집적 회로, 마이크로컴퓨터, ASIC(application specific integrated circuit), FPGA(field programmable gate array), 및/또는 NPU(neural processing unit) 등의 하드웨어를 포함할 수 있다.

본 개시의 일 실시 예에 따르면, 메모리(1120)는 디바이스(1100)의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다.

또한, 메모리(1120)는 프로세서(1110)를 통해 생성되거나 획득된 데이터 중 적어도 하나를 저장할 수 있다. 실시 예에 따라, 메모리(1120)는 영상 처리 모듈(210), 마커 검출기(100), 검출 결과 출력 모듈(230), 및/또는 학습 모듈(240)과 관련된 데이터, 명령어, 알고리즘 등을 저장할 수 있다. 또한, 메모리(1120)는 데이터베이스(250)를 포함하는 개념으로 이해될 수도 있다.

메모리(1120)는 롬(ROM), 램(RAM), 플래시 메모리, SSD, HDD 등의 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다.

상기한 실시 예들의 설명은 본 개시의 더욱 철저한 이해를 위하여 도면을 참조로 예를 든 것들에 불과하므로, 본 개시의 기술적 사상을 한정하는 의미로 해석되어서는 안될 것이다.

또한, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기본적 원리를 벗어나지 않는 범위 내에서 다양한 변화와 변경이 가능함은 명백하다 할 것이다.

Claims

적어도 하나의 컴퓨팅 장치를 포함하는 마커 위치 검출 시스템의 영상 내 마커 위치 검출 방법에 있어서, 상기 방법은,
복수의 프레임을 포함하는 영상을 획득하는 단계;
상기 영상에 포함된 복수의 프레임 중 적어도 하나의 프레임에 기초한 입력 데이터를, 머신 러닝 기반으로 구축된 마커 검출기로 입력하는 단계;
상기 마커 검출기로부터, 상기 적어도 하나의 프레임 중 어느 하나에 대해, 마커의 중심 위치를 예측한 예측 결과를 획득하는 단계; 및
획득된 예측 결과에 기초하여, 상기 어느 하나의 프레임에 포함된 마커를 검출하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 적어도 하나의 프레임은 연속한 둘 이상의 프레임을 포함하고,
상기 입력하는 단계는,
상기 연속한 둘 이상의 프레임 각각의 픽셀 값들을 포함하는 상기 입력 데이터를 상기 마커 검출기로 입력하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 적어도 하나의 프레임은 연속한 제1 프레임 및 제2 프레임을 포함하고,
상기 입력하는 단계는,
상기 제1 프레임과 제2 프레임 각각의 픽셀 값들, 및 상기 제1 프레임과 제2 프레임의 픽셀들 간 차이값을 포함하는 상기 입력 데이터를 상기 마커 검출기로 입력하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 예측 결과는,
상기 어느 하나의 프레임의 픽셀들 각각에 대한 상기 마커의 중심 위치 확률을 포함하는,
방법.
제4항에 있어서,
상기 마커를 검출하는 단계는,
상기 예측 결과로부터, 상기 중심 위치 확률이 가장 높은 픽셀을 상기 마커의 중심 위치로서 검출하는 단계를 포함하는,
방법.
제5항에 있어서,
상기 방법은,
상기 검출된 중심 위치를 나타내는 마커 인디케이터를 표시한 프레임을 출력하는 단계를 더 포함하는,
방법.
제1항에 있어서, 상기 방법은,
적어도 하나의 연속한 프레임 및 정답 마스크를 이용하여 상기 마커 검출기의 학습을 수행하는 단계를 더 포함하고,
상기 정답 마스크는,
상기 적어도 하나의 연속한 프레임 중 어느 하나에 포함된 마커의 중심 위치에 대한 정보를 포함하는,
방법.
제7항에 있어서,
상기 정답 마스크는,
상기 중심 위치에 대응하는 픽셀의 값이 1이고, 나머지 픽셀들의 값이 0인 이진화 이미지를 포함하는,
방법.
적어도 하나의 컴퓨팅 장치를 포함하는 영상 내 마커 위치 검출 시스템에 있어서,
영상에 포함된 복수의 프레임 중 적어도 하나의 프레임을 처리하여 입력 데이터를 생성하는 영상 처리 모듈;
상기 입력 데이터로부터 상기 적어도 하나의 프레임 중 어느 하나에 포함된 마커의 중심 위치를 예측한 예측 결과를 출력하는, 머신 러닝 기반으로 구축된 마커 검출기; 및
상기 예측 결과에 기초하여, 상기 어느 하나의 프레임에 포함된 마커를 검출한 검출 결과를 출력하는 검출 결과 출력 모듈을 포함하는,
시스템.
제9항에 있어서,
상기 적어도 하나의 프레임은 연속한 둘 이상의 프레임을 포함하고,
상기 영상 처리 모듈은,
상기 연속한 둘 이상의 프레임 각각의 픽셀 값들을 나열한 상기 입력 데이터를 생성하는,
시스템.
제9항에 있어서,
상기 적어도 하나의 프레임은 연속한 제1 프레임 및 제2 프레임을 포함하고,
상기 영상 처리 모듈은,
상기 제1 프레임과 제2 프레임 각각의 픽셀 값들, 및 상기 제1 프레임과 제2 프레임의 픽셀들 간 차이값을 포함하는 상기 입력 데이터를 생성하는,
시스템.
제9항에 있어서,
상기 예측 결과는,
상기 어느 하나의 프레임의 픽셀들 각각에 대한 상기 마커의 중심 위치 확률을 포함하는,
시스템.
제12항에 있어서,
상기 검출 결과 출력 모듈은,
상기 예측 결과로부터, 상기 중심 위치 확률이 가장 높은 픽셀을 상기 마커의 중심 위치로서 검출하는,
시스템.
제13항에 있어서,
상기 검출 결과 출력 모듈은,
상기 검출된 중심 위치를 나타내는 마커 인디케이터를 표시한 프레임을 출력하는,
시스템.
제9항에 있어서,
적어도 하나의 연속한 프레임 및 정답 마스크를 포함하는 학습 데이터를 저장하는 데이터베이스; 및
상기 학습 데이터를 이용하여 상기 마커 검출기의 학습을 제어하는 학습 모듈을 더 포함하는,
시스템.
제15항에 있어서,
상기 정답 마스크는,
상기 적어도 하나의 연속한 프레임 중 어느 하나에 포함된 마커의 중심 위치에 대한 정보를 포함하는,
시스템.