WO2018084381A1

WO2018084381A1 - 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법

Info

Publication number: WO2018084381A1
Application number: PCT/KR2017/000774
Authority: WO
Inventors: 이준혁; 김기석; 백승복
Original assignee: (주)한국플랫폼서비스기술
Priority date: 2016-11-04
Filing date: 2017-01-23
Publication date: 2018-05-11
Also published as: KR101766787B1

Abstract

본 발명은 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법에 관한 것으로, GPU장치를 적용함으로써 영상처리에 따른 빅데이터의 처리속도를 향상시켜 신뢰성을 유지할 수 있도록 하는 것이다. 이를 위해, GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법에 있어서, 영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10)와 상기 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20)와 사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30)와 상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40); 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공하게 된다.

Description

지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법

본 발명은 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법에 관한 것으로, GPU장치를 적용함으로써 영상처리에 따른 빅데이터의 처리속도를 향상시켜 신뢰성을 유지할 수 있도록 하는 것이다.

일반적으로 GPU(Graphic Prossece Unit)는 그래픽 처리와 같은 영상처리물의 속도를 향상시킬 수 있기 때문에 최근에 각광을 받고 있는 디바이스이다.

이와 같은 GPU장치를 적용하여 많은 양의 영상정보와 같은 빅데이터를 신속하게 처리함으로써, 그 처리의 신뢰도를 향상시킬 수 있는 것이다.

이와 같은 GPU장치는 다양한 분야에서 적용되고 있으며, 그 중 하나의 활용방안으로 영상물을 인식하고 이에 대한 정보를 분석하는 작업이 대표적이며, 이러한 적용방법 중 하나가 책과 같이 인쇄된 문헌의 내용 즉, 텍스트 및 그림과 같은 정보를 인식하는 기술이 있을 수 있다.

그러나, 상기와 같은 인쇄문헌의 텍스트 및 그림과 같은 정보를 인식하는데, 인쇄물을 사진 및 스캔한 아날로그 정보를 디지털화 하여 텍스트 및 그림과 같은 정보를 인식하는 과정을 거치게 되는 이때, 인쇄물을 스캔할 경우 여러가지 유형의 형태가 존재하게 된다.

예를 들어, 책의 두께에 따라 각각의 책장이 휘어지는 형태라던지 또는 스캔도구에 따라 영상이 외곡되는 등과 같은 여러가지 변수가 발생하게 되는 것이다.

이와 같은 이유로, 인쇄물을 스캔하는 아날로그 정보를 디지털화할 때, 인쇄물의 규격을 정형화시키고 이를 복원하여 신뢰도를 향상시킬 수 있는 기술들이 제안되고 있으나, 사용자의 특성에 따른 영상정보의 인식 조건에 따라 다양한 형태의 정보가 제공되고 이를 표준화하기 위한 시행착오를 극복하기 위해 대용량의 데이터를 처리해야 하는 문제가 발생하고 이로 인해 신뢰도가 저하되는 문제가 발생하고 있다.

본 발명은 아날로그 형태의 영상정보를 보정함에 있어서, 스캔되어지는 인쇄물과 같은 아날로그 정보를 딥러닝기법을 적용하여 분석하고 인쇄물의 규격에 대한 분할을 정밀하게 시행할 수 있도록 하여 보정신뢰도를 향상시킬 수 있도록 하는 기술을 제공하는 것을 목적으로 한다.

본 발명의 목적을 달성하기 위한 GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법에 있어서,

영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10)와 상기 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20)와 사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30)와 상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40) 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공하게 된다.

또한, 상기 데이터 수집단계(S10)는 대상물인 책과 같은 인쇄물의 해당 페이지 또는 유사한 페이지의 외곽선에 사용자가 복수개의 마커를 표시하게 되고, 상기 마커는 각각의 면에 동일한 간격으로 표기하게 되며, 가로면과 세로면 중 일측만을 선택하여 적용하게 되고, 상기 대상물에 마커를 표시한 후 영상물의 정보를 인식한 후 각각의 마커에 대하여 좌표값을 가로축의 값인 x값과 세로축의 값인 y값을 인식하게 되고, 복수개의 좌표값을 인식한 후 각각의 샘플영상을 벡터화하여 각각의 영상별 외곽선을 모형화 하기 위해, 각각의 샘플영상은 벡터화하게 되면 x_i=[x₁, y₁ … x_n, y_n]^T로 정의 되고 여기서 n은 하나의 책에 대한 점의 개수, i는 각 샘플 영상의 인덱스인 것을 특징으로 한다.

또한, 상기 영상 위치 보정단계(S20)는 데이터 수집단계(S10)에서 수집되어 벡터화 된 복수개의 영상 정보 샘플의 방향 및 크기를 보정하여 각각의 영상 정보의 외곽선 모형을 유사한 위치 및 유사한 크기로 보정하는 것으로, 복수개의 영상 정보 샘플의 평균값을 산출하고, 상기 평균값으로 부터 모든 샘플에서의 평균을 빼서 변화량에 대한 공분산을 하기의 식을 적용하게 된다.

dx_i = x_i - μ

또한, 상기 공분산 과정 후 모든 샘플을 하나의 행렬로 만들게 되며, X = [dx₁ … dx_n](n by N행렬)로 형성하게 되는데, 상기와 같이 형성된 행렬 X에 대한 공분산 행렬을 구하고, 공분산 행렬에 대해 주성분 분석을 수행해서 복수개의 고유벡터(v₁…v_n)을 얻어 하기의 식과 같이 대상물인 책과 같은 인쇄물의 모델이 완성되는 것을 한다.

x = M(s,θ)(Σα_iv_i + μ)

α는 고유벡터에 대한 계수, μ는 평균, M(s,θ)는 회전과 스케일 변환을 위한 메트릭스임.

상기 모델 피팅단계(S30)에서 영상정보에 모델을 피팅하는 것은 사용자에 따라 다양한 형태의 영상정보가 입력될 수 있기 때문에, 입력된 영상정보를 평균값과의 차이를 보정하게 되며, 상기 영상물의 외곽선을 검출하는 단계(S40)에서 외곽선은 스캔시 적용되는 영상의 음영(흑백)차이를 통하여 책과 배경화면을 구분하고, 책의 각각의 모서리부분을 인식한 후 가로축 또는 세로축 중 하나를 선택하여 상측과 하측면에 이미지상으로 가상의 마커를 설정한 후 상측과 하측면에 각각 대응될 수 있는 마커를 쌍으로 연결하여 대상이 되는 책을 선형으로 분할하게되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공함으로써 본 발명의 목적을 보다 잘 달성할 수 있는 것이다.

본 발명의 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공함으로써, 사용자에 의해 입력되는 아날로그 정보인 영상정보를 분석하고 이에 따라 보정신뢰도를 향상 시킬 수 있는 효과가 있다.

도 1은 본 발명에 따른 순서도이다.

도 2는 본 발명에 따른 데이터 수집단계(S10)의 영상정보를 인식하기 위한 실시예에 대한 예시도이다.

도 3은 본 발명에 따른 영상위치 보정단계(S20)의 영상의 위치보정을 위한 실시예에 대한 예시도이다.

도 4는 본 발명에 따른 영상위치 보정단계(S20)에서 정의된 평균값에 대한 예시도이다.

도 5는 본 발명에 따른 모델 피팅단계(S30)에서 적용될 다양한 형태에 대한 예시도이다.

도 6은 본 발명에 따른 외곽선을 검출하는 단계(S40) 및 영상 평면변환단계(S50)에 대한 예시도이다.

이하에서 당업자가 본 발명을 용이하게 실시할 수 있도록 도면을 참조하여 상세하게 설명하도록 한다.

도 1은 본 발명에 따른 순서도이고, 도 2는 본 발명에 따른 데이터 수집단계(S10)의 영상정보를 인식하기 위한 실시예에 대한 예시도이고, 도 3은 본 발명에 따른 영상위치 보정단계(S20)의 영상의 위치보정을 위한 실시예에 대한 예시도이고, 도 4는 본 발명에 따른 영상위치 보정단계(S20)에서 정의된 평균값에 대한 예시도이고, 도 5는 본 발명에 따른 모델 피팅단계(S30)에서 적용될 다양한 형태에 대한 예시도이며, 도 6은 본 발명에 따른 외곽선을 검출하는 단계(S40) 및 영상 평면변환단계(S50)에 대한 예시도이다.

도 1 내지 도 6을 참조하여 상세하게 설명하면, 본 발명의 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법은 GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법을 제공하게 된다.

이때, 상기 GPU장치의 영상인식장치부는 별도의 스캔장치를 구비하거나 영상을 촬영할 수 있는 영상카메라 및 스마트폰과 같은 외부장치로 적용될 수 있다.

상기와 같은 구성의 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 보정 방법은 영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10), 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20), 사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30), 상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40) 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성된다.

상기 데이터 수집단계(S10)는 사용자가 영상을 인식하기 위한 대상물인 책과 같은 인쇄물과 동일한 규격 또는 대상인쇄물을 영상인식수단을 이용하여 다양한 각도 및 다양한 조건으로 스캔 또는 사진 등의 영상물의 정보를 인식하게 되는 것이다.

이때, 상기 다양한 각도 및 다양한 조건으로 영상물의 정보를 인식할 때, 대상물인 책과 같은 인쇄물의 해당 페이지 또는 유사한 페이지의 외곽선에 복수개의 마커를 표시하게 된다.

상기와 같은 마커는 각각의 면에 동일한 간격으로 표기하게 되며, 가로면과 세로면 중 일측만을 선택하여 적용하게 된다.

상기와 같이 대상물에 마커를 표시한 후 영상물의 정보를 인식한 후 각각의 마커에 대하여 좌표값을 가로축의 값인 x값과 세로축의 값인 y값을 인식하게 된다.

이와 같이 복수개의 좌표값을 인식한 후 각각의 샘플영상을 벡터화하여 각각의 영상별 외곽선을 모형화 하게 되는 것이다.

이때, 각각의 샘플영상은 벡터화하게 되면 x_i=[x₁, y₁ … x_n, y_n]^T로 정의 되고 여기서 n은 하나의 책에 대한 점의 개수, i는 각 샘플 영상의 인덱스가 되는 것이다.

상기 단계(S10) 후 영상 위치 보정단계(S20)를 거치게 되는데, 상기 영상 위치 보정단계(S20)는 데이터 수집단계(S10)에서 수집되어 벡터화 된 복수개의 영상 정보 샘플의 방향 및 크기를 보정하여 각각의 영상 정보의 외곽선 모형을 유사한 위치 및 유사한 크기로 보정하게 되는 것이다.

이때, 복수개의 영상 정보 샘플의 평균값을 산출하고, 상기 평균값으로 부터 모든 샘플에서의 평균을 빼서 변화량에 대한 공분산을 구하게 된다.

여기서 상기와 같은 공분산은 하기의 식과 같다.

dx_i = x_i - μ

상기 과정 후 모든 샘플을 하나의 행렬로 만들게 되며, X = [dx₁ … dx_n](n by N행렬)로 형성하게 된다.

상기와 같이 형성된 행렬 X에 대한 공분산 행렬을 구하게 되는데, 공분산 행렬에 대해 주성분 분석을 수행해서 복수개의 고유벡터(v₁…v_n)을 얻어 하기의 식과 같이 대상물인 책과 같은 인쇄물의 모델이 완성되는 것이다.

x = M(s,θ)(Σα_iv_i + μ)

여기서, α는 고유벡터에 대한 계수, μ는 평균, M(s,θ)는 회전과 스케일 변환을 위한 메트릭스이다.

상기와 같이 데이터를 수집하고 영상 위치를 보정하는 과정을 거쳐 고유벡터에 대한 계수, 평균 및 영상물에 대한 회전과 스케일 변환을 위한 메트릭스 값을 구한 후, 영상을 보정하기 위한 영상정보 모델을 피팅하는 모델 피팅단계(S30)를 거치게 된다.

여기서, 모델 피팅은 사용자가 스캔장치 또는 스마트폰으로 대상물인 책과 같은 인쇄물을 촬영하고 그 영상정보에 모델을 피팅한다.

이때, 영상정보에 모델을 피팅하는 것은 사용자에 따라 다양한 형태의 영상정보가 입력될 수 있기 때문에, 입력된 영상정보를 평균값과의 차이를 보정하기 위한 것이다.

예를 들어, 사용자가 입력한 영상정보의 굴곡 또는 왜곡 등에 의해 평균값과의 차이가 발생하게 되고, 이를 평균값에 맞도록 보정하기 위해, 사용자가 입력한 영상정보의 굴국형태, 위치차이와 같은 초기형태를 선정하기 위한 것이다.

상기와 같이 초기형태가 선정되면, 이에 따른 고유벡터에 대한 계수, 평균 및 영상물의 회전과 스케일 변환을 위한 메트릭스 값 및 위치정보를 정의하게 되는 것이다.

상기 단계(S30) 후 외곽선 검출 단계(S40)를 거치게 되는데, 사용자가 촬영한 후 모델 피팅단계(S30)를 통해 정의된 고유벡터에 대한 계수, 평균 및 영상물의 회전과 스케일 변환을 위한 메트릭스 값 및 위치정보를 이용하여 사용자가 촬영한 영상정보를 평균값에 일치하도록 보정한 후 보정된 영상물에서 보정의 대상이 되는 책과 같은 인쇄물의 외곽선을 검출하게 된다.

이때, 상기 외곽선은 스캔시 적용되는 영상의 음영(흑백)차이를 통하여 책과 배경화면을 구분하고, 책의 각각의 모서리부분을 인식한 후 가로축 또는 세로축 중 하나를 선택하여 상측과 하측면에 이미지상으로 가상의 마커를 설정한 후 상측과 하측면에 각각 대응될 수 있는 마커를 쌍으로 연결하여 대상이 되는 책을 선형으로 분할하게 된다.

본발명의 상세한 설명과 함께 첨부된 도면에서는 가로축에 마커를 설정하고 세로방향으로 대상물을 분할하였으나, 이를 한정하는 것은 아니며, 가로방향으로 대상물을 분할하는 방법 중 선택적으로 적용되는 것이다.

이는 본 발명에 따라 보정된 영상정보로부터 텍스트 및 그림 등의 내용을 추출할 때, 텍스트의 표기방법에 따라 적용될 수 있기 때문이다.

상기와 같은 방법에 의해, 책의 각모서리 및 마커별 좌표값을 인식하여 외곽선을 검출하게 된다.

상기 외곽선 검출단계(S40)후 외곽선에 대한 좌표값을 이용하여 어파인 변환을 수행하여 영상 평면변환단계(S50)를 거치게 된다.

또한, 앞선 단계(S40)에서 분할된 부분에 대한 어파인 변환을 통하여 최종적으로 영상정보에 대한 보정을 실시하게 되는 것이다.

이와 같은 방법에 의해 본 발명을 완성할 수 있는 것이다.

S10 : 데이터 수집단계

S20 : 영상 위치 보정단계

S30 : 모델 피팅단계

S40 : 외곽선 검출 단계

S50 : 영상 평면변환단계

Claims

GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법에 있어서,

영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10)와;

상기 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20)와;

사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30)와;

상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40); 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
제 1항에 있어서,

상기 데이터 수집단계(S10)는 대상물인 책과 같은 인쇄물의 해당 페이지 또는 유사한 페이지의 외곽선에 사용자가 복수개의 마커를 표시하게 되고, 상기 마커는 각각의 면에 동일한 간격으로 표기하게 되며, 가로면과 세로면 중 일측만을 선택하여 적용하게 되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
제 2항에 있어서,

상기 대상물에 마커를 표시한 후 영상물의 정보를 인식한 후 각각의 마커에 대하여 좌표값을 가로축의 값인 x값과 세로축의 값인 y값을 인식하게 되고, 복수개의 좌표값을 인식한 후 각각의 샘플영상을 벡터화하여 각각의 영상별 외곽선을 모형화 하기 위해, 각각의 샘플영상은 벡터화하게 되면 x_i=[x₁, y₁ … x_n, y_n]^T로 정의 되고 여기서 n은 하나의 책에 대한 점의 개수, i는 각 샘플 영상의 인덱스인 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
제 1항에 있어서,

상기 영상 위치 보정단계(S20)는 데이터 수집단계(S10)에서 수집되어 벡터화 된 복수개의 영상 정보 샘플의 방향 및 크기를 보정하여 각각의 영상 정보의 외곽선 모형을 유사한 위치 및 유사한 크기로 보정하는 것으로, 복수개의 영상 정보 샘플의 평균값을 산출하고, 상기 평균값으로 부터 모든 샘플에서의 평균을 빼서 변화량에 대한 공분산을 하기의 식인 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.

dx_i = x_i - μ
제 4항에 있어서,

상기 공분산 과정 후 모든 샘플을 하나의 행렬로 만들게 되며, X = [dx₁ … dx_n](n by N행렬)로 형성하게 되는데, 상기와 같이 형성된 행렬 X에 대한 공분산 행렬을 구하고, 공분산 행렬에 대해 주성분 분석을 수행해서 복수개의 고유벡터(v₁…v_n)을 얻어 하기의 식과 같이 대상물인 책과 같은 인쇄물의 모델이 완성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.

x = M(s,θ)(Σα_iv_i + μ)

α는 고유벡터에 대한 계수, μ는 평균, M(s,θ)는 회전과 스케일 변환을 위한 메트릭스임.
제 1항에 있어서,

상기 모델 피팅단계(S30)에서 영상정보에 모델을 피팅하는 것은 사용자에 따라 다양한 형태의 영상정보가 입력될 수 있기 때문에, 입력된 영상정보를 평균값과의 차이를 보정하는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
제1항에 있어서,

상기 영상물의 외곽선을 검출하는 단계(S40)에서 외곽선은 스캔시 적용되는 영상의 음영(흑백)차이를 통하여 책과 배경화면을 구분하고, 책의 각각의 모서리부분을 인식한 후 가로축 또는 세로축 중 하나를 선택하여 상측과 하측면에 이미지상으로 가상의 마커를 설정한 후 상측과 하측면에 각각 대응될 수 있는 마커를 쌍으로 연결하여 대상이 되는 책을 선형으로 분할하게되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.