WO2018084381A1 - 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법 - Google Patents

지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법 Download PDF

Info

Publication number
WO2018084381A1
WO2018084381A1 PCT/KR2017/000774 KR2017000774W WO2018084381A1 WO 2018084381 A1 WO2018084381 A1 WO 2018084381A1 KR 2017000774 W KR2017000774 W KR 2017000774W WO 2018084381 A1 WO2018084381 A1 WO 2018084381A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
book
image information
deep learning
model
Prior art date
Application number
PCT/KR2017/000774
Other languages
English (en)
French (fr)
Inventor
이준혁
김기석
백승복
Original Assignee
(주)한국플랫폼서비스기술
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)한국플랫폼서비스기술 filed Critical (주)한국플랫폼서비스기술
Publication of WO2018084381A1 publication Critical patent/WO2018084381A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2215/00Indexing scheme for image rendering
    • G06T2215/16Using real world measurements to influence rendering

Definitions

  • the present invention relates to an image correction method using deep learning analysis based on a GPU device, by applying a GPU device to maintain the reliability by improving the processing speed of the big data according to the image processing.
  • the GPU Graphic Prossece Unit
  • the GPU is a device that has been in the spotlight recently because it can improve the speed of image processing such as graphics processing.
  • Such a GPU device has been applied in various fields, and one of the applications is to recognize images and analyze information on them.
  • One of these applications is the content of printed documents such as books, There may be techniques for recognizing information such as text and pictures.
  • various variables such as bending of each bookshelf according to the thickness of a book or distorting an image according to a scanning tool may occur.
  • analog information such as a printed matter to be scanned can be analyzed by applying deep learning techniques, and the correction reliability can be improved by precisely performing division on the specification of the printed matter. It aims to provide the technology to make it work.
  • An image using deep learning analysis based on a GPU device including a graphic processing unit (GPU) for processing the image information and including an image recognition means for recognizing the image information.
  • a graphic processing unit GPU
  • an image recognition means for recognizing the image information.
  • the method may further include an image correction method using deep learning analysis based on a GPU device.
  • the data collection step (S10) is a user to display a plurality of markers on the outline of the corresponding page or similar page of the printed matter, such as a book, the markers are displayed at equal intervals on each side, horizontal Only one side of the surface and the vertical surface is selected and applied, and after displaying a marker on the object, after recognizing the information of the image, the coordinate value for each marker is to recognize the x value on the horizontal axis and the y value on the vertical axis.
  • each sample image is vectorized to model the outline of each image.
  • x i [x 1 , y 1 ... x n , y n ] T where n is the number of points for a book and i is the index of each sample image.
  • the image position correction step (S20) corrects the direction and size of the plurality of image information samples collected and vectorized in the data collection step (S10) to correct the outline model of each image information to a similar position and similar size.
  • the average value of the plurality of image information samples is calculated, and the following equation is applied to subtract the mean from all the samples from the average value and perform covariance on the amount of change.
  • is the coefficient for eigenvectors
  • is the mean
  • M (s, ⁇ ) is the matrix for rotation and scale transformation.
  • the input image information may be corrected from a difference from an average value, and the outline of the image may be adjusted.
  • the outline distinguishes the book and the background screen by using the difference between the shadows (black and white) of the image applied during scanning, recognizes each corner of the book, and selects one of the horizontal and vertical axes to After setting the virtual marker on the image on the lower side, a pair of markers corresponding to the upper and lower sides are connected in pairs to divide the target book linearly.
  • FIG. 2 is an exemplary view of an embodiment for recognizing the image information of the data collection step (S10) according to the present invention.
  • FIG 3 is an exemplary view of an embodiment for the position correction of the image in the image position correction step (S20) according to the present invention.
  • FIG 4 is an exemplary view of the average value defined in the image position correction step (S20) according to the present invention.
  • FIG 5 is an exemplary view of various forms to be applied in the model fitting step (S30) according to the present invention.
  • FIG. 6 is an exemplary diagram for detecting the outline (S40) and the image plane conversion step (S50) according to the present invention.
  • FIG. 1 is a flow chart according to the present invention
  • Figure 2 is an exemplary view for an embodiment for recognizing the image information of the data collection step (S10) according to the present invention
  • Figure 3 is an image position correction step
  • 4 is an exemplary view illustrating an embodiment for correcting the position of an image of FIG. 20
  • FIG. 4 is an exemplary view of an average value defined in an image position correction step S20 according to the present invention
  • FIG. 5 is a model fitting according to the present invention.
  • FIG. 6 is an exemplary view illustrating various forms to be applied in step S30
  • FIG. 6 is an exemplary view illustrating a step S40 and an image plane transformation step S50 according to the present invention.
  • an image correction method using deep learning analysis based on the GPU device of the present invention enables processing of image information including a graphic processing unit (GPU), and an image.
  • an image correction method using deep learning analysis based on a GPU device including image recognition means for recognizing information.
  • the image recognition device unit of the GPU device may be applied to an external device such as an image camera and a smartphone that can be provided with a separate scanning device or to take an image.
  • the correction method using the deep learning analysis based on the GPU device of the above configuration is a data collection step (S10), the data collection step (S10) to collect the image information of the printed matter, such as a book using the image recognition means Image position correction step (S20) for inferring the average value by correcting the position of the various image information, the model fitting step (S30) for fitting the model to the image of the print, such as a photographed book when the user photographed the target image, Detecting the outline of the image processed in the fitting step (S30) (S40) and image plane conversion step (S50) for plane conversion of the target image.
  • the data collection step (S10) to collect the image information of the printed matter, such as a book using the image recognition means Image position correction step (S20) for inferring the average value by correcting the position of the various image information
  • the model fitting step (S30) for fitting the model to the image of the print, such as a photographed book when the user photographed the target image
  • the data collecting step (S10) is to recognize the information of the image, such as scanning or photographing at various angles and various conditions using the image recognition means of the same standard or target print as the print, such as a book that is the object for the user to recognize the image Will be done.
  • a plurality of markers are displayed on the outline of the corresponding page or similar page of the printed matter such as a book.
  • Such markers are marked at equal intervals on each surface, and only one side of the horizontal and vertical surfaces is selected and applied.
  • the coordinate values of each marker are recognized as x values on the horizontal axis and y values on the vertical axis.
  • each sample image is vectorized to model an outline of each image.
  • x i [x 1 , y 1 ... x n , y n ] T where n is the number of points for a book and i is the index of each sample image.
  • the image position correction step S20 is performed.
  • the image position correction step S20 corrects the directions and sizes of the plurality of image information samples collected and vectorized in the data collection step S10, respectively.
  • the outline model of the image information is corrected to a similar position and size.
  • an average value of the plurality of image information samples is calculated, and the covariance of the variation amount is obtained by subtracting the average of all the samples from the average value.
  • the covariance matrix of the matrix X formed as described above is obtained, and a plurality of eigenvectors (v 1 ... v n ) are obtained by performing principal component analysis on the covariance matrix to complete a model of a printed object such as a book as in the following equation. Will be.
  • is the coefficient for the eigenvector
  • is the mean
  • M (s, ⁇ ) is the matrix for rotation and scale transformation.
  • the model fitting photographs a printed matter such as a book as an object by a user with a scanning device or a smartphone and fits the model to the image information.
  • the fitting of the model to the image information is to correct the difference between the input image information and the average value since various types of image information may be input according to the user.
  • a difference from the average value may occur due to bending or distortion of the image information input by the user, and in order to correct it to fit the average value, an initial form such as the shape of the image information input by the user and a position difference It is to select.
  • step (S30) is passed through the outline detection step (S40), after the user has taken a matrix value for the rotation and scale conversion of the coefficients, the average and the image for the eigenvector defined through the model fitting step (S30) and After correcting the image information photographed by the user to match the average value using the location information, the outline of the printed matter such as a book to be corrected is detected from the corrected image.
  • the outline divides the book and the background screen through the difference (black and white) of the image applied during scanning, recognizes each corner of the book, and selects one of the horizontal axis or the vertical axis to display the image on the upper and lower sides.
  • the target books are linearly divided by pairing markers corresponding to the upper and lower surfaces, respectively.
  • the marker is set on the horizontal axis and the object is divided in the vertical direction.
  • the present invention is not limited thereto, and the object is selectively applied among the methods of dividing the object in the horizontal direction.
  • the edges are detected by recognizing the coordinate values of each edge and the marker of the book.
  • the affine transformation is performed using the coordinate values of the outline line, and the image plane transformation step S50 is performed.
  • the image information is finally corrected through the affine transformation on the divided portion in the previous step (S40).
  • the present invention can be completed by such a method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법에 관한 것으로, GPU장치를 적용함으로써 영상처리에 따른 빅데이터의 처리속도를 향상시켜 신뢰성을 유지할 수 있도록 하는 것이다. 이를 위해, GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법에 있어서, 영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10)와 상기 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20)와 사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30)와 상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40); 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공하게 된다.

Description

지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법
본 발명은 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법에 관한 것으로, GPU장치를 적용함으로써 영상처리에 따른 빅데이터의 처리속도를 향상시켜 신뢰성을 유지할 수 있도록 하는 것이다.
일반적으로 GPU(Graphic Prossece Unit)는 그래픽 처리와 같은 영상처리물의 속도를 향상시킬 수 있기 때문에 최근에 각광을 받고 있는 디바이스이다.
이와 같은 GPU장치를 적용하여 많은 양의 영상정보와 같은 빅데이터를 신속하게 처리함으로써, 그 처리의 신뢰도를 향상시킬 수 있는 것이다.
이와 같은 GPU장치는 다양한 분야에서 적용되고 있으며, 그 중 하나의 활용방안으로 영상물을 인식하고 이에 대한 정보를 분석하는 작업이 대표적이며, 이러한 적용방법 중 하나가 책과 같이 인쇄된 문헌의 내용 즉, 텍스트 및 그림과 같은 정보를 인식하는 기술이 있을 수 있다.
그러나, 상기와 같은 인쇄문헌의 텍스트 및 그림과 같은 정보를 인식하는데, 인쇄물을 사진 및 스캔한 아날로그 정보를 디지털화 하여 텍스트 및 그림과 같은 정보를 인식하는 과정을 거치게 되는 이때, 인쇄물을 스캔할 경우 여러가지 유형의 형태가 존재하게 된다.
예를 들어, 책의 두께에 따라 각각의 책장이 휘어지는 형태라던지 또는 스캔도구에 따라 영상이 외곡되는 등과 같은 여러가지 변수가 발생하게 되는 것이다.
이와 같은 이유로, 인쇄물을 스캔하는 아날로그 정보를 디지털화할 때, 인쇄물의 규격을 정형화시키고 이를 복원하여 신뢰도를 향상시킬 수 있는 기술들이 제안되고 있으나, 사용자의 특성에 따른 영상정보의 인식 조건에 따라 다양한 형태의 정보가 제공되고 이를 표준화하기 위한 시행착오를 극복하기 위해 대용량의 데이터를 처리해야 하는 문제가 발생하고 이로 인해 신뢰도가 저하되는 문제가 발생하고 있다.
본 발명은 아날로그 형태의 영상정보를 보정함에 있어서, 스캔되어지는 인쇄물과 같은 아날로그 정보를 딥러닝기법을 적용하여 분석하고 인쇄물의 규격에 대한 분할을 정밀하게 시행할 수 있도록 하여 보정신뢰도를 향상시킬 수 있도록 하는 기술을 제공하는 것을 목적으로 한다.
본 발명의 목적을 달성하기 위한 GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법에 있어서,
영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10)와 상기 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20)와 사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30)와 상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40) 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공하게 된다.
또한, 상기 데이터 수집단계(S10)는 대상물인 책과 같은 인쇄물의 해당 페이지 또는 유사한 페이지의 외곽선에 사용자가 복수개의 마커를 표시하게 되고, 상기 마커는 각각의 면에 동일한 간격으로 표기하게 되며, 가로면과 세로면 중 일측만을 선택하여 적용하게 되고, 상기 대상물에 마커를 표시한 후 영상물의 정보를 인식한 후 각각의 마커에 대하여 좌표값을 가로축의 값인 x값과 세로축의 값인 y값을 인식하게 되고, 복수개의 좌표값을 인식한 후 각각의 샘플영상을 벡터화하여 각각의 영상별 외곽선을 모형화 하기 위해, 각각의 샘플영상은 벡터화하게 되면 xi=[x1, y1 … xn, yn]T로 정의 되고 여기서 n은 하나의 책에 대한 점의 개수, i는 각 샘플 영상의 인덱스인 것을 특징으로 한다.
또한, 상기 영상 위치 보정단계(S20)는 데이터 수집단계(S10)에서 수집되어 벡터화 된 복수개의 영상 정보 샘플의 방향 및 크기를 보정하여 각각의 영상 정보의 외곽선 모형을 유사한 위치 및 유사한 크기로 보정하는 것으로, 복수개의 영상 정보 샘플의 평균값을 산출하고, 상기 평균값으로 부터 모든 샘플에서의 평균을 빼서 변화량에 대한 공분산을 하기의 식을 적용하게 된다.
dxi = xi - μ
또한, 상기 공분산 과정 후 모든 샘플을 하나의 행렬로 만들게 되며, X = [dx1 … dxn](n by N행렬)로 형성하게 되는데, 상기와 같이 형성된 행렬 X에 대한 공분산 행렬을 구하고, 공분산 행렬에 대해 주성분 분석을 수행해서 복수개의 고유벡터(v1…vn)을 얻어 하기의 식과 같이 대상물인 책과 같은 인쇄물의 모델이 완성되는 것을 한다.
x = M(s,θ)(Σαivi + μ)
α는 고유벡터에 대한 계수, μ는 평균, M(s,θ)는 회전과 스케일 변환을 위한 메트릭스임.
상기 모델 피팅단계(S30)에서 영상정보에 모델을 피팅하는 것은 사용자에 따라 다양한 형태의 영상정보가 입력될 수 있기 때문에, 입력된 영상정보를 평균값과의 차이를 보정하게 되며, 상기 영상물의 외곽선을 검출하는 단계(S40)에서 외곽선은 스캔시 적용되는 영상의 음영(흑백)차이를 통하여 책과 배경화면을 구분하고, 책의 각각의 모서리부분을 인식한 후 가로축 또는 세로축 중 하나를 선택하여 상측과 하측면에 이미지상으로 가상의 마커를 설정한 후 상측과 하측면에 각각 대응될 수 있는 마커를 쌍으로 연결하여 대상이 되는 책을 선형으로 분할하게되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공함으로써 본 발명의 목적을 보다 잘 달성할 수 있는 것이다.
본 발명의 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법을 제공함으로써, 사용자에 의해 입력되는 아날로그 정보인 영상정보를 분석하고 이에 따라 보정신뢰도를 향상 시킬 수 있는 효과가 있다.
도 1은 본 발명에 따른 순서도이다.
도 2는 본 발명에 따른 데이터 수집단계(S10)의 영상정보를 인식하기 위한 실시예에 대한 예시도이다.
도 3은 본 발명에 따른 영상위치 보정단계(S20)의 영상의 위치보정을 위한 실시예에 대한 예시도이다.
도 4는 본 발명에 따른 영상위치 보정단계(S20)에서 정의된 평균값에 대한 예시도이다.
도 5는 본 발명에 따른 모델 피팅단계(S30)에서 적용될 다양한 형태에 대한 예시도이다.
도 6은 본 발명에 따른 외곽선을 검출하는 단계(S40) 및 영상 평면변환단계(S50)에 대한 예시도이다.
이하에서 당업자가 본 발명을 용이하게 실시할 수 있도록 도면을 참조하여 상세하게 설명하도록 한다.
도 1은 본 발명에 따른 순서도이고, 도 2는 본 발명에 따른 데이터 수집단계(S10)의 영상정보를 인식하기 위한 실시예에 대한 예시도이고, 도 3은 본 발명에 따른 영상위치 보정단계(S20)의 영상의 위치보정을 위한 실시예에 대한 예시도이고, 도 4는 본 발명에 따른 영상위치 보정단계(S20)에서 정의된 평균값에 대한 예시도이고, 도 5는 본 발명에 따른 모델 피팅단계(S30)에서 적용될 다양한 형태에 대한 예시도이며, 도 6은 본 발명에 따른 외곽선을 검출하는 단계(S40) 및 영상 평면변환단계(S50)에 대한 예시도이다.
도 1 내지 도 6을 참조하여 상세하게 설명하면, 본 발명의 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법은 GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법을 제공하게 된다.
이때, 상기 GPU장치의 영상인식장치부는 별도의 스캔장치를 구비하거나 영상을 촬영할 수 있는 영상카메라 및 스마트폰과 같은 외부장치로 적용될 수 있다.
상기와 같은 구성의 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 보정 방법은 영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10), 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20), 사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30), 상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40) 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성된다.
상기 데이터 수집단계(S10)는 사용자가 영상을 인식하기 위한 대상물인 책과 같은 인쇄물과 동일한 규격 또는 대상인쇄물을 영상인식수단을 이용하여 다양한 각도 및 다양한 조건으로 스캔 또는 사진 등의 영상물의 정보를 인식하게 되는 것이다.
이때, 상기 다양한 각도 및 다양한 조건으로 영상물의 정보를 인식할 때, 대상물인 책과 같은 인쇄물의 해당 페이지 또는 유사한 페이지의 외곽선에 복수개의 마커를 표시하게 된다.
상기와 같은 마커는 각각의 면에 동일한 간격으로 표기하게 되며, 가로면과 세로면 중 일측만을 선택하여 적용하게 된다.
상기와 같이 대상물에 마커를 표시한 후 영상물의 정보를 인식한 후 각각의 마커에 대하여 좌표값을 가로축의 값인 x값과 세로축의 값인 y값을 인식하게 된다.
이와 같이 복수개의 좌표값을 인식한 후 각각의 샘플영상을 벡터화하여 각각의 영상별 외곽선을 모형화 하게 되는 것이다.
이때, 각각의 샘플영상은 벡터화하게 되면 xi=[x1, y1 … xn, yn]T로 정의 되고 여기서 n은 하나의 책에 대한 점의 개수, i는 각 샘플 영상의 인덱스가 되는 것이다.
상기 단계(S10) 후 영상 위치 보정단계(S20)를 거치게 되는데, 상기 영상 위치 보정단계(S20)는 데이터 수집단계(S10)에서 수집되어 벡터화 된 복수개의 영상 정보 샘플의 방향 및 크기를 보정하여 각각의 영상 정보의 외곽선 모형을 유사한 위치 및 유사한 크기로 보정하게 되는 것이다.
이때, 복수개의 영상 정보 샘플의 평균값을 산출하고, 상기 평균값으로 부터 모든 샘플에서의 평균을 빼서 변화량에 대한 공분산을 구하게 된다.
여기서 상기와 같은 공분산은 하기의 식과 같다.
dxi = xi - μ
상기 과정 후 모든 샘플을 하나의 행렬로 만들게 되며, X = [dx1 … dxn](n by N행렬)로 형성하게 된다.
상기와 같이 형성된 행렬 X에 대한 공분산 행렬을 구하게 되는데, 공분산 행렬에 대해 주성분 분석을 수행해서 복수개의 고유벡터(v1…vn)을 얻어 하기의 식과 같이 대상물인 책과 같은 인쇄물의 모델이 완성되는 것이다.
x = M(s,θ)(Σαivi + μ)
여기서, α는 고유벡터에 대한 계수, μ는 평균, M(s,θ)는 회전과 스케일 변환을 위한 메트릭스이다.
상기와 같이 데이터를 수집하고 영상 위치를 보정하는 과정을 거쳐 고유벡터에 대한 계수, 평균 및 영상물에 대한 회전과 스케일 변환을 위한 메트릭스 값을 구한 후, 영상을 보정하기 위한 영상정보 모델을 피팅하는 모델 피팅단계(S30)를 거치게 된다.
여기서, 모델 피팅은 사용자가 스캔장치 또는 스마트폰으로 대상물인 책과 같은 인쇄물을 촬영하고 그 영상정보에 모델을 피팅한다.
이때, 영상정보에 모델을 피팅하는 것은 사용자에 따라 다양한 형태의 영상정보가 입력될 수 있기 때문에, 입력된 영상정보를 평균값과의 차이를 보정하기 위한 것이다.
예를 들어, 사용자가 입력한 영상정보의 굴곡 또는 왜곡 등에 의해 평균값과의 차이가 발생하게 되고, 이를 평균값에 맞도록 보정하기 위해, 사용자가 입력한 영상정보의 굴국형태, 위치차이와 같은 초기형태를 선정하기 위한 것이다.
상기와 같이 초기형태가 선정되면, 이에 따른 고유벡터에 대한 계수, 평균 및 영상물의 회전과 스케일 변환을 위한 메트릭스 값 및 위치정보를 정의하게 되는 것이다.
상기 단계(S30) 후 외곽선 검출 단계(S40)를 거치게 되는데, 사용자가 촬영한 후 모델 피팅단계(S30)를 통해 정의된 고유벡터에 대한 계수, 평균 및 영상물의 회전과 스케일 변환을 위한 메트릭스 값 및 위치정보를 이용하여 사용자가 촬영한 영상정보를 평균값에 일치하도록 보정한 후 보정된 영상물에서 보정의 대상이 되는 책과 같은 인쇄물의 외곽선을 검출하게 된다.
이때, 상기 외곽선은 스캔시 적용되는 영상의 음영(흑백)차이를 통하여 책과 배경화면을 구분하고, 책의 각각의 모서리부분을 인식한 후 가로축 또는 세로축 중 하나를 선택하여 상측과 하측면에 이미지상으로 가상의 마커를 설정한 후 상측과 하측면에 각각 대응될 수 있는 마커를 쌍으로 연결하여 대상이 되는 책을 선형으로 분할하게 된다.
본발명의 상세한 설명과 함께 첨부된 도면에서는 가로축에 마커를 설정하고 세로방향으로 대상물을 분할하였으나, 이를 한정하는 것은 아니며, 가로방향으로 대상물을 분할하는 방법 중 선택적으로 적용되는 것이다.
이는 본 발명에 따라 보정된 영상정보로부터 텍스트 및 그림 등의 내용을 추출할 때, 텍스트의 표기방법에 따라 적용될 수 있기 때문이다.
상기와 같은 방법에 의해, 책의 각모서리 및 마커별 좌표값을 인식하여 외곽선을 검출하게 된다.
상기 외곽선 검출단계(S40)후 외곽선에 대한 좌표값을 이용하여 어파인 변환을 수행하여 영상 평면변환단계(S50)를 거치게 된다.
또한, 앞선 단계(S40)에서 분할된 부분에 대한 어파인 변환을 통하여 최종적으로 영상정보에 대한 보정을 실시하게 되는 것이다.
이와 같은 방법에 의해 본 발명을 완성할 수 있는 것이다.
S10 : 데이터 수집단계
S20 : 영상 위치 보정단계
S30 : 모델 피팅단계
S40 : 외곽선 검출 단계
S50 : 영상 평면변환단계

Claims (7)

  1. GPU(Graphic Processing Unit)을 포함하여 영상정보를 처리할 수 있도록 하며, 영상정보를 인식하기 위한 영상인식수단을 포함하는 GPU장치를 기반으로 하여 딥러닝 분석을 이용한 영상 보정 방법에 있어서,
    영상인식수단을 이용하여 책과 같은 인쇄물의 영상정보를 수집하는 데이터 수집단계(S10)와;
    상기 데이터수집 단계(S10)에서 인식된 다양한 영상정보의 위치를 보정하여 평균값을 유추하기 위한 영상 위치 보정단계(S20)와;
    사용자가 대상 영상물을 촬영하면, 촬영된 책과 같은 인쇄물의 영상에 모델을 피팅하는 모델 피팅단계(S30)와;
    상기 피팅단계(S30)에서 처리된 영상물의 외곽선을 검출하는 단계(S40); 및 대상 영상을 평면변환하기 위한 영상 평면변환단계(S50)로 구성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
  2. 제 1항에 있어서,
    상기 데이터 수집단계(S10)는 대상물인 책과 같은 인쇄물의 해당 페이지 또는 유사한 페이지의 외곽선에 사용자가 복수개의 마커를 표시하게 되고, 상기 마커는 각각의 면에 동일한 간격으로 표기하게 되며, 가로면과 세로면 중 일측만을 선택하여 적용하게 되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
  3. 제 2항에 있어서,
    상기 대상물에 마커를 표시한 후 영상물의 정보를 인식한 후 각각의 마커에 대하여 좌표값을 가로축의 값인 x값과 세로축의 값인 y값을 인식하게 되고, 복수개의 좌표값을 인식한 후 각각의 샘플영상을 벡터화하여 각각의 영상별 외곽선을 모형화 하기 위해, 각각의 샘플영상은 벡터화하게 되면 xi=[x1, y1 … xn, yn]T로 정의 되고 여기서 n은 하나의 책에 대한 점의 개수, i는 각 샘플 영상의 인덱스인 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
  4. 제 1항에 있어서,
    상기 영상 위치 보정단계(S20)는 데이터 수집단계(S10)에서 수집되어 벡터화 된 복수개의 영상 정보 샘플의 방향 및 크기를 보정하여 각각의 영상 정보의 외곽선 모형을 유사한 위치 및 유사한 크기로 보정하는 것으로, 복수개의 영상 정보 샘플의 평균값을 산출하고, 상기 평균값으로 부터 모든 샘플에서의 평균을 빼서 변화량에 대한 공분산을 하기의 식인 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
    dxi = xi - μ
  5. 제 4항에 있어서,
    상기 공분산 과정 후 모든 샘플을 하나의 행렬로 만들게 되며, X = [dx1 … dxn](n by N행렬)로 형성하게 되는데, 상기와 같이 형성된 행렬 X에 대한 공분산 행렬을 구하고, 공분산 행렬에 대해 주성분 분석을 수행해서 복수개의 고유벡터(v1…vn)을 얻어 하기의 식과 같이 대상물인 책과 같은 인쇄물의 모델이 완성되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
    x = M(s,θ)(Σαivi + μ)
    α는 고유벡터에 대한 계수, μ는 평균, M(s,θ)는 회전과 스케일 변환을 위한 메트릭스임.
  6. 제 1항에 있어서,
    상기 모델 피팅단계(S30)에서 영상정보에 모델을 피팅하는 것은 사용자에 따라 다양한 형태의 영상정보가 입력될 수 있기 때문에, 입력된 영상정보를 평균값과의 차이를 보정하는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
  7. 제1항에 있어서,
    상기 영상물의 외곽선을 검출하는 단계(S40)에서 외곽선은 스캔시 적용되는 영상의 음영(흑백)차이를 통하여 책과 배경화면을 구분하고, 책의 각각의 모서리부분을 인식한 후 가로축 또는 세로축 중 하나를 선택하여 상측과 하측면에 이미지상으로 가상의 마커를 설정한 후 상측과 하측면에 각각 대응될 수 있는 마커를 쌍으로 연결하여 대상이 되는 책을 선형으로 분할하게되는 것을 특징으로 하는 GPU장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법.
PCT/KR2017/000774 2016-11-04 2017-01-23 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법 WO2018084381A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160146843A KR101766787B1 (ko) 2016-11-04 2016-11-04 Gpu장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법
KR10-2016-0146843 2016-11-04

Publications (1)

Publication Number Publication Date
WO2018084381A1 true WO2018084381A1 (ko) 2018-05-11

Family

ID=59652701

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/000774 WO2018084381A1 (ko) 2016-11-04 2017-01-23 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법

Country Status (2)

Country Link
KR (1) KR101766787B1 (ko)
WO (1) WO2018084381A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113093B1 (ko) * 2018-01-10 2020-05-20 서울대학교산학협력단 딥 뉴럴 네트워크를 위한 gpu 메모리 관리 방법 및 그를 수행하는 연산 장치
KR102562170B1 (ko) * 2020-08-10 2023-08-01 (주)아이웨이 딥러닝 기반 전자책 자동변환 서비스 제공 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080037515A (ko) * 2006-10-26 2008-04-30 삼성전자주식회사 이미지 왜곡 보정기능을 갖는 스캐닝장치
WO2011027974A2 (ko) * 2009-09-02 2011-03-10 이병수 스캐너 장치 및 스캐닝 방법
KR20150059989A (ko) * 2013-11-25 2015-06-03 삼성전자주식회사 문서 인식 방법 및 장치
KR101589167B1 (ko) * 2015-02-09 2016-01-27 동의대학교 산학협력단 깊이 정보를 이용한 원근 왜곡 영상의 보정 시스템 및 방법
KR101657495B1 (ko) * 2015-09-04 2016-09-30 (주)한국플랫폼서비스기술 딥러닝 분석을 위한 모듈화시스템 및 이를 이용한 영상 인식 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080037515A (ko) * 2006-10-26 2008-04-30 삼성전자주식회사 이미지 왜곡 보정기능을 갖는 스캐닝장치
WO2011027974A2 (ko) * 2009-09-02 2011-03-10 이병수 스캐너 장치 및 스캐닝 방법
KR20150059989A (ko) * 2013-11-25 2015-06-03 삼성전자주식회사 문서 인식 방법 및 장치
KR101589167B1 (ko) * 2015-02-09 2016-01-27 동의대학교 산학협력단 깊이 정보를 이용한 원근 왜곡 영상의 보정 시스템 및 방법
KR101657495B1 (ko) * 2015-09-04 2016-09-30 (주)한국플랫폼서비스기술 딥러닝 분석을 위한 모듈화시스템 및 이를 이용한 영상 인식 방법

Also Published As

Publication number Publication date
KR101766787B1 (ko) 2017-08-09

Similar Documents

Publication Publication Date Title
TW200842734A (en) Image processing program and image processing device
WO2017099510A1 (ko) 영상 통계정보에 기반한 정지장면 분할장치 및 그 방법
WO2011081226A1 (ko) 컬러 이미지를 그레이스케일 이미지로 변환하는 방법 및 이를 수행하는 프로그램이 기록된 기록매체
WO2018084381A1 (ko) 지피유장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법
WO2019132592A1 (ko) 영상 처리 장치 및 방법
WO2008111550A1 (ja) 画像解析システム、及び画像解析プログラム
WO2018143486A1 (ko) 딥러닝 분석을 위한 모듈화시스템을 이용한 컨텐츠 제공 방법
CN110569774B (zh) 基于图像处理与模式识别的折线图图像自动数字化方法
WO2017065358A1 (ko) 시약 키트의 이미지를 통한 감염병 진단 방법 및 장치
CN110599404A (zh) 一种电路板显微图像拼接方法、装置、信息数据处理终端
WO2011049408A2 (ko) 인쇄물 상에 표시된 코드 판독 방법
CN107846555A (zh) 基于手势识别的自动拍摄方法、装置、用户终端及计算机存储介质
WO2016035924A1 (ko) 달리기 감지 방법 및 시스템
CN112199015B (zh) 智能交互一体机及其书写方法、装置
CN109753981B (zh) 一种图像识别的方法及装置
WO2016104842A1 (ko) 카메라의 왜곡을 고려한 물체 인식 시스템 및 방법
WO2017003240A1 (ko) 영상 변환 장치 및 그 영상 변환 방법
WO2022211323A1 (ko) 이미지 문서의 비정형 레이아웃 인식 방법
KR102000715B1 (ko) 점자 학습 장치 및 이를 이용한 점자 변환 방법
CN112101107B (zh) 一种智能网联模型车在环仿真交通信号灯智能识别方法
WO2022270774A1 (ko) 인쇄된 카드의 그레이딩 장치 및 방법
WO2022250238A1 (ko) 컴퓨터에의 정보 입력 시스템 및 이 정보 입력 시스템을 이용한 입력 정보의 좌표 산출 방법
WO2023101202A1 (ko) 사용자의 이용이 편리한 비접촉식 지문인증방법
WO2024136248A1 (ko) 딥러닝 기반의 성별 인식 장치 및 성별 인식 방법
WO2019117374A1 (ko) 동적 객체 검출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17866527

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 18/10/2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17866527

Country of ref document: EP

Kind code of ref document: A1