KR101479412B1 - 디지털 컨텐츠 식별 방법 및 장치 - Google Patents

디지털 컨텐츠 식별 방법 및 장치 Download PDF

Info

Publication number
KR101479412B1
KR101479412B1 KR20130079481A KR20130079481A KR101479412B1 KR 101479412 B1 KR101479412 B1 KR 101479412B1 KR 20130079481 A KR20130079481 A KR 20130079481A KR 20130079481 A KR20130079481 A KR 20130079481A KR 101479412 B1 KR101479412 B1 KR 101479412B1
Authority
KR
South Korea
Prior art keywords
fingerprint
digital content
extracting
unit
information
Prior art date
Application number
KR20130079481A
Other languages
English (en)
Inventor
이상훈
이광현
최낙연
박상욱
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR20130079481A priority Critical patent/KR101479412B1/ko
Application granted granted Critical
Publication of KR101479412B1 publication Critical patent/KR101479412B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/106Enforcing content protection by specific content processing
    • G06F21/1063Personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking

Abstract

본 발명은 객체의 레이아웃(layout) 정보를 이용하여 컨텐츠를 식별하는 디지털 컨텐츠 식별 방법 및 장치에 관한 것이다.
본 발명의 일실시예에 의한 디지털 컨텐츠 식별 방법은 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스를 유지하는 단계; 픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 단계; 상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 단계; 및 상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 단계를 포함할 수 있다.

Description

디지털 컨텐츠 식별 방법 및 장치{METHOD AND APPARATUS FOR IDENTIFYING DIGITAL CONTENTS}
본 발명은 디지털 컨텐츠 식별 방법 및 장치에 관한 것으로, 보다 상세하게는 객체의 레이아웃(layout) 정보를 이용하여 컨텐츠를 식별하는 디지털 컨텐츠 식별 방법 및 장치에 관한 것이다.
디지털 컨텐츠 식별 기술은 출판물, 특히 웹상에서 불법으로 스캔되어 유통 되는 컨텐츠에 대한 저작권을 보호하기 위해 기술로서 이용될 수 있다.
이미지가 포함된 디지털 컨텐츠를 식별하는 기술의 하나로 OCR(optical character reader)를 이용하는 방법이 있다.
OCR을 이용하여 컨텐츠를 식별하는 방법은 디지털 컨텐츠 내에 존재하는 텍스트를 추출한 후, 색인어 등의 유사도를 판별하여 유사성을 인식하는 기술이다. OCR을 이용하여 컨텐츠를 식별하는 방법은 로 평균적으로 장당 4~5초 정도의 OCR 처리시간 소요 및 40~60% 정도의 인식 정확도 성능을 보이고 있어 실질적으로 활용이 불가능한 상황이다.
예를 들어 100페이지로 구성된 한권의 만화책을 OCR 소프트웨어를 이용하여 텍스트로 변환하기 위해서는 5~10분 정도의 긴 시간이 요구된다.
대한민국 공개특허 제10-2011-0060450호에는 DB구조가 변경되거나 업무 프로세스가 변경되는 경우 효율적으로 변경된 정보를 수정하는 디지털 콘텐츠 식별체계 웹서비스 장치 및 방법이 개시되어 있다.
하지만, 대한민국 공개특허 제10-2011-0060450호에는 불법적으로 유통되는 컨텐츠에 대한 저작권을 보호하기 위한 디지털 컨텐츠 식별 기술에 대해서는 개시되어 있지 않다.
따라서 정확하고 빠르게 불법 스캔 디지털 컨텐츠 검출을 위한 디지털 컨텐츠 식별 기술에 대한 연구가 필요한 실정이다.
본 발명의 목적은 객체의 레이아웃 정보를 이용하여 정확하고 빠르게 디지털 컨텐츠를 식별하는 방법 및 장치를 제공하는 데 있다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스를 유지하는 단계; 픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 단계; 상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 단계; 및 상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 단계를 포함하는 디지털 컨텐츠 식별 방법이 제공된다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 디지털 컨텐츠의 입력을 수신하는 입력부; 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스; 픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 레이아웃 추출부; 상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 핑거프린트 추출부; 상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 비교부; 및 상기 입력부, 상기 데이터베이스, 상기 레이아웃 추출부, 상기 핑거프린트 추출부, 및 상기 비교부를 제어하는 제어부를 포함하는 디지털 컨텐츠 식별 장치가 제공된다.
본 발명의 일실시예에 의한 디지털 컨텐츠 식별 방법 및 장치는 디지털 컨텐츠의 객체에 대한 레이아웃 정보를 이용하여 정확하고 빠르게 디지털 컨텐츠를 식별할 수 있다.
도 1은 본 발명의 일실시예와 관련된 디지털 컨텐츠 식별 장치의 블록도이다.
도 2는 본 발명의 일실시예와 관련된 디지털 컨텐츠 식별 방법을 나타내는 흐름도이다.
도 3 내지 도 4는 도 2에 도시된 디지털 컨텐츠 식별 방법 중 전처리 과정의 일례를 나타내는 도면이다.
도 5 내지 도 7은 도 2에 도시된 디지털 컨텐츠 식별 방법 중 레이아웃 정보를 추출하는 과정의 일례를 나타내는 도면이다.
도 8은 도 2에 도시된 디지털 컨텐츠 식별 방법 중 핑거프린트를 추출하는 과정의 일례를 나타내는 도면이다.
이하, 본 발명의 일실시예와 관련된 디지털 컨텐츠 식별 방법 및 장치에 대해 도면을 참조하여 설명하도록 하겠다.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
본 명세서에 디지털 컨텐츠라 함은 오프라인 컨텐츠와 대비되는 개념으로 전자 파일 형태로 제작, 유통, 소비될 수 있는 컨텐츠를 의미한다. 예를 들어, 디지털 컨텐츠는 오프라인 출판물을 스캔한 스캔본, 출판사에서 디지털 판매를 하는 이미지 파일 등을 포함할 수 있다.
본 명세서에서 기준 디지털 컨텐츠는 식별의 대상이 되는 디지털 컨텐츠(이하, '대상 디지털 컨텐츠'라 함)가 어떤 컨텐츠인지를 식별하기 위해 사용되는 컨텐츠를 말한다. 예를 들어, 원본 컨텐츠가 기준 디지털 컨텐츠가 될 수 있고, 웹 상에서 유통되고 있는 컨텐츠가 대상 디지털 컨텐츠가 될 수 있다.
이하에서는 디지털 컨텐츠의 예로 이미지 형태의 디지털 도서에 대해 설명하나, 본 발명이 이에 한정되는 것은 아니다.
도 1은 본 발명의 일실시예와 관련된 디지털 컨텐츠 식별 장치의 블록도이다.
도시된 바와 같이, 디지털 컨텐츠 식별 장치(100)는 입력부(110), 데이터베이스(120), 전처리부(130), 레이아웃 추출부(140), 핑거프린트 추출부(150), 비교부(160), 후보 추출부(170), 및 제어부(180)를 포함할 수 있다.
입력부(110)는 디지털 컨텐츠를 입력을 수신할 수 있다. 상기 디지털 컨텐츠 입력 수신은 사용자 인터페이스를 통해 이루어질 수 있다.
데이터베이스(120)에는 기준 디지털 컨텐츠에 포함된 객체의 레이아웃(layout) 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장될 수 있다. 상기 레이아웃 정보 및 핑거프린트에 대해서는 후술하도록 하겠다.
전처리부(130)는 대상 디지털 컨텐츠의 보다 정확한 식별을 위해 전처리 작업을 수행한다. 예를 들어, 전처리부(130)는 디지털 컨텐츠의 식별의 용이를 위해 회전 보정, 사이즈 변형, 노이즈 제거, 휘도 조절, 페이지 분할, 크기 일반화 등의 과정을 수행할 수 있다.
레이아웃 추출부(140)는 디지털 컨텐츠에 포함된 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출할 수 있다. 상기 객체의 레이아웃은 상기 디지털 컨텐츠에 포함된 텍스트 및 그림 등의 객체가 배열된 상태를 의미할 수 있다.
핑거프린트 추출부(150)는 상기 구분된 객체의 핑거프린트(fingerprint)를 추출할 수 있다. 상기 객체의 핑거프린트는 상기 객체의 고유 특징으로서, 상기 객체의 위치 및 크기 정보 등을 포함할 수 있다.
비교부(160)는 상기 레이아웃 추출부(140)에서 추출된 레이아웃 정보 및 상기 핑거프린트 추출부(150)에서 추출된 핑거프린트를 상기 데이터베이스(120)에 저장된 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 핑거프린트와 비교하여 유사도를 검색할 수 있다.
후보 추출부(170)는 상기 레이아웃 추출부(140)에서 레이아웃 정보를 이용하여 상기 데이터베이스(120)에 저장된 기준 디지털 컨텐츠 중 후보 컨텐츠를 추출할 수 있다. 예를 들어, 후보 추출부(170)는 레이아웃 추출부(140)에서 추출된 레이아웃 정보와 특정 임계 범위 이내의 유사도를 가지는 기준 디지털 컨텐츠를 추출하여(즉, 유사도가 높은 기준 디지털 컨텐츠를 추출하여) 후보 컨텐츠로 결정할 수 있다. 상기 후보 컨텐츠 추출은 디지털 컨텐츠 식별을 위한 계산량 감소를 위해 레이아웃 정보 추출 후 비교 대상이 되는 기준 컨텐츠의 범위를 줄이기 위해 수행될 수 있다.
또한, 후보 추출부(170)는 상기 레이아웃 추출부(140)에서 레이아웃 정보 및 상기 핑거프린트 추출부(150)에서 추출된 핑거프린트 이용하여 상기 데이터베이스(120)에 저장된 기준 디지털 컨텐츠 중 후보 컨텐츠를 추출할 수도 있다.
제어부(180)는 상기 입력부(110), 상기 데이터베이스(120), 상기 전처리부(130), 상기 레이아웃 추출부(140), 상기 핑거프린트 추출부(150), 상기 비교부(160) 및 상기 후보 추출부(170)에서 수행하는 기능을 유기적으로 제어할 수 있다.
도 2는 본 발명의 일실시예와 관련된 디지털 컨텐츠 식별 방법을 나타내는 흐름도이다.
제어부(180)는 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 객체의 핑거프린트가 저장된 데이터베이스(120)를 유지할 수 있다(S210).
상기 객체의 레이아웃은 상기 디지털 컨텐츠에 포함된 텍스트 및 그림 등의 객체가 배열된 상태를 의미할 수 있다.
또한, 상기 객체의 핑거프린트는 상기 객체의 고유 특징으로서, 상기 객체의 위치 및 크기 정보, 상기 객체에 포함된 줄 수, 상기 객체의 일부 영역에 대해 디지타이징 레터(Digitizing Letter)로 변환한 정보 등을 포함할 수 있다.
전처리부(130)는 입력된 대상 디지털 컨텐츠의 식별을 용이하게 하기 위해 전처리 작업을 수행할 수 있다(S220). 상기 전처리부(130)는 대상 디지털 컨텐츠의 식별의 용이를 위해 회전 보정, 사이즈 변형, 노이즈 제거, 휘도 조절, 페이지 분할, 크기 일반화 등의 과정을 수행할 수 있다.
도 3 내지 도 4는 도 2에 도시된 디지털 컨텐츠 식별 방법 중 전처리 과정의 일례를 나타내는 도면이다.
전처리부(130)는, 도 3과 같이 대상 디지털 컨텐츠의 중앙 분리부의 보정을 통하여 보정전 이미지를 보정후 이미지로 변환하거나, 도 4와 같이 전처리부(130)는 양면 페이지를 분리하여 페이지 단위로 나눌 수 있다.
또한, 전처리부(130)는 각도가 평행하지 않고 틀어져 있는 이미지도 평행하도록 보정을 하고, 너무 밝거나 어두운 이미지는 평균값의 밝기로 맞춰주는 등의 영상 처리를 수행할 수 있다.
레이아웃 추출부(140)는 대상 디지털 컨텐츠에 포함된 객체의 레이아웃 정보를 추출할 수 있다(S230). 즉, 레이아웃 추출부(140)는 픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 구분된 객체의 레이아웃 정보를 추출(이하, '레이아웃 추출'이라 함)할 수 있다. 상기 레이아웃 추출은 픽셀 분포에 대한 히스토그램을 이용하여 수행될 수 있다.
상기 레이아웃 추출 단계는 문단 분리, 객체 분리, 객체의 특정 단계를 포함할 수 있다.
먼저, 문단 분리는 다음과 같이 수행될 수 있다.
도 5는 레이아웃 추출 단계 중 문단 분리를 수행하는 과정을 설명하기 위한 도면이다. 상기 문단 분리는 세로 방향을 축으로 하는 히스토그램(즉, 가로 방향으로 형성된 히스토그램)을 이용하여 수행될 수 있다.
상기 레이아웃 추출부(140)는 하기에 기재된 규칙 기반으로 문단을 분리할 수 있다.
상기 레이아웃 추출부(140)는 1) 빈공간이 일정 임계값 이상 나타나면 새로운 문단이 나타난 것으로 판단하고, 2) 해당 행의 글자 수가 적어서 히스토그램 값이 일정 임계값 이하로 나타나면, 빈 공간으로 판단할 수 있다. 또한, 상기 레이아웃 추출부(140)는 3) 좁은 빈공간이 주기적으로 나타나면 해당 문단은 텍스트만 존재하는 것으로 판단하고, 4) 빈 공간 없이 계속적으로 연속적인 값이 나타나면, 해당 문단은 그림 또는 그림+텍스트로 판단할 수 있다.
예를 들어, 소설의 경우, 문단 간 여백 공간이 많지 않은 경우도 있는데, 이러한 경우는 2)에서 확인할 수 있듯이 각 문단의 맨 마지막 줄은 글자 수가 상대적으로 적다는 사실을 활용하여 해당 부분을 빈 공간으로 판정함으로 이를 바탕으로 문단 구분이 가능하다.
또한, 맨 마지막 줄의 글자 수가 적지 않고 거의 한 줄을 꽉 채울 수도 있는데, 이러한 경우에는 본 실시예에서는 제대로 된 문단 구분이 불가능하다. 하지만 이러한 문단 구분은 이후의 과정들에서 사용될 특징들을 뽑아내기 위한 전 단계로써 이러한 것이 문제가 되지 않는다.
왜냐하면 기준 컨텐츠와 대상 컨텐츠 둘 모두 이러한 문단 구분이 안 되는 상황이 동일하게 적용되기 때문이다. 또한, 맨 마지막 줄의 글자 수가 서로 다르더라도 판정 시 똑같은 문단 구성으로 분리되는 경우에 대하여서는 전술한 것과 동일한 이유로 설명될 수 있다. 문단 구분은 이후 세부 특징점(Fine feature) 추출을 위한 전 단계의 특징으로써(Coarse feature), 이는 큰 문제가 되지 않는 것이다.
다음으로, 객체 분리는 다음과 같이 수행될 수 있다.
도 6은 레이아웃 추출 단계 중 객체 분리를 수행하는 과정을 설명하기 위한 도면이다. 상기 객체 분리는 구분된 개별 문단 내에서 가로 방향을 축으로 하는 히스토그램(즉, 세로 방향으로 형성된 히스토그램)을 이용하여 수행될 수 있다.
상기 레이아웃 추출부(140)는 개별 문단 내에서 객체를 분리할 수 있다.
본 명세서에서 객체란 문단 내에 존재하면서, 서로 구분될 수 있는 대상이다. 예를 들어, 분리하는 객체란, 2 Column 논문의 경우 좌, 우의 텍스트 덩어리가 각각의 객체가 되며, 프로필 사진 옆의 설명이 쓰여있는 경우에는 프로필 사진과 텍스트로 구성된 설명 덩어리를 각기 다른 객체가 될 수 있다.
상기 레이아웃 추출부(140)는 하기에 기재된 규칙 기반으로 개별 문단 내에서 객체를 분리할 수 있다.
상기 레이아웃 추출부(140)는 빈공간이 일정 임계값 이상 나타나면 새로운 객체가 등장한 것으로 판단한다. 이 경우, 세로를 축으로 하는 히스토그램과는 달리 텍스트에 대해서도 주기적으로 0이되는 값(줄바꿈)이 나오지 않으므로 판단이 더 용이할 수 있다.
한편, 색이 칠해지지 않은 선으로 이루어진 그림의 경우 해당 히스토그램의 크기가 0에 가까울 텐데 이러한 경우의 처리는 어떻게 하는가 하는 점이 문제가 될 수 있다. 하지만, 이는 가로 방향을 축으로 하는 히스토그램에서는 텍스트에서도 주기적인 빈 공간이 나타나지 않는다는 점을 이용하면 해결이 가능하다. 이는 글자들이 서로 엇갈려서 존재하기 때문이다. 따라서 상기 레이아웃 추출부(140)는, 빈공간이 아니며 동시에 작은 크기의 임계값 이상을 가지면, 선 그림의 객체가 존재하는 것으로 판정할 수 있다.
다음으로, 분리된 객체를 특정하는 단계가 수행될 수 있다. 본 실시예에서의 객체 특정은 분리된 객체가 그림인지 텍스트인 여부를 판단하는 과정을 포함할 수 있다.
레이아웃 추출부(140)는 분리된 객체별로 세로 방향을 축으로 하는 픽셀 값 분포를 분석하여 분리된 객체가 그림인지 텍스트인 여부를 판단할 수 있다. 도 7은 분리된 객체가 특정된 결과를 나타내는 도면이다.
레이아웃 추출부(140)는 문단 분리 단계에서 줄 바꿈이 관측되어 텍스트 후보군으로 판단된 경우, 해당 문단의 객체들을 모두 텍스트로 판단하고, 그 외의 경우, 픽셀 값이 이산적인 분포를 보일 경우(ex. 0 or 255) 텍스트로 판단하고, 픽셀 값이 연속적인 분포를 보일 경우(ex. 0~255) 그림으로 판단할 수 있다.
한편, 레이아웃 추출부(140)는 색이 칠해지지 않은 선으로 된 그림이나 도표 차트 등에 대해서는 차트의 경우 막대의 색이 칠해져 있으면 그림으로 판단하여 처리하고, 표의 경우 텍스트로 판단할 수 있다. 또한 선으로만 이루어진 그림의 경우, 위에서 설명한 방법으로 선 그림의 객체가 존재함을 확인 가능하다.
레이아웃 추출 후, 후보 추출부(170)는 상기 유사도 검색의 결과를 이용하여 상기 데이터베이스(120)에 저장된 기준 디지털 컨텐츠 중 후보 컨텐츠를 추출할 수 있다(S240). 즉, 후보 추출부(170)는 추출된 레이아웃 정보와 동일하거나 일정 임계값 이상의 유사도를 가지는 기준 디지털 컨텐츠를 추출하여 후보 컨텐츠(이하, ?캤릴?이라 함)로 결정할 수 있다. 상기 레이아웃 추출은 객체의 고유 특징이 배제된 개략적인 정보를 포함하고 있다. 따라서 비슷한 레이아웃 정보를 갖는 후보군들이 많이 검출될 수 있다. 이런 경우에 여러 후보군 중에서 다시 정확한 매칭 후보를 추출해야 한다. 이를 위해 레이아웃 추출 후, 객체의 핑거피린트 검출 및 매칭이 수행될 수 있다.
도 8은 도 2에 도시된 디지털 컨텐츠 식별 방법 중 핑거프린트를 추출하는 과정의 일례를 나타내는 도면이다.
도시된 바와 같이, 핑거프린트 추출부(150)는 분리된 각 객체의 고유 특징(예: 이미지나 텍스트 고유 특성)인 핑거프린트를 추출할 수 있다(S250).
예를 들어, 핑거프린트는 텍스트 객체의 경우, 전처리된 페이지를 기준으로 객체의 위치를 표현하는 좌표와 크기를 표현하는 가로 및 세로 길이, 히스토그램 분석을 통해 이미 알 수 있는 객체 안의 줄 수, 및 객체의 일부 영역 표시자 등을 포함할 수 있다.
페이지 안의 각 객체들은 각자 고유의 위치와 크기를 가지고 있고, 줄 개수를 데이터로 가지고 있다. 특히, 객체 내에서 세로축 방향의 히스토그램 분석을 통해 줄이 나누어져 있다. 각 줄마다 이 모듈에서 다시 가로축 히스토그램 분석을 적용함으로써, 글씨마다 원래 조금씩 띄어져 있고 띄어쓰기는 더 많이 띄어져 있는 특성을 통하여 대부분의 글씨가 디지타이징 레터(Digitizing Letter)와 같이 디지털화 될 수 있다.
객체의 일정한 부분을 잘라서 디지털화 된 부분을 111101010011... 이런 식으로 각 객체마다 저장을 해 놓는다면, 이 또한 객체가 가지는 고유의 하나의 특성이 될 수 있다.
상기와 같이 디지타이징 레터로 변환한 정보를 객체의 핑거프린트로 사용하는 방법의 장점은 저장하는 데이터 량이 작고, 디지털화 된 자료를 16진수 등 숫자로 표현을 한다면 각 객체별 특성이 숫자 하나로 표시가 되는 것이므로 연산이 고속화 될 수 있다는 것이다.
이미지 객체의 경우에는, 이미지 표시자를 정의하고 이를 객체의 핑거프린트로 저장한다. 이미지 표시자는 이미지를 보다 간단한 특성으로 표시할 수 있게 해주고, 이 또한 이미지를 그대로 저장하는 것 보다 훨씬 간략한 정보이므로 기준 디지털 컨텐츠가 저장된 데이터베이스(120)와의 검색과 매칭을 빠르게 할 수 있다.
결국, 핑거프린트 추출부(150)에서는 각 페이지의 객체와 이미지의 특성을 간략하게 추출하고, 추출된 이미지 특징들을 통해서 그 페이지의 특성을 표현하게 해주고, 고속으로 적용할 수 있다.
비교부(160)는 대상 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 객체의 핑거프린트와 데이터베이스(120)에 저장된 후보군에 포함된 객체의 레이아웃 정보 및 상기 후보군 객체의 핑거프린트를 비교함으로써, 유사도 검색을 수행할 수 있다(S260).
한편, 본 발명의 일실시예에 의한 후보군 추출 단계(S240)은 핑거프린트 추출 단계(S250) 이후에 수행될 수도 있다.
이 경우, 후보 추출부(170)은 데이터베이스(120)에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트와 대상 디지털 컨텐츠에 포함된 객체의 핑거프린트를 고속으로 비교하여 상관도가 높은 후보군(예: 불법 복제본)을 검출할 수 있다.
한편, 기준 디지털 컨텐츠 및 대상 디지털 컨텐츠의 각 페이지의 핑거프린트는 비교적 정교하지 못하기 때문에, 한 장끼리의 매칭으로만 보면 서로 다른 페이지이지만 문단의 위치, 크기 줄 수 등의 같은 핑거프린트로 인식하여 정확도가 떨어질 수 있다.
이를 보완하기 위해 후보 추출부(170)는 기준 디지털 컨텐츠 및 대상 디지털 컨텐츠의 연속된 여러 장의 페이지의 핑거프린트들을 비교할 수 있다. 한 장씩 비교하다가 한 장이 같으면 그 다음 장을 비교해 보는 식으로 비교가 수행될 수 있다. 상기 후보 추출부(170)는 상기 일정 페이지 이상의 핑거프린트가 연속으로 일치하는 기준 디지털 컨텐츠를 후보군으로 검출한다.
제어부는(180)는 후보군들의 모든 페이지를 대상 디지털 컨텐츠의 모든 페이지를 비교한 비교 결과에 근거하여 대상 디지털 컨텐츠를 식별할 수 있다(S270). 예를 들어, 제어부(180)는 상기 비교 결과 일치도가 가장 높은 후보군에 대한 복제본으로 상기 대상 디지털 컨텐츠를 판단할 수 있다.
전술한 디지털 컨텐츠 식별 방법은 디지털 컨텐츠의 객체에 대한 레이아웃 정보를 이용하여 정확하고 빠르게 디지털 컨텐츠를 식별할 수 있다.
상술한 디지털 컨텐츠 식별 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다. 이때, 컴퓨터로 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 한편, 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 판독 가능한 기록매체에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
한편, 이러한 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다.
또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기와 같이 설명된 디지털 컨텐츠 식별 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 디지털 컨텐츠 식별 장치
110: 입력부
120: 데이터베이스
130: 전처리부
140: 레이아웃 추출부
150: 핑거프린트 추출부
160: 비교부
170: 후보 추출부
180: 제어부

Claims (14)

  1. 삭제
  2. 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스를 유지하는 단계;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 단계;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 단계; 및
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 단계를 포함하되,
    상기 객체 구분은 상기 픽셀 분포에 대한 히스토그램을 이용하여 수행되는 것을 특징으로 하는 디지털 컨텐츠 식별 방법.
  3. 제 2 항에 있어서, 상기 레이아웃 정보 추출 단계는
    제 1 방향을 축으로 하는 픽셀 분포의 히스토그램을 이용하여 문단을 분리하는 단계;
    상기 분리된 문단 내에서 제 2 방향을 축으로 하는 픽셀 분포의 히스토그램을 이용하여 객체를 분리하는 단계; 및
    상기 제 1 방향을 축으로 하는 픽셀 분포를 이용하여 상기 분리된 객체를 특정하는 단계를 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 방법.
  4. 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스를 유지하는 단계;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 단계;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 단계; 및
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 단계를 포함하되,
    상기 추출된 객체의 핑거프린트는, 상기 구분된 객체가 텍스트로 특정된 경우, 상기 텍스트의 줄 수 및 상기 객체의 영역 중 일부에 대해 디지타이징 레터로 변환한 정보 중 적어도 하나를 더 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 방법.
  5. 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스를 유지하는 단계;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 단계;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 단계;
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 단계; 및
    상기 추출된 레이아웃 정보 및 상기 추출된 핑거프린트를 이용하여 상기 데이터베이스에 저장된 기준 디지털 컨텐츠 중 비교할 후보 컨텐츠를 추출하는 단계를 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 방법.
  6. 제 5 항에 있어서, 상기 후보 컨텐츠 추출 단계는
    상기 대상 디지털 컨텐츠 및 상기 기준 디지털 컨텐츠에서 연속된 복수의 페이지를 비교하는 것을 특징으로 하는 디지털 컨텐츠 식별 방법.
  7. 기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스를 유지하는 단계;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 단계;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 단계; 및
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 단계를 포함하되,
    상기 기준 디지털 컨텐츠 및 상기 대상 디지털 컨텐츠는 이미지 파일을 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 방법.
  8. 삭제
  9. 디지털 컨텐츠의 입력을 수신하는 입력부;
    기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 레이아웃 추출부;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 핑거프린트 추출부;
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 비교부; 및
    상기 입력부, 상기 데이터베이스, 상기 레이아웃 추출부, 상기 핑거프린트 추출부, 및 상기 비교부를 제어하는 제어부를 포함하되,
    상기 레이아웃 추출부는 상기 픽셀 분포에 대한 히스토그램을 이용하여 상기 객체를 구분하는 것을 특징으로 하는 것을 디지털 컨텐츠 식별 장치.
  10. 제 9 항에 있어서, 상기 레이아웃 추출부는
    제 1 방향을 축으로 하는 픽셀 분포의 히스토그램을 이용하여 문단을 분리하고,
    상기 분리된 문단 내에서 제 2 방향을 축으로 하는 픽셀 분포의 히스토그램을 이용하여 객체를 분리하고,
    상기 제 1 방향을 축으로 하는 픽셀 분포를 이용하여 상기 분리된 객체를 특정하는 것을 특징으로 하는 디지털 컨텐츠 식별 장치.
  11. 디지털 컨텐츠의 입력을 수신하는 입력부;
    기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 레이아웃 추출부;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 핑거프린트 추출부;
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 비교부; 및
    상기 입력부, 상기 데이터베이스, 상기 레이아웃 추출부, 상기 핑거프린트 추출부, 및 상기 비교부를 제어하는 제어부를 포함하되,
    상기 추출된 객체의 핑거프린트는, 상기 구분된 객체가 텍스트로 특정된 경우, 상기 텍스트의 줄 수 및 상기 객체의 영역 중 일부에 대해 디지타이징 레터로 변환한 정보 중 적어도 하나를 더 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 장치.
  12. 디지털 컨텐츠의 입력을 수신하는 입력부;
    기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 레이아웃 추출부;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 핑거프린트 추출부;
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 비교부;
    상기 추출된 레이아웃 정보 및 상기 추출된 핑거프린트를 이용하여 상기 데이터베이스에 저장된 기준 디지털 컨텐츠 중 비교할 후보 컨텐츠를 추출하는 후보 추출부; 및
    상기 입력부, 상기 데이터베이스, 상기 레이아웃 추출부, 상기 핑거프린트 추출부, 상기 비교부 및 상기 후보 추출부를 제어하는 제어부를 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 장치.
  13. 제 12 항에 있어서, 상기 후보 컨텐츠를 추출부는
    상기 대상 디지털 컨텐츠 및 상기 기준 디지털 컨텐츠에서 연속된 복수의 페이지를 비교하는 것을 특징으로 하는 디지털 컨텐츠 식별 장치.
  14. 디지털 컨텐츠의 입력을 수신하는 입력부;
    기준 디지털 컨텐츠에 포함된 객체의 레이아웃 정보 및 상기 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트가 저장된 데이터베이스;
    픽셀 분포 정보를 이용하여 대상 디지털 컨텐츠의 객체를 구분하고, 상기 구분된 객체의 레이아웃 정보를 추출하는 레이아웃 추출부;
    상기 구분된 객체에 대한 위치 및 크기 정보를 포함하는 객체의 핑거프린트를 추출하는 핑거프린트 추출부;
    상기 추출된 객체의 핑거프린트와 상기 데이터베이스에 저장된 기준 디지털 컨텐츠에 포함된 객체의 핑거프린트를 비교하는 비교부; 및
    상기 입력부, 상기 데이터베이스, 상기 레이아웃 추출부, 상기 핑거프린트 추출부, 및 상기 비교부를 제어하는 제어부를 포함하되,
    상기 기준 디지털 컨텐츠 및 상기 대상 디지털 컨텐츠는 이미지 파일을 포함하는 것을 특징으로 하는 디지털 컨텐츠 식별 장치.
KR20130079481A 2013-07-08 2013-07-08 디지털 컨텐츠 식별 방법 및 장치 KR101479412B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130079481A KR101479412B1 (ko) 2013-07-08 2013-07-08 디지털 컨텐츠 식별 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130079481A KR101479412B1 (ko) 2013-07-08 2013-07-08 디지털 컨텐츠 식별 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101479412B1 true KR101479412B1 (ko) 2015-01-05

Family

ID=52587938

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130079481A KR101479412B1 (ko) 2013-07-08 2013-07-08 디지털 컨텐츠 식별 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101479412B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090020005A (ko) * 2007-08-22 2009-02-26 주식회사 코난테크놀로지 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
KR20120038880A (ko) * 2010-10-14 2012-04-24 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
WO2013036086A2 (en) 2011-09-08 2013-03-14 Samsung Electronics Co., Ltd. Apparatus and method for robust low-complexity video fingerprinting

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090020005A (ko) * 2007-08-22 2009-02-26 주식회사 코난테크놀로지 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
KR20120038880A (ko) * 2010-10-14 2012-04-24 한국전자통신연구원 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
WO2013036086A2 (en) 2011-09-08 2013-03-14 Samsung Electronics Co., Ltd. Apparatus and method for robust low-complexity video fingerprinting

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문: 한국통신학회 *
논문: 한국통신학회*

Similar Documents

Publication Publication Date Title
US8965127B2 (en) Method for segmenting text words in document images
CN106156766B (zh) 文本行分类器的生成方法及装置
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
EP2553626B1 (en) Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US10643094B2 (en) Method for line and word segmentation for handwritten text images
CN104217203B (zh) 复杂背景卡面信息识别方法及系统
US20070160295A1 (en) Method and apparatus of extracting text from document image with complex background, computer program and storage medium thereof
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
Panhwar et al. Signboard detection and text recognition using artificial neural networks
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
EP2545495A2 (en) Paragraph recognition in an optical character recognition (ocr) process
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US20120014612A1 (en) Document processing apparatus and computer readable medium
CN112784932A (zh) 一种字体识别方法、装置和存储介质
KR101479412B1 (ko) 디지털 컨텐츠 식별 방법 및 장치
CN115984859A (zh) 一种图像文字识别的方法、装置及存储介质
Kumar et al. Line based robust script identification for indianlanguages
CN112949514A (zh) 一种扫描文档信息处理方法、装置、电子设备及存储介质
KR101437286B1 (ko) 디지털 컨텐츠 식별 방법 및 장치
Radzid et al. Text line segmentation for mushaf Al-Quran using hybrid projection based neighbouring properties
Ali et al. Urdu text in natural scene images: a new dataset and preliminary text detection
CN112650992A (zh) 一种基于数字水印的文档追踪加密方法
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171218

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181224

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191209

Year of fee payment: 6