KR20120038880A - 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 - Google Patents

출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 Download PDF

Info

Publication number
KR20120038880A
KR20120038880A KR1020110023069A KR20110023069A KR20120038880A KR 20120038880 A KR20120038880 A KR 20120038880A KR 1020110023069 A KR1020110023069 A KR 1020110023069A KR 20110023069 A KR20110023069 A KR 20110023069A KR 20120038880 A KR20120038880 A KR 20120038880A
Authority
KR
South Korea
Prior art keywords
publication
fingerprint
text
image
electronic document
Prior art date
Application number
KR1020110023069A
Other languages
English (en)
Other versions
KR101491446B1 (ko
Inventor
윤영석
박지현
이상광
김정현
서영호
서용석
이승재
김성민
이정호
유원영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to CN2011800494631A priority Critical patent/CN103154957A/zh
Priority to PCT/KR2011/007633 priority patent/WO2012050379A2/ko
Priority to US13/879,398 priority patent/US20130290330A1/en
Priority to JP2013533773A priority patent/JP2013543178A/ja
Publication of KR20120038880A publication Critical patent/KR20120038880A/ko
Application granted granted Critical
Publication of KR101491446B1 publication Critical patent/KR101491446B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Storage Device Security (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Collating Specific Patterns (AREA)

Abstract

저작권 침해 여부를 용이하게 식별할 수 있고, 저작권을 효과적으로 보호할 수 있는 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법이 개시된다. 핑거프린트를 이용한 출판물 식별 시스템은 저작권 침해를 식별하기 위해 수집된 질의 출판물에 대한 핑거프린트를 추출하는 핑거프린트 추출 장치와, 핑거프린트 추출 장치로부터 제공된 질의 출판물에 대한 핑거프린트에 해당하는 원본 출판물의 핑거프린트를 질의하는 핑거프린트 질의 장치와, 원본 출판물로부터 추출된 핑거프린트 및 원본 출판물의 부가 정보가 저장되고 핑거프린트 질의 장치의 질의에 상응하여 적어도 하나의 원본 출판물의 핑거프린트로 구성된 검색결과 후보군을 제공하는 DBMS 및 DBMS로부터 제공된 검색결과 후보군을 검증하여 질의 출판물의 저작권 침해 여부를 판단하는 후보군 검증 장치를 포함한다. 따라서, 출판물의 저작권 침해 여부를 용이하게 식별할 수 있고, 이를 통해 저작권 침해를 예방할 수 있다.

Description

출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법{METHODS FOR EXTRACTING PINGERPRINT OF PUBLICATION, APPARATUS FOR EXTRACTING PINGERPRINT OF PUBLICATION, SYSTEM FOR IDENTIFYING PUBLICATION USING FINGERPRINT AND METHOD FOR IDENTIFYING PUBLICATION USING FINGERPRINT}
본 발명은 콘텐츠 식별에 관한 것으로, 더욱 상세하게는 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법에 관한 것이다.
텍스트 및 이미지를 포함하는 콘텐츠 또는 디지털화된 출판물은 손쉽게 복제되어 인터넷이나 P2P 등의 다양한 경로를 통해 불법적으로 유포되고 있다. 이와 같이 불법 유포된 콘텐츠들은 저작자에게 직접적으로 경제적 손실을 입힐 뿐만 아니라, 간접적으로는 저작자의 창작 의욕을 떨어뜨리는 주요 원인이 되고 있다.
콘텐츠의의 불법 유통을 방지하고 저작권을 보호하기 위하여 기존에는 콘텐츠의 판매 또는 구매시 인증된 환경하에서 콘텐츠 구매행위가 일어나도록 콘텐츠를 패키징 및 암호화하는 DRM(Digital Rights Management) 기술, 콘텐츠가 하드 디스크에 저장되지 않도록 하거나 프린트되지 않도록 제한을 두는 DPP(Digital Property Protection) 기술, 콘텐츠 내에 판매자 또는 콘텐츠 저작권자의 정보를 눈에 띄지 않게 삽입하는 워터마킹(watermarking) 기술 등이 사용되어 왔다.
도 1은 DRM 등의 보호 장치가 적용된 일반적인 콘텐츠 보호 방법을 개략적으로 나타낸 것이다.
도 1을 참조하면, 콘텐츠 제공자들(Contents Providers)은 원본 콘텐츠와 암호화키를 이용하여 콘텐츠를 암호화 및 패키징한 후 이를 제공하고, 사용자들은 해당 DRM 서버에 접속하여 구매 인증절차를 수행함으로써 해당 콘텐츠를 적법하게 구매해야만 암호를 풀 수 있는 키와 해당 콘텐츠를 사용할 수 있는 사용허가(license)를 받을 수 있고, 이를 통해 해당 콘텐츠를 재생할 수 있게 된다.
도 1에 도시한 바와 같이 종래에는 콘텐츠 제공자들이 DRM 등의 암호화 및 패키징 방식의 보호 방법을 적용하여 콘텐츠 제작자들의 권리를 보호하여 왔고, 종래의 저작권 보호 방법들은 상기한 방법의 변형된 형태로 발전 및 계승되어 왔다.
종래의 저작권 보호 방법은 암호화 혹은 패키징 방식을 이용하여 콘텐츠들의 저작권을 보호하게 된다. 그러나, 암호화된 콘텐츠의 암호를 해독하거나 패키징된 콘텐츠의 패키징을 풀어내는 경우에는 콘텐츠들이 불법으로 유포될 수 있다. 예를 들어, 특정 전자책 리더 장치에 적용된 DRM이 해킹되어 상기 전자책 리더 장치용 전자 출판물들이 무단으로 불법 유포된 사례가 있다.
또한, 최근에는 디지털 카메라, 스캐너, 컴퓨터 등의 기술 발전 및 이미지 처리 기술의 발전에 따라 아날로그 또는 디지털 출판물의 복제가 더욱 쉽고 정교해지고 있으며, 이에 따라 사용자가 아날로그 출판물 또는 디지털화된 출판물로부터 불법 유출을 목적으로 디지털 파일들을 생성하고 이를 배포되는 경우 불법 유통 여부 또는 저작권 침해 여부를 판단하기가 더욱 어려워지고 있다.
따라서, 종래의 콘텐츠 보호 기술에 따라 보호 기능이 적용된 콘텐츠 또는 출판물들이 악의적인 사용자에 의해 보호 기능이 해제된 경우에도 콘텐츠 식별 기술을 이용하여 출판물의 저작권 침해 여부 및 불법 유통 여부를 판단할 수 있고, 저작권을 효과적으로 보호할 수 있는 방법이 필요하다.
상기한 바와 같은 단점을 극복하기 위한 본 발명의 목적은 저작권 침해 여부를 판별하고 저작권을 효과적으로 보호할 수 있도록 출판물을 용이하게 식별할 수 있는 출판물의 핑거프린트 추출 방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 상기 출판물의 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치를 제공하는 것이다.
또한, 본 발명의 또 다른 목적은 출판물을 용이하게 식별할 수 있고, 저작권을 효과적으로 보호할 수 있는 핑거프린트를 이용한 출판물 식별 시스템을 제공하는 것이다.
또한, 본 발명의 또 다른 목적은 상기 핑거프린트를 이용한 출판물 식별 시스템의 동작 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트 추출 방법은, 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계 및 상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함한다.
상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계는, 상기 입력된 텍스트 형식의 전자문서에 대해 전처리를 수행한 후, 상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출할 수 있다.
상기 입력된 텍스트 형식의 전자문서에 대한 전처리는 오타 정정 또는 문자 복원을 포함할 수 있다.
또한, 본 발명의 목적을 달성하기 위한 본 발명의 다른 측면에 따른 핑거프린트 추출 방법은, 이미지 형태의 전자문서가 입력되는 단계와, 입력된 상기 이미지 형태의 전자문서가 텍스트 기반 전자문서인 경우 상기 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 단계와, 상기 변환된 텍스트 형태의 전자문서로부터 텍스트를 추출하는 단계 및 상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함한다.
상기 이미지 형태의 전자문서가 입력되는 단계는, 상기 이미지 형태의 전자문서가 입력된 후 상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계를 포함할 수 있다.
상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계는, 상기 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행할 수 있다.
상기 출판물의 핑거프린트 추출 방법은, 상기 입력된 상기 이미지 형태의 전자문서가 이미지 기반 전자문서인 경우에는, 상기 입력된 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계 및 상기 전처리가 수행된 이미지 형태의 전자문서로부터 이미지 핑거프린트를 추출하는 단계를 더 포함할 수 있다.
또한, 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트 추출 장치는 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 이미지 텍스트 변환부와, 상기 텍스트 형태의 전자문서로부터 텍스트를 추출하는 텍스트 추출부 및 상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 핑거프린트 추출부를 포함한다.
상기 출판물의 핑거프린트 추출 장치는 상기 입력된 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행하는 이미지 전처리부를 더 포함할 수 있다.
상기 핑거프린트 추출부는 상기 이미지 전처리부로부터 제공된 전처리된 이미지로부터 이미지 핑거프린트를 추출할 수 있다.
상기 핑거프린트 추출부는 상기 이미지 텍스트 변환부로부터 제공된 상기 텍스트 형태의 전자문서 또는 입력된 텍스트 형태의 전자문서에 대해 전처리를 수행한 후 상기 텍스트 추출부에 제공하는 텍스트 전처리부를 더 포함할 수 있다.
또한, 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트를 이용한 출판물 식별 시스템은, 원본 출판물의 핑거프린트를 추출하는 핑거프린트 추출 장치와, 상기 핑거프린트 추출 장치로부터 제공된 원본 출판물의 핑거프린트와 상기 원본 출판물의 부가 정보를 연계하여 저장하는 출판물 정보 구축 장치 및 상기 원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되는 DBMS(DataBase Management System)을 포함한다.
상기 핑거프린트 추출 장치는 상기 원본 출판물 또는 상기 질의 출판물이 텍스트 형식의 전자 문서인 경우에는, 상기 텍스트 형식의 전자 문서로부터 텍스트를 추출한 후 추출된 텍스트로부터 텍스트 핑거프린트를 추출하고, 상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 이미지 형태의 전자 문서를 텍스트 형태의 전자 문서로 변환한 후 변환된 텍스트 형태의 전자 문서로부터 텍스트를 추출하고, 추출된 텍스트로부터 텍스트 핑거프린트를 추출할 수 있다.
상기 핑거프린트 추출 장치는 상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 상기 이미지 형태의 전자 문서에 대한 전처리를 수행한 후 전처리가 수행된 이미지 형태의 전자 문서로부터 이미지 핑거프린트를 추출할 수 있다.
상기 원본 출판물의 부가 정보는 원본 출판물의 제작자, 출판사, 제목, 요약, 발행일, ISBN, 주소, 전화번호 및 팩스번호 중 적어도 하나의 정보를 포함할 수 있다.
또한, 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 다른 측면에 따른 핑거프린트를 이용한 출판물 식별 시스템은, 식별하기 위해 수집된 질의 출판물에 대한 핑거프린트를 추출하는 핑거프린트 추출 장치와, 상기 핑거프린트 추출 장치로부터 제공된 상기 질의 출판물에 대한 핑거프린트에 해당하는 원본 출판물의 핑거프린트를 질의하는 핑거프린트 질의 장치와, 원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되고, 상기 핑거프린트 질의 장치의 질의에 상응하여 적어도 하나의 원본 출판물의 핑거프린트로 구성된 검색결과 후보군을 제공하는 DBMS(DataBase Management System) 및 상기 DBMS로부터 제공된 검색결과 후보군을 검증하여 상기 질의 출판물의 저작권 침해 여부를 판단하는 후보군 검증 장치를 포함한다.
상기 후보군 검증 장치는 상기 검색 결과 후보군과 상기 질의 출판물의 핑거프린트를 비교하고, 비교결과에 기초하여 상기 질의 출판물을 식별할 수 있다.
상기 후보군 검증 장치는 상기 질의 출판물이 DBMS 내부에 존재하는 출판물로 판단되는 경우 상기 질의 출판물에 해당하는 부가 정보를 상기 DBMS로부터 획득하여 제공할 수 있다.
또한, 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트를 이용한 출판물 식별 방법은, 수집된 질의 출판물에 대한 핑거프린트를 추출하는 단계와, 상기 수집된 질의 출판물로부터 추출된 핑거프린트와 대응되는 원본 출판물의 핑거프린트를 DBMS로부터 검색하는 단계 및 적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물의 저작권 침해 여부를 식별하는 단계를 포함한다.
상기 적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물을 식별하는 단계는 상기 적어도 하나의 검색 결과를 상기 질의 출판물의 핑거프린트와 비교한 비교결과에 기초하여 상기 질의 출판물을 식별할 수 있다.
상기 핑거프린트를 이용한 출판물 식별 방법은, 상기 수집된 질의 출판물을 식별한 결과, 상기 질의 출판물이 원본 출판물과 동일하다고 판별되는 경우 상기 DBMS로부터 상기 질의 출판물에 대응되는 부가 정보를 획득하는 단계를 더 포함할 수 있다.
상술한 바와 같은 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법에 따르면, 원본 출판물을 이용하여 핑거프린트를 추출하여 출판물의 메타데이터 정보와 연계하여 관리하고, 질의 출판물의 핑거프린트를 추출하여 모르는 출판물의 정보를 식별할 수 있다. 또한, 식별된 출판물의 정보를 활용하여 출판물의 불법 유포 여부 또는 저작권 침해 여부를 판단한다.
따라서, 출판물을 직접 타이핑하거나 스캔하거나 또는 카메라로 캡쳐하여 디지털화된 출판물로 변형된 경우 또는 DRM 등의 각종 보호 장치들이 해제되거나 시스템 관리자가 접근 권한을 이용하여 원본에 준하는 디지털 출판물로 변형하여 불법 유포하는 경우에도 이를 용이하게 식별할 수 있고, 이를 통해 출판물의 불법 유포나 유통을 감소시키고 저작권의 침해를 예방할 수 있다.
또한, 본 발명의 일 실시예에 따른 핑거프린트를 이용한 출판물 식별 시스템은 출판물의 일부 정보(예를 들면, 몇 페이지 정도의 출판물)를 입력하여 본래 출판물의 정보를 검색하는 용도로 활용될 수도 있다.
도 1은 DRM 등의 보호 장치가 적용된 일반적인 콘텐츠 보호 방법을 개략적으로 나타낸 것이다.
도 2는 출판물의 저작권 보호를 위한 기술들의 예를 나타낸 것이다.
도 3은 전자 문서 형태에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
도 4는 이미지 형태의 출판물에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
도 5는 이미지 형태의 출판물에서 이미지 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 출판물의 핑거프린팅 추출 방법을 나타내는 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 장치의 구성을 나타내는 블록도이다.
도 8은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도이다.
도 9는 본 발명의 다른 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도이다.
도 10은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 출판물 식별 방법을 나타내는 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
출판물을 불법 배포하기 위한 디지털화 방법은 크게 네 가지로 구분할 수 있다.
첫째는, 출판물 제작자가 출판물을 저장한 저장매체를 분실하거나 관리를 소홀히 한 경우, 출판사에 디지털 파일 형태로 제공된 출판물 파일이 유출된 경우 또는 DRM이 해제되어 파일이 유출된 경우 등으로 원본 콘텐츠 자체가 유출되는 경우이다.
둘째는, 책 등의 형태로 인쇄된 출판물을 사용자가 직접 타이핑하여 디지털화한 경우이다. 이와 같은 경우에는 인쇄된 출판물이 전자 문서 형태로 변환되므로 대량 인쇄 등을 통해 좋은 품질의 해적판 출판물이 양산될 수 있다.
셋째는, 소설, 잡지 또는 만화책 등의 형태로 인쇄된 출판물을 사용자가 스캐너로 스캔하여 디지털화한 경우이다. 여기서, 사용자는 인쇄된 출판물을 해체하여 스캐너의 자동 입력 장치를 사용하거나, 자동으로 출판물을 넘기는 장치를 사용하거나, 손으로 직접 출판물을 넘기며 인쇄된 출판물을 스캔하여 이미지 형태로 저장함으로써 출판물을 디지털화 할 수 있다.
넷째는, 인쇄된 출판물을 사용자가 카메라를 이용하여 캡쳐하여 디지털화 하는 경우이다. 이와 같은 경우 디지털화된 파일은 이미지 형태로 저장되고, 캡쳐하는 사용자의 숙련도에 따라 품질의 차이가 발생할 수 있다.
따라서, 상술한 바와 같은 출판물을 불법 배포하기 위한 네 가지 디지털화 방법에 대응하는 저작권 보호 기술이 요구된다.
도 2는 출판물의 저작권 보호를 위한 기술들의 예를 나타낸 것이다.
도 2에 도시한 바와 같이 출판물의 저작권을 보호하기 위한 기술은 크게 세가지로 분류할 수 있다.
먼저, 출판물에서 독자에게 정보를 제공하는 수단은 크게 텍스트와 이미지가 있다. 텍스트는 소설책 등의 출판물에서 정보를 전달하는 주요 수단이며, 이미지는 잡지나 만화책 등의 출판물에서 정보를 전달하는 주요 수단이 된다.
상술한 출판물을 불법 배포하기 위한 디지털화 방법 중 첫 번째 및 두 번째 방법은 텍스트 기반의 전자 문서 형태로 디지털화하는 방법이므로 전자 문서 형태에서 텍스트 핑거프린트 기반의 출판물 식별 기술이 필요하다.
또한, 상술한 출판물을 불법 배포하기 위한 디지털 방법 중 세번째 및 네번째 방법은 이미지 형태로 출판물이 디지털화 된다. 여기서, 이미지 형태로 디지털화된 출판물이 소설책 등과 같이 텍스트 기반 출판물인 경우에는 이미지 파일 형태에서 텍스트 핑거프린트 기반의 출판물 식별 기술이 필요하고, 이미지 형태로 디지털화된 출판물이 잡지나 만화책 등과 같이 이미지 기반 출판물인 경우에는 이미지 파일 형태에서 이미지 핑거프린트 기반의 출판물 식별 기술이 필요하다. 여기서, 핑거프린트란 해당 콘텐츠 혹은 출판물의 고유한 특징 정보를 나타내는 것으로 특징점 혹은 DNA 라고 불리기도 한다.
도 3은 전자 문서 형태에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
이하, 본 발명의 실시예에서 전자 문서 형태라 함은 컴퓨터 등을 포함하는 정보 처리 장치에서 다양한 문서 작성 프로그램을 이용하여 작성되어 텍스트 형식으로 저장된 문서 파일(예를 들면, TXT, 한글 파일, 워드 파일, 텍스트 형식으로 저장된 PDF 파일)을 지칭한다.
먼저, 핑거프린트 추출 장치에 텍스트 문서가 입력되면(단계 310), 핑거프린트 추출 장치는 입력된 텍스트 문서들로부터 텍스트 추출이 원할하도록 하기 위해 텍스트 전처리를 수행한다(단계 320). 여기서, 입력되는 텍스트 문서는 상술한 바와 같이 다양한 문서 작성 프로그램을 이용하여 작성된 전자 문서들이 될 수 있다. 또한, 상기 텍스트 전처리 과정은 오타 정정이나 오류로 인해 비정상적인 형태를 가지는 문자를 복원하는 처리 과정 등을 포함할 수 있으며, 반드시 수행될 필요는 없고 필요한 경우에만 선택적으로 수행될 수 있다.
이후, 핑거프린트 추출 장치는 핑거프린트 추출을 위해 텍스트 전처리를 거친 텍스트 문서들에 대해 출판물의 정보 전달 수단인 텍스트만을 추출한다(단계 330).
핑거프린트 추출 장치는 단계 330의 실행을 통해 추출된 텍스트에 대해 핑거프린트를 추출함으로써, 텍스트 기반 전자 문서 형태의 출판물에 대한 핑거프린트를 추출한다(단계 340).
도 4는 이미지 형태의 출판물에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
먼저, 핑거프린트 추출 장치에 스캐너로 스캔되거나 카메라로 캡쳐된 이미지 파일 형태의 문서가 입력되면(단계 410), 핑거프린트 추출 장치는 입력된 이미지 파일 형태의 문서에 대해 OCR(Optical Character Recognition) 성능을 향상 시킬 수 있도록 이미지 전처리를 수행한다(단계 420). 여기서, 이미지 파일 형태는 상용 이미지 뷰어를 통해 표시될 수 있는 형태의 이미지 파일을 의미하고, 이미지 전처리는 이미지 형태의 문서에 대해 OCR을 적용할 경우 텍스트 인식 성능을 저하시킬 수 있는 요소들을 처리하는 과정으로 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 처리 과정을 포함할 수 있다.
이후, 핑거프린트 추출 장치는 전처리가 수행된 이미지 파일 형태의 문서에 대해 OCR을 수행하여 이미지 파일 형태의 문서를 텍스트 형태의 전자 문서 형태로 변환한다(단계 430). 여기서, OCR을 통해 텍스트로 변환된 전자문서에는 OCR 성능의 한계로 오인식된 비정상적인 형태의 문자(또는 잡음)가 포함될 수 있기 때문에 이를 제거하기 위한 처리 과정이 필요하다.
따라서, 핑거프린트 추출 장치는 단계 430의 실행을 통해 변환된 텍스트 형태의 전자 문서에 대해 상기한 바와 같은 비정상적인 형태의 문자 또는 잡음을 제거하기 위한 전처리 과정을 수행한다(단계 440).
이후, 핑거프린트 추출 장치는 전처리된 텍스트 형태의 전자 문서에서 텍스트를 추출하고(단계 450), 추출한 텍스트에 대해 텍스트 핑거프린트를 추출한다(단계 460).
단계 440 내지 단계 460의 텍스트 전처리 과정, 텍스트 추출 과정 및 텍스트 핑거프린트 추출 과정은 단계 430에서 수행된 OCR의 인식 알고리즘 및 성능에 상응하여 수행되는 것이 바람직하다.
즉, 도 3에 도시한 단계 320 내지 단계 340은 도 4에 도시한 단계 440 내지 단계 460과 각각 동일한 기능을 수행하나, 도 3에 도시한 핑거프린트 추출과정은 비교적 잡음이 적은 텍스트 형태의 전자 문서에 대해 핑거프린트를 추출하는 반면, 도 4에 도시한 핑거프린트 추출과정에서는 입력된 이미지 파일 형태의 문서를 OCR을 거쳐 텍스트 형태의 전자 문서로 변환한 후 핑거프린트를 추출하기 때문에 OCR의 인식 성능으로 인해 변환된 전자 문서에 잡음이 포함될 확률이 커진다.
따라서, 도 4에 도시한 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치는 도 3에 도시한 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치보다 잡음에 더 강인한 핑거프린트 추출 장치가 사용되는 것이 바람직하고, 도 4에 도시한 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치가 잡음에 강인한 장치가 사용될 경우, 도 3에 도시한 핑거프린트 추출 과정은 도 4에 포함될 수 있다.
도 5는 이미지 형태의 출판물에서 이미지 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
상술한 바와 같이 잡지책이나 만화책 등의 출판물에서는 이미지가 정보를 전달하는 주요 수단이 된다. 따라서, 상기한 바와 같이 정보를 전달하는 수단으로 이미지가 사용되는 출판물에 대해서는 저작권 보호를 위해 이미지 핑거프린트를 추출한다.
도 5를 참조하면, 먼저 핑거프린트 추출 장치는 스캐너를 통해 스캔되거나 카메라를 통해 캡쳐된 이미지 형태의 문서가 입력되면(단계 510), 입력된 이미지 형태의 문서에서 핑거프린트를 효과적으로 추출할 수 있도록 전처리기를 수행한다(단계 520). 여기서, 전처리 과정은 이미지 핑거프린트 추출을 방해할 수 있는 요소들을 제거하는 과정을 포함하고, 예를 들어 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 처리를 포함할 수 있다.
이후, 핑거프린트 추출 장치는 전처리된 이미지로부터 이미지 핑거프린트를 추출한다(단계 530).
도 6은 본 발명의 일 실시예에 따른 출판물의 핑거프린팅 추출 방법을 나타내는 흐름도로서, 상술한 도 2 내지 도 5의 내용을 종합한 것이다.
도 6을 참조하면, 먼저 핑거프린트 추출을 위한 디지털화된 출판물이 핑거프린트 추출 장치에 입력되면, 핑거프린트 추출 장치는 입력된 디지털화된 출판물이 이미지 파일인지 또는 텍스트 파일인지를 판단하고(단계 610), 이미지 파일인 경우에는 이미지에 대한 전처리를 수행한다(단계 620). 여기서, 이미지 전처리는 이미지 형태의 문서에 대해 OCR을 적용할 경우 텍스트 인식 성능을 저하시킬 수 있는 요소들 또는 이미지 핑거프린트 추출을 방해할 수 있는 요소들을 제거하는 과정으로 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 처리 과정을 포함할 수 있다.
이후, 핑거프린트 추출 장치는 전처리된 이미지가 이미지 형태의 텍스트인가를 판단하고(단계 630), 이미지 형태의 텍스트로 판단되는 경우에는 OCR을 수행하여 이미지 형태의 텍스트를 텍스트 형태의 전자 문서로 변환한다(단계 640). 여기서, OCR을 통해 텍스트로 변환된 전자문서에는 OCR 과정에서 인식 성능의 한계로 오인식된 비정상적인 형태의 문자(또는 잡음)가 포함될 수 있기 때문에 이를 제거하기 위한 처리 과정이 필요하다.
핑거프린트 추출 장치는 단계 640의 실행을 통해 변환된 텍스트 형태의 전자 문서에 대해 상기한 바와 같은 비정상적인 형태의 문자 또는 잡음을 제거하기 위한 텍스트 전처리 과정을 수행한다(단계 650).
이후, 핑거프린트 추출 장치는 전처리된 텍스트 형태의 전자 문서에서 텍스트를 추출하고(단계 660), 추출한 텍스트에 대해 텍스트 핑거프린트를 추출한다(단계 670).
또는, 도 6의 단계 610에서 판단 결과 입력된 디지털화된 출판물이 텍스트 문서인 것으로 판단되면, 핑거프린트 추출 장치는 단계 620 내지 640을 수행하지 않고 단계 650으로 진행하여 단계 650 내지 단계 670을 순차적으로 수행한다.
또한, 도 6의 단계 630에서 전처리된 이미지가 이미지 형태의 텍스트가 아니고 잡지나 만화 등과 같은 이미지인 경우, 핑거프린트 추출 장치는 단계 640 내지 670을 수행하지 않고, 단계 680으로 진행하여 전처리된 이미지로부터 이미지 핑거프린트를 추출한다(단계 680).
도 7은 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 장치의 구성을 나타내는 블록도이다.
도 7을 참조하면, 본 발명의 일 실시예에 따른 핑거프린트 추출 장치(700)는 제어부(710), 이미지 전처리부(720), 이미지-텍스트 변환부(730), 텍스트 전처리부(740), 텍스트 추출부(750) 및 핑거프린트 추출부(760)를 포함할 수 있다.
제어부(710)는 입력된 디지털화된 출판물의 종류를 판단하고, 판단 결과에 따라 입력된 디지털화된 출판물을 이미지 전처리부(720) 또는 텍스트 전처리부(740)에 제공한다.
예를 들어, 제어부(710)는 입력된 출판물이 스캐너로 스캔되거나 카메라로 캡쳐된 이미지 형태의 전자 문서인 경우에는 이미지 전처리부에 제공하고, 입력된 출판물이 텍스트 형태의 전자 문서인 경우에는 텍스트 전처리부(740)에 제공한다.
또한, 제어부(710)는 상기한 기능 이외에도 핑거프린트 추출 장치를 구성하는 다른 구성요소들의 동작을 제어할 수 있다.
이미지 전처리부(720)는 제어부(710)로부터 제공된 이미지 형태의 전자 문서에 대해 OCR의 인식 성능을 향상 시킬 수 있도록 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 전처리를 수행한 후, 전처리가 수행된 이미지의 종류를 판단하여 전처리가 수행된 이미지가 텍스트로 구성된 이미지 형태의 전자 문서인 경우에는 이미지-텍스트 변환부(730)에 제공하고, 전처리가 수행된 이미지가 잡지 또는 만화 등과 같이 이미지로 구성된 경우에는 핑거프린트 추출부(760)에 제공한다.
이미지-텍스트 변환부(730)는 OCR로 구성될 수 있고, 이미지 전처리부(730)로부터 제공된 전처리된 이미지를 텍스트 형태의 전자 문서로 변환한 후, 변환된 텍스트 형태의 전자 문서를 텍스트 추출부(750)에 제공한다.
텍스트 전처리부(740)는 텍스트 전처리부(740) 또는 제어부(710)로부터 제공된 텍스트 형태의 전자 문서에 대해 비정상적인 형태의 문자 또는 잡음을 제거하기 위한 전처리 과정을 수행한 후, 전처리된 텍스트 형태의 전자 문서를 텍스트 추출부에 제공한다(750).
텍스트 추출부(750)는 텍스트 전처리부(740)로부터 전처리된 텍스트 형태의 전자 문서를 제공받고, 제공받은 전자 문서에서 출판물의 정보 전달 수단인 텍스트를 추출한 후, 핑거프린트 추출부(760)에 제공한다.
핑거프린트 추출부(760)는 이미지 전처리부(720)로부터 제공된 전처리된 이미지에서 이미지 핑거프린트를 추출하거나, 텍스트 추출부(750)로부터 제공된 텍스트에서 텍스트 핑거프린트를 추출한다. 여기서, 핑거프린트 추출부(720)는 공지된 핑거프린트 추출기술을 이용하여 이미지 또는 텍스트로부터 핑거프린트를 추출할 수 있다.
구체적으로, 핑거프린트 추출부(760)는 이미지 핑거프린트 추출 모듈(761) 및 텍스트 핑거프린트 추출 모듈(763)을 포함할 수 있고, 이미지 핑거프린트 추출 모듈(761)은 이미지 전처리부(720)로부터 제공된 전처리된 이미지에서 이미지 핑거프린트를 추출하고, 텍스트 핑거프린트 추출 모듈(763)은 텍스트 추출부(750)로부터 제공된 텍스트에서 핑거프린트를 추출한다.
도 6 및 도 7에 도시한 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 방법 및 장치는 원본 출판물의 핑거프린트를 추출하기 위해 사용될 수도 있고, 인터넷을 통해 검색되거나 수집된 불법 유포된 출판물들의 핑거프린트를 추출하기 위해 사용될 수도 있고, 정보를 알고 싶은 임의의 출판물의 핑거프린트를 추출하기 위해 사용될 수도 있다. 또한, 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 방법 및 장치는 질의 출판물의 핑거프린트를 추출하는 용도로 사용될 수도 있다.
도 8은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도로서, 출판물 저작권자 또는 출판물 제공자로부터 저작권의 보호를 위해 출판물의 원본이 제공된 경우 출판물의 핑거프린트를 이용하여 데이터베이스를 구축하는 시스템을 예를 들어 도시하였다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 출판물 식별 시스템은 핑거프린트 추출 장치(700), 출판물 정보 구축 장치(810) 및 DBMS(DataBase Management System)(830)를 포함할 수 있다.
핑거프린트 추출 장치(700)는 도 7에 도시한 바와 동일한 구성을 가지며 도 6에 도시한 핑거프린트 추출 방법을 실행하여 원본 출판물의 핑거프린트를 추출한 후, 추출된 원본 출판물의 핑거프린트를 출판물 정보 구축 장치(810)에 제공한다.
출판물 정보 구축 장치(810)는 핑거프린트 추출 장치(700)로부터 원본 출판물의 핑거프린트를 제공받고, 출판물 저작권자 또는 출판물 제공자로부터 원본 출판물의 정보를 제공받은 후, 원본 출판물의 핑거프린트와 원본 출판물의 정보를 연계시켜 DBMS(830)에 제공하고, 이를 관리한다. 여기서, 원본 출판물의 정보는 원본 출판물의 제작자, 출판사, 제목, 요약, 발행일, ISBN(International Standard Book Number), 주소, 전화번호, 팩스번호 등의 원본 출판물과 관련된 다양한 정보를 포함할 수 있다.
또한, 출판물 정보 구축 장치(810)는 출판물의 관리를 위해 원본 출판물을 DBMS(830)에 저장할 수도 있고, 보안이 요구되는 경우 출판물의 전체 또는 일부를 암호화하여 DBMS(830)에 저장할 수도 있다.
DBMS(830)는 출판물 정보 구축 장치(810)로부터 제공된 원본 출판물의 핑거프린트 및 이와 연계된 출판물 정보를 저장한다. 또한, DBMS(830)는 출판물 정보 구축 장치(810)에 제공에 따라 원본 출판물을 저장할 수도 있다.
도 9는 본 발명의 다른 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도이다.
디지털 출판물의 파일 또는 디지털화된 출판물 파일은 인터넷 등을 통해 쉽게 유포될 수 있다. 예를 들어, 출판물 파일들은 P2P, 토렌트, 웹하드, 카페, 블로그 등과 같이 다양한 인터넷 경로를 통해 유포될 수 있다. 또한, 디지털 파일의 특성으로 인해 디지털 출판물 또는 디지털화된 출판물은 복사 및 이동이 용이하기 때문에 휴대용 저장장치나 휴대용 단말 등을 통해서도 유포될 수 있다.
도 9에 도시한 본 발명의 다른 실시예에 따른 출판물 식별 시스템은 상기한 바와 같이 다양한 경로를 통해 불법 유포된 출판물 또는 저작권 침해 출판물을 식별하거나 알고 싶은 출판물을 식별하기 위해 사용된다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 출판물 식별 시스템은 핑거프린트 추출 장치(700), 핑거프린트 질의 장치(820), DBMS(830) 및 후보군 검증 장치(840)를 포함할 수 있다.
핑거프린트 추출 장치(700)는 도 7에 도시한 바와 동일한 구성을 가지며 도 6에 도시한 핑거프린트 추출 방법을 실행한다. 핑거프린트 추출 장치(700)는 출판물의 불법 유통 또는 저작권 침해 여부를 식별하기 위해 다양한 경로를 통해 검색 및 수집된 질의 출판물들의 핑거프린트를 추출한 후, 추출된 핑거프린트를 핑거프린트 질의 장치(820)에 제공한다.
핑거프린트 질의 장치(820)는 핑거프린트 추출 장치(700)로부터 제공된 질의 출판물들의 핑거프린트를 DBMS(830)에 질의한다. 또한, 핑거프린트 질의 장치(820)는 핑거프린트 추출 장치(700)로부터 제공된 질의 출판물의 핑거프린트를 후보군 검증 장치(840)에 제공한다.
DBMS(830)는 핑거프린트 질의 장치(820)로부터 질의 출판물의 핑거프린트를 제공받고, 이에 대응되는 핑거프린트를 데이터베이스에서 검색한 후 검색된 적어도 하나의 검색 결과 후보군을 후보군 검증 장치(840)에 제공한다. 여기서, 상기 검색 결과 후보군은 상기 질의 출판물의 핑거프린트와 유사한 적어도 하나의 원본 출판물의 핑거프린트 및 해당 출판물의 정보를 포함할 수 있다.
후보군 검증 장치(840)는 DBMS(830)로부터 제공된 검색 결과 후보군을 검증하여 질의 출판물의 질의 출판물의 불법 유포 또는 저작권 침해 여부를 판별한다.
예를 들어, 후보군 검증 장치(840)는 DBMS(830)로부터 제공된 검색 결과 후보군과 핑거프린트 질의 장치(820)로부터 제공된 질의 출판물의 핑거프린트를 비교하여 질의 출판물의 불법 유포 또는 저작권 침해 여부를 판별할 수 있다. 또한, 후보군 검증 장치(840)는 불법 유포 또는 저작권이 침해된 출판물의 정보를 DBMS(830)로부터 획득하여 해당 기관 또는 관리자에게 제공할 수도 있다.
도 8 및 도 9에 도시한 출판물 식별 시스템에서 핑거프린트 추출 장치는 출판물의 핑거프린트를 추출하기 위해 많은 처리 시간을 요구하기 때문에 시스템의 부하를 감소시키기 위해 클라우드 컴퓨팅 개념을 이용하여 핑거프린트 추출 장치를 분산시켜 구성할 수 있다. 또한, 출판물 식별 시스템의 성능을 향상시키고 전체적인 부하를 감소시키기 위해 해시 등의 기술을 이용하여 한번 검색된 파일은 따로 처리하여 다시 검색하는 과정을 방지하는 기술을 이용할 수도 있다.
도 10은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 출판물 식별 방법을 나타내는 흐름도이다.
도 10을 참조하면, 먼저 출판물 식별 시스템은 불법 유통되거나 저작권을 침해하는 것으로 의심되는 출판물을 질의 출판물로 검색 및 수집하고(단계 1010), 수집된 질의 출판물의 핑거프린트를 추출한다(단계 1020).
이후, 출판물 식별 시스템은 추출된 핑거프린트에 대응되는 출판물을 DBMS에 질의하여(단계 1030), DBMS로부터 해당 검색 결과 후보군을 획득한다(단계 1040). 여기서, DBMS로부터 획득한 검색 결과 후보군은 질의 출판물의 핑거프린트에 대응되는 적어도 하나의 출판물들의 핑거프린트들을 포함할 수 있다.
이후, 출판물 식별 시스템은 획득한 검색 결과 후보군들에 대한 검증을 수행하여 불법 유포(또는 유통)되거나, 저작권이 침해된 것으로 판단되는 해당 출판물을 식별한다(단계 1050). 여기서, 출판물 식별 시스템은 단계 1020의 수행을 통해 추출된 핑거프린트와 DBMS로부터 제공된 핑거프린트를 비교 결과에 기초하여 해당 출판물을 식별할 수 있다.
이후, 출판물 식별 시스템은 불법 유포 또는 저작권이 침해된 출판물의 정보를 DBMS로부터 획득하여 획득한 정보를 제공한다(단계 1060).
상술한 바와 같이 본 발명의 일 실시예에 따른 출판물 식별 시스템은 미리 저작권 보호를 요청한 출판물에 대해 원본 출판물을 이용하여 핑거프린트를 추출하여 출판물의 메타데이터 정보와 연계하여 관리함으로써 출판물의 식별 및 저작권 보호를 위한 시스템을 구축하고, 출판물의 핑거프린트를 이용하여 불법 유포되거나 저작권이 침해된 출판물을 식별함으로써 저작권을 보호할 수 있다.
또한, 본 발명은 핑거프린트들을 이용하여 암호화 및 패키징 방법이 해제된 상황에서 불법 유통을 차단하고, 추후에 해당된 출판물들이 온라인상에 무단으로 유포됐을 경우에 적절한 보호 조치를 취할 수 있도록 한다.
또한, 본 발명의 일 실시예에 따른 핑거프린트를 이용한 출판물 식별 시스템은 출판물의 일부 정보(예를 들면, 몇 페이지 정도의 출판물)를 입력하여 본래 출판물의 정보를 검색하는 목적으로도 활용될 수도 있다. 이는 본 발명의 일 실시예에 따른 출판물 식별 시스템이 콘텐츠 고유의 정보를 나타내는 특징점을 이용한 핑거프린트를 이용함으로써 가능하게 된다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (20)

  1. 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계; 및
    상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함하는 출판물의 핑거프린트 추출 방법.
  2. 제1항에 있어서, 상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계는,
    상기 입력된 텍스트 형식의 전자문서에 대해 전처리를 수행한 후, 상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  3. 제2항에 있어서, 상기 입력된 텍스트 형식의 전자문서에 대한 전처리는 오타 정정 또는 문자 복원을 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  4. 이미지 형태의 전자문서가 입력되는 단계;
    입력된 상기 이미지 형태의 전자문서가 텍스트 기반 전자문서인 경우 상기 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 단계;
    상기 변환된 텍스트 형태의 전자문서로부터 텍스트를 추출하는 단계; 및
    상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함하는 출판물의 핑거프린트 추출 방법.
  5. 제4항에 있어서, 상기 이미지 형태의 전자문서가 입력되는 단계는,
    상기 이미지 형태의 전자문서가 입력된 후 상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계를 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  6. 제5항에 있어서, 상기 상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계는,
    상기 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  7. 제4항에 있어서, 상기 출판물의 핑거프린트 추출 방법은,
    상기 입력된 상기 이미지 형태의 전자문서가 이미지 기반 전자문서인 경우에는,
    상기 입력된 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계; 및
    상기 전처리가 수행된 이미지 형태의 전자문서로부터 이미지 핑거프린트를 추출하는 단계를 더 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  8. 제4항에 있어서, 상기 변환된 텍스트 형태의 전자문서로부터 텍스트를 추출하는 단계는,
    상기 변환된 텍스트 형식의 전자문서에 대해 전처리를 수행한 후, 상기 변환된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  9. 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 이미지 텍스트 변환부;
    상기 텍스트 형태의 전자문서로부터 텍스트를 추출하는 텍스트 추출부; 및
    상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 핑거프린트 추출부를 포함하는 출판물의 핑거프린트 추출 장치.
  10. 제9항에 있어서, 상기 출판물의 핑거프린트 추출 장치는
    상기 입력된 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행하는 이미지 전처리부를 더 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 장치.
  11. 제10항에 있어서, 상기 핑거프린트 추출부는
    상기 이미지 전처리부로부터 제공된 전처리된 이미지로부터 이미지 핑거프린트를 추출하는 것을 특징으로 하는 출판물의 핑거프린트 추출 장치.
  12. 제9항에 있어서, 상기 핑거프린트 추출부는
    상기 이미지 텍스트 변환부로부터 제공된 상기 텍스트 형태의 전자문서 또는 입력된 텍스트 형태의 전자문서에 대해 전처리를 수행한 후 상기 텍스트 추출부에 제공하는 텍스트 전처리부를 더 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 장치.
  13. 원본 출판물의 핑거프린트를 추출하는 핑거프린트 추출 장치;
    상기 핑거프린트 추출 장치로부터 제공된 원본 출판물의 핑거프린트와 상기 원본 출판물의 부가 정보를 연계하여 저장하는 출판물 정보 구축 장치; 및
    상기 원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되는 DBMS(DataBase Management System)을 포함하는 핑거프린트를 이용한 출판물 식별 시스템.
  14. 제13항에 있어서, 상기 핑거프린트 추출 장치는
    상기 원본 출판물 또는 상기 질의 출판물이 텍스트 형식의 전자 문서인 경우에는, 상기 텍스트 형식의 전자 문서로부터 텍스트를 추출한 후 추출된 텍스트로부터 텍스트 핑거프린트를 추출하고, 상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 이미지 형태의 전자 문서를 텍스트 형태의 전자 문서로 변환한 후 변환된 텍스트 형태의 전자 문서로부터 텍스트를 추출하고, 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  15. 제14항에 있어서, 상기 핑거프린트 추출 장치는
    상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 상기 이미지 형태의 전자 문서에 대한 전처리를 수행한 후 전처리가 수행된 이미지 형태의 전자 문서로부터 이미지 핑거프린트를 추출하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  16. 제13항에 있어서, 상기 원본 출판물의 부가 정보는
    원본 출판물의 제작자, 출판사, 제목, 요약, 발행일, ISBN, 주소, 전화번호 및 팩스번호 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  17. 저작권 침해을 식별하기 위해 수집된 질의 출판물에 대한 핑거프린트를 추출하는 핑거프린트 추출 장치;
    상기 핑거프린트 추출 장치로부터 제공된 상기 질의 출판물에 대한 핑거프린트에 해당하는 원본 출판물의 핑거프린트를 질의하는 핑거프린트 질의 장치;
    원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되고, 상기 핑거프린트 질의 장치의 질의에 상응하여 적어도 하나의 원본 출판물의 핑거프린트로 구성된 검색결과 후보군을 제공하는 DBMS(DataBase Management System); 및
    상기 DBMS로부터 제공된 검색결과 후보군을 검증하여 상기 질의 출판물의 저작권 침해 여부를 판단하는 후보군 검증 장치를 포함하는 핑거프린트를 이용한 출판물 식별 시스템.
  18. 제17항에 있어서, 상기 후보군 검증 장치는
    상기 검색 결과 후보군과 상기 질의 출판물의 핑거프린트를 비교하고, 비교결과에 기초하여 상기 질의 출판물을 식별하며, 상기 질의 출판물이 상기 DBMS 내부에 존재하는 출판물로 판단되는 경우 상기 질의 출판물에 해당하는 부가 정보를 상기 DBMS로부터 획득하여 제공하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  19. 수집된 질의 출판물에 대한 핑거프린트를 추출하는 단계;
    상기 수집된 질의 출판물로부터 추출된 핑거프린트와 대응되는 원본 출판물의 핑거프린트를 DBMS로부터 검색하는 단계; 및
    적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물을 식별하는 단계를 포함하는 핑거프린트를 이용한 출판물 식별 방법.
  20. 제19항에 있어서, 상기 적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물을 질의 출판물을 식별하는 단계는
    상기 적어도 하나의 검색 결과를 상기 질의 출판물의 핑거프린트와 비교한 비교결과에 기초하여 상기 질의 출판물을 식별하고, 상기 수집된 질의 출판물을 식별한 결과 상기 질의 출판물이 원본 출판물과 동일하다고 판별되는 경우 상기 DBMS로부터 상기 질의 출판물에 대응되는 부가 정보를 획득하는 단계를 더 포함하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 방법.
KR20110023069A 2010-10-14 2011-03-15 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 KR101491446B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN2011800494631A CN103154957A (zh) 2010-10-14 2011-10-13 出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法
PCT/KR2011/007633 WO2012050379A2 (ko) 2010-10-14 2011-10-13 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
US13/879,398 US20130290330A1 (en) 2010-10-14 2011-10-13 Method for extracting fingerprint of publication, apparatus for extracting fingerprint of publication, system for identifying publication using fingerprint, and method for identifying publication using fingerprint
JP2013533773A JP2013543178A (ja) 2010-10-14 2011-10-13 出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100100508 2010-10-14
KR1020100100508 2010-10-14

Publications (2)

Publication Number Publication Date
KR20120038880A true KR20120038880A (ko) 2012-04-24
KR101491446B1 KR101491446B1 (ko) 2015-02-23

Family

ID=46139476

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20110023069A KR101491446B1 (ko) 2010-10-14 2011-03-15 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법

Country Status (4)

Country Link
US (1) US20130290330A1 (ko)
JP (1) JP2013543178A (ko)
KR (1) KR101491446B1 (ko)
CN (1) CN103154957A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479412B1 (ko) * 2013-07-08 2015-01-05 연세대학교 산학협력단 디지털 컨텐츠 식별 방법 및 장치
CN110574038A (zh) * 2017-05-02 2019-12-13 指纹卡有限公司 从指纹图像中提取指纹特征数据
KR102126839B1 (ko) * 2019-03-28 2020-06-25 (주)아이와즈 딥러닝 기반 국가별 저작물 검색 시스템

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101577376B1 (ko) * 2014-01-21 2015-12-14 (주) 아워텍 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법
KR101558260B1 (ko) 2014-09-15 2015-10-12 주식회사 디알엠인사이드 고속 복제물 검출 시스템 및 방법
CN106055539B (zh) * 2016-05-27 2018-12-28 中国科学技术信息研究所 姓名消歧的方法和装置
US10108883B2 (en) * 2016-10-28 2018-10-23 Intuit Inc. Image quality assessment and improvement for performing optical character recognition
KR102026956B1 (ko) 2017-10-17 2019-09-30 (주)아이와즈 디지털 저작물 유통 모니터링 시스템
CN110390352A (zh) * 2019-06-26 2019-10-29 华中科技大学 一种基于相似性哈希的图像暗数据价值评估方法
CN111177666A (zh) * 2019-12-30 2020-05-19 北京天威诚信电子商务服务有限公司 基于脆弱水印的司法文书防伪防篡改方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040021549A1 (en) * 2000-06-10 2004-02-05 Jong-Uk Choi System and method of providing and autheticating works and authorship based on watermark technique
US20030105739A1 (en) * 2001-10-12 2003-06-05 Hassane Essafi Method and a system for identifying and verifying the content of multimedia documents
JP3952958B2 (ja) * 2003-01-22 2007-08-01 キヤノン株式会社 画像処理装置、画像処理方法
JP2006301835A (ja) * 2005-04-19 2006-11-02 Fuji Xerox Co Ltd 取引書類管理方法及びシステム
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
WO2007049340A1 (ja) * 2005-10-25 2007-05-03 Fujitsu Limited 電子透かしの埋め込み及び検出
KR20070106475A (ko) * 2007-08-27 2007-11-01 (주)코인미디어 랩 텍스트 복제 탐지 방법
EP2204979A1 (en) * 2008-12-30 2010-07-07 Irdeto Access B.V. Fingerprinting a data object with multiple watermarks

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479412B1 (ko) * 2013-07-08 2015-01-05 연세대학교 산학협력단 디지털 컨텐츠 식별 방법 및 장치
CN110574038A (zh) * 2017-05-02 2019-12-13 指纹卡有限公司 从指纹图像中提取指纹特征数据
CN110574038B (zh) * 2017-05-02 2023-09-12 指纹卡安娜卡敦知识产权有限公司 从指纹图像中提取指纹特征数据
KR102126839B1 (ko) * 2019-03-28 2020-06-25 (주)아이와즈 딥러닝 기반 국가별 저작물 검색 시스템

Also Published As

Publication number Publication date
KR101491446B1 (ko) 2015-02-23
US20130290330A1 (en) 2013-10-31
JP2013543178A (ja) 2013-11-28
CN103154957A (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
KR101491446B1 (ko) 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
JP3784635B2 (ja) データ運用方法
US7447329B2 (en) Apparatus and method for producing a document verifiable for its forgery or alteration, and apparatus and method for authenticating the document
JP3542678B2 (ja) 電子文書の単語間の空白部分の長さを利用した符号化および復号化方法、電子文書への署名情報の埋め込み方法、機密文書の暗号化方法
US8051492B2 (en) System and method for tracing tardos fingerprint codes
US6868405B1 (en) Copy detection for digitally-formatted works
US20120317421A1 (en) Fingerprinting Executable Code
US8695061B2 (en) Document process system, image formation device, document process method and recording medium storing program
US8873863B2 (en) System and method for fingerprinting for comics
US20130024698A1 (en) Digital content management system, device, program and method
JP2008083910A (ja) ソフトウエア管理システムおよびソフトウエア管理プログラム
KR101803066B1 (ko) 불법 복제된 서적의 통합 식별 시스템 및 방법
CN104517045A (zh) 数字文档保护方法及系统
KR101560716B1 (ko) 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템
JP2004185312A (ja) 文書管理装置
Elbegbayan Winnowing, a document fingerprinting algorithm
JP5972471B2 (ja) データ処理装置及びデータ処理方法及びプログラム
WO2012050379A2 (ko) 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
JP2007164632A (ja) 情報処理装置及び情報処理方法並びにプログラム
Mousse Electronic Document Securisation based on Document Structure
CN116226885B (zh) 一种复印机保密检查取证系统及方法
Wang et al. CryptoPaper: Digital information security for physical documents
Contreras et al. Protection of relational databases by means of watermarking: recent advances and challenges
KR101068792B1 (ko) Hash코드를 이용한 인터넷 공유 사이트에서의 영상 컨텐츠 저작권 보호 방법
JP2007249822A (ja) ソフトウエア管理システムおよびソフトウエア管理プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180129

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190125

Year of fee payment: 5