WO2012050379A2 - 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 - Google Patents

출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 Download PDF

Info

Publication number
WO2012050379A2
WO2012050379A2 PCT/KR2011/007633 KR2011007633W WO2012050379A2 WO 2012050379 A2 WO2012050379 A2 WO 2012050379A2 KR 2011007633 W KR2011007633 W KR 2011007633W WO 2012050379 A2 WO2012050379 A2 WO 2012050379A2
Authority
WO
WIPO (PCT)
Prior art keywords
fingerprint
publication
text
image
electronic document
Prior art date
Application number
PCT/KR2011/007633
Other languages
English (en)
French (fr)
Other versions
WO2012050379A3 (ko
Inventor
윤영석
박지현
이상광
김정현
서영호
서용석
이승재
김성민
이정호
유원영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR20110023069A external-priority patent/KR101491446B1/ko
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to CN2011800494631A priority Critical patent/CN103154957A/zh
Priority to US13/879,398 priority patent/US20130290330A1/en
Priority to JP2013533773A priority patent/JP2013543178A/ja
Publication of WO2012050379A2 publication Critical patent/WO2012050379A2/ko
Publication of WO2012050379A3 publication Critical patent/WO2012050379A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/105Arrangements for software license management or administration, e.g. for managing licenses at corporate level

Definitions

  • the present invention relates to content identification, and more particularly, to a fingerprint extraction method of a publication, a fingerprint extraction apparatus of a publication, a publication identification system using a fingerprint, and a publication identification method using a fingerprint.
  • DRM Digital Rights Management
  • DPP Digital Property Protection
  • FIG. 1 schematically shows a general content protection method to which a protection device such as DRM is applied.
  • Content Providers encrypt and package content using original content and an encryption key and provide the same, and users access the corresponding DRM server to perform a purchase authentication process to provide the corresponding content. You must obtain a legitimate purchase to obtain a key to unlock the password and a license to use the content so that the content can be played.
  • Conventional copyright protection method is to protect the copyright of the content by using an encryption or packaging method.
  • the contents may be illegally distributed.
  • the DRM applied to a specific e-book reader device is hacked, and the electronic publications for the e-book reader device are illegally distributed.
  • the content identification technology can be used to determine whether the publication is infringing or illegal distribution. There is a need for effective protection of copyright.
  • An object of the present invention to overcome the above disadvantages is to provide a fingerprint extraction method of a publication that can easily identify the publication to determine whether copyright infringement and effective copyright protection.
  • Another object of the present invention is to provide a fingerprint extraction apparatus for performing a fingerprint extraction method of the publication.
  • Another object of the present invention is to provide a publication identification system using a fingerprint that can easily identify a publication and effectively protect copyrights.
  • Another object of the present invention is to provide a method of operating a publication identification system using the fingerprint.
  • Fingerprint extraction method for achieving the above object of the present invention, extracting a text from the electronic document of the input text format and extracting a text fingerprint from the extracted text Include.
  • the text after performing preprocessing on the electronic text in the input text format, the text may be extracted from the electronic text in the input text format.
  • the preprocessing of the input text format electronic document may include a typo correction or character restoration.
  • the fingerprint extraction method for achieving the object of the present invention, the step of inputting an electronic document in the form of an image, and if the input electronic document in the form of a text-based electronic document Converting an electronic document in the form of an input image into an electronic document in the form of text, extracting text from the converted electronic document in the form of text, and extracting a text fingerprint from the extracted text.
  • the step of inputting the electronic document in the form of an image may include performing preprocessing on the electronic document in the form of an image after the electronic document in the form of an image is input.
  • the performing of the preprocessing on the electronic document in the image form may perform at least one of noise removal, page separation, image rotation, and tilt adjustment of the image included in the electronic document in the image form.
  • the method when the input electronic document in the form of an image is an image-based electronic document, performing the preprocessing on the electronic document in the input image form and the image form in which the preprocessing is performed.
  • the method may further include extracting an image fingerprint from the electronic document.
  • the fingerprint extraction apparatus for achieving another object of the present invention is an image text conversion unit for converting an electronic document of the input image form into an electronic document of the text form, and the electronic form of the text
  • the apparatus for extracting a fingerprint of the publication may further include an image preprocessor configured to perform at least one of noise reduction, page separation, image rotation, and tilt adjustment of an image included in the electronic document in the input image form.
  • the fingerprint extractor may extract an image fingerprint from a preprocessed image provided from the image preprocessor.
  • the fingerprint extracting unit may further include a text preprocessing unit provided to the text extracting unit after preprocessing the electronic document in the text form or the electronic document in the input text form provided from the image text converting unit.
  • a publication identification system using a fingerprint for achieving another object of the present invention
  • the fingerprint extraction device for extracting the fingerprint of the original publication, and the original provided from the fingerprint extraction device
  • a publication information construction device for storing a fingerprint of a publication and additional information of the original publication
  • a DBMS DataBase Management System
  • the fingerprint extracting apparatus extracts text from the electronic document in text format, and then extracts a text fingerprint from the extracted text.
  • the query publication is an electronic document in the form of an image
  • the electronic document in the form of an image may be converted into an electronic document in a text form, and then the text may be extracted from the converted text form and the text fingerprint may be extracted from the extracted text. have.
  • the fingerprint extracting apparatus extracts an image fingerprint from the electronic document in the form of an image after performing the preprocessing on the electronic document in the form of an image. can do.
  • the additional information of the original publication may include at least one of a producer, a publisher, a title, a summary, a publication date, an ISBN, an address, a telephone number, and a fax number of the original publication.
  • the fingerprint extraction apparatus for extracting a fingerprint for the collected query publications for identification, and the finger
  • a fingerprint query device for querying a fingerprint of an original publication corresponding to a fingerprint for the query publication provided from a print extraction device, a fingerprint extracted from the original publication, and additional information of the original publication
  • a DBMS DataBase Management System
  • a DBMS DataBase Management System
  • the candidate group verification apparatus may compare the search result candidate group and the fingerprint of the query publication, and identify the query publication based on a comparison result.
  • the candidate group verification apparatus may obtain and provide additional information corresponding to the query publication from the DBMS.
  • the publication identification method using a fingerprint for the collected query publication, and extracted from the collected query publication Retrieving a fingerprint of the original publication corresponding to the fingerprint from the DBMS and identifying whether the collected query publication is infringing based on at least one search result.
  • Identifying the collected query publications based on the at least one search result may identify the query publications based on a comparison result of comparing the at least one search result with a fingerprint of the query publication.
  • the publication identification method using the fingerprint may further include obtaining additional information corresponding to the query publication from the DBMS when it is determined that the query publication is identical to the original publication as a result of identifying the collected query publication. can do.
  • the fingerprint extraction apparatus of the publication the publication identification system using the fingerprint, and the publication identification method using the fingerprint
  • the fingerprint of the publication is extracted by using the original publication. It manages in association with information, and extracts fingerprints of query publications to identify unknown publication information.
  • the information of the identified publication is used to determine whether the publication is illegally distributed or copyright infringement.
  • a publication identification system using a fingerprint may be used for retrieving the information of the original publication by inputting some information of the publication (for example, a publication of several pages).
  • FIG. 1 schematically shows a general content protection method to which a protection device such as DRM is applied.
  • FIG. 3 is a flowchart illustrating a method of extracting a text fingerprint in the form of an electronic document.
  • FIG. 4 is a flowchart illustrating a method of extracting a text fingerprint from a publication in the form of an image.
  • FIG. 5 is a flowchart illustrating a method of extracting an image fingerprint from a publication in the form of an image.
  • FIG. 6 is a flowchart illustrating a fingerprinting extraction method of a publication according to an embodiment of the present invention.
  • FIG. 7 is a block diagram showing a configuration of a fingerprint extraction apparatus of a publication according to an embodiment of the present invention.
  • FIG. 8 is a block diagram showing the configuration of a publication identification system according to an embodiment of the present invention.
  • FIG. 9 is a block diagram showing the configuration of a publication identification system according to another embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating a publication identification method of a publication identification system according to an exemplary embodiment of the present invention.
  • the original content itself may be lost if the creator of the publication loses or neglects the storage medium in which the publication was stored, if the publication file provided to the publisher in the form of a digital file is leaked, or if the file is leaked due to the release of DRM. If it leaks.
  • the second case is a case in which a user directly digitizes a publication printed in a book form.
  • a user since the printed publication is converted into an electronic document form, a pirated publication of good quality can be mass-produced through mass printing.
  • the third is a case where the user digitizes a publication printed in the form of a novel, magazine or comic book by scanning with a scanner.
  • the user can digitize the publication by using the scanner's automatic input device by dismantling the printed publication, using a device that automatically turns the publication, or by handing the publication by hand and scanning the printed publication and storing it as an image. Can be.
  • the printed publication is digitized by the user using a camera.
  • the digitized file may be stored in the form of an image, and a difference in quality may occur according to the skill of the capturing user.
  • Text is a major means of conveying information in publications such as novels
  • images are a major means of conveying information in publications such as magazines and comic books.
  • the third and fourth methods of the digital method for illegally distributing the above-mentioned publications are digitalized in the form of images.
  • a text fingerprint based publication identification technique is required in the form of an image file
  • the publication digitized in the form of an image is an image-based publication such as a magazine or a comic book.
  • an image fingerprint based publication identification technique is required in the form of an image file.
  • the fingerprint represents characteristic information unique to the content or publication and may also be called a feature point or DNA.
  • FIG. 3 is a flowchart illustrating a method of extracting a text fingerprint in the form of an electronic document.
  • an electronic document form is a document file (for example, TXT, Korean file, word file, etc.) that is created using various document creation programs in an information processing apparatus including a computer and stored in a text format. , PDF files stored in text format).
  • a document file for example, TXT, Korean file, word file, etc.
  • PDF files stored in text format
  • the fingerprint extraction apparatus performs text preprocessing so that text extraction from the input text documents is desired (step 320).
  • the input text document may be electronic documents created using various document creation programs as described above.
  • the text preprocessing process may include a process of restoring a character having an abnormal shape due to a typo correction or an error, and may not be necessarily performed and may be selectively performed only when necessary.
  • the fingerprint extraction apparatus extracts only text, which is an information transmitting means of the publication, of text documents that have undergone text preprocessing for fingerprint extraction (step 330).
  • the fingerprint extraction apparatus extracts a fingerprint for the text extracted through the execution of step 330, thereby extracting a fingerprint for the publication in the form of a text-based electronic document (step 340).
  • FIG. 4 is a flowchart illustrating a method of extracting a text fingerprint from a publication in the form of an image.
  • the fingerprint extractor performs OCR (Optical Character Recognition) performance on the document in the form of an input image file.
  • Image preprocessing is performed to improve (step 420).
  • the image file type refers to an image file that can be displayed through a commercial image viewer
  • image preprocessing is a process of processing elements that may degrade text recognition performance when OCR is applied to an image type document. This can include processing such as noise reduction, page separation, rotation, and tilt adjustment.
  • the fingerprint extracting apparatus performs OCR on the document in the form of the image file which has been preprocessed to convert the document in the form of the image file into the form of the electronic document in the form of text (step 430).
  • an electronic document converted to text through OCR may include an abnormally shaped character (or noise) that is mistaken as a limitation of OCR performance.
  • the fingerprint extraction apparatus performs a preprocessing process to remove the abnormally shaped characters or noise as described above for the electronic document of the text form converted through the execution of step 430 (step 440).
  • the fingerprint extraction apparatus extracts text from the preprocessed text-type electronic document (step 450), and extracts a text fingerprint of the extracted text (step 460).
  • the text preprocessing process, the text extraction process, and the text fingerprint extraction process of steps 440 to 460 are preferably performed corresponding to the recognition algorithm and the performance of the OCR performed in step 430.
  • steps 320 to 340 shown in FIG. 3 perform the same functions as those of steps 440 to 460 shown in FIG. 4, but the fingerprint extraction process shown in FIG.
  • the fingerprint extraction process illustrated in FIG. 4 converts an input image file type document into an electronic document in a text form via OCR, and then extracts a fingerprint. This increases the probability that the converted electronic document will contain noise.
  • the fingerprint extraction apparatus for performing the fingerprint extraction method illustrated in FIG. 4 is preferably a fingerprint extraction apparatus that is more robust to noise than the fingerprint extraction apparatus for performing the fingerprint extraction method illustrated in FIG. 3.
  • the fingerprint extraction process illustrated in FIG. 3 may be included in FIG. 4.
  • FIG. 5 is a flowchart illustrating a method of extracting an image fingerprint from a publication in the form of an image.
  • an image is a main means of transmitting information. Therefore, for the publication in which the image is used as a means of transmitting information as described above, the image fingerprint is extracted for copyright protection.
  • the fingerprint extracting apparatus may perform preprocessing to effectively extract a fingerprint from a document in the form of an input image.
  • the preprocessing may include removing elements that may interfere with image fingerprint extraction.
  • the preprocessing may include processing such as noise removal, page separation, rotation, and tilt adjustment.
  • the fingerprint extraction apparatus extracts an image fingerprint from the preprocessed image (step 530).
  • FIG. 6 is a flowchart illustrating a method for extracting a fingerprint of a publication according to an embodiment of the present invention. The contents of FIGS. 2 to 5 are synthesized.
  • the fingerprint extraction apparatus determines whether the inputted digitized publication is an image file or a text file (step 610). In the case of an image file, preprocessing of the image is performed (step 620).
  • image preprocessing is a process of removing noise elements, page separation, rotation, and the like that remove the elements that may impair the text recognition performance or the image fingerprint extraction when OCR is applied to the image type document. It may include processing such as tilt adjustment.
  • the fingerprint extraction apparatus determines whether the preprocessed image is text in the form of an image (step 630), and if it is determined that the text is in the form of an image, performs an OCR to convert the text in the form of an image into an electronic document in a text form. (Step 640).
  • an electronic document converted into text through OCR may include an abnormally shaped character (or noise) that is incorrectly recognized as a limitation of recognition performance in the OCR process.
  • the fingerprint extracting apparatus performs a text preprocessing operation to remove the abnormally shaped characters or noise of the converted electronic document in the text form (step 650).
  • the fingerprint extraction apparatus extracts text from the preprocessed text-type electronic document (step 660), and extracts a text fingerprint of the extracted text (step 670).
  • step 610 of FIG. 6 determines whether the inputted digitized publication is a text document. If it is determined in step 610 of FIG. 6 that the inputted digitized publication is a text document, the fingerprint extracting apparatus proceeds to step 650 instead of performing steps 620 to 640 and sequentially performs steps 650 to 670. do.
  • the fingerprint extraction apparatus does not perform steps 640 to 670, and proceeds to step 680 to obtain a preprocessed image.
  • the image fingerprint is extracted (step 680).
  • FIG. 7 is a block diagram showing a configuration of a fingerprint extraction apparatus of a publication according to an embodiment of the present invention.
  • the fingerprint extracting apparatus 700 may include a controller 710, an image preprocessor 720, an image-text converter 730, a text preprocessor 740, It may include a text extractor 750 and a fingerprint extractor 760.
  • the controller 710 determines the type of the inputted digitized publication, and provides the inputted digitized publication to the image preprocessor 720 or the text preprocessor 740 according to the determination result.
  • the controller 710 may provide an image preprocessing unit when the input publication is an electronic document in the form of an image scanned by a scanner or captured by a camera, and preprocess the text when the input publication is an electronic document in a text form. Provided to section 740.
  • controller 710 may control operations of other components constituting the fingerprint extraction apparatus.
  • the image preprocessor 720 performs preprocessing such as noise removal, page separation, rotation, and tilt adjustment so as to improve the recognition performance of the OCR for the electronic document in the image form provided from the controller 710, and then the preprocessing is performed. If the preprocessed image is an electronic document in the form of an image composed of text, the preprocessed image is provided to the image-to-text converter 730, and the preprocessed image is composed of an image such as a magazine or a cartoon. In case it is provided to the fingerprint extractor 760.
  • preprocessing such as noise removal, page separation, rotation, and tilt adjustment
  • the image-text converter 730 may be configured as an OCR, converts the preprocessed image provided from the image preprocessor 730 into an electronic document in a text form, and then converts the converted text document into a text extractor ( 750).
  • the text preprocessor 740 performs a preprocessing process to remove an abnormal character or noise of the text type electronic document provided from the text preprocessor 740 or the controller 710, and then the electronics of the preprocessed text type.
  • the document is provided to the text extraction unit (750).
  • the text extractor 750 receives the electronic document in the form of preprocessed text from the text preprocessor 740, extracts the text, which is an information transmission means of the publication, from the provided electronic document, and provides the extracted text to the fingerprint extractor 760. do.
  • the fingerprint extractor 760 extracts an image fingerprint from a preprocessed image provided from the image preprocessor 720 or extracts a text fingerprint from text provided from the text extractor 750.
  • the fingerprint extractor 720 may extract a fingerprint from an image or text using a known fingerprint extraction technique.
  • the fingerprint extractor 760 may include an image fingerprint extractor module 761 and a text fingerprint extractor module 763, and the image fingerprint extractor module 761 may be configured from the image preprocessor 720.
  • the image fingerprint is extracted from the provided preprocessed image, and the text fingerprint extraction module 763 extracts the fingerprint from the text provided from the text extraction unit 750.
  • the method and apparatus for extracting a fingerprint of a publication according to an embodiment of the present invention shown in FIGS. 6 and 7 may be used to extract a fingerprint of an original publication, and may be used to extract illegally distributed publications retrieved or collected through the Internet. It may be used to extract a fingerprint, or may be used to extract a fingerprint of any publication for which information is desired.
  • the fingerprint extraction method and apparatus of a publication according to an embodiment of the present invention may be used for extracting a fingerprint of a query publication.
  • FIG. 8 is a block diagram illustrating a configuration of a publication identification system according to an exemplary embodiment of the present invention, in which a database is constructed using a fingerprint of a publication when an original of the publication is provided for copyright protection from a publication copyright holder or a publication provider.
  • the system is illustrated by way of example.
  • a publication identification system may include a fingerprint extraction apparatus 700, a publication information construction apparatus 810, and a database management system (DBMS) 830.
  • DBMS database management system
  • the fingerprint extracting apparatus 700 has the same configuration as shown in FIG. 7 and extracts the fingerprint of the original publication by executing the fingerprint extraction method shown in FIG. 6, and then constructs the publication information from the fingerprint of the extracted original publication. To the device 810.
  • the publication information building device 810 is provided with the fingerprint of the original publication from the fingerprint extraction apparatus 700, and after receiving the information of the original publication from the publication copyright holder or the publication provider, the fingerprint of the original publication and the information of the original publication. Link to provide to the DBMS (830), and manages this.
  • the information of the original publication may include various information related to the original publication, such as the author, publisher, title, summary, publication date, ISBN (International Standard Book Number), address, telephone number, and fax number of the original publication.
  • the publication information building device 810 may store the original publication in the DBMS 830 for management of the publication, or may encrypt and store all or part of the publication in the DBMS 830 when security is required.
  • the DBMS 830 stores the fingerprint of the original publication provided from the publication information building apparatus 810 and the publication information associated with it. In addition, the DBMS 830 may store the original publication as provided to the publication information building apparatus 810.
  • FIG. 9 is a block diagram showing the configuration of a publication identification system according to another embodiment of the present invention.
  • Files of digital publications or digitized publication files can be easily distributed through the Internet or the like.
  • publication files can be distributed through various internet channels such as peer-to-peer, torrent, webhard, cafe, blog, and the like.
  • digital publications or digitized publications can be easily distributed and transferred through portable storage devices or portable terminals.
  • the publication identification system according to another embodiment of the present invention shown in FIG. 9 is used to identify a publication to be identified or to know illegally distributed or infringing publication through various channels as described above.
  • a publication identification system may include a fingerprint extracting apparatus 700, a fingerprint querying apparatus 820, a DBMS 830, and a candidate group verifying apparatus 840. .
  • the fingerprint extraction apparatus 700 has the same configuration as shown in FIG. 7 and executes the fingerprint extraction method shown in FIG.
  • the fingerprint extracting apparatus 700 extracts fingerprints of the query publications searched and collected through various paths to identify whether the publication is illegally distributed or copyright infringement, and then extracts the extracted fingerprints to the fingerprint query apparatus 820. to provide.
  • the fingerprint query apparatus 820 queries the DBMS 830 for fingerprints of query publications provided from the fingerprint extraction apparatus 700.
  • the fingerprint query apparatus 820 provides the candidate group verification apparatus 840 with a fingerprint of the query publication provided from the fingerprint extraction apparatus 700.
  • the DBMS 830 receives the fingerprint of the query publication from the fingerprint query device 820, searches for a corresponding fingerprint in the database, and provides the candidate group verification device 840 with at least one search result candidate group searched for.
  • the search result candidate group may include a fingerprint of at least one original publication similar to the fingerprint of the query publication and information of the publication.
  • the candidate group verification apparatus 840 verifies the search result candidate group provided by the DBMS 830 to determine whether the query publication is illegally distributed or infringed on copyright.
  • the candidate group verification apparatus 840 may compare the fingerprint of the query publication provided from the fingerprint query apparatus 820 with the search result candidate group provided from the DBMS 830 to determine whether the query publication is illegal distribution or copyright infringement. Can be.
  • the candidate group verifying apparatus 840 may obtain information of illegally distributed or infringed copyrighted publications from the DBMS 830 and provide the information to a relevant institution or administrator.
  • the fingerprint extraction apparatus requires a large processing time to extract the fingerprint of the publication, so that the fingerprint extraction apparatus using the cloud computing concept is used to reduce the load on the system. It can be configured by dispersing. In addition, in order to improve the performance of the publication identification system and reduce the overall load, a technique of processing a file once retrieved separately using a hash or the like may be prevented.
  • FIG. 10 is a flowchart illustrating a publication identification method of a publication identification system according to an exemplary embodiment of the present invention.
  • a publication identification system first searches for and collects a publication that is suspected of being illegally distributed or infringing a copyright as a query publication (step 1010), and extracts a fingerprint of the collected query publication (step 1020).
  • the publication identification system queries the DBMS for the publication corresponding to the extracted fingerprint (step 1030) and obtains a corresponding search result candidate group from the DBMS (step 1040).
  • the search result candidate group obtained from the DBMS may include fingerprints of at least one publication corresponding to the fingerprint of the query publication.
  • the publication identification system performs verification of the acquired search result candidate groups to identify corresponding publications that are determined to be illegally distributed (or distributed) or copyright infringed (step 1050).
  • the publication identification system may identify the publication based on a result of comparing the fingerprint extracted by performing step 1020 with the fingerprint provided from the DBMS.
  • the publication identification system provides the information obtained by acquiring the information of the illegally distributed or copyrighted publication from the DBMS (step 1060).
  • the publication identification system extracts a fingerprint by using an original publication and manages it in association with metadata information of a publication for a publication for which copyright protection has been requested in advance.
  • We can protect copyrights by establishing a system for and identifying illegally distributed or infringing publications using fingerprints of the publications.
  • the present invention uses fingerprints to block illegal distribution in a situation where encryption and packaging methods are released, and to take appropriate protection measures in the event that unauthorized publications are distributed online.
  • the publication identification system using a fingerprint may be used for the purpose of searching for information of the original publication by inputting some information (eg, a few pages of publication) of the publication. .
  • some information eg, a few pages of publication
  • the publication identification system according to an embodiment of the present invention using a fingerprint using feature points representing content specific information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Storage Device Security (AREA)

Abstract

저작권 침해 여부를 용이하게 식별할 수 있고, 저작권을 효과적으로 보호할 수 있는 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법이 개시된다. 핑거프린트를 이용한 출판물 식별 시스템은 저작권 침해를 식별하기 위해 수집된 질의 출판물에 대한 핑거프린트를 추출하는 핑거프린트 추출 장치와, 핑거프린트 추출 장치로부터 제공된 질의 출판물에 대한 핑거프린트에 해당하는 원본 출판물의 핑거프린트를 질의하는 핑거프린트 질의 장치와, 원본 출판물로부터 추출된 핑거프린트 및 원본 출판물의 부가 정보가 저장되고 핑거프린트 질의 장치의 질의에 상응하여 적어도 하나의 원본 출판물의 핑거프린트로 구성된 검색결과 후보군을 제공하는 DBMS 및 DBMS로부터 제공된 검색결과 후보군을 검증하여 질의 출판물의 저작권 침해 여부를 판단하는 후보군 검증 장치를 포함한다. 따라서, 출판물의 저작권 침해 여부를 용이하게 식별할 수 있고, 이를 통해 저작권 침해를 예방할 수 있다.

Description

출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
본 발명은 콘텐츠 식별에 관한 것으로, 더욱 상세하게는 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법에 관한 것이다.
텍스트 및 이미지를 포함하는 콘텐츠 또는 디지털화된 출판물은 손쉽게 복제되어 인터넷이나 P2P 등의 다양한 경로를 통해 불법적으로 유포되고 있다. 이와 같이 불법 유포된 콘텐츠들은 저작자에게 직접적으로 경제적 손실을 입힐 뿐만 아니라, 간접적으로는 저작자의 창작 의욕을 떨어뜨리는 주요 원인이 되고 있다.
콘텐츠의의 불법 유통을 방지하고 저작권을 보호하기 위하여 기존에는 콘텐츠의 판매 또는 구매시 인증된 환경하에서 콘텐츠 구매행위가 일어나도록 콘텐츠를 패키징 및 암호화하는 DRM(Digital Rights Management) 기술, 콘텐츠가 하드 디스크에 저장되지 않도록 하거나 프린트되지 않도록 제한을 두는 DPP(Digital Property Protection) 기술, 콘텐츠 내에 판매자 또는 콘텐츠 저작권자의 정보를 눈에 띄지 않게 삽입하는 워터마킹(watermarking) 기술 등이 사용되어 왔다.
도 1은 DRM 등의 보호 장치가 적용된 일반적인 콘텐츠 보호 방법을 개략적으로 나타낸 것이다.
도 1을 참조하면, 콘텐츠 제공자들(Contents Providers)은 원본 콘텐츠와 암호화키를 이용하여 콘텐츠를 암호화 및 패키징한 후 이를 제공하고, 사용자들은 해당 DRM 서버에 접속하여 구매 인증절차를 수행함으로써 해당 콘텐츠를 적법하게 구매해야만 암호를 풀 수 있는 키와 해당 콘텐츠를 사용할 수 있는 사용허가(license)를 받을 수 있고, 이를 통해 해당 콘텐츠를 재생할 수 있게 된다.
도 1에 도시한 바와 같이 종래에는 콘텐츠 제공자들이 DRM 등의 암호화 및 패키징 방식의 보호 방법을 적용하여 콘텐츠 제작자들의 권리를 보호하여 왔고, 종래의 저작권 보호 방법들은 상기한 방법의 변형된 형태로 발전 및 계승되어 왔다.
종래의 저작권 보호 방법은 암호화 혹은 패키징 방식을 이용하여 콘텐츠들의 저작권을 보호하게 된다. 그러나, 암호화된 콘텐츠의 암호를 해독하거나 패키징된 콘텐츠의 패키징을 풀어내는 경우에는 콘텐츠들이 불법으로 유포될 수 있다. 예를 들어, 특정 전자책 리더 장치에 적용된 DRM이 해킹되어 상기 전자책 리더 장치용 전자 출판물들이 무단으로 불법 유포된 사례가 있다.
또한, 최근에는 디지털 카메라, 스캐너, 컴퓨터 등의 기술 발전 및 이미지 처리 기술의 발전에 따라 아날로그 또는 디지털 출판물의 복제가 더욱 쉽고 정교해지고 있으며, 이에 따라 사용자가 아날로그 출판물 또는 디지털화된 출판물로부터 불법 유출을 목적으로 디지털 파일들을 생성하고 이를 배포되는 경우 불법 유통 여부 또는 저작권 침해 여부를 판단하기가 더욱 어려워지고 있다.
따라서, 종래의 콘텐츠 보호 기술에 따라 보호 기능이 적용된 콘텐츠 또는 출판물들이 악의적인 사용자에 의해 보호 기능이 해제된 경우에도 콘텐츠 식별 기술을 이용하여 출판물의 저작권 침해 여부 및 불법 유통 여부를 판단할 수 있고, 저작권을 효과적으로 보호할 수 있는 방법이 필요하다.
상기한 바와 같은 단점을 극복하기 위한 본 발명의 목적은 저작권 침해 여부를 판별하고 저작권을 효과적으로 보호할 수 있도록 출판물을 용이하게 식별할 수 있는 출판물의 핑거프린트 추출 방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 상기 출판물의 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치를 제공하는 것이다.
또한, 본 발명의 또 다른 목적은 출판물을 용이하게 식별할 수 있고, 저작권을 효과적으로 보호할 수 있는 핑거프린트를 이용한 출판물 식별 시스템을 제공하는 것이다.
또한, 본 발명의 또 다른 목적은 상기 핑거프린트를 이용한 출판물 식별 시스템의 동작 방법을 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트 추출 방법은, 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계 및 상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함한다.
상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계는, 상기 입력된 텍스트 형식의 전자문서에 대해 전처리를 수행한 후, 상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출할 수 있다.
상기 입력된 텍스트 형식의 전자문서에 대한 전처리는 오타 정정 또는 문자 복원을 포함할 수 있다.
또한, 본 발명의 목적을 달성하기 위한 본 발명의 다른 측면에 따른 핑거프린트 추출 방법은, 이미지 형태의 전자문서가 입력되는 단계와, 입력된 상기 이미지 형태의 전자문서가 텍스트 기반 전자문서인 경우 상기 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 단계와, 상기 변환된 텍스트 형태의 전자문서로부터 텍스트를 추출하는 단계 및 상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함한다.
상기 이미지 형태의 전자문서가 입력되는 단계는, 상기 이미지 형태의 전자문서가 입력된 후 상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계를 포함할 수 있다.
상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계는, 상기 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행할 수 있다.
상기 출판물의 핑거프린트 추출 방법은, 상기 입력된 상기 이미지 형태의 전자문서가 이미지 기반 전자문서인 경우에는, 상기 입력된 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계 및 상기 전처리가 수행된 이미지 형태의 전자문서로부터 이미지 핑거프린트를 추출하는 단계를 더 포함할 수 있다.
또한, 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트 추출 장치는 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 이미지 텍스트 변환부와, 상기 텍스트 형태의 전자문서로부터 텍스트를 추출하는 텍스트 추출부 및 상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 핑거프린트 추출부를 포함한다.
상기 출판물의 핑거프린트 추출 장치는 상기 입력된 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행하는 이미지 전처리부를 더 포함할 수 있다.
상기 핑거프린트 추출부는 상기 이미지 전처리부로부터 제공된 전처리된 이미지로부터 이미지 핑거프린트를 추출할 수 있다.
상기 핑거프린트 추출부는 상기 이미지 텍스트 변환부로부터 제공된 상기 텍스트 형태의 전자문서 또는 입력된 텍스트 형태의 전자문서에 대해 전처리를 수행한 후 상기 텍스트 추출부에 제공하는 텍스트 전처리부를 더 포함할 수 있다.
또한, 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트를 이용한 출판물 식별 시스템은, 원본 출판물의 핑거프린트를 추출하는 핑거프린트 추출 장치와, 상기 핑거프린트 추출 장치로부터 제공된 원본 출판물의 핑거프린트와 상기 원본 출판물의 부가 정보를 연계하여 저장하는 출판물 정보 구축 장치 및 상기 원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되는 DBMS(DataBase Management System)을 포함한다.
상기 핑거프린트 추출 장치는 상기 원본 출판물 또는 상기 질의 출판물이 텍스트 형식의 전자 문서인 경우에는, 상기 텍스트 형식의 전자 문서로부터 텍스트를 추출한 후 추출된 텍스트로부터 텍스트 핑거프린트를 추출하고, 상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 이미지 형태의 전자 문서를 텍스트 형태의 전자 문서로 변환한 후 변환된 텍스트 형태의 전자 문서로부터 텍스트를 추출하고, 추출된 텍스트로부터 텍스트 핑거프린트를 추출할 수 있다.
상기 핑거프린트 추출 장치는 상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 상기 이미지 형태의 전자 문서에 대한 전처리를 수행한 후 전처리가 수행된 이미지 형태의 전자 문서로부터 이미지 핑거프린트를 추출할 수 있다.
상기 원본 출판물의 부가 정보는 원본 출판물의 제작자, 출판사, 제목, 요약, 발행일, ISBN, 주소, 전화번호 및 팩스번호 중 적어도 하나의 정보를 포함할 수 있다.
또한, 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 다른 측면에 따른 핑거프린트를 이용한 출판물 식별 시스템은, 식별하기 위해 수집된 질의 출판물에 대한 핑거프린트를 추출하는 핑거프린트 추출 장치와, 상기 핑거프린트 추출 장치로부터 제공된 상기 질의 출판물에 대한 핑거프린트에 해당하는 원본 출판물의 핑거프린트를 질의하는 핑거프린트 질의 장치와, 원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되고, 상기 핑거프린트 질의 장치의 질의에 상응하여 적어도 하나의 원본 출판물의 핑거프린트로 구성된 검색결과 후보군을 제공하는 DBMS(DataBase Management System) 및 상기 DBMS로부터 제공된 검색결과 후보군을 검증하여 상기 질의 출판물의 저작권 침해 여부를 판단하는 후보군 검증 장치를 포함한다.
상기 후보군 검증 장치는 상기 검색 결과 후보군과 상기 질의 출판물의 핑거프린트를 비교하고, 비교결과에 기초하여 상기 질의 출판물을 식별할 수 있다.
상기 후보군 검증 장치는 상기 질의 출판물이 DBMS 내부에 존재하는 출판물로 판단되는 경우 상기 질의 출판물에 해당하는 부가 정보를 상기 DBMS로부터 획득하여 제공할 수 있다.
또한, 본 발명의 또 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 핑거프린트를 이용한 출판물 식별 방법은, 수집된 질의 출판물에 대한 핑거프린트를 추출하는 단계와, 상기 수집된 질의 출판물로부터 추출된 핑거프린트와 대응되는 원본 출판물의 핑거프린트를 DBMS로부터 검색하는 단계 및 적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물의 저작권 침해 여부를 식별하는 단계를 포함한다.
상기 적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물을 식별하는 단계는 상기 적어도 하나의 검색 결과를 상기 질의 출판물의 핑거프린트와 비교한 비교결과에 기초하여 상기 질의 출판물을 식별할 수 있다.
상기 핑거프린트를 이용한 출판물 식별 방법은, 상기 수집된 질의 출판물을 식별한 결과, 상기 질의 출판물이 원본 출판물과 동일하다고 판별되는 경우 상기 DBMS로부터 상기 질의 출판물에 대응되는 부가 정보를 획득하는 단계를 더 포함할 수 있다.
상술한 바와 같은 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법에 따르면, 원본 출판물을 이용하여 핑거프린트를 추출하여 출판물의 메타데이터 정보와 연계하여 관리하고, 질의 출판물의 핑거프린트를 추출하여 모르는 출판물의 정보를 식별할 수 있다. 또한, 식별된 출판물의 정보를 활용하여 출판물의 불법 유포 여부 또는 저작권 침해 여부를 판단한다.
따라서, 출판물을 직접 타이핑하거나 스캔하거나 또는 카메라로 캡쳐하여 디지털화된 출판물로 변형된 경우 또는 DRM 등의 각종 보호 장치들이 해제되거나 시스템 관리자가 접근 권한을 이용하여 원본에 준하는 디지털 출판물로 변형하여 불법 유포하는 경우에도 이를 용이하게 식별할 수 있고, 이를 통해 출판물의 불법 유포나 유통을 감소시키고 저작권의 침해를 예방할 수 있다.
또한, 본 발명의 일 실시예에 따른 핑거프린트를 이용한 출판물 식별 시스템은 출판물의 일부 정보(예를 들면, 몇 페이지 정도의 출판물)를 입력하여 본래 출판물의 정보를 검색하는 용도로 활용될 수도 있다.
도 1은 DRM 등의 보호 장치가 적용된 일반적인 콘텐츠 보호 방법을 개략적으로 나타낸 것이다.
도 2는 출판물의 저작권 보호를 위한 기술들의 예를 나타낸 것이다.
도 3은 전자 문서 형태에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
도 4는 이미지 형태의 출판물에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
도 5는 이미지 형태의 출판물에서 이미지 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 출판물의 핑거프린팅 추출 방법을 나타내는 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 장치의 구성을 나타내는 블록도이다.
도 8은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도이다.
도 9는 본 발명의 다른 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도이다.
도 10은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 출판물 식별 방법을 나타내는 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
출판물을 불법 배포하기 위한 디지털화 방법은 크게 네 가지로 구분할 수 있다.
첫째는, 출판물 제작자가 출판물을 저장한 저장매체를 분실하거나 관리를 소홀히 한 경우, 출판사에 디지털 파일 형태로 제공된 출판물 파일이 유출된 경우 또는 DRM이 해제되어 파일이 유출된 경우 등으로 원본 콘텐츠 자체가 유출되는 경우이다.
둘째는, 책 등의 형태로 인쇄된 출판물을 사용자가 직접 타이핑하여 디지털화한 경우이다. 이와 같은 경우에는 인쇄된 출판물이 전자 문서 형태로 변환되므로 대량 인쇄 등을 통해 좋은 품질의 해적판 출판물이 양산될 수 있다.
셋째는, 소설, 잡지 또는 만화책 등의 형태로 인쇄된 출판물을 사용자가 스캐너로 스캔하여 디지털화한 경우이다. 여기서, 사용자는 인쇄된 출판물을 해체하여 스캐너의 자동 입력 장치를 사용하거나, 자동으로 출판물을 넘기는 장치를 사용하거나, 손으로 직접 출판물을 넘기며 인쇄된 출판물을 스캔하여 이미지 형태로 저장함으로써 출판물을 디지털화 할 수 있다.
넷째는, 인쇄된 출판물을 사용자가 카메라를 이용하여 캡쳐하여 디지털화 하는 경우이다. 이와 같은 경우 디지털화된 파일은 이미지 형태로 저장되고, 캡쳐하는 사용자의 숙련도에 따라 품질의 차이가 발생할 수 있다.
따라서, 상술한 바와 같은 출판물을 불법 배포하기 위한 네 가지 디지털화 방법에 대응하는 저작권 보호 기술이 요구된다.
도 2는 출판물의 저작권 보호를 위한 기술들의 예를 나타낸 것이다.
도 2에 도시한 바와 같이 출판물의 저작권을 보호하기 위한 기술은 크게 세가지로 분류할 수 있다.
먼저, 출판물에서 독자에게 정보를 제공하는 수단은 크게 텍스트와 이미지가 있다. 텍스트는 소설책 등의 출판물에서 정보를 전달하는 주요 수단이며, 이미지는 잡지나 만화책 등의 출판물에서 정보를 전달하는 주요 수단이 된다.
상술한 출판물을 불법 배포하기 위한 디지털화 방법 중 첫 번째 및 두 번째 방법은 텍스트 기반의 전자 문서 형태로 디지털화하는 방법이므로 전자 문서 형태에서 텍스트 핑거프린트 기반의 출판물 식별 기술이 필요하다.
또한, 상술한 출판물을 불법 배포하기 위한 디지털 방법 중 세번째 및 네번째 방법은 이미지 형태로 출판물이 디지털화 된다. 여기서, 이미지 형태로 디지털화된 출판물이 소설책 등과 같이 텍스트 기반 출판물인 경우에는 이미지 파일 형태에서 텍스트 핑거프린트 기반의 출판물 식별 기술이 필요하고, 이미지 형태로 디지털화된 출판물이 잡지나 만화책 등과 같이 이미지 기반 출판물인 경우에는 이미지 파일 형태에서 이미지 핑거프린트 기반의 출판물 식별 기술이 필요하다. 여기서, 핑거프린트란 해당 콘텐츠 혹은 출판물의 고유한 특징 정보를 나타내는 것으로 특징점 혹은 DNA 라고 불리기도 한다.
도 3은 전자 문서 형태에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
이하, 본 발명의 실시예에서 전자 문서 형태라 함은 컴퓨터 등을 포함하는 정보 처리 장치에서 다양한 문서 작성 프로그램을 이용하여 작성되어 텍스트 형식으로 저장된 문서 파일(예를 들면, TXT, 한글 파일, 워드 파일, 텍스트 형식으로 저장된 PDF 파일)을 지칭한다.
먼저, 핑거프린트 추출 장치에 텍스트 문서가 입력되면(단계 310), 핑거프린트 추출 장치는 입력된 텍스트 문서들로부터 텍스트 추출이 원할하도록 하기 위해 텍스트 전처리를 수행한다(단계 320). 여기서, 입력되는 텍스트 문서는 상술한 바와 같이 다양한 문서 작성 프로그램을 이용하여 작성된 전자 문서들이 될 수 있다. 또한, 상기 텍스트 전처리 과정은 오타 정정이나 오류로 인해 비정상적인 형태를 가지는 문자를 복원하는 처리 과정 등을 포함할 수 있으며, 반드시 수행될 필요는 없고 필요한 경우에만 선택적으로 수행될 수 있다.
이후, 핑거프린트 추출 장치는 핑거프린트 추출을 위해 텍스트 전처리를 거친 텍스트 문서들에 대해 출판물의 정보 전달 수단인 텍스트만을 추출한다(단계 330).
핑거프린트 추출 장치는 단계 330의 실행을 통해 추출된 텍스트에 대해 핑거프린트를 추출함으로써, 텍스트 기반 전자 문서 형태의 출판물에 대한 핑거프린트를 추출한다(단계 340).
도 4는 이미지 형태의 출판물에서 텍스트 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
먼저, 핑거프린트 추출 장치에 스캐너로 스캔되거나 카메라로 캡쳐된 이미지 파일 형태의 문서가 입력되면(단계 410), 핑거프린트 추출 장치는 입력된 이미지 파일 형태의 문서에 대해 OCR(Optical Character Recognition) 성능을 향상 시킬 수 있도록 이미지 전처리를 수행한다(단계 420). 여기서, 이미지 파일 형태는 상용 이미지 뷰어를 통해 표시될 수 있는 형태의 이미지 파일을 의미하고, 이미지 전처리는 이미지 형태의 문서에 대해 OCR을 적용할 경우 텍스트 인식 성능을 저하시킬 수 있는 요소들을 처리하는 과정으로 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 처리 과정을 포함할 수 있다.
이후, 핑거프린트 추출 장치는 전처리가 수행된 이미지 파일 형태의 문서에 대해 OCR을 수행하여 이미지 파일 형태의 문서를 텍스트 형태의 전자 문서 형태로 변환한다(단계 430). 여기서, OCR을 통해 텍스트로 변환된 전자문서에는 OCR 성능의 한계로 오인식된 비정상적인 형태의 문자(또는 잡음)가 포함될 수 있기 때문에 이를 제거하기 위한 처리 과정이 필요하다.
따라서, 핑거프린트 추출 장치는 단계 430의 실행을 통해 변환된 텍스트 형태의 전자 문서에 대해 상기한 바와 같은 비정상적인 형태의 문자 또는 잡음을 제거하기 위한 전처리 과정을 수행한다(단계 440).
이후, 핑거프린트 추출 장치는 전처리된 텍스트 형태의 전자 문서에서 텍스트를 추출하고(단계 450), 추출한 텍스트에 대해 텍스트 핑거프린트를 추출한다(단계 460).
단계 440 내지 단계 460의 텍스트 전처리 과정, 텍스트 추출 과정 및 텍스트 핑거프린트 추출 과정은 단계 430에서 수행된 OCR의 인식 알고리즘 및 성능에 상응하여 수행되는 것이 바람직하다.
즉, 도 3에 도시한 단계 320 내지 단계 340은 도 4에 도시한 단계 440 내지 단계 460과 각각 동일한 기능을 수행하나, 도 3에 도시한 핑거프린트 추출과정은 비교적 잡음이 적은 텍스트 형태의 전자 문서에 대해 핑거프린트를 추출하는 반면, 도 4에 도시한 핑거프린트 추출과정에서는 입력된 이미지 파일 형태의 문서를 OCR을 거쳐 텍스트 형태의 전자 문서로 변환한 후 핑거프린트를 추출하기 때문에 OCR의 인식 성능으로 인해 변환된 전자 문서에 잡음이 포함될 확률이 커진다.
따라서, 도 4에 도시한 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치는 도 3에 도시한 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치보다 잡음에 더 강인한 핑거프린트 추출 장치가 사용되는 것이 바람직하고, 도 4에 도시한 핑거프린트 추출 방법을 수행하는 핑거프린트 추출 장치가 잡음에 강인한 장치가 사용될 경우, 도 3에 도시한 핑거프린트 추출 과정은 도 4에 포함될 수 있다.
도 5는 이미지 형태의 출판물에서 이미지 핑거프린트를 추출하는 방법을 나타내는 흐름도이다.
상술한 바와 같이 잡지책이나 만화책 등의 출판물에서는 이미지가 정보를 전달하는 주요 수단이 된다. 따라서, 상기한 바와 같이 정보를 전달하는 수단으로 이미지가 사용되는 출판물에 대해서는 저작권 보호를 위해 이미지 핑거프린트를 추출한다.
도 5를 참조하면, 먼저 핑거프린트 추출 장치는 스캐너를 통해 스캔되거나 카메라를 통해 캡쳐된 이미지 형태의 문서가 입력되면(단계 510), 입력된 이미지 형태의 문서에서 핑거프린트를 효과적으로 추출할 수 있도록 전처리기를 수행한다(단계 520). 여기서, 전처리 과정은 이미지 핑거프린트 추출을 방해할 수 있는 요소들을 제거하는 과정을 포함하고, 예를 들어 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 처리를 포함할 수 있다.
이후, 핑거프린트 추출 장치는 전처리된 이미지로부터 이미지 핑거프린트를 추출한다(단계 530).
도 6은 본 발명의 일 실시예에 따른 출판물의 핑거프린팅 추출 방법을 나타내는 흐름도로서, 상술한 도 2 내지 도 5의 내용을 종합한 것이다.
도 6을 참조하면, 먼저 핑거프린트 추출을 위한 디지털화된 출판물이 핑거프린트 추출 장치에 입력되면, 핑거프린트 추출 장치는 입력된 디지털화된 출판물이 이미지 파일인지 또는 텍스트 파일인지를 판단하고(단계 610), 이미지 파일인 경우에는 이미지에 대한 전처리를 수행한다(단계 620). 여기서, 이미지 전처리는 이미지 형태의 문서에 대해 OCR을 적용할 경우 텍스트 인식 성능을 저하시킬 수 있는 요소들 또는 이미지 핑거프린트 추출을 방해할 수 있는 요소들을 제거하는 과정으로 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 처리 과정을 포함할 수 있다.
이후, 핑거프린트 추출 장치는 전처리된 이미지가 이미지 형태의 텍스트인가를 판단하고(단계 630), 이미지 형태의 텍스트로 판단되는 경우에는 OCR을 수행하여 이미지 형태의 텍스트를 텍스트 형태의 전자 문서로 변환한다(단계 640). 여기서, OCR을 통해 텍스트로 변환된 전자문서에는 OCR 과정에서 인식 성능의 한계로 오인식된 비정상적인 형태의 문자(또는 잡음)가 포함될 수 있기 때문에 이를 제거하기 위한 처리 과정이 필요하다.
핑거프린트 추출 장치는 단계 640의 실행을 통해 변환된 텍스트 형태의 전자 문서에 대해 상기한 바와 같은 비정상적인 형태의 문자 또는 잡음을 제거하기 위한 텍스트 전처리 과정을 수행한다(단계 650).
이후, 핑거프린트 추출 장치는 전처리된 텍스트 형태의 전자 문서에서 텍스트를 추출하고(단계 660), 추출한 텍스트에 대해 텍스트 핑거프린트를 추출한다(단계 670).
또는, 도 6의 단계 610에서 판단 결과 입력된 디지털화된 출판물이 텍스트 문서인 것으로 판단되면, 핑거프린트 추출 장치는 단계 620 내지 640을 수행하지 않고 단계 650으로 진행하여 단계 650 내지 단계 670을 순차적으로 수행한다.
또한, 도 6의 단계 630에서 전처리된 이미지가 이미지 형태의 텍스트가 아니고 잡지나 만화 등과 같은 이미지인 경우, 핑거프린트 추출 장치는 단계 640 내지 670을 수행하지 않고, 단계 680으로 진행하여 전처리된 이미지로부터 이미지 핑거프린트를 추출한다(단계 680).
도 7은 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 장치의 구성을 나타내는 블록도이다.
도 7을 참조하면, 본 발명의 일 실시예에 따른 핑거프린트 추출 장치(700)는 제어부(710), 이미지 전처리부(720), 이미지-텍스트 변환부(730), 텍스트 전처리부(740), 텍스트 추출부(750) 및 핑거프린트 추출부(760)를 포함할 수 있다.
제어부(710)는 입력된 디지털화된 출판물의 종류를 판단하고, 판단 결과에 따라 입력된 디지털화된 출판물을 이미지 전처리부(720) 또는 텍스트 전처리부(740)에 제공한다.
예를 들어, 제어부(710)는 입력된 출판물이 스캐너로 스캔되거나 카메라로 캡쳐된 이미지 형태의 전자 문서인 경우에는 이미지 전처리부에 제공하고, 입력된 출판물이 텍스트 형태의 전자 문서인 경우에는 텍스트 전처리부(740)에 제공한다.
또한, 제어부(710)는 상기한 기능 이외에도 핑거프린트 추출 장치를 구성하는 다른 구성요소들의 동작을 제어할 수 있다.
이미지 전처리부(720)는 제어부(710)로부터 제공된 이미지 형태의 전자 문서에 대해 OCR의 인식 성능을 향상 시킬 수 있도록 잡음 제거, 페이지 분리, 회전, 기울기 조정 등의 전처리를 수행한 후, 전처리가 수행된 이미지의 종류를 판단하여 전처리가 수행된 이미지가 텍스트로 구성된 이미지 형태의 전자 문서인 경우에는 이미지-텍스트 변환부(730)에 제공하고, 전처리가 수행된 이미지가 잡지 또는 만화 등과 같이 이미지로 구성된 경우에는 핑거프린트 추출부(760)에 제공한다.
이미지-텍스트 변환부(730)는 OCR로 구성될 수 있고, 이미지 전처리부(730)로부터 제공된 전처리된 이미지를 텍스트 형태의 전자 문서로 변환한 후, 변환된 텍스트 형태의 전자 문서를 텍스트 추출부(750)에 제공한다.
텍스트 전처리부(740)는 텍스트 전처리부(740) 또는 제어부(710)로부터 제공된 텍스트 형태의 전자 문서에 대해 비정상적인 형태의 문자 또는 잡음을 제거하기 위한 전처리 과정을 수행한 후, 전처리된 텍스트 형태의 전자 문서를 텍스트 추출부에 제공한다(750).
텍스트 추출부(750)는 텍스트 전처리부(740)로부터 전처리된 텍스트 형태의 전자 문서를 제공받고, 제공받은 전자 문서에서 출판물의 정보 전달 수단인 텍스트를 추출한 후, 핑거프린트 추출부(760)에 제공한다.
핑거프린트 추출부(760)는 이미지 전처리부(720)로부터 제공된 전처리된 이미지에서 이미지 핑거프린트를 추출하거나, 텍스트 추출부(750)로부터 제공된 텍스트에서 텍스트 핑거프린트를 추출한다. 여기서, 핑거프린트 추출부(720)는 공지된 핑거프린트 추출기술을 이용하여 이미지 또는 텍스트로부터 핑거프린트를 추출할 수 있다.
구체적으로, 핑거프린트 추출부(760)는 이미지 핑거프린트 추출 모듈(761) 및 텍스트 핑거프린트 추출 모듈(763)을 포함할 수 있고, 이미지 핑거프린트 추출 모듈(761)은 이미지 전처리부(720)로부터 제공된 전처리된 이미지에서 이미지 핑거프린트를 추출하고, 텍스트 핑거프린트 추출 모듈(763)은 텍스트 추출부(750)로부터 제공된 텍스트에서 핑거프린트를 추출한다.
도 6 및 도 7에 도시한 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 방법 및 장치는 원본 출판물의 핑거프린트를 추출하기 위해 사용될 수도 있고, 인터넷을 통해 검색되거나 수집된 불법 유포된 출판물들의 핑거프린트를 추출하기 위해 사용될 수도 있고, 정보를 알고 싶은 임의의 출판물의 핑거프린트를 추출하기 위해 사용될 수도 있다. 또한, 본 발명의 일 실시예에 따른 출판물의 핑거프린트 추출 방법 및 장치는 질의 출판물의 핑거프린트를 추출하는 용도로 사용될 수도 있다.
도 8은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도로서, 출판물 저작권자 또는 출판물 제공자로부터 저작권의 보호를 위해 출판물의 원본이 제공된 경우 출판물의 핑거프린트를 이용하여 데이터베이스를 구축하는 시스템을 예를 들어 도시하였다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 출판물 식별 시스템은 핑거프린트 추출 장치(700), 출판물 정보 구축 장치(810) 및 DBMS(DataBase Management System)(830)를 포함할 수 있다.
핑거프린트 추출 장치(700)는 도 7에 도시한 바와 동일한 구성을 가지며 도 6에 도시한 핑거프린트 추출 방법을 실행하여 원본 출판물의 핑거프린트를 추출한 후, 추출된 원본 출판물의 핑거프린트를 출판물 정보 구축 장치(810)에 제공한다.
출판물 정보 구축 장치(810)는 핑거프린트 추출 장치(700)로부터 원본 출판물의 핑거프린트를 제공받고, 출판물 저작권자 또는 출판물 제공자로부터 원본 출판물의 정보를 제공받은 후, 원본 출판물의 핑거프린트와 원본 출판물의 정보를 연계시켜 DBMS(830)에 제공하고, 이를 관리한다. 여기서, 원본 출판물의 정보는 원본 출판물의 제작자, 출판사, 제목, 요약, 발행일, ISBN(International Standard Book Number), 주소, 전화번호, 팩스번호 등의 원본 출판물과 관련된 다양한 정보를 포함할 수 있다.
또한, 출판물 정보 구축 장치(810)는 출판물의 관리를 위해 원본 출판물을 DBMS(830)에 저장할 수도 있고, 보안이 요구되는 경우 출판물의 전체 또는 일부를 암호화하여 DBMS(830)에 저장할 수도 있다.
DBMS(830)는 출판물 정보 구축 장치(810)로부터 제공된 원본 출판물의 핑거프린트 및 이와 연계된 출판물 정보를 저장한다. 또한, DBMS(830)는 출판물 정보 구축 장치(810)에 제공에 따라 원본 출판물을 저장할 수도 있다.
도 9는 본 발명의 다른 실시예에 따른 출판물 식별 시스템의 구성을 나타내는 블록도이다.
디지털 출판물의 파일 또는 디지털화된 출판물 파일은 인터넷 등을 통해 쉽게 유포될 수 있다. 예를 들어, 출판물 파일들은 P2P, 토렌트, 웹하드, 카페, 블로그 등과 같이 다양한 인터넷 경로를 통해 유포될 수 있다. 또한, 디지털 파일의 특성으로 인해 디지털 출판물 또는 디지털화된 출판물은 복사 및 이동이 용이하기 때문에 휴대용 저장장치나 휴대용 단말 등을 통해서도 유포될 수 있다.
도 9에 도시한 본 발명의 다른 실시예에 따른 출판물 식별 시스템은 상기한 바와 같이 다양한 경로를 통해 불법 유포된 출판물 또는 저작권 침해 출판물을 식별하거나 알고 싶은 출판물을 식별하기 위해 사용된다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 출판물 식별 시스템은 핑거프린트 추출 장치(700), 핑거프린트 질의 장치(820), DBMS(830) 및 후보군 검증 장치(840)를 포함할 수 있다.
핑거프린트 추출 장치(700)는 도 7에 도시한 바와 동일한 구성을 가지며 도 6에 도시한 핑거프린트 추출 방법을 실행한다. 핑거프린트 추출 장치(700)는 출판물의 불법 유통 또는 저작권 침해 여부를 식별하기 위해 다양한 경로를 통해 검색 및 수집된 질의 출판물들의 핑거프린트를 추출한 후, 추출된 핑거프린트를 핑거프린트 질의 장치(820)에 제공한다.
핑거프린트 질의 장치(820)는 핑거프린트 추출 장치(700)로부터 제공된 질의 출판물들의 핑거프린트를 DBMS(830)에 질의한다. 또한, 핑거프린트 질의 장치(820)는 핑거프린트 추출 장치(700)로부터 제공된 질의 출판물의 핑거프린트를 후보군 검증 장치(840)에 제공한다.
DBMS(830)는 핑거프린트 질의 장치(820)로부터 질의 출판물의 핑거프린트를 제공받고, 이에 대응되는 핑거프린트를 데이터베이스에서 검색한 후 검색된 적어도 하나의 검색 결과 후보군을 후보군 검증 장치(840)에 제공한다. 여기서, 상기 검색 결과 후보군은 상기 질의 출판물의 핑거프린트와 유사한 적어도 하나의 원본 출판물의 핑거프린트 및 해당 출판물의 정보를 포함할 수 있다.
후보군 검증 장치(840)는 DBMS(830)로부터 제공된 검색 결과 후보군을 검증하여 질의 출판물의 불법 유포 또는 저작권 침해 여부를 판별한다.
예를 들어, 후보군 검증 장치(840)는 DBMS(830)로부터 제공된 검색 결과 후보군과 핑거프린트 질의 장치(820)로부터 제공된 질의 출판물의 핑거프린트를 비교하여 질의 출판물의 불법 유포 또는 저작권 침해 여부를 판별할 수 있다. 또한, 후보군 검증 장치(840)는 불법 유포 또는 저작권이 침해된 출판물의 정보를 DBMS(830)로부터 획득하여 해당 기관 또는 관리자에게 제공할 수도 있다.
도 8 및 도 9에 도시한 출판물 식별 시스템에서 핑거프린트 추출 장치는 출판물의 핑거프린트를 추출하기 위해 많은 처리 시간을 요구하기 때문에 시스템의 부하를 감소시키기 위해 클라우드 컴퓨팅 개념을 이용하여 핑거프린트 추출 장치를 분산시켜 구성할 수 있다. 또한, 출판물 식별 시스템의 성능을 향상시키고 전체적인 부하를 감소시키기 위해 해시 등의 기술을 이용하여 한번 검색된 파일은 따로 처리하여 다시 검색하는 과정을 방지하는 기술을 이용할 수도 있다.
도 10은 본 발명의 일 실시예에 따른 출판물 식별 시스템의 출판물 식별 방법을 나타내는 흐름도이다.
도 10을 참조하면, 먼저 출판물 식별 시스템은 불법 유통되거나 저작권을 침해하는 것으로 의심되는 출판물을 질의 출판물로 검색 및 수집하고(단계 1010), 수집된 질의 출판물의 핑거프린트를 추출한다(단계 1020).
이후, 출판물 식별 시스템은 추출된 핑거프린트에 대응되는 출판물을 DBMS에 질의하여(단계 1030), DBMS로부터 해당 검색 결과 후보군을 획득한다(단계 1040). 여기서, DBMS로부터 획득한 검색 결과 후보군은 질의 출판물의 핑거프린트에 대응되는 적어도 하나의 출판물들의 핑거프린트들을 포함할 수 있다.
이후, 출판물 식별 시스템은 획득한 검색 결과 후보군들에 대한 검증을 수행하여 불법 유포(또는 유통)되거나, 저작권이 침해된 것으로 판단되는 해당 출판물을 식별한다(단계 1050). 여기서, 출판물 식별 시스템은 단계 1020의 수행을 통해 추출된 핑거프린트와 DBMS로부터 제공된 핑거프린트를 비교한 결과에 기초하여 해당 출판물을 식별할 수 있다.
이후, 출판물 식별 시스템은 불법 유포 또는 저작권이 침해된 출판물의 정보를 DBMS로부터 획득하여 획득한 정보를 제공한다(단계 1060).
상술한 바와 같이 본 발명의 일 실시예에 따른 출판물 식별 시스템은 미리 저작권 보호를 요청한 출판물에 대해 원본 출판물을 이용하여 핑거프린트를 추출하여 출판물의 메타데이터 정보와 연계하여 관리함으로써 출판물의 식별 및 저작권 보호를 위한 시스템을 구축하고, 출판물의 핑거프린트를 이용하여 불법 유포되거나 저작권이 침해된 출판물을 식별함으로써 저작권을 보호할 수 있다.
또한, 본 발명은 핑거프린트들을 이용하여 암호화 및 패키징 방법이 해제된 상황에서 불법 유통을 차단하고, 추후에 해당된 출판물들이 온라인상에 무단으로 유포됐을 경우에 적절한 보호 조치를 취할 수 있도록 한다.
또한, 본 발명의 일 실시예에 따른 핑거프린트를 이용한 출판물 식별 시스템은 출판물의 일부 정보(예를 들면, 몇 페이지 정도의 출판물)를 입력하여 본래 출판물의 정보를 검색하는 목적으로도 활용될 수도 있다. 이는 본 발명의 일 실시예에 따른 출판물 식별 시스템이 콘텐츠 고유의 정보를 나타내는 특징점을 이용한 핑거프린트를 이용함으로써 가능하게 된다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (20)

  1. 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계; 및
    상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함하는 출판물의 핑거프린트 추출 방법.
  2. 제1항에 있어서, 상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 단계는,
    상기 입력된 텍스트 형식의 전자문서에 대해 전처리를 수행한 후, 상기 입력된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  3. 제2항에 있어서, 상기 입력된 텍스트 형식의 전자문서에 대한 전처리는 오타 정정 또는 문자 복원을 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  4. 이미지 형태의 전자문서가 입력되는 단계;
    입력된 상기 이미지 형태의 전자문서가 텍스트 기반 전자문서인 경우 상기 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 단계;
    상기 변환된 텍스트 형태의 전자문서로부터 텍스트를 추출하는 단계; 및
    상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 단계를 포함하는 출판물의 핑거프린트 추출 방법.
  5. 제4항에 있어서, 상기 이미지 형태의 전자문서가 입력되는 단계는,
    상기 이미지 형태의 전자문서가 입력된 후 상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계를 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  6. 제5항에 있어서, 상기 상기 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계는,
    상기 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  7. 제4항에 있어서, 상기 출판물의 핑거프린트 추출 방법은,
    상기 입력된 상기 이미지 형태의 전자문서가 이미지 기반 전자문서인 경우에는,
    상기 입력된 이미지 형태의 전자문서에 대한 전처리를 수행하는 단계; 및
    상기 전처리가 수행된 이미지 형태의 전자문서로부터 이미지 핑거프린트를 추출하는 단계를 더 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  8. 제4항에 있어서, 상기 변환된 텍스트 형태의 전자문서로부터 텍스트를 추출하는 단계는,
    상기 변환된 텍스트 형식의 전자문서에 대해 전처리를 수행한 후, 상기 변환된 텍스트 형식의 전자문서로부터 텍스트를 추출하는 것을 특징으로 하는 출판물의 핑거프린트 추출 방법.
  9. 입력된 이미지 형태의 전자문서를 텍스트 형태의 전자문서로 변환하는 이미지 텍스트 변환부;
    상기 텍스트 형태의 전자문서로부터 텍스트를 추출하는 텍스트 추출부; 및
    상기 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 핑거프린트 추출부를 포함하는 출판물의 핑거프린트 추출 장치.
  10. 제9항에 있어서, 상기 출판물의 핑거프린트 추출 장치는
    상기 입력된 이미지 형태의 전자문서에 포함된 잡음 제거, 페이지 분리, 이미지 회전 및 이미지의 기울기 조정 중 적어도 하나의 처리를 수행하는 이미지 전처리부를 더 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 장치.
  11. 제10항에 있어서, 상기 핑거프린트 추출부는
    상기 이미지 전처리부로부터 제공된 전처리된 이미지로부터 이미지 핑거프린트를 추출하는 것을 특징으로 하는 출판물의 핑거프린트 추출 장치.
  12. 제9항에 있어서, 상기 핑거프린트 추출부는
    상기 이미지 텍스트 변환부로부터 제공된 상기 텍스트 형태의 전자문서 또는 입력된 텍스트 형태의 전자문서에 대해 전처리를 수행한 후 상기 텍스트 추출부에 제공하는 텍스트 전처리부를 더 포함하는 것을 특징으로 하는 출판물의 핑거프린트 추출 장치.
  13. 원본 출판물의 핑거프린트를 추출하는 핑거프린트 추출 장치;
    상기 핑거프린트 추출 장치로부터 제공된 원본 출판물의 핑거프린트와 상기 원본 출판물의 부가 정보를 연계하여 저장하는 출판물 정보 구축 장치; 및
    상기 원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되는 DBMS(DataBase Management System)을 포함하는 핑거프린트를 이용한 출판물 식별 시스템.
  14. 제13항에 있어서, 상기 핑거프린트 추출 장치는
    상기 원본 출판물 또는 상기 질의 출판물이 텍스트 형식의 전자 문서인 경우에는, 상기 텍스트 형식의 전자 문서로부터 텍스트를 추출한 후 추출된 텍스트로부터 텍스트 핑거프린트를 추출하고, 상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 이미지 형태의 전자 문서를 텍스트 형태의 전자 문서로 변환한 후 변환된 텍스트 형태의 전자 문서로부터 텍스트를 추출하고, 추출된 텍스트로부터 텍스트 핑거프린트를 추출하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  15. 제14항에 있어서, 상기 핑거프린트 추출 장치는
    상기 원본 출판물 또는 상기 질의 출판물이 이미지 형태의 전자 문서인 경우에는 상기 이미지 형태의 전자 문서에 대한 전처리를 수행한 후 전처리가 수행된 이미지 형태의 전자 문서로부터 이미지 핑거프린트를 추출하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  16. 제13항에 있어서, 상기 원본 출판물의 부가 정보는
    원본 출판물의 제작자, 출판사, 제목, 요약, 발행일, ISBN, 주소, 전화번호 및 팩스번호 중 적어도 하나의 정보를 포함하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  17. 저작권 침해을 식별하기 위해 수집된 질의 출판물에 대한 핑거프린트를 추출하는 핑거프린트 추출 장치;
    상기 핑거프린트 추출 장치로부터 제공된 상기 질의 출판물에 대한 핑거프린트에 해당하는 원본 출판물의 핑거프린트를 질의하는 핑거프린트 질의 장치;
    원본 출판물로부터 추출된 핑거프린트 및 상기 원본 출판물의 부가 정보가 저장되고, 상기 핑거프린트 질의 장치의 질의에 상응하여 적어도 하나의 원본 출판물의 핑거프린트로 구성된 검색결과 후보군을 제공하는 DBMS(DataBase Management System); 및
    상기 DBMS로부터 제공된 검색결과 후보군을 검증하여 상기 질의 출판물의 저작권 침해 여부를 판단하는 후보군 검증 장치를 포함하는 핑거프린트를 이용한 출판물 식별 시스템.
  18. 제17항에 있어서, 상기 후보군 검증 장치는
    상기 검색 결과 후보군과 상기 질의 출판물의 핑거프린트를 비교하고, 비교결과에 기초하여 상기 질의 출판물을 식별하며, 상기 질의 출판물이 상기 DBMS 내부에 존재하는 출판물로 판단되는 경우 상기 질의 출판물에 해당하는 부가 정보를 상기 DBMS로부터 획득하여 제공하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 시스템.
  19. 수집된 질의 출판물에 대한 핑거프린트를 추출하는 단계;
    상기 수집된 질의 출판물로부터 추출된 핑거프린트와 대응되는 원본 출판물의 핑거프린트를 DBMS로부터 검색하는 단계; 및
    적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물을 식별하는 단계를 포함하는 핑거프린트를 이용한 출판물 식별 방법.
  20. 제19항에 있어서, 상기 적어도 하나의 검색 결과에 기초하여 상기 수집된 질의 출판물을 질의 출판물을 식별하는 단계는
    상기 적어도 하나의 검색 결과를 상기 질의 출판물의 핑거프린트와 비교한 비교결과에 기초하여 상기 질의 출판물을 식별하고, 상기 수집된 질의 출판물을 식별한 결과 상기 질의 출판물이 원본 출판물과 동일하다고 판별되는 경우 상기 DBMS로부터 상기 질의 출판물에 대응되는 부가 정보를 획득하는 단계를 더 포함하는 것을 특징으로 하는 핑거프린트를 이용한 출판물 식별 방법.
PCT/KR2011/007633 2010-10-14 2011-10-13 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법 WO2012050379A2 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011800494631A CN103154957A (zh) 2010-10-14 2011-10-13 出版物的指纹提取方法、出版物的指纹提取装置、利用指纹的出版物识别系统及利用指纹的出版物识别方法
US13/879,398 US20130290330A1 (en) 2010-10-14 2011-10-13 Method for extracting fingerprint of publication, apparatus for extracting fingerprint of publication, system for identifying publication using fingerprint, and method for identifying publication using fingerprint
JP2013533773A JP2013543178A (ja) 2010-10-14 2011-10-13 出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2010-0100508 2010-10-14
KR20100100508 2010-10-14
KR20110023069A KR101491446B1 (ko) 2010-10-14 2011-03-15 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
KR10-2011-0023069 2011-03-15

Publications (2)

Publication Number Publication Date
WO2012050379A2 true WO2012050379A2 (ko) 2012-04-19
WO2012050379A3 WO2012050379A3 (ko) 2012-06-14

Family

ID=45938813

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/007633 WO2012050379A2 (ko) 2010-10-14 2011-10-13 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법

Country Status (1)

Country Link
WO (1) WO2012050379A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164698A (zh) * 2013-03-29 2013-06-19 华为技术有限公司 指纹库生成方法及装置、待测文本指纹匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060032886A (ko) * 2004-10-13 2006-04-18 한국전자통신연구원 핑거프린트 기반 불법복제 콘텐츠 추적 시스템 및 그 방법
KR20070032504A (ko) * 2005-09-16 2007-03-22 삼성전자주식회사 텍스트 추출 기능을 갖는 호스트 장치 및 그의 텍스트 추출방법
KR20070106475A (ko) * 2007-08-27 2007-11-01 (주)코인미디어 랩 텍스트 복제 탐지 방법
KR20100080458A (ko) * 2008-12-30 2010-07-08 이르데토 액세스 비.브이. 데이터 객체 핑거프린팅

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060032886A (ko) * 2004-10-13 2006-04-18 한국전자통신연구원 핑거프린트 기반 불법복제 콘텐츠 추적 시스템 및 그 방법
KR20070032504A (ko) * 2005-09-16 2007-03-22 삼성전자주식회사 텍스트 추출 기능을 갖는 호스트 장치 및 그의 텍스트 추출방법
KR20070106475A (ko) * 2007-08-27 2007-11-01 (주)코인미디어 랩 텍스트 복제 탐지 방법
KR20100080458A (ko) * 2008-12-30 2010-07-08 이르데토 액세스 비.브이. 데이터 객체 핑거프린팅

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164698A (zh) * 2013-03-29 2013-06-19 华为技术有限公司 指纹库生成方法及装置、待测文本指纹匹配方法及装置

Also Published As

Publication number Publication date
WO2012050379A3 (ko) 2012-06-14

Similar Documents

Publication Publication Date Title
KR101491446B1 (ko) 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
JP3542678B2 (ja) 電子文書の単語間の空白部分の長さを利用した符号化および復号化方法、電子文書への署名情報の埋め込み方法、機密文書の暗号化方法
WO2015034175A1 (ko) 기업 내부 정보 보안을 강화하기 위한 방법, 시스템 및 장치
US8873863B2 (en) System and method for fingerprinting for comics
KR20010043172A (ko) 아날로그 문서의 디지털 인증
US8695061B2 (en) Document process system, image formation device, document process method and recording medium storing program
CN104517045B (zh) 数字文档保护方法及系统
KR101803066B1 (ko) 불법 복제된 서적의 통합 식별 시스템 및 방법
JP2008083910A (ja) ソフトウエア管理システムおよびソフトウエア管理プログラム
WO2021172668A1 (ko) 블록체인을 이용한 최초 저작권자 인증 시스템 및 그 방법
WO2020222475A1 (ko) 조회 이력 정보와 문서 인증 정보에 의하여 인증 기능이 강화된 문서 인증 방법 및 문서 인증 시스템
WO2020222476A1 (ko) 조회 이력 통지에 의하여 인증 기능이 강화된 문서 인증 방법 및 문서 인증 시스템
WO2015122620A1 (ko) 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템
US8570547B2 (en) Image registration device, image registration system, image registration method and computer readable medium that register the associated image acquired by the associated image acquisition unit with the associated image being assigned to the predetermined process
WO2012050379A2 (ko) 출판물의 핑거프린트 추출 방법, 출판물의 핑거프린트 추출 장치, 핑거프린트를 이용한 출판물 식별 시스템 및 핑거프린트를 이용한 출판물 식별 방법
JP2012182737A (ja) 秘密資料流出防止システム、判定装置、秘密資料流出防止方法およびプログラム
JP4733310B2 (ja) 分散型著作権保護方法、およびその方法を利用可能なコンテンツ公開装置、監視サーバならびにシステム
JP2004185312A (ja) 文書管理装置
WO2014027870A1 (ko) 저작물 관리 방법
JP3840580B1 (ja) ソフトウエア管理システムおよびソフトウエア管理プログラム
CN116226885B (zh) 一种复印机保密检查取证系统及方法
WO2017115885A1 (ko) 다양한 콘텐츠에 암호화정보를 포함시켜 검색 및 추적이 용이하도록 한 콘텐츠 검색 및 이력추적 감시시스템
WO2017115884A1 (ko) Epub 파일 암호화를 위한 단위 파일에 대한 압축과 복원 방법 및 장치
JP4993588B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム及びコンピュータ読み取り可能な記録媒体
JP2011028349A (ja) 文書処理装置、文書処理システム及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180049463.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11832766

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase in:

Ref document number: 2013533773

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13879398

Country of ref document: US

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11832766

Country of ref document: EP

Kind code of ref document: A2