KR20240003662A - Content detection apparatus, and content detection method - Google Patents

Content detection apparatus, and content detection method Download PDF

Info

Publication number
KR20240003662A
KR20240003662A KR1020220081502A KR20220081502A KR20240003662A KR 20240003662 A KR20240003662 A KR 20240003662A KR 1020220081502 A KR1020220081502 A KR 1020220081502A KR 20220081502 A KR20220081502 A KR 20220081502A KR 20240003662 A KR20240003662 A KR 20240003662A
Authority
KR
South Korea
Prior art keywords
cell
content
cells
content detection
area
Prior art date
Application number
KR1020220081502A
Other languages
Korean (ko)
Inventor
신진섭
강주연
김성찬
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020220081502A priority Critical patent/KR20240003662A/en
Publication of KR20240003662A publication Critical patent/KR20240003662A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/105Arrangements for software license management or administration, e.g. for managing licenses at corporate level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Abstract

본 발명은 기준이 되는 표(기준표)와 동일 또는 유사한 표를 게재하고 있는 컨텐츠를 검출하기 위한 방안에 관한 것이다.The present invention relates to a method for detecting content that contains a table that is identical or similar to a standard table (reference table).

Description

컨텐츠검출장치 및 컨텐츠 검출 방법{CONTENT DETECTION APPARATUS, AND CONTENT DETECTION METHOD}Content detection device and content detection method {CONTENT DETECTION APPARATUS, AND CONTENT DETECTION METHOD}

본 발명은 기준이 되는 표(기준표)와 동일 또는 유사한 표를 게재하고 있는 컨텐츠를 검출하기 위한 방안에 관한 것이다.The present invention relates to a method for detecting content that contains a table that is identical or similar to a standard table (reference table).

저작권 위반, 및 표절 등을 검출하기 위하여 다양한 프로그램이 사용되고 있다.Various programs are used to detect copyright violations and plagiarism.

가장 일반적으로는 컨텐츠에 기재되어 있는 텍스트 분석을 통해서 기준(대상)이 되는 문서 등의 컨텐츠와 동일 또는 유사한 컨텐츠를 검출하는 방식이 존재한다.Most commonly, there is a method of detecting content that is identical or similar to content such as a standard (target) document through text analysis described in the content.

이때 동일 또는 유사 여부의 경우, 연속되는 몇 개 이상의 단어들이 기준(대상)이 되는 컨텐츠에 포함된 단어와 얼마만큼 유사한 지가 판단의 기준이 될 수 있다.At this time, in the case of identity or similarity, the extent to which several consecutive words are similar to words included in the standard (target) content can serve as a criterion for judgment.

그러나, 컨텐츠에는 텍스트만 포함되어 것이 아니라, 이미지, 표 등도 같이 포함되어 있는 경우가 많아 텍스트 분석만으로 저작권 위반, 표절 등을 검출하는 데에는 한계가 있다.However, since content often includes not only text but also images and tables, there are limitations in detecting copyright violations and plagiarism through text analysis alone.

특히, 텍스트가 아닌 이미지, 표만을 추출하여 문서 등 자신의 컨텐츠에 인용하는 경우에도 이를 검출할 수 있어야 하는데, 텍스트 분석만이 가능한 기존 기술로는 이러한 경우를 검출하는 것이 불가능하다.In particular, it must be possible to detect even when only images or tables, not text, are extracted and cited in one's own content, such as a document. However, it is impossible to detect such cases with existing technologies that only enable text analysis.

이와 관련하여, 이미지의 경우, 텍스트 등의 유사 여부를 판단하는 과정과는 별도로 이미지 간 유사도 분석을 통해 동일 또는 유사한 컨텐츠를 검출하는 기술이 존재하나, 표에 관해서는 유사 여부를 판단하는 기술이 부재한 실정이다.In relation to this, in the case of images, there is technology to detect identical or similar content through similarity analysis between images separately from the process of determining similarity of text, etc., but in the case of tables, there is no technology to determine similarity. This is the situation.

이에, 본 발명에서는 표의 유사 여부를 판단할 수 있는 새로운 방안을 제안하고자 한다.Accordingly, the present invention would like to propose a new method for determining whether tables are similar.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 기준이 되는 표(기준표)와 동일 또는 유사한 표를 게재하고 있는 컨텐츠를 검출하는데 있다.The present invention was created in consideration of the above-described circumstances, and the goal to be achieved by the present invention is to detect content that contains a table that is the same as or similar to a standard table (reference table).

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 컨텐츠검출장치는, 명령어를 포함하는 메모리; 및 상기 명령어를 실행함으로써, 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 상기 셀 단위의 객체 인식을 수행하고, 상기 셀 단위의 객체 인식 결과를 기 설정된 기준표와 비교하여 상기 기준표와의 유사 여부를 판단하는 프로세서를 포함하는 것을 특징으로 한다.A content detection device according to an embodiment of the present invention for achieving the above object includes: a memory including instructions; And by executing the command, the table extracted from the content is divided into cells to perform object recognition in each cell, and the object recognition result in each cell is compared with a preset reference table to determine whether it is similar to the reference table. It is characterized in that it includes a processor that

구체적으로, 상기 기준표와의 유사 여부는, 셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 판단될 수 있다.Specifically, similarity to the reference table may be determined based on at least one of similarity between cells and positional relationships between cells.

구체적으로, 상기 셀 간의 위치 관계는, 상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행 및 열 중 적어도 하나가 서로 동일한지 여부가 확인될 수 있다.Specifically, the positional relationship between the cells can be confirmed as to whether at least one of the rows and columns in which each cell is located is the same when the number of cells whose similarity with the reference table is more than a threshold is more than a set number.

구체적으로, 상기 셀 간의 위치 관계는, 상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행, 및 열 중 적어도 하나에 포함되어 있는 헤더가 서로 동일한지 여부가 확인될 수 있다.Specifically, the positional relationship between the cells is such that, when the number of cells whose similarity with the reference table is more than the threshold is more than a set number, it can be confirmed whether the header included in at least one of the row and column in which each cell is located is the same. You can.

구체적으로, 상기 프로세서는, 상기 컨텐츠 내에서 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출할 수 있다.Specifically, the processor may image an object area where a table is located within the content and extract the table from the imaged object area.

구체적으로, 상기 셀 단위의 객체 인식은, 학습데이터로 입력되는 표를 셀 영역 별로 구분하여 학습한 학습 결과를 이용하여 수행되며, 상기 프로세서는, 상기 학습데이터로 입력되는 표에 구분선을 설정하고, 상기 구분선으로 구획되는 각 영역을 상기 셀 영역으로 인식하며, 상기 셀 영역 각각을 개별 객체로 학습할 수 있다.Specifically, the cell-level object recognition is performed using learning results obtained by dividing the table input as learning data by cell area, and the processor sets a dividing line in the table input as learning data, Each area divided by the dividing line is recognized as the cell area, and each cell area can be learned as an individual object.

구체적으로, 상기 프로세서는, 상기 구분선을 상기 셀 영역 간 경계 영역으로 인식하며, 특정 알고리즘에 따라 상기 셀 영역 간 경계 영역을 기준으로 자동 생성되는 바운딩 박스(Bounding Box)를 이용하여 상기 셀 영역 각각을 학습할 수 있다.Specifically, the processor recognizes the dividing line as a boundary area between the cell areas, and defines each cell area using a bounding box that is automatically generated based on the boundary area between the cell areas according to a specific algorithm. You can learn.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 컨텐츠검출장치에서 수행되는 컨텐츠 검출 방법은, 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 상기 셀 단위의 객체 인식을 수행하는 인식단계; 및 상기 셀 단위의 객체 인식 결과를 기 설정된 기준표와 비교하여 상기 기준표와의 유사 여부를 판단하는 판단단계를 포함하는 것을 특징으로 한다.A content detection method performed by a content detection device according to an embodiment of the present invention to achieve the above object includes a recognition step of dividing a table extracted from content into cells and performing object recognition on a cell basis; And a determination step of comparing the cell-level object recognition result with a preset reference table to determine whether it is similar to the reference table.

구체적으로, 상기 판단단계는, 셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 상기 기준표와의 유사 여부를 판단할 수 있다.Specifically, the determination step may determine whether the cell is similar to the reference table based on at least one of the similarity between cells and the positional relationship between cells.

구체적으로, 상기 판단단계는, 상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행 및 열 중 적어도 하나가 서로 동일한지 여부를 상기 셀 간의 위치 관계로서 확인할 수 있다.Specifically, in the determination step, when the number of cells whose similarity to the reference table is more than a threshold is more than a set number, it is possible to check whether at least one of the rows and columns in which each cell is located is the same as the positional relationship between the cells.

구체적으로, 상기 판단단계는, 상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행, 및 열 중 적어도 하나에 포함되어 있는 헤더가 서로 동일한지 여부를 상기 셀 간의 위치 관계로서 확인될 수 있다.Specifically, the determination step determines whether the header included in at least one of the row and column in which each cell is located is the same when the number of cells whose similarity with the reference table is more than the threshold is greater than or equal to the set number. It can be confirmed as a relationship.

구체적으로, 상기 방법은, 상기 컨텐츠 내에서 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출하는 추출단계를 더 포함할 수 있다.Specifically, the method may further include an extraction step of imaging the object area where the table is located within the content and extracting the table from the imaged object area.

구체적으로, 상기 셀 단위의 객체 인식은, 학습데이터로 입력되는 표를 셀 영역 별로 구분하여 학습한 학습 결과를 이용하여 수행되며, 상기 방법은, 상기 학습데이터로 입력되는 표에 구분선을 설정하고, 상기 구분선으로 구획되는 각 영역을 상기 셀 영역으로 인식하며, 상기 셀 영역 각각을 개별 객체로 학습하는 학습단계를 더 포함할 수 있다.Specifically, the cell-level object recognition is performed using learning results obtained by dividing the table input as learning data by cell area. The method includes setting a dividing line in the table input as learning data, It may further include a learning step of recognizing each area divided by the dividing line as the cell area and learning each of the cell areas as individual objects.

구체적으로, 상기 학습단계는, 상기 구분선을 상기 셀 영역 간 경계 영역으로 인식하며, 특정 알고리즘에 따라 상기 셀 영역 간 경계 영역을 기준으로 자동 생성되는 바운딩 박스(Bounding Box)를 이용하여 상기 셀 영역 각각을 학습할 수 있다.Specifically, the learning step recognizes the dividing line as a boundary area between the cell areas, and uses a bounding box that is automatically generated based on the boundary area between the cell areas according to a specific algorithm to each of the cell areas. You can learn.

이에, 본 발명의 컨텐츠검출장치 및 컨텐츠 검출 방법에서는, 컨텐츠 내 표를 셀 단위로 인식하여 이를 기준표와 비교하는 방식으로 기준표와 동일 또는 유사한 표를 게재한 컨텐츠를 검출함으로써, 타인의 표만을 복사한 경우뿐만 아니라 복사한 표를 일부 편집한 경우에도 이를 게재하고 있는 컨텐츠를 효과적으로 검출하는 것이 가능하다.Accordingly, in the content detection device and content detection method of the present invention, the table in the content is recognized in each cell and compared with the standard table, thereby detecting content that contains the same or similar table as the standard table, so that only other people's tables are copied. It is possible to effectively detect the content posted not only in this case, but also in cases where the copied table has been partially edited.

도 1은 본 발명의 일 실시예에 따른 컨텐츠 검출 환경을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 컨텐츠검출장치를 설명하기 위한 구성도.
도 3 및 도 4는 본 발명의 일 실시예에 따른 객체 인식 방식을 설명하기 위한 예시도.
도 5 및 도 6은 본 발명의 일 실시예에 따른 학습 방식을 설명하기 위한 예시도.
도 7은 본 발명의 일 실시예에 따른 컨텐츠 검출 방법을 설명하기 위한 순서도.
도 8은 본 발명의 일 실시예에 따른 (인공지능모델) 학습 방법을 설명하기 위한 순서도.
1 is an exemplary diagram illustrating a content detection environment according to an embodiment of the present invention.
Figure 2 is a configuration diagram for explaining a content detection device according to an embodiment of the present invention.
3 and 4 are exemplary diagrams for explaining an object recognition method according to an embodiment of the present invention.
Figures 5 and 6 are illustrative diagrams for explaining a learning method according to an embodiment of the present invention.
7 is a flowchart illustrating a content detection method according to an embodiment of the present invention.
Figure 8 is a flowchart for explaining an (artificial intelligence model) learning method according to an embodiment of the present invention.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다.It should be noted that the technical terms used in this specification are only used to describe specific embodiments and are not intended to limit the present invention.

또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.In addition, the technical terms used in this specification, unless specifically defined in a different way in this specification, should be interpreted as meanings generally understood by those skilled in the art in the technical field to which the present invention pertains, and are not overly comprehensive. It should not be interpreted in a literal or excessively reduced sense.

또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이며, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.In addition, if the technical terms used in this specification are incorrect technical terms that do not accurately express the idea of the present invention, they should be replaced with technical terms that can be correctly understood by a person skilled in the art, and the general terms used in the present invention are It should be interpreted according to what is defined in the dictionary or according to the context, and should not be interpreted in an excessively reduced sense.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the attached drawings. However, identical or similar components will be assigned the same reference numbers regardless of the reference numerals, and duplicate descriptions thereof will be omitted.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.Additionally, when describing the present invention, if it is determined that a detailed description of related known technologies may obscure the gist of the present invention, the detailed description will be omitted.

또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니됨을 유의해야 하며, 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.In addition, it should be noted that the attached drawings are only for easy understanding of the spirit of the present invention, and should not be construed as limiting the spirit of the present invention by the attached drawings, and the spirit of the present invention is reflected in the accompanying drawings. It should be construed to extend to all other changes, equivalents, or substitutes.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.Hereinafter, preferred embodiments of the present invention will be described with reference to the attached drawings.

본 발명의 일 실시예에서는, 저작권 위반, 및 표절 등을 검출하는 기술을 다룬다.One embodiment of the present invention deals with techniques for detecting copyright violations, plagiarism, etc.

저작권 위반, 및 표절 등을 검출하기 위하여 다양한 프로그램이 사용되고 있다.Various programs are used to detect copyright violations and plagiarism.

가장 일반적으로는 컨텐츠에 기재되어 있는 텍스트 분석을 통해서 기준(대상)이 되는 문서 등의 컨텐츠와 동일 또는 유사한 컨텐츠를 검출하는 방식이 존재한다.Most commonly, there is a method of detecting content that is identical or similar to content such as a standard (target) document through text analysis described in the content.

이때 동일 또는 유사 여부의 경우, 연속되는 몇 개 이상의 단어들이 기준(대상)이 되는 컨텐츠에 포함된 단어와 얼마만큼 유사한 지가 판단의 기준이 될 수 있다.At this time, in the case of identity or similarity, the extent to which several consecutive words are similar to words included in the standard (target) content can serve as a criterion for judgment.

그러나, 컨텐츠에는 텍스트만 포함되어 것이 아니라, 이미지, 표 등도 같이 포함되어 있는 경우가 많아 텍스트 분석만으로 저작권 위반, 표절 등을 검출하는 데에는 한계가 있다. However, since content often includes not only text but also images and tables, there are limitations in detecting copyright violations and plagiarism through text analysis alone.

특히, 텍스트가 아닌 이미지, 표만을 추출하여 문서 등 자신의 컨텐츠에 인용하는 경우에도 이를 검출할 수 있어야 하는데, 텍스트 분석만이 가능한 기존 기술로는 이러한 경우를 검출하는 것이 불가능하다.In particular, it must be possible to detect even when only images or tables, not text, are extracted and cited in one's own content, such as a document. However, it is impossible to detect such cases with existing technologies that only enable text analysis.

이와 관련하여, 이미지의 경우, 텍스트 등의 유사 여부를 판단하는 과정과는 별도로 이미지 간 유사도 분석을 통해 동일 또는 유사한 컨텐츠를 검출하는 기술이 존재하나, 표에 관해서는 유사 여부를 판단하는 기술이 부재한 실정이다.In relation to this, in the case of images, there is technology to detect identical or similar content through similarity analysis between images separately from the process of determining similarity of text, etc., but in the case of tables, there is no technology to determine similarity. This is the situation.

이에, 본 발명의 일 실시예에서는 표의 유사 여부를 판단할 수 있는 새로운 방안을 제안하고자 한다.Accordingly, in one embodiment of the present invention, we would like to propose a new method for determining whether tables are similar.

이와 관련하여, 도 1은 본 발명의 일 실시예에 따른 컨텐츠 검출 환경을 예시적으로 보여주고 있다.In this regard, Figure 1 exemplarily shows a content detection environment according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른, 컨텐츠 검출 환경에서는 기준이 되는 표(이하, '기준표'라 칭함)와 동일 또는 유사한 표를 게재한 컨텐츠를 검출하는 컨텐츠검출장치(100)를 포함하는 구성을 가질 수 있다.As shown in FIG. 1, in a content detection environment according to an embodiment of the present invention, a content detection device (hereinafter referred to as 'standard table') detects content that contains a table that is the same or similar to a standard table (hereinafter referred to as 'standard table'). It may have a configuration including 100).

컨텐츠검출장치(100)는 인터넷에 공개된 컨텐츠나 별개의 데이터베이스(DB) 등에 저장되어 있는 문서 등의 컨텐츠를 대상으로 기준표와 동일 또는 유사한 표가 있는지를 판단하고, 해당 판단 결과를 반영한 컨텐츠 검출 결과를 출력할 수 있다.The content detection device 100 determines whether there is a table identical or similar to the standard table for content such as content published on the Internet or documents stored in a separate database (DB), and provides a content detection result reflecting the determination result. can be output.

이를 위해서는 인터넷이나 데이터베이스(DB) 등에서 각 문서 등의 컨텐츠를 수집하는 기능이 수행될 것이지만, 컨텐츠 수집 기능은 공지의 기술로 구현 가능한 것으로서 이에 대한 구체적인 설명은 생략하기로 한다.To achieve this, the function of collecting content such as each document from the Internet or database (DB) will be performed. However, since the content collection function can be implemented using known technology, a detailed description thereof will be omitted.

여기서, 컨텐츠는, 표를 게재하고(포함하고) 있는 문서로서, 예컨대, 예컨대, PDF 문서, HTML 문서, 및 이미지 등을 포함할 수 있고, 그 형식에 제한이 따르지는 않는다.Here, the content is a document containing (including) a table, and may include, for example, a PDF document, an HTML document, and an image, and there are no restrictions on its format.

이러한 컨텐츠검출장치(100)는 소프트웨어(예: 애플리케이션)가 탑재되는 컴퓨팅 장치(예: PC, 스마트 폰) 또는 서버의 형태로 구현될 수 있다.This content detection device 100 may be implemented in the form of a computing device (eg, PC, smart phone) or server on which software (eg, application) is mounted.

만약, 컨텐츠검출장치(100)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.If the content detection device 100 is implemented in the form of a server, for example, it may be implemented in the form of a web server, database server, proxy server, etc., and the network load balancing mechanism or service device may be implemented through the Internet or other network. One or more of various software that allows operation on the computer may be installed, thereby enabling it to be implemented as a computerized system.

결국, 본 발명의 일 실시예에 따른 컨텐츠 검출 환경에서는, 전술한 구성을 통해 기준표와 동일 또는 유사한 표를 게재한 컨텐츠를 효과적으로 검출할 수 있는데, 이하에서는 이를 실현하기 위한 컨텐츠검출장치(100)의 구성을 보다 구체적으로 설명하기로 한다.Ultimately, in the content detection environment according to an embodiment of the present invention, content containing the same or similar table as the reference table can be effectively detected through the above-described configuration. Hereinafter, the content detection device 100 for realizing this will be described. Let us explain the configuration in more detail.

도 2는 본 발명의 일 실시예에 따른 컨텐츠검출장치(100)의 구성을 보여주고 있다.Figure 2 shows the configuration of a content detection device 100 according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 컨텐츠검출장치(100)는 명령어를 포함하는 메모리와, 메모리 내 명령어를 실행하는 프로세서를 포함하도록 구성될 수 있다.As shown in FIG. 2, the content detection device 100 according to an embodiment of the present invention may be configured to include a memory including instructions and a processor that executes the instructions in the memory.

특히, 본 발명의 일 실시예에 따른 프로세서의 경우, 명령어에 실행에 따른 구현 기능에 따라 추출부(110), 인식부(120), 판단부(130), 및 출력부(140)를 포함하는 구성을 가질 수 있다.In particular, in the case of a processor according to an embodiment of the present invention, it includes an extraction unit 110, a recognition unit 120, a determination unit 130, and an output unit 140 according to the implementation function according to the execution of the instruction. It can have a configuration.

또한, 본 발명의 일 실시예에 따른 컨텐츠검출장치(100)는 전술한 구성 이외에 학습부(150)의 구성을 더 포함할 수 있다.Additionally, the content detection device 100 according to an embodiment of the present invention may further include a learning unit 150 in addition to the above-described configuration.

한편, 본 발명의 일 실시예에 따른 학습부(150)는, 컨텐츠검출장치(100)의 구성 중 일부로 설명되지만, 이에 제한되는 것이 아닌, 컨텐츠검출장치(100)와는 별도의 독립적인 장치로 구현될 수 있음은 물론이다.Meanwhile, the learning unit 150 according to an embodiment of the present invention is described as part of the configuration of the content detection device 100, but is not limited thereto and is implemented as a separate and independent device from the content detection device 100. Of course it can be done.

이상, 본 발명의 일 실시예에 따른 컨텐츠검출장치(100)는 전술한 프로세서의 기능 구성을 통해, 컨텐츠 내 표를 셀 단위로 인식하여 이를 기준표와 비교하는 방식으로 기준표와 동일 또는 유사한 표를 게재하고 있는 컨텐츠를 검출할 수 있는데, 이하에서는 이를 실현하기 위한 각 기능 구성에 대해 구체적인 설명을 이어 가기로 한다.As described above, the content detection device 100 according to an embodiment of the present invention recognizes the table in the content cell by cell through the functional configuration of the processor described above and compares it with the standard table to display a table that is the same or similar to the standard table. It is possible to detect the content being played, and below, we will continue with a detailed explanation of the configuration of each function to realize this.

추출부(110)는 컨텐츠로부터 표를 추출하는 기능을 담당한다.The extraction unit 110 is responsible for extracting tables from content.

보다 구체적으로, 추출부(110)는 기 설정된 기준표와의 유사 여부 판단을 위해서 컨텐츠로부터 표를 추출하게 된다.More specifically, the extraction unit 110 extracts a table from the content to determine whether it is similar to a preset standard table.

이를 위해, 추출부(110)는 컨텐츠로부터 표를 추출하기에 앞서 기준표를 설정(확정)하게 되는데, 이는 기준표만을 입력받거나, 또는 별도의 컨텐츠를 입력받아 이로부터 표를 추출한 후 기준표로 설정하는 방식으로 이루어질 수 있다.For this purpose, the extraction unit 110 sets (confirms) a standard table prior to extracting the table from the content, which is a method of receiving only the standard table or inputting separate content, extracting the table from it, and then setting it as the standard table. It can be done.

이러한 기준표 설정과 관련하여 컨텐츠로부터 추출되는 표가 다수 개인 경우라면, 각각의 표를 전부 기준표로 설정하여 각각에 대해 유사 여부를 판단하거나, 컨텐츠로부터 추출되는 다수 개의 표 중 사용자로부터 선택되는 표만을 기준표로 설정하여 유사 여부가 판단할 수 있음은 물론이다.In relation to setting such a standard table, if there are multiple tables extracted from the content, each table can be set as a standard table to determine whether each is similar, or only the table selected by the user among the multiple tables extracted from the content can be used as a standard table. Of course, similarity can be determined by setting .

그리고, 추출부(110)는 위 방식에 따라 기준표가 설정되면, 수집된 컨텐츠 내에서 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출한다.Then, when the standard table is set according to the above method, the extraction unit 110 images the object area where the table is located within the collected content and extracts the table from the object area where imaging has been completed.

전자문서로 작성되어 있는 문서의 경우, 파싱 과정에서 실제 사람의 눈으로 보는 것과 다르게 왜곡되어 나타나는 경우가 있다.In the case of documents written as electronic documents, they may appear distorted during the parsing process, different from what the actual human eye sees.

이는, 문서 내에 포함되어 있는 태그 등의 영향을 받거나, 혹은 문서 내에 사람 눈에는 안보이는 색으로 기재된 문자(바탕색과 동일한 색으로 글자가 입력되어 있으면 사람 눈에는 보이지 않음)가 있는 경우가 대표적인 경우인데, 이러한 영향을 없애고 실제 사람 눈에 보이는 그대로 표를 추출하기 위해서는 해당 부분을 미리 이미지화하는 처리를 한 후 해당 표 부분이 추출되도록 하는 것이 바람직하다.A typical example of this is when it is affected by tags included in the document, or when there are characters in the document written in a color that is invisible to the human eye (if the text is entered in the same color as the background color, it is not visible to the human eye). In order to eliminate this effect and extract the table as it appears to the actual human eye, it is desirable to process the relevant part into an image in advance and then extract the table part.

이에, 본 발명의 일 실시예에서는, 기준표와의 유사 여부를 판단하기 위한 표를 컨텐츠로부터 추출함에 있어서, 해당 컨텐츠가 이미지 형식이 아니라면, 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출하는 방식을 적용하고 있는 것이다.Accordingly, in one embodiment of the present invention, when extracting a table for determining similarity to a standard table from content, if the content is not in an image format, the object area where the table is located is imaged, and the object area where the image has been completed is extracted. A table extraction method is being applied.

인식부(120)는 표에 대한 객체 인식을 수행하는 기능을 담당한다.The recognition unit 120 is responsible for performing object recognition for the table.

보다 구체적으로, 인식부(120)는 컨텐츠로부터 표가 추출되면, 추출된 표에 대해 기준표와의 유사 여부를 판단하기 위한 객체 인식을 수행하게 된다.More specifically, when a table is extracted from content, the recognition unit 120 performs object recognition on the extracted table to determine whether it is similar to a standard table.

이때, 인식부(120)는 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행할 수 있다.At this time, the recognition unit 120 may divide the table extracted from the content into cells and perform object recognition on a cell basis.

이와 관련하여, 표 전체를 이미지로 처리하여 유사 여부를 판단하는 경우에는 실질적으로 동일한 내용을 담고 있다고 하더라도 행이나 열의 순서가 변경되면 유사하지 않은 표로 인식을 하기 쉽다.In relation to this, when processing the entire table as an image to determine similarity, it is easy to recognize the table as dissimilar if the order of rows or columns is changed, even if it contains substantially the same content.

이에, 본 발명의 일 실시예에서는 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행함으로써, 이를 통해 표 내에서 행이나 열의 순서가 변경되더라도 각 셀에 포함된 정보가 동일한 경우에는 유사한 표로 판단하는 것을 가능하게 할 수 있다.Accordingly, in one embodiment of the present invention, the extracted table is divided into cells and object recognition is performed on a cell-by-cell basis, so that even if the order of rows or columns in the table is changed, if the information contained in each cell is the same, similar It can be made possible to judge from a table.

한편, 본 발명의 일 실시예에서 수행되는 객체 인식은, 기 학습된 인공지능모델을 통해서 수행될 수 있는데, 이에 관한 구체적인 설명은 학습부(140)에 대한 설명에서 구체적으로 다루기로 한다.Meanwhile, object recognition performed in one embodiment of the present invention may be performed through a previously learned artificial intelligence model, and a detailed description of this will be discussed in detail in the description of the learning unit 140.

판단부(130)는 기준표와의 유사 여부를 판단하는 기능을 담당한다.The judgment unit 130 is responsible for determining whether something is similar to the standard.

보다 구체적으로, 판단부(130)는 셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 기준표와의 유사 여부를 판단하게 된다.More specifically, the determination unit 130 determines whether the data is similar to the reference table based on at least one of the similarity between cells and the positional relationship between cells.

이때, 판단부(130)는 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 셀 간의 위치 관계를 이용하여 기준표와의 유사 여부를 판단할 수 있다.At this time, if the number of cells with a similarity to the reference table is greater than a threshold or more than a set number, the determination unit 130 may determine whether they are similar to the reference table using the positional relationship between cells.

여기서, 셀 간의 위치 관계는 동일 행, 동일 열에 있는 셀들이 동일 유사한지 여부를 기준으로 확인할 수 있다.Here, the positional relationship between cells can be confirmed based on whether cells in the same row and column are identical or similar.

즉, 두 개의 표에서 동일 유사한 정보를 포함하는 셀의 위치가 서로 다르다고 하더라도 그 셀이 동일 행 또는 동일 열에서 위치를 바꾸는 경우 두 개의 표가 서로 동일해지는지 여부를 확인하여 표의 유사 여부를 판단하는 것이다. In other words, even if the positions of cells containing identical and similar information in two tables are different, if the cells change positions in the same row or the same column, it is necessary to determine whether the tables are similar by checking whether the two tables become identical. will be.

이때, 행 또는 열, 둘 중의 하나만을 기준으로 삼을 수도 있고, 행과 열을 모두 기준으로 삼을 수도 있다.At this time, only one of the rows or columns can be used as the standard, or both rows and columns can be used as the standard.

행 또는 열을 기준으로 삼을 때에는 단순히 셀 내의 정보를 비교할 수도 있지만, 표의 헤더 부분, 즉 제일 위에 있는 행이나 제일 좌측에 있는 열에 포함되어 있는 정보를 기준으로 해서, 각 헤더로부터 시작되는 행 또는 열들에 포함되는 정보들이 순서는 다르더라도 실질적인 내용은 동일 또는 유사한지를 확인할 수 있다.When using rows or columns as a standard, you can simply compare the information in the cells, but based on the information contained in the header part of the table, that is, the topmost row or leftmost column, the rows or columns starting from each header Even if the information included in is different in order, you can check whether the actual content is the same or similar.

셀의 동일 또는 유사 여부에 대한 판단은, 셀 자체를 이미지로 인식하여, 이미지의 유사 여부를 판단하는 방식을 적용할 수도 있고, 셀 내의 컨텐츠에서 텍스트를 추출하여 추출된 텍스트의 유사 여부를 판단하는 방식을 적용할 수 있다.To determine whether cells are the same or similar, a method may be applied to recognize the cell itself as an image and determine whether the image is similar, or to extract text from the content within the cell and determine whether the extracted text is similar. method can be applied.

이와 관련하여, 표를 구성하는 셀에 텍스트가 아닌 이미지가 들어 있는 경우에는 표의 셀을 이미지로 인식하여 이미지의 유사 여부를 판단하는 방식이 보다 더 효율적일 것이고, 그렇지 않고 텍스트가 기재되어 있는 경우에는 각 셀에서 텍스트를 추출한 후 추출된 텍스트의 유사 여부를 판단하는 방식이 더 효율적일 것이다.In this regard, if the cells constituting the table contain images rather than text, it would be more efficient to recognize the table cells as images and determine whether the images are similar. Otherwise, if text is written, each It would be more efficient to extract text from a cell and then determine whether the extracted text is similar.

물론, 사용자 또는 시스템 설계자의 선택에 따라 어느 하나의 방식으로 유사 여부를 판단하거나, 두 개의 방식을 전부 적용하여 셀의 동일 또는 유사 여부를 판단할 수 있다.Of course, depending on the choice of the user or system designer, similarity can be determined using either method, or both methods can be applied to determine whether cells are identical or similar.

또한, 셀에 포함되어 있는 컨텐츠가 텍스트로 읽을 수 있는 컨텐츠인지 먼저 판단하고, 텍스트로 읽어올 수 있는 컨텐츠인 경우에는 텍스트 유사 여부를 판단하는 방식을 적용하고, 그렇지 않은 경우에는 이미지의 유사 여부를 판단하는 방식을 적용할 수 있다.In addition, first determine whether the content contained in the cell is content that can be read as text, and if it is content that can be read as text, apply a method to determine whether the text is similar, and if not, whether the image is similar is applied. The judgment method can be applied.

여기서, 텍스트의 유사 여부, 및 이미지의 유사 여부를 판단하는 방식은 공지의 기술이 적용될 수 있으며, 따라서 이에 대한 구체적인 설명은 생략하기로 한다.Here, known techniques may be applied to the method of determining whether text is similar and whether images are similar, and therefore detailed description thereof will be omitted.

한편, 셀 자체를 이미지로 판단할 때에는 그 이미지가 확대, 축소, 회전, 및 반전 등이 된 경우를 고려하여 유사 여부를 판단하는 것이 바람직함은 물론이다.Meanwhile, when judging the cell itself as an image, it is of course desirable to determine whether it is similar by taking into account cases where the image is enlarged, reduced, rotated, or reversed.

설명의 이해를 돕기 위해 도 3을 예를 들어 좀 더 구체적으로 살펴보기로 한다.To help understand the explanation, let's look at Figure 3 in more detail as an example.

도 3의 (a), (b) 두 가지 표를 보면 실질적인 내용은 동일하지만, 표의 형태도 다르고, 동일한 위치에 있는 셀의 값은 전부 다른 값을 가지고 있음을 확인할 수 있다.Looking at the two tables in Figures 3 (a) and (b), it can be seen that although the actual content is the same, the form of the table is also different, and the values of cells at the same location all have different values.

이 경우 표 전체를 이미지화하여 이미지의 유사 여부를 기준으로 두 개의 표를 비교하게 되면, 두 개의 표는 서로 다른 표로 인식될 수밖에 없다.In this case, if the entire table is imaged and the two tables are compared based on whether the images are similar, the two tables will inevitably be recognized as different tables.

그러나 본 발명의 일 실시예에서는, 표를 이루는 각 셀을 별개의 객체로 인식하고, 텍스트의 유사 여부를 판단하는 방식을 적용하면, ‘1.0’과 ‘1’, ‘2.0’과 ‘2’, ‘3.0’과 ‘3’, ‘4.0’과 ‘4’는 동일한 값을 나타낸다는 것을 판단할 수 있고, ‘A의 농도’를 헤더로 하고 있는 열에 포함된 셀 값들은 위치는 다르지만, 두 개의 표가 서로 같고, ‘B의 농도’를 헤더로 하고 있는 열에 포함된 셀 값들은 위치는 다르지만, 두 개의 표가 서로 같다는 것을 판단할 수 있다. However, in one embodiment of the present invention, if each cell forming the table is recognized as a separate object and a method of determining whether the text is similar is applied, '1.0' and '1', '2.0' and '2', It can be determined that '3.0' and '3', '4.0' and '4' represent the same value, and the cell values contained in the column with 'Concentration of A' as the header are located in different positions, but are similar to the two tables. are the same, and the cell values contained in the column with 'Concentration of B' as the header are located differently, but it can be determined that the two tables are the same.

그리고, 각 행의 값들을 보면 ‘1’과 ‘3’(‘1.0’과 ‘3.0’), ‘2’와 ‘4’(‘2.0’과 ‘4.0’)이 항상 동일한 행에 위치하고 있다는 것을 판단할 수 있다.And, looking at the values of each row, it is determined that '1' and '3' ('1.0' and '3.0'), and '2' and '4' ('2.0' and '4.0') are always located in the same row. can do.

따라서, 비록 각 행의 헤더에 해당되는 ‘1차 실험’과 ‘1회’, ‘2차 실험’과 ‘2회’가 서로 동일하지는 않지만, 유사성이 있으며, 그 외의 내용은 모두 동일한 것으로 인식이 되므로, 두 개의 표는 유사도가 매우 높은 표로 인식할 수 있는 것이다.Therefore, although the '1st experiment' and '1st time' and '2nd experiment' and '2nd time' corresponding to the header of each row are not the same, there is a similarity, and all other contents are recognized as the same. Therefore, the two tables can be recognized as having a very high degree of similarity.

정리하자면, 본 발명의 일 실시예에서는, 셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 기준표와의 유사 여부를 판단하는 것을 기본으로 하되, 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행 및 열 중 적어도 하나가 서로 동일한지 여부와, 그리고, 각 셀이 위치하고 있는 행, 및 열 중 적어도 하나에 포함되어 있는 헤더가 서로 동일한지 여부를 셀 간의 위치 관계로서 확인하는 방식을 통해서 판별 결과의 정확도를 제고할 수 있는 것이다.To summarize, in one embodiment of the present invention, the basis is to determine whether the similarity to the standard table is based on at least one of the similarity between cells and the positional relationship between cells, and the number of cells whose similarity to the standard table is greater than or equal to a threshold is set to a set number. In the above case, the positional relationship between cells determines whether at least one of the rows and columns in which each cell is located is the same, and whether the header contained in at least one of the rows and columns in which each cell is located is the same. The accuracy of the determination result can be improved through the confirmation method.

출력부(140)는 기준표와의 유사 여부를 판단 결과를 출력하는 기능을 담당한다.The output unit 140 is responsible for outputting a result of determining whether it is similar to the standard table.

보다 구체적으로, 출력부(140)는 기준표와의 유사 여부 판단 결과에 따라 기준표와 유사 또는 동일하다고 판단된 표에 관한 정보를 출력하게 된다.More specifically, the output unit 140 outputs information about a table determined to be similar or identical to the standard table according to the result of determining whether it is similar to the standard table.

이때, 출력부(140)는 동일 또는 유사하다고 판단되는 표만을 유사 정도, 컨텐츠 생성 일자 등 사용자가 자유롭게 설정할 수 있는 소정의 기준에 따라 정렬하여 출력할 수 있고 또는 표가 게재된 컨텐츠 자체를 출력할 수도 있다.At this time, the output unit 140 can sort and output only the tables that are judged to be identical or similar according to predetermined criteria that can be freely set by the user, such as the degree of similarity and the content creation date, or output the content itself on which the table is posted. It may be possible.

이와 관련하여 동일 또는 유사하다고 판단되는 컨텐츠 자체를 출력할 때에는, 해당 컨텐츠를 볼 수 있는 링크 정보가 포함된 리스트가 출력되도록 하고, 해당 리스트의 링크를 선택하면 컨텐츠의 제일 처음 부분이 출력되는 것이 아니라, 해당 컨텐츠 중 동일 유사하다고 판단된 표가 있는 부분이 제일 처음 출력되도록 하는 것이 바람직하다.In relation to this, when outputting the content itself that is judged to be the same or similar, a list containing link information to view the content is output, and when a link in the list is selected, the first part of the content is not output. , it is desirable to ensure that the part of the content with tables judged to be identical or similar is output first.

또한, 컨텐츠 자체를 출력하는 경우, 해당 컨텐츠의 일부분을 미리 보기 형태로 노출시킬 수 있으며, 이 경우에도 미리 보기에는 동일 유사하다고 판단된 표 부분이 포함될 수 있도록 구현하는 것이 바람직하다.Additionally, when the content itself is output, a portion of the content can be exposed in the form of a preview, and even in this case, it is desirable to implement the preview so that it includes table portions that are determined to be identical and similar.

한편, 본 발명의 일 실시예에서 수행되는 객체 인식은, 기 학습된 인공지능모델을 통해서 수행될 수 있음을 앞서 언급한 바 있다.Meanwhile, it has been mentioned previously that object recognition performed in one embodiment of the present invention can be performed through a previously learned artificial intelligence model.

이와 관련하여, 학습부(150)는 객체 인식을 위한 인공지능모델을 학습(생성)하는 기능을 담당한다.In this regard, the learning unit 150 is responsible for learning (generating) an artificial intelligence model for object recognition.

보다 구체적으로, 학습부(150)는 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행하기 위해 학습데이터로 입력되는 표를 셀 단위로 학습하게 된다.More specifically, the learning unit 150 divides the table extracted from the content into cells and learns the table input as learning data on a cell-by-cell basis in order to perform object recognition on a cell-by-cell basis.

이때, 학습부(150)는 학습데이터로 입력되는 표에 구분선을 설정하고, 구분선으로 구획되는 각 영역을 셀 영역으로 인식하며, 인식된 셀 영역 각각을 개별 객체로 학습하게 된다.At this time, the learning unit 150 sets a dividing line in the table input as learning data, recognizes each area divided by the dividing line as a cell area, and learns each recognized cell area as an individual object.

이와 관련하여, 표에서 각 셀을 구분하기 위해서 가장 편한 방법은 표 내에 있는 셀 간의 구분선을 이용하는 것이다.In this regard, the most convenient way to distinguish each cell in a table is to use dividing lines between cells in the table.

그러나 앞서 예시한 도 3의 (b)와 같이 중간에 구분선이 없는 경우에는 이러한 방식을 이용할 수 없게 되는 문제점이 발생할 수 있다.However, if there is no dividing line in the middle, as shown in (b) of FIG. 3, a problem may arise in which this method cannot be used.

이러한 경우에 대해서는 셀 안의 빈 공간을 찾아내고 이 빈 공간이 연속되는 지점이 셀의 구분이 되는 영역이라고 인식하는 방식이 존재한다.For these cases, there is a method of finding empty space within a cell and recognizing that the point where this empty space is continuous is the area where the cell is divided.

헌데, 위 방식을 따르는 경우에도 셀 내부에 빈 공간이 있는 경우, 그리고 셀 내의 문자열이 이웃 셀과 연속되는 경우에는 셀 구분에 있어서 오류가 발생할 수 있다.However, even if you follow the above method, errors may occur in cell distinction if there is empty space inside the cell and if the string within the cell is continuous with neighboring cells.

예를 들어, 도 4를 참조하여 이를 구체적으로 살펴보면, (a)와 같은 에 대해 위 방식에 따라 구분선을 설정하게 되면, (b)와 같은 형태로 구분선 설정에 오류가 발생할 수 있다.For example, looking at this in detail with reference to FIG. 4, if a dividing line is set according to the above method for something like (a), an error may occur in setting the dividing line in the form of (b).

다시 말해, (c)와 같은 형태로 구분선이 설정되어야 하는데, 단순히 빈 공간이 이어진 곳을 구분선 영역이라고 생각하고 XY컷 방식으로 구분선을 설정하게 되면, (b)와 같은 오류가 발생할 수 있는 것이다.In other words, the dividing line should be set in the form like (c), but if you simply think that the area where the empty space is connected is the dividing line area and set the dividing line using the XY cut method, an error like (b) may occur.

이에, 본 발명의 일 실시예에서는, 이러한 한계점을 해결하기 위해서 셀 단위로 객체를 인식하도록 학습하는 방식을 도입하고 있는 것이다.Accordingly, in one embodiment of the present invention, a method of learning to recognize objects on a cell-by-cell basis is introduced to solve this limitation.

즉, 구분선이 설정된 정보를 받아서 그 구분선으로 구분된 영역을 셀로 인식하고, 이 셀을 객체로 인식하여 그 특징을 학습하고, 이 학습된 결과를 바탕으로 다른 표에서도 각 셀의 경계가 되는 부분을 찾도록 하는 학습 방식을 적용하고 있는 것이다. In other words, it receives information on the dividing line, recognizes the area divided by the dividing line as a cell, recognizes this cell as an object, learns its characteristics, and based on the learned results, recognizes the part that becomes the boundary of each cell in other tables. We are applying a learning method that allows you to find it.

여기서, 셀을 객체로 인식하는 방법은 기존의 딥러닝 알고리즘 등을 이용할 수 있다.Here, a method of recognizing a cell as an object can use an existing deep learning algorithm, etc.

이러한 알고리즘 중 대표적인 것은 YOLO 알고리즘이며, 그 밖에 Fast/Faster R-CNN 과 SSD 등도 이용될 수 있다.The most representative of these algorithms is the YOLO algorithm, but Fast/Faster R-CNN and SSD can also be used.

본 발명의 일 실시예에서는, 이러한, 알고리즘만으로 그 대상을 한정하지 않으며, 객체 인식을 수행하고 객체 간 영역을 구분하기 위해 사용될 수 있는 알고리즘이라면 어떠한 알고리즘이라도 적용할 수 있음은 물론이다.In one embodiment of the present invention, the subject is not limited to this algorithm alone, and of course, any algorithm that can be used to perform object recognition and distinguish areas between objects can be applied.

대표적인 알고리즘인 YOLO 알고리즘을 예로 들어 설명하면, YOLO 알고리즘은 사용자가 학습용 자료에 일일이 바운딩 박스(Bounding Box)를 설정하는 작업을 수행하면, 학습을 통하여 그 객체의 특징을 파악하고, 이를 토대로 동일한 객체를 검출할 수 있다.Taking the YOLO algorithm, a representative algorithm, as an example, the YOLO algorithm identifies the characteristics of the object through learning when the user individually sets the bounding box for the learning material, and creates the same object based on this. It can be detected.

이와 관련하여, 도 5에서는 YOLO 알고리즘을 통한 학습을 위하여 생성(설정)되는 바운딩 박스(dog, bicycle, truck)를 예시적으로 보여주고 있다.In relation to this, Figure 5 exemplarily shows bounding boxes (dog, bicycle, truck) created (set) for learning through the YOLO algorithm.

YOLO 알고리즘을 적용할 때, 불편한 점은 사용자가 일일이 대상이 되는 객체에 바운딩 박스를 설정해야 한다는 것이다.When applying the YOLO algorithm, the inconvenience is that the user must set the bounding box for each target object.

정확한 결과를 도출하기 위해서는 매우 많은 표를 학습시켜야 하고, 각각의 표에는 많은 셀들이 포함되어 있으므로, 따라서 YOLO 알고리즘을 이용하여 각 표의 셀들을 객체 인식시키는 학습을 수행하기 위해서는 모든 셀에 바운딩 박스를 설정해야 하므로 많은 시간과 노력이 필요로 하게 된다. In order to derive accurate results, a very large number of tables must be trained, and each table contains many cells. Therefore, in order to learn to recognize the cells in each table as objects using the YOLO algorithm, set a bounding box in all cells. This requires a lot of time and effort.

이에, 본 발명에서는 이러한 한계점을 개선하기 위하여 사용자가 셀에다 일일이 바운딩 박스를 설정하지 않고, 셀 간의 구분선만을 설정하면, 구분선으로 구획되는 영역을 셀의 영역으로 인식하고, 그 셀의 영역에 자동으로 바운딩 박스가 설정되도록 하고 이를 기초로 학습을 하게 하여, 사용자의 노력을 최소로 하면서 같은 결과를 도출할 수 있도록 한다.Accordingly, in the present invention, in order to improve this limitation, if the user does not set bounding boxes for each cell, but only sets a dividing line between cells, the area demarcated by the dividing line is recognized as the cell area, and the area of the cell is automatically entered. By setting a bounding box and learning based on it, the same results can be obtained with minimal user effort.

예를 들어, 도 6을 참조하여 이를 구체적으로 살펴보면, (a)는 앞서 살펴본 도 3의 (b) 에 도시된 표이고, 이 표에 (b)와 같은 형태로 구분선을 설정할 수 있다.For example, looking at this in detail with reference to FIG. 6, (a) is the table shown in (b) of FIG. 3 discussed above, and a dividing line can be set in this table in the same form as (b).

구분선을 설정해 줄 때, 표의 경계 영역을 구분선으로 인식을 하도록 미리 프로그램해 두면, 표의 좌우 바깥 방향에는 구분선을 설정하지 않아도 되므로 바람직하다.When setting a dividing line, it is advisable to program it in advance to recognize the border area of the table as a dividing line, so that you do not need to set dividing lines on the left and right outer sides of the table.

이를 통해서 본 발명의 일 실시예에서는 (c)와 같이 자동으로 구분선에 의해 구획되는 영역들을 별개의 셀로 인식을 하여 그 셀의 특징을 학습할 수 있게 되는 것이다.Through this, in one embodiment of the present invention, it is possible to automatically recognize the areas divided by the dividing line as separate cells, as shown in (c), and learn the characteristics of the cells.

정리하자면, 학습부(150)는 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행하기 위해 학습데이터로 입력되는 표에 구분선을 설정한다.In summary, the learning unit 150 divides the table extracted from the content into cells and sets a dividing line on the table input as learning data to perform cell-level object recognition.

이러한, 구분선 설정은, 기본적으로 사용자가 표에서 구분선을 설정하면 그 정보를 이용하여 표에서 구분선을 설정하는 방식으로 진행될 수 있다. This kind of dividing line setting can be basically done in a way that when the user sets a dividing line in the table, the information is used to set the dividing line in the table.

그러나 반드시 사용자가 모든 구분선을 설정하는 방식으로 할 필요는 없으며, 미리 학습시스템에서 학습된 결과를 이용하여 1차적으로 구분선을 설정하도록 하고, 그 후 사용자가 설정된 구분선을 보면서 수정하거나 추가하는 등의 방식으로 진행이 되도록 하는 것이 바람직하다. However, it is not necessary for the user to set all the dividing lines. Instead, the dividing lines are initially set using the results learned from the learning system in advance, and then the user can modify or add them while looking at the set dividing lines. It is desirable to allow it to proceed.

이렇게 하는 경우, 사용자의 노력이 절감되고, 빠른 속도로 학습 데이터 입력 작업이 진행될 수 있다는 장점이 있다. The advantage of doing this is that the user's effort is reduced and the learning data input work can proceed at a fast speed.

이렇듯, 1차적으로 구분선을 설정할 때에는, 위에서 언급한 셀을 객체 인식하는 결과만을 가지고 구분선을 설정할 필요는 없으며, 다른 알고리즘도 병행하여 구분선을 설정하도록 하는 것이 바람직하다. In this way, when initially setting the dividing line, there is no need to set the dividing line based solely on the results of object recognition of the cells mentioned above, and it is desirable to set the dividing line in parallel with other algorithms.

앞서 예시한, 도 3의 (a)와 도 4의 (c)와 같이 이미 표에 셀 간에 선분이 그어져 있을 경우에는, 해당 선분을 구분선으로 설정할 수 있고, 또한, 앞에서 설명한 바와 같이 표의 경계 영역에는 선분이 그어져 있지 않더라도 셀의 구분선이 있는 것으로 보고 이를 설정할 수 있다.If a line segment is already drawn between cells in a table, as shown in Figures 3(a) and Figure 4(c), the line segment can be set as a dividing line, and as previously explained, there is a boundary area of the table. Even if the line segment is not drawn, you can set it as if there is a cell dividing line.

그리고, 학습부(150)는 이와 같이 구분선이 설정되면, 구분선으로 구분되는 각각의 영역을 셀 영역으로 인식(설정)한다.And, when the dividing line is set like this, the learning unit 150 recognizes (sets) each area divided by the dividing line as a cell area.

여기서, 셀 영역으로 설정한다 함은, YOLO 알고리즘을 기준으로 설명을 하면, 객체 인식 학습을 위하여 바운딩 박스를 자동으로 설정한다는 의미로 해석될 수 있다.Here, setting as a cell area can be interpreted to mean automatically setting a bounding box for object recognition learning, if explained based on the YOLO algorithm.

나아가, 학습부(150)는 이렇게 인식(설정)된 셀을 하나의 객체로 인식하고 그 특징을 학습한다.Furthermore, the learning unit 150 recognizes the recognized (set) cell as an object and learns its characteristics.

다시 말해, 학습부(150)는 YOLO 알고리즘을 기준으로 설명을 하면 셀 영역 간 경계 영역을 기준으로 자동 생성되는 바운딩 박스(Bounding Box)를 이용하여 셀 영역 각각을 개별 객체로서 학습하고 있는 것이다. In other words, the learning unit 150 is learning each cell region as an individual object using a bounding box that is automatically generated based on the boundary region between cell regions when explained based on the YOLO algorithm.

여기서 객체 학습에는, 공지의 학습 알고리즘을 적용될 수 있으며, 이에 따라 이에 관한 구체적인 설명은 생략하기로 한다.Here, a known learning algorithm can be applied to object learning, and therefore detailed description thereof will be omitted.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 컨텐츠검출장치(100)의 구성에 따르면, 컨텐츠 내 표를 셀 단위로 인식하여 이를 기준표와 비교하는 방식으로 기준표와 동일 또는 유사한 표를 게재한 컨텐츠를 검출함으로써, 타인의 표만을 복사한 경우뿐만 아니라 복사한 표를 일부 편집한 경우에도 이를 게재하고 있는 컨텐츠를 효과적으로 검출하는 것이 가능해짐을 알 수 있다.As seen above, according to the configuration of the content detection device 100 according to an embodiment of the present invention, a table identical or similar to the standard table is posted by recognizing the table in the content cell by cell and comparing it with the standard table. It can be seen that by detecting content, it is possible to effectively detect the content posted not only when only another person's table is copied, but also when the copied table is partially edited.

이하에서는, 본 발명의 일 실시예에 따른 컨텐츠 검출 방법과, 이러한, 컨텐츠 검출 방법에 있어서 셀 단위의 객체 인식을 지원하는 학습 방법을 각각 설명하기로 한다.Below, a content detection method according to an embodiment of the present invention and a learning method that supports cell-level object recognition in this content detection method will be described, respectively.

본 발명의 일 실시예에 따른 컨텐츠 검출 방법과 셀 단위의 객체 인식을 지원하는 학습 방법의 동작 주체는, 앞서 도 2를 참조하여 설명한 컨텐츠검출장치(100)가 되므로, 이하에서는 해당 참조번호를 언급하여 설명을 이어 가기로 한다.Since the subject of operation of the content detection method and the learning method supporting cell-level object recognition according to an embodiment of the present invention is the content detection device 100 described above with reference to FIG. 2, the corresponding reference numbers are mentioned below. So, let’s continue the explanation.

우선, 도 7을 참조하여 본 발명의 일 실시예에 따른 컨텐츠 검출 방법을 설명하면 다음과 같다.First, a content detection method according to an embodiment of the present invention will be described with reference to FIG. 7 as follows.

먼저, 컨텐츠검출장치(100)는 기준표를 설정(확정)한다(S110).First, the content detection device 100 sets (confirms) a standard table (S110).

이는 기준표만을 입력받거나, 또는 별도의 컨텐츠를 입력받아 이로부터 표를 추출한 후 기준표로 설정하는 방식으로 이루어질 수 있다.This can be done by receiving only the standard table, or by inputting separate content, extracting the table from it, and then setting it as the standard table.

이러한 기준표 설정과 관련하여 컨텐츠로부터 추출되는 표가 다수 개인 경우라면, 각각의 표를 전부 기준표로 설정하여 각각에 대해 유사 여부를 판단하거나, 컨텐츠로부터 추출되는 다수 개의 표 중 사용자로부터 선택되는 표만을 기준표로 설정하여 유사 여부가 판단할 수 있음은 물론이다.In relation to setting such a standard table, if there are multiple tables extracted from the content, each table can be set as a standard table to determine whether each table is similar, or only the table selected by the user among the multiple tables extracted from the content can be used as a standard table. Of course, similarity can be determined by setting .

이어서, 컨텐츠검출장치(100)는, 위 방식에 따라 기준표가 설정되면, 수집된 컨텐츠로부터 표를 추출한다(S120).Next, when the standard table is set according to the above method, the content detection device 100 extracts the table from the collected content (S120).

이때, 컨텐츠검출장치(100)는 컨텐츠 내에서 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출할 수 있다.At this time, the content detection device 100 can image the object area where the table is located within the content and extract the table from the object area where the image has been completed.

즉, 전자문서로 작성되어 있는 문서의 경우, 파싱 과정에서 실제 사람의 눈으로 보는 것과 다르게 왜곡되어 나타나는 경우가 있다.In other words, in the case of documents written as electronic documents, they may appear distorted during the parsing process, different from what the actual human eye sees.

이는, 문서 내에 포함되어 있는 태그 등의 영향을 받거나, 혹은 문서 내에 사람 눈에는 안보이는 색으로 기재된 문자(바탕색과 동일한 색으로 글자가 입력되어 있으면 사람 눈에는 보이지 않음)가 있는 경우가 대표적인 경우인데, 이러한 영향을 없애고 실제 사람 눈에 보이는 그대로 표를 추출하기 위해서는 해당 부분을 미리 이미지화하는 처리를 한 후 해당 표 부분이 추출되도록 하는 것이 바람직하다.A typical example of this is when it is affected by tags included in the document, or when there are characters in the document written in a color that is invisible to the human eye (if the text is entered in the same color as the background color, it is not visible to the human eye). In order to eliminate this effect and extract the table as it appears to the actual human eye, it is desirable to process the relevant part into an image in advance and then extract the table part.

이에, 본 발명의 일 실시예에서는, 기준표와의 유사 여부를 판단하기 위한 표를 컨텐츠로부터 추출함에 있어서, 해당 컨텐츠가 이미지 형식이 아니라면, 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출하는 방식을 적용하고 있는 것이다.Accordingly, in one embodiment of the present invention, when extracting a table for determining similarity to a standard table from content, if the content is not in an image format, the object area where the table is located is imaged, and the object area where the image has been completed is extracted. A table extraction method is being applied.

그리고 나서, 컨텐츠검출장치(100)는 컨텐츠로부터 표가 추출되면, 추출된 표에 대해 기준표와의 유사 여부를 판단하기 위한 객체 인식을 수행한다(S130).Then, when the table is extracted from the content, the content detection device 100 performs object recognition on the extracted table to determine whether it is similar to the standard table (S130).

이때, 컨텐츠검출장치(100)는 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행할 수 있다.At this time, the content detection device 100 may divide the table extracted from the content into cells and perform object recognition on a cell basis.

이와 관련하여, 표 전체를 이미지로 처리하여 유사 여부를 판단하는 경우에는 실질적으로 동일한 내용을 담고 있다고 하더라도 행이나 열의 순서가 변경되면 유사하지 않은 표로 인식을 하기 쉽다.In relation to this, when processing the entire table as an image to determine similarity, it is easy to recognize the table as dissimilar if the order of rows or columns is changed, even if it contains substantially the same content.

이에, 본 발명의 일 실시예에서는 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행함으로써, 이를 통해 표 내에서 행이나 열의 순서가 변경되더라도 각 셀에 포함된 정보가 동일한 경우에는 유사한 표로 판단하는 것을 가능하게 할 수 있다.Accordingly, in one embodiment of the present invention, the extracted table is divided into cells and object recognition is performed on a cell-by-cell basis, so that even if the order of rows or columns in the table is changed, if the information contained in each cell is the same, similar It can be made possible to judge with a table.

나아가, 컨텐츠검출장치(100)는 셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 기준표와의 유사 여부를 판단한다(S140).Furthermore, the content detection device 100 determines whether the content is similar to the reference table based on at least one of the similarity between cells and the positional relationship between cells (S140).

이때, 컨텐츠검출장치(100)는 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 셀 간의 위치 관계를 이용하여 기준표와의 유사 여부를 판단할 수 있다.At this time, when the number of cells whose similarity to the reference table is greater than the threshold is greater than or equal to a set number, the content detection device 100 may determine whether they are similar to the reference table using the positional relationship between cells.

여기서, 셀 간의 위치 관계는 동일 행, 동일 열에 있는 셀들이 동일 유사한지 여부를 기준으로 확인할 수 있다.Here, the positional relationship between cells can be confirmed based on whether cells in the same row and column are identical or similar.

즉, 두 개의 표에서 동일 유사한 정보를 포함하는 셀의 위치가 서로 다르다고 하더라도 그 셀이 동일 행 또는 동일 열에서 위치를 바꾸는 경우 두 개의 표가 서로 동일해지는지 여부를 확인하여 표의 유사 여부를 판단하는 것이다. In other words, even if the positions of cells containing identical and similar information in two tables are different, if the cells change positions in the same row or the same column, it is necessary to determine whether the tables are similar by checking whether the two tables become identical. will be.

이때, 행 또는 열, 둘 중의 하나만을 기준으로 삼을 수도 있고, 행과 열을 모두 기준으로 삼을 수도 있다.At this time, only one of the rows or columns can be used as the standard, or both rows and columns can be used as the standard.

행 또는 열을 기준으로 삼을 때에는 단순히 셀 내의 정보를 비교할 수도 있지만, 표의 헤더 부분, 즉 제일 위에 있는 행이나 제일 좌측에 있는 열에 포함되어 있는 정보를 기준으로 해서, 각 헤더로부터 시작되는 행 또는 열들에 포함되는 정보들이 순서는 다르더라도 실질적인 내용은 동일 또는 유사한지를 확인할 수 있다.When using rows or columns as a standard, you can simply compare the information in the cells, but based on the information contained in the header part of the table, that is, the topmost row or leftmost column, the rows or columns starting from each header Even if the information included in is different in order, you can check whether the actual content is the same or similar.

셀의 동일 또는 유사 여부에 대한 판단은, 셀 자체를 이미지로 인식하여, 이미지의 유사 여부를 판단하는 방식을 적용할 수도 있고, 셀 내의 컨텐츠에서 텍스트를 추출하여 추출된 텍스트의 유사 여부를 판단하는 방식을 적용할 수 있다.To determine whether cells are the same or similar, a method may be applied to recognize the cell itself as an image and determine whether the image is similar, or to extract text from the content within the cell and determine whether the extracted text is similar. method can be applied.

이와 관련하여, 표를 구성하는 셀에 텍스트가 아닌 이미지가 들어 있는 경우에는 표의 셀을 이미지로 인식하여 이미지의 유사 여부를 판단하는 방식이 보다 더 효율적일 것이고, 그렇지 않고 텍스트가 기재되어 있는 경우에는 각 셀에서 텍스트를 추출한 후 추출된 텍스트의 유사 여부를 판단하는 방식이 더 효율적일 것이다.In relation to this, if the cells constituting the table contain images rather than text, it would be more efficient to recognize the table cells as images and determine whether the images are similar. Otherwise, if text is written, each It would be more efficient to extract text from a cell and then determine whether the extracted text is similar.

물론, 사용자 또는 시스템 설계자의 선택에 따라 어느 하나의 방식으로 유사 여부를 판단하거나, 두 개의 방식을 전부 적용하여 셀의 동일 또는 유사 여부를 판단할 수 있다.Of course, depending on the choice of the user or system designer, similarity can be determined using either method, or both methods can be applied to determine whether cells are identical or similar.

또한, 셀에 포함되어 있는 컨텐츠가 텍스트로 읽을 수 있는 컨텐츠인지 먼저 판단하고, 텍스트로 읽어올 수 있는 컨텐츠인 경우에는 텍스트 유사 여부를 판단하는 방식을 적용하고, 그렇지 않은 경우에는 이미지의 유사 여부를 판단하는 방식을 적용할 수 있다.In addition, first determine whether the content contained in the cell is content that can be read as text, and if it is content that can be read as text, apply a method to determine whether the text is similar, and if not, whether the image is similar is applied. The judgment method can be applied.

여기서, 텍스트의 유사 여부, 및 이미지의 유사 여부를 판단하는 방식은 공지의 기술이 적용될 수 있으며, 따라서 이에 대한 구체적인 설명은 생략하기로 한다.Here, known techniques may be applied to the method of determining whether text is similar and whether images are similar, and therefore detailed description thereof will be omitted.

한편, 셀 자체를 이미지로 판단할 때에는 그 이미지가 확대, 축소, 회전, 및 반전 등이 된 경우를 고려하여 유사 여부를 판단하는 것이 바람직함은 물론이다.Meanwhile, when judging the cell itself as an image, it is of course desirable to determine whether it is similar by taking into account cases where the image is enlarged, reduced, rotated, or reversed.

앞서 예시한 도 3의 (a), (b) 두 가지 표를 보면 실질적인 내용은 동일하지만, 표의 형태도 다르고, 동일한 위치에 있는 셀의 값은 전부 다른 값을 가지고 있음을 확인할 수 있다.Looking at the two tables (a) and (b) of FIG. 3 illustrated above, it can be seen that although the actual content is the same, the form of the table is also different, and the values of cells at the same location all have different values.

이 경우 표 전체를 이미지화하여 이미지의 유사 여부를 기준으로 두 개의 표를 비교하게 되면, 두 개의 표는 서로 다른 표로 인식될 수밖에 없다.In this case, if the entire table is imaged and the two tables are compared based on whether the images are similar, the two tables will inevitably be recognized as different tables.

그러나 본 발명의 일 실시예에서는, 표를 이루는 각 셀을 별개의 객체로 인식하고, 텍스트의 유사 여부를 판단하는 방식을 적용하면, ‘1.0’과 ‘1’, ‘2.0’과 ‘2’, ‘3.0’과 ‘3’, ‘4.0’과 ‘4’는 동일한 값을 나타낸다는 것을 판단할 수 있고, ‘A의 농도’를 헤더로 하고 있는 열에 포함된 셀 값들은 위치는 다르지만, 두 개의 표가 서로 같고, ‘B의 농도’를 헤더로 하고 있는 열에 포함된 셀 값들은 위치는 다르지만, 두 개의 표가 서로 같다는 것을 판단할 수 있다. However, in one embodiment of the present invention, if each cell forming the table is recognized as a separate object and a method of determining whether the text is similar is applied, '1.0' and '1', '2.0' and '2', It can be determined that '3.0' and '3', '4.0' and '4' represent the same value, and the cell values contained in the column with 'Concentration of A' as the header are located in different positions, but are divided into two tables. are the same, and the cell values contained in the column with 'Concentration of B' as the header are located differently, but it can be determined that the two tables are the same.

그리고, 각 행의 값들을 보면 ‘1’과 ‘3’(‘1.0’과 ‘3.0’), ‘2’와 ‘4’(‘2.0’과 ‘4.0’)이 항상 동일한 행에 위치하고 있다는 것을 판단할 수 있다.And, looking at the values of each row, it is determined that '1' and '3' ('1.0' and '3.0'), and '2' and '4' ('2.0' and '4.0') are always located in the same row. can do.

따라서, 비록 각 행의 헤더에 해당되는 ‘1차 실험’과 ‘1회’, ‘2차 실험’과 ‘2회’가 서로 동일하지는 않지만, 유사성이 있으며, 그 외의 내용은 모두 동일한 것으로 인식이 되므로, 두 개의 표는 유사도가 매우 높은 표로 인식할 수 있는 것이다.Therefore, although the '1st experiment' and '1st time' and '2nd experiment' and '2nd time' corresponding to the header of each row are not the same, there is a similarity, and all other contents are recognized as the same. Therefore, the two tables can be recognized as having a very high degree of similarity.

정리하자면, 본 발명의 일 실시예에서는, 셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 기준표와의 유사 여부를 판단하는 것을 기본으로 하되, 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행 및 열 중 적어도 하나가 서로 동일한지 여부와, 그리고, 각 셀이 위치하고 있는 행, 및 열 중 적어도 하나에 포함되어 있는 헤더가 서로 동일한지 여부를 셀 간의 위치 관계로서 확인하는 방식을 통해서 판별 결과의 정확도를 제고할 수 있는 것이다.To summarize, in one embodiment of the present invention, the basis is to determine whether the similarity to the standard table is based on at least one of the similarity between cells and the positional relationship between cells, and the number of cells whose similarity to the standard table is greater than or equal to a threshold is set to a set number. In the above case, the positional relationship between cells determines whether at least one of the rows and columns in which each cell is located is the same, and whether the header contained in at least one of the rows and columns in which each cell is located is the same. The accuracy of the determination result can be improved through the confirmation method.

이후, 컨텐츠검출장치(100)는 기준표와의 유사 여부 판단 결과에 따라 기준표와 유사 또는 동일하다고 판단된 표에 관한 정보를 출력한다(S150).Thereafter, the content detection device 100 outputs information about the table determined to be similar or identical to the standard table according to the result of determining whether it is similar to the standard table (S150).

이때, 컨텐츠검출장치(100)는 동일 또는 유사하다고 판단되는 표만을 유사 정도, 컨텐츠 생성 일자 등 사용자가 자유롭게 설정할 수 있는 소정의 기준에 따라 정렬하여 출력할 수 있고 또는 표가 게재된 컨텐츠 자체를 출력할 수도 있다.At this time, the content detection device 100 can sort and output only the tables that are judged to be identical or similar according to predetermined criteria that can be freely set by the user, such as the degree of similarity and the content creation date, or output the content itself on which the table is posted. You may.

이와 관련하여 동일 또는 유사하다고 판단되는 컨텐츠 자체를 출력할 때에는, 해당 컨텐츠를 볼 수 있는 링크 정보가 포함된 리스트가 출력되도록 하고, 해당 리스트의 링크를 선택하면 컨텐츠의 제일 처음 부분이 출력되는 것이 아니라, 해당 컨텐츠 중 동일 유사하다고 판단된 표가 있는 부분이 제일 처음 출력되도록 하는 것이 바람직하다.In relation to this, when outputting the content itself that is judged to be the same or similar, a list containing link information to view the content is output, and when a link in the list is selected, the first part of the content is not output. , it is desirable to ensure that the part of the content with a table judged to be identical or similar is output first.

또한, 컨텐츠 자체를 출력하는 경우, 해당 컨텐츠의 일부분을 미리 보기 형태로 노출시킬 수 있으며, 이 경우에도 미리 보기에는 동일 유사하다고 판단된 표 부분이 포함될 수 있도록 구현하는 것이 바람직하다.Additionally, when the content itself is output, a portion of the content can be exposed in the form of a preview, and even in this case, it is desirable to implement the preview so that it includes table portions that are determined to be identical and similar.

다음, 이하에서는 도 8을 참조하여 셀 단위의 객체 인식을 지원하는 학습 방법을 각각 설명하기로 한다.Next, the learning methods supporting cell-level object recognition will be described below with reference to FIG. 8 .

먼저, 컨텐츠검출장치(100)는 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 셀 단위의 객체 인식을 수행하기 위해 학습데이터로 입력되는 표에 구분선을 설정한다(S210).First, the content detection device 100 divides the table extracted from the content into cells and sets a dividing line on the table input as learning data to perform cell-level object recognition (S210).

이러한, 구분선 설정은, 기본적으로 사용자가 표에서 구분선을 설정하면 그 정보를 이용하여 표에서 구분선을 설정하는 방식으로 진행될 수 있다. This kind of dividing line setting can be basically done in a way that when the user sets a dividing line in the table, the information is used to set the dividing line in the table.

그러나 반드시 사용자가 모든 구분선을 설정하는 방식으로 할 필요는 없으며, 미리 학습시스템에서 학습된 결과를 이용하여 1차적으로 구분선을 설정하도록 하고, 그 후 사용자가 설정된 구분선을 보면서 수정하거나 추가하는 등의 방식으로 진행이 되도록 하는 것이 바람직하다. However, it is not necessary for the user to set all the dividing lines. Instead, the dividing lines are initially set using the results learned from the learning system in advance, and then the user can modify or add them while looking at the set dividing lines. It is desirable to allow it to proceed.

이렇게 하는 경우, 사용자의 노력이 절감되고, 빠른 속도로 학습 데이터 입력 작업이 진행될 수 있다는 장점이 있다. The advantage of doing this is that the user's effort is reduced and the learning data input work can proceed at a fast speed.

이렇듯, 1차적으로 구분선을 설정할 때에는, 위에서 언급한 셀을 객체 인식하는 결과만을 가지고 구분선을 설정할 필요는 없으며, 다른 알고리즘도 병행하여 구분선을 설정하도록 하는 것이 바람직하다. As such, when initially setting a dividing line, there is no need to set the dividing line based only on the results of object recognition of the cells mentioned above, and it is desirable to set the dividing line in parallel with other algorithms.

앞서 예시한, 도 3의 (a)와 도 4의 (c)와 같이 이미 표에 셀 간에 선분이 그어져 있을 경우에는, 해당 선분을 구분선으로 설정할 수 있고, 또한, 앞에서 설명한 바와 같이 표의 경계 영역에는 선분이 그어져 있지 않더라도 셀의 구분선이 있는 것으로 보고 이를 설정할 수 있다.If a line segment is already drawn between cells in a table, as shown in Figure 3 (a) and Figure 4 (c), the line segment can be set as a dividing line, and as previously explained, the border area of the table has Even if the line segment is not drawn, you can set it as if there is a cell dividing line.

이어서, 컨텐츠검출장치(100)는 이와 같이 구분선이 설정되면, 구분선으로 구분되는 각각의 영역을 셀 영역으로 인식(설정)한다(S220).Next, when the dividing line is set like this, the content detection device 100 recognizes (sets) each area divided by the dividing line as a cell area (S220).

여기서, 셀 영역으로 설정한다 함은, YOLO 알고리즘을 기준으로 설명을 하면, 객체 인식 학습을 위하여 바운딩 박스를 자동으로 설정한다는 의미로 해석될 수 있다.Here, setting as a cell area can be interpreted to mean automatically setting a bounding box for object recognition learning, if explained based on the YOLO algorithm.

이후, 컨텐츠검출장치(100)는 이렇게 인식(설정)된 셀을 하나의 객체로 인식하고 그 특징을 학습한다(S230).Afterwards, the content detection device 100 recognizes the recognized (set) cell as an object and learns its characteristics (S230).

다시 말해, 컨텐츠검출장치(100)는 YOLO 알고리즘을 기준으로 설명을 하면 셀 영역 간 경계 영역을 기준으로 자동 생성되는 바운딩 박스(Bounding Box)를 이용하여 셀 영역 각각을 개별 객체로서 학습하고 있는 것이다. In other words, the content detection device 100 is learning each cell area as an individual object using a bounding box that is automatically generated based on the boundary area between cell areas when explained based on the YOLO algorithm.

여기서 객체 학습에는, 공지의 학습 알고리즘을 적용될 수 있으며, 이에 따라 이에 관한 구체적인 설명은 생략하기로 한다.Here, a known learning algorithm can be applied to object learning, and therefore detailed description thereof will be omitted.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 컨텐츠 검출 방법과, 이러한, 컨텐츠 검출 방법에 있어서 셀 단위의 객체 인식을 지원하는 학습 방법에 따르면, 컨텐츠 내 표를 셀 단위로 인식하여 이를 기준표와 비교하는 방식으로 기준표와 동일 또는 유사한 표를 게재한 컨텐츠를 검출함으로써, 타인의 표만을 복사한 경우뿐만 아니라 복사한 표를 일부 편집한 경우에도 이를 게재하고 있는 컨텐츠를 효과적으로 검출하는 것이 가능해짐을 알 수 있다.As discussed above, according to the content detection method according to an embodiment of the present invention and the learning method that supports cell-level object recognition in this content detection method, the table in the content is recognized on a cell-by-cell basis and is converted into a reference table. By detecting content that posts the same or similar table as the standard table by comparing it with the standard table, it becomes possible to effectively detect content that posts not only when only other people's tables are copied, but also when the copied table is partially edited. Able to know.

한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 처리하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.Meanwhile, implementations of the functional operations and subjects described in this specification are implemented as digital electronic circuits, computer software, firmware, or hardware including the structure disclosed in this specification and its structural equivalents, or one or more of these. It can be implemented by combining. Implementations of the subject matter described herein may comprise one or more computer program products, that is, one or more modules of computer program instructions encoded on a tangible program storage medium for processing or execution by the operation of a processing system. It can be implemented.

컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 혹은 이들 중 하나 이상의 조합일 수 있다.The computer-readable medium may be a machine-readable storage device, a machine-readable storage substrate, a memory device, or a combination of one or more of these.

본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포괄한다. 처리 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.In this specification, “system” or “device” includes all instruments, devices, and machines for processing data, including, for example, programmable processors, computers, or multiple processors or computers. In addition to the hardware, the processing system may include code that forms an execution environment for computer programs on demand, such as code making up processor firmware, a protocol stack, a database management system, an operating system, or a combination of one or more of these. .

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script, or code) may be written in any form of a programming language, including compiled, interpreted, a priori, or procedural languages; as a stand-alone program or module; It can be deployed in any form, including components, subroutines, or other units suitable for use in a computer environment. Computer programs do not necessarily correspond to files in a file system. A program may be stored within a single file that provides the requested program, or within multiple interacting files (e.g., files storing one or more modules, subprograms, or portions of code), or as part of a file that holds other programs or data. (e.g., one or more scripts stored within a markup language document). The computer program may be deployed to run on a single computer or on multiple computers located at one site or distributed across multiple sites and interconnected by a communications network.

한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.Meanwhile, computer-readable media suitable for storing computer program instructions and data include semiconductor memory devices such as EPROM, EEPROM, and flash memory devices, magnetic disks such as internal hard disks and external disks, magneto-optical disks, and CDs. -Can include all forms of non-volatile memory, media, and memory devices, including ROM and DVD-ROM disks. The processor and memory may be supplemented by, or integrated into, special-purpose logic circuitry.

본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.Implementations of the subject matter described herein may include backend components, such as a data server, middleware components, such as an application server, or, such as a web browser or graphical user, through which a user may interact with an implementation of the subject matter described herein. It may be implemented in a front-end component, such as a client computer with an interface, or in a computing system that includes any combination of one or more of such back-end, middleware, or front-end components. The components of the system may be interconnected by any form or medium of digital data communication, such as a telecommunications network.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.Although this specification contains details of numerous specific implementations, these should not be construed as limitations on the scope of any invention or what may be claimed, but rather as descriptions of features that may be unique to particular embodiments of particular inventions. It must be understood. Likewise, certain features described herein in the context of individual embodiments may also be implemented in combination in a single embodiment. Conversely, various features described in the context of a single embodiment can also be implemented in multiple embodiments individually or in any suitable sub-combination. Furthermore, although features may be described as operating in a particular combination and initially claimed as such, one or more features from a claimed combination may in some cases be excluded from that combination, and the claimed combination may be a sub-combination. It can be changed to a variant of a sub-combination.

또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다Additionally, although operations are depicted in the drawings in a specific order in this specification, this should not be understood to mean that such operations must be performed in the specific order or sequential order shown or that all illustrated operations must be performed to obtain desirable results. Can not be done. In certain cases, multitasking and parallel processing may be advantageous. Additionally, the separation of various system components in the above-described embodiments should not be construed as requiring such separation in all embodiments, and the described program components and systems may generally be integrated together into a single software product or packaged into multiple software products. You must understand that you can

이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, this specification is not intended to limit the invention to the specific terms presented. Accordingly, although the present invention has been described in detail with reference to the above-described examples, those skilled in the art may make modifications, changes, and variations to the examples without departing from the scope of the present invention. The scope of the present invention is indicated by the claims described below rather than the detailed description above, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. do.

본 발명에 따른 컨텐츠검출장치 및 컨텐츠 검출 방법에 따르면, 기준이 되는 표(기준표)와 동일 또는 유사한 표를 게재하고 있는 컨텐츠를 효과적으로 검출할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to the content detection device and content detection method according to the present invention, content containing the same or similar table as the standard table (standard table) can be effectively detected, thereby overcoming the limitations of existing technology It is an invention that has industrial applicability because it not only has the potential for commercialization or sales of the applied device, but also the use of technology, and is clearly feasible in reality.

100: 컨텐츠검출장치
110: 추출부 120: 인식부
130: 판단부 140: 출력부
150: 학습부
100: Content detection device
110: extraction unit 120: recognition unit
130: judgment unit 140: output unit
150: Learning Department

Claims (16)

명령어를 포함하는 메모리; 및
상기 명령어를 실행함으로써, 컨텐츠로부터 추출된 표를 셀 단위로 구분하여 상기 셀 단위의 객체 인식을 수행하고, 상기 셀 단위의 객체 인식 결과를 기 설정된 기준표와 비교하여 상기 기준표와의 유사 여부를 판단하는 프로세서를 포함하는 것을 특징으로 하는 컨텐츠검출장치.
memory containing instructions; and
By executing the command, the table extracted from the content is divided into cells to perform object recognition in each cell, and the object recognition result in each cell is compared with a preset reference table to determine whether it is similar to the reference table. A content detection device comprising a processor.
제 1 항에 있어서,
상기 기준표와의 유사 여부는,
셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 판단되는 것을 특징으로 하는 컨텐츠검출장치.
According to claim 1,
As for whether it is similar to the above standard,
A content detection device characterized in that the judgment is made based on at least one of similarity between cells and positional relationships between cells.
제 2 항에 있어서,
상기 셀 간의 위치 관계는,
상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행 및 열 중 적어도 하나가 서로 동일한지 여부가 확인되는 것을 특징으로 하는 컨텐츠검출장치.
According to claim 2,
The positional relationship between the cells is,
A content detection device characterized in that, when the number of cells whose similarity to the standard table is more than a threshold is more than a set number, it is checked whether at least one of the rows and columns in which each cell is located is the same.
제 2 항에 있어서,
상기 셀 간의 위치 관계는,
상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행, 및 열 중 적어도 하나에 포함되어 있는 헤더가 서로 동일한지 여부가 확인되는 것을 특징으로 하는 컨텐츠검출장치.
According to claim 2,
The positional relationship between the cells is,
A content detection device characterized in that, when the number of cells having similarity with the reference table is more than a threshold or more than a set number, it is confirmed whether the header included in at least one of the row and column in which each cell is located is the same.
제 1 항에 있어서,
상기 프로세서는,
상기 컨텐츠 내에서 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출하는 것을 특징으로 하는 컨텐츠검출장치.
According to claim 1,
The processor,
A content detection device characterized by imaging an object area where a table is located within the content and extracting the table from the object area where the image has been completed.
제 1 항에 있어서,
상기 셀 단위의 객체 인식은,
학습데이터로 입력되는 표를 셀 영역 별로 구분하여 학습한 학습 결과를 이용하여 수행되며,
상기 프로세서는,
상기 학습데이터로 입력되는 표에 구분선을 설정하고, 상기 구분선으로 구획되는 각 영역을 상기 셀 영역으로 인식하며, 상기 셀 영역 각각을 개별 객체로 학습하는 것을 특징으로 하는 컨텐츠검출장치.
According to claim 1,
The cell-level object recognition is,
It is performed using the learning results learned by dividing the table input as learning data by cell area.
The processor,
A content detection device characterized by setting a dividing line in a table input as the learning data, recognizing each area divided by the dividing line as the cell area, and learning each cell area as an individual object.
제 6 항에 있어서,
상기 프로세서는,
상기 구분선을 상기 셀 영역 간 경계 영역으로 인식하며, 특정 알고리즘에 따라 상기 셀 영역 간 경계 영역을 기준으로 자동 생성되는 바운딩 박스(Bounding Box)를 이용하여 상기 셀 영역 각각을 학습하는 것을 특징으로 하는 컨텐츠검출장치.
According to claim 6,
The processor,
Content that recognizes the dividing line as a boundary area between the cell areas and learns each of the cell areas using a bounding box that is automatically generated based on the boundary area between the cell areas according to a specific algorithm. Detection device.
컨텐츠검출장치에서 수행되는 컨텐츠 검출 방법에 있어서,
컨텐츠로부터 추출된 표를 셀 단위로 구분하여 상기 셀 단위의 객체 인식을 수행하는 인식단계; 및
상기 셀 단위의 객체 인식 결과를 기 설정된 기준표와 비교하여 상기 기준표와의 유사 여부를 판단하는 판단단계를 포함하는 것을 특징으로 하는 컨텐츠 검출 방법.
In the content detection method performed in the content detection device,
A recognition step of dividing the table extracted from the content into cells and performing object recognition in each cell; and
A content detection method comprising a determination step of comparing the cell-level object recognition result with a preset reference table to determine whether it is similar to the reference table.
제 8 항에 있어서,
상기 판단단계는,
셀 간 유사도, 및 셀 간의 위치 관계 중 적어도 하나를 기초로 상기 기준표와의 유사 여부를 판단하는 것을 특징으로 하는 컨텐츠 검출 방법.
According to claim 8,
The judgment step is,
A content detection method characterized by determining similarity to the reference table based on at least one of similarity between cells and positional relationships between cells.
제 9 항에 있어서,
상기 판단단계는,
상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행 및 열 중 적어도 하나가 서로 동일한지 여부를 상기 셀 간의 위치 관계로서 확인하는 것을 특징으로 하는 컨텐츠 검출 방법.
According to clause 9,
The judgment step is,
A content detection method characterized by checking whether at least one of the rows and columns in which each cell is located is the same as the positional relationship between the cells when the number of cells whose similarity to the reference table is more than a threshold is more than a set number.
제 9 항에 있어서,
상기 판단단계는,
상기 기준표와의 유사도가 임계치 이상인 셀이 설정 개수 이상인 경우, 각 셀이 위치하고 있는 행, 및 열 중 적어도 하나에 포함되어 있는 헤더가 서로 동일한지 여부를 상기 셀 간의 위치 관계로서 확인되는 것을 특징으로 하는 컨텐츠 검출 방법.
According to clause 9,
The judgment step is,
When the number of cells whose similarity to the reference table is more than a threshold is more than a set number, whether the header included in at least one of the row and column in which each cell is located is the same is confirmed as a positional relationship between the cells. Content detection method.
제 8 항에 있어서,
상기 방법은,
상기 컨텐츠 내에서 표가 위치한 객체 영역을 이미지화하고, 이미지화가 완료된 객체 영역으로부터 표를 추출하는 추출단계를 더 포함하는 것을 특징으로 하는 컨텐츠 검출 방법.
According to claim 8,
The method is:
A content detection method further comprising an extraction step of imaging an object area where a table is located within the content and extracting the table from the imaged object area.
제 8 항에 있어서,
상기 셀 단위의 객체 인식은,
학습데이터로 입력되는 표를 셀 영역 별로 구분하여 학습한 학습 결과를 이용하여 수행되며,
상기 방법은,
상기 학습데이터로 입력되는 표에 구분선을 설정하고, 상기 구분선으로 구획되는 각 영역을 상기 셀 영역으로 인식하며, 상기 셀 영역 각각을 개별 객체로 학습하는 학습단계를 더 포함하는 것을 특징으로 하는 컨텐츠 검출 방법.
According to claim 8,
The cell-level object recognition is,
It is performed using the learning results learned by dividing the table input as learning data by cell area.
The method is:
Content detection further comprising a learning step of setting a dividing line in the table input as the learning data, recognizing each area divided by the dividing line as the cell area, and learning each of the cell areas as individual objects. method.
제 13 항에 있어서,
상기 학습단계는,
상기 구분선을 상기 셀 영역 간 경계 영역으로 인식하며, 특정 알고리즘에 따라 상기 셀 영역 간 경계 영역을 기준으로 자동 생성되는 바운딩 박스(Bounding Box)를 이용하여 상기 셀 영역 각각을 학습하는 것을 특징으로 하는 컨텐츠 검출 방법.
According to claim 13,
The learning stage is,
Content that recognizes the dividing line as a boundary area between the cell areas and learns each of the cell areas using a bounding box that is automatically generated based on the boundary area between the cell areas according to a specific algorithm. Detection method.
제 8 항 내지 제 14 항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록매체.A computer-readable recording medium recording a program for executing the method of any one of claims 8 to 14. 하드웨어와 결합되어, 제 8 항 내지 제 14 항 중 어느 한 항의 방법을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램.A computer program combined with hardware and stored on a medium for executing the method of any one of claims 8 to 14.
KR1020220081502A 2022-07-01 2022-07-01 Content detection apparatus, and content detection method KR20240003662A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220081502A KR20240003662A (en) 2022-07-01 2022-07-01 Content detection apparatus, and content detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220081502A KR20240003662A (en) 2022-07-01 2022-07-01 Content detection apparatus, and content detection method

Publications (1)

Publication Number Publication Date
KR20240003662A true KR20240003662A (en) 2024-01-09

Family

ID=89538385

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220081502A KR20240003662A (en) 2022-07-01 2022-07-01 Content detection apparatus, and content detection method

Country Status (1)

Country Link
KR (1) KR20240003662A (en)

Similar Documents

Publication Publication Date Title
US11468225B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
CN108614898B (en) Document analysis method and device
US11900644B2 (en) Document image analysis apparatus, document image analysis method and program thereof
US9355313B2 (en) Detecting and extracting image document components to create flow document
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
US9811727B2 (en) Extracting reading order text and semantic entities
US9519404B2 (en) Image segmentation for data verification
US11295175B1 (en) Automatic document separation
US20130124684A1 (en) Visual separator detection in web pages using code analysis
AbdelRaouf et al. Arabic character recognition using a Haar cascade classifier approach (HCC)
Al-Barhamtoshy et al. An arabic manuscript regions detection, recognition and its applications for ocring
Ghosh et al. Textual content retrieval from filled-in form images
CN113673294A (en) Method and device for extracting key information of document, computer equipment and storage medium
Alahmadi VID2XML: Automatic Extraction of a Complete XML Data From Mobile Programming Screencasts
Kamola et al. Image-based logical document structure recognition
KR20240003662A (en) Content detection apparatus, and content detection method
CN115759039A (en) Document processing method and device, electronic equipment and storage medium
Milleville et al. Automatic extraction of specimens from multi-specimen herbaria
CN116029280A (en) Method, device, computing equipment and storage medium for extracting key information of document
CN107220981A (en) Character segmentation method, device, equipment and storage medium
Nguyen State-of-the-art in action: Unconstrained text detection
Jubaer et al. BN-DRISHTI: Bangla Document Recognition Through Instance-Level Segmentation of Handwritten Text Images
US20220414336A1 (en) Semantic Difference Characterization for Documents
CN103870800B (en) Information processing equipment and information processing method
Lemaitre et al. A combined strategy of analysis for the localization of heterogeneous form fields in ancient pre-printed records