KR20240033619A - 문서 내 관심 영역 추출 방법 및 장치 - Google Patents

문서 내 관심 영역 추출 방법 및 장치 Download PDF

Info

Publication number
KR20240033619A
KR20240033619A KR1020220152955A KR20220152955A KR20240033619A KR 20240033619 A KR20240033619 A KR 20240033619A KR 1020220152955 A KR1020220152955 A KR 1020220152955A KR 20220152955 A KR20220152955 A KR 20220152955A KR 20240033619 A KR20240033619 A KR 20240033619A
Authority
KR
South Korea
Prior art keywords
sentence
interest
page
extracting
document
Prior art date
Application number
KR1020220152955A
Other languages
English (en)
Inventor
강한훈
박재영
강희중
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to US18/232,142 priority Critical patent/US20240078827A1/en
Publication of KR20240033619A publication Critical patent/KR20240033619A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

복수의 페이지로 구성된 문서 내에서 하나 이상의 타겟 페이지를 추출하고, 상기 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 기초로 상기 타겟 페이지에서 복수의 문장을 포함하는 관심 영역을 추출하는 문서 내 관심 영역 추출 방법 및 그 시스템이 제공된다.

Description

문서 내 관심 영역 추출 방법 및 장치{METHOD AND APPARATUS FOR EXTRACTING AREA OF INTEREST IN DOCUMENTS}
본 개시는 복수의 페이지로 구성된 하나의 문서 내에서 관심 영역을 추출하는 방법 및 장치에 관한 것이다. 보다 자세하게는, 복수의 페이지로 구성된 문서 내에서 언어적인 특징을 기초로 불필요한 페이지를 제거하고, 관심 영역을 추출할 수 있도록 하는 문서 내 관심 영역 추출 방법 및 그 방법이 적용된 시스템에 관한 것이다.
하나의 문서는 여러 개의 페이지로 구성될 수 있고, 문서가 궁극적으로 표현하고자 하는 본문을 비롯하여 표지, 목차, 첨부 등의 부가적인 페이지들이 포함될 수 있다.
또한, 의미 있는 문장들이 다수 포함되어 있어 정보의 활용성이 높은 본문 페이지 내에서도 복수의 주제로 문단이 구성되므로, 페이지를 문단 단위의 영역 또는 특정 영역으로 분리하여 목적에 맞게 활용될 필요가 있다.
이에, 페이지 내의 단어 분포, 특정 단어의 포함 여부, 정규 표현식을 활용한 표현 매칭 등의 룰 기반 방식을 활용하여 문서 내의 특정 영역을 분리할 수 있다. 다만, 이러한 방법들은 분석이 완료된 특정 문서에서는 특정 영역을 적절하게 분리할 수 있으나, 분석이 완료되지 않은 새로운 유형의 문서를 대상으로 하는 경우에는 새로운 룰 또는 패턴을 매번 추가하여야 하는 한계점이 존재한다.
이에, 문서 내의 특정 영역을 분리하는 방법에 있어서, 새로운 유형의 문서에 대한 룰 또는 패턴의 수작업 구축 시간을 줄일 수 있는 기술이 요구된다.
미국등록특허 제11348005호 (2021.11.04 공개)
본 개시가 해결하고자 하는 기술적 과제는 새로운 유형의 문서에 대하여 새로운 룰 또는 패턴을 생성하지 않고 관심 영역을 추출할 수 있는 방법 및 장치를 제공하는 것이다.
본 개시가 해결하고자 하는 다른 기술적 과제는, 페이지 단위로부터 추출된 언어적 특징을 이용하여 문서 내에서 특정 페이지를 추출할 수 있는 문서 내 영역 추출 방법 및 장치를 제공하는 것이다.
본 개시가 해결하고자 하는 또 다른 기술적 과제는, 문장 단위로부터 추출된 언어적 특징을 이용하여 특정 페이지 내에서 관심 영역을 추출할 수 있는 방법 및 장치를 제공하는 것이다.
본 개시가 해결하고자 하는 또 다른 기술적 과제는, 문장 간의 유사도를 이용하여 관심 영역을 정확하게 추출할 수 있는 문서 내 관심 영역 추출 방법 및 장치를 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 개시의 일 실시예에 따른 문서 내 관심 영역 추출 방법은, 복수의 페이지로 구성된 문서 내에서 하나 이상의 타겟 페이지를 추출하는 단계 및 상기 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 기초로 상기 타겟 페이지에서 복수의 문장을 포함하는 관심 영역을 추출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 타겟 페이지를 추출하는 단계는 상기 복수의 페이지에 대한 제2 품사 특징과 페이지 특징을 생성하는 단계 및 상기 제2 품사 특징과 상기 페이지 특징을 이용하여 상기 타겟 페이지를 추출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 제2 품사 특징은 명사의 분포 비율, 숫자의 분포 비율, 접속사의 분포 비율, 정관사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함할 수 있다.
일 실시예에서, 상기 페이지 특징은 페이지 내의 단어의 수 및 페이지 내에 포함된 문장의 시작 단어에 숫자가 포함되어 있는지 여부 중 하나 이상의 특징을 포함할 수 있다.
일 실시예에서, 상기 타겟 페이지를 추출하는 단계는, 상기 복수의 페이지에 대한 이미지 특징을 생성하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 이미지 특징은 페이지 내 텍스트 영역의 글자의 크기 및 텍스트 영역의 배치 형태 중 하나 이상의 특징을 포함할 수 있다.
일 실시예에서, 상기 제2 품사 특징과 상기 페이지 특징을 이용하여 상기 타겟 페이지를 추출하는 단계는 상기 제2 품사 특징, 상기 페이지 특징 및 이미지 특징을 페이지 분류 모델에 입력하여 상기 복수의 페이지의 유형을 분류하는 단계 및 상기 복수의 페이지의 유형을 기초로 타겟 페이지를 추출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 복수의 페이지의 유형은 표지, 목차 및 본문을 포함할 수 있다.
일 실시예에서, 상기 페이지 분류 모델은 상기 제2 품사 특징을 기초로 산출된 품사별 빈도수가 정규화된 값들, 상기 페이지 특징 및 상기 이미지 특징을 이용하여 학습된 모델일 수 있다.
일 실시예에서, 상기 제1 품사 특징은 명사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함할 수 있다.
일 실시예에서, 상기 문장 특징은 문장의 시작 단어에 숫자가 포함되어 있는지 여부, 문장 내의 구두점의 존재 여부 및 문장 내의 단어의 수 중 하나 이상의 특징을 포함할 수 있다.
일 실시예에서, 상기 관심 영역을 추출하는 단계는 상기 제1 품사 특징과 상기 문장 특징을 문장 분류 모델에 입력하여 상기 타겟 페이지에 포함된 복수의 문장을 복수의 클래스로 분류하는 단계 및 상기 분류된 복수의 클래스를 기초로 상기 관심 영역을 추출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 분류된 복수의 클래스를 기초로 관심 영역을 추출하는 단계는 상기 문장 분류 모델을 통해 제1 클래스로 분류된 문장 및 제2 클래스로 분류된 문장의 조합을 상기 관심 영역으로 추출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 제1 클래스는 제목일 수 있고, 상기 제2 클래스는 상기 제목에 대한 본문일 수 있다.
일 실시예에서, 상기 관심 영역에 포함된 제1 문장과 제2 문장 간의 유사도를 판단하는 단계 및 상기 제1 문장과 상기 제2 문장 간의 유사도가 기준치 이하로 판단된 경우, 상기 제2 문장을 상기 관심 영역에서 제거하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 제1 문장은 제1 클래스에 속한 문장일 수 있고, 상기 제2 문장은 제2 클래스에 속한 문장일 수 있다.
일 실시예에서, 상기 제1 문장과 상기 제2 문장은 동일한 클래스에 속한 문장일 수 있다.
일 실시예에서, 상기 문장 분류 모델은 상기 제1 품사 특징을 기초로 산출된 품사별 빈도수가 정규화된 값들과 상기 문장 특징을 이용하여 학습된 모델일 수 있다.
상기 기술적 과제를 해결하기 위한 본 개시의 다른 실시예에 따른 문서 내 관심 영역 추출 시스템은 프로세서 및 명령어를 저장하는 메모리를 포함할 수 있고, 상기 명령어는 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금, 복수의 페이지로 구성된 문서 내에서 하나 이상의 타겟 페이지를 추출하는 동작 및 상기 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 기초로 상기 타겟 페이지에서 복수의 문장을 포함하는 관심 영역을 추출하는 동작을 수행하도록 할 수 있다.
일 실시예에서, 상기 관심 영역에 속한 제1 문장과 제2 문장 간의 유사도가 기준치 이하로 판단된 경우, 상기 제1 문장 및 상기 제2 문장 중 어느 하나를 상기 관심 영역에서 제거하는 동작을 더 수행하도록 할 수 있다.
본 실시예에 따르면, 새로운 유형의 문서에서 관심 영역을 추출하는 과정에서 수반되는 새로운 룰 또는 패턴의 수작업 구축 시간을 단축시킬 수 있다.
본 실시예에 따르면, 어떠한 종류의 문서를 대상으로 하더라도 분리하고자 하는 관심 영역을 추출할 수 있으므로 사용성 및 편의성이 제고될 수 있다.
본 실시예에 따르면, 페이지 또는 문장 단위의 언어적인 특징과 함께 문장 간의 유사도를 이용하여 관심 영역을 추출함으로써 추출되는 영역의 정확성 및 정밀성을 제고할 수 있다.
도 1은 본 개시의 일 실시예에 따른, 문서 내 관심 영역 추출 방법을 나타내는 순서도이다.
도 2는 도 1에 도시된 일부 동작을 설명하기 위한 상세 순서도이다.
도 3은 본 개시의 몇몇 실시예에서 참조될 수 있는, 타겟 페이지와 관심 영역에 대한 예시도이다.
도 4는 도 2에 도시된 일부 동작을 설명하기 위한 상세 순서도이다.
도 5a 및 도 5b는 도 2에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 6은 본 개시의 몇몇 실시예에서 참조될 수 있는, 페이지 분류 모델의 학습 방법에 대한 예시도이다.
도 7은 도 1에 도시된 일부 동작을 설명하기 위한 상세 순서도이다.
도 8은 도 7에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 9는 본 개시의 몇몇 실시예에서 참조될 수 있는, 문장 분류 모델의 학습 방법에 대한 예시도이다.
도 10은 도 7을 참조하여 도시된 일부 동작을 설명하기 위한 상세 순서도이다.
도 11, 도 12a 및 도 12b는 도 10에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 13은 본 개시의 몇몇 실시예들에 따른 문서 내 관심 영역 추출 시스템의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명의 기술적 사상을 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 이하의 실시예들에서 사용되는 용어(기술 및 과학적 용어를 포함)는 본 개시가 속한 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수도 있다. 본 개시에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시의 범주를 제한하고자 하는 것은 아니다.
이하의 실시예들에서 사용되는 단수의 표현은 문맥상 명백하게 단수인 것으로 특정되지 않는 한, 복수의 개념을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정되지 않는 한, 단수의 개념을 포함한다.
또한, 이하의 실시예들에서 사용되는 제1, 제2, A, B, (a), (b) 등의 용어는 어떤 구성요소를 다른 구성요소와 구별하기 위해 사용되는 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지는 않는다.
이하, 첨부된 도면들을 참조하여 본 개시의 다양한 실시예들에 대하여 상세하게 설명한다.
도 1은 본 개시의 일 실시예에 따른, 문서 내 관심 영역 추출 방법을 나타내는 순서도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 문서 내 관심 영역 추출 방법은, 복수의 페이지로 구성된 문서 내에서 하나 이상의 타겟 페이지가 추출되는 단계 S100에서 시작된다. 이 때, 상기 타겟 페이지는 다양한 목적으로 활용할 수 있는 내용이 포함된 페이지를 의미할 수 있다. 보다 자세하게는, 표지, 목차 등과 같이 중요도가 낮은 페이지와 본문 등과 같이 중요도가 높은 페이지가 다수 존재하는 하나의 문서 내에서 중요도가 높은 페이지가 타겟 페이지로 추출 내지 분류될 수 있다.
문서 내에서 타겟 페이지를 추출하는 방법에 대한 자세한 설명은 도 2 내지 도 6을 참조하여 후술하도록 한다.
단계 S200에서, 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 기초로 타겟 페이지에서 복수의 문장을 포함하는 관심 영역이 추출될 수 있다. 이 때, 상기 관심 영역은 사용자가 특정 문서로부터 분리하고자 하는 의미 단위로서, 제목의 형태를 갖는 문장과 해당 제목의 내용을 설명하는 문장의 집합을 의미할 수 있다.
이 때, 상기 제1 품사 특징은 하나의 타겟 페이지 내에 포함된 문장에서 품사 태거(Part-of-speech tagger)를 이용하여 추출된 품사에 대응되는 특징일 수 있다. 보다 자세하게는, 상기 제1 품사 특징은 명사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함할 수 있다.
또한, 상기 문장 특징은 문장의 시작 단어에 숫자가 포함되어 있는지 여부, 문장 내의 구두점의 존재 여부 및 문장 내의 단어의 수 중 하나 이상의 특징을 포함할 수 있다.
타겟 페이지 내에서 관심 영역을 추출하는 방법에 대한 자세한 설명은 도 7 내지 도 9를 참조하여 후술하도록 한다.
한편, 문서 내에서 타겟 페이지가 추출되는 단계 S100 이전에 바이너리 형태의 전자 문서가 컴퓨팅 장치가 읽을 수 있는 형태로 전처리되는 단계가 수행될 수 있다. 즉, 상기 전자 문서가 텍스트 형태로 변환될 수 있고, 사용자의 필요에 따라 상기 텍스트 내의 오탈자가 수정되거나 띄어쓰기가 교정될 수 있다.
다만, 전자 문서의 텍스트 변환을 통해서는 글자의 크기나 배치 형태에 대한 정보를 획득할 수 없다. 이에, 전자 문서가 이미지 형태로 변환될 수 있고, 텍스트가 포함된 영역의 이미지가 추출될 수 있다. 나아가, 텍스트가 포함된 영역에 대한 이미지의 특징 정보를 이용하여 타겟 페이지가 추출될 수 있고, 나아가 관심 영역이 추출될 수 있다.
도 2는 도 1에 도시된 일부 동작을 설명하기 위한 상세 순서도이다.
도 2에 도시된 바와 같이, 복수의 페이지로 구성된 문서 내에서 타겟 페이지가 추출되는 단계 S100은, 복수의 페이지에 대한 제2 품사 특징과 페이지 특징이 생성되는 단계 S110 및 제2 품사 특징과 페이지 특징을 이용하여 상기 타겟 페이지가 추출되는 단계 S120를 포함할 수 있다.
이 때, 상기 제2 품사 특징은 하나의 페이지 내에 포함된 문장에서 품사 태거(Part-of-speech tagger)를 이용하여 추출된 품사에 대응되는 특징일 수 있다. 보다 자세하게는, 명사의 분포 비율, 숫자의 분포 비율, 접속사의 분포 비율, 정관사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함할 수 있다.
또한, 상기 페이지 특징은 페이지 내의 단어의 수 및 페이지 내에 포함된 문장의 시작 단어에 숫자가 포함되어 있는지 여부 중 하나 이상의 특징을 포함할 수 있다.
한편, 상술한 제2 품사 특징과 페이지 특징은 텍스트 변환 과정이 수행된 문서의 페이지에서 생성될 수 있는 특징으로, 글자의 크기나 배치 형태에 대한 정보는 알 수 없다. 이에, 문서의 이미지 변환 과정을 통해 페이지 내의 글자의 크기나 배치 형태(e.g. 가운데 정렬, 왼쪽 정렬, 양쪽 정렬)에 대한 정보를 획득하는 과정이 수행될 필요가 있다.
이 때, 페이지 내의 글자 크기나 배치 형태에 대한 정보는 페이지 내 텍스트 영역 이미지의 위치(x축, y축 좌표)와 크기(가로 길이, 세로 길이)에 대한 정보를 포함할 수 있다. 예를 들어, 페이지 내 텍스트 영역 이미지의 세로 길이가 길수록 글자 크기가 큰 것을 의미할 수 있고, 페이지 내 텍스트 영역 이미지의 x축 좌표 값이 용지 크기의 중간 값과 일치하는 경우, 가운데 정렬된 배치 형태임을 의미할 수 있다.
이에, 복수의 페이지로 구성된 문서 내에서 타겟 페이지를 추출하는 단계 S100은, 복수의 페이지에 대한 이미지 특징을 생성하는 단계를 더 포함할 수 있다. 이 때, 상기 이미지 특징은 페이지 내 텍스트 영역의 글자의 크기 및 텍스트 영역의 배치 형태 중 하나 이상의 특징을 포함할 수 있다. 보다 구체적으로, 상기 이미지 특징은 텍스트 영역 이미지의 수, 텍스트 영역 이미지의 x축 좌표 값, 텍스트 영역 이미지의 y축 좌표 값, 텍스트 영역 이미지의 가로 길이 및 텍스트 영역 이미지의 세로 길이 중 하나 이상의 특징을 포함할 수 있다. 이미지 특징에 대한 정보를 이용하여 타겟 페이지를 추출하는 방법에 대한 자세한 설명은 도 5a 및 도 5b를 참조하여 후술하도록 한다.
도 3은 본 개시의 몇몇 실시예에서 참조될 수 있는, 타겟 페이지와 관심 영역에 대한 예시도이다.
도 3에 도시된 바와 같이, 하나의 문서(300)에 포함된 페이지의 유형은 표지(310), 목차(320), 본문(330)으로 구분될 수 있다. 이 때, 표지에 해당하는 페이지(310)의 경우, 페이지에 포함된 단어의 수가 상대적으로 적고, 페이지에 포함된 품사 중 명사의 분포 비율이 높으며, 문장이 가운데 맞춤의 형태로 정렬된 특징 등이 존재한다. 또한, 목차에 해당하는 페이지(320)의 경우, 숫자로 시작하는 문장의 수가 많고, 숫자 및 구두점의 수가 상대적으로 많으며, 구두점이 연속적으로 배열된 특징 등이 존재한다.
또한, 하나의 타겟 페이지는 복수의 관심 영역을 포함할 수 있고, 복수의 관심 영역에 속한 어느 하나의 관심 영역(331)에 포함된 문장의 유형은 제목과 제목에 대한 내용으로 구분될 수 있다. 이 때, 제목에 해당하는 문장(331a)의 경우, 문장에 포함된 단어의 수가 상대적으로 적고, 문장이 숫자로 시작하는 경우가 많고, 문장에 구두점이 존재하지 않는 특징 등이 존재한다. 또한, 제목에 대한 내용에 해당하는 문장(331b)의 경우, 문장에 포함된 단어의 수가 상대적으로 많고, 품사별 분포 비율 간의 차이가 상대적으로 적은 특징 등이 존재한다.
이에, 문서에 포함된 페이지 단위로 생성된 품사 특징 및 페이지 특징을 이용하여 관심 영역이 포함된 타겟 페이지가 추출될 수 있다. 나아가, 타겟 페이지에 포함된 문장 단위로 생성된 품사 특징 및 문장 특징을 이용하여 관심 영역이 추출될 수 있다.
단, 본 개시에 따른 문서에 포함된 페이지의 유형 및 문장의 유형은 도 3에 예시된 내용에 한정되지 않고, 다양한 유형을 포함할 수 있음은 물론이다. 예를 들어, 문서에 포함된 페이지의 유형은 별첨, 부록, 참고문헌 등을 포함할 수 있다.
도 4는 도 2에 도시된 일부 동작을 설명하기 위한 상세 순서도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 4에 도시된 바와 같이, 단계 S121에서 품사 특징, 페이지 특징 및 이미지 특징을 페이지 분류 모델에 입력하여 복수의 페이지의 유형이 분류될 수 있다. 이후, 단계 S122에서 복수의 페이지의 유형을 기초로 타겟 페이지가 추출될 수 있다.
도 5a 및 도 5b는 도 2에 도시된 일부 동작을 설명하기 위한 예시도이다. 보다 구체적으로, 페이지 단위로 생성된 품사 특징, 페이지 특징 및 이미지 특징을 이용하여 페이지의 유형이 분류되는 동작을 설명하기 위한 예시도이다.
먼저, 페이지 단위로 생성된 품사 특징 및 페이지 특징을 이용하여 페이지 유형이 분류되는 방법에 대하여 설명하도록 한다.
도 5a의 상단에 예시된 데이터 셋(51)를 참조하면, 품사 태거(Part-of-speech tagger)를 이용하여 명사, 숫자, 접속사, 정관사, 동사, 형용사가 추출될 수 있고, 상기 추출된 품사의 특징을 이용하여 페이지의 유형이 분류될 수 있다. 이 때, 페이지 단위별로 생성된 페이지 특징을 함께 이용하여 페이지의 유형이 분류될 수 있다.
예를 들어, 페이지 단위(p)별로 생성된 명사의 분포 비율(f1), 숫자의 분포 비율(f2), 접속사의 분포 비율(f3), 정관사의 분포 비율(f4), 동사의 분포 비율(f5) 및 형용사의 분포 비율(f6)을 이용하여 제1 페이지의 명사의 분포 비율(f1)이 기준치를 초과하는 경우 상기 제1 페이지는 제1 유형(표지)으로 분류될 수 있다. 또한, 제2 페이지의 숫자의 분포 비율(f2)이 기준치를 초과하는 경우 제2 상기 제2 페이지는 제2 유형(목차)으로 분류될 수 있다.
나아가, 페이지 단위(p)로 생성된 페이지 내의 단어의 수(f7) 및 페이지 내에 포함된 문장의 시작 단어에 숫자가 포함되어 있는지 여부(f8)를 이용하여 제1 페이지 내의 단어의 수(f7)가 기준치 이하인 경우 상기 제1 페이지는 제1 유형(표지)으로 분류될 수 있고, 제2 페이지 내에 포함된 문장의 시작 단어에 숫자가 포함된 경우 상기 제2 페이지는 제2 유형(목차)으로 분류될 수 있다.
다음으로, 페이지 단위로 생성된 이미지 특징을 이용하여 페이지 유형이 분류되는 방법에 대하여 설명하도록 한다. 도 5b는 문서 내의 복수의 페이지가 이미지 변환되고, 텍스트 영역 이미지가 식별된 상태에 대한 예시도이다.
도 5b의 상단에 도시된 바와 같이, 텍스트 변환을 통해서는 인식할 수 없는 정보들(e.g. 글자의 크기, 배치 형태)을 획득하기 위하여 도 3에 도시된 문서(300) 내의 표지 페이지(310), 목차 페이지(320) 및 본문 페이지(330)가 이미지 변환을 통해 표지 이미지(310a), 목차 이미지(320a) 및 본문 이미지(330a)로 변환될 수 있다. 또한, 상기 변환된 이미지 내에서 텍스트 영역의 이미지가 식별될 수 있다.
단, 도 5b의 하단에 도시된 표지 이미지(310b), 목차 이미지(320b) 및 본문 이미지(330b) 내의 텍스트 영역 이미지들은 박스 형태로 표시되어 서로 구분되어 있으나, 상기 박스 형태의 표시는, 텍스트 영역 이미지가 식별된 상태임 나타내기 위해 사용된 것일 뿐이고, 실제로 문서 내 타겟 페이지를 추출하는 과정에서 표시되는 것은 아님에 유의해야 한다.
다시 도 5a를 참조하면, 도 5a의 하단에 예시된 데이터 셋(52)과 같이, 이미지 변환 과정이 수행된 문서에서 페이지 단위별로 생성된 이미지 특징을 이용하여 페이지의 유형이 분류될 수 있다.
예를 들어, 페이지 단위(p)별로 생성된 텍스트 영역 이미지의 수(f9), 텍스트 영역 이미지의 x축 좌표 값(f10), 텍스트 영역 이미지의 y축 좌표 값(f11), 텍스트 영역 이미지의 가로 길이(f12) 및 텍스트 영역 이미지의 세로 길이(f13)를 이용하여 제1 페이지 내 텍스트 영역 이미지의 수(f9)가 기준치 이하인 경우, 텍스트 영역 이미지의 x축 좌표 값(f10)이 동일한 텍스트 영역 이미지의 수가 기준치 이상인 경우, 또는 텍스트 영역 이미지의 세로 길이(f13)가 기준치 이상인 경우 상기 제1 페이지는 제1 유형(표지)으로 분류될 수 있다.
또한, 제2 페이지 내 텍스트 영역 이미지의 수(f9)가 기 설정된 범위에 포함되는 경우 또는 텍스트 영역 이미지의 y축 좌표 값(f11)이 균일한 분포를 보이는 경우, 상기 제2 페이지는 제2 유형(목차)으로 분류될 수 있다. 나아가, 제3 페이지 내 텍스트 영역 이미지의 y축 좌표 값(f11)이 기준치 이하인 경우 또는 기준치 이하의 x축 좌표 값(f10)을 갖는 텍스트 영역 이미지가 다수 존재하는 경우, 상기 제3 페이지는 제3 유형(본문)으로 분류될 수 있다.
한편, 도 5에 예시된 데이터 셋(51, 52)은 페이지 분류 모델의 기계학습을 위한 학습 데이터 셋의 구성 형식일 수 있다. 이 때, 상기 페이지 분류 모델은 지도 학습(Supervised Learning)의 방식으로 학습될 수 있으므로, 정답에 해당하는 페이지 유형을 의미하는 분류 값이 상기 학습 데이터 셋에 포함될 수 있다. 즉, 임의의 페이지에 대한 상기 분류 값이 제1 유형인 경우 상기 페이지가 표지에 해당하는 페이지임을 의미할 수 있고, 제2 유형인 경우 목차에 해당하는 페이지임을 의미할 수 있으며, 제3 유형인 경우 본문에 해당하는 페이지임을 의미할 수 있다.
단, 페이지 분류 모델의 기계학습을 위한 학습 데이터 셋은 도 5a 및 도 5b에 예시된 내용에 한정되지 않고, 다양한 품사 특징 및 페이지 특징을 더 포함할 수 있다.
도 6은 본 개시의 몇몇 실시예에서 참조될 수 있는, 페이지 분류 모델의 학습 방법에 대한 예시도이다.
도 6에 도시된 바와 같이, 단계 S121에서 생성된 품사 특징(f1, f2, f3, f4, f5, f6)을 기초로 하여 품사별 빈도수(6a)가 산출될 수 있고, 상기 산출된 품사별 빈도수가 정규화될 수 있다. 나아가, 상기 정규화된 값들(6b), 페이지 특징(f7, f8) 및 이미지 특징을 이용하여 페이지 분류 모델을 학습시킬 수 있다. 당해 기술 분야의 종사자라면, 정규화 과정 및 기계학습 알고리즘에 대해 이미 숙지하고 있을 것인 바, 이에 대한 자세한 설명은 생략하도록 한다.
도 7은 도 1에 도시된 일부 동작을 설명하기 위한 상세 순서도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 7에 도시된 바와 같이, 관심 영역을 추출하는 단계 S200은 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 문장 분류 모델에 입력하여 타겟 페이지에 포함된 복수의 문장이 복수의 클래스로 분류되는 단계 S210 및 복수의 클래스를 기초로 관심 영역이 추출되는 단계 S220을 포함할 수 있다.
이 때, 상기 제1 품사 특징은 하나의 타겟 페이지 내에 포함된 문장에서 품사 태거(Part-of-speech tagger)를 이용하여 추출된 품사에 대응되는 특징일 수 있다. 보다 자세하게는, 명사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함할 수 있다.
또한, 상기 문장 특징은 문장 내의 구두점의 존재 여부, 문장 내의 단어의 수 및 타겟 페이지 내에 포함된 문장의 시작 단어에 숫자가 포함되어 있는지 여부 중 하나 이상의 특징을 포함할 수 있다.
나아가, 상기 관심 영역은 문장 분류 모델을 통해 제1 클래스로 분류된 문장 및 제2 클래스로 분류된 문장의 조합으로 구성된 영역일 수 있다.
이 때, 제1 클래스는 제목일 수 있고, 상기 제2 클래스는 상기 제목에 대한 본문일 수 있다. 단, 본 개시에서는 이해의 편의를 위해 상술한 바와 같이 '제목'과 '제목에 대한 본문'의 용어를 사용하였으나, 본 개시의 범주가 이에 한정되는 것은 아니다. 예를 들어, 제1 클래스는 계약서, 법률문서 등과 같은 문서 내의 본문에 포함된 조항일 수 있고, 제2 클래스는 상기 조항에 대한 설명부분일 수 있다. 또한, 제1 클래스는 특허와 관련된 다양한 문서(e.g. 출원서, 청구서, 그 밖의 심판 및 소송 관련 서류) 내의 본문에 포함된 청구항일 수 있고, 제2 클래스는 상기 청구항에 대한 설명부분일 수 있다.
이에, 계약서, 법률문서 등과 같은 문서에서 조항(e.g. 제○○조, 제○○항, 제○○호) 및 조항에 대한 설명부분으로 구성된 관심 영역이 추출될 수 있다. 또한, 특허출원서, 심판청구서 등과 같은 문서에서 청구항(e.g. 제○○항, 제○○항에 있어서) 및 청구항에 대한 설명부분으로 구성된 관심 영역이 추출될 수 있다.
정리하면, 문서 내의 일부 페이지에 포함된 내용은 다양한 설정 기준에 의해 상위 카테고리에 해당하는 제1 클래스와 하위 카테고리에 해당하는 제2 클래스로 분류될 수 있다. 이하에서는, 이해의 편의를 위해 제1 클래스는 제목이고, 제2 클래스는 제목에 대한 내용인 경우를 가정하여 설명하도록 한다.
도 8은 도 7에 도시된 일부 동작을 설명하기 위한 예시도이다. 보다 구체적으로, 도 8은 문장 단위로 생성된 품사 특징 및 문장 특징을 이용하여 문장의 클래스가 분류되는 프로세스를 설명하기 위한 예시도이다.
도 8을 참조하면, 품사 태거(Part-of-speech tagger)를 이용하여 명사, 동사, 형용사가 추출될 수 있고, 상기 추출된 품사의 특징을 이용하여 문장의 클래스가 분류될 수 있다. 이 때, 문장 단위별로 생성된 문장 특징을 함께 이용하여 문장의 클래스가 분류될 수 있다.
예를 들어, 문장 단위(s)별로 생성된 명사의 분포 비율(f1), 동사의 분포 비율(f2) 및 형용사의 분포 비율(f3)을 이용하여 제1 문장의 동사의 분포 비율(f2) 또는 형용사의 분포 비율(f3)이 기준치 이하인 경우 상기 제1 문장은 제1 클래스(제목)로 분류될 수 있다. 또한, 제2 문장의 품사 분포 비율(f1, f2, f3)간의 차이가 기준치 이하인 경우 상기 제2 문장은 제2 클래스(제목에 대한 본문)로 분류될 수 있다.
나아가, 문장 단위(s)로 생성된 문장의 시작 단어에 숫자가 포함되어 있는지 여부(f4), 문장 내의 구두점의 존재 여부(f7) 및 문장 내의 단어의 수(f6)를 이용하여 제1 문장의 시작 단어에 숫자가 포함되어 있는 경우 상기 제1 문장은 제1 클래스(제목)로 분류될 수 있다. 또한, 제2 문장 내의 구두점이 제2 문장의 마지막에 존재하거나, 문장 내의 단어의 수(f6)가 기준치를 초과하는 경우에는 상기 제2 문장은 제2 클래스(제목에 대한 본문)로 분류될 수 있다.
한편, 도 8에 예시된 데이터 셋(8a)은 문장 분류 모델의 기계학습을 위한 학습 데이터 셋의 구성 형식일 수 있다. 이에 대한 자세한 설명은, 도 6을 참조하여 설명한 페이지 분류 모델에 대한 내용과 유사하므로 생략하도록 한다. 또한, 문장 분류 모델의 기계학습을 위한 학습 데이터 셋은 도 8에 예시된 내용에 한정되지 않고, 다양한 품사 특징 및 문장 특징을 더 포함할 수 있음은 물론이다.
도 9는 본 개시의 몇몇 실시예에서 참조될 수 있는, 문장 분류 모델의 학습 방법에 대한 예시도이다.
도 9에 도시된 바와 같이, 품사 특징(f1, f2, f3)을 기초로 하여 품사별 빈도수(9a)가 산출될 수 있고, 상기 산출된 품사별 빈도수가 정규화될 수 있다. 나아가, 상기 정규화된 값들(9b)과 페이지 특징을 이용하여 문장 분류 모델을 학습시킬 수 있다. 당해 기술 분야의 종사자라면, 정규화 과정 및 기계학습 알고리즘에 대해 이미 숙지하고 있을 것인 바, 이에 대한 자세한 설명은 생략하도록 한다.
이하에서는, 관심 영역에 포함된 문장 간의 유사도를 기초로 관심 영역을 정확하게 추출하는 방법에 대하여 도 10 내지 도 12b를 참조하여 설명하도록 한다.
도 10은 도 7을 참조하여 도시된 일부 동작을 설명하기 위한 상세 순서도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 10에 도시된 바와 같이, 복수의 클래스를 기초로 관심 영역을 추출하는 단계 S220은 문장 분류 모델을 통해 제1 클래스로 분류된 문장 및 제2 클래스로 분류된 문장의 조합을 관심 영역으로 추출하는 단계 S221, 제1 문장과 제2 문장 간의 유사도를 판단하는 단계 S222 및 제1 문장과 제2 문장 간의 유사도가 기준치 이하로 판단된 경우, 제2 문장을 관심 영역에서 제거하는 단계 S223을 포함할 수 있다.
도 11 및 도 12는 도 10에 도시된 일부 동작을 설명하기 위한 예시도이다.
도 11의 좌측에 도시된 표(12a)를 참조하면, 타겟 페이지 내에 포함된 복수의 문장들(문장 1 내지 문장 7)은 문장 분류 모델을 통해 제목에 해당하는 제1 클래스(문장 1, 문장 5)로 분류될 수 있고, 제목에 대한 본문에 해당하는 제2 클래스(문장 2 내지 문장 4, 문장 6, 문장 7)로 분류될 수 있다. 이에, 타겟 페이지에 포함된 복수의 문장들은 제1 클래스를 기준으로 문장 1 내지 문장 4를 포함하는 제1 관심 영역(12b)과 문장 5 내지 문장 7을 포함하는 제2 관심 영역(12c)으로 분리될 수 있다.
즉, 제1 관심 영역(12b)과 제2 관심 영역(12c)은 제목의 형태를 띄는 제1 클래스의 문장과 상기 제목에 대한 설명을 하는 내용의 제2 클래스의 문장의 조합으로 구성되는 영역일 수 있다. 이 때, 문장의 형식적인 측면에 해당하는 품사 특징과 문장 특징을 기초로 타겟 페이지 내의 복수의 문장이 분류됨으로써 관심 영역이 정확하게 추출되지 않을 수 있다.
이에, 타겟 페이지에 포함된 복수의 문장들의 관련성 여부 또는 유사도를 기초로 관심 영역을 보다 정확하게 추출하는 기술이 요구된다.
이하에서는, 관심 영역에 포함된 제1 문장과 제2 문장의 유사도가 기준치 이하인 것으로 판단된 경우, 제1 문장과 제2 문장 중 어느 하나의 문장을 관심 영역에서 제거하는 프로세스를 통해 관심 영역을 보다 정확하게 추출하는 방법에 대하여 도 12a 및 도 12b를 참조하여 설명하도록 한다.
도 12a에 도시된 바와 같이, 페이지 분류 모델을 통해 복수의 페이지를 포함하는 문서로부터 복수의 타겟 페이지(110, 120)가 추출될 수 있다. 또한, 문장 분류 모델을 통해 제1 타겟 페이지(110)로부터 복수의 관심 영역(111, 112, 113, 114 ,115)이 추출될 수 있고, 제2 타겟 페이지(120)로부터 복수의 관심 영역(121, 122, 123)이 추출될 수 있다. 이하에서는, 관심 영역에 포함된 복수의 문장들이 시각적으로 도시된 제2 타겟 페이지(120)를 중심으로 설명하도록 한다.
일반적으로, 관심 영역에 포함된 복수의 문장들 중 첫 문장의 시작 단어에는 숫자가 포함될 수 있다. 예를 들어, 제2 타겟 페이지(120)로부터 추출된 복수의 관심 영역(121, 122, 123)의 첫 문장은 숫자로 시작될 수 있다. 이에, 문장 특징을 기초로 제2 타겟 페이지(120)에 포함된 복수의 문장들 중에서 첫 문장이 제1 클래스로 분류될 수 있고, 상기 제1 클래스로 분류된 문장들을 기초로 제2 타겟 페이지(120) 내부의 영역이 분리됨으로써 복수의 관심 영역(121, 122, 123)이 추출될 수 있다.
다만, 예외적으로, 특정 관심 영역에 포함된 복수의 문장들 중에서 문장의 시작 단어에 숫자가 포함된 문장이 존재하고, 상기 문장의 시작 단어에 숫자가 포함된 문장이 제2 클래스의 문장인 경우가 존재할 수 있다. 이 때, 문장 특징을 기초로만 하여 관심 영역이 추출되는 경우에는, 상기 제2 클래스의 문장이 제1 클래스의 문장으로 분류됨으로 인하여 하나로 추출되어야 할 관심 영역이 상기 제2 클래스의 문장을 기준으로 2개로 분리되어 추출될 수 있다.
이에, 관심 영역에 포함된 제1 문장과 제2 문장의 유사도가 기준치 이하로 판단된 경우, 상기 제1 문장과 상기 제2 문장 중 어느 하나의 문장을 상기 관심 영역에서 제거하는 단계가 추가적으로 수행될 수 있다.
이 때, 상기 제1 문장은 제1 클래스에 속한 문장일 수 있고, 상기 제2 문장은 제2 클래스에 속한 문장일 수 있다. 또한, 상기 제1 문장과 상기 제2 문장은 동일한 클래스에 속한 문장일 수 있다.
즉, 제목 형태를 띄는 문장과 상기 제목에 대한 설명을 하는 내용의 문장 간의 유사도 또는 상기 제목에 대한 설명을 하는 내용의 문장들 간의 유사도를 기초로 관심 영역이 보다 정확하게 추출될 수 있다.
이하에서는, 도 12b를 참조하여 특정 관심 영역에 포함된 복수의 문장들 중에서 문장의 시작 단어에 숫자가 포함된 문장이 존재하고, 상기 문장의 시작 단어에 숫자가 포함된 문장이 제2 클래스의 문장인 경우에 있어서, 관심 영역을 정확하게 추출하는 방법에 대하여 설명하도록 한다.
도 12b에 도시된 바와 같이, 제2 타겟 페이지(120)로부터 제1 관심 영역(121), 제2 관심 영역(122) 및 제3 관심 영역(123)이 추출될 수 있고, 제2 관심 영역(122)은 제1 문장(122a), 제2 문장(122b), 제3 문장(122c), 제4 문장(122d), 제5 문장(122e), 제6 문장(122f) 및 제7 문장(122g)을 포함할 수 있다. 이 때, 제1 문장(122a)는 제1 클래스에 속한 문장일 수 있고, 제2 문장(122b) 내지 제7 문장(122g)는 제2 클래스에 속한 문장일 수 있다. 또한, 경우에 따라 제2 관심 영역(122)에 포함된 제1 문장(122a) 내지 제7 문장(122g) 중에서 문장의 시작 단어에 숫자가 포함된 제5 문장(122e)이 존재할 수 있다.
이 때, 제5 문장(122e)은 문장의 시작 단어에 숫자가 포함되어 있지만, 앞부분에 위치한 제목에 대한 내용을 인용하기 위해 숫자가 사용된 경우일 수 있고, 법조항을 언급하기 위해 숫자가 사용된 경우일 수 있으며, 전처리 단계에서 발견되지 않은 오탈자로 인하여 숫자로 시작된 경우일 수도 있다. 즉, 제5 문장(122e)은 문장의 시작 단어에 숫자가 포함되어 있지만 제1 클래스에 속한 문장이 아닌 제2 클래스에 속한 문장일 수 있다.
이러한 경우, 품사 특징과 문장 특징을 기초로만 하여 제2 관심 영역(122)이 추출되는 경우에는, 제2 클래스의 속한 제5 문장(122e)이 제1 클래스의 문장으로 분류됨으로써 제1 문장(122a) 내지 제4 문장(122d)로 구성된 관심 영역과 제5 문장(122e) 내지 제7 문장(122g)로 구성된 관심 영역이 추출될 수 있다. 즉, 제1 문장(122a) 내지 제7 문장(122g)로 구성된 제2 관심 영역(122)이 정확하게 추출되지 않을 수 있다.
이에, 본 개시의 일 실시예에 따르면, 제1 클래스에 속한 제1 문장(122a) 및 제2 클래스에 속한 제5 문장(122e) 간의 유사도가 판단될 수 있고, 상기 유사도가 기준치를 초과하는 것으로 판단된 경우, 제2 관심 영역(122)에서 제거되지 않을 수 있다.
나아가, 본 개시의 일 실시예에 따르면, 제2 클래스에 속한 제5 문장(122e)과 동일한 클래스에 속한 복수의 문장들 간의 유사도가 판단될 수 있고, 상기 유사도가 기준치를 초과하는 것으로 판단된 경우, 제5 문장(122e)은 제2 관심 영역(122)에서 제거되지 않을 수 있다.
도 13은 본 개시의 몇몇 실시예들에 따른 문서 내 관심 영역 추출 시스템의 하드웨어 구성도이다. 도 15에 도시된 문서 내 관심 영역 추출 시스템(1000)은, 하나 이상의 프로세서(1100), 시스템 버스(1600), 통신 인터페이스(1200), 프로세서(1100)에 의하여 수행되는 컴퓨터 프로그램(1500)을 로드(load)하는 메모리(1400)와, 컴퓨터 프로그램(1500)을 저장하는 스토리지(1300)를 포함할 수 있다.
프로세서(1100)는 문서 내 관심 영역 추출 시스템(1000)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1100)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 메모리(1400)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(1400)는 본 개시의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(1300)로부터 하나 이상의 컴퓨터 프로그램(1500)을 로드(load) 할 수 있다. 시스템 버스(1600)는 문서 내 관심 영역 추출 시스템(1000)의 구성 요소 간 통신 기능을 제공한다. 통신 인터페이스(1200)는 문서 내 관심 영역 추출 시스템(1000)의 인터넷 통신을 지원한다. 스토리지(1300)는 하나 이상의 컴퓨터 프로그램(1500)을 비임시적으로 저장할 수 있다. 컴퓨터 프로그램(1500)은 본 개시의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 명령어들(instructions)을 포함할 수 있다. 컴퓨터 프로그램(1500)이 메모리(1400)에 로드 되면, 프로세서(1100)는 상기 하나 이상의 명령어들을 실행시킴으로써 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
몇몇 실시예들에서, 도 13을 참조하여 설명된 문서 내 관심 영역 추출 시스템(1000)은 가상 머신 등 클라우드 기술에 기반하여 서버 팜(server farm)에 포함된 하나 이상의 물리 서버(physical server)를 이용하여 구성될 수 있다. 이 경우, 도 13에 도시된 구성 요소 중 프로세서(1100), 메모리(1400) 및 스토리지(1300) 중 적어도 일부는 가상 하드웨어(virtual hardware)일 수 있을 것이며, 통신 인터페이스(1200) 또한 가상 스위치(virtual switch) 등 가상화된 네트위킹 요소로 구성될 수 있을 것이다.
지금까지 도 1 내지 도 13을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 발명이 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
    복수의 페이지로 구성된 문서 내에서 하나 이상의 타겟 페이지를 추출하는 단계; 및
    상기 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 기초로 상기 타겟 페이지에서 복수의 문장을 포함하는 관심 영역을 추출하는 단계를 포함하는,
    문서 내 관심 영역 추출 방법.
  2. 제1 항에 있어서,
    상기 타겟 페이지를 추출하는 단계는,
    상기 복수의 페이지에 대한 제2 품사 특징과 페이지 특징을 생성하는 단계; 및
    상기 제2 품사 특징과 상기 페이지 특징을 이용하여 상기 타겟 페이지를 추출하는 단계를 포함하는,
    문서 내 관심 영역 추출 방법.
  3. 제2 항에 있어서,
    상기 제2 품사 특징은,
    명사의 분포 비율, 숫자의 분포 비율, 접속사의 분포 비율, 정관사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함하는,
    문서 내 관심 영역 추출 방법.
  4. 제2 항에 있어서,
    상기 페이지 특징은,
    페이지 내의 단어의 수 및 페이지 내에 포함된 문장의 시작 단어에 숫자가 포함되어 있는지 여부 중 하나 이상의 특징을 포함하는,
    문서 내 관심 영역 추출 방법.
  5. 제2 항에 있어서,
    상기 타겟 페이지를 추출하는 단계는,
    상기 복수의 페이지에 대한 이미지 특징을 생성하는 단계를 더 포함하는,
    문서 내 관심 영역 추출 방법.
  6. 제5 항에 있어서,
    상기 이미지 특징은,
    페이지 내 텍스트 영역의 글자의 크기 및 텍스트 영역의 배치 형태 중 하나 이상의 특징을 포함하는,
    문서 내 관심 영역 추출 방법.
  7. 제5 항에 있어서,
    상기 제2 품사 특징과 상기 페이지 특징을 이용하여 상기 타겟 페이지를 추출하는 단계는,
    상기 제2 품사 특징, 상기 페이지 특징 및 상기 이미지 특징을 페이지 분류 모델에 입력하여 상기 복수의 페이지의 유형을 분류하는 단계; 및
    상기 복수의 페이지의 유형을 기초로 타겟 페이지를 추출하는 단계를 포함하는,
    문서 내 관심 영역 추출 방법.
  8. 제7 항에 있어서,
    상기 복수의 페이지의 유형은 표지, 목차 및 본문을 포함하는,
    문서 내 관심 영역 추출 방법.
  9. 제7 항에 있어서,
    상기 페이지 분류 모델은,
    상기 제2 품사 특징을 기초로 산출된 품사별 빈도수가 정규화된 값들, 상기 페이지 특징 및 상기 이미지 특징을 이용하여 학습된 모델인,
    문서 내 관심 영역 추출 방법.
  10. 제1 항에 있어서,
    상기 제1 품사 특징은,
    명사의 분포 비율, 동사의 분포 비율 및 형용사의 분포 비율 중 하나 이상의 특징을 포함하는,
    문서 내 관심 영역 추출 방법.
  11. 제1 항에 있어서,
    상기 문장 특징은,
    문장의 시작 단어에 숫자가 포함되어 있는지 여부, 문장 내의 구두점의 존재 여부 및 문장 내의 단어의 수 중 하나 이상의 특징을 포함하는,
    문서 내 관심 영역 추출 방법.
  12. 제1 항에 있어서,
    상기 관심 영역을 추출하는 단계는,
    상기 제1 품사 특징과 상기 문장 특징을 문장 분류 모델에 입력하여 상기 타겟 페이지에 포함된 복수의 문장을 복수의 클래스로 분류하는 단계; 및
    상기 분류된 복수의 클래스를 기초로 상기 관심 영역을 추출하는 단계를 포함하는,
    문서 내 관심 영역 추출 방법.
  13. 제12 항에 있어서,
    상기 분류된 복수의 클래스를 기초로 관심 영역을 추출하는 단계는,
    상기 문장 분류 모델을 통해 제1 클래스로 분류된 문장 및 제2 클래스로 분류된 문장의 조합을 상기 관심 영역으로 추출하는 단계를 포함하는,
    문서 내 관심 영역 추출 방법.
  14. 제13 항에 있어서,
    상기 제1 클래스는 제목이고,
    상기 제2 클래스는 상기 제목에 대한 본문인,
    문서 내 관심 영역 추출 방법.
  15. 제13 항에 있어서,
    상기 관심 영역에 포함된 제1 문장과 제2 문장 간의 유사도를 판단하는 단계; 및
    상기 제1 문장과 상기 제2 문장 간의 유사도가 기준치 이하로 판단된 경우, 상기 제2 문장을 상기 관심 영역에서 제거하는 단계를 더 포함하는,
    문서 내 관심 영역 추출 방법.
  16. 제15 항에 있어서,
    상기 제1 문장은 제1 클래스에 속한 문장이고,
    상기 제2 문장은 제2 클래스에 속한 문장인,
    문서 내 관심 영역 추출 방법.
  17. 제15 항에 있어서,
    상기 제1 문장과 상기 제2 문장은 동일한 클래스에 속한 문장인,
    문서 내 관심 영역 추출 방법.
  18. 제12 항에 있어서,
    상기 문장 분류 모델은,
    상기 제1 품사 특징을 기초로 산출된 품사별 빈도수가 정규화된 값들과 상기 문장 특징을 이용하여 학습된 모델인,
    문서 내 관심 영역 추출 방법.
  19. 프로세서; 및
    명령어를 저장하는 메모리를 포함하고,
    상기 명령어는 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    복수의 페이지로 구성된 문서 내에서 하나 이상의 타겟 페이지를 추출하는 동작; 및
    상기 타겟 페이지에 대한 제1 품사 특징과 문장 특징을 기초로 상기 타겟 페이지에서 복수의 문장을 포함하는 관심 영역을 추출하는 동작을 수행하도록 하는,
    문서 내 관심 영역 추출 시스템.
  20. 제19 항에 있어서,
    상기 관심 영역에 속한 제1 문장과 제2 문장 간의 유사도가 기준치 이하로 판단된 경우, 상기 제1 문장 및 상기 제2 문장 중 어느 하나를 상기 관심 영역에서 제거하는 동작을 더 수행하도록 하는,
    문서 내 관심 영역 추출 시스템.
KR1020220152955A 2022-09-05 2022-11-15 문서 내 관심 영역 추출 방법 및 장치 KR20240033619A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/232,142 US20240078827A1 (en) 2022-09-05 2023-08-09 Method and apparatus for extracting area of interest in a document

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220112197 2022-09-05
KR20220112197 2022-09-05

Publications (1)

Publication Number Publication Date
KR20240033619A true KR20240033619A (ko) 2024-03-12

Family

ID=90299611

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220152955A KR20240033619A (ko) 2022-09-05 2022-11-15 문서 내 관심 영역 추출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20240033619A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348005B2 (en) 2018-09-30 2022-05-31 Boe Technology Group Co., Ltd. Apparatus, method, and computer-readable medium for image processing, and system for training a neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11348005B2 (en) 2018-09-30 2022-05-31 Boe Technology Group Co., Ltd. Apparatus, method, and computer-readable medium for image processing, and system for training a neural network

Similar Documents

Publication Publication Date Title
US11210468B2 (en) System and method for comparing plurality of documents
US9817814B2 (en) Input entity identification from natural language text information
JP3791879B2 (ja) 文書要約装置およびその方法
TWI536181B (zh) 在多語文本中的語言識別
JP2011118526A (ja) 単語意味関係抽出装置
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
Jagadeesh et al. Sentence extraction based single document summarization
Rani et al. Aspect-based sentiment analysis using dependency parsing
Nakov BulStem: Design and evaluation of inflectional stemmer for Bulgarian
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
CN112711666B (zh) 期货标签抽取方法及装置
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
KR20240033619A (ko) 문서 내 관심 영역 추출 방법 및 장치
Hocking et al. Optical character recognition for South African languages
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
Mohd et al. Sumdoc: a unified approach for automatic text summarization
Lazemi et al. PAKE: a supervised approach for Persian automatic keyword extraction using statistical features
Eyecioglu et al. Knowledge-lean paraphrase identification using character-based features
US20240078827A1 (en) Method and apparatus for extracting area of interest in a document
Kettaf et al. Authorship attribution by functional discriminant analysis
Kumamoto et al. Improving a method for quantifying readers’ impressions of news articles with a regression equation
Rahman et al. A method for semantic relatedness based query focused text summarization
Kovacevic et al. Application of a Structural Support Vector Machine method to N-gram based text classification in Serbian
Tran et al. Modelling consequence relationships between two action, state or process Vietnamese sentences for improving the quality of new meaning-summarizing sentence
Ma et al. Self-organizing semantic maps and its application to word alignment in Japanese–Chinese parallel corpora