KR20210040862A - 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램 - Google Patents

문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20210040862A
KR20210040862A KR1020210038357A KR20210038357A KR20210040862A KR 20210040862 A KR20210040862 A KR 20210040862A KR 1020210038357 A KR1020210038357 A KR 1020210038357A KR 20210038357 A KR20210038357 A KR 20210038357A KR 20210040862 A KR20210040862 A KR 20210040862A
Authority
KR
South Korea
Prior art keywords
paragraph
document
level
title
current
Prior art date
Application number
KR1020210038357A
Other languages
English (en)
Other versions
KR102509836B1 (ko
Inventor
짱 쩐
짱 이펑
리우 밍하오
구오 찌앙리앙
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210040862A publication Critical patent/KR20210040862A/ko
Application granted granted Critical
Publication of KR102509836B1 publication Critical patent/KR102509836B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N3/0445
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 출원은 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램을 개시하며, 이는 컴퓨터 기술분야, 특히 인공 지능 분야에 적용될 수 있다. 구체적인 실현 방법은, 미리 정의된 룰에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 미리 정의된 룰의 단락 특징과 룰 매칭시키고; 룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하며; 룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하고; 각 단락의 단락 레벨에 기반하여, 처리 대기 문서의 문서 타이틀 트리를 구축하는 것이다. 본 출원의 실시예는 다양한 비정형 문서의 타이틀 인식 및 문서 타이틀 트리의 구축에 적용되고, 미리 정의된 룰과 기계 학습 모델을 결합하는 방식을 기반으로 강한 내결함성을 가지며, 인식 결과가 더 정확하도록 한다.

Description

문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램{METHOD AND APPARATUS FOR CONSTRUCTING DOCUMENT HEADING TREE, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 출원은 컴퓨터 기술분야, 특히 인공 지능 분야에 응용될 수 있다.
종래기술에서 문서 타이틀 인식은 일반적으로 조판 격식 비교와 문법 비교의 방법을 기반으로 한다. 조판 격식 비교에 기반한 방법은 주로 미리 정의된 조판 격식의 템플릿 룰을 통해, 처리 대기 문서와 템플릿 룰의 관계를 비교하여, 나아가 타이틀 인식을 완성한다. 문법 비교에 기반한 방법은 먼저 문법 관계를 나타내는 트리 또는 그래픽을 정의한 후, 문서 타이틀의 문법 구조를 구축하고, 처리 대기 문서의 단락과 문서 타이틀의 문법 구조가 일치하는 지의 여부를 비교하며, 나아가 타이틀 인식을 완성한다. 하지만, 현재 많은 문서의 작성 과정에서 많은 비표준적인 현상, 예컨대 개요 등급을 설정하지 않거나 개요 등급을 잘못 설정하고, 타이틀 격식이 잘못된 것 등과 같은 현상이 존재하며, 이상의 상황들은 모두 문서 타이틀 인식의 어려움을 초래할 수 있다. 따라서, 상기 방법을 사용하면 내결함성이 낮은 문제점이 존재할 수 있다.
본 출원의 실시예는 문서 타이틀 트리의 구축 방법, 장치, 전자기기 및 저장매체를 제안하여, 종래기술의 상기 기술적 과제 중 적어도 하나를 해결하도록 한다.
제1 측면에서, 본 출원의 실시예는 문서 타이틀 트리의 구축 방법을 제공하며, 해당 방법은,
미리 정의된 룰에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 미리 정의된 룰의 단락 특징과 룰 매칭시키는 것;
룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것;
룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것; 및
각 단락의 단락 레벨에 기반하여, 처리 대기 문서의 문서 타이틀 트리를 구축하는 것; 을 포함한다.
제2 측면에서, 본 출원의 실시예는 문서 타이틀 트리의 구축 장치를 제공하며, 해당 장치는,
미리 정의된 룰에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 미리 정의된 룰의 단락 특징과 룰 매칭시키기 위한 매칭 유닛;
룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하기 위한 제1 확정 유닛;
룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하기 위한 제2 확정 유닛; 및
각 단락의 단락 레벨에 기반하여, 처리 대기 문서의 문서 타이틀 트리를 구축하기 위한 구축 유닛을 포함한다.
제3 측면에서, 본 출원의 실시예는 전자기기를 제공하며, 해당 기기는,
적어도 하나의 프로세서; 및
적어도 하나의 프로세서와 통신 연결된 메모리를 포함하되; 여기서,
메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 명령은 적어도 하나의 프로세서에 의해 실행되며, 적어도 하나의 프로세서로 하여금 본 출원의 임의의 하나의 실시예에 의해 제공되는 방법을 수행하도록 한다.
제4 측면에서, 본 출원의 실시예는 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하며, 해당 컴퓨터 명령은 해당 컴퓨터로 하여금 본 출원의 임의의 하나의 실시예에 의해 제공되는 방법을 수행하도록 한다.
상기 발명의 일 실시예는 다음과 같은 장점 또는 유익한 효과를 갖는다. 즉: 다양한 비정형 문서의 타이틀 인식 및 문서 타이틀 트리의 구축에 적용되고, 미리 정의된 룰과 기계 학습 모델을 결합시키는 방식이 강한 내결함성을 가지는 것에 기반하여, 인식 결과가 더욱 정확하도록 한다.
본 출원의 선택적 방식이 갖는 기타 효과는 하기에서 구체적인 실시예를 결부하여 설명하고자 한다.
도면은 본 해결수단을 더 잘 이해하기 위한 것으로서, 본 출원에 대해 한정하는 것이 아니다. 여기서,
도 1은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 흐름도이다.
도 2는 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 문서 타이틀 트리의 모식도이다.
도 3은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 단락 레벨 인식의 흐름도이다.
도 4는 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 기계 학습 모델을 이용하여 단락 레벨을 확정하는 흐름도이다.
도 5는 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 문서 타이틀 트리 구축의 흐름도이다.
도 6은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 문서 타이틀 트리 병합의 모식도이다.
도 7은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 흐름도이다.
도 8은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 장치의 모식도이다.
도 9는 본 출원의 다른 일 실시예에 따른 문서 타이틀 트리의 구축 장치의 구축 유닛의 모식도이다.
도 10은 본 출원의 실시예의 문서 타이틀 트리의 구축 방법을 실현하기 위한 전자기기의 블록도이다.
이하 도면을 결부하여 본 출원의 예시적인 실시예를 설명하되, 여기서 본 출원의 실시예를 포함하는 여러 가지 세부절차는 이해를 돕기 위한 것으로, 이들은 응당 예시적인 것으로 간주해야 한다. 따라서 본 기술분야에서 통상의 지식을 가진 자들은 여기서 설명한 실시예에 대하여 여러 가지 변화와 수정을 진행할 수 있고 이는 본 출원의 범위와 정신을 벗어나지 않는다는 것을 인식하여야 한다. 마찬가지로, 명확함과 간결함을 위하여 아래의 설명에서는 공지 기능과 구조에 대한 설명을 생략한다.
도 1은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 흐름도이다. 도 1을 참조하면, 상기 문서 타이틀 트리의 구축 방법은,
미리 정의된 룰에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 미리 정의된 룰의 단락 특징과 룰 매칭시키는 단계(S112);
룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S114);
룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S116); 및
각 단락의 단락 레벨에 기반하여, 처리 대기 문서의 문서 타이틀 트리를 구축하는 단계(S120)을 포함한다.
본 출원의 실시예는 다양한 비정형 문서의 타이틀 인식 및 문서 타이틀 트리의 구축에 적용된다. 비정형 문서는 Word 문서, HTML(HyperText Markup Language, 하이퍼 텍스트 마크업 언어) 문서, OCR(Optical Character Recognition, 광학적 문자 인식) 변환 문서 등을 포함할 수 있다. 이 유형의 문서는 여러 개의 기본 유닛으로 구성되고, 매 하나의 유닛은 문장에서 타이틀, 본문 등과 같이 상이한 역할을 한다. 일반적으로 하나의 단락은 텍스트의 하나의 기본 유닛이다. 문서 타이틀 트리의 구축은 문서의 타이틀을 인식하고 인식 결과에 근거하여 타이틀 트리를 구축하는 것이다. 문서 타이틀 트리를 이용하여 문서에 포함된 정보를 효과적으로 마이닝할 수 있고, 이는 조판 격식 검사 등과 같은 많은 애플리케이션의 기초이다. 이 밖에, 문서 타이틀 트리 구축은 문서 분류, 구조화 검색, 문서 이해 등과 같은 일부 자연어 처리 애플리케이션에서도 중요한 역할을 한다.
문서 타이틀 트리의 구축 작업은 제공된 처리 대기 문서에 근거하여, 처리 대기 문서에서 타이틀에 대응되는 구조화 정보를 제공할 것을 요구한다. 처리 대기 문서의 각 단락의 표시 순서 및 내포 구조를 확정하는 것을 통해, 최종적으로 하나의 룰 문법 트리를 형성한다. 해당 룰 문법 트리는 또한 문서 타이틀 및 문서 본문의 계층 구조를 나타내는 문서 타이틀 트리이다. 도 2는 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 문서 타이틀 트리의 모식도이다. 도 2는 입력 문서의 예에 근거하여 재구축된 문서 타이틀 트리를 도시한다. 도 2의 "ROOT"는 가상의 루트 노드이고, 루트 노드는 문서 자체를 대표한다. 도 2의 "T"는 타이틀 노드이다. 도 2의 "C"는 문서 본문 노드이다. 본문 노드는 일반적으로 리프 노드이다.
word 문서를 예로 들면, word 문서에 개요 등급이 정확하게 설정되면, Apache POI, Libreoffice 등 word 문서 해석 도구를 사용하여 문서 타이틀 트리를 도출할 수 있다. 하지만 문서 작성이 표준화되지 않은 경우, 문서 타이틀 트리를 구축할 수 없다.
상기 문제에 대하여, 본 출원은 비정형 문서에 적용되는 타이틀 트리 구축 방법을 제안한다. 본 출원의 실시예에서, 미리 정의된 룰에 기반한 룰 매칭 및 기계 학습 모델을 사용하여, 처리 대기 문서의 적어도 하나의 단락에 대해 단락 역할 인식을 진행하고, 즉 처리 대기 문서의 각 단락이 타이틀인 지의 여부를 인식한다. 나아가, 각 단락의 단락 레벨을 더 판단할 수 있다. 예를 들어 도 2의 예시에서, "T: 2. 알고리즘 설계"는 1급 타이틀이고, "T: 2.1 룰 매칭"은 2급 타이틀이다. 단계(S120)에서, 단계(S114) 또는 단계(S116)에서 얻은 각 단락의 단락 레벨에 기반하여 문서 타이틀 트리를 구축한다. 도 2의 예시를 참조하면, 구축된 문서 타이틀 트리는 문서 단락 사이의 계층 내포 관계를 명확하게 설명할 수 있다.
단계(S112)에서, 먼저 미리 정의된 룰의 룰 매칭의 방법에 기반하여, 처리 대기 문서의 각 단락에 대해 타이틀 인식을 진행한다. 구체적으로, 처리 대기 문서의 각 단락의 텍스트 특징을 미리 정의된 룰의 단락 특징과 룰 매칭시킬 수 있다. 룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S114)를 수행한다. 예를 들면, 상기 미리 정의된 룰의 단락 특징은 단락 텍스트에 포함된 쉼표 또는 마침표 등과 같은 예정 구두점을 포함한다. 즉 처리 대기 문서의 현재 단락에 쉼표 또는 마침표 등과 같은 예정 구두점이 포함되어 있는 것이 인식될 경우, 현재 단락의 단락 레벨을 문서 본문으로 인식한다. 룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S116)를 수행한다. 예를 들면, LSTM(Long Short-Term Memory, 장단기 메모리 네트워크) 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 인식할 수 있다.
상기 실시예에서, 미리 정의된 룰에 기반한 룰 매칭을 기계 학습 모델에 결합시키고, 처리 대기 문서의 각 단락에 대해 타이틀 인식을 진행하여, 각 단락의 단락 레벨을 얻는다. 미리 정의된 룰에 기반한 룰 매칭을 기계 학습 모델에 결합시키는 방법은 여러 각도에서 단락의 단락 레벨을 판단할 수 있고, 단지 템플릿 룰을 사용하여 비교하는데 존재하는 내결함성이 불충분한 문제점을 제거하고, 타이틀 인식 능력을 향상시킨다.
다른 일 실시예에서, 미리 정의된 룰에 기반한 룰 매칭 및 기계 학습 모델 중 하나에 기반하여, 처리 대기 문서의 각 단락에 대해 타이틀 인식을 진행하고, 각 단락의 단락 레벨을 얻을 수 있다. 다음 각 단락의 단락 레벨을 통하여 문서 타이틀 트리를 구축하는 것에 근거하여, 전체 문서 단락 사이의 계층 내포 관계를 나타낸다.
종래기술의 조판 격식 비교에 기반한 방법에 있어서, 타이틀 인식 과정에서 템플릿과 처리 대기 문서 사이의 유사도를 계산해야 하고, 유사도의 크기 관계를 통해 처리 대기 문서와 템플릿의 타이틀의 관계를 판단한다. 만약 처리 대기 문서의 조판 격식이 표준화되지 않으면, 유사도 크기를 통해 타이틀 인식을 진행하기 어렵다. 종래기술의 문법 비교의 방법에도 동일한 문제점이 존재하고, 만약 처리 대기 문서의 문법 격식이 표준화되지 않으면, 타이틀 인식을 진행할 수 없게 된다. 현재 많은 문서는 작성 과정에서 다양한 비표준적인 현상, 예컨대 개요 등급을 설정하지 않거나 개요 등급을 잘못 설정하고, 타이틀 격식이 잘못됨 등과 같은 현상이 존재하며, 이상의 상황들은 모두 문서 타이틀 인식의 어려움을 초래할 수 있다.
이를 감안하여, 본 출원의 실시예는 문서 타이틀 트리의 구축 방법을 제안하고, 해당 방법은 다양한 비정형 문서의 타이틀 인식 및 문서 타이틀 트리의 구축에 적용되며, 미리 정의된 룰과 기계 학습 모델을 결합시키는 방식이 강한 내결함성을 구비하는 것에 기반하여, 인식 결과가 더 정확하도록 한다.
본 출원의 실시예에서, 단락 레벨은 문서 본문 및 문서 타이틀의 타이틀 레벨을 포함할 수 있다. 여기서, 문서 타이틀의 타이틀 레벨은 1급 타이틀, 2급 타이틀, 3급 타이틀 등과 같이 레벨이 순차적으로 높은 순서에서 낮은 순서로의 일련의 타이틀을 포함할 수 있다. 도 2의 예시를 참조하면, "C"는 문서 본문 노드이고, "T: 2. 알고리즘 설계"는 1급 타이틀이며, "T: 2.1 룰 매칭"은 2급 타이틀이다.
일 실시형태에서, 각 단락 레벨에 대응되는 가중치를 미리 설정할 수 있다. 여기서, 작은 가중치에 대응되는 타이틀 레벨은 상응하게 높고, 가장 큰 가중치는 문서 본문에 대응된다. 예를 들면, 도 2의 예시에서, 1급 타이틀을 나타내는 노드 "T: 2. 알고리즘 설계"에는 가중치1을 할당하고, 2급 타이틀을 나타내는 노드 "T: 2.1 룰 매칭"에는 가중치2를 할당하며, 문서 본문의 노드 "C"에는 가중치100을 할당한다.
본 출원의 실시예에서, 미리 정의된 룰에 기반한 룰 매칭의 방법은 문서 본문 특징에 기반한 타이틀 격식 제한, 타이틀 숫자 매칭 및 키워드 매칭 중 적어도 하나를 포함할 수 있다. 상기 여러 가지 방법의 구체적인 실시형태는 하기와 같다.
1) 문서 본문 특징에 기반한 타이틀 격식 제한
일 실시형태에서, 미리 정의된 룰의 단락 특징은 문서 본문 특징을 포함한다. 문서 본문 특징은, 단락 텍스트에 포함된 예정 구두점, 예정 단락 길이 임계값, 단락 텍스트에 포함된 예정 문자, 단락 텍스트에 숫자 이외의 문자를 포함하지 않는 등을 포함할 수 있다.
일 실시형태에서, 도 1에서, 룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S114)는 구체적으로, 처리 대기 문서의 현재 단락이 문서 본문 특징과 매칭이 성공할 경우, 현재 단락의 단락 레벨을 문서 본문으로 확정하는 것을 포함할 수 있다.
일반적으로, 문서의 타이틀 단락에는 특수한 타이틀 격식 제한 조건이 있다. 예를 들면 타이틀에는 구두점 부호가 포함되지 않고, 타이틀 내용에는 길이 제한이 있으며, 예를 들면 "공식"과 같은 특수 문자는 타이틀에 나타나지 않는다. 상기 특징에 기반하여, 상기 타이틀 격식 제한 조건에 근거하여 처리할 현재 단락 내용에 대하여 검사를 진행할 수 있다. 만약 상기 타이틀 격식 제한 조건에 부합되면, 해당 단락을 비타이틀 단락, 즉 문서 본문으로 인식하고, 가중치 100을 할당한다. 일 예시에서, 타이틀 격식 제한 조건은 구체적으로 표 1에 도시된 바와 같다.
표 1. 타이틀 격식 제한 조건
제한 조건 설명
구두점 부호 제한 만약 。, !?등 부호가 나타나면 비타이틀로 인식한다.
텍스트 길이 제한 길이가 [min, max] 구간 내에 없으면 비타이틀로 인식하고, 여기서 min, max는 실제 상황에 근거하여 확정할 수 있다.
특수 부호 제한 만약 공식 등 상황이 나타나면 비타이틀로 인식한다.
내용 격식 제한 만약 전체 단락 내용이 모두 순수한 숫자 등인 상황이 나타나면 비타이틀로 인식한다.
본 출원의 실시예는 현저한 문서 본문 특징을 갖는 단락을 문서 본문으로 인식하고, 정확하게 인식하는 기초 상에서, 후속적으로 구축되는 문서 타이틀 트리에서 문서 구조를 명확하게 나타낼 수 있다.
2) 타이틀 숫자 매칭
일 실시형태에서, 미리 정의된 룰의 단락 특징은 문서 타이틀의 타이틀 내용 전의 숫자 부호의 격식을 포함하고;
도 1에서, 룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S114)는 구체적으로,
문서 타이틀의 타이틀 내용 전에 숫자 부호를 포함하는 것이 인식된 경우, 샘플 문서에 기반하여 각 타이틀 레벨로 조성된 타이틀 레벨 집합을 획득하고, 각 타이틀 레벨에 대응되는 숫자 부호의 격식의 정규표현식을 획득하는 것; 및
현재 단락의 타이틀 내용 전의 숫자 부호의 격식을 각 타이틀 레벨에 대응되는 정규표현식에 매칭시키고, 매칭 결과에 근거하여 현재 단락의 타이틀 레벨을 확정하는 것; 을 포함할 수 있다.
이러한 실시형태에서, 타이틀 내용 전의 숫자 부호의 격식을 사용하여 타이틀 등급을 확정할 수 있다. 예를 들면, 각종 정경에 사용되는 샘플 문서를 미리 수집할 수 있다. 다음 샘플 문서에서 숫자로 시작되는 여러 개의 타이틀 단락을 추출하고, 여러 개의 타이틀 단락에서 각종 상이한 숫자 부호의 격식을 획득한다. 이하 표 2의 "제1장", "(1.1)" 등, 즉 숫자 부호의 격식의 예시를 상세하게 참조한다.
나아가, 표 2를 참조하면, 샘플 문서에서 획득한 각종 상이한 숫자 부호의 격식을 정규표현식으로 나타낸다. 상이한 숫자 부호의 격식은 상이한 타이틀 레벨을 대표하고, 상이한 타이틀 레벨은 또한 상이한 가중치에 대응되므로, 각 정규표현식에 대응되는 가중치를 얻을 수 있다. 표 2의 세번째 열은 각 숫자 부호의 격식에 대응되는 가중치를 도시한다. 예를 들면, "제1장"은 1급 타이틀일 확률이 높고, 대응되는 타이틀 가중치는 1이며; "(1.1)"은 2급 타이틀일 확률이 높고, 대응되는 타이틀 가중치는 5이다. 표 2는 샘플 문서를 미리 사용하여 요약하여 얻은 일반적인 테이블이다. 표 2는 상이한 숫자 부호의 격식에 상이한 가중치를 할당하는 것을 도시한다. 여기서, 가중치가 작을수록, 이에 대응되는 타이틀 레벨이 더 높다는 것을 표시한다.
표 2. 타이틀 숫자 매칭 테이블
예를 들어 설명 정규표현식 타이틀 가중치
제1장 제(일|이|삼|사|오|육|칠|팔|구|십|1|2|3|4|5|6|7|8|9|0)+(부분|장|절) 1
일|이|삼|사|오|육|칠|팔|구|십 2
일. 일|이|삼|사|오|육|칠|팔|구|십)+(, |\.|\)|) 2
(일) (\(|()(일|이|삼|사|오|육|칠|팔|구|십)+(\)|)) 3
(1) (\(|()(1|2|3|4|5|6|7|8|9|0)+(\)|)) 4
(1.1) (1|2|3|4|5|6|7|8|9|0)+(,|\.) 5
1) (1|2|3|4|5|6|7|8|9|0)+(\)|)) 6
상기 테이블 데이터의 기초 상에서 정규적인 매칭 방식을 통해, 문서 타이틀의 타이틀 내용 전에 숫자 부호를 포함하는 것이 인식된 경우, 현재 단락의 타이틀 내용 전의 숫자 부호의 격식을 각 타이틀 레벨에 대응되는 정규표현식에 매칭시킨다. 만약 현재 단락이 상기 정규적인 매칭 조건을 만족하면, 타이틀 가중치를 출력하고, 프로그램은 인식을 종료한다.
본 출원의 실시예는 숫자 부호의 격식의 정규표현식을 통해 각 단락의 타이틀 레벨을 정확하게 인식할 수 있고, 즉 상기 방법을 이용하여 통상적인 타이틀 숫자 매칭 테이블을 요약할 수 있으며, 또한 특정된 정경에 대하여 개성화 애플리케이션에 적용되는 테이블을 요약할 수 있고, 해당 방법은 조작성이 강하고 정확도가 높다.
3) 키워드 매칭
일 실시형태에서, 미리 정의된 룰의 단락 특징은 키워드 집합을 포함하고; 키워드 집합은 블랙 리스트 및 화이트 리스트를 포함하며, 블랙 리스트에는 문서 타이틀에 포함된 키워드가 포함되고, 화이트 리스트에는 문서 타이틀에 포함되지 않은 키워드가 포함되며;
룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것은,
현재 단락의 텍스트를 키워드 집합과 매칭시키는 것;
현재 단락의 텍스트가 화이트 리스트와 매칭이 성공할 경우, 현재 단락의 단락 레벨을 화이트 리스트에 대응되는 미리 설정된 타이틀 레벨로 확정하는 것; 및
현재 단락의 텍스트가 블랙 리스트와 매칭이 성공할 경우, 현재 단락의 단락 레벨을 문서 본문으로 확정하는 것; 을 포함한다.
문서 타이틀의 내용은 전체 하위 장과 절의 중심 사상을 대표하고, 특정된 키워드를 통해 문서 타이틀인 지의 여부를 판단할 수 있다. 예를 들면, "기본 정보", "배경 소개" 및 "방법 소개" 등 키워드를 포함한 단락은 문서 타이틀일 확률이 높다. 본 출원의 실시예에서, 표 3에 도시된 바와 같이, 단락 내용을 판단하기 위해, 화이트 리스트 및 블랙 리스트를 미리 정의할 수 있다. 표 3의 세번째 열은 또한 화이트 리스트 및 블랙 리스트에 대응되는 가중치를 도시한다. 여기서, 현재 단락의 텍스트가 블랙 리스트와 매칭이 성공할 경우, 현재 단락의 단락 레벨을 문서 본문으로 확정하고, 현재 단락에 대응되는 가중치를 100으로 설정할 수 있다. 현재 단락의 텍스트가 화이트 리스트와 매칭이 성공할 경우, 현재 단락의 단락 레벨을 문서 타이틀로 확정한다. 일 실시형태에서, 화이트 리스트와 매칭이 성공한 문서 단락에 대응되는 가중치를 전부 제1 예정 수치로 설정할 수 있고, 예를 들면 해당 수치는 2일 수 있다.
표 3. 키워드 매칭 테이블
리스트 설명 가중치
화이트 리스트 타이틀 키워드, 예를 들면 "기본 정보" 등 2
블랙 리스트 타이틀로 사용할 수 없는 단어, 예를 들면 "...한다(了)", "이전에(在此之前)" 등 100
본 출원의 실시예에서, 리스트는 실제 필요에 근거하여 자유롭게 적용될 수 있고, 필요에 근거하여 언제든지 확장 및 업데이트가 가능하며, 해당 방식은 정경과 필요에 근거하여 원활하게 응용될 수 있고, 확장성이 우수하다.
전술한 바와 같이, 본 출원의 실시예에서, 미리 정의된 룰에 기반한 룰 매칭의 방법은 문서 본문 특징에 기반한 타이틀 격식 제한, 타이틀 숫자 매칭 및 키워드 매칭 중 적어도 하나를 포함할 수 있다. 일 예시에서, 상기의 미리 정의된 룰에 기반한 여러 가지 룰 매칭의 방법을 결합하여, 타이틀 인식의 정확도를 더 향상시킬 수 있다. 도 3은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 단락 레벨 인식 흐름도이다. 도 3에 도시된 바와 같이, 먼저 문서 본문 특징에 기반한 타이틀 격식 제한의 방식을 이용하여 문서 단락을 인식하고, 인식에 결과가 있는 경우 상기 문서 단락을 문서 본문으로 확정하며 가중치를 출력할 수 있다. 상기 인식에 결과가 없는 경우 타이틀 숫자 매칭의 방식을 이용하여 문서 단락을 인식하고, 인식에 결과가 있는 경우 해당 문서 단락을 문서 타이틀로 확정하며 대응되는 가중치를 출력한다. 상기 인식에 결과가 없는 경우 키워드 매칭의 방식을 이용하여 문서 단락을 인식하고, 인식에 결과가 있는 경우 해당 문서 단락을 문서 본문 또는 문서 타이틀로 확정하며, 대응되는 가중치를 출력한다. 상기 인식에 결과가 없는 경우 기계 학습 모델을 이용하여 문서 단락을 인식하고, 최종적으로 해당 문서 단락에 대응되는 가중치를 출력한다. 본 출원의 실시예는 문서 단락 타이틀의 특징에 대하여, 미리 정의된 룰과 기계 학습 모델 여러 관점으로부터 단락 역할을 인식하여, 인식의 정확도를 확보할 수 있다.
도 4는 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 기계 학습 모델을 이용하여 단락 레벨을 확정하는 흐름도이다. 도 1 및 도 4를 참조하면, 룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 단계(S116)는 구체적으로,
현재 단락에서 단어 벡터 서열 특징 및 품사 서열 특징을 추출하는 단계(S310);
단어 벡터 서열 특징 및 품사 서열 특징을 기계 학습 모델에 입력하는 단계(S320); 및
기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 출력하는 단계(S330)을 포함할 수 있다.
일 예시에서, 기계 학습 모델을 이용하여 현재 단락에 대하여 이진 분류 판단을 진행하고, 즉 현재 단락이 문서 타이틀인 지의 여부를 판단한다.
문서 타이틀 텍스트는 일반적으로 내용에서 요약적인 어구로 구현되기 때문에, 한편으로, 단어 벡터 서열을 특징으로 사용하여, 시맨틱 정보를 추출할 수 있다. 여기서, 단어 벡터는 단어를 벡터로 처리하는 기술이고, 벡터 사이의 상대적 유사도 및 시맨틱 유사도가 관련되는 것을 확보한다. 단어 벡터는 단어를 하나의 시맨틱 공간에 매핑하여 얻은 벡터이다. 다른 한편, 문서 타이틀 텍스트는 품사 측면에서 대응되는 특징을 갖고 있으며, 일반적으로 "경험 요약", "룰 요약" 등과 같은 명사 및 동명사의 결합이다. 따라서 품사 서열을 동시에 추가하여 기계 학습 모델의 입력 특징으로 사용할 수 있고, 기계 학습 모델로 하여금 단어 벡터 서열 특징 및 품사 서열 특징을 이용하여 학습할 수 있도록 한다.
단계(S310)에서, 입력할 기계 학습 모델의 현재 단락을 단어 분할 처리하여, 현재 단락의 단어 벡터 서열 특징 및 품사 서열 특징을 얻는다. 단계(S320)에서, 상기 특징을 기계 학습 모델에 입력한다. 일 예시에서, LSTM 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 판단할 수 있다. LSTM 모델의 판단 공식은 다음과 같다.
y=LSTM(x_emb,x_pos)
여기서, x_emb는 단어 분할 후의 단어 벡터 서열 특징을 나타내고, x_pos는 단어 분할 후의 품사 서열 특징을 나타내며, y는 최종적으로 얻은 출력 결과를 나타낸다. 여기서, y가 1일 경우, 예측 결과는 현재 단락이 문서 타이틀인 것을 대표한다. 일 실시형태에서, LSTM 모델에 의해 타이틀로 인식될 수 있는 문서 단락에 대응되는 가중치를 전부 제2 예정 수치로 설정하고, 예를 들면 해당 수치는 7일 수 있다. y가 0일 경우, 예측 결과는 현재 단락이 문서 타이틀이 아닌 것을 대표하고, 가중치100을 할당한다.
본 출원의 실시예에서 사용되는 기계 학습 모델은 서열 특징과 관련된 문제를 처리할 경우 천연적인 우세를 갖고 있으며, 기계 학습 모델을 사용하여 단어 벡터 서열 특징 및 품사 서열 특징을 학습하여, 예측을 위한 수렴된 모델을 얻고, 이상적인 예측 효과를 얻을 수 있다.
일 실시형태에서, 도 1에서 각 단락의 단락 레벨에 기반하여, 처리 대기 문서의 문서 타이틀 트리를 구축하는 단계(S120)은,
문서 타이틀 트리의 루트 노드를 생성하고, 루트 노드에 대응되는 단락 레벨을 최상위 레벨로 할당하는 것; 및
처리 대기 문서의 각 단락의 단락 레벨에 근거하여 각 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하는 것; 을 포함한다.
전술한 바와 같이, 문서 타이틀 트리의 루트 노드는 문서 자체를 대표한다. 먼저 루트 노드를 생성하고, 루트 노드에 대응되는 단락 레벨을 최상위 레벨로 할당하며, 상응하여 루트 노드에 가장 작은 가중치를 할당할 수 있다. 예를 들면, 루트 노드에 가중치0을 할당할 수 있다. 다음 처리 대기 문서의 각 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가한다. 전술한 단계에서 처리 대기 문서의 각 단락의 단락 레벨을 이미 인식하였고, 각 단락에 대응되는 가중치를 얻을 수 있다. 가중치에 근거하여 각 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하여, 하나의 정렬 트리를 구축할 수 있다. 정렬 트리에서 루트 노드의 가중치는 가장 작고, 루트 노드의 자식 노드는 1급 타이틀에 대응되는 노드이며, 1급 타이틀에 대응되는 노드의 자식 노드는 2급 타이틀에 대응되는 노드이고, 최저층의 리프 노드가 문서 본문에 대응될 때까지 순차적으로 유추한다.
본 출원의 실시예는 계층 구조를 갖는 문서 타이틀 트리를 획득할 수 있으며, 예를 들면 word 문서, txt 문서 및 html 문서 등 다양한 비정형 문서에 적용될 수 있다. 생성된 타이틀 트리를 이용하여 문서에 포함된 정보를 효과적으로 마이닝할 수 있고, 이는 조판 격식 검사, 문서 분류, 구조화 검색, 문서 이해 등과 같은 많은 애플리케이션의 기초이다.
도 5는 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 문서 타이틀 트리 구축의 흐름도이다. 도 5에 도시된 바와 같이, 일 실시형태에서, 처리 대기 문서의 각 단락의 단락 레벨에 근거하여 각 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하는 것은,
처리 대기 문서의 첫번째 단락을 현재 단락으로 사용하고, 루트 노드를 문서 타이틀 트리의 마지막 노드로 사용하는 단계(S510);
현재 단락의 단락 레벨을 마지막 노드의 단락 레벨과 비교하는 단계(S520);
비교 결과에 근거하여 현재 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하는 단계(S530);
현재 단락의 다음 단락을 새로운 현재 단락으로 사용하여, 현재 단락에 대응되는 단락 노드를 새로운 마지막 노드로 사용하는 단계(S540); 및
새로운 현재 단락 및 새로운 마지막 노드에 대하여, 현재 단락의 단락 레벨을 마지막 노드의 단락 레벨과 비교하고, 또 비교 결과에 근거하여 현재 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하는 상기의 단계를 반복하여 수행하는 단계(S550)을 포함할 수 있다.
본 출원의 실시예는 순환 구조를 이용하여 계층 구조를 갖는 문서 타이틀 트리를 구축하고, 구축된 문서 타이틀 트리는 문서 단락 사이의 계층 내포 관계를 명확하게 설명할 수 있으며, 전체 문서를 구조화하여, 비정형 문서의 처리 및 정보 마이닝이 어려운 문제점을 극복한다.
일 실시형태에서, 비교 결과에 근거하여 현재 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하는 단계(S530)은 구체적으로,
현재 단락의 단락 레벨이 마지막 노드의 단락 레벨보다 높은 경우, 마지막 노드의 부모 노드를 새로운 마지막 노드로 사용하고, 현재 단락의 단락 레벨을 마지막 노드의 단락 레벨과 비교하는 단계를 반복하여 수행하는 것; 및
현재 단락의 단락 레벨이 마지막 노드의 단락 레벨보다 낮은 경우, 현재 단락에 대응되는 단락 노드를 마지막 노드의 자식 노드로 사용하는 것; 을 포함할 수 있다.
본 출원의 실시예는 계층별 비교를 통해 현재 단락에 대응되는 단락 노드를 문서 타이틀 트리에 삽입하여, 최종적으로 하나의 순서있게 정렬된 문서 타이틀 트리를 구축하며, 후속적으로 진행되는 문서 검사, 문서 검색, 문서 이해 및 정보 마이닝 등 애플리케이션을 위해 신뢰할 수 있는 기초를 제공한다.
본 출원의 실시예에서, 문서 타이틀 트리의 계층 관계를 획득하기 위하여, 현재 단락의 문서 타이틀에 대응되는 가중치를 비교하여 문서 타이틀 트리에 병합된 노드의 위치를 확정한다. 일 예시적인 구축 과정은 다음과 같다.
1) 문서 루트 노드를 새롭게 생성하고, 가중치 0을 할당한다.
2) 문서 단락 집합을 순회하여, 입력된 현재 단락에 대응되는 가중치를 판단하고, 해당 가중치에 근거하여 현재 단락에 대응되는 노드를 새롭게 생성한다.
3) 문서 타이틀 트리의 마지막 노드 및 현재 단락 노드의 가중치 크기를 비교한다. 여기서, 초기 상태에서 처리 대기 문서의 첫번째 단락을 현재 단락으로 사용하고, 루트 노드를 문서 타이틀 트리의 마지막 노드로 사용한다. 다음의 매번의 순환에서 현재 단락 및 마지막 노드를 다시 확정할 수 있다.
구체적인 비교 방법은 다음과 같다. 만약 현재 단락 노드의 가중치가 문서 타이틀 트리의 마지막 노드의 가중치보다 작으면, 이런 경우 현재 단락의 단락 레벨은 마지막 노드의 단락 레벨보다 높다. 마지막 노드의 부모 노드를 새로운 마지막 노드로 사용하고, 계속하여 마지막 노드의 부모 노드의 가중치와 현재 단락 노드의 가중치를 비교하며, 마지막 노드의 가중치가 현재 단락 노드의 가중치보다 작을 때까지 순차적으로 유추한다. 비교 결과에 근거하여, 현재 단락 노드를 문서 타이틀 트리에 병합한다.
도 6은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 문서 타이틀 트리 병합 모식도이다. 도 6에 도시된 바와 같이, 현재 타이틀 트리에서, "root:0"은 루트 노드를 대표하고; "node1:1"은 node1 노드의 가중치가 1인 것을 대표하며; "node3:1"은 node3 노드의 가중치가 1인 것을 대표하고; "node2:100"은 node2 노드의 가중치가 100인 것을 대표하며; "node4:100"은 node4 노드의 가중치가 100인 것을 대표한다. 병합해야 하는 단락 노드 node5의 가중치가 3이라고 가정하면, node5 이전에 마지막으로 문서 타이틀에 병합한 노드는 node4이다. 그러면, 먼저 문서 타이틀 트리의 마지막 노드 node4 및 node5의 가중치를 비교하고, node4 가중치 100이 node5의 가중치 3보다 크기 때문에, 계속하여 node4의 부모 노드 node3 및 node5의 가중치를 비교한다. node3의 가중치가 node5의 가중치보다 작으므로, 비교는 종료된다. node5를 트리에 병합하고, 즉 node5의 부모 노드는 node3을 가리키며, node3은 자식 노드node5를 추가한다.
4) 문서 단락 집합의 모든 단락이 병합되었는 지의 여부를 판단하고, 모든 단락이 병합되면 프로그램을 종료하고, 그렇지 않으면 단계2)와 단계3)을 반복하여 수행한다.
도 7은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 방법의 흐름도이다. 도 7에 도시된 바와 같이, 처리할 word 문서를 단락 집합으로 분할하고, 먼저 미리 정의된 룰의 룰 매칭의 방법을 이용하여 단락을 인식한다. 여기서, 룰 매칭은 타이틀 격식 제한, 타이틀 데이터 매칭 및 키워드 매칭을 포함한다. 룰 매칭이 성공하지 않으면, 모델 판단 방법을 통해 단락을 인식한다. 예를 들면, 구체적으로 LTSM 모델을 사용하여, 품사 특징 및 단어 벡터 특징을 학습하는 것을 통하여 단락을 인식할 수 있다. 룰 매칭이 성공하면, 단락 내용을 문서 타이틀 트리에 병합하고, 구체적인 단계는 루트 노드 생성, 노드 타이틀 등급 비교 및 부모 노드 연결을 포함할 수 있다. 단락 집합이 전부 병합되면 문서 타이틀 트리 구축을 완성한다. 이상 과정의 구체적인 방법 및 실현 방식은 전술한 바와 같고, 여기서 반복하지 않는다.
도 8은 본 출원의 일 실시예에 따른 문서 타이틀 트리의 구축 장치의 모식도이다. 도 8에 도시된 바와 같이, 본 출원의 실시예의 문서 타이틀 트리의 구축 장치는,
미리 정의된 룰에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 미리 정의된 룰의 단락 특징과 룰 매칭시키기 위한 매칭 유닛(100);
룰 매칭이 성공할 경우, 룰 매칭의 결과에 근거하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하기 위한 제1 확정 유닛(200);
룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 확정하기 위한 제2 확정 유닛(300); 및
각 단락의 단락 레벨에 기반하여, 처리 대기 문서의 문서 타이틀 트리를 구축하기 위한 구축 유닛(400)을 포함한다.
일 실시형태에서, 상기 기계 학습 모델은 장단기 메모리 네트워크 모델을 포함하고; 상기 제2 확정 유닛(300)은,
현재 단락에서 단어 벡터 서열 특징 및 품사 서열 특징을 추출하고;
단어 벡터 서열 특징 및 품사 서열 특징을 기계 학습 모델에 입력하며;
기계 학습 모델을 이용하여 처리 대기 문서의 각 단락의 단락 레벨을 출력하기 위한 것이다.
일 실시형태에서, 미리 정의된 룰의 단락 특징은 문서 본문 특징을 포함하고;
제1 확정 유닛(200)은, 처리 대기 문서의 현재 단락이 문서 본문 특징과 매칭이 성공할 경우, 현재 단락의 단락 레벨을 문서 본문으로 확정하기 위한 것이다.
일 실시형태에서, 미리 정의된 룰의 단락 특징은 문서 타이틀의 타이틀 내용 전의 숫자 부호의 격식을 포함하고;
제1 확정 유닛(200)은,
문서 타이틀의 타이틀 내용 전에 숫자 부호를 포함하는 것이 인식된 경우, 샘플 문서에 기반하여 각 타이틀 레벨로 조성된 타이틀 레벨 집합을 획득하고, 각 타이틀 레벨에 대응되는 숫자 부호의 격식의 정규표현식을 획득하며;
현재 단락의 타이틀 내용 전의 숫자 부호의 격식을 각 타이틀 레벨에 대응되는 정규표현식에 매칭시키고, 매칭 결과에 근거하여 현재 단락의 타이틀 레벨을 확정하기 위한 것이다.
일 실시형태에서, 미리 정의된 룰의 단락 특징은 키워드 집합을 포함하고; 키워드 집합은 블랙 리스트 및 화이트 리스트를 포함하며, 블랙 리스트에는 문서 타이틀에 포함된 키워드가 포함되고, 화이트 리스트에는 문서 타이틀에 포함되지 않은 키워드가 포함되며;
제1 확정 유닛(200)은,
현재 단락의 텍스트를 키워드 집합과 매칭시키고;
현재 단락의 텍스트가 화이트 리스트와 매칭이 성공할 경우, 현재 단락의 단락 레벨을 화이트 리스트에 대응되는 미리 설정된 타이틀 레벨로 확정하며;
현재 단락의 텍스트가 블랙 리스트와 매칭이 성공할 경우, 현재 단락의 단락 레벨을 문서 본문으로 확정하기 위한 것이다.
도 9는 본 출원의 다른 일 실시예에 따른 문서 타이틀 트리의 구축 장치의 구축 유닛의 모식도이다. 도 9에 도시된 바와 같이, 일 실시형태에서, 구축 유닛(400)은,
문서 타이틀 트리의 루트 노드를 생성하고, 루트 노드에 대응되는 단락 레벨을 최상위 레벨로 할당하기 위한 생성 서브 유닛(410); 및
처리 대기 문서의 각 단락의 단락 레벨에 근거하여 각 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하기 위한 추가 서브 유닛(420)을 포함한다.
일 실시형태에서, 추가 서브 유닛(420)은,
처리 대기 문서의 첫번째 단락을 현재 단락으로 사용하고, 루트 노드를 문서 타이틀 트리의 마지막 노드로 사용하며;
현재 단락의 단락 레벨을 마지막 노드의 단락 레벨과 비교하고;
비교 결과에 근거하여 현재 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하며;
현재 단락의 다음 단락을 새로운 현재 단락으로 사용하고, 현재 단락에 대응되는 단락 노드를 새로운 마지막 노드로 사용하며;
새로운 현재 단락 및 새로운 마지막 노드에 대하여, 현재 단락의 단락 레벨을 마지막 노드의 단락 레벨과 비교하고, 또 비교 결과에 근거하여 현재 단락에 대응되는 단락 노드를 문서 타이틀 트리에 추가하는 단계를 반복하여 수행하기 위한 것이다.
일 실시형태에서, 추가 서브 유닛(420)은,
현재 단락의 단락 레벨이 마지막 노드의 단락 레벨보다 높은 경우, 마지막 노드의 부모 노드를 새로운 마지막 노드로 사용하고, 현재 단락의 단락 레벨을 마지막 노드의 단락 레벨과 비교하는 단계를 반복하여 수행하며;
현재 단락의 단락 레벨이 마지막 노드의 단락 레벨보다 낮은 경우, 현재 단락에 대응되는 단락 노드를 마지막 노드의 자식 노드로 사용하기 위한 것이다.
본 출원의 실시예의 각 장치의 각 모듈의 기능은 상기 방법중의 대응되는 설명을 참조할 수 있으므로, 여기서 반복하지 않는다.
본 출원의 실시예에 따르면, 본 출원은 전자기기 및 판독 가능 저장매체를 더 제공한다.
도 10에 도시된 바와 같이, 본 출원의 실시예에 따른 문서 타이틀 트리의 구축 방법의 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 작업대, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 여러 가지 형식의 디지털 컴퓨터를 가리킨다. 전자기기는 개인 디지털 프로세싱, 휴대 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 여러 가지 형식의 이동장치를 더 나타낼 수 있다. 본 명세서에 도시된 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시적인 것일 뿐이며, 본 명세서에서 설명 및/또는 요구한 본 출원의 실현을 한정하기 위한 것이 아니다.
도 10에 도시된 바와 같이, 해당 전자기기는, 하나 또는 복수의 프로세서(1001), 메모리(1002) 및 각 부품을 연결하기 위한, 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각 부품은 상이한 버스를 이용하여 서로 연결되고 공용 메인보드에 장착되거나 또는 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자기기 내에서 수행되는 명령을 처리할 수 있으며, 이는 메모리에 저장되거나 또는 메모리에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링 된 디스플레이 기기)에 GUI를 표시하는 그래프 정보의 명령을 포함한다. 기타 실시형태에서, 만약 필요하면, 복수의 프로세서 및/또는 복수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로 복수의 전자기기를 연결할 수 있고, 각 기기는 일부 필요한 조작(예를 들면 서버 어레이, 블레이드 서버 세트 또는 멀티 프로세서 시스템으로 함)를 제공할 수 있다. 도 10에서는 하나의 프로세서(1001)를 예로 한다.
메모리(1002)는 본 출원에서 제공하는 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행될 수 있는 명령이 저장되며, 상기 적어도 하나의 프로세서로 하여금 본 출원에서 제공하는 문서 타이틀 트리의 구축 방법을 수행하도록 할 수 있다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터로 하여금 본 출원에서 제공하는 문서 타이틀 트리의 구축 방법을 수행하도록 한다.
메모리(1002)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들어 본 출원의 실시예에서의 문서 타이틀 트리의 구축 방법에 대응되는 프로그램 명령/모듈(예를 들면, 도 8에 도시된 매칭 유닛(100), 제1 확정 유닛(200), 제2 확정 유닛(300)과 구축 유닛(400) 및 도 9에 도시된 생성 서브 유닛(410)과 추가 서브 유닛(420))을 저장하는데 사용될 수 있다. 프로세서(1001)는 메모리(1002)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 작동시킴으로써, 서버의 여러 가지 기능 응용 및 데이터 처리를 수행, 즉 상기 방법 실시예에서의 문서 타이틀 트리의 구축 방법을 실현한다.
메모리(1002)는 프로그램 저장구역과 데이터 저장구역을 포함할 수 있으며, 여기서 프로그램 저장구역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고; 데이터 저장구역은 문서 타이틀 트리의 구축에 따른 전자기기의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 이 외에, 메모리(1002)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비일시적 메모리, 예를 들면 적어도 하나의 자기 디스크 메모리, 플래시 메모리 또는 기타 비일시적 솔리드 스테이트 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(1002)는 선택적으로 프로세서(1001)에 대해 원격으로 설치되는 메모리를 포함하고, 이러한 원격 메모리는 네트워크를 통해 문서 타이틀 트리의 구축의 전자기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하나 이에 한정되지 않는다.
문서 타이틀 트리의 구축 방법의 전자기기는 입력 장치(1003)와 출력 장치(1004)를 더 포함할 수 있다. 프로세서(1001), 메모리(1002), 입력 장치(1003)와 출력 장치(1004)는 버스 또는 기타 방식을 통해 연결될 수 있고, 도 10에서는 버스를 통해 연결되는 것을 예로 한다.
입력 장치(1003)는 입력된 숫자 또는 문자 부호정보를 수신할 수 있고, 또한 문서 타이틀 트리의 구축의 전자기기의 사용자 설정 및 기능 제어와 관련되는 키 신호 입력을 발생할 수 있으며, 예를 들면 터치 스크린, 키보드, 마우스, 트랙패드, 터치패드, 지시 바, 하나 또는 다수의 마우스버튼, 트랙 볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(1004)는 디스플레이 기기, 보조 조명장치(예를 들면, LED)와 촉각 피드백 장치(예를 들면, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는 액정 모니터(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시예에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 전용 ASIC(전용 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현할 수 있다. 이러한 여러 가지 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서로서, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 한다)은 프로그머블 프로세서의 기계 명령을 포함하고, 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 "기계 판독 가능 매체"와 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들면 자기 디스크, 시디롬, 메모리, 프로그래머블 로직 장치(PLD))를 가리키고, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 신호를 가리킨다.
사용자와의 상호작용을 제공하기 위하여, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있으며, 해당 컴퓨터는, 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙 볼)를 구비하고 사용자는 해당 키보드와 해당 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치는 사용자와의 상호작용에 사용될 수도 있는 바, 예를 들면 사용자에게 제공된 피드백은 모든 형식의 감각 피드백(예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 모든 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함)에 의해 사용자로부터의 입력을 수신할 수 있다.
여기서 설명한 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 또는 프런트엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 상호작용할 수 있다), 또는 이러한 백그라운드 부품, 미들웨어 부품 또는 프런트엔드 부품을 포함하는 임의의 조합의 컴퓨팅 시스템에서 실시될 수 있다. 모든 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)를 통해 시스템의 부품을 서로 연결할 수 있다. 통신 네트워크의 실례는 근거리 통신망 (LAN), 광역 통신망 (WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 설치되는 동시에 통상적으로 통신 네트워크를 통해 서로 상호작용을 진행한다. 상응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통하여 클라이언트과 서버의 관계를 발생한다.
본 출원의 실시예는 다양한 비정형 문서의 타이틀 인식 및 문서 타이틀 트리의 구축에 적용되고, 미리 정의된 룰과 기계 학습 모델을 결합하는 방식을 기반으로 강한 내결함성을 가지며, 인식 결과로 하여금 더욱 정확하도록 한다.
이해해야 할 것은, 이상에서 설명한 여러 가지 형태의 과정을 이용하여, 단계에 대해 다시 정렬시키고 증가 또는 삭제할 수 있다. 예를 들면, 본 출원에서 기재한 각 단계는 동시에 수행할 수도 있고 순차적으로 수행할 수도 있으며 상이한 순서로 수행할 수도 있는 바, 본 출원에서 개시한 기술적 해결수단에서 기대하는 결과를 실현할 수만 있다면, 본 문은 이에 대해 한정하지 않는다.
상기 구체적인 실시형태는 본 출원의 보호범위에 대한 한정이 아니다. 본 기술분야에서 통상의 지식을 가진 자들은 설계 요구와 기타 요소에 근거하여 여러 가지 수정, 조합, 하위 조합과 대체를 진행할 수 있다는 것을 명백하여야 한다. 본 출원의 정신과 원칙 내에서 진행한 그 어떤 수정, 균등한 대체와 개량은 모두 본 출원의 보호범위 내에 포함된다.

Claims (19)

  1. 문서 타이틀 트리의 구축 방법에 있어서,
    미리 정의된 룰(Rule)에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 상기 미리 정의된 룰의 단락 특징과 룰 매칭시키는 것;
    룰 매칭이 성공할 경우, 상기 룰 매칭의 결과에 근거하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것;
    룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것; 및
    상기 각 단락의 단락 레벨에 기반하여, 상기 처리 대기 문서의 문서 타이틀 트리를 구축하는 것; 을 포함하는 것을 특징으로 하는 문서 타이틀 트리의 구축 방법.
  2. 제1항에 있어서,
    상기 기계 학습 모델은 장단기 메모리 네트워크 모델을 포함하고;
    상기의 룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것은,
    현재 단락에서 단어 벡터 서열 특징 및 품사 서열 특징을 추출하는 것;
    상기 단어 벡터 서열 특징 및 상기 품사 서열 특징을 기계 학습 모델에 입력하는 것; 및
    상기 기계 학습 모델을 이용하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 출력하는 것; 을 포함하는 것을 특징으로 하는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 미리 정의된 룰의 단락 특징은 문서 본문 특징을 포함하고;
    상기의 룰 매칭이 성공할 경우, 상기 룰 매칭의 결과에 근거하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것은, 상기 처리 대기 문서의 현재 단락이 상기 문서 본문 특징과 매칭이 성공할 경우, 상기 현재 단락의 단락 레벨을 문서 본문으로 확정하는 것을 포함하는 것을 특징으로 하는 방법.
  4. 제1항 내지 제3항 중 임의의 한 항에 있어서,
    상기 미리 정의된 룰의 단락 특징은 문서 타이틀의 타이틀 내용 전의 숫자 부호의 격식을 포함하고;
    상기의 룰 매칭이 성공할 경우, 상기 룰 매칭의 결과에 근거하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것은,
    상기 문서 타이틀의 타이틀 내용 전에 숫자 부호를 포함하는 것이 인식된 경우, 샘플 문서에 기반하여 각 타이틀 레벨로 조성된 타이틀 레벨 집합을 획득하고, 각 상기타이틀 레벨에 대응되는 숫자 부호의 격식의 정규표현식을 획득하는 것; 및
    현재 단락의 타이틀 내용 전의 숫자 부호의 격식을 각 상기 타이틀 레벨에 대응되는 정규표현식에 매칭시키고, 매칭 결과에 근거하여 현재 단락의 타이틀 레벨을 확정하는 것; 을 포함하는 것을 특징으로 하는 방법.
  5. 제1항 내지 제4항 중 임의의 한 항에 있어서,
    상기 미리 정의된 룰의 단락 특징은 키워드 집합을 포함하고; 상기 키워드 집합은 블랙 리스트 및 화이트 리스트를 포함하며, 상기 블랙 리스트에는 문서 타이틀에 포함된 키워드가 포함되고, 상기 화이트 리스트에는 문서 타이틀에 포함되지 않은 키워드가 포함되며;
    상기의 룰 매칭이 성공할 경우, 상기 룰 매칭의 결과에 근거하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하는 것은,
    상기 현재 단락의 텍스트를 상기 키워드 집합과 매칭시키는 것;
    상기 현재 단락의 텍스트가 상기 화이트 리스트와 매칭이 성공할 경우, 상기 현재 단락의 단락 레벨을 미리 설정된 화이트 리스트에 대응되는 타이틀 레벨로 확정하는 것; 및
    상기 현재 단락의 텍스트가 상기 블랙 리스트와 매칭이 성공할 경우, 상기 현재 단락의 단락 레벨을 문서 본문으로 확정하는 것; 을 포함하는 것을 특징으로 하는 방법.
  6. 제1항 내지 제5항 중 임의의 한 항에 있어서,
    상기 각 단락의 단락 레벨에 기반하여, 상기 처리 대기 문서의 문서 타이틀 트리를 구축하는 것은,
    문서 타이틀 트리의 루트 노드를 생성하고, 상기 루트 노드에 대응되는 단락 레벨을 최상위 레벨로 할당하는 것; 및
    상기 처리 대기 문서의 각 단락의 단락 레벨에 근거하여 상기 각 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하는 것; 을 포함하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서,
    상기 처리 대기 문서의 각 단락의 단락 레벨에 근거하여 상기 각 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하는 것은,
    처리 대기 문서의 첫번째 단락을 현재 단락으로 사용하고, 상기 루트 노드를 상기 문서 타이틀 트리의 마지막 노드로 사용하는 것;
    상기 현재 단락의 단락 레벨을 상기 마지막 노드의 단락 레벨과 비교하는 것;
    상기 비교 결과에 근거하여 상기 현재 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하는 것;
    상기 현재 단락의 다음 단락을 새로운 현재 단락으로 사용하고, 상기 현재 단락에 대응되는 단락 노드를 새로운 마지막 노드로 사용하는 것; 및
    상기 새로운 현재 단락 및 상기 새로운 마지막 노드에 대하여, 상기 현재 단락의 단락 레벨을 상기 마지막 노드의 단락 레벨과 비교하고, 또 상기 비교 결과에 근거하여 상기 현재 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하는 상기의 단계를 반복하여 수행하는 것; 을 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 비교 결과에 근거하여 상기 현재 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하는 것은,
    상기 현재 단락의 단락 레벨이 상기 마지막 노드의 단락 레벨보다 높은 경우, 상기 마지막 노드의 부모 노드를 새로운 마지막 노드로 사용하고, 상기 현재 단락의 단락 레벨을 상기 마지막 노드의 단락 레벨과 비교하는 단계를 반복하여 수행하는 것; 및
    상기 현재 단락의 단락 레벨이 상기 마지막 노드의 단락 레벨보다 낮은 경우, 상기 현재 단락에 대응되는 단락 노드를 상기 마지막 노드의 자식 노드로 사용하는 것; 을 포함하는 것을 특징으로 하는 방법.
  9. 문서 타이틀 트리의 구축 장치에 있어서,
    미리 정의된 룰에 근거하여 처리 대기 문서의 각 단락의 텍스트 특징을 상기 미리 정의된 룰의 단락 특징과 룰 매칭시키기 위한 매칭 유닛;
    룰 매칭이 성공할 경우, 상기 룰 매칭의 결과에 근거하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하기 위한 제1 확정 유닛;
    룰 매칭이 실패할 경우, 기계 학습 모델을 이용하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 확정하기 위한 제2 확정 유닛; 및
    상기 각 단락의 단락 레벨에 기반하여, 상기 처리 대기 문서의 문서 타이틀 트리를 구축하기 위한 구축 유닛을 포함하는 것을 특징으로 하는 문서 타이틀 트리의 구축 장치.
  10. 제9항에 있어서,
    상기 기계 학습 모델은 장단기 메모리 네트워크 모델을 포함하며;
    상기 제2 확정 유닛은,
    현재 단락에서 단어 벡터 서열 특징 및 품사 서열 특징을 추출하고;
    상기 단어 벡터 서열 특징 및 상기 품사 서열 특징을 기계 학습 모델에 입력하며;
    상기 기계 학습 모델을 이용하여 상기 처리 대기 문서의 각 단락의 단락 레벨을 출력하기 위한 것임을 특징으로 하는 장치.
  11. 제9항 또는 제10항에 있어서,
    상기 미리 정의된 룰의 단락 특징은 문서 본문 특징을 포함하고;
    상기 제1 확정 유닛은, 상기 처리 대기 문서의 현재 단락이 상기 문서 본문 특징과 매칭이 성공할 경우, 상기 현재 단락의 단락 레벨을 문서 본문으로 확정하기 위한 것임을 특징으로 하는 장치.
  12. 제9항 내지 제11항 중 임의의 한 항에 있어서,
    상기 미리 정의된 룰의 단락 특징은 문서 타이틀의 타이틀 내용 전의 숫자 부호의 격식을 포함하고;
    상기 제1 확정 유닛은,
    상기 문서 타이틀의 타이틀 내용 전에 숫자 부호를 포함하는 것이 인식된 경우, 샘플 문서에 기반하여 각 타이틀 레벨로 조성된 타이틀 레벨 집합을 획득하고, 각 상기 타이틀 레벨에 대응되는 숫자 부호의 격식의 정규표현식을 획득하며;
    현재 단락의 타이틀 내용 전의 숫자 부호의 격식을 각 상기 타이틀에 대응되는 정규표현식에 매칭시키고, 매칭 결과에 근거하여 현재 단락의 타이틀 레벨을 확정하기 위한 것임을 특징으로 하는 장치.
  13. 제9항 내지 제12항 중 임의의 한 항에 있어서,
    상기 미리 정의된 룰의 단락 특징은 키워드 집합을 포함하고; 상기 키워드 집합은 블랙 리스트 및 화이트 리스트를 포함하며, 상기 블랙 리스트에는 문서 타이틀에 포함된 키워드가 포함되고, 상기 화이트 리스트에는 문서 타이틀에 포함되지 않은 키워드가 포함되며;
    상기 제1 확정 유닛은,
    상기 현재 단락의 텍스트를 상기 키워드 집합과 매칭시키고;
    상기 현재 단락의 텍스트가 상기 화이트 리스트와 매칭이 성공할 경우, 상기 현재 단락의 단락 레벨을 미리 설정된 화이트 리스트에 대응되는 타이틀 레벨로 확정하며;
    상기 현재 단락의 텍스트가 상기 블랙 리스트와 매칭이 성공할 경우, 상기 현재 단락의 단락 레벨을 문서 본문으로 확정하기 위한 것임을 특징으로 하는 장치.
  14. 제9항 내지 제13항 중 임의의 한 항에 있어서,
    상기 구축 유닛은,
    문서 타이틀 트리의 루트 노드를 생성하고, 상기 루트 노드에 대응되는 단락 레벨을 최상위 레벨로 할당하기 위한 생성 서브 유닛; 및
    상기 처리 대기 문서의 각 단락의 단락 레벨에 근거하여 상기 각 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하기 위한 추가 서브 유닛; 을 포함하는 것을 특징으로 하는 장치.
  15. 제14항에 있어서,
    상기 추가 서브 유닛은,
    처리 대기 문서의 첫번째 단락을 현재 단락으로 사용하고, 상기 루트 노드를 상기 문서 타이틀 트리의 마지막 노드로 사용하며;
    상기 현재 단락의 단락 레벨을 상기 마지막 노드의 단락 레벨과 비교하고;
    상기 비교 결과에 근거하여 상기 현재 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하며;
    상기 현재 단락의 다음 단락을 새로운 현재 단락으로 사용하고, 상기 현재 단락에 대응되는 단락 노드를 새로운 마지막 노드로 사용하며;
    상기 새로운 현재 단락 및 상기 새로운 마지막 노드에 대하여, 상기 현재 단락의 단락 레벨을 상기 마지막 노드의 단락 레벨과 비교하고, 또 상기 비교 결과에 근거하여 상기 현재 단락에 대응되는 단락 노드를 상기 문서 타이틀 트리에 추가하는 상기의 단계를 반복하여 수행하기 위한 것임을 특징으로 하는 장치.
  16. 제15항에 있어서,
    상기 추가 서브 유닛은,
    상기 현재 단락의 단락 레벨이 상기 마지막 노드의 단락 레벨보다 높은 경우, 상기 마지막 노드의 부모 노드를 새로운 마지막 노드로 사용하고, 상기 현재 단락의 단락 레벨을 상기 마지막 노드의 단락 레벨과 비교하는 상기의 단계를 반복하여 수행하며;
    상기 현재 단락의 단락 레벨이 상기 마지막 노드의 단락 레벨보다 낮은 경우, 상기 현재 단락에 대응되는 단락 노드를 상기 마지막 노드의 자식 노드로 사용하기 위한 것임을 특징으로 하는 장치.
  17. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신연결된 메모리를 포함하는 전자기기에 있어서,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 임의의 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자기기.
  18. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제8항 중 임의의 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장매체.
  19. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항의 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210038357A 2020-03-31 2021-03-24 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램 KR102509836B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010247461.4 2020-03-31
CN202010247461.4A CN111460083B (zh) 2020-03-31 2020-03-31 文档标题树的构建方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210040862A true KR20210040862A (ko) 2021-04-14
KR102509836B1 KR102509836B1 (ko) 2023-03-14

Family

ID=71681599

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038357A KR102509836B1 (ko) 2020-03-31 2021-03-24 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US20210303772A1 (ko)
EP (1) EP3889823A1 (ko)
JP (1) JP7169389B2 (ko)
KR (1) KR102509836B1 (ko)
CN (1) CN111460083B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908487A (zh) * 2021-04-19 2021-06-04 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统
KR20230066757A (ko) * 2021-11-08 2023-05-16 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984589A (zh) * 2020-08-14 2020-11-24 维沃移动通信有限公司 文档处理方法、文档处理装置和电子设备
CN112507666B (zh) * 2020-12-21 2023-07-11 北京百度网讯科技有限公司 文档转换方法、装置、电子设备及存储介质
CN113568901B (zh) * 2021-01-29 2024-04-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN112818687B (zh) * 2021-03-25 2022-07-08 杭州数澜科技有限公司 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN113361256A (zh) * 2021-06-24 2021-09-07 上海真虹信息科技有限公司 一种基于Aspose技术的Word文档快速解析方法
CN113378539B (zh) * 2021-06-29 2023-02-14 华南理工大学 一种面向标准文档编写的模板推荐方法
CN113723078A (zh) * 2021-09-07 2021-11-30 杭州叙简科技股份有限公司 一种文本逻辑信息结构化方法、装置及电子设备
CN113779235B (zh) * 2021-09-13 2024-02-02 北京市律典通科技有限公司 一种Word文档大纲识别处理方法及装置
CN115438628B (zh) * 2022-11-08 2023-03-17 宏景科技股份有限公司 结构化文档协作管理方法、系统及文档结构
CN117763206A (zh) * 2024-02-20 2024-03-26 暗物智能科技(广州)有限公司 知识树的生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06342428A (ja) * 1994-05-09 1994-12-13 Toshiba Corp 文書レイアウト方法
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
JP2020024516A (ja) * 2018-08-06 2020-02-13 コニカミノルタ株式会社 情報処理装置および情報処理プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5289375A (en) * 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
JP2007164705A (ja) * 2005-12-16 2007-06-28 S Ten Nine Kyoto:Kk 電子化文書の変換方法及びプログラム
US20080221892A1 (en) * 2007-03-06 2008-09-11 Paco Xander Nathan Systems and methods for an autonomous avatar driver
US8521512B2 (en) * 2008-04-30 2013-08-27 Deep Sky Concepts, Inc Systems and methods for natural language communication with a computer
US8180629B2 (en) * 2008-07-10 2012-05-15 Trigent Softward Ltd. Automatic pattern generation in natural language processing
CN102541948A (zh) * 2010-12-23 2012-07-04 北大方正集团有限公司 用于提取文档结构的方法和装置
US9361049B2 (en) * 2011-11-01 2016-06-07 Xerox Corporation Systems and methods for appearance-intent-directed document format conversion for mobile printing
US9262404B2 (en) * 2012-01-12 2016-02-16 Accenture Global Services Limited System for generating test scenarios and test conditions and expected results
US8577671B1 (en) * 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US20140156264A1 (en) * 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
US9880997B2 (en) * 2014-07-23 2018-01-30 Accenture Global Services Limited Inferring type classifications from natural language text
US10169453B2 (en) * 2016-03-28 2019-01-01 Microsoft Technology Licensing, Llc Automatic document summarization using search engine intelligence
CN106776495B (zh) * 2016-11-23 2020-06-09 北京信息科技大学 一种文档逻辑结构重建方法
US10783262B2 (en) * 2017-02-03 2020-09-22 Adobe Inc. Tagging documents with security policies
US11550835B2 (en) * 2017-06-16 2023-01-10 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
CN107391650B (zh) * 2017-07-14 2018-09-07 北京神州泰岳软件股份有限公司 一种文档的结构化拆分方法,装置及系统
US10783314B2 (en) * 2018-06-29 2020-09-22 Adobe Inc. Emphasizing key points in a speech file and structuring an associated transcription
CN109992761A (zh) * 2019-03-22 2019-07-09 武汉工程大学 一种基于规则的自适应文本信息提取方法及软件存储器
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110598191B (zh) * 2019-11-18 2020-04-07 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11544456B2 (en) * 2020-03-05 2023-01-03 Adobe Inc. Interpretable label-attentive encoder-decoder parser

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06342428A (ja) * 1994-05-09 1994-12-13 Toshiba Corp 文書レイアウト方法
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
JP2020024516A (ja) * 2018-08-06 2020-02-13 コニカミノルタ株式会社 情報処理装置および情報処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908487A (zh) * 2021-04-19 2021-06-04 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统
CN112908487B (zh) * 2021-04-19 2023-09-22 中国医学科学院医学信息研究所 一种临床指南更新内容的自动识别方法及系统
KR20230066757A (ko) * 2021-11-08 2023-05-16 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법

Also Published As

Publication number Publication date
JP7169389B2 (ja) 2022-11-10
KR102509836B1 (ko) 2023-03-14
CN111460083B (zh) 2023-07-25
JP2021108153A (ja) 2021-07-29
CN111460083A (zh) 2020-07-28
EP3889823A1 (en) 2021-10-06
US20210303772A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
KR102509836B1 (ko) 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램
CN110717327B (zh) 标题生成方法、装置、电子设备和存储介质
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
KR102504699B1 (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
KR102554758B1 (ko) 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
KR102475235B1 (ko) 리소스 정렬 방법, 정렬 모델을 트레이닝하는 방법 및 대응하는 장치
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
US11556719B2 (en) Dialogue interaction method and apparatus, device, and storage medium
US20210191961A1 (en) Method, apparatus, device, and computer readable storage medium for determining target content
CN111708800A (zh) 查询方法、装置及电子设备
US20210312308A1 (en) Method for determining answer of question, computing device and storage medium
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
EP4027337B1 (en) Speech recognition method and apparatus, electronic device and storage medium
JP2022091121A (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
CN112487815A (zh) 核心实体抽取方法、判别器训练方法、装置以及电子设备
Tarniceriu et al. HMM-based error correction mechanism for five-key chording keyboards

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant