KR20210065076A - 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체 - Google Patents

문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체 Download PDF

Info

Publication number
KR20210065076A
KR20210065076A KR1020210062980A KR20210062980A KR20210065076A KR 20210065076 A KR20210065076 A KR 20210065076A KR 1020210062980 A KR1020210062980 A KR 1020210062980A KR 20210062980 A KR20210062980 A KR 20210062980A KR 20210065076 A KR20210065076 A KR 20210065076A
Authority
KR
South Korea
Prior art keywords
character
sample
characters
document
generating
Prior art date
Application number
KR1020210062980A
Other languages
English (en)
Inventor
카이 쩡
화 루
이위 펑
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210065076A publication Critical patent/KR20210065076A/ko

Links

Images

Classifications

    • G06K9/00463
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본원 발명은 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체를 개시하는데 이는 자연 언어 처리, 딥 러닝 기술분야에 관한 것이다. 구체적인 실현방안은, 획득한 타깃 문서의 복수의 문자와 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하고, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하며, 획득한 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성하고, 마지막으로 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성하는 것이다. 이로써, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.

Description

문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체{METHOD, APPARATUS, DEVICE, AND STORAGE MEDIUM FOR OBTAINING DOCUMENT LAYOUT}
본원 발명은 컴퓨터 기술분야에 관한 것으로, 구체적으로는 자연 언어 처리, 딥 러닝 기술분야에 관한 것이며, 특히 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체에 관한 것이다.
레이아웃 분석은 문서의 내용을 이해하는데 없어서는 안될 한 단계이고, 많은 후속 작업은 정확한 레이아웃 분석을 기반으로 해야 한다. 예를 들어, 문서가 왼쪽과 오른쪽 열로 분류된 것을 알아야만 정확한 텍스트 시퀀스를 얻을 수 있으며; 문서의 어느 영역이 도표 및 셀 사이의 관계라는 것을 알아야만 도표의 내용을 정확히 이해할 수 있다.
알 수 있다 시피, 문서 레이아웃을 정확히 분석하는 것은 매우 중요하다.
본원 발명은 문서 레이아웃을 정확히 생성하는 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체를 제공한다.
제1 양태에 따르면,
타깃 문서에서의 복수의 문자 및 상기 복수의 문자의 문자 정보를 획득하는 단계;
상기 복수의 문자 및 상기 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하되, 여기서, 상기 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 상기 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함하는 단계;
각 상기 문자의 공간 시맨틱 특징을 획득하는 단계;
상기 복수의 문자의 문자 정보에 근거하여 상기 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하는 단계;
상기 공간 시맨틱 특징과 상기 문자 정보에 근거하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는 단계; 및
상기 꼭짓점 유형과 상기 에지 유형에 근거하여 상기 타깃 문서의 문서 레이아웃을 생성하는 단계를 포함하는 문서 레이아웃의 분석 방법을 제공한다.
본원 발명의 실시예에 따른 문서 레이아웃의 분석 방법은, 획득한 타깃 문서의 복수의 문자와 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하고, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하며, 획득한 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성하고 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다. 이로써, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
제2 양태에 따르면,
타깃 문서에서의 복수의 문자 및 상기 복수의 문자의 문자 정보를 획득하는 제1 획득 모듈;
상기 복수의 문자 및 상기 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하되, 여기서, 상기 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 상기 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함하는 제1 생성 모듈;
각 상기 문자의 공간 시맨틱 특징을 획득하는 제2 획득 모듈;
상기 복수의 문자의 문자 정보에 근거하여 상기 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하는 제2 생성 모듈;
상기 공간 시맨틱 특징과 상기 문자 정보에 근거하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는 제3 생성 모듈; 및
상기 꼭짓점 유형과 상기 에지 유형에 근거하여 상기 타깃 문서의 문서 레이아웃을 생성하는 제4 생성 모듈을 포함하는 문서 레이아웃의 분석 장치를 제공한다.
본원 발명의 실시예에 따른 문서 레이아웃의 분석 장치는, 획득한 타깃 문서의 복수의 문자와 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하고, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하며, 획득한 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성하고, 마지막으로 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다. 이로써, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
제3 양태에 따르면, 전자기기를 제공하는데,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결하는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1 양태의 실시예에서 제공하는 문서 레이아웃의 분석 방법을 수행한다.
제4 양태에 따르면, 실시예는 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하는데 상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1 양태의 실시예에서 제공하는 문서 레이아웃의 분석 방법이 수행된다.
제5 양태에 따르면, 실시예는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 더 제공하는데 상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1 양태의 실시예에서 제공하는 문서 레이아웃의 분석 방법이 수행된다.
본원 발명의 실시예에 따르면, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
상기 선택적인 방식이 구비하는 기타 효과는 아래 내용에서 구체적인 실시예와 결부하여 설명될 것이다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본원 발명을 한정하지 않는다. 여기서,
도 1은 본원 발명의 실시예에서 제공하는 한가지 문서 레이아웃의 분석 방법의 흐름 모식도이고;
도 2는 본원 발명의 실시예에서 제공하는 한가지 문자 전체 연결 그래프를 획득하는 과정 모식도이며;
도 3은 본원 발명의 실시예에서 제공하는 한가지 에지 유형의 모식도1이고;
도 4는 본원 발명의 실시예에서 제공하는 한가지 에지 유형의 모식도2이며;
도 5는 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이고;
도 6은 본원 발명의 실시예에서 제공하는 한가지 문자를 차폐하는 모식도이며;
도 7은 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이고;
도 8은 본원 발명의 실시예에서 제공하는 한가지 연결 에지를 차폐하는 모식도이며;
도 9는 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이고;
도 10은 본원 발명의 실시예에서 제공하는 한가지 무작위 섭동을 추가하는 모식도이며;
도 11은 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이고;
도 12는 본원 발명의 실시예에서 제공하는 한가지 문서 레이아웃의 분석 장치의 구조 모식도이며;
도 13은 본원 발명의 실시예에 따른 문서 레이아웃의 분석 방법의 전자기기의 블록도이다.
이하, 첨부 도면을 결부하여 본원 발명의 예시적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본원 발명의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본원 발명의 기술 분야의 통상의 지식을 가진 자라면 본원 발명의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있음을 알아야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.
이하, 첨부 도면을 참조하여 본원 발명의 실시예에 따른 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체를 설명한다.
본원 발명의 실시예에 따른 문서 레이아웃의 분석 방법은, 획득한 타깃 문서의 복수의 문자와 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하고, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하며, 획득한 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성하고 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다. 이로써, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
도 1은 본원 발명의 실시예에서 제공하는 한가지 문서 레이아웃의 분석 방법의 흐름 모식도이다.
본원 발명의 실시예에 따른 문서 레이아웃의 분석 방법은 본원 발명의 실시예에서 제공하는 문서 레이아웃의 분석 장치에 의해 수행될 수 있고, 상기 장치는 전자기기에 배치되어 문자 정보, 시맨틱 정보 및 공간 위치 정보를 충분하게 이용하여 문서 레이아웃을 분석하도록 할 수 있다.
도 1에 도시된 바와 같이, 상기 문서 레이아웃의 분석 방법은 아래와 같은 단계를 포함한다.
단계101에서, 타깃 문서에서의 복수의 문자 및 복수의 문자의 문자 정보를 획득한다.
본 실시예에서는, OCR(Optical Character Recognition, 광학 문자 인식) 기술을 통해 레이아웃을 분석해야 하는 문서에서의 문자를 인식할 수 있다. 여기서 설명의 편리를 위하여 레이아웃을 분석하고자 하는 문서를 타깃 문서라고 한다.
구체적으로, 타깃 문서의 이미지를 획득한 다음 이미지에 대해 ORC 인식을 진행하여 타깃 문서에서의 복수의 문자와 복수의 문자의 문자 정보를 획득한다. 여기서, 문자는 텍스트, 구두점, 도표 등일 수 있고, 문자 정보는 문자의 크기, 문자의 위치 등 정보를 포함하며, 문자의 위치는 문자가 현재 문서 페이지에서의 위치, 예를 들어 위치하는 행, 행의 몇 번째 문자 등일 수 있으며, 또는 문자가 이미지에서의 픽셀 위치일 수도 있다.
단계102, 복수의 문자 및 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하되, 여기서, 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함한다.
본 실시예에서, 획득한 복수의 문자와 복수의 문자의 크기, 위치 등 정보에 근거하여 2차원 평면의 문자 전체 연결 그래프를 얻는다. 구체적으로, 문자를 정점으로 하고 문자와 문자 사이의 연결선을 에지로 하여 문자 전체 연결 그래프를 얻을 수 있다. 여기서, 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함한다.
도 2는 본원 발명의 실시예에서 제공하는 한가지 문자 전체 연결 그래프를 획득하는 과정 모식도이다.
도 2에서, 문서를 판독하여 문서에서 복수의 문자 C1, C2, ..., Ca, C3, C4, ..., Cb, ..., Cx, Cy, ..., Cz를 판독하고, 복수의 문자 사이를 연결시켜 연결 에지를 얻는 바, 도 2는 문자 C1을 예로 들어 C1과 기타 문자 사이의 문자 연결 에지를 도시, 즉 도 2에서의 양방향 화살표 점선이다.
단계103, 각 문자의 공간 시맨틱 특징을 획득한다.
시맨틱 정보를 충분히 이용하기 위하여 본 실시예에서는 각 문자의 공간 시맨틱 특징을 획득하는데 공간 시맨틱 특징은 공간 시맨틱 정보에 대해 특징 추출을 진행하여 획득한 것일 수 있다. 여기서, 공간 시맨틱 정보는 2차원 공간 평면에서 문자가 나타내는 시맨틱 정보이다.
단계104, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성한다.
본 실시예에서, 문자의 위치와 같은 복수의 문자의 문자 정보에 근거하여 각 문자 꼭짓점의 꼭짓점 유형을 결정할 수 있는데 꼭짓점 유형은 문자가 문서에서의 공간 위치 정보를 지시할 수 있다.
본 실시예에서, 문자 꼭짓점의 꼭짓점 유형은 셀 시작, 셀 끝, 줄 시작, 줄 끝, 단락 시작, 단락 끝, 블록 시작, 블록 끝 열 시작, 열 끝을 포함할 수 있다. 예를 들어, 문자가 한 줄의 문자의 시작 부분에 위치하게 되면 꼭짓점 유형은 줄 시작이고, 문자가 한 줄의 문자의 마지막 한 문자에 위치하게 되면 꼭짓점 유형은 줄 끝이며; 문서 열의 첫 번째 문자는 꼭짓점 유형이 열 시작이고, 한 열의 마지막 한 문자의 꼭짓점 유형은 열 끝이다.
설명해야 할 것은, 일부 문자 꼭짓점은 동시에 여러 가지 꼭짓점 유형일 수 있다. 예를 들어, 어느 문자가 한 줄의 첫 번째 문자인 동시에 한 단락의 첫 번째 문자이면 꼭짓점의 유형은 줄 시작과 단락 시작이다.
문자 꼭짓점의 꼭짓점 유형을 결정할 경우, 미리 트레이닝된 꼭짓점 유형 인식 모델을 이용하여 복수의 문자의 꼭짓점 유형을 결정할 수도 있는 바, 구체적으로, 타깃 문서에서의 복수의 문자의 문자 정보를 꼭짓점 유형 인식 모델에 입력하고, 상기 꼭짓점 유형 인식 모델이 각 문자 꼭짓점을 바이너리하여 바이너리 결과에 따라 문자 꼭짓점의 꼭짓점 유형을 결정할 수 있다.
바이너리란 두 가지 유형의 분류 임무를 가리키는 바, 통상적으로 바이너리 임무라고 한다. 예를 들어, 셀, 줄, 단락, 블록, 열과 같은 5가지 유형을 가지는데 각 유형은 또 시작, 끝과 같은 두 가지 세부사항을 구비하므로 10개의 유형으로 분류된다. 인식할 경우, 이러한 10가지 유형에 각각 속하는지 여부를 각각 판정해야 하므로 10가지 유형에서의 각각은 모두 바이너리이고, 만약 이 10가지 유형에 속하지 않으면 기타 유형을 인식한다. 예를 들어, 어느 문자 꼭짓점에 있어서, 꼭짓점 유형 인식 모델이 출력한 것이 셀 시작이 아니고 셀 끝도 아니며, 단락 시작이고 단락 끝이 아니며, 블록 시작이 아니고 블록 끝도 아니며, 열 시작이고 열 끝이 아닐 경우, 이로써 상기 문자 꼭짓점의 꼭짓점 유형이 단락 시작과 열 시작이라는 것을 획득할 수 있다.
단계105, 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성한다.
공간 시맨틱 특징이 문자의 시맨틱 특징을 나타내고 문자 정보는 문자가 타깃 문서에서의 크기, 위치 등 정보이므로 공간 위치 정보를 충분히 이용하기 위하여 공간 시맨틱 특징과 복수의 문자의 문자 정보에 근거하여 문자와 문자 사이의 위치 정보를 획득할 수 있으며, 이러한 위치 정보는 문자 연결 에지의 에지 유형을 통해 나타낼 수 있다.
여기서, 문자 연결 에지의 에지 유형은 선후 순서 연결 에지, 셀 시작과 끝 연결 에지, 줄 시작과 끝 연결 에지, 단락 시작과 끝 연결 에지, 블록 시작과 끝 연결 에지, 열 시작과 끝 연결 에지 등을 포함한다.
도 3은 본원 발명의 실시예에서 제공하는 한가지 에지 유형의 모식도1이고, 도 3에는 열독의 선후 순서의 에지 유형이 도시된다. 도 4는 본원 발명의 실시예에서 제공하는 한가지 에지 유형의 모식도2이고, 도 4에는 줄 시작과 끝, 단락 시작과 끝, 열 시작과 끝 3가지 에지 유형이 도시되는데 여기서C1과 Ca 사이의 문자 연결 에지의 에지 유형은 줄 시작과 끝 연결 에지이고, C1과 Cb 사이의 문자 연결 에지의 에지 유형은 단락 시작과 끝 연결 에지이며, C1과 Cz 사이의 문자 연결 에지의 에지 유형은 열 시작과 끝 연결 에지이다. 여기서, 양방향 화살표는 문자 사이의 양방향 연합 확률을 사용하였음을 나타낸다.
단계106에서, 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다.
본 실시예에서, 각 문자 꼭짓점의 꼭짓점 유형 및 문자 연결 에지의 에지 유형을 획득한 후, 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성할 수 있는데, 구체적으로는 기설정된 규칙에 근거하여 문서 레이아웃을 생성할 수 있다. 예를 들어, 열 시작과 열 끝 및 열 시작과 끝의 연결변에 근거하여 상기 열이 차지하는 영역을 결정하고, 상기 열이 차지하는 영역을 문서에서의 일부로 사용할 수 있다. 그리고, 다시 꼭짓점 유형에 근거하여 단락 시작과 단락 끝 및 단락 시작과 끝의 연결 에지에 근거하여 단락이 위치하는 영역을 결정하고 열 내의 각 단락 영역을 결정할 수 있다.
또는, 미리 트레이닝된 문서 레이아웃 생성 모델을 이용하여 타깃 문서의 문서 레이아웃을 생성하는데, 구체적으로는 문자 전체 연결 그래프에서의 각 문자 꼭짓점의 꼭짓점 유형 및 각 연결 에지의 에지 유형을 문서 타깃 생성 모델에 입력하고, 문서 레이아웃 생성 모델이 대응하는 문서 레이아웃을 출력하는 것이다.
본 실시예에서, 이러한 문자 정보, 공간 시맨틱 정보, 에지 유형 공간 위치 정보를 충분히 이용한 다음 종합적으로 판정하여 문서 레이아웃을 생성하는 것은 전역 최적화에 기반한 것이다.
예를 들어, 왼쪽과 오른쪽 열로 분류된 문서는 왼쪽 열의 어느 한 문자를 획득할 경우, 오른쪽 열의 앞뒤 문장을 사용하지 않거나 적게 사용하고 왼쪽 열의 앞뒤 문장만을 이용하거나 왼쪽 열의 앞뒤 문장을 여러 용도로 사용하여 결정함으로써 열을 분류하는 정보를 종합하여 문자를 결정할 수 있다.
본원 발명의 실시예에서, 획득한 타깃 문서의 복수의 문자와 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하고, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하며, 획득한 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성하고 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다. 이로써, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
문서 레이아웃 분석의 정확성을 향상시키기 위하여 본원 발명의 한 실시예에서 각 문자의 공간 시맨틱 특징을 획득하는 단계를 수행할 경우, 모델을 이용하여 공간 시맨틱 특징을 추출할 수 있다.
구체적으로, 타깃 문서의 복수의 문자를 미리 셋업한 공간 언어 모델에 입력하고 공간 언어 모델을 통해 각 문자의 공간 시맨틱 특징을 획득한다. 구체적으로, 공간 언어 모델은 주변의 이웃하는 문자에 기반하여 각 문자의 시맨틱 특징을 획득할 수 있다.
본원 발명의 실시예에서, 각 문자의 공간 시맨틱 특징을 획득할 경우, 복수의 문자를 공간 언어 모델에 입력하여 각 문자의 공간 시맨틱 특징을 형성할 수 있다. 이로써 공간 언어 모델에 의해 공간 시맨틱 특징과 복수의 문자의 문자 정보를 얻음으로써 생성한 에지 유형의 정확성이 비교적 높아 에지 유형에 기반하여 획득한 문서 레이아웃의 정확성을 향상시킨다.
본원 발명의 하나의 실시예에서, 도 5의 방식으로 공간 언어 모델을 트레이닝하여 얻을 수 있는데, 도 5는 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이다.
도 5에 도시된 바와 같이, 상기 공간 언어 모델은 아래와 같은 단계를 통해 트레이닝하여 얻을 수 있다.
단계201에서, 샘플 문서에서의 복수의 샘플 문자 및 복수의 샘플 문자의 샘플 문자 정보를 획득한다.
본 실시예에서, 샘플 문서는 word문서, 텍스트 문서, 웹 페이지 등일 수 있다. 샘플 문서에는 텍스트, 이미지, 도표에서의 적어도 한가지 유형이 포함된다.
본 실시예에서, 랜덤 생성 양식과 텍스트 충진 형식을 통해 대용량의 샘플 문서를 획득할 수도 있고, 레이아웃 형식을 제어하는 것을 통해 대량의 레이아웃 양식을 생성할 수도 있으며, 또 텍스트 방향, 페이지 여백, 단락 간격, 줄 간격, 단어 간격 등을 통해 여러 가지 충진 효과를 획득할 수도 있으며, 대용량 텍스트를 충진하여 대량의 비 지도 트레이닝 데이터를 획득할 수도 있다.
단계202에서, 복수의 샘플 문자 및 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성한다.
본 실시예에서, 단계201 내지 단계202에서 복수의 샘플 문자와 샘플 문자 정보를 획득하는데, 이는 상기 단계101 내지 단계102에서 타깃 문서에서의 문자와 문자의 문자 정보를 획득하는 것과 유사하므로 여기서 더 이상 설명하지 않는다.
단계203에서, 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프를 공간 언어 모델에 입력하여 예측함으로써 차폐된 위치의 예측 문자를 생성한다.
본 실시예에서는, 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자를 차폐할 수 있는 바, 예를 들어 일부 문자를 미지의 문자로 대체하거나 또는 기타 문자 등으로 수정할 수 있다. 그리고, 차폐된 후의 샘플 문자 전체 연결 그래프를 공간 언어 모델에 입력하여 예측하며, 공간 언어 모델은 샘플 문자 전체 연결 그래프에서 차폐되지 않은 문자에 근거하여 차폐된 위치를 예측한 예측 문자를 출력한다.
도 6은 본원 발명의 실시예에서 제공하는 한가지 문자를 차폐하는 모식도이다. 도 6에서, 문자 전체 연결 그래프에서의 문자C4를 미지의 「UNK」문자로 수정하고, Cb는 변하지 않고 보류하며, Cy를 Cw의 임의의 문자로 수정한다.
단계204에서, 차폐 위치의 샘플 문자와 예측 문자에 근거하여 공간 언어 모델을 트레이닝 한다.
본 실시예에서, 차폐 위치의 샘플 문자와 예측 문자에 근거하여 손실 값을 계산하되, 만약 손실 값이 기설정된 제1 손실 임계값보다 크면 공간 언어 모델의 파라미터를 조절한다. 그리고, 그 다음의 샘플 문서에서 일부 샘플 문자를 차폐한 후의 샘플 문자 전체 연결 그래프를 조절한 후의 공간 언어 모델에 입력한다. 그리고, 차폐 위치의 샘플 문자와 예측 문자에 근거하여 손실 값을 계산하고 손실 값이 제1 손실 값보다 큰지 여부를 판정하되, 만약 크면 모델 파라미터를 계속하여 조절하고 계속하여 트레이닝하며, 손실 값이 제1 손실 임계값보다 작아지면 트레이닝을 완료한다.
이로써, 일부 문자를 차폐하더라도 트레이닝하여 얻은 공간 언어 모델을 통해 주변의 문자에 대해 처리함으로써 차폐된 문자를 예측할 수 있다.
본원 발명의 실시예에서, 샘플 문서와 대응하는 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자를 차폐하고, 차폐된 후의 샘플 문자 전체 연결 그래프를 공간 언어 모델에 입력하여 예측함으로써 차폐된 위치의 예측 문자를 생성하며, 차폐 위치의 샘플 문자와 예측 문자에 근거하여 공간 언어 모델을 트레이닝 한다. 이로써, 일부 샘플 문자를 차폐한 후의 샘플 문자 전체 연결 그래프를 트레이닝하여 트레이닝된 공간 언어 모델로 하여금 어느 위치 주변의 문자를 통해 상기 위치의 문자를 예측하도록 할 수 있다.
레이아웃 분석의 정확성을 향상시키기 위하여 본원 발명의 하나의 실시예에서, 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성할 경우, 또 에지 유형 인식 모델을 이용하여 각 문자 연결 에지의 유형을 획득할 수 있다.
구체적으로, 복수의 문자의 공간 시맨틱 특징과 문자 정보를 미리 트레이닝 한 에지 유형 인식 모델에 입력하되, 상기 에지 유형 인식 모델은 공간 시맨틱 특징과 추출된 문자 정보의 특징에 기반하여 각 문자 연결 에지를 바이너리하여 미리 정의한 몇 가지 연결 에지 유형인지를 출력하며, 출력 결과에 근거하여 연결 에지의 유형을 결정할 수 있다.
예를 들어, 선후 순서, 셀 시작과 끝, 줄 시작과 끝, 단락 시작과 끝, 블록 시작과 끝, 열 시작과 끝 등 모두 6가지 유형이 있다. 인식할 경우, 이 6가지 유형에서의 매 한가지인지 여부를 분류하여 판정하되, 만약 모두 아니면 기타 유형으로 판정한다.
본원 발명의 실시예에서, 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성할 경우, 복수의 문자의 공간 시맨틱 특징과 문자 정보를 에지 유형 인식 모델에 입력하여 복수의 문자 연결 에지의 에지 유형을 생성한다. 이로써, 에지 유형 인식 모델을 통해 획득한 문자 연결 에지의 에지 유형에 의해, 꼭짓점 유형과 결부하여 문서 레이아웃을 생성함으로써 문서 레이아웃 분석의 정확성을 크게 향상시킨다.
본원 발명의 하나의 실시예에서는, 도 7에 도시된 방식을 이용하여 에지 유형 인식 모델을 트레이닝하여 얻을 수 있는 바, 도 7은 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이다.
도 7에 도시된 바와 같이, 상기 에지 유형 인식 모델은 아래와 같은 단계를 통해 트레이닝하여 얻을 수 있다.
단계301에서, 샘플 문서에서의 복수의 샘플 문자 및 복수의 샘플 문자의 샘플 문자 정보를 획득한다.
단계302에서, 복수의 샘플 문자 및 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성한다.
본 실시예에서, 단계301-단계302와 상기 단계201-단계202는 유사하므로 여기서 더 이상 설명하지 않는다.
단계303에서, 각 샘플 문자의 샘플 공간 시맨틱 특징을 획득한다.
본 실시예에서는, 샘플 문자를 공간 언어 모델에 입력하여 각 샘플 문자의 샘플 공간 시맨틱 특징을 획득할 수 있다.
단계304에서, 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자 연결 에지를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프 및 샘플 공간 시맨틱 특징을 에지 유형 인식 모델에 입력하여 예측함으로써 차폐된 위치의 예측 에지 유형을 생성한다.
본 실시예에서, 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자 연결 에지를 차폐할 수 있는 바, 예를 들어 일부 샘플 문자 연결 에지를 미지의 에지 등으로 대체할 수 있다. 그리고, 차폐된 후의 샘플 문자 전체 연결 그래프와 샘플 문자의 샘플 공간 시맨틱 특징을 에지 유형 인식 모델에 입력하여 예측하고, 에지 유형 인식 모델은 샘플 문자 전체 연결 그래프에서 차폐되지 않은 샘플 문자 연결 에지에 근거하여 예측한 예측 연결 에지를 출력한다.
도 8은 본원 발명의 실시예에서 제공하는 한가지 연결 에지를 차폐하는 모식도이다. 도 8에서는, 문자 전체 연결 그래프에서 일부 연결 에지를 수정하는 바, 도 8에서 굵은 점선으로 도시한 바와 같이, C1로부터 Ca, C1로부터 C4, C1로부터 Cx의 에지는 미지의 「UNK」 에지로 수정된다.
단계305에서, 차폐 위치의 샘플 문자 연결 에지 유형과 예측 에지 유형에 근거하여 에지 유형 인식 모델을 트레이닝 한다.
본 실시예에서, 차폐 위치의 샘플 문자 연결 에지 유형과 예측 에지 유형에 근거하여 손실 값을 계산하되, 만약 손실 값이 기설정된 제2 임계값이면 에지 유형 인식 모델의 파라미터를 조절한다. 그리고, 그 다음의 샘플 문서에서의 일부 샘플 문자를 차폐한 후의 샘플 문자 전체 연결 그래프를 조절한 후의 에지 유형 인식 모델에 입력한다. 그 후, 차폐 위치의 샘플 문자 연결 에지 유형과 예측 에지 유형에 근거하여 손실 값을 계산하고 손실 값이 제2 손실 값보다 큰지 여부를 판정하되, 만약 크면 모델 파라미터를 계속하여 조절하고 계속하여 트레이닝하며, 손실 값이 제2 손실 임계값보다 작아지면 트레이닝을 완료한다.
본원 발명의 실시예에서, 샘플 문서와 대응되는 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자 연결 에지를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프 및 샘플 공간 시맨틱 특징을 에지 유형 인식 모델에 입력하여 예측함으로써 차폐된 위치의 예측 에지 유형을 생성한다. 이로써, 일부 샘플 문자 연결 에지를 차폐한 후의 샘플 문자 전체 연결 그래프를 트레이닝 함으로써 트레이닝하여 얻은 에지 유형 인식 모델이 차폐된 샘플 문자 연결 에지의 에지 유형을 예측할 수 있도록 한다.
레이아웃 분석의 정확성을 향상시키기 위하여 본원 발명의 하나의 실시예에서는, 타깃 문서에서의 복수의 문자를 획득할 경우, 문자 검출 모델을 이용하여 복수의 문자를 검출할 수도 있다.
구체적으로, 이미지 시각 정보를 충분히 이용하기 위하여 타깃 문서의 그림을 미리 트레이닝하여 얻은 문자 검출 모델에 입력하고, 문자 검출 모델이 타깃 문서에서의 복수의 문자를 출력한다.
본원 발명의 실시예에서, 타깃 문서에서의 복수의 문자를 획득할 경우, 타깃 문서를 문자 검출 모델에 입력하여 타깃 문서에서의 복수의 문자를 획득한다. 이로써, 문자 검출 모델을 통해 얻은 복수의 문자를 이용하여, 복수의 문자의 문서 레이아웃을 생성함으로써 문서 레이아웃 분석의 정확성을 크게 향상시킨다.
본원 발명의 하나의 실시예에서, 도 9에 도시된 방법을 이용하여 문자 검출 모델을 트레이닝하여 얻을 수 있다. 도 9는 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이다.
도 9에 도시된 바와 같이, 상기 문자 검출 모델은 아래와 같은 단계를 통해 트레이닝하여 얻을 수 있다.
단계401에서, 샘플 문서에서의 복수의 샘플 문자 및 복수의 샘플 문자의 샘플 문자 정보를 획득한다.
단계402에서, 복수의 샘플 문자 및 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성한다.
본 실시예에서, 단계401-단계402와 상기 단계201-단계202는 유사하므로 여기서 더 이상 설명하지 않는다.
단계403에서, 샘플 문자 전체 연결 그래프에서의 복수의 문자 꼭짓점에서의 일부 문자 꼭짓점에 무작위 섭동을 추가한다.
본 실시예에서, 샘플 문자 연결 그래프에서 일부 문자 꼭짓점을 선택할 수 있는데 일부 문자 꼭짓점에 문자의 크기를 변화시키거나 문자의 위치를 조절하는 등과 같은 무작위 섭동을 추가할 수 있다.
도 10은 본원 발명의 실시예에서 제공하는 한가지 무작위 섭동을 추가하는 모식도이다. 도 10에서, 문자 전체 연결 그래프에서의 일부 문자에 무작위 섭동을 추가하는 바, 구체적으로 문자 C1, C2, …, Ca의 위치를 조절하고 C3, C4, …, Cb의 크기를 조절하며 문자 Cx와 Cy의 위치 및 크기를 모두 조절하며 문자 Cz 및 기타 문자를 변화시키지 않는다.
단계404에서, 무작위 섭동을 추가한 후의 샘플 문자 전체 연결 그래프를 문자 검출 모델에 입력하여 문자 예측을 진행함으로써 예측 문자를 생성한다.
본 실시예에서, 무작위 섭동을 추가한 샘플 문자 전체 연결 그래프를 미리 트레이닝 한 문자 검출 모델에 입력하고, 문자 검출 모델은 예측 문자를 생성하는 바, 구체적으로는 예측 문자의 위치와 크기를 포함한다.
단계405에서, 예측 문자와 샘플 문서에서의 샘플 문자에 근거하여 문자 검출 모델을 트레이닝 한다.
본 실시예에서, 각 예측 문자와 샘플 문서 사이의 상응한 위치의 샘플 문자에 근거하여 각 샘플 문자의 손실 값을 계산하고, 모든 샘플 문자의 평균 손실 값을 계산한다. 만약 평균 손실 값이 기설정된 제3 손실 임계값보다 크면 문자 검출 모델의 파라미터를 조절한다. 그리고, 그 다음의 샘플 문서에서 무작위 섭동을 추가한 후의 샘플 문자 전체 연결 그래프를 조절한 후의 문자 검출 모델에 입력한다. 그 후, 예측 문자와 샘플 문서에서의 샘플 문자에 근거하여 평균 손실 값을 계산하고, 평균 손실 값이 제3 손실 값보다 큰지 여부를 판정하되, 만약 크면 모델 파라미터를 계속하여 조절하고 계속하여 트레이닝하며, 손실 값이 제3 손실 임계값보다 작아지면 트레이닝을 완료한다.
본원 발명의 실시예에서, 무작위 섭동을 추가한 후의 샘플 문서의 샘플 문자 전체 연결 그래프를 문자 검출 모델에 입력하여 문자 예측을 진행함으로써 예측 문자를 생성하고, 예측 문자와 샘플 문서에서의 샘플 문자에 근거하여 문자 검출 모델을 트레이닝 한다. 이로써, 무작위 섭동을 추가한 후의 샘플 문자 전체 연결 그래프를 트레이닝 함으로써 트레이닝하여 얻은 에지 문자 검출 모델이 각 문자의 정확한 위치를 예측하도록 할 수 있다.
본원 발명의 하나의 실시예에서, 문서 레이아웃 분석을 진행할 경우, 상기 세 가지 모델을 이용할 수 있는데, 아래에서는 도 11과 결부하여 설명하되, 도 11은 본원 발명의 실시예에서 제공하는 다른 문서 레이아웃의 분석 방법의 흐름 모식도이다.
도 11에 도시된 바와 같이, 상기 문서 레이아웃의 분석 방법은 아래와 같은 단계를 포함한다.
단계501에서, 타깃 문서를 문자 검출 모델에 입력하여 타깃 문서에서의 복수의 문자를 획득하고 복수의 문자의 문자 정보를 획득한다.
본 실시예에서, 미리 트레이닝 한 문자 검출 모델을 이용하여 타깃 문서의 이미지를 검출하고 타깃 문서에서의 복수의 문자를 획득하며 복수의 문자의 문자 정보, 예를 들어 위치, 크기 등을 획득할 수 있다.
단계502에서, 복수의 문자 및 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성한다.
본 실시예에서, 단계502와 상기 단계102가 유사하므로 여기서 더 이상 설명하지 않는다.
단계503에서, 복수의 문자를 공간 언어 모델에 입력하여 각 문자의 공간 시맨틱 특징을 형성한다.
본 실시예에서, 복수의 문자를 공간 언어 모델에 입력하고 공간 언어 모델을 통해 각 문자의 공간 시맨틱 특징을 획득한다.
단계504에서, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성한다.
본 실시예에서, 단계504와 상기 단계104가 유사하므로 여기서 더 이상 설명하지 않는다.
단계505에서, 복수의 문자의 공간 시맨틱 특징과 문자 정보를 에지 유형 인식 모델에 입력하여 복수의 문자 연결 에지의 에지 유형을 생성한다.
구체적으로, 복수의 문자의 공간 시맨틱 특징과 문자 정보를 미리 트레이닝하여 얻은 에지 유형 인식 모델에 입력하되, 상기 에지 유형 인식 모델은 공간 시맨틱 특징 및 추출된 문자 정보의 특징에 기반하여 각 문자 연결 에지의 에지 유형을 출력한다.
단계506에서, 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다.
본 실시예에서, 단계506과 상기 단계106은 유사하므로 여기서 더 이상 설명하지 않는다.
본원 발명의 실시예에서, 문자 검출 모델을 이용하여 타깃 문서에서의 복수의 문자를 획득하고, 공간 언어 모델을 이용하여 각 문자의 공간 시맨틱 특징을 획득하며, 에지 유형 인식 모델을 이용하여 각 문자 연결 에지의 에지 유형을 획득하고, 모델에 의해 획득한 복수의 문자, 복수의 문자의 공간 시맨틱 특징 및 에지 유형에 기반하여 문서 레이아웃을 획득함으로써 문서 레이아웃 분석의 정확성을 크게 향상시킨다.
상기 실시예를 실현하기 위하여, 본원 발명의 실시예는 문서 레이아웃의 분석 장치를 더 제공한다. 도 12는 본원 발명의 실시예에서 제공하는 한가지 문서 레이아웃의 분석 장치의 구조 모식도이다.
도 12에 도시된 바와 같이, 상기 문서 레이아웃의 분석 장치(600)는 제1 획득 모듈(610), 제1 생성 모듈(620), 제2 획득 모듈(630), 제2 생성 모듈(640), 제3 생성 모듈(650), 제4 생성 모듈(660)을 포함한다.
제1 획득 모듈(610)은, 타깃 문서에서의 복수의 문자 및 복수의 문자의 문자 정보를 획득한다.
제1 생성 모듈(620)은, 복수의 문자 및 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하되, 여기서, 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함한다.
제2 획득 모듈(630)은, 각 문자의 공간 시맨틱 특징을 획득한다.
제2 생성 모듈(640)은, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성한다.
제3 생성 모듈(650)은, 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성한다.
제4 생성 모듈(660)은, 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다.
본원 발명의 실시예의 한가지 가능한 실현방식에서, 제2 획득 모듈(630)은,
복수의 문자를 공간 언어 모델에 입력하여 각 문자의 공간 시맨틱 특징을 형성한다.
본원 발명의 실시예의 한가지 가능한 실현방식에서, 공간 언어 모델은,
샘플 문서에서의 복수의 샘플 문자 및 복수의 샘플 문자의 샘플 문자 정보를 획득하는 제3 획득 모듈;
복수의 샘플 문자 및 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 제5 생성 모듈;
샘플 문자 전체 연결 그래프에서의 일부 샘플 문자를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프를 공간 언어 모델에 입력하여 예측함으로써 차폐된 위치의 예측 문자를 생성하는 제6 생성 모듈; 및
차폐 위치의 샘플 문자와 예측 문자에 근거하여 공간 언어 모델을 트레이닝하는 제1 트레이닝 모듈; 을 통해 트레이닝하여 획득한다.
본원 발명의 실시예의 한가지 가능한 실현방식에서, 제3 생성 모듈(650)은, 복수의 문자의 공간 시맨틱 특징과 문자 정보를 에지 유형 인식 모델에 입력하여 복수의 문자 연결 에지의 에지 유형을 생성한다.
본원 발명의 실시예의 한가지 가능한 실현방식에서, 에지 유형 인식 모델은,
샘플 문서에서의 복수의 샘플 문자 및 복수의 샘플 문자의 샘플 문자 정보를 획득하는 제3 획득 모듈;
복수의 샘플 문자 및 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 제5 생성 모듈;
각 샘플 문자의 샘플 공간 시맨틱 특징을 획득하는 제4 획득 모듈;
샘플 문자 전체 연결 그래프에서의 일부 샘플 문자 연결 에지를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프 및 샘플 공간 시맨틱 특징을 에지 유형 인식 모델에 입력하여 예측함으로써 차폐된 위치의 예측 에지 유형을 생성하는 제7 생성 모듈; 및
차폐 위치의 샘플 문자 연결 에지 유형과 예측 에지 유형에 근거하여 에지 유형 인식 모델을 트레이닝하는 제2 트레이닝 모듈; 을 통해 트레이닝하여 획득한다.
본원 발명의 실시예의 한가지 가능한 실현방식에서, 제1 획득 모듈(610)은, 타깃 문서를 문자 검출 모델에 입력하여 타깃 문서에서의 복수의 문자를 획득한다.
본원 발명의 실시예의 한가지 가능한 실현방식에서, 문자 검출 모델은,
샘플 문서에서의 복수의 샘플 문자 및 복수의 샘플 문자의 샘플 문자 정보를 획득하는 제3 획득 모듈;
복수의 샘플 문자 및 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 제5 생성 모듈;
샘플 문자 전체 연결 그래프에서의 복수의 문자 꼭짓점에서의 일부 문자 꼭짓점에 무작위 섭동을 추가하는 추가 모듈;
무작위 섭동을 추가한 후의 샘플 문자 전체 연결 그래프를 문자 검출 모델에 입력하여 문자 예측을 진행함으로써 예측 문자를 생성하는 제8 생성 모듈; 및
예측 문자와 샘플 문서에서의 샘플 문자에 근거하여 문자 검출 모델을 트레이닝하는 제3 트레이닝 모듈; 을 통해 트레이닝하여 획득한다.
설명해야 할 것은, 상술한 문서 레이아웃의 분석 방법 실시예의 해석 설명은 상기 실시예의 문서 레이아웃의 분석 장치에도 적용될 수 있으므로 여기서 더 이상 설명하지 않는다.
본원 발명의 실시예에 따른 문서 레이아웃의 분석 장치는, 획득한 타깃 문서의 복수의 문자와 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하고, 복수의 문자의 문자 정보에 근거하여 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하며, 획득한 공간 시맨틱 특징과 문자 정보에 근거하여 복수의 문자 연결 에지의 에지 유형을 생성하고 꼭짓점 유형과 에지 유형에 근거하여 타깃 문서의 문서 레이아웃을 생성한다. 이로써, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
본원 발명의 실시예에 따르면, 본원 발명은 전자기기 및 판독 가능 저장 매체를 더 제공한다.
도 13에 도시된 바와 같이, 이는 본원 발명의 실시예에 따른 문서 레이아웃의 분석 방법의 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등의 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 구성 요소, 그들의 연결 및 관계 및 그 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 구현을 한정하도록 의도되지 않는다.
도 13에 도시된 바와 같이, 상기 전자기기는 하나 이상의 프로세서(701), 메모리(702) 및 고속 인터페이스 및 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 다양한 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위해 메모리에 저장된 명령을 포함하여 전자기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시 방식에서, 필요한 경우, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자기기를 연결할 수 있고, 각 장치는 단지 몇가지 필요한 기능(예를 들어, 서버 배열, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 13은 프로세서(701)가 하나인 경우를 예를 들어 설명한다.
메모리(702)는 본원 발명에 의해 제공된 비 일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 적어도 하나의 프로세서에 의해 본원 발명의 문서 레이아웃의 분석 방법을 수행하도록, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본원 발명의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터로 하여금 본원 발명의 문서 레이아웃의 분석 방법을 실행하게 하는 컴퓨터 명령이 저장된다.
메모리(702)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램, 본원 발명의 실시예의 문서 레이아웃의 분석 방법에 대응하는 프로그램 명령/모듈과 같은 모듈(예를 들어, 도 12에 도시된 제1 획득 모듈(610), 제1 생성 모듈(620), 제2 획득 모듈(630), 제2 생성 모듈(640), 제3 생성 모듈(650), 제4 생성 모듈(660))을 저장하기 위해 사용될 수 있다. 프로세서(701)는 메모리(702)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여 서버의 다양한 기능적 애플리케이션 및 데이터 처리를 실행한다. 다시 말하면, 상기 방법 실시예의 문서 레이아웃의 분석 방법을 구현한다.
메모리(702)는 프로그램을 저장하기 위한 영역 및 데이터를 저장하기 위한 영역을 포함할 수 있고, 여기서 프로그램을 저장하기 위한 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고; 데이터를 저장하기 위한 영역에는 모델의 파라미터를 업데이트하는 전자기기를 사용하여 생성된 데이터가 저장될 수 있다. 또한, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 자기 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비 일시적 솔리드 스테이트 저장 장치와 같은 적어도 하나의 비 일시적 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(702)는 프로세서(701)에 대해 원격으로 설정된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 모델의 파라미터가 업데이트된 전자기기에 연결될 수 있다. 상기 네트워크의 사례는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지는 않는다.
문서 레이아웃의 분석 방법의 전자기기는 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스를 통해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 13은 버스를 통한 연결을 예시한 것이다.
입력 장치(703)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 모델의 파라미터를 업데이트하는 전자기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙 볼, 조이스틱 및 기타 입력 장치일 수 있다. 출력 장치(704)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지는 않는다. 일부 실시 방식에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 임의의 실시예의 문서 레이아웃의 분석 방법이 수행된다.
본 명세서에 설명된 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로, 집적 회로 시스템, 전용 ASIC(애플리케이션 특정 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 이러한 다양한 실시 방식은 하나 이상의 컴퓨터 프로그램에 의해 실시될 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 시스템에 의해 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그램 가능 프로세서의 기계 명령이 포함되고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리 언어/기계어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”는 프로그램 가능 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 지칭한다.
사용자와의 인터랙티브를 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있다. 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 포함하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 인터랙티브를 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백) 일 수 있고, 임의의 형태(음성 입력, 스피치 입력 또는 촉각 입력 포함)로 사용자에 의해 발송된 정보를 수신할 수 있다.
본 명세서에 설명된 시스템 및 기술은 백 엔드 구성 요소(예를 들어, 데이터 서버)를 포함하는 컴퓨팅 시스템 또는 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하는 컴퓨팅 시스템 또는 프론트 엔드 구성 요소(예를 들어, 예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙티브 할 수 있음)를 포함하는 컴퓨팅 시스템 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 포함될 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙티브 한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다.
본원 발명의 실시예의 기술적 해결수단에 따르면, 문자 정보, 시맨틱 정보와 공간 위치 정보에 따라 문서 레이아웃을 분석하여 문서 레이아웃을 생성함으로써 정보를 충분히 이용하여 전체적인 최적해를 검색하여 문서 레이아웃 분석의 정확성을 향상시킨다.
본 명세서의 설명에서, 용어 "제1", "제2"는 단지 설명의 목적으로만 사용되고 상대적 중요성을 나타내거나 암시하거나 또는 나타내는 기술 특징의 개수를 은연중 나타내는 것으로 이해되어서는 아니된다. 이로써, "제1", "제2"로 한정되는 특징은 적어도 하나의 상기 특징을 명시적 또는 은연중 포함할 수 있다. 본원 발명의 설명에서, 달리 정의되지 않는 한, "복수"는 2개, 3개와 같이 적어도 2개를 의미한다.
비록 이상에서 본원 발명의 실시예를 도시하고 설명하였으나 상기 실시예는 예시적인 것일 뿐 본원 발명에 대한 한정으로 이해되지 말아야 하며, 본 기술분야에서 통상의 지식을 가진 자들은 본원 발명의 범위 내에서 상기 실시예를 변화, 수정, 대체 및 변형시킬 수 있다는 것을 이해할 수 있다.

Claims (17)

  1. 타깃 문서에서의 복수의 문자 및 상기 복수의 문자의 문자 정보를 획득하는 단계;
    상기 복수의 문자 및 상기 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하되, 상기 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 상기 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함하는 단계;
    각 상기 문자의 공간 시맨틱 특징을 획득하는 단계;
    상기 복수의 문자의 문자 정보에 근거하여 상기 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하는 단계;
    상기 공간 시맨틱 특징과 상기 문자 정보에 근거하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는 단계; 및
    상기 꼭짓점 유형과 상기 에지 유형에 근거하여 상기 타깃 문서의 문서 레이아웃을 생성하는 단계; 를 포함하는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  2. 제1항에 있어서,
    각 문자의 공간 시맨틱 특징을 획득하는 단계는,
    상기 복수의 문자를 공간 언어 모델에 입력하여 상기 각 문자의 공간 시맨틱 특징을 형성하는 단계를 포함하는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  3. 제2항에 있어서,
    상기 공간 언어 모델은,
    샘플 문서에서의 복수의 샘플 문자 및 상기 복수의 샘플 문자의 샘플 문자 정보를 획득하는 단계;
    상기 복수의 샘플 문자 및 상기 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 단계;
    상기 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프를 상기 공간 언어 모델에 입력하여 예측함으로써 차폐된 위치의 예측 문자를 생성하는 단계; 및
    상기 차폐 위치의 샘플 문자와 상기 예측 문자에 근거하여 상기 공간 언어 모델을 트레이닝하는 단계; 를 통해 트레이닝하여 얻어지는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  4. 제1항에 있어서,
    상기 공간 시맨틱 특징과 상기 문자 정보에 근거하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는 단계는,
    상기 복수의 문자의 공간 시맨틱 특징과 문자 정보를 에지 유형 인식 모델에 입력하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는 단계를 포함하는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  5. 제4항에 있어서,
    상기 에지 유형 인식 모델은,
    샘플 문서에서의 복수의 샘플 문자 및 상기 복수의 샘플 문자의 샘플 문자 정보를 획득하는 단계;
    상기 복수의 샘플 문자 및 상기 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 단계;
    각 상기 샘플 문자의 샘플 공간 시맨틱 특징을 획득하는 단계;
    상기 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자 연결 에지를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프 및 상기 샘플 공간 시맨틱 특징을 상기 에지 유형 인식 모델에 입력하여 예측함으로써 차폐된 위치의 예측 에지 유형을 생성하는 단계; 및
    상기 차폐 위치의 샘플 문자 연결 에지 유형과 상기 예측 에지 유형에 근거하여 상기 에지 유형 인식 모델을 트레이닝하는 단계; 를 통해 트레이닝하여 얻어지는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  6. 제1항에 있어서,
    타깃 문서에서의 복수의 문자를 획득하는 단계는,
    상기 타깃 문서를 문자 검출 모델에 입력하여 상기 타깃 문서에서의 상기 복수의 문자를 획득하는 단계를 포함하는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  7. 제6항에 있어서,
    상기 문자 검출 모델은,
    샘플 문서에서의 복수의 샘플 문자 및 상기 복수의 샘플 문자의 샘플 문자 정보를 획득하는 단계;
    상기 복수의 샘플 문자 및 상기 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 단계;
    상기 샘플 문자 전체 연결 그래프에서의 복수의 문자 꼭짓점에서의 일부 문자 꼭짓점에 무작위 섭동을 추가하는 단계;
    무작위 섭동을 추가한 후의 상기 샘플 문자 전체 연결 그래프를 상기 문자 검출 모델에 입력하여 문자 예측을 진행함으로써 예측 문자를 생성하는 단계; 및
    상기 예측 문자와 상기 샘플 문서에서의 샘플 문자에 근거하여 상기 문자 검출 모델을 트레이닝하는 단계; 를 통해 트레이닝하여 얻어지는,
    것을 특징으로 하는 문서 레이아웃의 분석 방법.
  8. 타깃 문서에서의 복수의 문자 및 상기 복수의 문자의 문자 정보를 획득하는 제1 획득 모듈;
    상기 복수의 문자 및 상기 복수의 문자의 문자 정보에 근거하여 문자 전체 연결 그래프를 생성하되, 상기 문자 전체 연결 그래프는 복수의 문자 꼭짓점 및 상기 복수의 문자 꼭짓점 사이의 복수의 문자 연결 에지를 포함하는 제1 생성 모듈;
    각 상기 문자의 공간 시맨틱 특징을 획득하는 제2 획득 모듈;
    상기 복수의 문자의 문자 정보에 근거하여 상기 복수의 문자 꼭짓점의 꼭짓점 유형을 생성하는 제2 생성 모듈;
    상기 공간 시맨틱 특징과 상기 문자 정보에 근거하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는 제3 생성 모듈; 및
    상기 꼭짓점 유형과 상기 에지 유형에 근거하여 상기 타깃 문서의 문서 레이아웃을 생성하는 제4 생성 모듈; 을 포함하는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  9. 제8항에 있어서,
    상기 제2 획득 모듈은,
    상기 복수의 문자를 공간 언어 모델에 입력하여 상기 각 문자의 공간 시맨틱 특징을 형성하는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  10. 제9항에 있어서,
    상기 공간 언어 모델은,
    샘플 문서에서의 복수의 샘플 문자 및 상기 복수의 샘플 문자의 샘플 문자 정보를 획득하는 제3 획득 모듈;
    상기 복수의 샘플 문자 및 상기 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 제5 생성 모듈;
    상기 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프를 상기 공간 언어 모델에 입력하여 예측함으로써 차폐된 위치의 예측 문자를 생성하는 제6 생성 모듈; 및
    상기 차폐 위치의 샘플 문자와 상기 예측 문자에 근거하여 상기 공간 언어 모델을 트레이닝하는 제1 트레이닝 모듈; 을 통해 트레이닝하여 얻어지는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  11. 제8항에 있어서,
    상기 제3 생성 모듈은, 상기 복수의 문자의 공간 시맨틱 특징과 문자 정보를 에지 유형 인식 모델에 입력하여 상기 복수의 문자 연결 에지의 에지 유형을 생성하는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  12. 제11항에 있어서,
    상기 에지 유형 인식 모델은,
    샘플 문서에서의 복수의 샘플 문자 및 상기 복수의 샘플 문자의 샘플 문자 정보를 획득하는 제3 획득 모듈;
    상기 복수의 샘플 문자 및 상기 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 제5 생성 모듈;
    각 상기 샘플 문자의 샘플 공간 시맨틱 특징을 획득하는 제4 획득 모듈;
    상기 샘플 문자 전체 연결 그래프에서의 일부 샘플 문자 연결 에지를 차폐하고 차폐된 후의 샘플 문자 전체 연결 그래프 및 상기 샘플 공간 시맨틱 특징을 상기 에지 유형 인식 모델에 입력하여 예측함으로써 차폐된 위치의 예측 에지 유형을 생성하는 제7 생성 모듈; 및
    상기 차폐 위치의 샘플 문자 연결 에지 유형과 상기 예측 에지 유형에 근거하여 상기 에지 유형 인식 모델을 트레이닝하는 제2 트레이닝 모듈; 을 통해 트레이닝하여 얻어지는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  13. 제8항에 있어서,
    상기 제1 획득 모듈은, 상기 타깃 문서를 문자 검출 모델에 입력하여 상기 타깃 문서에서의 상기 복수의 문자를 획득하는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  14. 제13항에 있어서,
    상기 문자 검출 모델은,
    샘플 문서에서의 복수의 샘플 문자 및 상기 복수의 샘플 문자의 샘플 문자 정보를 획득하는 제3 획득 모듈;
    상기 복수의 샘플 문자 및 상기 샘플 문자 정보에 근거하여 샘플 문자 전체 연결 그래프를 생성하는 제5 생성 모듈;
    상기 샘플 문자 전체 연결 그래프에서의 복수의 문자 꼭짓점에서의 일부 문자 꼭짓점에 무작위 섭동을 추가하는 추가 모듈;
    무작위 섭동을 추가한 후의 상기 샘플 문자 전체 연결 그래프를 상기 문자 검출 모델에 입력하여 문자 예측을 진행함으로써 예측 문자를 생성하는 제8 생성 모듈; 및
    상기 예측 문자와 상기 샘플 문서에서의 샘플 문자에 근거하여 상기 문자 검출 모델을 트레이닝하는 제3 트레이닝 모듈; 을 통해 트레이닝하여 얻어지는,
    것을 특징으로 하는 문서 레이아웃의 분석 장치.
  15. 전자기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결하는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항의 문서 레이아웃의 분석 방법을 수행하는,
    것을 특징으로 하는 전자기기.
  16. 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항의 문서 레이아웃의 분석 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체.
  17. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항의 문서 레이아웃의 분석 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210062980A 2020-06-01 2021-05-14 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체 KR20210065076A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010484261.0 2020-06-01
CN202010484261.0A CN111832396B (zh) 2020-06-01 2020-06-01 文档布局的解析方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20210065076A true KR20210065076A (ko) 2021-06-03

Family

ID=72897498

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210062980A KR20210065076A (ko) 2020-06-01 2021-05-14 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체

Country Status (5)

Country Link
US (1) US11462039B2 (ko)
EP (1) EP3920076A1 (ko)
JP (1) JP7203897B2 (ko)
KR (1) KR20210065076A (ko)
CN (1) CN111832396B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836268A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 文档理解方法及装置、电子设备和介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611499A (zh) * 2020-12-09 2022-06-10 阿里巴巴集团控股有限公司 信息抽取模型训练方法、信息抽取方法、装置和电子设备
CN112579727B (zh) * 2020-12-16 2022-03-22 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
CN113657088A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 接口文档解析方法、装置、电子设备以及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330608B2 (en) * 2004-12-22 2008-02-12 Ricoh Co., Ltd. Semantic document smartnails
WO2007080642A1 (ja) 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
JP4940973B2 (ja) * 2007-02-02 2012-05-30 富士通株式会社 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
US7876958B2 (en) 2007-06-25 2011-01-25 Palo Alto Research Center Incorporated System and method for decomposing a digital image
CN109800761B (zh) * 2019-01-25 2022-11-11 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
US11113518B2 (en) * 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836268A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 文档理解方法及装置、电子设备和介质

Also Published As

Publication number Publication date
US11462039B2 (en) 2022-10-04
JP2021131900A (ja) 2021-09-09
EP3920076A1 (en) 2021-12-08
US20210374397A1 (en) 2021-12-02
CN111832396A (zh) 2020-10-27
CN111832396B (zh) 2023-07-25
JP7203897B2 (ja) 2023-01-13

Similar Documents

Publication Publication Date Title
US11854246B2 (en) Method, apparatus, device and storage medium for recognizing bill image
US11341366B2 (en) Cross-modality processing method and apparatus, and computer storage medium
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
US11636699B2 (en) Method and apparatus for recognizing table, device, medium
KR102532396B1 (ko) 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
KR20210065076A (ko) 문서 레이아웃의 분석 방법, 장치, 전자기기 및 저장매체
US11823660B2 (en) Method, apparatus and device for training network and storage medium
US11275904B2 (en) Method and apparatus for translating polysemy, and medium
US11756332B2 (en) Image recognition method, apparatus, device, and computer storage medium
US11669690B2 (en) Method and apparatus for processing sematic description of text entity, and storage medium
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
US20210312230A1 (en) Information Extraction Method, Extraction Model Training Method, Apparatus and Electronic Device
CN111832403A (zh) 文档结构识别方法、文档结构识别的模型训练方法和装置
CN111832382A (zh) 基于视觉和文本内容的光学字符识别错误校正
US11216615B2 (en) Method, device and storage medium for predicting punctuation in text
US11544927B2 (en) Video type detection method and apparatus based on key frame, and storage medium
JP2023039888A (ja) モデルトレーニング及び字庫作成の方法、装置、機器、及び記憶媒体
US11468236B2 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
US20220392242A1 (en) Method for training text positioning model and method for text positioning
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
US11562150B2 (en) Language generation method and apparatus, electronic device and storage medium
US20210224476A1 (en) Method and apparatus for describing image, electronic device and storage medium
CN111832258B (zh) 文档的分割方法、装置及电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right