KR102604306B1 - 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR102604306B1
KR102604306B1 KR1020210038686A KR20210038686A KR102604306B1 KR 102604306 B1 KR102604306 B1 KR 102604306B1 KR 1020210038686 A KR1020210038686 A KR 1020210038686A KR 20210038686 A KR20210038686 A KR 20210038686A KR 102604306 B1 KR102604306 B1 KR 102604306B1
Authority
KR
South Korea
Prior art keywords
image
features
processed
information
node
Prior art date
Application number
KR1020210038686A
Other languages
English (en)
Other versions
KR20210040878A (ko
Inventor
후앙시앙카이
리치아오이
리유린
후앙주
친두오하오
친시아멩
리우밍하오
한준유
구오지앙리앙
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20210040878A publication Critical patent/KR20210040878A/ko
Application granted granted Critical
Publication of KR102604306B1 publication Critical patent/KR102604306B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18162Extraction of features or characteristics of the image related to a structural representation of the pattern
    • G06V30/18181Graphical representation, e.g. directed attributed graph
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 출원의 실시예에는 이미지의 테이블 추출 방법, 장치, 전자 기기, 저장 매체 및 테이블 추출 모델의 훈련 방법이 개시되며, 인공지능과 클라우드 컴퓨팅 기술 분야에 관한 것이며, 처리될 이미지를 획득하는 단계, 테이블 추출 모델을 기초로, 처리될 이미지의 테이블을 생성하되, 여기서, 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 단계, 처리될 이미지의 텍스트 정보를 테이블에 기입하는 단계를 포함하고, 한편으로, 필드위치 특징을 통해, 위치 상에서의 각 필드의 관련 관계를 확정할 수 있고, 적어도 부분 점선 박스 테이블인 이미지에 적용할 수 있으며, 테이블 인식의 유연성과 광범성을 향상시킬 수 있는 기술 효과를 구현하고; 다른 한편으로, 필드위치 특징, 이미지 특징 및 텍스트 특징을 충분히 고려하여, 즉, 처리될 이미지를 다양한 차원에서 분석함으로써, 다양한 차원의 특징을 획득하여, 테이블 인식의 정확성과 신뢰성을 향상시키는 기술효과를 구현한다.

Description

이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체{IMAGE TABLE EXTRACTION METHOD, APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 출원의 실시예는 이미지 처리 기술 분야에 관한 것으로, 특히 인공지능 기술분야에 관한 것이며, 구체적으로 이미지의 테이블 추출 방법, 장치, 전자 기기, 저장 매체 및 테이블 추출 모델의 훈련 방법에 관한 것이다.
종래기술 중에서, 이미지 중의 테이블 추출 시 주로 사용하는 방법은, 테이블 박스를 추출하고, 테이블 박스를 기초로 박스 내 영역을 추출하고, 박스 내의 영역 이미지에 대하여 광학 폰트 인식(Optical Character Recognition, OCR)을 수행함으로서, 테이블을 추출한다.
하지만 발명자는 본 출원을 구현하는 과정에 적어도 아래와 같은 문제를 발견하였다. 즉, 라인 박스가 없는 테이블이거나, 라인이 불완전한 박스를 구비한 테이블인 경우, 만약 테이블 박스를 추출하는 방식으로 테이블을 생성하면 정확성이 낮아지는 문제점이 존재한다.
JP2020-046860A에는 기입된 테이블로부터 필요한 정보를 추출할 수 있는 테이블 판독 기기가 공개되어 있다. 문서 “the shah Rukh Qasim extrinsic 2 people, the Rethinking Table Recognition using Graph Neural Networks”에는 그래프 신경망을 이용하여 테이블을 인식하는 재사고가 공개되어 있다. JP2017-219882A에는 논리 관계 식별 장치, 논리 관계 식별 방법 및 논리 관계 식별 프로그램이 공개되어 있다.
정확성이 낮은 문제를 해결하기 위한 이미지의 테이블 추출 방법, 장치, 전자 기기, 저장 매체 및 테이블 추출 모델의 훈련 방법을 제공한다.
제1 측면에 따르면, 이미지의 테이블 추출 방법을 제공하며, 상기 방법은,
처리될 이미지를 획득하는 단계;
테이블 추출 모델을 기초로, 상기 처리될 이미지의 테이블을 생성하되, 여기서, 상기 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 단계;
상기 처리될 이미지의 텍스트 정보를 상기 테이블에 기입하는 단계를 포함한다.
본 출원의 실시예에서, 한편으로는, 필드위치 특징을 통해, 위치 상에서의 각 필드의 관련 관계를 확정할 수 있기에, 적어도 부분 점선 박스 테이블인 이미지에 적용할 수 있으며, 이로부터 테이블 인식의 유연성과 광범성을 향상시킬 수 있는 기술 효과를 구현하고; 다른 한편으로는, 필드위치 특징, 이미지 특징 및 텍스트 특징을 충분히 고려하여, 즉, 처리될 이미지를 다양한 차원에서 분석함으로써, 다양한 차원의 특징을 획득하여, 테이블 인식의 정확성과 신뢰성을 향상시키는 기술효과를 구현한다.
제2 측면에 따르면, 본 출원의 실시예는 이미지의 테이블 추출 장치를 제공하며, 상기 장치는,
처리될 이미지를 획득하기 위한 획득 모듈;
테이블 추출 모델을 기초로, 상기 처리될 이미지의 테이블을 생성하되, 여기서, 상기 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 제1 생성 모듈;
상기 처리될 이미지의 텍스트 정보를 상기 테이블에 기입하기 위한 기입 모듈을 포함한다.
제3 측면에 따르면, 본 출원의 실시예에는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고, 여기서,
상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상기 어느 한 실시예에 따른 방법을 수행할 수 있도록 하는 전자 기기를 제공한다.
제4 측면에 있어서, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하며, 상기 컴퓨터 명령은 상기 컴퓨터가 상기 어느 한 실시예에 따른 방법을 수행하도록 하기 위한 것이다.
제5 측면에 있어서, 본 출원의 실시예에는 테이블 추출 모듈의 훈련 방법을 제공하며, 상기 방법은,
획득된 샘플 이미지에 대하여 인식하여 이미지 인식 정보를 획득하되, 상기 샘플 이미지에는 테이블이 포함되는 단계;
상기 이미지 인식 정보를 기초로 필드위치 특징, 이미지 특징 및 텍스트 특징을 생성하는 단계;
상기 필드위치 특징, 상기 이미지 특징, 상기 텍스트 특징 및 기설정 예측 트루값을 기초로 테이블 추출 모델을 생성하는 단계를 포함한다.
제6 측면에 있어서, 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 상기 어느 한 실시예에 따른 테이블 추출 방법을 수행하도록 한다.
본 출원에 따른 처리될 이미지를 획득하고, 테이블 추출 모델을 기초로, 처리될 이미지의 테이블을 생성하되, 여기서, 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것이며, 처리될 이미지의 텍스트 정보를 테이블에 기입하는 기술은, 관련 기술 중 테이블 추출의 유연성이 약하고 정확성이 높지 않는 문제를 해결하고, 한편으로는, 필드위치 특징을 통해, 위치 상에서의 각 필드의 관련 관계를 확정할 수 있기에, 적어도 부분 점선 박스 테이블인 이미지에 적용할 수 있으며, 이로부터 테이블 인식의 유연성과 광범성을 향상시킬 수 있는 기술 효과를 구현하고; 다른 한편으로는, 필드위치 특징, 이미지 특징 및 텍스트 특징을 충분히 고려하여, 즉, 처리될 이미지를 다양한 차원에서 분석함으로써, 다양한 차원의 특징을 획득하여, 테이블 인식의 정확성과 신뢰성을 향상시키는 기술효과를 구현한다.
이해해야 할 바로는, 본 부분에서 설명한 내용은 본 개시된 실시에의 관건 또는 중요 특징을 표시하고자 하는 것이 아니며, 본 개시의 범위를 한정하고자 하는 것도 아니다. 본 개시의 기타 특징은 아래의 명세서에 의해 더욱 쉽게 이해될 것이다.
첨부 도면은 본 방안을 더욱 잘 이해하기 위한 것이며, 본 출원에 대하여 한정하지 않는다. 여기서,
도 1은 본 출원의 실시예의 이미지의 테이블 추출 방법의 응용 시나리오 도면이다.
도 2는 본 출원의 일 실시예의 이미지의 테이블 추출 방법의 흐름도이다.
도 3은 본 출원의 다른 실시예의 이미지의 테이블 추출 방법의 흐름도이다.
도 4는 본 출원의 다른 실시예의 이미지의 테이블 추출 방법의 흐름도이다.
도 5는 본 출원의 실시예의 샘플 이미지의 도면이다.
도 6은 본 출원의 실시예의 두개의 확률 매트릭스의 도면이다.
도 7은 본 출원의 일 실시예의 이미지의 테이블 추출 장치의 도면이다.
도 8은 본 출원의 다른 실시예의 이미지의 테이블 추출 장치의 도면이다.
도 9는 본 출원의 실시예에 따른 전자 기기의 블럭도이다.
도 10은 본 출원의 실시예의 테이블 추출 모델의 훈련 방법의 흐름도이다.
아래 첨부 도면과 결합하여 본 출원의 실시예의 예시적인 실시예에 대하여 설명하며, 이해를 돕기 위하여 이중에는 본 출원의 실시예의 각 세부 사항을 포함하며, 이들을 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진 자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 실시예의 범위와 정신을 벗어나지 않음을 이해할 것이다. 마찬가지로, 명확성과 간결성을 위하여, 아래 설명에는 공지 기능과 구조에 대한 설명을 생략한다.
본 출원의 실시예의 이미지의 테이블 추출 방법은 단말기에 의해 이미지 타입의 테이블을 저장 타입의 테이블로 전환하는 시나리오에 적용할 수 있다. 여기서, 저장 타입의 테이블은 편집 가능한 형태의 테이블을 표시하기 위한 것이다.
단말기는 무선 단말일 수 있고 유선 단말일 수도 있다. 무선 단말은 사용자에게 음성 및/또는 기타 서비스 데이터 연결성을 제공하는 기기를 가리키며, 무선 연결 기능을 구비한 핸드헬드형 기기 또는 무선 모뎀에 연결된 기타 처리 기기일 수 있다. 무선 단말은 무선 접속망(Radio Access Network, RAN이라고 약칭)을 통해 한 개 혹은 여러 개의 코어망과 통신할 수 있고, 무선 단말은 모바일 폰(또는 '셀'폰이라 부름)과 같은 모바일 단말과, 휴대형, 포켓형, 핸드헬드형, 컴퓨터 내장형 혹은 자동차에 내장된 이동 장치와 같은 모바일 단말을 구비한 컴퓨터일 수도 있으며, 그들은 무선 접속망과 음성 및/또는 데이터를 교환한다. 또 예를 들면, 무선 단말은 개인 통신 서비스(Personal Communication Service, PCS로 약칭) 전화, 무선 전화, 세션 개시 프로토콜(Session Initiation Protocol, SIP) 전화, 무선 로컬 루프(Wireless Local Loop, WLL) 스테이션, 개인 휴대 단말(Personal Digital Assistant, PDA로 약칭) 등 기기일 수도 있다. 무선 단말은 시스템, 사용자 유닛(Subscriber Unit), 사용자 스테이션(Subscriber Station), 이동 스테이션(Mobile Station), 모바일(Mobile), 원격 스테이션(Remote Station), 원격 단말(Remote Terminal), 접속 단말(Access Terminal), 사용자 단말(User Terminal), 사용자 에이전트(User Agent), 사용자 기기(User Device or User Equipment)라도고 지칭할 수도 있으며, 여기서는 한정하지 않는다. 선택적으로, 상기 단말기는 스마트 워치, 테블릿 PC 등 기기일 수도 있다.
독자가 본 출원의 실시예의 이미지의 테이블 추출 방법의 응용 시나리오를 더욱 명확히 이해할수 있도록 하기 위하여, 단말기가 데스크탑 컴퓨터인 것을 예로 들어 본 출원의 실시예의 이미지의 테이블 추출 방법의 응용 시나리오에 대하여 상세하게 설명한다.
도 1을 참조하면, 도 1은 본 출원의 실시예의 이미지의 테이블 추출 방법의 응용 시나리오 도면이다.
도 1에 도시된 바와 같이, 이미지는 도 1에 도시된 점선 박스 테이블을 포함하는 이미지(100)일 수 있으며, 도 1에 도시된 실선 박스 테이블을 포함하는 이미지(200)일 수도 있다.
데스크탑 컴퓨터(300)는 본 출원의 실시예의 이미지의 테이블 추출 방법을 실행하여, 이미지(점선 박스 테이블을 포함하는 이미지(100)와 실선 박스 테이블을 포함하는 이미지(200)) 중의 테이블을 추출하여, 저장 타입의 테이블을 획득하고, 사용자는 저장 타입의 테이블을 편집하는 등 조작을 수행할 수 있다.
여기서, 도 1에는 예시적으로 두가지 유형의 테이블의 이미지를 도시하고 있으며, 이중에서 한가지는 점선 박스 테이블을 포함하는 이미지이고, 다른 하나는 실선 박스 테이블을 포함하는 이미지이며, 물론, 본 출원의 실시예의 이미지의 테이블 추출 방법은 부분 점선 박스 테이블을 포함하는 이미지 등에도 사용될 수 있다.
설명해야 할 바로는, 상술한 예시는 단지 본 출원의 실시예의 이미지의 테이블 추출 방법이 적용 가능한 시나리오를 예시적으로 설명하기 위한 것이며, 본 출원의 실시예의 이미지의 테이블 추출 방법의 응용 시나리오에 대한 한정으로 이해해서는 안된다.
관련 기술에서는, 일반적으로 변 검출과 라인 검출 등 이미지 형태학적 처리 수단을 사용하여 테이블 박스 라인을 추출함으로써 저장 타입의 테이블을 획득한다.
하지만, 관련 기술 중에서 테이블 박스 라인을 추출하여 저장 타입의 테이블을 획득하는 것은, 실선 테이블의 이미지만을 대상으로 할 수 있기에 적용성이 낮고 유연성이 약한 문제가 있다.
상술한 문제를 해결하기 위하여, 본 출원의 발명자는 창조적인 노력 끝에, 본 출원의 실시예의 발명 구상, 즉, 이미지의 각 필드의 위치 특징을 결합 고려하여, 각 필드의 위치 특징을 기초로 테이블 추출 모델을 생성하고, 해당 테이블 추출 모델을 통해 이미지 중의 테이블을 추출하는 것을 생각해 내었다.
아래에는 구체적인 실시예로 본 출원의 기술 방안 및 본 출원의 기술방안이 어떻게 상술한 기술 문제를 해결하는지에 대하여 상세하게 설명한다. 아래의 몇개 구체적인 실시예는 서로 결합 가능하며, 일부 실시예에서는 동일하거나 유사한 개념 또는 과정을 생략한다. 아래 첨부 도면과 결합하여 본 출원의 실시예에 대하여 설명한다.
본 출원의 실시예의 한 측면에 따르면, 본 출원의 실시예에는 이미지의 테이블 추출 방법을 제공한다.
도 2를 참조하면, 도 2는 본 출원의 일 실시예의 이미지의 테이블 추출 방법의 흐름도이다.
도 2에 도시된 바와 같이, 해당 방법은 아래의 단계를 포함한다.
S101: 처리될 이미지를 획득한다.
여기서, 본 출원의 실시예의 이미지의 테이블 추출 방법의 실행 주체는 이미지의 테이블 추출 장치일 수 있고, 이미지의 테이블 추출 장치는 서버 (로컬 서버와 클라우드 서버를 포함), 단말기, 프로세서와 칩 등일 수 있다.
예를 들면, 본 출원의 실시예의 이미지의 테이블 추출 방법이 도 1에 도시된 바와 같은 응용 시나리오에 적용 시, 이미지의 테이블 추출 장치는 단말기일 수 있으며, 단말기는 구체적으로 도 1에 도시된 바와 같은 데스크탑 컴퓨터일 수 있다.
또 예를 들면, 본 출원의 실시예의 이미지의 테이블 추출 방법이 도 1에 도시된 바와 같은 응용 시나리오에 적용 시, 이미지의 테이블 추출 장치는 단말기일 수 있으며, 단말기는 구체적으로 도 1에 도시된 바와 같은 데스크탑 컴퓨터에 설치된 프로세서일 수 있으며, 또는 도 1에 도시된 바와 같은 데스크탑 컴퓨터에 설치된 칩일 수 있다.
또 예를 들면, 본 출원의 실시예의 이미지의 테이블 추출 방법이 도 1에 도시된 바와 같은 응용 시나리오에 적용 시, 이미지의 테이블 추출 장치는 도 1에 도시된 바와 같은 데스크탑 컴퓨터에 연결된 서버일 수 있다(도면에는 미도시).
설명해야 할 바로는, 상술한 예시는 단지 본 출원의 실시예의 이미지의 테이블 추출 방법의 실행 주체를 예시적으로 설명하기 위한 것이며, 실행 주체에 대한 한정으로 이해해서는 안된다.
여기서, 처리될 이미지는 이미지 타입의 테이블을 포함하는 이미지를 나타내기 위한 것이고, 이미지 타입의 테이블을 저장 타입의 테이블로 전환해야 하는 이미지이다.
본 출원의 실시예에서, 처리될 이미지를 획득하는 방식에 대해서는 한정하지 않는다.
일부 실시예에서는, 이미지의 테이블 추출 장치가 대상이 입력한 처리될 이미지를 수신하는 것일 수 있다.
예를 들면, 대상은 사용자 단말(핸드폰 등)일 수 있으며, 이미지의 테이블 추출 장치는 사용자 단말과 통신 연결을 구축하여, 사용자가 사용자 단말을 통해 처리될 이미지를 이미지의 테이블 추출 장치에 전송할 수 있다.
다른 일부 실시예에서는, 이미지의 테이블 추출 장치가 처리될 이미지를 수집하는 것일 수 있다.
예를 들면, 이미지의 테이블 추출 장치에는 이미지 수집 장치가 설치될 수 있으며, 해당 이미지 수집 장치로 처리될 이미지를 수집할 수 있다. 여기서, 이미지 수집 장치는 카메라 등일 수 있다.
S102: 테이블 추출 모델을 기초로, 처리될 이미지의 테이블을 생성하되, 여기서, 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것이다.
여기서, 테이블 추출 모델은 샘플 이미지를 훈련하여 생성되는, 이미지 중의 테이블을 추출하기 위한 뉴럴 네트워크 모델을 나타내기 위한 것일 수 있으며, 구체적으로 샘플 이미지의 3개의 특징을 기초로 훈련하여 생성될 수 있으며, 3개 특징은 각각 필드위치 특징, 이미지 특징 및 텍스트 특징이다.
여기서, 필드위치 특징은 샘플 이미지의 각 필드의 위치를 기초로 생성된 특징을 나타내기 위한 것일 수 있고; 이미지 특징은 샘플 이미지의 이미지 검출 박스를 기초로 생성된 특징을 나타내기 위한 것일 수 있으며; 텍스트 특징은 샘플 이미지의 텍스트 정보를 기초로 생성된 특징을 나타내기 위한 것일 수 있다.
본 출원의 실시예에는, 필드위치 특징을 도입하였으며, 필드위치 특징을 통해, 위치 상에서의 각 필드의 관련 관계를 확정할 수 있고, 예를 들어 A필드는 B필드의 좌측에 위치하고, 여기서, 좌측은 테이블에 대응되는 좌표계를 기초로 할 수 있으며, 필드위치 특징을 기초로 이미지 특징과 텍스트 특징을 결합하며, 각 필드의 위치, 이미지 특징 및 텍스트 특징을 충분히 고려하기에, 테이블 인식의 정확성을 향상시킬 수 있고, 적어도 부분 점선 박스 테이블을 포함하는 이미지에 적용할 수 있으며, 인식의 유연성과 광범성을 향상하는 기술효과가 있다.
S103: 처리될 이미지의 텍스트 정보를 테이블에 기입한다.
여기서, 본 출원의 실시예는 텍스트 정보를 테이블에 기입하는 방식에 대해 한정하지 않는다.
예를 들면, OCR 인식 방식을 통해 이미지 중의 텍스트 정보를 인식하고, 인식하여 얻은 텍스트 정보를 테이블에 복사할 수 있다.
상술한 분석으로부터 알 수 있는 바와 같이, 본 출원의 실시예에는 이미지의 테이블 추출 방법을 제공하며, 해당 방법은, 처리될 이미지를 획득하는 단계, 테이블 추출 모델을 기초로, 처리될 이미지의 테이블을 생성하되, 여기서, 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 단계, 처리될 이미지의 텍스트 정보를 테이블에 기입하는 단계를 포함하며, 한편으로는, 필드위치 특징을 통해, 위치 상에서의 각 필드의 관련 관계를 확정할 수 있기에, 적어도 부분 점선 박스 테이블인 이미지에 적용할 수 있으며, 이로부터 테이블 인식의 유연성과 광범성을 향상시킬 수 있는 기술 효과를 구현하고; 다른 한편으로는, 필드위치 특징, 이미지 특징 및 텍스트 특징을 충분히 고려하여, 즉, 처리될 이미지를 다양한 차원에서 분석함으로써, 다양한 차원의 특징을 획득하여, 테이블 인식의 정확성과 신뢰성을 향상시키는 기술효과를 구현한다.
독자가 테이블 추출 모델을 기초로, 처리될 이미지의 테이블을 생성하는 방법을 더욱 명확히 이해할 수 있도록 하기 위하여 도 3을 결합하여 본 출원의 실시예의 이미지의 테이블 추출 방법을 상세하게 설명한다. 여기서, 도 3은 본 출원의 다른 실시예의 이미지의 테이블 추출 방법의 흐름도이다.
도 3에 도시된 바와 같이, 해당 방법은 아래의 단계를 포함한다.
S201: 처리될 이미지를 획득한다.
여기서, S201에 대한 설명은 S101을 참조할 수 있으며, 여기서는 중복 설명하지 않는다.
S202: 테이블 추출 모델을 기초로, 처리될 이미지의 인접 매트릭스를 생성한다.
여기서, 처리될 이미지의 인접 매트릭스는 처리될 이미지의 필드로 구성된 행과 열 사이의 확률 매트릭스를 나타내기 위한 것이다.
다시 말하면, 해당 단계에서, 처리될 이미지의 필드 사이에 존재할 수 있는 위치 관계를 확정할 수 있으며, 예를 들면 동일 행에 위치할 수 있는 필드, 동일 열에 위치할 수 있는 필드 등이다.
S203: 처리될 이미지의 인접 매트릭스와 처리될 이미지의 필드를 기초로, 테이블을 확정한다.
여기서, 처리될 이미지의 인접 매트릭스를 획득 시, 처리될 이미지의 필드 사이에 존재할 수 있는 위치 관계, 예를 들면 상기 설명한 동일 행 또는 동일 열을 획득한 것과 같으며, 처리될 이미지의 필드 사이에 존재할 수 있는 위치 관계을 알고 있을 때, 해당 위치 관계와 처리될 이미지의 필드를 기초로 처리될 이미지 중의 테이블을 확정할 수 있다.
본 출원의 실시예는, 처리될 이미지의 인접 매트릭스를 확정하여, 테이블의 실선에 대한 의존을 피함으로써, 테이블이 적어도 부분 점선 박스 테이블인 경우에도 인접 매트릭스를 기초로 테이블을 생성할 수 있으며, 이로부터 적어도 부분 점선 박스 테이블에 대한 추출을 구현하며, 테이블 추출의 유연성과 광범성을 향상하는 기술효과를 달성한다.
일부 실시예에서, S203은 아래 단계를 포함한다.
S2031: 처리될 이미지의 필드 중 임의의 필드를 시점으로 하여, 처리될 이미지의 인접 매트릭스 중에서 최대 연결 그래프를 추출한다.
다시 말하면, 해당 단계에서, 시점은 처리될 이미지의 임의의 필드일 수 있으며, 임의의 필드를 기초로 최대 연결 그래프를 확정할 수 있다.
S2032: 최대 연결 그래프를 기초로 테이블을 구축한다.
본 출원의 실시예는, 최대 연결 그래프를 기초로 테이블을 구축하여, 테이블의 완전성과 전면성을 향상시키는 기술 효과를 달성할 수 있다.
S204: 처리될 이미지의 텍스트 정보를 테이블에 기입한다.
여기서, S204에 대한 설명은 S103을 참조할 수 있으며, 여기서는 중복 설명하지 않는다.
독자가 테이블 추출 모델을 생성하는 방법을 더욱 명확히 이해할수 있도록 하기 위하여, 도 4를 결합하여 본 출원의 실시예의 이미지의 테이블 추출 방법을 상세하게 설명한다. 여기서, 도 4는 본 출원의 다른 실시예의 이미지의 테이블 추출 방법의 흐름도이다.
도 4에 도시된 바와 같이, 해당 방법은 아래의 단계를 포함한다.
S301: 샘플 이미지를 인식하여, 이미지 인식 정보를 획득한다.
여기서, 샘플 이미지의 수량은 수요, 경험과 실험을 기초로 설정할 수 있다.
다시 말하면, 본 출원의 실시예는 샘플 이미지의 수량에 대하여 한정하지 않으며, 샘플 이미지에는 테이블이 포함된다.
예를 들면, 테이블 추출 모델에 대한 정밀도 요구가 상대적으로 높은 수요에 대하여, 상대적으로 많은 수량의 샘플 이미지를 선택할 수 있고, 테이블 추출 모델에 대한 정밀도 요구가 상대적으로 낮은 수요에 대하여, 상대적으로 적은 수량의 샘플 이미지를 선택할 수 있다.
설명해야 할 바로는, 본 출원의 실시예는, 샘플 이미지를 인식하는 방식에 대하여 한정하지 않는다. 예를 들면, 일부 실시예에서는, OCR 인식 방법을 사용하여 샘플 이미지를 인식할 수 있다.
여기서, 이미지 인식 정보는 샘플 이미지를 인식하여 얻은 샘플 이미지의 필드와 관련된 정보, 그리고 샘플 이미지의 텍스트와 관련된 정보 등과 같은 샘플 이미지의 속성 정보를 나타내는데 사용될 수 있다.
S302: 이미지 인식 정보를 기초로, 필드위치 특징, 이미지 특징 및 텍스트 특징을 생성한다.
일부 실시예에서, 이미지 인식 정보를 기초로, 필드위치 특징을 생성하는 단계는 아래의 단계를 포함할 수 있다.
S3021: 이미지 인식 정보를 기초로 샘플 이미지의 각 필드의 위치 정보를 확정한다.
여기서, 샘플 이미지의 각 필드는 샘플 이미지 중의 노드로 간주할 수 있으며, 즉, 샘플 이미지는 각 노드(즉, 각 필드)로 구성된 샘플 이미지로 이해할 수 있다.
상술한 예시로부터 알 수 있는 바와 같이, 이미지 인식 정보는 샘플 이미지의 필드의 관련 정보를 나타내는데 사용될 수 있고, 따라서, 해당 단계에서, 이미지 인식 정보를 기초로 샘플 이미지의 각 필드의 위치 정보를 확정할 수 있다.
예를 들면, 샘플 이미지가 , 즉, 샘플 이미지의 폭이 w, 높이가 h, 채널 수가 3인 칼라 이미지일 때, OCR 인식 방법을 사용하여 샘플 이미지를 인식한 후 샘플 이미지의 k개 필드의 위치 정보 를 획득할 수 있으며, 위치 정보는 (x_top_left, y_top_right, x_left_bottom, y_right_bottom)의 방식, 즉, 필드의 좌측 최상부의 위치 정보, 필드의 우측 최상부의 위치 정보 , 필드의 좌측 바닥부의 위치 정보, 및 필드의 우측 바닥부의 위치 정보로 나타낼 수 있다.
S3022: 기설정 노드맵을 기초로 위치 정보를 기입 처리하여 필드위치 특징을 생성한다.
여기서, 노드맵은 복수의 노드로 구성된 맵이며, 노드맵의 크기는 수요, 경험과 실험으로 설정될 수 있다. 그리고 일반적으로, 샘플 이미지 중의 각 노드(즉, 샘플 이미지 중의 각 필드)와 같은 샘플 이미지의 전부 특징을 유지하기 위하여, 노드맵의 크기는 샘플 이미지의 크기보다 약간 크다.
상술한 예시로부터, 샘플 이미지의 각 필드는 각 노드로 이해할 수 있으며, 샘플 이미지는 총 k개의 노드로 구성된 샘플도와 같다.
예를 들면, 노드맵 중의 노드의 수량이 v이면, 기입의 방식으로 에 대하여 기입하여 를 얻을 수 있다. 그리고 일부 실시예에서는, 구체적으로 0 기입(Zero-padding) 방식으로 기입할 수 있다.
본 출원의 실시예는, 이미지 인식 정보를 통해 각 필드의 위치 정보를 확정하고, 확정된 위치 정보의 정확성을 구현할 수 있으며, 각 필드의 위치 정보를 기입 처리하여 각 필드가 유지되도록 확보함으로써 이미지 인식 정보의 신뢰성을 높이고, 이로부터 필드위치 특징의 정확성이 보다 높도록 하며, 나아가 추후에 생성되는 테이블 추출 모델의 안정성과 정확성을 향상시키는 기술 효과를 달성한다.
일부 실시예에서, 이미지 인식 정보를 기초로, 이미지 특징을 생성하는 단게는 아래의 단계를 포함할 수 있다.
기설정된 컨벌루션 뉴럴 네트워크 모델을 기초로, 이미지 인식 정보로부터 이미지 특징을 추출한다.
상술한 예시로부터, 샘플 이미지에 대하여, 컨벌루션 뉴럴 네트워크 모델(CNN네트워크 모델)을 통해 이미지 특징 추출을 수행하여, 크기가 M*N*C인 특징맵을 획득하고, 특징맵과 샘플 이미지의 크기의 대응관계에 따라, W*H 크기의 검출 박스를 특징맵과 동일한 크기M*N에 매핑시키고, 검출 박스의 중심점 위치를 기초로, 특징맵 상에서 대응점의 채널(channel) 급 1*C의 V*C 차원 이미지 특징을 추출한다.
본 출원의 실시예에서는, 컨벌루션 뉴럴 네트워크 모델을 통해 이미지 특징을 추출하고, 크기의 대응 관계를 충분히 고려하고, 또한 중심점 위치를 기초로 이미지 특징을 추출하기에, 획득된 이미지 특징의 신뢰성과 정확성을 향상시킬 수 있는 기술효과를 달성한다.
일부 실시예에서, 이미지 인식 정보를 기초로, 텍스트 특징을 생성하는 단계는 아래 단계를 포함할 수 있다.
기설정된 장단기 기억 뉴럴 네트워크 모델과 양방향 순환 뉴럴 네트워크 모델을 기초로 이미지 인식 정보로부터 텍스트 특징을 추출한다.
상술한 예시로부터 알 수 있는 바와 같이, 각 필드는 샘플 이미지 중의 각 노드로 이해할 수 있으며, 따라서, 본 출원의 실시예도 기입의 방식을 사용하여 이미지 인식 정보 중의 텍스트 정보를 기입하고, 기입 후의 텍스트 정보로부터 텍스트 특징을 추출할 수 있다.
구체적으로, 상술한 예시로부터 알 수 있는 바와 같이, 샘플 이미지 에 대하여 인식하여 텍스트 정보 를 얻을 수 있으며, 여기서, l은 텍스트 정보 중에서 문자와 대응되는 최대 길이를 나타내는데 사용될 수 있으며, 에 대하여 기입 처리하여 를 획득하고, 장단기 기억 뉴럴 네트워크 모델과 기설정 양방향 순환 뉴럴 네트워크 모델을 통해, V*H 차원의 텍스트 특징 를 획득한다.
본 출원의 실시예에서는, 장단기 기억 뉴럴 네트워크 모델과 기설정 양방향 순환 뉴럴 네트워크 모델을 통해, 텍스트 특징의 효율과 정확성을 향상시키는 기술효과를 달성할 수 있다. 그리고 텍스트 특징이 기입 처리에 의해 얻어진 텍스트 특징일 때, 텍스트 특징의 완전성과 전면성을 향상시킬 수 있는 기술 효과를 달성할 수도 있으며, 나아가 이후에 정확성이 높은 테이블 추출 모델을 생성하는 기술효과를 달성한다.
S303: 필드위치 특징, 이미지 특징, 텍스트 특징 및 기설정된 예측 트루값을 기초로, 테이블 추출 모델을 생성한다.
본 출원의 실시예는, 필드위치 특징, 이미지 특징 및 텍스트 특징 이 3개 차원의 특징을 결합하여, 생성된 테이블 추출 모델의 신뢰성과 고정밀도를 향상시키는 기술 효과를 달성할 수 있고, 필드위치 특징을 도입하여, 적어도 부분 점선 박스 테이블에 대한 추출을 구현하고, 이로부터 테이블 추출의 유연성과 다양성과 같은 기술 효과를 달성할 수 있다.
일부 실시예에서, S303은 아래의 단계를 포함할 수 있다.
S3031: 필드위치 특징, 이미지 특징 및 텍스트 특징에 대하여 융합 처리하여, 필드위치 특징에 대응되는 각 노드의 정보를 생성한다.
상술한 예시로부터, 각 필드는 노드맵 중의 각 노드일 수 있음을 알 수 있으며, 이로부터 해당 단계에서, 필드위치 특징, 이미지 특징 및 텍스트 특징 이 3개 차원의 특징을 융합시켜, 각 노드의 정보를 획득하는 것에 해당되며, 즉, 각 노드의 정보가 3개 차원의 정보를 포함하여, V*(C+H+4) 차원의 특징 매트릭스를 사용하여 표시할 수 있다.
S3032: 각 노드의 정보와 예측 트루값을 기초로, 테이블 추출 모델을 생성한다.
본 출원의 실시예는, 필드위치 특징, 이미지 특징 및 텍스트 특징 이 3개 차원의 특징을 융합하여, 각 노드의 정보를 획득하고, 각 노드의 정보를 기초로 테이블 추출 모델을 생성하기에, 테이블 추출 모델은 3개 차원의 정보를 포함하는 것에 해당하며, 이로부터, 테이블 추출 모델의 정확성과 신뢰성을 향상시킬 수 있는 기술 효과를 달성한다.
일부 실시예에서, S3032는 아래의 단계를 포함할 수 있다.
S30321: 각 노드의 정보를 기초로 인접 매트릭스를 생성한다.
여기서, 상술한 예시로부터, 인접 매트릭스는 각 노드로 구성된 행과 열 사이의 확률 매트릭스를 나타내기 위한 것이다는 것을 알 수 있다.
일부 실시예에서, S30321는 아래의 단계를 포함할 수 있다.
S303211: 각 노드의 정보에 대하여 상호 관련 처리를 수행한다.
여기서, 상호 관련 처리는 특징 벡터의 방식으로 각 노드 사이를 관련시켜 V*S 차원의 관련 매트릭스를 획득함을 표시하는데 사용될 수 있으며, 각 노드 중의 임의의 노드는 모두 S차원의 특징 벡터에 의해 로 표시할 수 있다.
다시 말하면, 각 노드의 정보는 각 노드의 특징 벡터로 이해할 수 있으며, 상호 관련 처리 전에, 각 노드의 특징 벡터는 독립적인 것이며(글로벌 특징 벡터로 이해할 수 있다), 상호 관련 처리를 수행한 후에는, 각 노드의 로컬 특징 벡터를 획득할 수 있다. 즉, 상호 관련 처리를 수행한 후, 획득된 각 노드의 정보는 글로벌 특징 벡터와 로컬 특징 벡터를 포함한다.
예를 들면, 임의의 노드에 있어서, 인접 알고리즘(k-NearestNeighbor, kNN)으로, 가장 가까운 거리에 있는 k(k는 20일 수 있다)개의 노드를 검색하고, k개 점의 거리의 오름순으로 배열하여 를 획득하며; 순차적으로 k개의 변의 특징 벡터 즉, 의 로컬 특징 벡터: 를 산출하고; 각 변의 특징 중에 글로벌 특징 벡터를 추가하여, 대응되는 k개의 특징 벡터: 를 획득하고; 위에서 획득된 각 특징 벡터에 대하여, 하나의 공유 네트워크로 업데이트하여(예를 들면 완전 연결층 으로 업데이트), 를 획득하고; 맥스 풀링(max pooling)방식으로 위의 k개의 특징 벡터를 하나의 특징 벡터로 통합하여, 노드 의 새로운 특징 벡터로 한다.
S303212: 상호 관련 처리를 수행한 후의 각 노드의 정보에 대해 페어 방식 샘플링 처리를 수행하여, 각 노드의 변 특징 매트릭스를 생성한다.
설명해야 할 바로는, 테이블 추출 모델은 각 필드 사이의 관련 관계 즉, 각 노드 사이의 관련 관계를 확정하는 것으로 이해할 수 있으며, 각 노드 사이의 관련 관계는 변으로 표시할 수 있다. 이로부터, 해당 단계에서, 페어 방식 샘플링 처리(Pairwise Sampling)를 통해, 각 노드의 변 특징 매트릭스를 생성할 수 있다.
예를 들면, 노드
Figure 112021035090396-pat00022
노드의 변 는, 노드의 1*S 차원 특징 벡터, 노드의 1*S 차원 특징 벡터를 스플라이싱하여 이루어질 수 있으며, , 즉, 이고, 최종적으로 V*V*2S 차원의 변 특징 매트릭스를 획득할 수 있다.
S303213: 기설정된 완전 연결 네트워크 모델을 기초로 변 특징 매트릭스에 대응되는 인접 매트릭스를 생성한다.
상술한 예시로부터, V*V*2S 차원의 변 특징 매트릭스에 대하여, 각종 관계는 모두 3층의 완전 연결 네트워크 모델을 거쳐 특징 학습을 수행하며, 실천 중에서 3층 완전 연결 네트워크 모델의 출력 차원 수는 각각 128, 64, 1이고, 마지막 한 층은 시그모이드(sigmoid) 함수를 사용하여 활성화시킴으로서, V*V*1인 매트릭스를 출력하며, 매트릭스 중의 원소 는 노드i와 노드j 사이의 변 연결 존재 확률값을 나타내는데 사용될 수 있으며, 최종적으로 두개의 확률 매트릭스(즉, 인접 매트릭스)(행 확률 매트릭스), (열 확률 매트릭스)를 획득한다.
예를 들면, 샘플 이미지가 도 5에 도시된 바와 같으면, 획득된 두개의 확률 매트릭스는 도 6을 참조할 수 있다.
본 출원의 실시예는, 각 노드의 정보를 상호 관련 처리하여, 각 노드 사이의 관련 관계의 신뢰성을 향상시킬 수 있기에, 변 특징 매트릭스 생성 시, 생성된 변 특징 매트릭스의 전면성과 정확성을 확보할 수 있으며, 나아가 신뢰성이 높고 정확성이 높은 인접 매트릭스를 생성하는 기술 효과를 달성한다.
S30322: 인접 매트릭스와 예측 트루값을 기초로, 테이블 추출 모델을 생성한다.
여기서, 인접 매트릭스는 테스트 값이고, 예측 트루값은 실제 값이며, 테스트 값(즉, 인접 매트릭스)과 실제 값(즉, 예측 트루값)을 통해 테이블 추출 모델을 생성할 수 있다.
구체적으로, 테스트 값(즉, 인접 매트릭스)과 실제 값(즉, 예측 트루값) 사이의 클로즈 엔트로피 손실을 계산하고, 클로즈 엔트로피 손실에 따라 테이블 추출 모델의 파라미터에 대해 지속적인 최적화를 수행하고, 테스트 값(즉, 인접 매트릭스)과 실제 값(즉, 예측 트루값) 사이의 클로즈 엔트로피 손실이 기설정 임계값보다 작을 때, 파라미터의 최적화를 완료함으로써, 정확도가 상대적으로 높은 테이블 추출 모델을 생성할 수 있다.
본 출원의 실시예는, 각 노드의 정보를 기초로 인접 매트릭스를 생성함으로써, 각 차원의 정보(즉, 상술한 3개 차원의 특징에 대응하는 정보)를 충분히 고려하였기에, 인접 매트릭스의 전면성과 완전성을 향상시키는 기술 효과를 달성할 수 있고, 특히, 반복 기반의 방식으로 테이블 추출 모델의 파라미터에 대해 지속적으로 최적화할 경우, 테이블 추출 모델의 정확성과 신뢰성을 향상시킬 수 있는 기술 효과를 달성한다.
S304: 처리될 이미지를 획득한다.
여기서, S304에 대한 설명은 S101을 참조할 수 있으며, 여기서는 중복 설명하지 않는다.
S305: 테이블 추출 모델을 기초로, 처리될 이미지의 테이블을 생성한다.
여기서, S305에 대한 설명은 S102을 참조할 수 있으며, 또는, S202와 S203을 참조할 수 있으며, 여기서는 중복 설명하지 않는다.
S306: 처리될 이미지의 텍스트 정보를 테이블에 기입한다.
여기서, S306에 대한 설명은 S103의 설명을 참조할 수 있으며, 여기서는 중복 설명하지 않는다.
본 출원의 실시예에 따른 다른 측면에 있어서, 본 출원의 실시예에는, 도 2 내지 도 4 중 어느 한 실시예에 도시된 방법과 같은 상술한 어느 일 실시예에 따른 방법을 실행하기 위한 이미지의 테이블 추출 장치를 제공한다.
도 7을 참조하면, 도 7은 본 출원의 일 실시예의 이미지의 테이블 추출 장치의 도면이다.
도 7에 도시된 바와 같이, 해당 장치는,
처리될 이미지를 획득하기 위한 획득 모듈(11);
테이블 추출 모델을 기초로, 상기 처리될 이미지의 테이블을 생성하되, 여기서, 상기 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 제1 생성 모듈(12);
상기 처리될 이미지의 텍스트 정보를 상기 테이블에 기입하기 위한 기입 모듈(13)을 포함한다.
일부 실시예에서, 상기 제1 생성 모듈(12)은 상기 테이블 추출 모델을 기초로, 상기 처리될 이미지의 인접 매트릭스를 생성하되, 상기 처리될 이미지의 인접 매트릭스는 상기 처리될 이미지의 필드로 이루어지는 행과 열 사이의 확률 매트릭스를 나타내는 것이고, 상기 처리될 이미지의 인접 매트릭스와 상기 처리될 이미지의 필드를 기초로, 상기 테이블을 확정한다.
일부 실시예에서, 상기 제1 생성 모듈(12)은 상기 처리될 이미지의 필드 중의 임의의 필드를 시점으로 상기 처리될 이미지의 인접 매트릭스로부터 최대 연결 그래프를 추출하고, 상기 최대 연결 그래프를 기초로 상기 테이블을 구축한다.
도 8을 결합하면, 일부 실시예에서, 해당 장치는,
상기 샘플 이미지에 대하여 인식하여 이미지 인식 정보를 획득하기 위한 인식 모듈(14);
상기 이미지 인식 정보를 기초로 상기 필드위치 특징, 상기 이미지 특징 및 상기 텍스트 특징을 생성하기 위한 제2 생성 모듈(15);
상기 필드위치 특징, 상기 이미지 특징, 상기 텍스트 특징 및 기설정된 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하기 위한 제3 생성 모듈(16)을 더 포함한다.
일부 실시예에서, 상기 제3 생성 모듈(16)은 상기 필드위치 특징, 상기 이미지 특징 및 상기 텍스트 특징에 대하여 융합 처리하여, 상기 필드위치 특징에 대응되는 각 노드의 정보를 생성하되, 여기서, 상기 각 노드는 상기 샘플 이미지 중의 각 필드를 나타내기 위한 것이고, 상기 각 노드의 정보와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성한다.
일부 실시예에서, 상기 제3 생성 모듈(16)은 상기 각 노드의 정보를 기초로 인접 매트릭스를 생성하되, 상기 인접 매트릭스는 상기 각 노드로 구성된 행과 열 사이의 확률 매트릭스를 나타내는 것이고, 상기 인접 매트릭스와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성한다.
일부 실시예에서, 상기 제3 생성 모듈(16)은 상기 각 노드의 정보에 대해 상호 관련 처리를 수행하고, 상호 관련 처리 후의 각 노드의 정보에 대해 페어 방식 샘플링 처리를 수행하여 상기 각 노드의 변 특징 매트릭스를 생성하고, 기설정된 완전 연결 네트워크 모델을 기초로 상기 변 특징 매트릭스에 대응되는 상기 인접 매트릭스를 생성한다.
일부 실시예에서, 제2 생성 모듈(15)은 상기 이미지 인식 정보를 기초로 상기 샘플 이미지의 각 필드의 위치 정보를 확정하고, 기설정된 노드 맵을 기초로 상기 위치 정보에 대하여 기입 처리를 수행하여 상기 필드위치 특징을 생성한다.
일부 실시예에서, 제2 생성 모듈(15)은 기설정된 컨벌루션 뉴럴 네트워크 모델을 기초로, 상기 이미지 인식 정보로부터 상기 이미지 특징을 추출한다.
일부 실시예에서, 제2 생성 모듈(15)은 기설정된 장단기 기억 뉴럴 네트워크 모델과 기설정된 양방향 순환 뉴럴 네트워크 모델을 기초로 상기 이미지 인식 정보로부터 상기 텍스트 특징을 추출한다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기와 판독 가능 저장 매체를 더 제공한다.
도 9를 참조하면, 도 9는 본 출원의 실시예에 따른 전자 기기의 블럭도이다.
여기서, 전자 기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 나타내기 위한 것이다. 전자기기는 다양한 형태의 이동장치, 예컨대, 개인 디지털 단말기, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 더 나타낼 수 있다. 본문에 설명된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 설명된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.
도 9에 도시된 바와 같이, 해당 전자기기는 하나 또는 복수의 프로세서(101), 메모리(102), 및 각 부재를 연결시키기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각각의 부재는 서로 다른 버스를 통해 서로 연결되며, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있으며, 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하는 명령을 포함할 수 있다. 기타 실시형태에서, 수요에 따라, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자기기를 연결할 수 있으며, 각각의 기기는 부분 필요한 조작을 제공한다(예를 들어, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로서). 도 9는 하나의 프로세서(101)를 예로 든다.
메모리(102)는 바로 본 출원에 따른 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원의 실시예에 따른 이미지의 테이블 추출 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터가 본 출원의 실시예에 따른 이미지의 테이블 추출 방법을 수행하도록 한다.
메모리(102)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예컨대 본 출원의 실시예에 따른 이미지의 테이블 추출 방법에 대응되는 프로그램 명령/모듈을 저장할 수 있다. 프로세서(101)는 메모리(102)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 다양한 기능 응용 및 데이터 처리를 수행한다. 즉, 상술한 방법 실시예 중 이미지의 테이블 추출 방법을 구현한다.
메모리(102)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있다. 데이터 저장 영역은 전자기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 한편, 메모리(102)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예를 들어 적어도 하나의 자기 저장장치, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 저장장치와 같은 비일시적 메모리를 포함할 수 도 있다. 일부 실시예에서, 메모리(102)는 선택적으로 프로세서(101)에 대해 원격으로 설치된 메모리를 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 전자기기에 연결될 수 있다. 상술한 네트워크의 실예로서 인터넷, 인트라넷, 랜, 블록 채인 기반 서비스 네트워크(Block-chain-based Service Network, BSN), 이동 통신망 및 그 조합을 포함하지만 이에 한정되지 않는다.
전자기기는 입력장치(103)와 출력장치(104)를 더 포함할 수 있다. 프로세서(101), 메모리(102), 입력장치(103) 및 출력장치(104)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 9에서는 버스를 통해 연결되는 것을 예시하고 있다.
입력장치(103)는 입력되는 숫자 또는 문자 부호 정보를 수신할 수 있고, 전자기기의 사용자 설정 및 기능 제어에 대한 키 신호 입력을 생성할 수 있다. 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패널, 지시레버, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종레버 등 입력장치를 포함할 수 있다. 출력장치(104)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이 등을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기에서 설명되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신할 수 있으며, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송한다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용, 또는 코드라고도 불리운다)은 프로그래머블 프로세서의 기계적 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계적 언어를 이용하여 이러한 컴퓨터 프로그램을 실행할 수 있다. 예컨대 본문에서 사용되는 용어 "기계 판독 가능 매체"와 “컴퓨터 판독 가능 매체”는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 디바이스(PLD))를 가리키고, 기계 판독 가능 신호인 기계적 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 “기계 판독 가능 신호”는 기계적 명령 및/또는 데이터를 프로그래머블 프로세서로 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 여기에 설명되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향장치를 통해 입력을 컴퓨터로 제공할 수 있다. 기타 종류의 장치는 또한 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.
여기에 설명되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 설명되는 시스템 및 기술의 실시방식과 인터랙션할 수 있다), 또는 이러한 배그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매채의 디지털 데이터 통신(예를 들어, 통신망)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신망의 예시로서, 랜(LAN), 블록 채인 기반 서비스 네트워크(Block-chain-based Service Network, BSN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 통상적으로 통신망을 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.
본 출원의 실시예의 다른 한 측면에 따르면, 본 출원의 실시예에는 테이블 추출 모델의 훈련 방법을 제공한다.
도 10을 참조하면, 도 10은 본 출원의 실시예의 테이블 추출 모델의 훈련 방법의 흐름도이다.
도 10에 도시된 바와 같이, 해당 방법은 아래의 단계를 포함한다.
S1: 획득된 테이블을 포함하는 샘플 이미지에 대하여 인식하여 이미지 인식 정보를 획득한다.
S2: 이미지 인식 정보를 기초로, 필드위치 특징, 이미지 특징 및 텍스트 특징을 생성한다.
S3: 필드위치 특징, 이미지 특징, 텍스트 특징 및 기설정된 예측 트루값을 기초로, 테이블 추출 모델을 생성한다.
본 출원의 일 실시예에는, 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 본 출원의 테이블 추출 방법을 수행하도록 한다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있으며, 본 출원의 기술적 해결수단이 원하는 결과를 얻을 수만 있다면, 본문에서는 여기서 한정하지 않는다.
상술한 구체적인 실시형태는, 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 수요와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 대체를 가할 수 있음을 이해할 수 있을 것이다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체와 개진 등은 모두 본 출원의 보호 범위 내에 속한다.

Claims (24)

  1. 이미지의 테이블 추출 장치에 의해 실행되는 이미지의 테이블 추출 방법에 있어서,
    처리될 이미지를 획득하는 단계;
    테이블 추출 모델을 기초로, 상기 처리될 이미지의 테이블을 생성하되, 여기서, 상기 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 단계;
    상기 처리될 이미지의 텍스트 정보를 상기 테이블에 기입하는 단계를 포함하고,
    상기 방법은,
    상기 샘플 이미지에 대하여 인식하여 이미지 인식 정보를 획득하는 단계;
    상기 이미지 인식 정보를 기초로 상기 필드위치 특징, 상기 이미지 특징 및 상기 텍스트 특징을 생성하는 단계;
    상기 필드위치 특징, 상기 이미지 특징, 상기 텍스트 특징 및 기설정된 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하는 단계를 더 포함하고,
    상기 이미지 인식 정보를 기초로 상기 텍스트 특징을 생성하는 단계는,
    상기 텍스트 정보에 대해 기입 처리하고, 기설정된 장단기 기억 뉴럴 네트워크 모델과 기설정된 양방향 순환 뉴럴 네트워크 모델을 기초로 기입 후의 상기 텍스트 정보로부터 상기 텍스트 특징을 추출하되, 상기 기입 처리는 0 기입을 포함하는 단계를 포함하는 것을 특징으로 하는 이미지의 테이블 추출 방법.
  2. 제1항에 있어서,
    테이블 추출 모델을 기초로, 상기 처리될 이미지의 테이블을 생성하는 상기 단계는,
    상기 테이블 추출 모델을 기초로, 상기 처리될 이미지의 인접 매트릭스를 생성하되, 상기 처리될 이미지의 인접 매트릭스는 상기 처리될 이미지의 필드로 이루어지는 행과 열 사이의 확률 매트릭스를 나타내는 것인 단계;
    상기 처리될 이미지의 인접 매트릭스와 상기 처리될 이미지의 필드를 기초로, 상기 테이블을 확정하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 처리될 이미지의 인접 매트릭스와 상기 처리될 이미지의 필드를 기초로, 상기 테이블을 확정하는 상기 단계는,
    상기 처리될 이미지의 필드 중의 임의의 필드를 시점으로 상기 처리될 이미지의 인접 매트릭스로부터 최대 연결 그래프를 추출하는 단계;
    상기 최대 연결 그래프를 기초로 상기 테이블을 구축하는 단계를 포함하는 것을 특징으로 하는 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 필드위치 특징, 상기 이미지 특징, 상기 텍스트 특징 및 기설정된 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하는 상기 단계는,
    상기 필드위치 특징, 상기 이미지 특징 및 상기 텍스트 특징에 대하여 융합 처리하여, 상기 필드위치 특징에 대응되는 각 노드의 정보를 생성하되, 여기서, 상기 각 노드는 상기 샘플 이미지 중의 각 필드를 나타내기 위한 것인 단계;
    상기 각 노드의 정보와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 각 노드의 정보와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하는 상기 단계는,
    상기 각 노드 정보를 기초로 인접 매트릭스를 생성하되, 상기 매트릭스는 상기 각 노드로 구성된 행과 열 사이의 확률 매트릭스를 나타내는 것인 단계;
    상기 인접 매트릭스와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서,
    상기 각 노드의 정보를 기초로 인접 매트릭스를 생성하는 상기 단계는,
    상기 각 노드의 정보에 대해 상호 관련 처리를 수행하는 단계;
    상호 관련 처리 후의 각 노드의 정보에 대해 페어 방식 샘플링 처리를 수행하여 상기 각 노드의 변 특징 매트릭스를 생성하는 단계;
    기설정된 풀 연결 네트워크 모델을 기초로 상기 변 특징 매트릭스에 대응되는 상기 인접 매트릭스를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 이미지 인식 정보를 기초로 상기 필드위치 특징을 생성하는 단계는,
    상기 이미지 인식 정보를 기초로 상기 샘플 이미지의 각 필드의 위치 정보를 확정하는 단계;
    기설정된 노드 맵을 기초로 상기 위치 정보에 대하여 기입 처리를 수행하여 상기 필드위치 특징을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제1항에 있어서,
    상기 이미지 인식 정보를 기초로 상기 이미지 특징을 생성하는 단계는,
    기설정된 컨벌루션 뉴럴 네트워크 모델을 기초로, 상기 이미지 인식 정보로부터 상기 이미지 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 삭제
  11. 처리될 이미지를 획득하기 위한 획득 모듈;
    테이블 추출 모델을 기초로, 상기 처리될 이미지의 테이블을 생성하되, 여기서, 상기 테이블 추출 모델은 샘플 이미지의 필드위치 특징, 이미지 특징 및 텍스트 특징을 기초로 획득된 것인 제1 생성 모듈;
    상기 처리될 이미지의 텍스트 정보를 상기 테이블에 기입하기 위한 기입 모듈;
    상기 샘플 이미지에 대하여 인식하여 이미지 인식 정보를 획득하기 위한 인식 모듈;
    상기 이미지 인식 정보를 기초로 상기 필드위치 특징, 상기 이미지 특징 및 상기 텍스트 특징을 생성하기 위한 제2 생성 모듈;
    상기 필드위치 특징, 상기 이미지 특징, 상기 텍스트 특징 및 기설정된 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하기 위한 제3 생성 모듈을 포함하고,
    상기 제2 생성 모듈은, 상기 텍스트 정보에 대해 기입 처리하고, 기설정된 장단기 기억 뉴럴 네트워크 모델과 기설정된 양방향 순환 뉴럴 네트워크 모델을 기초로 기입 후의 상기 텍스트 정보로부터 상기 텍스트 특징을 추출하되, 상기 기입 처리는 0 기입을 포함하는 것을 포함하는 것을 특징으로 하는 이미지의 테이블 추출 장치.
  12. 제11항에 있어서,
    상기 제1 생성 모듈은, 상기 테이블 추출 모델을 기초로, 상기 처리될 이미지의 인접 매트릭스를 생성하되, 상기 처리될 이미지의 인접 매트릭스는 상기 처리될 이미지의 필드로 이루어지는 행과 열 사이의 확률 매트릭스를 나타내는 것이고, 상기 처리될 이미지의 인접 매트릭스와 상기 처리될 이미지의 필드를 기초로, 상기 테이블을 확정하는 것을 특징으로 하는 장치.
  13. 제12항에 있어서,
    상기 제1 생성 모듈은, 상기 처리될 이미지의 필드 중의 임의의 필드를 시점으로 상기 처리될 이미지의 인접 매트릭스로부터 최대 연결 그래프를 추출하고, 상기 최대 연결 그래프를 기초로 상기 테이블을 구축하는 것을 특징으로 하는 장치.
  14. 삭제
  15. 제11항에 있어서,
    상기 제3 생성 모듈은, 상기 필드위치 특징, 상기 이미지 특징 및 상기 텍스트 특징에 대하여 융합 처리하여, 상기 필드위치 특징에 대응되는 각 노드의 정보를 생성하되, 여기서, 상기 각 노드는 상기 샘플 이미지 중의 각 필드를 나타내기 위한 것이고, 상기 각 노드의 정보와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하기 위한 것을 특징으로 하는 장치.
  16. 제15항에 있어서,
    상기 제3 생성 모듈은, 상기 각 노드 정보를 기초로 인접 매트릭스를 생성하되, 상기 매트릭스는 상기 각 노드로 구성된 행과 열 사이의 확률 매트릭스를 나타내는 것이고, 상기 인접 매트릭스와 상기 예측 트루값을 기초로 상기 테이블 추출 모델을 생성하기 위한 것을 특징으로 하는 장치.
  17. 제16항에 있어서,
    상기 제3 생성 모듈은, 상기 각 노드의 정보에 대해 상호 관련 처리를 수행하고, 상호 관련 처리 후의 각 노드의 정보에 대해 페어 방식 샘플링 처리를 수행하여 상기 각 노드의 변 특징 매트릭스를 생성하고, 기설정된 완전 연결 네트워크 모델을 기초로 상기 변 특징 매트릭스에 대응되는 상기 인접 매트릭스를 생성하기 위한 것을 특징으로 하는 장치.
  18. 제11항에 있어서,
    제2 생성 모듈은, 상기 이미지 인식 정보를 기초로 상기 샘플 이미지의 각 필드의 위치 정보를 확정하고, 기설정된 노드 맵을 기초로 상기 위치 정보에 대하여 기입 처리를 수행하여 상기 필드위치 특징을 생성하기 위한 것을 특징으로 하는 장치.
  19. 제11항에 있어서,
    상기 제2 생성 모듈은, 기설정된 컨벌루션 뉴럴 네트워크 모델을 기초로, 상기 이미지 인식 정보로부터 상기 이미지 특징을 추출하기 위한 것을 특징으로 하는 장치.
  20. 삭제
  21. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리;를 포함하고, 여기서,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제3항, 제5항 내지 제9항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자기기.
  22. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서, 상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제3항, 제5항 내지 제9항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 저장매체.
  23. 테이블 추출 모듈의 훈련 장치에 의해 실행되는 테이블 추출 모듈의 훈련 방법에 있어서,
    획득된 샘플 이미지에 대하여 인식하여 이미지 인식 정보를 획득하되, 상기 샘플 이미지에는 테이블이 포함되는 단계;
    상기 이미지 인식 정보를 기초로 필드위치 특징, 이미지 특징 및 텍스트 특징을 생성하는 단계;
    상기 필드위치 특징, 상기 이미지 특징, 상기 텍스트 특징 및 기설정 예측 트루값을 기초로 테이블 추출 모델을 생성하는 단계를 포함하고,
    상기 이미지 인식 정보를 기초로 상기 텍스트 특징을 생성하는 단계는,
    상기 텍스트 정보에 대해 기입 처리하고, 기설정된 장단기 기억 뉴럴 네트워크 모델과 기설정된 양방향 순환 뉴럴 네트워크 모델을 기초로 기입 후의 상기 텍스트 정보로부터 상기 텍스트 특징을 추출하되, 상기 기입 처리는 0 기입을 포함하는 것을 특징으로 하는 테이블 추출 모듈의 훈련 방법.
  24. 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제3항, 제5항 내지 제9항 중 어느 한 항에 따른 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독가능 저장매체에 저장된 컴퓨터 프로그램.








KR1020210038686A 2020-06-12 2021-03-25 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체 KR102604306B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010538176.8A CN111695517B (zh) 2020-06-12 2020-06-12 图像的表格提取方法、装置、电子设备及存储介质
CN202010538176.8 2020-06-12

Publications (2)

Publication Number Publication Date
KR20210040878A KR20210040878A (ko) 2021-04-14
KR102604306B1 true KR102604306B1 (ko) 2023-11-17

Family

ID=72480790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038686A KR102604306B1 (ko) 2020-06-12 2021-03-25 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210390294A1 (ko)
EP (1) EP3855353A3 (ko)
JP (1) JP7278321B2 (ko)
KR (1) KR102604306B1 (ko)
CN (1) CN111695517B (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置
CN115497113B (zh) * 2022-09-30 2023-11-14 北京百度网讯科技有限公司 信息生成方法、装置、电子设备以及存储介质
CN115512006B (zh) * 2022-11-23 2023-04-07 有米科技股份有限公司 基于多图像元素的图像智能合成方法及装置
US11837004B1 (en) * 2023-02-24 2023-12-05 Oracle Financial Services Software Limited Searchable table extraction
CN116486427B (zh) * 2023-06-19 2023-08-25 深圳爱莫科技有限公司 一种文本识别的方法、装置、设备及存储介质
CN117173719B (zh) * 2023-11-01 2024-02-23 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219882A (ja) * 2016-06-02 2017-12-14 日本電信電話株式会社 論理関係認識装置、論理関係認識方法および論理関係認識プログラム
JP2020046860A (ja) * 2018-09-18 2020-03-26 株式会社三菱Ufj銀行 帳票読取装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4998237B2 (ja) * 2007-12-06 2012-08-15 富士通株式会社 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
JP2017107455A (ja) 2015-12-10 2017-06-15 キヤノン株式会社 情報処理装置、制御方法、及びプログラム
CN107862303B (zh) * 2017-11-30 2019-04-26 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质
CN110135218A (zh) * 2018-02-02 2019-08-16 兴业数字金融服务(上海)股份有限公司 用于识别图像的方法、装置、设备和计算机存储介质
CN108416279B (zh) * 2018-02-26 2022-04-19 北京阿博茨科技有限公司 文档图像中的表格解析方法及装置
RU2695489C1 (ru) * 2018-03-23 2019-07-23 Общество с ограниченной ответственностью "Аби Продакшн" Идентификация полей на изображении с использованием искусственного интеллекта
CN110619252B (zh) * 2018-06-19 2022-11-04 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
WO2020044537A1 (ja) 2018-08-31 2020-03-05 株式会社Pfu 画像照合装置、画像照合方法、及びプログラム
CN109726643B (zh) * 2018-12-13 2021-08-20 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
JP7118923B2 (ja) 2019-05-09 2022-08-16 株式会社 みずほ銀行 帳票対応システム、帳票対応方法及び帳票対応プログラム
CN110287854B (zh) * 2019-06-20 2022-06-10 北京百度网讯科技有限公司 表格的提取方法、装置、计算机设备和存储介质
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN110796031B (zh) * 2019-10-11 2024-08-02 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219882A (ja) * 2016-06-02 2017-12-14 日本電信電話株式会社 論理関係認識装置、論理関係認識方法および論理関係認識プログラム
JP2020046860A (ja) * 2018-09-18 2020-03-26 株式会社三菱Ufj銀行 帳票読取装置

Also Published As

Publication number Publication date
CN111695517B (zh) 2023-08-18
US20210390294A1 (en) 2021-12-16
CN111695517A (zh) 2020-09-22
KR20210040878A (ko) 2021-04-14
JP2021103581A (ja) 2021-07-15
JP7278321B2 (ja) 2023-05-19
EP3855353A3 (en) 2021-12-08
EP3855353A2 (en) 2021-07-28

Similar Documents

Publication Publication Date Title
KR102604306B1 (ko) 이미지의 테이블 추출 방법, 장치, 전자 기기 및 저장 매체
KR102612295B1 (ko) 어음 이미지 인식 방법, 장치, 기기 및 저장 매체
JP7335907B2 (ja) 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR102609341B1 (ko) 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN113094550B (zh) 视频检索方法、装置、设备和介质
US20220270289A1 (en) Method and apparatus for detecting vehicle pose
JP7258066B2 (ja) 測位方法、測位装置及び電子機器
US20220415072A1 (en) Image processing method, text recognition method and apparatus
CN111782977B (zh) 兴趣点处理方法、装置、设备及计算机可读存储介质
US11727200B2 (en) Annotation tool generation method, annotation method, electronic device and storage medium
KR20230004391A (ko) 비디오 처리 방법 및 장치, 비디오 조회 방법 및 장치, 비디오 처리 모델의 트레이닝 방법 및 장치, 전자장비, 저장매체 및 컴퓨터 프로그램
KR102634484B1 (ko) 정보 추출 방법, 장치, 기기 및 저장 매체
CN115880555B (zh) 目标检测方法、模型训练方法、装置、设备及介质
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
CN114022900A (zh) 检测模型的训练方法、检测方法、装置、设备和介质
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN114782719B (zh) 一种特征提取模型的训练方法、对象检索方法以及装置
CN115423946A (zh) 大场景弹性语义表征与自监督光场重建方法及装置
US20230147594A1 (en) Method for integratedly updating map data, device and storage medium
KR20210042272A (ko) 지능형 응답 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
KR20220034076A (ko) 문자부호 생성 모델의 훈련 방법, 문자부호 생성 방법, 장치 및 설비
CN114566233A (zh) 分子筛选的方法、装置、电子设备及存储介质
CN114998433A (zh) 位姿计算方法、装置、存储介质以及电子设备
CN113763514B (zh) 笔顺动画的生成方法、装置、系统及电子设备
CN114398434A (zh) 结构化信息抽取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant