KR102442350B1 - 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 - Google Patents

인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 Download PDF

Info

Publication number
KR102442350B1
KR102442350B1 KR1020220034290A KR20220034290A KR102442350B1 KR 102442350 B1 KR102442350 B1 KR 102442350B1 KR 1020220034290 A KR1020220034290 A KR 1020220034290A KR 20220034290 A KR20220034290 A KR 20220034290A KR 102442350 B1 KR102442350 B1 KR 102442350B1
Authority
KR
South Korea
Prior art keywords
information
document
documents
artificial intelligence
automatic document
Prior art date
Application number
KR1020220034290A
Other languages
English (en)
Inventor
김아름
김아린
안준창
임지은
이효은
Original Assignee
주식회사 도레미파
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 도레미파 filed Critical 주식회사 도레미파
Application granted granted Critical
Publication of KR102442350B1 publication Critical patent/KR102442350B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치가 개시된다. 본 발명의 정보 분석 방법은 자동 문서 작성의 대상이 되는 문서에 포함된 정보를 분석하기 위해 미리 설정된 정보의 위치 기반의 분석을 수행하는 제1 기준 및 정보의 형태 기반의 분석을 수행하는 제2 기준을 휴리스틱(heuristics) 방식의 알고리즘에 적용하여 학습하는 단계, 자동 문서 작성을 지원하는 플랫폼에 등록된 복수의 문서들의 타입을 분류하여 분류된 타입에 기초하여 미리 매칭된 분석 알고리즘을 기반으로 복수의 문서들의 내용을 분석하여 복수의 문서들에서 복수의 정보 항목들을 추출하는 단계, 추출된 복수의 정보 항목들이 플랫폼에서 제공하는 표준의 문서 양식에 포함된 정보 항목에 적용되도록 작성하여 복수의 문서들에 대하여 표준의 양식에 상응하는 문서로 작성되도록 인공지능을 기반으로 자동 문서 작성을 수행하는 단계 및 자동 문서 작성을 통해 추출이 요구되는 복수의 정보 항목들의 추출 여부에 기초하여 결정된 표준의 양식에 상응하는 문서로 작성된 복수의 문서들의 각 정보 항목에 대한 추가적인 보정 필요 여부에 따라 세부적인 보정을 수행하는 단계를 포함한다.

Description

인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치{INFORMATION ANALYZING METHOD FOR PERFORMING AUTAMATIC GENERATING OF DOCUMENT BASED ON ARTIFICIAL INTELLIGENCE AND APPARATUS THEREFOR}
본 발명은 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치에 관한 것으로, 더욱 상세하게는 휴리스틱(heuristics) 방식을 적용하여 인공지능을 기반으로 학습된 알고리즘에 기초하여 분석 대상의 문서를 분석하여 자동으로 문서를 작성하기 위한 정보 분석 방법 및 장치에 관한 것이다.
최근 오프라인을 통해 제공되는 서비스가 온라인을 통해 제공될 수 있도록 전환됨에 따라 다양한 온라인 서비스를 제공하는 플랫폼이 생겨나고 있다. 특히, 오프라인을 통해 서류나 자료 등의 정보를 등록하거나 제출하는 과정은 상당히 사라지고 있으며, 이를 대신하여 온라인을 통해 서류나 자료 등의 정보를 사용자의 핸드폰이나 PC등과 같은 장치를 통해 등록하거나 제출하는 과정이 생겨나고 있다.
특히, 무역과 관련된 분야에서는 다양한 서류나 자료 등의 정보가 다양한 사용자 간에 전송되거나 수신되고 있으며, 이와 같은 서류나 자료 등의 정보는 플랫폼을 기반으로 온라인을 통한 서비스가 제공되고 있다. 또한, 이와 같이 무역과 관련된 분야에서는 무역과 관련된 문서를 다루는 EDI(Electronic Data Interchange, 전자 문서 교환) 시스템의 내부적인 구간에 대한 단절로 인해 문서를 관리하는 부분에 있어 다소 어려움이 있는 문제가 있다.
대한민국 등록특허 제10-2004981호(2019.07.23)
상기와 같은 문제점을 해결하기 위한 본 발명의 일 목적은 휴리스틱 방식을 적용하여 인공지능을 기반으로 학습된 알고리즘에 기초하여 분석 대상의 문서를 분석하여 자동으로 문서를 작성하기 위한 정보 분석 방법을 제공하는 데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은 휴리스틱 방식을 적용하여 인공지능을 기반으로 학습된 알고리즘에 기초하여 분석 대상의 문서를 분석하여 자동으로 문서를 작성하기 위한 정보 분석 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법으로서, 상기 자동 문서 작성의 대상이 되는 문서에 포함된 정보를 분석하기 위해 미리 설정된 정보의 위치 기반의 분석을 수행하는 제1 기준에 따라 휴리스틱(heuristics) 방식의 알고리즘에 적용하여 제1 인공신경망을 학습시키는 단계, 상기 문서에 포함되는 정보를 분석하기 위해 정보의 형태 기반의 분석을 수행하는 제2 기준에 따라 상기 휴리스틱(heuristics) 방식의 알고리즘에 적용하여 제2 인공신경망을 학습시키는 단계, 상기 자동 문서 작성을 지원하는 플랫폼에 등록된 복수의 문서들의 타입을 분류하여 분류된 타입에 기초하여 미리 매칭된 분석 알고리즘을 기반으로 상기 제1 인공신경망 및 상기 제2 인공신경망 중 적어도 하나를 선택함으로써 상기 복수의 문서들의 내용을 분석하여 상기 복수의 문서들에서 복수의 정보 항목들을 추출하는 단계, 상기 추출된 복수의 정보 항목들이 상기 플랫폼에서 제공하는 표준의 문서 양식에 포함된 정보 항목에 적용되도록 작성하여 상기 복수의 문서들에 대하여 표준의 양식에 상응하는 문서로 작성되도록 인공지능을 기반으로 자동 문서 작성을 수행하는 단계 및 상기 자동 문서 작성을 통해 추출이 요구되는 복수의 정보 항목들의 추출 여부에 기초하여 결정된 상기 표준의 양식에 상응하는 문서로 작성된 복수의 문서들의 각 정보 항목에 대한 추가적인 보정 필요 여부에 따라 세부적인 보정을 수행하는 단계를 포함한다.
여기서, 상기 제1 인공신경망을 학습시키는 단계는, 정형화된 형식을 갖는 복수의 문서 및 라벨링된 정보 항목을 입력 데이터로 하고, 각각의 정보 항목이 갖는 문서 내의 위치를 출력 데이터로서 지도 학습시키는 단계를 포함하고, 상기 제1 기준에 따른 위치 기반의 분석은 상기 자동 문서 작성을 위해 분석의 대상이 되는 문서의 내용에 포함된 복수의 정보 항목들을 문서의 페이지 내에서 미리 지정된 영역에서 미리 설정된 위치를 탐색하여 추출할 수 있다.
여기서, 상기 제2 인공신경망을 학습시키는 단계는 비정형화된 형식을 갖는 복수의 문서를 입력 데이터로 하고, 각각의 정보 항목의 형태를 출력 데이터로서 지도 학습시키는 단계를 포함하고, 상기 제2 기준에 따른 정보의 형태 기반의 분석은 상기 자동 문서 작성을 위해 분석의 대상이 되는 문서의 내용에 포함된 복수의 정보 항목들을 문서의 페이지에 상응하는 영역에서 미리 설정된 텍스트 타입의 자릿수의 모음으로 형성된 정보 항목의 형태를 탐색하여 추출할 수 있다.
여기서, 상기 복수의 정보 항목들을 추출하는 단계는 상기 복수의 문서들의 내용에 기초하여 타입을 정형화 문서 타입 및 비정형화 문서 타입으로 분류하여 분류된 타입에 미리 매칭된 분석 알고리즘을 기반으로 탐색하여 상기 복수의 문서들의 내용에서 복수의 정보 항목들을 추출하되, 상기 정형화 문서 타입은 제1 기준을 기반으로 수행되는 분석 알고리즘을 통해 복수의 정보 항목들을 추출하고, 상기 비정형화 문서 타입은 제2 기준을 기반으로 수행되는 분석 알고리즘을 통해 복수의 정보 항목들을 추출할 수 있다.
여기서, 상기 세부적인 보정을 수행하는 단계는 상기 표준의 양식에 상응하는 문서에 포함된 복수의 정보 항목들 중 추출되지 않은 정보 항목을 확인하여 추출되지 않은 정보 항목이 포함된 원본의 문서의 페이지에 대한 전체 영역 추출하는 단계, 상기 추출된 페이지에 대한 전체 영역에서 상기 추출되지 않은 정보 항목이 포함되는 부분 영역을 추출하여 상기 추출된 부분 영역을 추가적인 보정이 필요한 영역으로 결정하는 단계, 상기 결정된 부분 영역의 이미지가 포함된 이미지 정보를 생성하여 생성된 이미지 정보를 상기 추출되지 않은 정보 항목에 상응하여 미리 매칭된 사용자의 단말로 전송하는 단계 및 상기 사용자의 단말로부터 상기 추출되지 않은 정보 항목에 상응하는 정보 항목의 내용에 대한 정보를 수신하여 상기 추출되지 않은 정보 항목의 내용을 보정하는 단계를 포함할 수 있다.
본 발명에 의하면, 무역과 관련된 분야의 문서에 대하여 용이하게 분류를 수행할 수 있으며, 사용자에 의해 플랫폼에 등록된 복수의 문서들에 기초하여 표준화의 양식에 따른 문서로 자동 작성을 수행할 수 있는 효과가 있다. 또한, 본 발명에 따른 정보 분석 방법은 사용자에 의해 등록된 복수의 문서들 중 인공지능을 기반으로 추출되지 않는 정보 항목에 대해서 선택적으로 별도의 사용자가 보정을 수행할 수 있도록 지원할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법이 수행되는 환경을 도시한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치에 대한 하드웨어 블록도이다.
도 3은 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법에서 보정을 수행하는 방법을 도시한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법에서 문서의 타입을 분류하는 방법을 도시한 개념도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법이 수행되는 환경을 도시한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법은 정보 분석 장치(100)의 주도적인 동작에 의해 수행될 수 있으며, 더욱 상세하게는 정보 분석 장치(100), 제1 사용자 단말(200) 및 제2 사용자 단말(300)가 서로 연동되어 수행될 수 있다.
먼저, 정보 분석 장치(100)는 도 1에 도시되어 있지는 않으나, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법과 관련된 서비스를 제공하는 플랫폼의 서버(예를 들어, 서비스를 제공하거나 관리하는 장치 등)와 연동된 상태일 수 있다. 또한, 정보 분석 장치(100)는 플랫폼의 서버 내에 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 기능적인 모듈과 같은 형태로 포함된 상태일 수도 있다.
한편, 제1 사용자 단말(200)은 플랫폼을 이용하는 사용자의 단말을 의미할 수 있으며, 더욱 상세하게는 플랫폼에 자동 문서 작성을 위한 서비스를 이용하기 위해 적어도 하나의 문서를 등록하는 사용자의 단말을 의미할 수 있다. 이와 같은 제1 사용자 단말(200)은 단일의 사용자 단말이 아닌 복수의 사용자들의 복수의 사용자 단말들을 의미할 수도 있으며, 플랫폼을 이용하는 복수의 사용자이 존재할 수 있다는 것을 의미할 수 있다.
또한, 제2 사용자 단말(300)은 제1 사용자 단말(200)에 의해 플랫폼으로 등록된 복수의 문서들 중 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 통해 문서에서 추출되지 않은 적어도 하나의 정보 항목이 존재하는 문서에 대하여 별도로 처리하기 위한 사용자의 단말을 의미할 수 있다. 이와 같은 제2 사용자 단말(300)은 단일의 사용자 단말이 아닌 복수의 사용자들의 복수의 사용자 단말들을 의미할 수도 있으며, 플랫폼을 관리하는 복수의 사용자들이 존재할 수 있다는 것을 의미할 수 있다.
여기서, 정보 분석 장치(100)는 미리 설명된 제1 사용자 단말(200) 및 제2 사용자 단말(300)과 직접적으로 통신을 기반으로 정보를 전송하거나 수신할 수 있도록 연결된 상태일 수 있다. 또한, 정보 분석 장치(100)는 제1 사용자 단말(200) 및 제2 사용자 단말(300)과 미리 설명된 플랫폼의 서버를 통해 간접적으로 통신을 기반으로 정보를 전송하거나 수신할 수 있도록 연결된 상태일 수 있다.
추가적으로, 정보 분석 장치(100)는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 통해 자동 문서 작성이 수행된 문서는 미리 설명된 플랫폼의 서버가 존재하는 경우, 플랫폼의 서버로 전송하여 서버에 저장될 수 있도록 지원할 수 있다. 또한, 정보 분석 장치(100)는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 통해 자동 문서 작성이 수행된 문서를 정보 분석 장치(100)에 자체적으로 저장할 수도 있다.
이하에서는 도 1을 참조하여 설명된 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치의 구조적인 부분에 대하여 도 2를 참조하여 보다 상세하게 설명될 수 있다.
도 2는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치에 대한 하드웨어 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치(400)는 도 1을 참조하여 설명된 정보 분석 장치(100)를 의미할 수 있으나, 반드시 이에 한정되는 것은 아닐 수 있다. 즉, 도 2를 참조하여 설명되는 정보 분석 장치(400)의 하드웨어 적인 구조는 도 1을 참조하여 설명된 제1 사용자 단말(200) 및 제2 사용자 단말(400)에도 유사 또는 동일하게 적용될 수 있다.
본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치(400)는 적어도 하나의 프로세서(processor, 410) 및 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory, 420)를 포함할 수 있다.
여기서, 적어도 하나의 프로세서(410)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 일 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(420) 및 저장 장치(460) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(420)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
또한, 정보 분석 장치(400)는 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(430)를 포함할 수 있다. 또한, 정보 분석 장치(400)는 입력 인터페이스 장치(440), 출력 인터페이스 장치(450) 및 저장 장치(460) 등을 더 포함할 수 있다. 정보 분석 장치(400)에 포함된 각각의 구성 요소들은 버스(bus)(470)에 의해 연결되어 서로 통신을 수행할 수 있다.
여기서, 적어도 하나의 단계는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법과 관련된 단계를 의미할 수 있고, 더욱 상세하게는 정보 분석 장치(400)에서 수행되는 동작 방법과 관련된 단계를 포함할 수 있다.
이하에서는 도 1 및 도 2를 참조하여 설명된 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 정보 분석 방법이 수행되는 구체적인 과정이 도 3 내지 도 5를 참조하여 보다 상세하게 설명될 수 있다.
도 3은 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 도시한 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법은 도 1 및 도 2를 참조하여 설명된 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행될 수 있으며, 더욱 상세하게는 도 2를 참조하여 미리 설명된 제1 사용자 단말 및 제2 사용자 단말과의 연동을 통해 수행될 수 있다.
먼저, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하는 정보 분석 장치는 자동 문서 작성의 대상이 되는 문서에 포함된 정보를 분석하기 위해 미리 설정된 정보의 위치 기반의 분석을 수행하는 제1 기준 및 정보의 형태 기반의 분석을 수행하는 제2 기준을 휴리스틱(heuristics) 방식의 알고리즘에 적용하여 학습할 수 있다(S310).
구체적으로, 정보 분석 장치는 자동 문서 작성의 대상이 되는 문서에 포함된 정보를 분석하기 위해 미리 설정된 정보의 위치 기반의 분석을 수행하는 제1 기준에 따라 휴리스틱(heuristics) 방식의 알고리즘을 적용하여 제1 인공신경망을 학습시킬 수 있다. 상기 정보 분석 장치는 정형화된 형식을 갖는 복수의 문서 및 라벨링된 정보 항목을 입력 데이터로 하고, 각각의 정보 항목이 갖는 문서 내의 위치를 출력 데이터로서 상기 제1 인공신경망을 지도 학습시킬 수 있다.
또한, 정보 분석 장치는 문서에 포함되는 정보를 분석하기 위해 및 정보의 형태 기반의 분석을 수행하는 제2 기준에 따라 상기 휴리스틱(heuristics) 방식의 알고리즘에 적용하여 제2 인공신경망을 학습시킬 수 있다. 상기 정보 분석 장치는 비정형화된 형식을 갖는 복수의 문서를 입력 데이터로 하고, 각각의 정보 항목의 형태를 출력 데이터로서 상기 제2 인공신경망을 지도 학습시킬 수 있다.
여기서, 휴리스틱 방식은 알고리즘은 인공지능 기반의 학습 알고리즘에 휴리스틱 방식에 기초하여 미리 설정된 기준을 적용한 것을 의미할 수 있으며, 미리 설정된 기준에 기초하여 학습을 수행하는 알고리즘을 의미할 수 있다. 특히, 본 발명의 일 실시예에 따른 정보 분석 장치는 휴리스틱 방식에 기초하여 미리 설정된 기준인 제1 기준 및 제2 기준에 기초하여 학습을 수행할 수 있다.
구체적으로, 제1 기준에 따른 위치 기반의 분석은 자동 문서 작성을 위해 분석의 대상이 되는 문서의 내용에 포함된 복수의 정보 항목들을 문서의 페이지 내에서 미리 지정된 영역에서 미리 설정된 위치의 영역을 탐색하여 추출하는 분석을 의미할 수 있다.
예를 들어, 정보 분석 장치는 문서의 페이지에 상응하는 영역에서 미리 설정된 기준의 위치에서 미리 설정된 크기를 가지는 영역을 미리 설정된 위치의 영역으로 탐색할 수 있다. 이에 따라, 정보 분석 장치는 문서의 페이지에 상응하는 영역에서 미리 설정된 위치의 영역이 문서의 페이지에 상단인 경우, 상단을 탐색하여 복수의 정보 항목들을 추출할 수 있다. 이와 같은 방법을 통해 정보 분석 장치는 문서의 페이지에 상응하는 영역에서 미리 설정된 위치의 영역을 탐색할 수 있다.
또한, 미리 설정된 위치의 영역은 문서의 페이지에 상단 좌측, 상단 중앙, 상단 우측, 중앙 좌측, 중앙, 중앙 우측, 하단 좌측, 하단 중앙 및 하단 우측 등과 같은 방식으로 구분될 수 있으며, 이를 위해서 정보 분석 장치는 문서의 페이지에 상응하는 영역을 미리 설정된 크기를 가지는 복수의 서브 영역들로 분할하는 방식을 적용할 수도 있다.
일 실시 예로서, 정보 분석 장치는 상기 제1 기준을 적용하는 인공 신경망에 대해 사업자 등록증, 주민등록증, 차량 등록증 등과 같이 정형화된 형식을 갖는 복수의 문서와 각각의 문서들 내에서 라벨링된 정보 항목(예. 사업자 등록번호, 주민등록번호, 차량등록번호, 관할 지방자치단체장 등)의 문서 내의 위치를 미리 학습시킬 수 있다. 구체적으로, 정보 분석 장치에 포함되는 인공 신경망은 정형화된 형식을 갖는 복수의 문서 및 라벨링된 정보 항목을 입력 데이터로 하고, 각각의 정보 항목이 갖는 문서 내의 위치를 출력 데이터로서 하여 지도 학습될 수 있다.
한편, 제2 기준에 따른 정보의 형태 기반의 분석은 자동 문서 작성을 위해 분석의 대상이 되는 문서의 내용에 포함된 복수의 정보 항목들을 문서의 페이지에 상응하는 영역에서 미리 설정된 텍스트 타입의 자릿수의 모음으로 형성된 정보 항목의 형태를 탐색하여 추출하는 분석을 의미할 수 있다. 예를 들어, 정보 분석 장치는 문서의 페이지에 상응하는 영역에서 '사업자 등록번호'의 정보 항목을 추출하기 위한 정보 항목의 형태로 '3자리(숫자) + 2자리(숫자) + 4자리(숫자)의 정보 항목의 형태를 미리 설정할 수 있다.
또한, 정보 분석 장치는 '자동차의 번호'의 정보 항목을 추출하기 위한 정보 항목의 형태로 '2자리 또는 3자리(숫자) + 1자리(국문) + 4자리(숫자)의 정보 항목의 형태를 미리 설정할 수 있다. 또한, 정보 분석 장치는 '주민등록번호'의 정보 항목을 추출하기 위한 정보 항목의 형태 및 '법인등록번호'의 정보 항목을 추출하기 위한 정보 항목의 형태 등을 미리 설정할 수 있다.
다른 일 실시 예로서, 정보 분석 장치는 상기 제2 기준을 적용하는 인공신경망에 대해 형식이 정의되지 않은 비정형화 문서(예. 사인 간의 거래 계약서 등) 내에서 라벨링된 정보 항목(예. 사업자 등록번호, 주민등록번호, 차량등록번호)의 정보 항목의 형태를 미리 학습시킬 수 있다. 구체적으로, 정보 분석 장치에 포함되는 인공 신경망은 비정형화된 형식을 갖는 복수의 분서를 입력 데이터로 하고, 각각의 정보 항목의 형태를 출력 데이터로서 하여 지도 학습될 수 있다.
이와 같은 방법을 통해 정보 분석 장치는 미리 설정된 텍스트 타입의 자릿수의 모음으로 형성된 정보 항목의 형태를 가질 수 있고, 미리 설정된 정보 항목의 형태를 기반으로 문서의 페이지에 상응하는 영역에서 미리 설정된 정보 항목의 형태를 가지는 정보 항목을 탐색하여 추출할 수 있다.
즉, 정보 분석 장치는 플랫폼에 등록된 복수의 문서들에 대하여 제1 기준에 따른 위치 기반의 분석 및 제2 기준에 따른 정보의 형태 기반의 분석을 적용하여 학습을 수행할 수 있으며, 이를 통해 정보 분석 장치는 복수의 문서들에 대하여 제1 기준에 따른 위치 기반의 분석 및 제2 기준에 따른 정보의 형태 기반의 분석을 기반으로 복수의 문서들에서 복수의 정보 항목들을 추출할 수 있는 상태를 가질 수 있다.
이때, 정보 분석 장치에서 학습을 수행하는 대상이 되는 복수의 문서들은 미리 설명된 플랫폼에 제1 사용자 단말에 의해 등록된 문서를 의미할 수 있으며, 제1 사용자 단말을 의미할 수 있는 복수의 사용자들에 의해 플랫폼에 등록된 복수의 문서들을 의미할 수 있다. 또한, 정보 분석 장치에서 수행되는 학습의 과정은 플랫폼에 등록된 복수의 문서들에서 복수의 정보 항목들을 추출하기 위해 선행되는 과정을 의미할 수 있다.
이후, 정보 분석 장치는 자동 문서 작성을 지원하는 플랫폼에 등록된 복수의 문서들의 타입을 분류하여 분류된 타입에 기초하여 미리 매칭된 분석 알고리즘을 기반으로 복수의 문서들의 내용을 분석하여 복수의 문서들에서 복수의 정보 항목들을 추출할 수 있다(S320).
구체적으로, 정보 분석 장치는 복수의 정보 항목들을 추출하기 위한 과정에서 복수의 문서들의 내용에 기초하여 타입을 정형화 문서 타입 및 비정형화 문서 타입으로 분류할 수 있다. 예를 들어, 정보 분석 장치는 일정한 표준의 양식을 가진 문서를 '정형화 문서 타입'으로 분류할 수 있고, 일정한 표준의 양식을 가지지 않은 문서(예를 들어, 계약서 등과 같은 문서)를 '비정형화 문서 타입'으로 분류할 수 있다.
이때, 정보 분석 장치는 플랫폼에 제1 사용자 단말로부터 복수의 문서들이 등록되는 과정에서 복수의 문서들은 플랫폼의 서버에 의해 구분되어 등록될 수 있으며, 더욱 상세하게는 플랫폼의 서버는 제1 사용자 단말이 복수의 문서들을 등록하는 인터페이스를 제공하는 과정에서 복수의 문서들에 대한 타입이 구분되어 등록될 수 있도록 지원할 수 있다. 구체적으로, 정보 분석 장치는 지방자치단체 등의 공기관에서 발행하는 공문서를 '정형화 문서 타입'으로서 저장하도록 유도하는 제1 그래픽 오브젝트 및 사인 간의 거래를 나타내는 계약서 등의 사문서를 '비정형화 문서 타입'으로서 저장하도록 유도하는 제2 그래픽 오브젝트 각각을 사용자 단말로 출력할 수 있다.
이에 따라, 정보 분석 장치는 플랫폼에 등록된 복수의 문서들에 대한 타입을 미리 인지하고 있는 상태일 수 있으며, 이를 통해 플랫폼에 등록된 복수의 문서들에 대한 타입에 기초하여 미리 매칭된 분석 알고리즘을 기반으로 복수의 문서들의 내용을 분석할 수 있다.
예를 들어, 정보 분석 장치는 플랫폼에 등록된 복수의 문서들 중 정형화 문서 타입으로 분류된 문서는 제1 기준을 기반으로 수행되는 분석 알고리즘을 통해 복수의 정보 항목들을 추출할 수 있고, 비정형화 문서 타입으로 분류된 문서는 제2 기준을 기반으로 수행되는 분석 알고리즘을 통해 복수의 정보 항목들을 추출할 수 있다.
이후, 정보 분석 장치는 추출된 복수의 정보 항목들이 플랫폼에서 제공하는 표준의 문서 양식에 포함된 정보 항목에 적용되도록 작성하여 복수의 문서들에 대하여 표준의 양식에 상응하는 문서로 작성되도록 인공지능을 기반으로 자동 문서 작성을 수행할 수 있다(S330).
구체적으로, 정보 분석 장치는 인공지능을 기반으로 미리 학습된 제1 기준에 따른 위치 기반의 분석 알고리즘 및 제2 기준에 따른 정보의 형태 기반의 분석 알고리즘을 이용하여 플랫폼에 등록된 복수의 문서들의 내용에서 추출된 복수의 정보 항목들의 내용을 플랫폼에서 제공하는 표준의 문서 양식에 포함된 정보 항목의 내용으로 작성되도록 함으로써 자동 문서 작성을 수행할 수 있다.
예를 들어, 정보 분석 장치는 제2 기준에 따른 정보의 형태 기반의 분석 알고리즘을 이용하여 '사업자 등록번호'의 정보 항목을 추출한 경우, 표준의 문서 양식에 포함된 복수의 정보 항목들 중 '사업자 등록번호'의 정보 항목에 작성되도록 자동 문서 작성을 수행할 수 있다. 이와 같은 방법을 통해, 정보 분석 장치는 제1 사용자 단말에 의해 플랫폼에 등록된 복수의 문서들에 대하여 플랫폼에서 제공하는 표준의 양식에 상응하는 문서로 작성되도록 자동 문서 작성을 수행할 수 있다.
이후, 정보 분석 장치는 자동 문서 작성을 통해 추출이 요구되는 복수의 정보 항목들의 추출 여부에 기초하여 결정된 표준의 양식에 상응하는 문서로 작성된 복수의 문서들의 각 정보 항목에 대한 추가적인 보정 필요 여부에 따라 세부적인 보정을 수행할 수 있다(S340).
여기서, 정보 분석 장치에서 자동 문서 작성을 통해 추출이 요구되는 복수의 정보 항목들의 추출 여부에 기초하여 결정된 표준의 양식에 상응하는 문서로 작성된 복수의 문서들의 각 정보 항목에 대한 추가적인 보정 필요 여부에 따라 세부적인 보정을 수행하는 구체적인 과정은 이하에서 도 4를 참조하여 보다 상세하게 설명될 수 있다.
도 4는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법에서 보정을 수행하는 방법을 도시한 흐름도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치는 표준의 양식에 상응하는 문서에 포함된 복수의 정보 항목들 중 추출되지 않은 정보 항목을 확인하여 추출되지 않은 정보 항목이 포함된 원본의 문서의 페이지에 대한 전체 영역 추출할 수 있다(S341).
즉, 정보 분석 장치는 표준의 양식에 상응하는 문서에 포함된 복수의 정보 항목들 중 자동 문서 작성을 통해 작성되지 않은 정보 항목을 확인할 수 있다. 이후, 정보 분석 장치는 플랫폼에 등록된 복수의 문서들 중 작성되지 않은 정보 항목이 포함된 원본의 문서를 확인할 수 있으며, 더욱 상세하게는 원본의 문서의 페이지에 대한 전체 영역을 추출할 수 있다.
예를 들어, 플랫폼에 등록된 복수의 문서들 중 제1 문서를 표준의 양식에 상응하는 문서로 자동 문서 작성을 수행하여 표준의 양식에 상응하는 제1 표준 문서를 생성한 경우, 제1 표준 문서에 포함된 복수의 정보 항목들 중 작성되지 않은 정보 항목을 확인할 수 있고, 이에 따라 제1 표준 문서의 원본에 해당하는 제1 문서의 페이지에 대한 전체 영역을 추출할 수 있다.
이후, 정보 분석 장치는 추출된 페이지에 대한 전체 영역에서 추출되지 않은 정보 항목이 포함되는 부분 영역을 추출하여 추출된 부분 영역을 추가적인 보정이 필요한 영역으로 결정할 수 있다(S342).
다시 말해, 정보 분석 장치는 미리 예를 들어 설명된 바 있는 제1 표준 문서에 포함된 복수의 정보 항목들 중 '사업자 등록번호'정보 항목이 추출되지 않은 경우, 제1 문서의 페이지에 대한 전체 영역에서 '사업자 등록번호'정보 항목이 포함되는 부분 영역을 추출할 수 있고, 추출된 부분 영역을 추가적인 보정이 필요한 영역으로 결정할 수 있다.
이후, 정보 분석 장치는 결정된 부분 영역의 이미지가 포함된 이미지 정보를 생성하여 생성된 이미지 정보를 추출되지 않은 정보 항목에 상응하여 미리 매칭된 사용자의 단말로 전송할 수 있다(S343).
구체적으로, 정보 분석 장치는 추가적인 보정이 필요한 영역으로 결정된 부분 영역의 이미지가 포함된 이미지 정보를 생성할 수 있다. 이때, 예를 들어, 정보 분석 장치는 미리 설명된 바 있는 제1 표준 문서에 포함된 복수의 정보 항목들 중 '사업자 등록번호'정보 항목이 추출되지 않은 경우, 제1 표준 문서의 원본에 해당하는 제1 문서의 페이지에 대한 전체 영역에서 '사업자 등록번호'정보 항목이 포함된 부분 영역의 이미지가 포함된 이미지 정보를 생성할 수 있다.
특히, 정보 분석 장치는 제1 문서의 페이지에 대한 전체 영역에서 '사업자 등록번호'정보 항목의 위치를 기준으로 미리 설정된 크기를 가지는 이미지를 부분 영역의 이미지로 판단하여 해당 부분 영역의 이미지가 포함된 이미지 정보를 생성할 수 있다.
이후, 정보 분석 장치는 플랫폼에 등록된 제2 사용자에 상응하는 복수의 사용자들의 단말을 의미할 수 있는 복수의 사용자 단말들 중 추출되지 않은 정보 항목에 상응하여 미리 매칭된 사용자의 단말을 확인할 수 있다. 여기서, 플랫폼에 등록된 제2 사용자는 도 1을 참조하여 설명된 바 있는 제2 사용자의 단말에 대한 사용자를 의미할 수 있다.
이와 같이 플랫폼에 등록된 제2 사용자의 단말을 의미하는 제2 사용자 단말은 복수의 정보 항목들과 미리 매칭된 상태일 수 있으며, 이하의 표 1과 같은 형태로 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 상태일 수 있다.
구분 정보 항목 사용자 단말 주소
1 사업자 등록번호 제1 주소 정보
2 법인 등록번호 제2 주소 정보
3 사업자 명칭 제3 주소 정보
4 법인 명칭 제4 주소 정보
... ... ...
예를 들어, 정보 분석 장치는 제1 표준 문서에 작성되지 않은 정보 항목이 '사업자 등록번호'인 경우, 표 1에 기초하여 '사업자 등록번호'에 상응하여 미리 매칭된 제1 주소 정보를 확인할 수 있다. 이후, 정보 분석 장치는 확인된 제1 주소 정보를 가지는 사용자의 단말로 부분 영역의 이미지가 포함된 이미지 정보를 전송할 수 있다.
이후, 정보 분석 장치는 사용자의 단말로부터 추출되지 않은 정보 항목에 상응하는 정보 항목의 내용에 대한 정보를 수신하여 추출되지 않은 정보 항목의 내용을 보정할 수 있다(S344).
즉, 정보 분석 장치는 추출되지 않은 정보 항목에 상응하는 정보 항목의 내용을 획득하기 위해 사용자의 단말로 이미지 정보를 전송할 수 있으며, 이에 대한 응답으로 사용자의 단말로부터 추출되지 않은 정보 항목에 상응하는 정보 항목의 내용에 대한 정보를 수신할 수 있다.
이후, 정보 분석 장치는 자동 문서 작성을 통해 작성된 복수의 정보 항목들 중 추출되지 않음으로 인해 작성되지 않은 정보 항목의 내용을 사용자의 단말로부터 수신하여 획득된 정보 항목의 내용에 대한 정보를 기반으로 작성함으로써 보정할 수 있다.
다시 말해, 정보 분석 장치는 자동 문서 작성을 통해 문서를 작성하는 과정에서 인공지능을 기반으로 수행된 알고리즘으로 작성되지 않은 정보 항목을 정보 항목에 상응하여 미리 매칭된 사용자의 단말로부터 획득함으로써 자동 문서 작성을 완성할 수 있음을 의미할 수 있다.
상술한 바와 같이 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치는 플랫폼에 등록된 복수의 문서들의 양식을 플랫폼에서 제공하는 표준의 양식으로 자동 문서 작성을 수행할 수 있어, 이를 통해 다양한 양식의 문서를 표준의 양식으로 변환하여 작성할 수 있다.
한편, 이하에서는 도 1 내지 도 4를 참조하여 설명된 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법에 대한 다른 실시예가 도 5를 참조하여 설명될 수 있으며, 이와 관련된 구체적인 과정은 도 1 내지 도 4를 참조하여 미리 설명된 내용과 유사 또는 동일할 수 있어 참조될 수 있다.
도 5는 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법에서 문서의 타입을 분류하는 방법을 도시한 개념도이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치는 도 5의 좌측에 도시된 바와 같은 문서를 자동 문서 작성의 대상으로 확인할 수 있으며, 도 5의 우측에 도시된 바와 같은 순서에 기초하여 문서의 유형을 분류할 수 있다. 여기서, 문서의 유형은 도 1 내지 도 4를 참조하여 미리 설명된 바 있는 문서의 타입을 의미할 수도 있으며, 문서에 포함된 복수의 정보 항목들을 문서의 타입이라 칭할 수도 있다.
다시 말해, 도 5를 참조하여 설명되는 문서의 유형을 분류하는 과정은 정보 분석 장치에서 플랫폼에 등록된 문서의 유형을 분류함으로써 문서에 포함된 복수의 정보 항목들을 추출할 수도 있으며, 문서의 타입을 분류하기 위한 과정을 의미할 수도 있다. 또한, 도 5를 참조하여 설명되는 문서의 유형을 분류하는 과정은 문서의 내용을 분석하여 플랫폼에 등록된 미리 설정된 문서의 유형에 해당하는 지를 판단하는 과정을 의미할 수도 있다.
먼저, 도 5의 좌측을 참조하면 정보 분석 장치는 문서에 대하여 제1 기준에 따른 위치 기반의 분석 및 제2 기준에 따른 정보의 형태 기반의 분석 중 적어도 하나의 분석을 수행함으로써 문서의 '서식 번호'정보 항목을 추출할 수 있다.
이후, 정보 분석 장치는 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 '서식 번호'정보 항목 중 추출된 '서식 번호'정보 항목과 동일한 서식 번호의 존재 여부를 확인할 수 있다.
예를 들어, 정보 분석 장치는 문서의 '서식 번호'정보 항목을 문서의 상단 좌측을 탐색하는 경우, 제1 기준에 따른 위치 기반의 분석을 수행할 수 있다. 또한, 정보 분석 장치는 문서의 '서식 번호'정보 항목을 '서식 번호'정보 항목의 형태를 이용하여 탐색하는 경우, 제2 기준에 따른 정보의 형태 기반의 분석을 수행할 수도 있다.
이때, 정보 분석 장치는 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 '서식 번호'정보 항목 중 추출된 '서식 번호'정보 항목과 동일한 서식 번호가 존재하는 경우, 해당하는 문서에서 복수의 정보 항목들을 추출하여 플랫폼에서 제공하는 표준의 양식으로 자동 문서 작성을 수행하 수 있다.
반면, 정보 분석 장치는 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 '서식 번호'정보 항목 중 추출된 '서식 번호'정보 항목과 동일한 서식 번호가 존재하지 않는 경우, '문서의 제목' 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 '문서의 제목'정보 항목 중 추출된 '문서의 제목'정보 항목과 동일한 문서의 제목의 존재 여부를 확인할 수 있다.
이때, 정보 분석 장치는 정보 분석 장치는 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 '문서의 제목'정보 항목 중 추출된 '문서의 제목'정보 항목과 동일한 문서의 제목 정보 항목이 존재하는 경우, 해당하는 문서에서 복수의 정보 항목들을 추출하여 플랫폼에서 제공하는 표준의 양식으로 자동 문서 작성을 수행하 수 있다.
반면, 정보 분석 장치는 정보 분석 장치는 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 '문서의 제목'정보 항목 중 추출된 '문서의 제목'정보 항목과 동일한 문서의 제목 정보 항목이 존재하지 않는 경우, 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 문서에 포함된 복수의 정보 항목들을 의미할 수 있는 구성 내용의 일치 여부에 대한 검사를 수행할 수 있다.
예를 들어, 정보 분석 장치는 문서에 포함된 복수의 정보 항목들을 기재된 명칭을 의미할 수 있는 표시 항목의 일치 여부에 대하여 확인할 수 있다. 또한, 정보 분석 장치는 복수의 정보 항목들의 명칭이 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 복수의 정보 항목들의 명칭과 동일한 비율이 미리 설정된 값 미만인 경우, 해당하는 문서를 인식할 수 없는 문서로 판단하여 경고 메시지를 출력할 수 있다.
반면, 정보 분석 장치는 정보 분석 장치는 복수의 정보 항목들의 명칭이 플랫폼의 서버 및 정보 분석 장치 중 적어도 하나에 미리 저장된 복수의 정보 항목들의 명칭과 동일한 비율이 미리 설정된 값 이상인 경우, 해당하는 문서에서 복수의 정보 항목들을 추출하여 플랫폼에서 제공하는 표준의 양식으로 자동 문서 작성을 수행하 수 있다.
즉, 상술한 바와 같은 방법을 통해 정보 분석 장치는 플랫폼에 등록된 복수의 문서들에 대하여 제1 기준에 따른 위치 기반의 분석 및 제2 기준에 따른 정보의 형태 기반의 분석 중 적어도 하나의 분석을 수행함으로써 문서에 포함된 복수의 정보 항목들을 추출하거나 인식할 수 없는 문서로 구분할 수 있다.
상술한 바와 같이 본 발명의 일 실시예에 따른 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법을 수행하는 정보 분석 장치는 플랫폼에 등록된 서로 다른 양식을 가지는 복수의 문서들에 대하여 분석을 수행함으로써 표준의 양식에 상응하는 문서로 작성될 수 있도록 지원할 수 있으며, 인공지능을 기반으로 추출되지 않은 정보 항목에 대해서 추가적인 보정을 수행함으로써 자동 문서 작성을 완성시킬 수 있는 효과가 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 정보 분석 장치 200: 제1 사용자 단말
300: 제2 사용자 단말 400: 정보 분석 장치
410: 프로세서 420: 메모리
430: 송수신 장치 440: 입력 인터페이스 장치
450: 출력 인터페이스 장치 460: 저장 장치
470: 버스

Claims (5)

  1. 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법으로서,
    상기 자동 문서 작성의 대상이 되는 문서에 포함된 정보를 분석하기 위해 미리 설정된 정보의 위치 기반의 분석을 수행하는 제1 기준에 따라 휴리스틱(heuristics) 방식의 알고리즘을 적용하여 제1 인공신경망을 학습시키는 단계;
    상기 문서에 포함되는 정보를 분석하기 위해정보의 형태 기반의 분석을 수행하는 제2 기준에 따라 상기 휴리스틱(heuristics) 방식의 알고리즘에 적용하여 제2 인공신경망을 학습시키는 단계;
    상기 자동 문서 작성을 지원하는 플랫폼에 등록된 복수의 문서들의 타입을 분류하여 분류된 타입에 기초하여 미리 매칭된 분석 알고리즘을 기반으로 상기 제1 인공신경망 및 상기 제2 인공신경망 중 적어도 하나를 선택함으로써 상기 복수의 문서들의 내용을 분석하여 상기 복수의 문서들에서 복수의 정보 항목들을 추출하는 단계;
    상기 추출된 복수의 정보 항목들이 상기 플랫폼에서 제공하는 표준의 문서 양식에 포함된 정보 항목에 적용되도록 작성하여 상기 복수의 문서들에 대하여 표준의 양식에 상응하는 문서로 작성되도록 인공지능을 기반으로 자동 문서 작성을 수행하는 단계; 및
    상기 자동 문서 작성을 통해 추출이 요구되는 복수의 정보 항목들의 추출 여부에 기초하여 추출되지 않은 정보 항목의 존재 여부에 따라 세부적인 보정을 수행하는 단계를 포함하는, 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법.
  2. 청구항 1에 있어서,
    상기 제1 인공신경망을 학습시키는 단계는,
    정형화된 형식을 갖는 복수의 문서 및 라벨링된 정보 항목을 입력 데이터로 하고, 각각의 정보 항목이 갖는 문서 내의 위치를 출력 데이터로서 지도 학습시키는 단계
    를 포함하고,
    상기 제1 기준에 따른 위치 기반의 분석은,
    상기 자동 문서 작성을 위해 분석의 대상이 되는 문서의 내용에 포함된 복수의 정보 항목들을 문서의 페이지 내에서 미리 지정된 영역에서 미리 설정된 위치를 탐색하여 추출하는 것을 특징으로 하는, 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법.
  3. 청구항 2에 있어서,
    상기 제2 인공신경망을 학습시키는 단계는,
    비정형화된 형식을 갖는 복수의 문서를 입력 데이터로 하고, 각각의 정보 항목의 형태를 출력 데이터로서 지도 학습시키는 단계
    를 포함하고,
    상기 제2 기준에 따른 정보의 형태 기반의 분석은,
    상기 자동 문서 작성을 위해 분석의 대상이 되는 문서의 내용에 포함된 복수의 정보 항목들을 문서의 페이지에 상응하는 영역에서 미리 설정된 텍스트 타입의 자릿수의 모음으로 형성된 정보 항목의 형태를 탐색하여 추출하는 것을 특징으로 하는, 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법.
  4. 청구항 3에 있어서,
    상기 복수의 정보 항목들을 추출하는 단계는,
    상기 복수의 문서들의 내용에 기초하여 타입을 정형화 문서 타입 및 비정형화 문서 타입으로 분류하여 분류된 타입에 미리 매칭된 분석 알고리즘을 기반으로 탐색하여 상기 복수의 문서들의 내용에서 복수의 정보 항목들을 추출하되,
    상기 정형화 문서 타입은 제1 기준을 기반으로 수행되는 분석 알고리즘을 통해 복수의 정보 항목들을 추출하고, 상기 비정형화 문서 타입은 제2 기준을 기반으로 수행되는 분석 알고리즘을 통해 복수의 정보 항목들을 추출하는 것을 특징으로 하는, 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법.
  5. 청구항 4에 있어서,
    상기 세부적인 보정을 수행하는 단계는,
    상기 표준의 양식에 상응하는 문서에 포함된 복수의 정보 항목들 중 추출되지 않은 정보 항목을 확인하여 추출되지 않은 정보 항목이 포함된 원본의 문서의 페이지에 대한 전체 영역 추출하는 단계;
    상기 추출된 페이지에 대한 전체 영역에서 상기 추출되지 않은 정보 항목이 포함되는 부분 영역을 추출하여 상기 추출된 부분 영역을 추가적인 보정이 필요한 영역으로 결정하는 단계;
    상기 결정된 부분 영역의 이미지가 포함된 이미지 정보를 생성하여 생성된 이미지 정보를 상기 추출되지 않은 정보 항목에 상응하여 미리 매칭된 사용자의 단말로 전송하는 단계; 및
    상기 사용자의 단말로부터 상기 추출되지 않은 정보 항목에 상응하는 정보 항목의 내용에 대한 정보를 수신하여 상기 추출되지 않은 정보 항목의 내용을 보정하는 단계를 포함하는 것을 특징으로 하는, 인공지능(artificial intelligence)을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 장치에서 수행되는 정보 분석 방법.
KR1020220034290A 2022-02-18 2022-03-18 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 KR102442350B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220021550 2022-02-18
KR20220021550 2022-02-18

Publications (1)

Publication Number Publication Date
KR102442350B1 true KR102442350B1 (ko) 2022-09-13

Family

ID=83286903

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220034290A KR102442350B1 (ko) 2022-02-18 2022-03-18 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102442350B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102523014B1 (ko) * 2022-12-29 2023-04-18 주식회사 웨이브릴 인공지능과 블록체인을 이용한 온라인 거래문서 관리 방법 및 장치, 시스템
KR102639207B1 (ko) * 2023-07-03 2024-02-21 주식회사 아이리스테크놀로지 자동 문서작성 시스템, 그 방법 및, 그 방법을 수행하는프로그램을 저장하는 기록매체
KR102670871B1 (ko) * 2023-12-12 2024-05-30 주식회사 바티에이아이 Ai 기반의 확장 가능한 api 앱 노코드 rpa 업무 자동화 구독서비스 플랫폼 제공 방법, 장치 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102004981B1 (ko) 2018-03-07 2019-07-30 주식회사 한글과컴퓨터 선택된 단어에 대한 자동 설명 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
KR20190131631A (ko) * 2018-04-19 2019-11-27 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR102201930B1 (ko) * 2019-11-07 2021-01-12 신현준 문서 정보를 포함한 이미지 파일의 자동 문서화 장치 및 방법
KR20210017916A (ko) * 2019-08-09 2021-02-17 권형석 실물 명함 이미지와 문자영역 정보를 이용한 데이터 관리방법 및 시스템.
KR102294364B1 (ko) * 2021-05-24 2021-08-27 김희대 인공지능 기반 문서 자동 변환 시스템 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102004981B1 (ko) 2018-03-07 2019-07-30 주식회사 한글과컴퓨터 선택된 단어에 대한 자동 설명 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
KR20190131631A (ko) * 2018-04-19 2019-11-27 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
KR20210017916A (ko) * 2019-08-09 2021-02-17 권형석 실물 명함 이미지와 문자영역 정보를 이용한 데이터 관리방법 및 시스템.
KR102201930B1 (ko) * 2019-11-07 2021-01-12 신현준 문서 정보를 포함한 이미지 파일의 자동 문서화 장치 및 방법
KR102294364B1 (ko) * 2021-05-24 2021-08-27 김희대 인공지능 기반 문서 자동 변환 시스템 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102523014B1 (ko) * 2022-12-29 2023-04-18 주식회사 웨이브릴 인공지능과 블록체인을 이용한 온라인 거래문서 관리 방법 및 장치, 시스템
KR102639207B1 (ko) * 2023-07-03 2024-02-21 주식회사 아이리스테크놀로지 자동 문서작성 시스템, 그 방법 및, 그 방법을 수행하는프로그램을 저장하는 기록매체
KR102670871B1 (ko) * 2023-12-12 2024-05-30 주식회사 바티에이아이 Ai 기반의 확장 가능한 api 앱 노코드 rpa 업무 자동화 구독서비스 플랫폼 제공 방법, 장치 및 시스템

Similar Documents

Publication Publication Date Title
KR102442350B1 (ko) 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치
US9626555B2 (en) Content-based document image classification
US11455784B2 (en) System and method for classifying images of an evidence
US9454545B2 (en) Automated field position linking of indexed data to digital images
US20210192129A1 (en) Method, system and cloud server for auto filing an electronic form
US20200184957A1 (en) Augmented intent and entity extraction using pattern recognition interstitial regular expressions
US20150278747A1 (en) Methods and systems for crowdsourcing a task
CN110363222B (zh) 用于模型训练的图片标注方法、装置、计算机设备及存储介质
CN110059688B (zh) 图片信息识别方法、装置、计算机设备和存储介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN113938481A (zh) 回单处理方法、处理装置、电子设备及可读存储介质
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN116384344A (zh) 一种文档转换方法、装置及存储介质
US20230125177A1 (en) Methods and systems for matching and optimizing technology solutions to requested enterprise products
US20220172301A1 (en) System and method for clustering an electronic document that includes transaction evidence
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
CN115223183A (zh) 一种信息提取方法、装置及电子设备
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN114626341A (zh) 文档转换方法、装置及存储介质
CN113742559A (zh) 关键词检测方法和装置、电子设备、存储介质
US10891323B1 (en) Processing and delivery of private electronic documents
US11854286B2 (en) Image-based document analysis using neural networks
US20210342901A1 (en) Systems and methods for machine-assisted document input
US20240046676A1 (en) Systems and methods for detecting user created circular shaped indications using machine learning models
US20230140546A1 (en) Randomizing character corrections in a machine learning classification system

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant