KR102321707B1 - 비정형 문서의 활용을 위한 데이터 가공 방법 - Google Patents

비정형 문서의 활용을 위한 데이터 가공 방법 Download PDF

Info

Publication number
KR102321707B1
KR102321707B1 KR1020210032747A KR20210032747A KR102321707B1 KR 102321707 B1 KR102321707 B1 KR 102321707B1 KR 1020210032747 A KR1020210032747 A KR 1020210032747A KR 20210032747 A KR20210032747 A KR 20210032747A KR 102321707 B1 KR102321707 B1 KR 102321707B1
Authority
KR
South Korea
Prior art keywords
document
information
analysis
data
layout
Prior art date
Application number
KR1020210032747A
Other languages
English (en)
Other versions
KR102321707B9 (ko
Inventor
오세용
길해진
김성준
Original Assignee
오세용
주식회사 에스에이티정보
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오세용, 주식회사 에스에이티정보 filed Critical 오세용
Priority to KR1020210032747A priority Critical patent/KR102321707B1/ko
Application granted granted Critical
Publication of KR102321707B1 publication Critical patent/KR102321707B1/ko
Publication of KR102321707B9 publication Critical patent/KR102321707B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06K9/00442
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

비정형 문서의 활용을 위한 데이터 가공 방법이 개시된다. 본 발명의 일측면에 따른 컴퓨팅 장치에서 수행되는 비정형 문서의 활용을 위한 데이터 가공 방법은, 입력문서의 레이아웃을 분석하여 문서데이터를 추출하는 단계; 문서데이터 내에서 미리 설정된 규칙에 따른 핵심텍스트에 대한 핵심정보를 추출하는 단계; 핵심정보를 구조화한 구조화데이터를 생성하는 단계; 및 구조화데이터를 활용하는 단계를 포함한다.

Description

비정형 문서의 활용을 위한 데이터 가공 방법 {Data processing method for utilization of unstructured documents}
본 발명은 비정형 문서의 활용을 위한 데이터 가공 방법에 관한 것이다.
최근에는 빅데이터를 분석하여 의미있는 정보를 도출해 금융, 언론, 공공부문 등다양한 분야에 활용하고자 하는 니즈가 커가고 있다. 특히 실시간 데이터로부터 중요한 정보를 확인, 분류, 결정하는 머신러닝 기술을 활용하여 고객별 의미분석으로 맞춤형 API를 제공한다. 예를 들어, 공공부문 대상 서비스의 경우 총격, 화재, 교통사고, 재난재해 등 공공안전과 관련된 의미있는 실시간 정보를 가장 먼저 관련기관에 전달할 수 있따.
이러한 빅데이터 기술 및 머신러닝을 이용함에 따라 기계학습을 통해 단순히 데이터만으로 문서를 작성하거나, 기초적인 수준의 보고서 작성을 컴퓨터가 대신할 수도 있다.
그러나, 다양한 형식으로 작성된 비정형 문서를 활용하기 위해서는 수집 및 분류, 분석, 시각화 등의 단계를 거치는데 각 단계별로 비정형 문서를 정규화함에 있어 많은 인적 노력이 필요하다.
비정형 문서의 경우 DB/Table처럼 의미가 명확하게 정의 될 수 있는 정형데이터와 달리 확실한 기준점이 없다. 또한 불규칙성과 모호성 때문에 정의하고 이해하기가 어려우며, 데이터로부터 찾고자 하는 결과를 얻을 수 있는 방법을 구하기가 어려운 실정이다
한국등록특허공보 제 10-0759186 호 (비구조 웹문서 및 데이터베이스의 다양한 정보를 웹서비스로 제공하기 위한 웹서비스 제공 시스템 및 그방법)
따라서, 본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 비정형 문서에 대해 인공지능 로봇 등의 머신이 이해할 수 형태로 정형화함으로써, 다양한 분야에 보다 신속하고 정확히 활용할 수 있는 비정형 문서의 활용을 위한 데이터 가공 방법 및 그 방법을 수행하는 프로그램이 기록된 기록매체를 제공하기 위한 것이다.
또한, 본 발명은 비정형 문서의 구조화된 데이터의 획득의 신뢰성을 높일 수 있는 비정형 문서의 활용을 위한 데이터 가공 방법 및 그 방법을 수행하는 프로그램이 기록된 기록매체를 제공하기 위한 것이다.
본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확해질 것이다.
본 발명의 일 측면에 따르면, 컴퓨팅 장치에서 수행되는 비정형 문서의 활용을 위한 데이터 가공 방법에 있어서, 입력문서의 레이아웃을 분석하여 문서데이터를 추출하는 단계; 상기 문서데이터 내에서 미리 설정된 규칙에 따른 핵심텍스트에 대한 핵심정보를 추출하는 단계; 상기 핵심정보를 구조화한 구조화데이터를 생성하는 단계; 및 상기 구조화데이터를 활용하는 단계를 포함하는, 비정형 문서의 활용을 위한 데이터 가공 방법 및, 그 방법을 수행하기 위한 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체가 제공된다.
여기서, 상기 구조화데이터에 대한 검증 단계를 더 포함하되, 상기 검증 단계는, 상기 핵심정보에서 상기 핵심텍스트의 문서상의 위치정보를 추출하는 단계; 상기 레이아웃에 대한 정보, 상기 핵심정보 및 상기 위치정보를 이용한 분석문서를 생성하는 단계; 및 상기 입력문서에서 상기 위치정보에 따른 영역을 제외한 나머지 영역의 정보는 삭제된 검증용문서와 상기 분석문서를 이미지 비교하여 검증하는 단계를 포함한다.
또한, 상기 검증에 대한 수행 결과 미리 설정된 임계값 이하의 일치율인 경우, 상기 입력문서를 이용한 관리자단말과 상담서비스를 진행하는 단계; 상기 상담서비스에 의해 취득되는 음성 또는 텍스트 정보를 분석하여 상기 분석문서를 수정하는 단계; 및 상기 수정된 분석문서로부터 취득된 수정핵심정보를 상기 구조화데이터에 반영하는 단계를 더 포함한다.
또한, 복수개의 입력문서를 이용하여 생성한 복수개의 분석문서를 서로 비교하여, 대표 레이아웃을 생성하는 단계; 및 상기 대표 레이아웃으로 각 분석문서를 변형하여 저장하는 단계를 더 포함한다.
또한, 신규 입력문서의 레이아웃이 기존 분석한 입력문서와 동일한 경우 상기 대표 레이아웃으로 신규 입력문서를 변형한 이후 구조화 프로세스를 수행한다.
본 발명에 따르면, 비정형 문서에 대해 구조화한 데이터를 생성함으로써, 인공지능 로봇 등의 머신이 이해할 수 형태로 정형하여 다용도로 활용할 수 있다.
또한, 본 발명에 따르면 구조화한 데이터를 이용한 문서를 재생성하여 비교 검증함으로써 보다 신뢰성 높은 정형화를 수행할 수 있다.
또한, 본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 비정형 문서의 활용을 위한 문서 가공장치에의 처리 과정을 도시한 흐름도.
도 2는 본 발명의 일례에 따른 비정형 문서를 도시한 예시도.
도 3은 본 발명의 일 실시예에 따른 구조화데이터의 검증 과정을 도시한 흐름도.
도 4 및 도 5는 본 발명의 일 실시예에 따른 검증용문서와 분석문서 및 그 비교결과를 도시한 예시도들.
도 6은 본 발명의 일 실시예에 따른 구조화데이터의 검증 결과에 대응한 수정 프로세스를 도시한 흐름도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 후술될 제1 임계값, 제2 임계값 등의 용어는 실질적으로는 각각 상이하거나 일부는 동일한 값인 임계값들로 미리 지정될 수 있으나, 임계값이라는 동일한 단어로 표현될 때 혼동의 여지가 있으므로 구분의 편의상 제1, 제2 등의 용어를 병기하기로 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 각 도면을 참조하여 설명하는 실시예의 구성 요소가 해당 실시예에만 제한적으로 적용되는 것은 아니며, 본 발명의 기술적 사상이 유지되는 범위 내에서 다른 실시예에 포함되도록 구현될 수 있으며, 또한 별도의 설명이 생략될지라도 복수의 실시예가 통합된 하나의 실시예로 다시 구현될 수도 있음은 당연하다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 비정형 문서의 활용을 위한 문서 가공장치에의 처리 과정을 도시한 흐름도이고, 도 2는 본 발명의 일례에 따른 비정형 문서를 도시한 예시도이다.
도 1을 참조하면, 워드파일, 한글파일, PDF와 같은 미리 구조에 대한 정보가 없는 비정형문서(10)가 입력문서로서 문서 가공장치(30)에 입력되면, 문서 가공장치(30)는 입력문서의 레이아웃(layout)을 분석하여 문서데이터를 추출한다(S31).
일반적으로 레이아웃이란 글이나 그림을 효과적으로 정리하고 배치하는 일로서, 본 실시예에서의 레이아웃은 문서 내의 배치 구조라 말할 수 있다. 즉, 도 2를 함께 참조하여 예를 들면, 입력문서는 페이지 내에 [기본정보]와 [가입정보]가 위아래 배치되고, 다른 글자크기로 위 및 아래 일측에 텍스트가 배치되는 구조라 말할 수 있다. 물론 이는 하나의 예시일 뿐이며, 문서 가공장치(30)는 레이아웃의 분석에 의한 문서데이터로서 각 영역의 항목정보(예를 들어, 기본정보의 이름, 나이, 성별, 주소 등), 각 항목의 위치정보, 글자크기 정보, 텍스트 내용, 텍스트 간의 관계 등을 추출한다.
그리고, 문서 가공장치(30)는 문서데이터 내에서 미리 설정된 규칙에 따른 핵심텍스트에 대한 핵심정보를 추출한다. 예를 들어, 문서 내에 [이름]이라는 텍스트는 핵심텍스트로서 추출하며, 해당 텍스트의 글자크기, 문서상의 위치, 대응된 텍스트(예를 들어, 홍길동) 등에 대한 정보가 핵심정보로서 추출 및 생성된다.
생성된 핵심정보를 구조화한 구조화데이터를 생성하며(S33), 필요시 구조화데이터를 활용하기 위한 가공데이터(50)를 생성하여 제공한다(S34). 예를 들어, 구조화데이터에서 개인정보(이름, 주소 등)를 비식별화하여 보안을 강화한 가공을 수행하고, 이를 활용한다. 예를 들어, 도 2의 경우 [40대 서울 거주 남성의 24개월 적금 가입]이라는 가공데이터(50)를 얻을 수 있다.
본 실시예에 따르면, 입력문서의 레이아웃을 분석함으로써 문서구조를 확인하고, 핵심텍스트를 추출하여 그 관계에 대한 정보, 위치정보 등을 포함하는 핵심정보를 이용하여 구조화데이터를 생성하여 정형화함으로써, 서로 다른 비정형문서들에 대해서도 통합적인 활용 서비스를 제공할 수 있다.
여기서, 비정형문서에 대한 분석에 의해 정형적인 구조화데이터를 추출함에 있어, 오류를 최소화하여 신뢰성을 높이기 위한 검증 단계를 더 수행할 수 있다.
도 3은 본 발명의 일 실시예에 따른 구조화데이터의 검증 과정을 도시한 흐름도이고, 도 4 및 도 5는 본 발명의 일 실시예에 따른 검증용문서와 분석문서 및 그 비교결과를 도시한 예시도들이다.
도 3을 참조하면, 구조화데이터에 대한 검증 과정은 먼저 핵심정보에서 핵심텍스트의 문서상의 위치정보를 추출한다(S310). 구조화데이터로서 이용된 모든 텍스트들의 문서상의 위치정보를 확인하는 것이다.
구조화데이터로서 저장된 레이아웃에 대한 정보, 핵심정보(즉 핵심텍스트) 및 그 위치정보를 이용한 분석문서를 생성한다(S320). 즉 저장된 레이아웃 정보에 따른 전체적인 레이아웃을 생성하고, 핵심키워드들을 그들의 위치에 위치시킴으로써 분석문서를 생성한다.
도 2와 도 4를 함께 참조하면, 도 2의 입력문서와 비교하여 분석문서(420)에서는 핵심텍스트만이 표시될 것이다.
그리고, 도 4의 참조번호 410은 입력문서에서 핵심키워드의 위치정보에 따른 영역을 제외한 나머지 영역은 삭제함으로써 생성되는 검증용문서이다.
문서 가공장치(30)는 입력문서에서 핵심텍스트의 위치정보에 따른 영역을 제외한 나머지 영역의 정보는 삭제된 검증용문서와 상술한 분석문서를 이미지 비교함으로써, 구조화데이터에 대한 검증을 수행한다(S330).
다시 말해, 입력문서에서 핵심텍스트 영역만을 남기고 나머지 영역(411)은 삭제한 검증용문서와, 입력문서의 분석에 의해 생성한 핵심정보를 이용하여 다시 생성한 분석문서를 서로 이미지 비교함으로써 구조화데이터의 검증을 수행하는 것이다.
도 4에 따른 각 문서이미지 간의 비교 결과를 도시한 도 5를 참조하면, 참조번호 510과 같은 차이만이 확인될 것이다. 즉 분석문서에서 [최저 연 0.1%]의 텍스트 위치만이 잘못 인식된 것이므로, 이 경우 일치율은 미리 설정된 임계값 이상으로 산출될 것이므로, 검증은 정상으로 처리된다.
도 6은 본 발명의 일 실시예에 따른 구조화데이터의 검증 결과에 대응한 수정 프로세스를 도시한 흐름도이다.
도 6을 참조하면, 입력문서의 분석에 의해 생성한 구조화데이터를 검증하고(S610), 검증에 의해 산출되는 분석문서와 검증용문서의 이미지 비교에 따른 일치율이 미리 설정된 임계값 이하인지 여부를 확인한다(S620).
일치율이 임계값을 초과하는 경우 구조화데이터를 저장하고 정상적으로 활용한다(S630).
이와 달리 일치율이 임계값 이하인 경우, 입력문서(및 분석문서)를 이용한 관리자단말과 상담서비스를 진행한다(S640). 예를 들어 미리 설정된 관리자단말로 입력문서와 함께 분석문서를 스캔한 화면을 송부하여 표시되도록 하고, 인공지능 상담사를 이용하여 구조화데이터를 기반으로 음성 통화 및/또는 채팅방식의 상담을 진행한다.
상담서비스 진행에 의해 취득되는 관리자단말로부터의 음성 또는 텍스트를 분석하여 분석문서를 수정한다(S650). 일례에 따르면, 전화통화 또는 채팅채널을 관리자단말과 연결한 상태에서, “이름이 OOO이 맞습니까?”라는 질문을 하거나, “중요한 핵심 내용을 확인해주세요”라는 멘트를 보내고, 관리자단말로부터 수신되는 텍스트정보 또는 음성정보를 분석하여 필요한 정보를 추출한다. 예를 들어, 관리자는 입력문서와 분석문서를 함께 확인하며 분석문서에서 수정해야 할 부분을 찾아 관련 정보를 제공한다. 이때 관리자가 서로 다른 부분을 쉽게 확인할 수 있도록, 분석문서와 검증용문서의 이미지 비교 시 일치하지 않는 영역에 대한 정보를 분석문서 또는 입력문서에 표시해줄 수도 있다. 그리고, 상담에 의해 추출된 정보를 기반으로 먼저 분석문서(즉, 구조화데이터를 이용하여 생성한 문서)를 갱신하며, 갱신된 분석문서로부터 취득된 수정핵심정보를 구조화데이터에 반영하여 수정한다(S660).
본 실시예에서는 분석문서를 먼저 수정하고, 분석문서를 기반으로 구조화데이터를 갱신하는 방식을 일례로 하였으나, 상담서비스에 의해 획득된 정보를 기반으로 구조화데이터를 먼저 수정하고 이에 따라 분석문서를 수정할 수도 있으며, 또한 재검증을 위해 새로이 갱신된 구조화데이터를 기반으로 분석문서를 수정하고 재검증을 수행할 수도 있다.
도면에는 도시되지 않았으나, 일례에 따르면 문서 갱신장치(30)는 복수개의 입력문서를 이용하여 생성한 복수개의 분석문서를 서로 비교하여, 대표 레이아웃을 생성하며, 대표 레이아웃으로 각 분석문서를 변형하여 저장 및 관리할 수도 있다. 다시 말해, 서로 다른 레이아웃을 갖는 비정형 문서들에서 핵심정보만을 도출하여 생성하는 분석문서에 대해, 동일한 레이아웃을 갖도록 하나의 대표 레이아웃을 생성하여 각 분석문서들을 변형하는 것이다. 이에 따르면, 모든 입력문서를 핵심정보들로만 구성한 분석문서로서 관리할 수 있으며, 더욱이 통일된 레이아웃으로 관리함으로써 관리 및 활용의 편의성이 증대된다.
대표 레이아웃의 설정방식으로는, 입력문서들 중 동일한 레이아웃을 가진 것으로 확인되는 것들을 그룹화하고, 가장 많은 개수를 가진 그룹의 레이아웃을 기반으로 대표 레이아웃을 설정한다. 물론 대표 레이아웃은 그룹에 따라 복수개가 이용될 수도 있다.
그리고, 신규로 입력문서가 입력되면, 신규 입력문서의 레이아웃이 기존에 분석된 입력문서의 레이아웃과 동일한 경우, 대표 레이아웃으로 신규 입력문서를 변형한 이후 구조화 프로세스(즉, S32~S34)를 수행한다. 이에 따라 문서의 분석 속도 및 정확도가 높아질 수 있다.
상술한 본 발명에 따른 비정형 문서의 활용을 위한 데이터 가공 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
또한, 상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 비정형문서
30 : 문서 가공장치
50 : 가공데이터

Claims (6)

  1. 컴퓨팅 장치에서 수행되는 비정형 문서의 활용을 위한 데이터 가공 방법에 있어서,
    입력문서의 레이아웃을 분석하여 문서데이터를 추출하는 단계;
    상기 문서데이터 내에서 미리 설정된 규칙에 따른 핵심텍스트에 대한 핵심정보를 추출하는 단계;
    상기 핵심정보를 구조화한 구조화데이터를 생성하는 단계;
    상기 구조화데이터를 활용하는 단계; 및
    상기 구조화데이터에 대한 검증 단계를 포함하되,
    상기 검증 단계는,
    상기 핵심정보에서 상기 핵심텍스트의 문서상의 위치정보를 추출하는 단계;
    상기 레이아웃에 대한 정보, 상기 핵심정보 및 상기 위치정보를 이용한 분석문서를 생성하는 단계; 및
    상기 입력문서에서 상기 위치정보에 따른 영역을 제외한 나머지 영역의 정보는 삭제된 검증용문서와 상기 분석문서를 이미지 비교하여 검증하는 단계를 포함하며,
    상기 검증에 대한 수행 결과 미리 설정된 임계값 이하의 일치율인 경우,
    상기 입력문서를 이용한 관리자단말과 상담서비스를 진행하는 단계;
    상기 상담서비스에 의해 취득되는 음성 또는 텍스트 정보를 분석하여 상기 분석문서를 수정하는 단계; 및
    상기 수정된 분석문서로부터 취득된 수정핵심정보를 상기 구조화데이터에 반영하는 단계를 더 포함하고,
    복수개의 입력문서를 이용하여 생성한 복수개의 분석문서를 서로 비교하여, 대표 레이아웃을 생성하는 단계; 및
    상기 대표 레이아웃으로 각 분석문서를 변형하여 저장하는 단계를 더 포함하는, 비정형 문서의 활용을 위한 데이터 가공 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 청구항 1에 있어서,
    신규 입력문서의 레이아웃이 기존 분석한 입력문서와 동일한 경우 상기 대표 레이아웃으로 신규 입력문서를 변형한 이후 구조화 프로세스를 수행하는, 비정형 문서의 활용을 위한 데이터 가공 방법.
  6. 제 1항의 방법을 수행하기 위한 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어가 저장된 기록 매체.
KR1020210032747A 2021-03-12 2021-03-12 비정형 문서의 활용을 위한 데이터 가공 방법 KR102321707B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210032747A KR102321707B1 (ko) 2021-03-12 2021-03-12 비정형 문서의 활용을 위한 데이터 가공 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210032747A KR102321707B1 (ko) 2021-03-12 2021-03-12 비정형 문서의 활용을 위한 데이터 가공 방법

Publications (2)

Publication Number Publication Date
KR102321707B1 true KR102321707B1 (ko) 2021-11-04
KR102321707B9 KR102321707B9 (ko) 2022-04-11

Family

ID=78521539

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210032747A KR102321707B1 (ko) 2021-03-12 2021-03-12 비정형 문서의 활용을 위한 데이터 가공 방법

Country Status (1)

Country Link
KR (1) KR102321707B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100759186B1 (ko) 2006-05-29 2007-09-14 주식회사 케이티 비구조 웹문서 및 데이터베이스의 다양한 정보를웹서비스로 제공하기 위한 웹서비스 제공 시스템 및 그방법
JP2010102668A (ja) * 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd メタデータ抽出装置およびその方法
JP2014068770A (ja) * 2012-09-28 2014-04-21 Sumitomo Bakelite Co Ltd 薬剤包装用シート、薬剤包装用ブリスターパック、および薬剤包装体
KR101614792B1 (ko) * 2015-05-21 2016-04-22 주식회사 가이스트코리아 빅 데이터 시각화를 위한 3d 인포그래픽 제작 시스템
KR20190110873A (ko) * 2018-03-21 2019-10-01 주식회사 피앤피소프트 비정형 텍스트 이미지에서 텍스트 데이터를 추출하는 방법 및 장치
US20210027054A1 (en) * 2018-09-28 2021-01-28 American Express Travel Related Services Company, Inc. Data extraction and duplicate detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100759186B1 (ko) 2006-05-29 2007-09-14 주식회사 케이티 비구조 웹문서 및 데이터베이스의 다양한 정보를웹서비스로 제공하기 위한 웹서비스 제공 시스템 및 그방법
JP2010102668A (ja) * 2008-10-27 2010-05-06 Hitachi Software Eng Co Ltd メタデータ抽出装置およびその方法
JP2014068770A (ja) * 2012-09-28 2014-04-21 Sumitomo Bakelite Co Ltd 薬剤包装用シート、薬剤包装用ブリスターパック、および薬剤包装体
KR101614792B1 (ko) * 2015-05-21 2016-04-22 주식회사 가이스트코리아 빅 데이터 시각화를 위한 3d 인포그래픽 제작 시스템
KR20190110873A (ko) * 2018-03-21 2019-10-01 주식회사 피앤피소프트 비정형 텍스트 이미지에서 텍스트 데이터를 추출하는 방법 및 장치
US20210027054A1 (en) * 2018-09-28 2021-01-28 American Express Travel Related Services Company, Inc. Data extraction and duplicate detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPWO2014068770 A1

Also Published As

Publication number Publication date
KR102321707B9 (ko) 2022-04-11

Similar Documents

Publication Publication Date Title
US11507740B2 (en) Assisting authors via semantically-annotated documents
JP6901816B2 (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
WO2020207167A1 (zh) 文本分类方法、装置、设备及计算机可读存储介质
US11810070B2 (en) Classifying digital documents in multi-document transactions based on embedded dates
US7996227B2 (en) System and method for inserting a description of images into audio recordings
US11914968B2 (en) Official document processing method, device, computer equipment and storage medium
EP3665597A1 (en) Method and system for suggesting revisions to an electronic document
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
JP2009515253A (ja) 草稿文書における編集パターンの自動検出及び適用
CN103092967A (zh) 一种基于规则引擎的业务规则决策方法及装置
US20140212040A1 (en) Document Alteration Based on Native Text Analysis and OCR
US20190095439A1 (en) Content pattern based automatic document classification
US20130035929A1 (en) Information processing apparatus and method
US11526692B2 (en) Systems and methods for domain agnostic document extraction with zero-shot task transfer
US10108591B2 (en) Comparing markup language files
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
CN112926299A (zh) 一种文本比对方法、合同审阅方法、审核系统
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN111046627A (zh) 一种中文文字显示方法及系统
BR102018074370A2 (pt) Sistemas e métodos para segmentar texto interativo de sessão
KR102321707B1 (ko) 비정형 문서의 활용을 위한 데이터 가공 방법
US20200302076A1 (en) Document processing apparatus and non-transitory computer readable medium
BRPI0506188B1 (pt) Method and system for interacting with a tree structure
KR102553511B1 (ko) 비디오를 처리하는 방법, 장치, 전자 기기 및 저장 매체
CN110888896A (zh) 数据搜寻方法及其数据搜寻系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]