WO2018080278A1

WO2018080278A1 - 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법

Info

Publication number: WO2018080278A1
Application number: PCT/KR2017/012140
Authority: WO
Inventors: 정병준; 임준원; 임지현; 한현민
Original assignee: 주식회사 뉴스젤리
Priority date: 2016-10-31
Filing date: 2017-10-31
Publication date: 2018-05-03
Also published as: KR101746825B1

Abstract

본 발명의 일 실시예는 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계; 상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계; 변환이 완료된 상기 데이터에서 사용자가 활용하고자 하는 희망 데이터 영역 후보들을 추정하는 희망 데이터 영역 후보 추정 단계; 추정된 상기 희망 데이터 영역 후보들에 대해, 활용도를 평가하는 희망 데이터 영역 평가 단계; 상기 평가 결과에 따라 상기 희망 데이터 영역 후보들에게 우선순위를 부여하는 우선순위 도출 단계; 및 우선순위가 부여된 상기 희망 데이터 영역 후보들 중에서 최우선 데이터 영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법을 제공한다.

Description

데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법

본 발명은 희망 데이터 영역을 추출하는 방법에 관한 것으로, 더욱 상세하게는 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법에 관한 것이다.

전 세계 국가에 인터넷이 보편화 되고 이를 통해 전달되는 데이터의 중요성이 날로 높아지고 있는 상황에서, 데이터 활용을 보다 효과적으로 수행하기 위한 다양한 기술들은 빠르게 발전하고 있다.

하지만, 데이터 생산자의 범위가 넓어짐에 따라 생산되는 데이터의 포멧 (format, 예를 들어 특정 파일 또는 문서 내에서 데이터가 저장되어 있는 형식, 문서 내 데이터의 위치 등) 및/또는 구조 (structure, 예를 들어 특정 테이블 내에서 데이터의 배치, 각 데이터 단위의 형식, 데이터 값의 종류 등) 는 각 생산자의 기호가 반영되어 갈수록 다양해지는 실정이고, 이처럼, 다양항 방식으로 생산되고 축적된 데이터 집단에서 제 3 의 사용자가 활용하고자 하는 희망 데이터 영역을 추출하는 것에는 많은 문제점이 뒤따른다.

따라서, 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단에 대해, 이러한 데이터 집단을 파싱 (parsing) 가능한 형태로 변환하고, 희망 데이터 영역을 추출하는 기술이 필요하다.

본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단에 대해, 이러한 데이터 집단을 파싱 (parsing) 가능한 형태로 변환하고, 희망 데이터 영역을 추출하는 방법을 제공하는 것이다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면은 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계; 상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계; 변환이 완료된 상기 데이터에서 사용자가 활용하고자 하는 희망 데이터 영역 후보들을 추정하는 희망 데이터 영역 후보 추정 단계; 추정된 상기 희망 데이터 영역 후보들에 대해, 활용도를 평가하는 희망 데이터 영역 평가 단계; 상기 평가 결과에 따라 상기 희망 데이터 영역 후보들에게 우선순위를 부여하는 우선순위 도출 단계; 및 우선순위가 부여된 상기 희망 데이터 영역 후보들 중에서 최우선 데이터 영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법을 제공한다.

일 실시예에 있어서, 상기 우선순위 도출 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고, 상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.

일 실시예에 있어서, 상기 희망 데이터 영역 후보 추정 단계는, 연속 배열된 데이터 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.

일 실시예에 있어서, 상기 희망 데이터 영역 후보 추정 단계는, 데이터의 셀 단위에서, 셀 단위 데이터의 타입을 추출하는 단계; 및 추출된 타입에 부합되는 데이터 셀만을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.

일 실시예에 있어서, 상기 희망 데이터 영역 후보 추정 단계는, 데이터 필드 단위에서, 동일한 데이터 타입의 비중이 특정비율 이상인 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.

또한, 상기와 같은 목적을 달성하기 위해, 본 발명의 또 다른 일 측면은 데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계; 사용자가 활용하고자 하는 희망 데이터 영역이 갖는 규칙을 입력받는 희망 데이터 규칙 획득 단계; 상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계; 변환이 완료된 상기 데이터 내의 일영역이 상기 규칙에 부합되는지 판단하는 규칙 적용 단계; 및 상기 규칙 적용 결과 상기 데이터 내의 일영역이 상기 규칙에 부합될 경우에 상기 일영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법을 제공한다.

일 실시예에 있어서, 상기 규칙 적용 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고, 상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법일 수 있다.

본 발명의 일 측면에 따르면, 데이터 획득 단계 내지 최종 희망 데이터 영역 추출 단계를 통해, 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단으로부터 사용자가 활용하고자 하는 희망 데이터 영역이 자동으로 신속하게 추출될 수 있다.

이로써, 사용자는 데이터 집단의 포멧 및/또는 구조에 구애받지 않고 원하는 데이터 부분을 획득할 수 있어서 데이터 활용도를 높일 수 있다.

나아가, 사용자가 원시 데이터 집단의 포멧 및/또는 구조를 별도로 파악해야하는 노력이 필요치 않게 되어, 데이터 접근성이 향상된다.

본 발명의 다른 측면에 따르면, 데이터 획득 및 희망 데이터 규칙을 함께 획득함으로써, 희망 데이터 영역 추출의 정확도를 향상시킬 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1 은 본 발명의 일 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

도 2 내지 도 5 는 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

도 6 은 본 발명의 또 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 용어의 설명은 본 명세서의 이해를 돕기 위한 것으로서 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.

- 파싱 (Parsing)

파서 (parser) 역할을 하는 컴퓨터가 문장 단위의 문자열을 의미 있다고 여겨지는 토큰 (token) 으로 분류하고 이를 구문 트리 (parse tree) 로 재구성하는 구문 분석 과정을 의미한다. 파싱 과정에서 부호에 불과한 일련의 문자열이 기계어로 번역되어 유의미한 의미 단위가 된다.

한편, 구문 분석이란 일련의 문자로 나열된 문장 내에서 의미 단위를 떼어내는 작업으로서, 이러한 의미 단위가 중심적인 요소인지 교착되는 요소인지 등의 위계를 정하고 분류하는 행위까지를 포함할 수 있다.

- 셀 (Cell)

스프레드시트 프로그램 등에서 데이터가 입력되는 기본 영역으로서, 스프레드시트의 기본적인 형태를 구성하는 가로와 세로 격자 모양인 행과 열의 상호 교차에 의해 만들어지는 사각형 영역이다.

- 필드 (Field)

컴퓨터의 명령어와 같은 일단의 데이터 중에서 고정된 위치의 범위를 의미한다. 예를 들어, 하나의 레코드 중에서 특정 종류의 데이터를 위해서 사용되는 지정된 영역을 의미할 수 있다.

- 컴퓨터 (Computer)

데이터를 파싱 (Parsing) 가능한 형태로 변환하고 변환된 데이터로부터 사용자가 활용하고자 하는 희망 데이터 영역 추출을 수행하는 엔진을 실행할 수 있다. 일 실시예에서, 컴퓨터는 메모리나 서버, 인터넷 등과 같은 로컬 또는 원격 저장 장치로부터 데이터를 얻는다. 다른 실시예에서, 컴퓨터에서 실행되는 애플리케이션 프로그램을 사용하여 데이터가 컴퓨터에서 생성된다.

컴퓨터는 사용자 또는 기타 엔티티로부터 입력 또는 피드백을 얻어 이를 적용하도록 구성될 수 있다. 피드백은 출력에 관한 사용자 또는 기타 엔티티의 선호도를 이해하기 위해 컴퓨터에서 해석될 수 있다. 입력 또는 피드백은 사용자나 기타 엔티티로부터 직접 얻거나 및/또는 컴퓨터에 의해 생성될 수 있는 하나 이상의 프롬프트(prompt)에 대한 응답에서 얻을 수 있다. 이런 입력 또는 피드백에 기반하여, 컴퓨터는 최종 희망 데이터 영역을 추출할 수 있다. 또한 컴퓨터는 나중의 사용을 위해 희망 데이터 영역 추출 단계에서 각 후보 데이터 영역에 부여되는 우선순위를 저장하거나 및/또는 그 밖의 다른 데이터에 대한 적용을 위해 우선순위를 저장하도록 구성될 수 있다.

본 발명에서 설명되는 대상이 컴퓨터 시스템상의 운영 체제 및 응용 프로그램의 실행과 연계하여 실행되는 프로그램 모듈의 일반적인 범주에서 제시되지만, 본 기술분야에 관한 통상의 기술자는 다른 타입의 프로그램 모듈과 조합하여 다른 구현예들이 수행될 수 있음을 인지할 것이다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 컴포넌트, 데이터 구조, 그리고, 특정 작업을 수행하는 또는 특정 추상 데이터 타입을 구현하는 다른 타입의 구조를 포함한다. 나아가, 본 기술분야에 관한 통상의 기술자는 본원에서 설명되는 대상이 핸드-헬드 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 가전, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는, 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 이해할 것이다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1 을 참조하면, 데이터 획득 단계 (S100) 에서는 데이터 집단으로부터 데이터를 읽어올 수 있다. 이 때, 읽어오는 데이터의 포멧 및/또는 구조는 제한되지 않는다. 또한, 포멧 및/또는 구조가 일률적이지 않고 다양하게 조합되어 있는 데이터 역시 포함될 수 있다. 이하에서는 설명의 편의를 위해 데이터 획득 단계 (S100) 에서 최초로 읽어들인 데이터를 로데이터 (Raw Data) 라고 지칭한다.

데이터를 파싱 (Parsing) 가능한 형태로 변환하는 단계 (S200) 에서, 로데이터는 파싱이 가능한 형태로 변환될 수 있다. 파싱이 가능한 형태란, 실제 유의미한 데이터로 취급되는 정보를 제외한 기타 정보들이 제거된 형태를 의미한다. 예를 들어, MS 사의 상용 프로그램인 엑셀 파일로 저장된 데이터를 로데이터로 읽어들인 경우, 로데이터에 부가된 속성 정보 (글자 색, 글자 크기, 셀 속성 등) 들은 제거되고 실제 데이터로 취급되는 정보만 텍스트 파일 형태로 변환될 수 있다. 로데이터에서 파싱 가능한 형태로의 변환은 이에 한정되지 않고, 로데이터의 종류, 사용된 언어 및 저장된 방식 등에 따라 다양하게 이루어질 수 있다.

희망 데이터 영역 후보 추정 단계 (S300) 에서, 파싱 가능한 형태로 변환이 완료된 데이터로부터 사용자가 활용하고자 하는 희망 데이터 영역 후보들이 추정될 수 있다. 즉, 데이터의 배치 형태를 분석하는 데이터 구조 분석 및/또는 문장 단위의 문자열을 토큰 (token) 으로 분류하고 이를 기계어로 번역하여 데이터 정보를 파악하는 구문 분석이 수행될 수 있다. 구조 분석 및/또는 구문 분석을 통해 희망 데이터로 추정되는 영역이 선정될 수 있다. 선정되는 영역은 1 이상일 수 있으며, 선정된 영역들이 별도의 메모리에 저장되거나 선정된 영역들에 태그 정보가 부가되어 부가된 태그 정보만이 별도의 메모리에 저장될 수 있다.

추정된 희망 데이터 영역 평가 단계 (S400) 에서는, 전 단계에서 선정된 희망 데이터 영역 후보들에 대해, 각각의 활용도 평가가 수행될 수 있다. 예로, 각 희망 데이터 영역 후보들에 포함된 오류값의 수가 측정될 수 있고, 또는 추가적인 정제가 필요한 데이터인지 평가될 수 있다. 오류값의 수 측정과 정제가 필요한지 여부가 동시에 평가될 수 있음은 물론이며, 활용도 평가 방식은 이에 한정되지 않는다.

활용도 평가 결과는 별도로 또는 각 데이터 영역 후보에 태그 정보로서 저장될 수 있다.

평가 결과에 따라 우선순위 도출 단계 (S500) 에서, 활용도 평가 결과에 따라 희망 데이터 영역 후보들에 대해 우선순위가 부여될 수 있다. 예로, 오류값의 수가 적을 수록 및/또는 추가적인 정제가 필요치 않을 수록 높은 우선순위가 부여될 수 있다.

부여된 우선순위 정보는 별도로 또는 각 데이터 영역 후보에 태그 정보로서 저장될 수 있다.

희망 데이터 영역 후보 추정 단계 (S300) 로부터 평가 결과에 따라 우선순위 도출 단계 (S500) 를 거친 데이터에 대해, 희망 데이터 영역 후보로 선정된 데이터의 영역정보, 활용도 평가 정보 및 우선순위 정보가 생성되어 별도로 또는 데이터 영역에의 태그 정보로서 저장될 수 있다. 별도로 저장되는 경우라도, 각 정보들은 해당 데이터 영역과 연동되어 있다.

최종 희망 데이터 영역 추출 단계 (S600) 에서, 최우선 데이터 영역이 최종 희망 데이터 영역으로 추출될 수 있다. 최우선 희망 데이터 영역 후보가 복수로 선정되는 경우, 복수의 데이터 영역 모두가 최종 희망 데이터 영역으로 추출된다.

데이터 획득 단계 (S100) 내지 최종 희망 데이터 영역 추출 단계 (S600) 를 통해, 포멧 (format) 및/또는 구조 (structure) 가 일률적이지 않은 데이터 집단으로부터 사용자가 활용하고자 하는 희망 데이터 영역이 자동으로 신속하게 추출될 수 있다. 이로써, 사용자는 데이터 집단의 포멧 및/또는 구조에 구애받지 않고 원하는 데이터 부분을 획득할 수 있어서 데이터 활용도를 높일 수 있다.

도 2 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

상기 도 1 의 설명과 중복되는 설명은 생략한다.

도 2 를 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 평가 결과에 따라 우선순위 도출 단계 (S510) 와 최종 희망 데이터 영역 추출 단계 (S710) 사이에, 사용자로부터 피드백을 얻는 단계 (S610) 를 더 포함할 수 있다. 그리고, 사용자뿐만 아니라, 기타 엔티티로부터 피드백을 얻을 수 있다.

피드백은 좋아함/싫어함으로, 질문에 대한 예/아니오 또는 참/거짓 해답으로, 별 개수, 범위 내의 숫자, 문자 등급과 같은 등급 정보로, 선택 또는 순서 변경과 같은 간단한 동작의 외삽법을 통해 제공될 수 있다.

피드백이 입력되면, 최종 희망 데이터 영역 추출 단계 (S710) 에서 적어도 부분적으로 피드백을 반영하여 최종 희망 데이터 영역을 추출할 수 있다. 몇몇 실시예에서, 피드백은 희망 데이터 영역 후보에 부여된 우선순위를 수정하고 및/또는 우선순위 부여에 관여하는 정보들을 조절하는데 사용될 수 있다. 또한, 피드백에 의해 우선순위 부여에 관여하는 정보들이 수정되는 경우, 희망 데이터 영역 후보들에게 우선순위를 재부여하는 단계 (미도시) 가 추가적으로 실시될 수 있다. 본 실시예는 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안된다는 점을 이해할 필요가 있다.

도 3 은 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.

도 3 을 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 희망 데이터 영역 후보 추정 단계로서, 연속 배열된 데이터 영역을 희망 데이터 영역 후보로 추정하는 단계 (S320) 를 포함한다.

데이터가 파싱 가능한 형태로 변환된 상태라도, 로데이터가 원시적으로 가지고 있던 구조적인 문제는 그대로 남아있을 수 있다. 예를 들어, 데이터 존재 영역과 데이터 비존재 영역으로 구분되거나, 상기 양 영역이 교대로 나타날 수 있다. 또한, 데이터 존재 영역과 데이터 비존재 영역이 행단위, 열단위, 셀단위, 토큰 단위에서 무작위로 섞여있을 수 있다.

이 경우, 본 실시예에 따르면, 데이터 비존재 영역은 건너뛰고, 데이터 존재 영역만을 희망 데이터 영역 후보로 추정할 수 있다. 예를 들면, 사용자 또는 기타 엔티티에 의해 미리 결정되거나 사전 프로그래밍에 의해 입력된 특정 수준 이상으로 데이터가 연속적으로 존재하는 영역만이 희망 데이터 영역 후보로 추정되고 선정될 수 있다.

선정되는 영역은 1 이상일 수 있으며, 선정된 영역들이 별도의 메모리에 저장되거나 선정된 영역들에 태그 정보가 부가되어 부가된 태그 정보만이 별도의 메모리에 저장될 수 있다. 본 실시예는 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안된다는 점을 이해할 필요가 있다.

도 4 는 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.

도 4 를 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 희망 데이터 영역 후보 추정 단계로서, 데이터의 셀 단위에서, 셀 단위 데이터의 타입을 추출하는 단계 (S330); 및 추출된 타입에 부합되는 데이터 셀만을 희망 데이터 영역 후보로 추정하는 단계 (S430) 를 포함한다.

본 발명의 상세한 설명에서는 셀 단위라고 표현하였으나, 이에 한정되지 않고 토큰 (token) 단위는 물론 분절된 데이터 단위 모두를 의미한다.

또한, 셀 단위 데이터의 타입을 추출하는 단계 (S330) 대신에 사용자 또는 기타 엔티티에 의해 데이터 단위를 입력받는 단계가 포함될 수 있다.

이하에서는, 대표적으로 셀 단위를 기준으로, 셀 단위 데이터의 타입을 추출하는 단계를 거쳐 희망 데이터 영역 후보를 추정하여 선정하는 단계를 예를 들어 설명한다.

제 1 셀에 대해 데이터 타입 분석을 한 결과가 '문자 숫자 문자 숫자 숫자' 로 나오는 경우, 이는 캐시메모리와 같은 컴퓨터 메모리의 일부에 저장될 수 있다. 인접한 제 2 셀로 이동하여, 제 2 셀의 데이터 타입 분석을 한 결과가 '문자 숫자 문자 숫자 숫자' 로 동일하게 나오는 경우, 제 1 셀에서 제 2 셀로 이동한 방향이 다음 셀 이동 방향으로 선정될 수 있다. 선정된 셀 이동 방향으로 계속해서 이동하면서 각 셀에 대해 데이터 타입 분석을 수행하여, 각 셀의 데이터 타입이 '문자 숫자 문자 숫자 숫자' 와 부합하는지 판단할 수 있고, 부합하는 경우에는 희망 데이터 영역 후보에 포함시키고 그렇지 않은 경우에는 희망 데이터 영역 후보에서 제외시킬 수 있다. 또는 선정된 셀 이동 방향에 존재하는 모든 셀을 희망 데이터 영역 후보로 선정할 수도 있다.

제 2 셀의 데이터 타입 분석을 한 결과가 '문자 숫자 문자 숫자 숫자' 와 상이하게 나오는 경우, 제 1 셀로 돌아가고, 제 1 셀에서 제 2 셀로 이동한 방향과 상이한 방향으로 다음 셀 검색이 수행될 수 있다. '문자 숫자 문자 숫자 숫자' 타입과 동일한 타입이 나올때 까지 이동을 반복할 수 있고, 만약 '문자 숫자 문자 숫자 숫자' 타입이 나오지 않는다면, 인접한 다음 셀을 제 1 셀로 하여 상기 과정들이 반복적으로 수행될 수 있다.

이는 셀 타입 분석을 통해 희망 데이터 영역 후보를 추정하는 일 예로써, 이에 한정되지 않고, 다양한 방식으로 변형실시될 수 있다.

도 5 는 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법을 설명하기 위한 흐름도이다.

상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.

도 5 를 참조할 때, 본 발명의 다른 실시예에 따른 희망 데이터 영역 추출 방법은 희망 데이터 영역 후보 추정 단계로서, 데이터 필드 단위에서, 동일한 데이터 타입의 비중이 특정비율 이상인 영역을 희망 데이터 영역 후보로 추정하는 단계 (S340) 를 포함한다.

예를 들어, 제 1 데이터 필드 단위 내의 각 데이터 타입 분석 결과, 특정 데이터 타입 비중이 미리 결정된 특정비율 이상인 경우, 제 1 데이터 필드 단위 전체가 희망 데이터 영역 후보로 추정하고 선정될 수 있다.

만약, 데이터 전체 분석이 완료되었으나 특정비율 이상의 데이터 타입을 갖는 데이터 필드가 선정되지 않는 경우에는, 특정비율에 가장 근접한 데이터 필드를 희망 데이터 영역 후보로 추정하고 선정할 수 있다.

한편, 도 3 내지 도 5 를 통해 기재하고 있는 실시예에서도, 평가 결과에 따라 우선순위 도출단계 (S520, S630, S540) 와 최종 희망 데이터 영역 추출 단계 (S620, S730, S640) 사이에 피드백을 얻는 단계를 포함할 수 있다.

상기 도 1 및 도 2 의 설명과 중복되는 설명은 생략한다.

도 6 을 참조할 때, 본 실시예에서는 데이터 집단으로부터 데이터를 읽어올 뿐만 아니라, 사용자가 활용하고자 하는 희망 데이터 영역이 갖는 규칙을 입력받는 희망 데이터 규칙 획득 단계 (S102) 를 포함한다.

희망 데이터 영역이 갖는 규칙은 희망 데이터 영역의 포멧, 구조 또는 형태에 따라 다양할 수 있다. 일 예로써, 데이터 분절 단위 (셀, 토큰 등) 가 갖는 타입일 수 있고, 다른 예로써 희망 데이터 영역의 필드일 수도 있다. 다만, 이에 제한되는 것은 아니다.

읽어온 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계 (S201) 를 거쳐서 변환이 완료된 상기 데이터 내의 일영역이 상기 규칙에 부합되는지 판단하는 규칙 적용 단계 (S301) 가 수행될 수 있다.

규칙 적용 단계 (S301) 에서의 데이터와 규칙의 상호 비교는 입력된 규칙에 따라 다양한 방식으로 실시될 수 있다. 일 예로써, 데이터 분절 단위 (셀, 토큰 등) 가 갖는 타입을 규칙으로 입력받은 경우에는 데이터 분절 단위 (셀, 토큰 등) 가 일영역이 되어 규칙과 1:1 매칭되어 비교될 수 있고, 데이터 영역의 필드를 규칙으로 입력받은 경우에는 필드 단위가 일영역이 되어 규칙과 1:1 매칭되어 비교될 수 있다.

규칙 적용 결과 데이터 내의 일영역이 규칙에 부합될 경우에 상기 일영역을 최종 희망 데이터 영역으로 추출할 수 있다.

만약, 비교가 끝난 데이터 내의 일영역이 규칙에 부합되지 않는 경우에는, 비교 영역이 이동되는 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501) 가 수행될 수 있다. 그리고, 이동이 완료되면, 새로운 영역이 규칙에 부합되는지 판단하는 단계 (S502) 가 수행될 수 있다.

새로운 영역이 규칙에 부합되는 경우에는 이 영역이 최종 희망 데이터 영역으로 추출될 수 있고, 규칙에 부합되지 않는 경우에는 다시 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501) 로 회귀하여 규칙에 부합되는 데이터 영역이 추출될 때까지 루프 알고리즘이 형성될 수 있다.

본 실시예와 같이 희망 데이터 규칙을 함께 획득함으로써, 추출되는 희망 데이터 영역의 정확도가 향상될 수 있다.

그리고, 본 발명의 다른 실시예에 따르면, 상기 규칙 적용 단계 (S301) 와 상기 최종 희망 데이터 영역 추출 단계 (S601) 사이에, 상기 사용자로부터 피드백을 얻는 단계 (S401) 가 더 포함될 수 있다.

나아가, 이 경우에는 상기 최종 희망 데이터 영역 추출 단계 (S601) 에서 적어도 부분적으로 상기 피드백이 반영될 수 있다.

즉, 데이터 내의 일영역이 규칙 적용 단계 (S301) 및 피드백을 얻는 단계 (S401) 를 모두 통과하는 경우에는 최종 희망 데이터 영역으로 추출될 수 있다.

만약 피드백을 얻는 단계 (S401) 를 통과하지 못한 경우에는 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501), 새로운 영역이 규칙에 부합되는지 판단하는 단계 (S502) 를 거쳐 다시 피드백을 얻는 단계 (S401) 로 회귀하거나, 새로운 영역이 규칙에 부합되지 않는 경우에는 바로 다시 변환된 데이터 내의 새로운 영역으로 이동하는 단계 (S501) 로 회귀하여 규칙에 부합되고 피드백 단계도 통과하는 데이터 영역이 추출될 때까지 루프 알고리즘이 형성될 수 있다.

이와 같이 피드백 단계를 한번 더 거침으로써, 추출되는 희망 데이터 영역의 정확도가 더욱 향상될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

[부호의 설명]

S100 : 데이터 획득 단계

S200 : 데이터를 파싱 (Parsing) 가능한 형태로 변환하는 단계

S300 : 희망 데이터 영역 후보 추정 단계

S400 : 추정된 희망 데이터 영역 평가 단계

S500 : 평가 결과에 따라 우선순위 도출 단계

S600 : 최종 희망 데이터 영역 추출 단계

Claims

데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계;

상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계;

변환이 완료된 상기 데이터에서 사용자가 활용하고자 하는 희망 데이터 영역 후보들을 추정하는 희망 데이터 영역 후보 추정 단계;

추정된 상기 희망 데이터 영역 후보들에 대해, 활용도를 평가하는 희망 데이터 영역 평가 단계;

상기 평가 결과에 따라 상기 희망 데이터 영역 후보들에게 우선순위를 부여하는 우선순위 도출 단계; 및

우선순위가 부여된 상기 희망 데이터 영역 후보들 중에서 최우선 데이터 영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법.
제 1 항에 있어서,

상기 우선순위 도출 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고,

상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법.
제 1 항 또는 제 2 항에 있어서,

상기 희망 데이터 영역 후보 추정 단계는,

연속 배열된 데이터 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법.
제 1 항 또는 제 2 항에 있어서,

상기 희망 데이터 영역 후보 추정 단계는,

데이터의 셀 단위에서, 셀 단위 데이터의 타입을 추출하는 단계; 및

추출된 타입에 부합되는 데이터 셀만을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법.
제 1 항 또는 제 2 항에 있어서,

상기 희망 데이터 영역 후보 추정 단계는,

데이터 필드 단위에서, 동일한 데이터 타입의 비중이 특정비율 이상인 영역을 희망 데이터 영역 후보로 추정하는 단계인 것을 특징으로 하는 희망 데이터 영역 추출 방법.
데이터 집단으로부터 데이터를 읽어오는 데이터 획득 단계;

사용자가 활용하고자 하는 희망 데이터 영역이 갖는 규칙을 입력받는 희망 데이터 규칙 획득 단계;

상기 데이터를 파싱(Parsing) 가능한 형태로 변환하는 단계;

변환이 완료된 상기 데이터 내의 일영역이 상기 규칙에 부합되는지 판단하는 규칙 적용 단계; 및

상기 규칙 적용 결과 상기 데이터 내의 일영역이 상기 규칙에 부합될 경우에 상기 일영역을 최종 희망 데이터 영역으로 추출하는 최종 희망 데이터 영역 추출 단계를 포함하는 희망 데이터 영역 추출 방법.
제 6 항에 있어서,

상기 규칙 적용 단계와 상기 최종 희망 데이터 영역 추출 단계 사이에, 상기 사용자로부터 피드백을 얻는 단계를 더 포함하고,

상기 최종 희망 데이터 영역 추출 단계에서 적어도 부분적으로 상기 피드백을 반영하여 최종 희망 데이터 영역을 추출하는 것을 특징으로 하는 희망 데이터 영역 추출 방법.