KR20170050338A - 데이터 구조화 방법 - Google Patents

데이터 구조화 방법 Download PDF

Info

Publication number
KR20170050338A
KR20170050338A KR1020150151766A KR20150151766A KR20170050338A KR 20170050338 A KR20170050338 A KR 20170050338A KR 1020150151766 A KR1020150151766 A KR 1020150151766A KR 20150151766 A KR20150151766 A KR 20150151766A KR 20170050338 A KR20170050338 A KR 20170050338A
Authority
KR
South Korea
Prior art keywords
item
target data
information
structured information
data
Prior art date
Application number
KR1020150151766A
Other languages
English (en)
Inventor
이창한
Original Assignee
이창한
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이창한 filed Critical 이창한
Priority to KR1020150151766A priority Critical patent/KR20170050338A/ko
Publication of KR20170050338A publication Critical patent/KR20170050338A/ko

Links

Images

Classifications

    • G06F17/30286
    • G06F17/2247
    • G06F17/30289
    • G06F17/30312

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 데이터 구조화 방법은, 미리 설정된 데이터구조 분석조건에 따라서 입력받은 타겟 데이터를 미리 설정된 단위로 분석하는 단계와 상기 분석 결과에 기초하여, 상기 타겟 데이터의 각 항목에 식별수단, 시점, 및 종점을 부여하고, 상기 각 항목의 내용 및 상기 각 항목의 하위 항목 중 적어도 하나가 상기 부여된 시점 및 종점 사이에 래핑(wrapping)되는 구조를 갖는 구조화 정보를 생성하여 저장할 수 있다. 특정 항목에 대한 작업은 상기 특정 항목의 식별수단 및 상기 특정 항목의 시점과 종점 사이의 구조화 정보 중 적어도 하나에 기초하여 수행될 수 있다.

Description

데이터 구조화 방법{DATA STRUCTURING METHOD}
본 발명은 데이터 구조화 방법에 관한 것으로, 보다 상세하게는, 타겟 데이터(target data)의 하위 항목의 구조화 정보가 타겟 데이터의 상위 항목의 구조화 정보의 시점(start point)과 종점(end point) 사이에 래핑(wrapping)되는 구조를 갖는 타겟 데이터의 구조화 정보를 획득할 수 있는 데이터 구조화 방법에 관한 것이다.
기존의 일반적인 구조화 정보의 저장 방법은, 하나의 타겟 데이터에 대해 항목별로 데이터베이스에 입력하는 방식이 주로 이용되었다. 이러한 방식에 따르면 항목의 수량이 증가함에 따라 데이터베이스의 항목(ex: 로우(row) 및 필드(field)) 역시 증가하게 되며, 검색 역시도 별도의 검색식을 입력하는 방법에 의하여 수행되는 문제점이 있었다. 이에 타겟 데이터의 항목이 증가하더라도 데이터베이스의 항목의 증가를 최소화할 수 있고, 구조화 데이터의 유지 보수 및 관리가 효율적으로 수행될 수 있는 데이터 구조화에 대한 요구가 높아지고 있다.
이에, 본 발명이 해결하고자 하는 기술적 과제는, 타겟 데이터의 항목이 증가하더라도 구조화 정보의 항목의 증가를 최소화시킬 수 있는 데이터 구조화 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 타겟 데이터 관련 정보의 디스플레이, 검색, 또는 분석을 빠르면서도 효율성 높게 수행할 수 있는 데이터 구조화 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는, 타겟 데이터 관련 정보의 유지 보수 및 관리를 효율적으로 수행할 수 있는 데이터 구조화 방법을 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 데이터 구조화 방법은, 미리 설정된 데이터구조 분석조건에 따라서 입력받은 타겟 데이터를 미리 설정된 단위로 분석하는 단계; 상기 분석 결과에 기초하여, 상기 타겟 데이터의 각 항목에 식별수단, 시점, 및 종점을 부여하고, 상기 각 항목의 내용 및 상기 각 항목의 하위 항목 중 적어도 하나가 상기 부여된 시점 및 종점 사이에 래핑(wrapping)되는 구조를 갖는 구조화 정보를 생성하는 단계; 상기 구조화 정보를 하나의 데이터 저장 영역에 저장하는 단계; 및 특정 항목에 대한 작업이 요청되는 경우, 상기 특정 항목의 식별수단 및 상기 특정 항목의 시점과 종점 사이의 구조화 정보 중 적어도 하나에 기초하여 상기 요청된 작업을 수행하는 단계를 포함할 수 있다.
상기 타겟 데이터의 상기 각 항목의 식별정보는, 상기 각 항목이 속하는 최상위 항목까지의 연결 관계를 나타내는 제1 식별정보 및 동일 등급에서의 식별을 위한 제2 식별정보를 포함할 수 있다. 그리고 상기 각 항목의 식별정보는 상/하위 항목 사이의 등급 관계를 나타내는 구분자를 포함할 수 있다.
상기 구조화 정보를 생성하여 저장하는 단계는, 상기 구조화 정보를 적어도 2개의 언어 또는 형식으로 작성하여 언어별 구조화 정보 각각을 대응되는 하나의 데이터 저장 영역에 저장하는 단계를 포함할 수 있다. 이때, 상기 요청된 작업을 수행하는 단계는, 상기 적어도 2개의 언어 중 상기 요청된 작업의 속성에 대응되는 언어로 생성된 구조화 정보에 기초하여 상기 요청된 작업을 수행하는 단계를 포함할 수 있다.
한편, 상기 적어도 2개의 언어는, HTML(Hypertext Markup Language)을 포함할 수 있다. 이때, 상기 요청된 작업을 수행하는 단계는, 상기 요청된 작업이 상기 타겟 데이터의 디스플레이와 관련된 작업이면, HTML로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행하는 단계를 포함할 수 있다.
그리고, 상기 적어도 2개의 언어는, XML(eXtensible Markup Language)을 포함할 수 있다. 이때, 상기 요청된 작업을 수행하는 단계는, 상기 요청된 작업이 상기 타겟 데이터에 대한 검색 또는 분석과 관련된 작업이면, XML로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행하는 단계를 포함할 수 있다.
본 발명에 따른 데이터 구조화 방법은, 타겟 데이터의 항목이 증가하더라도 구조화 정보의 항목의 증가를 최소화시킬 수 있는 효과를 제공할 수 있다.
본 발명에 따른 데이터 구조화 방법은, 타겟 데이터 관련 정보의 디스플레이, 검색, 또는 분석을 빠르면서도 효율성 높게 수행할 수 있는 효과를 제공할 수 있다.
본 발명에 따른 데이터 구조화 방법은, 타겟 데이터 관련 정보의 유지 보수 및 관리를 효율적으로 수행할 수 있는 효과를 제공할 수 있다.
도 1은 본 발명에 따른 데이터 구조화 방법의 일예를 나타내는 흐름도이다.
도 2는 본 발명에 따른 데이터 구조화 방법이 수행되는 과정을 개념적으로 나타낸 도면이다.
도 3은 본 발명에 따른 데이터 구조화 방법에 따라서 타겟 데이터를 분석할 분석 조건을 설정하기 위한 사용자 인터페이스(UI: User Interface, 100)의 일예이다.
도 4는 본 발명에 따른 데이터 구조화 방법에 따라서 타겟 데이터의 항목에 대하여 상/하위 항목이 유기적 연관성을 갖는 식별정보를 부여하는 예를 설명하기 위한 개념도이다.
도 5는 본 발명에 따른 데이터 구조화 방법에 따라 생성되는 타겟 데이터의 구조화 정보가 하나의 데이터베이스 필드에 저장되는 과정을 설명하기 위한 개념도이다.
도 6은 타겟 데이터의 구조의 일예를 나타낸다.
도 7은 전자 기기에서 본 발명에 따른 데이터 구조화 방법에 따라 도 6에 도시된 타겟 데이터의 구조화 데이터가 생성되는 과정을 나타내는 흐름도이다.
도 8은 본 발명에 따른 데이터 구조화 방법이 수행된 전자 기기에서 제공되는, 상기 데이터 구조화 방법에 따라 생성된 구조화 데이터를 이용한 사용자 인터페이스(200)의 일예를 나타낸다.
도 9는 본 발명에 따른 데이터 구조화 방법을 수행한 전자기기에서 제공하는 목차 리스트의 예들을 나타낸다.
본 발명과 본 발명의 동작상 또는 기능상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낼 수 있다.
도 1은 본 발명에 따른 데이터 구조화 방법의 일예를 나타내는 흐름도이다. 상기 데이터 구조화 방법은 PC, 노트북, 이동단말기(EX: 스마트폰, 태블릿), 워크스테이션, 서버 등의 다양한 전자 기기에 의하여 수행될 수 있다.
먼저, 상기 전자 기기는 미리 설정된 데이터구조 분석 조건에 따라서 입력받은 타겟 데이터를 분석한다(S100). 이러한 분석조건은 상기 전자 기기에 미리 저장되어 있을 수 있다. 그리고 상기 분석 조건은 사용자에 의하여 설정된 것일 수도 있다.
한편, 이러한 타겟 데이터 분석은 미리 정해진 일정 단위로 반복되어 수행된다. 도 1에서는 도면 작성의 편의를 위하여 반복되는 부분에 대한 도시는 생략하였다. 이러한 사용자의 분석 조건 설정에 관해서는, 향후, 도 2를 참조하여, 보다 상세히 살펴본다.
상기 분석 조건에 의하여 타겟 데이터가 분석되면, 상기 전자 기기는 상기 분석 결과에 기초하여 상기 타겟 데이터의 각 항목에 식별수단, 시점, 및 종점을 부여하고, 상기 각 항목의 내용 및 상기 각 항목의 하위 항목 중 적어도 하나가 상기 부여된 시점 및 종점 사이에 래핑(wrapping)되는 구조를 갖는 구조화 정보를 생성한다(S110).
상기 타겟 데이터의 상기 각 항목의 식별정보는, 상기 각 항목이 속하는 최상위 항목까지의 연결 관계를 나타내는 제1 식별정보, 동일 등급에서의 식별을 위한 제2 식별정보, 및 상/하위 항목 사이의 등급 관계를 나타내는 구분자를 포함할 수 있다. 이러한 식별수단, 시점, 및 종점의 부여, 그리고 데이터 래핑 구조에 대해서는 향후 다른 도면들을 참조하여 보다 상세히 살펴본다.
상기 타겟 데이터의 구조화 정보가 생성되면, 상기 전자 기기는 상기 생성된 구조화 정보를 하나의 데이터 저장 영역에 저장한다(S120). 하나의 데이터 저장 영역은 데이터베이스의 하나의 필드(field)일 수 있다. 그리고 다른 경우에, 상기 전자 기기는 상기 구조화 정보를 하나의 파일로 저장할 수도 있다.
상기 구조화 데이터가 저장된 다음, 상기 타겟 데이터의 특정 항목에 대한 작업이 요청되는 경우, 상기 전자 기기는 상기 특정 항목의 식별수단 및 상기 특정 항목의 시점과 종점 사이의 구조화 정보 중 적어도 하나에 기초하여 상기 요청된 작업을 수행한다(S130). 이러한 작업의 예들에 대해서는 향후 다른 도면들을 참조하여 보다 상세히 살펴본다.
도 1을 참조하여 살펴본 바와 같이, 본 발명에 따른 데이터 구조화 방법에 따르면, 상/하위 항목 간의 유기적 관계를 나타내는 식별정보가 부여되고 구조화 데이터는 상/하위 항목 간의 래핑 구조를 가진다. 이러한 특징에 의하여 타겟 데이터의 항목 증가에 따른 구조화 정보의 항목의 증가 최소화 및 구조화 정보의 효율적 유지 보수 및 관리라는 효과가 제공될 수 있다.
도 2는 본 발명에 따른 데이터 구조화 방법이 수행되는 과정을 개념적으로 나타낸 도면이다.
먼저, 타겟 데이터가 획득된다. 그런 다음 상기 타겟 데이터가 데이터 구조화 방법을 수행할 전자 기기에 입력된다. 도 2에서는 타겟 데이터가 특정 법령 정보인 것을 가정한다. 상기 타겟 데이터가 입력되면, 상기 전자 기기는 특정 법령 정보의 구조를 분석한다. 법령 정보의 경우, 그 구조는 법명, 편제, 조문, 내용, 부칙, 별표, 서식으로 분석될 수 있다. 한편, 상기 특정 법령 정보의 분석은 미리 설정된 데이터 구조 분석 조건에 따라 수행될 수 있다.
분석이 완료되면, 상기 전자 기기는 분석된 법령 정보의 각 항목에 식별정보(예컨대, ID)를 부여하고 상/하위 항목 사이에 래핑(wrapping) 구조를 갖도록 구조화 작업을 수행한다. 그런 다음, 상기 전자 기기는 법령 정보의 구조화 정보를 디스플레이를 위한 HTML로 작성하고 그에 대한 XML 매핑 정보를 생성하는 매핑 과정을 수행한다.
그런 다음, 상기 전자 기기는 상기 HTML로 작성된 상기 법령 정보의 구조화 정보 및 매핑 정보를 데이터베이스에 저장하고, 상기 법령의 원문을 저장하는 저장 과정을 수행한다. 한편, 도 2에 도시되지는 않았으나, 상기 전자 기기는 HTML이 아닌 다른 언어로 상기 법령 정보의 구조화 정보를 추가적으로 생성할 수도 있다.
보다 구체적으로, 상기 전자 기기는 타겟 데이터에 대한 구조화 정보를 적어도 2개의 언어 및 형식(포맷)으로 작성하여 언어별 구조화 정보 각각을 대응되는 하나의 데이터 저장 영역에 저장할 수 있다. 이러한 언어에는 HTML(Hypertext Markup Language), XML(eXtensible Markup Language) 등의 마크업 언어(markup language) 등이 포함될 수 있으며 형식에는 JSON(JavaScript Object Notation)이 포함될 수 있다. 그러나 본 발명의 범위가 이에 한정되는 것은 아니다.
한편, 복수의 언어로 타겟 데이터의 구조화 정보가 작성되어 저장되면, 상기 전자 기기는, 특정 작업이 요청되는 경우, 상기 복수의 언어 중 상기 요청된 작업의 속성에 대응되는 언어(예컨대, 요청된 작업에 대한 효율성 및 정확성 중 적어도 하나가 높은 언어)로 생성된 구조화 정보에 기초하여 상기 요청된 작업을 수행할 수 있다.
예컨대, 상기 전자 기기는 상기 요청된 작업이 타겟 데이터의 디스플레이와 관련된 작업이면, HTML로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행할 수 있다. 예컨대, 상기 전자 기기는 상기 요청된 작업이 상기 타겟 데이터에 대한 검색 또는 분석과 관련된 작업이면, XML로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행할 수 있다.
상술한 바와 같이, 상기 전자 기기는 타겟 데이터의 구조화 정보를 다양한 포맷으로 저장할 수 있다. 예컨대, 상기 전자 기기는 타겟 데이터의 구조화 정보를 JSON 포맷으로 저장할 수 있다. 이때, 상기 전자 기기는 상기 요청된 작업이 타겟 데이터에 대한 정보(또는 데이터)의 전달에 관한 것이면, JSON 포맷으로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행할 수 있다.
이와 같이, 본 발명에 따른 데이터 구조화 방법은, 복수의 언어 및 다양한 포맷으로 작성된 구조화 데이터를 작업의 속성에 맞게 선택적으로 이용할 수 있으므로, 타겟 데이터 관련 정보의 디스플레이, 검색, 분석, 전송 등의 작업을 빠르면서도 효율성 높게 수행할 수 있는 효과를 제공할 수 있다.
도 3은 본 발명에 따른 데이터 구조화 방법에 따라서 타겟 데이터를 분석할 분석 조건을 설정하기 위한 사용자 인터페이스(UI: User Interface, 100)의 일예이다.
도 3을 참조하면, 상기 UI(100)는 타겟 데이터인 법규 원본 표시 영역(110), 법규에 대한 분석 개시 버튼(120), 및 분석 조건 설정 영역(130)을 포함한다. 상기 법규 원본 표시 영역(110)에는 사용자에 의하여 입력된 법규 원본 또는 외부 기기로부터 수신된 법규원본이 표시되는 영역이다.
상기 분석 개시 버튼(120)이 선택되면, 상기 전자 기기는 상기 법규 원본 영역(110)에 입력된 법규를 상기 분석 조건 설정 영역(130)을 통해 설정된(또는 입력된) 조건에 따라서 타겟 데이터인 법규를 분석할 수 있다. 상기 분석 조건 설정 영역(130)을 통해서는 사용자는 법규 원본의 구조를 분석을 위한 각종 조건을 설정할 수 있다.
도 4는 본 발명에 따른 데이터 구조화 방법에 따라서 타겟 데이터의 항목에 대하여 상/하위 항목이 유기적 연관성을 갖는 식별정보가 부여하는 예를 설명하기 위한 개념도이다.
최상위 제1 등급 항목(즉, 명칭)인 민법에 식별정보 '민법'이 부여된다. 그리고 제2 등급의 항목인 1편, 2편, 3편에 식별정보가 부여된다. 이들의 식별정보는 그 상위 항목의 식별정보 '민법'과 이들 사이(즉, 동일 등급 사이)의 식별정보인 '1P', '2P', '3P'로 구성된 '민법_1p', '민법_2p', '민법_3p'이다. 한편, 제1 등급과 제2 등급 사이에는 구분자 '_"가 위치한다.
그리고 3 등급의 항목인 3장에 대해서는 그 상위 항목인 2편의 아이디인 '민법_2p'와 제2 등급 사이의 식별정보인 '3j'를 포함하는 '민법_2p-3j'가 부여된다. 한편, 상/하위 등급 항목 사이에는 구분자 '-"가 위치한다. 이러한 과정과 유사하게 제4 등급의 하위 항목인 절, 제5 등급의 하위 항목인 조문, 제6 등급의 하위 항목인 내용에 대해서도 식별정보가 부여된다.
이상에서 살펴본 바와 같이, 본 발명에 따른 데이터 구조화 방법에 따르면, 타겟 데이터의 각 항목의 식별정보는, 상기 각 항목이 속하는 최상위 항목까지의 연결 관계를 나타내는 제1 식별정보, 동일 등급에서의 식별을 위한 제2 식별정보, 및 상/하위 항목 사이의 등급 관계를 나타내는 구분자를 포함한다. 이러한 식별정보 부여 체계에 따르면, 식별정보의 확인만으로 항목의 등급, 항목의 상위 항목들을 바로 알 수 있다.
한편, 본 발명의 구현 형태에서는, 타겟 데이터의 각 항목의 식별 정보에 상/하위 항목 사이의 등급관계를 나타내는 구분자가 포함되지 않을 수도 있다. 이때, 상/하위 항목 사이의 등급관계는 문자의 수, 숫자의 자리수 등에 의하여 자동적으로 구분될 수 있다.
도 5는 본 발명에 따른 데이터 구조화 방법에 따라 생성되는 타겟 데이터의 구조화 정보가 하나의 데이터베이스 필드에 저장되는 과정을 설명하기 위한 개념도이다. 참고로, 상기 타겟 데이터는 최상위 항목인 제1 등급 항목, 중간 항목인 제2 등급 항목, 최하위 등급 항목인 제3 등급 항목으로 구성된다.
이하, 도 5에 도시된 데이터베이스 필드의 구조를 살펴본다. 최상위 항목인 제1 등급 항목에는 복수의 제2 등급 항목(도면에는 하나의 제2 등급 항목만 도시)이 포함되어 있다. 그리고 각 등급의 항목의 구조화 정보는 식별정보, 시점, 내용, 종점으로 구성된다. 그리고 하위 항목의 구조화 정보는 상위 항목의 시점과 종점 사이에 저장된다. 즉, 상위 항목의 구조화 정보와 하위 항목의 구조화 정보는 래핑 구조를 형성한다.
이러한 구조화 정보가 저장된 전자 기기에서 상술한 데이터베이스 구조에 기초하여 수행될 수 있는 작업의 일예를 개념적으로 살펴본다. 상기 구조화 정보에 기초하여 상기 전자 기기에 제공된 목차 리스트에서 제1 등급 항목이 선택되는 것을 가정한다. 이때, 타겟 데이터의 내용은 상기 전자 기기에 제공되지 않은 상태임을 가정한다. 상기 제1 등급 항목이 선택되면, 상기 전자 기기는 데이터베이스에서 상기 제1 등급 항목의 식별정보, 시점, 및 종점을 인식하고, 상기 제1 등급의 시점과 종점 사이에 있는 하위 항목의 구조화 정보에 기초하여 복수의 제2 등급 항목을 상기 전자 기기로 제공한다.
이때, 상기 전자 기기는 복수의 제2 등급 항목 각각에 대해서 식별정보, 시점을 인식하고, 상기 복수의 제2 등급 항목 각각의 시점과 종점 사이의 제3 등급 항목을 상기 전자 기기로 제공한다.
그런 다음, 상기 전자 기기는 상기 제3 등급 항목 각각에 대해서 식별정보, 시점을 인식하고, 상기 제3 등급 각각의 시점과 종점 사이의 내용을 상기 전자 기기로 제공한다.
다른 예로, 상기 전자 기기에 제공된 목차 리스트에서 제3 등급 항목이 선택되는 것을 가정한다. 그러면, 상기 전자 기기는 상기 제3 등급 항목 각각에 대해서 식별정보와 시점을 인식하고, 상기 제3 등급 항목의 시점과 종점 사이에 내용을 획득하여 상기 전자 기기로 제공한다.
이상에서 살펴본 예와 같이, 상기 전자 기기는 목차 리스트에서 특정 항목이 선택되면 상기 특정 항목의 하위 항목 모두의 내용을 상기 전자 기기로 제공한다. 즉, 제1 등급 항목이 선택되면 그에 포함된 모든 제2 등급 항목의 내용이, 특정 제2 등급 항목이 선택되면 그에 포함된 모든 제3 등급 항목의 내용이, 최하위 등급인 제3 등급 항목이 선택되면 선택된 제3 등급 항목의 내용이, 상기 전자 기기로 제공된다. 또는 제1 등급 항목이 선택되면 제1 등급항목에 포함된 제2 등급항목, 제3 등급항목 등 제1 등급항목의 시점과 종점 사이에 있는 모든 하위등급의 정보가 상기 전자기기로 제공된다.
도 6은 타겟 데이터의 구조의 일예를 나타내며, 도 7은 전자 기기에서 본 발명에 따른 데이터 구조화 방법에 따라 도 6에 도시된 타겟 데이터의 구조화 데이터가 생성되는 과정을 나타내는 흐름도이다.
상기 타겟 데이터는 제1 등급 항목인 명칭, 제2 등급 항목인 1과 2, 항목 1에 포함된 제3 등급 항목인 (1)과 (2)를 포함한다. 그리고 제2 등급 항목 2에는 바로 그 내용이 포함되어 있다. 이하, 상기 타겟 데이터 구조에 본 발명에 따른 데이터 구조화 방법을 적용하여 상기 타겟 데이터의 구조화 데이터가 생성되는 과정을 살펴본다.
상기 전자 기기는 타겟 데이터에 대한 일정 단위의 분석 기능을 활성화시킨다(S200). 그러면, 상기 전자 기기는 미리 설정된 분석 조건에 기초하여 상기 타겟 데이터를 일정 단위로 분석하는 과정을 반복적으로 수행하면서 구조화 데이터를 생성한다.
분석 기능이 활성화되면, 먼저, 최상위 항목인 명칭이 인식된다(S210). 그러면, 상기 전자 기기는 명칭에 식별정보 및 시점을 부여하여 표시한다(S220). 그런 다음, 하위 항목 1이 인식되면(S230), 상기 전자 기기는 상기 항목 1의 식별정보 및 시점을 부여하고 표시한다(S240). 여기서, 상기 항목 1의 식별정보에는 상위 항목인 명칭과의 연결 관계를 나타내는 식별정보와 동급 항목인 항목 2와의 구별을 위한 정보가 포함되어 있다.
그런 다음, 상기 전자 기기는 하위 항목 (1)을 인식하고(S250), 상기 항목 (1)의 식별정보 및 시점을 부여하여 표시한 다음(S260), 상기 항목 (1)의 내용을 표시한다(S270). 상기 항목 (1)의 식별정보에는 상위항목인 항목 1 및 명칭까지의 연결관계를 나타내는 식별정보와 동일 등급인 상기 항목 (2)와의 구별을 위한 정보가 포함되어 있다. 상술한 바와 같이, 하위 항목이 포함되어 있지 않은 항목 (1)에 대한 구조화는 식별정보와 시점의 부여 및 표시, 내용 표시, 종점 부여 및 표시로 완료된다. 이는 항목 (2)에 대해서도 마찬가지이다.
그런 다음 상기 전자 기기는 항목 (1)과 동급 항목 (2)를 인식하고(S280), 상기 항목 (1)의 종점을 부여하여 표시한다(S290). 동급 항목(2)가 인식됨은 항목 (1)의 내용의 끝을 의미하기 때문이다. 그런 다음, 상기 전자 기기는 상기 항목 (2)의 식별정보 및 시점을 부여하여 표시한 다음(S300), 상기 항목 (2)의 내용을 표시하고(S310), 상기 항목 2를 인식한다(S320). 한편, 상기 항목 (2)의 식별정보에는 상위항목인 항목 1 및 명칭까지의 연결관계를 나타내는 식별정보와 동일 등급인 상기 항목 (1)과의 구별을 위한 정보가 포함되어 있다.
그러 다음 상기 전자 기기는 상기 항목 (2)의 종점을 부여하여 표시하고(S330), 상기 항목 1의 종점을 부여하여 표시한다(S340). 상기 항목 2가 인식됨은, 상기 항목 (2)의 끝과 상기 항목 (2)의 상위 항목 1이 끝을 의미하기 때문이다.
그런 다음, 상기 전자 기기는 상기 항목 2의 식별정보 및 시점을 부여하여 표시한 다음(S350), 상기 항목 2의 내용을 바로 표시한다(S360). 왜냐하면, 상기 항목 2에는 제3 등급의 하위 항목이 포함되어 있지 않고 내용만 포함되어 있기 때문이다. 상기 항목 2의 식별정보에는 상위 항목인 명칭과의 연결 관계를 나타내는 식별정보와 동급 항목인 항목 1과의 구별을 위한 정보가 포함되어 있다.
만약, 상기 항목 2에도 상기 항목 1과 같이 3 등급 하위 항목이 포함되어 있다면, 앞서 상기 항목 1에 대해 살펴본 바와 같이, 하위 항목에 대한 식별정보, 시점 부여 및 표시 과정, 내용 표시 과정, 및 종점 부여 및 표시 과정이 순차적으로 수행된다.
그런 다음, 상기 전자 기기는 상기 데이터 전체의 끝을 인식한다(S370). 그러면, 상기 전자 기기는 상기 항목 2의 종점을 부여하여 표시하고(S380), 최상위 항목인 명칭의 종점을 부여하여 표시한 다음(S390), 데이터 구조화 작업을 종료한다.
도 8은 본 발명에 따른 데이터 구조화 방법이 수행된 전자 기기에서 제공되는, 상기 데이터 구조화 방법에 따라 생성된 구조화 데이터를 이용한 사용자 인터페이스(200)의 일예를 나타낸다. 기본적으로 상기 사용자 인터페이스(200)의 화면 좌측에 편제/조문 등을 포함하는 목차가 제공되고 화면 우측에는 타겟 데이터의 항목이 제공되는 구조를 가진다.
전자 기기에 표시된 상기 사용자 인터페이스(200)는 기본적으로 분석된 법규(타겟 데이터)의 목차 리스트 표시 영역(210) 및 법규에 포함된 항목의 실제 내용이 표시되는 항목 표시 영역(220), 법제처원문보기 메뉴(230), 및 법제처고급정보보기 메뉴(240)를 포함한다.
상기 영역들(210 및 220)은 복수의 언어로 작성된 구조화 정보 중 적어도 하나에 기초하여 표시된 것일 수 있다. 예컨대, 상기 영역들(210 및 220)은 HTML로 작성되어 저장된 구조화 정보에 기초하여 표시된 것일 수 있고, XML로 작성되어 저장된 구조화 정보에 의하여 표시된 것일 수도 있고, HTML로 작성된 구조화 정보 및 XML로 작성된 구조화 정보 모두를 이용하여 표시된 것일 수도 있다.
상기 목차 리스트 표시 영역(210)에는 최상위 항목(즉, 제1 등급 항목)인 법규 명칭인 '민사소송법', 제2 등급 항목인 '조문'과 '부칙', 제3 등급 항목 '제1조', '제1 편 내지 제7편', 각 편에 대한 하위 항목으로 제4 등급 항목인 '장', 각 장에 대한 하위 항목으로 제5 등급 항목인 '절'이 리스트로 제공되어 있다.
상기 리스트 중 특이한 점은, 제1 조의 경우 제2 등급 항목인 '제1 편'의 직속 하위 항목으로 제3 등급의 항목이다. 그러나 제1 편에서는 다른 조문의 경우 제3 등급항목인 '장'의 하위 항목으로 적어도 제4 등급 이상의 항목일 수밖에 없다.
상기 항목 표시 영역(220)에 표시되는 항목의 표시 과정은 다음과 같을 수 있다. 상기 목차 리스트 영역(210)에 표시된 항목 중 하나가 선택된다. 그러면 상기 전자 기기는 상기 선택된 항목의 식별정보를 갖는 항목이 상기 항목 표시 영역(220)에 표시되도록 한다. 이 경우, 상기 전자 기기는 식별 정보만을 이용하여 이러한 작업을 수행한 것이다. 이러한 데이터의 디스플레이와 관련된 작업은 HTML로 작성되어 저장된 구조화 정보를 이용하는 것이 효율적일 수 있다.
한편, 상기 목차 리스트 영역(210)에서 특정 항목이 선택되면, 상기 영역(210)에서는 상기 특정 항목의 하위 항목 리스트가 제공될 수 있다. 이러한 작업을 수행하기 위한 검색 또는 분석 작업은 XML로 작성되어 저장된 구조화 정보를 이용하는 것이 효율적일 수 있다. 한편, 상기 특정 항목의 디스플레이와 관련된 작업은 HTML로 작성된 구조화 정보에 기초하여 수행되는 것이 효과적일 수 있다.
도 9는 본 발명에 따른 데이터 구조화 방법을 수행한 전자기기에서 제공하는 목차 리스트의 예들을 나타낸다.
도 9의 (a)는 목차 등급 깊이가 2인 경우, 상기 전자 기기에 의하여 제공되는 목차 리스트 형태이다. 도 9의 (a)를 참조하면, 목차 등급 깊이가 2이면 상기 전자 기기에서는 제1 등급 항목인 법규 명칭과 제2 등급 항목인 편까지가 목차로 제공된다.
도 9의 (b)는 목차 등급 깊이가 3인 경우, 상기 전자 기기에 의하여 제공되는 목차 리스트 형태이다. 도 9의 (b)를 참조하면, 목차 등급 깊이가 3이면 상기 전자 기기에서는 제1 등급 항목인 법규 명칭과 제2 등급 항목인 편, 제3 등급 항목인 장까지가 목차로 제공된다. 특이하게, 제1 편에서는 제1 조가 바로 하위 항목인 제3 등급 항목이다. 그러므로 목차 등급 깊이가 3인 경우에도 제1 조가 상기 전자 기기에 제공되는 목차 리스트에 표시된다. 이는 도 9의 (c)의 예에서도 유사하게 적용된다.
도 9의 (c)는 목차 등급 깊이가 4인 경우, 상기 전자 기기에 의하여 제공되는 목차 리스트 형태이다. 도 9의 (c)를 참조하면, 목차 등급 깊이가 4이면 제1 등급 항목인 법규 명칭, 제2 등급 항목인 편, 제3 등급 항목인 장, 제4 등급 항목인 절까지가 목차로 제공된다. 한편, 이러한 목차 깊이는 사용자에 의하여 설정될 수도 있고, 상기 전자 기기가 타겟 대상 분석 과정에서 자동적으로 설정하는 것일 수 있다.
전술한 본 발명에 따른 데이터 구조화 방법의 적어도 일부의 수행은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
한편, 이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 데이터 구조 분석조건 설정 UI
200: 타겟 데이터의 구조화 정보를 이용한 UI

Claims (5)

  1. 미리 설정된 데이터구조 분석조건에 따라서 입력받은 타겟 데이터를 미리 설정된 단위로 분석하는 단계;
    상기 분석 결과에 기초하여, 상기 타겟 데이터의 각 항목에 식별수단, 시점, 및 종점을 부여하고, 상기 각 항목의 내용 및 상기 각 항목의 하위 항목 중 적어도 하나가 상기 부여된 시점 및 종점 사이에 래핑(wrapping)되는 구조를 갖는 구조화 정보를 생성하는 단계;
    상기 구조화 정보를 데이터 저장 영역에 저장하는 단계; 및
    특정 항목에 대한 작업이 요청되는 경우, 상기 특정 항목의 식별수단 및 상기 특정 항목의 시점과 종점 사이의 구조화 정보 중 적어도 하나에 기초하여 상기 요청된 작업을 수행하는 단계를 포함하는, 데이터 구조화 방법.
  2. 제1 항에 있어서, 상기 타겟 데이터의 상기 각 항목의 식별정보는,
    상기 각 항목이 속하는 최상위 항목까지의 연결 관계를 나타내는 제1 식별정보 및 동일 등급에서의 식별을 위한 제2 식별정보를 포함하는 것을 특징으로 하는, 데이터 구조화 방법.
  3. 제2 항에 있어서, 상기 구조화 정보를 생성하여 저장하는 단계는,
    상기 구조화 정보를 적어도 2개의 마크업 언어(markup language) 또는 형식으로 작성하여 언어별 구조화 정보 각각을 대응되는 하나의 데이터 저장 영역에 저장하는 단계를 포함하며,
    상기 요청된 작업을 수행하는 단계는,
    상기 적어도 2개의 언어 또는 형식 중 상기 요청된 작업의 속성에 대응되는 언어 또는 형식으로 생성된 구조화 정보에 기초하여 상기 요청된 작업을 수행하는 단계를 포함하는 것을 특징으로 하는, 데이터 구조화 방법.
  4. 제3 항에 있어서, 상기 적어도 2개의 언어는,
    HTML(Hypertext Markup Language)을 포함하며,
    상기 요청된 작업을 수행하는 단계는,
    상기 요청된 작업이 상기 타겟 데이터의 디스플레이와 관련된 작업이면, HTML로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행하는 단계를 포함하는, 데이터 구조화 방법.
  5. 제3 항에 있어서, 상기 적어도 2개의 언어는,
    XML(eXtensible Markup Language)을 포함하며,
    상기 요청된 작업을 수행하는 단계는,
    상기 요청된 작업이 상기 타겟 데이터에 대한 검색 또는 분석과 관련된 작업이면, XML로 작성된 구조화 정보에 기초하여 상기 요청된 작업을 수행하는 단계를 포함하는, 데이터 구조화 방법.
KR1020150151766A 2015-10-30 2015-10-30 데이터 구조화 방법 KR20170050338A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150151766A KR20170050338A (ko) 2015-10-30 2015-10-30 데이터 구조화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150151766A KR20170050338A (ko) 2015-10-30 2015-10-30 데이터 구조화 방법

Publications (1)

Publication Number Publication Date
KR20170050338A true KR20170050338A (ko) 2017-05-11

Family

ID=58741228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150151766A KR20170050338A (ko) 2015-10-30 2015-10-30 데이터 구조화 방법

Country Status (1)

Country Link
KR (1) KR20170050338A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210110123A (ko) 2020-02-28 2021-09-07 (주)시즐 관계형 데이터베이스 구조를 이용한 비관계형 데이터베이스 장치 및 데이터 정형화 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210110123A (ko) 2020-02-28 2021-09-07 (주)시즐 관계형 데이터베이스 구조를 이용한 비관계형 데이터베이스 장치 및 데이터 정형화 방법

Similar Documents

Publication Publication Date Title
US10474703B2 (en) Method and apparatus for natural language query in a workspace analytics system
CN109074383B (zh) 文档背景内可视化的文档搜索
US7840891B1 (en) Method and system for content extraction from forms
US20080275850A1 (en) Image tag designating apparatus, image search apparatus, methods of controlling operation of same, and programs for controlling computers of same
US20140181099A1 (en) User management of electronic documents
CN106951495A (zh) 用于呈现信息的方法和装置
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN111144078A (zh) Pdf文件中待标注位置确定方法、装置、服务器及存储介质
KR20170073693A (ko) 유사 그룹 요소 추출
JP2013246644A (ja) ソフトウェアオブジェクト修正支援装置、ソフトウェアオブジェクト修正支援方法、および、プログラム
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
US20210191742A1 (en) Help content based application page analysis
KR101553990B1 (ko) 데이터와 시각화차트간 매핑을 이용한 데이터 시각화 장치 및 방법
CN111602129B (zh) 针对注释和墨迹的智能搜索
CN107168635A (zh) 信息呈现方法和装置
US20170132195A1 (en) Method and Apparatus Providing Contextual Suggestion in Planning Spreadsheet
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
US20180330156A1 (en) Detection of caption elements in documents
US20140358961A1 (en) Grid queries
KR20170050338A (ko) 데이터 구조화 방법
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
US10445415B1 (en) Graphical system for creating text classifier to match text in a document by combining existing classifiers
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right