KR20080008573A - Xml 데이터로부터 연관규칙을 추출하기 위한 방법 - Google Patents

Xml 데이터로부터 연관규칙을 추출하기 위한 방법 Download PDF

Info

Publication number
KR20080008573A
KR20080008573A KR1020060067996A KR20060067996A KR20080008573A KR 20080008573 A KR20080008573 A KR 20080008573A KR 1020060067996 A KR1020060067996 A KR 1020060067996A KR 20060067996 A KR20060067996 A KR 20060067996A KR 20080008573 A KR20080008573 A KR 20080008573A
Authority
KR
South Korea
Prior art keywords
tree
key
xml
pair
extracting
Prior art date
Application number
KR1020060067996A
Other languages
English (en)
Inventor
신준
백주련
김응모
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020060067996A priority Critical patent/KR20080008573A/ko
Publication of KR20080008573A publication Critical patent/KR20080008573A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 데이터 마이닝 기술 중 XML문서들에 대한 마이닝 기술로서 빈번 서브트리(Frequent subtree)를 추출하고 이를 바탕으로 연관규칙을 추출하는 방법에 관한 것이다. 본 발명에서는 key와 Tid_list의 쌍들로 구성된 PairSet이라는 구조를 도입하고, 크로스 필터링 알고리즘을 개발함으로써, 여러 개의 XML문서 혹은 트리 데이터들을 마치 채로 걸러내듯이 걸러서 자주 발생하는 서브 트리들만을 추출하고 이로부터 연관 규칙을 추출하는 내용을 담고 있다. 본 방식은 네트워크 상에서 전송, 저장되는 정보를 제공하는 모든 반구조적 객체들에 적용 가능하다. 따라서 전자 상거래, 문서 교환, 정보 공유 등의 등에 활용할 수 있다. 또한, 이종 환경에서의 XML 문서들을 통합하는 시스템에 요구되는 복잡도와 저장공간 그리고 수행 시간이 적은 효율적인 방식이므로 인테그레이션 시스템에 적용 가능하다.

Description

XML 데이터로부터 연관규칙을 추출하기 위한 방법{METHOD FOR EXTRACTING ASSOCIATION RULE FROM XML DATA}
도 1은 트리 집합의 일 예를 도시한다.
도 2는 도 1의 트리집합을 기초로 만들어진 PairSet을 도시한다.
도 3은 본 발명에 따른 크로스 필터링 알고리듬의 예를 도시한다.
도 4는 후보집합[C]와 빈번히 발생하는 집합[F]의 예를 도시한다.
도 5는 크로스 필터링이 끝난 후의 후보집합[C]와 빈번히 발생하는 집합[F]의 예를 도시한다.
도 6은 크로스 필터링이 끝난 후 빈번히 발생하는 집합[F]으로부터의 연관규칙의 예를 도시한다.
본 발명은 데이터 마이닝 기술 중 XML문서들에 대한 마이닝 기술로서 빈번 서브트리(Frequent subtree)를 추출하고 이를 바탕으로 연관규칙을 추출하는 방법에 관한 것이다.
XML 문서는 트리 구조로 이루어져 있으며 이런 구조적 특성으로 인해 XML 마 이닝은 주로 대상 문서들의 공통의 서브 트리 패턴들을 발견하는 방법이 가장 많이 연구되어 지고 있는 분야이다. 기존의 RDB 에서의 Apriori 알고리즘을 이용한 빈도 아이템 집합과 후보 빈도 아이템 집합을 구분 지었듯이, XML 마이닝 역시 빈번 서브 트리 집합과 후보 빈번 서브 트리 집합을 근간으로 하여 이루어지는 연구들이 주를 이룬다. 즉 이러한 Apriori 기반의 방식은 1993년 Rakesh Agrawal에 의해 처음으로 제안된 이후(R. Agrawal, T. Imielinski, and A. N. Swami. Mining association rules between sets of items in large databases. In Proc. of the ACM SIGMOD International Conference on Management of Data, pp.207-216, 1993), 많은 연구가 진행되어 현재까지 다양한 알고리즘들이 제안되었다.
연관 규칙을 추출하는데 있어서 핵심 포인트는 자주 발생하는 서브 트리를 추출하는 것이다. 지금까지 적지 않은 빈번 서브 트리 생성 알고리즘들이 제안되었으나 대부분의 방식이 단계적인 에지 조인 생성을 이용하므로, 레이블 개수 멱승과 같은 많은 양의 계산, 공간을 요구한다는 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는 새롭게 고안된 크로스필터링 알고리듬을 이용하여 종래 기술의 방식에 비하여 요구되는 계산량이 감소되고 수행시간이 적고 효율적인 방식으로 연관규칙을 추출해내는 것을 목적으로 한다.
이러한 과제를 이루기 위하여 본 발명에 따른 XML 연관규칙을 찾기 위한 방법에서는 XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환하고, 크로스필 터링 알고리즘을 이용하여 페어셋(PairSet)에서 빈번하게 발생하는 서브트리 찾고, 크로스필터링이 끝난 후 페어셋(PairSet)의 빈번하게 발생하는 집합(Frequent Set)[F]으로부터 연관규칙 축출하는 프로세스를 수행한다.
이와 같이, 본 발명에서는 가장 복잡하고 많은 시간이 요구되는 에지 조인단계를 생략하기 위해 '페어셋(PairSet)' 이라는 새로운 구조로 이 트리들을 분석하여 저장하는 방식을 사용하였다. 이를 이용하여 최대 빈번 서브 트리들을 추출하여 기존 일부 알고리즘에서 발생했던 빈번 서브 트리를 발견하지 못하거나 중복해서 발견했던 문제점 또한 개선한다.
이하 첨부된 도면을 참조로 본 발명에 따른 XML 연관규칙을 찾기 위한 각각의 프로세스를 설명한다.
본 발명의 설명에 앞서, 본 발명의 명세서에서 사용된 각각의 용어에 대한 설명은 다음과 같다.
- 레이블드 트리(labeled tree) : 트리 노드들에 대해 일련의 문자들의 조합으로 나타낼 수 있는 함수가 존재하는 트리이다.
- 서브트리 : 트리 t = (N, E) 이라 정할 때, t 의 서브 트리인 s = (N s , E s ) 로 나타 낼 수 있는데, 이때 N s ⊆ N 이며 E s 에 속하는 모든 에지들인 (u, v) E 에서 uv의 조상이 되는 관계를 반드시 유지해야만 st 의 서브트리라 하며 s t 로 나타낸다.
- 최소 지지도 (minimum support) : 전체 입력 트리에 대한 비로써 0과 1사이의 값을 갖는다. 최소 지지도 * 전체 트리 수를 만족하는 서브 트리들을 구하는데 주요 역할을 하는 요소로서 사용자가 정의한다.
- key : 트리에서 노드들의 식별자, XML문서에서는 <tag>가 키가 된다.
- tid _list : 빈번히 발생하는 서브트리들을 찾기 위한 도메인(예를 들자면, XML 데이터베이스 혹은 TREE들의 집합)에서 각각의 구성요소에 대한 식별자를 tree id라 부르고, 이 tree id들의 집합을 tid_list라고 한다.
- PairSet : (key, tid_list) 쌍들을 원소로 갖고 있는 집합을 나타낸다. 어떤 key가 여러 개의 트리에 공통적으로 존재하는 경우, key값과 해당 트리들의 id집합을 묶어서 표현할 때 사용한다.
1. XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환.
1) 트리 집합의 모든 트리를 하나씩 DFS방식으로 방문하면서 PairSet을 생성한다.
2) 루트 노드에서부터 DFS방식으로 노드들을 방문하면서,
3) 해당 깊이(depth)의 PairSet에 방문 중인 노드의 key가 있으면 key에 대응하는 tid_list에 현재 방문 중인 트리의 ID를 추가한다.
도 1은 위에서 설명한 트리 집합의 하나의 예가 될 수 있다. 도 1의 트리집합에서 PairSet을 만들면 도 2와 같이 된다.
2. PairSet에서 빈번하게 발생하는 서브트리 찾기(크로스필터링 알고리즘 이용).
크로스필터링 알고리즘의 슈도(Pseudo) 코드가 도 3에 나와 있다. 크로스필터링 알고리즘은 다음과 같이 세 부분으로 구분할 수 있다.
1) PairSet을 두개의 집합 [C]와 [F]로 나누기.
여기서 [C]는 후보집합(Candidate Set)을 의미하고 [F]는 빈번하게 발생하는 집합(Frequent Set)이다. 이들을 분리하는 기준은 사용자가 정의한 최소지지도 (minsup: minimum support)를 이용한다. 도 4에 PairSet을 후보집합[C]와 빈번하게 발생하는 집합[F]로 분리한 모습이 도시되어 있다.
2) 인접 레벨의 후보집합[C]에 속하는 어떤 key가 현 레벨의 빈번하게 발생하는 집합[F]에 속하면 그 key에 대응하는 tid_list를 통합하고 key를 후보집합[C]에서 삭제한다.
3) 그래도 남아있는 후보집합[C]에 속하는 (key, tid_list)쌍들은 채로 걸러내듯이 다음 레벨로 이동시킨다.
이렇게 해서 빈번하게 발생하는 집합[F]에 남게 되는 (key, tid_list) 쌍은 도 5에 나와 있다.
3. 크로스필터링이 끝난 후 [F]로부터 연관규칙 축출
연관규칙이란 X⇒Y로 표현되는 규칙으로서, X이면 Y이다가 참이 되는 명제를 말한다. 여기서 X와 Y는 다음 두 조건을 만족한다.
1) X∈F, Y∈F
2)
Figure 112006051723996-PAT00001
따라서 빈번하게 발생하는 집합[F]로부터 축출된 정보를 통해서 그림 6과 같은 형태의 연관규칙을 얻어낼 수 있다.
이와 같이, 본 발명에서는 key와 Tid-list의 쌍들로 구성된 PairSet이라는 구조를 도입하고, 크로스 필터링 알고리즘을 개발함으로써, 여러 개의 XML문서 혹은 트리 데이터들을 마치 채로 걸러내듯이 걸러서 자주 발생하는 서브 트리들만을 추출하고 이로부터 연관 규칙을 추출한다.
본 방법은 네트워크 상에서 전송, 저장되는 정보를 제공하는 모든 반구조적 객체들에 적용 가능하다. 따라서 전자 상거래, 문서 교환, 정보 공유 등의 등에 활용할 수 있다. 또한, 이종 환경에서의 XML 문서들을 통합하는 시스템에 요구되는 복잡도와 저장공간 그리고 수행 시간이 적은 효율적인 방식이므로 인테그레이션 시스템에 적용 가능하다.
이상에서 설명한 것은 본 발명에 따른 하나의 실시예를 설명한 것이며, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자가 변경실시 가능한 범위까지 본 발명의 범위에 있다고 할 것이다.
이와 같이 본 발명에 따른 방법은 기존의 방식에 비해 요구되는 계산량을 감소시키고, 최종적으로 XML 연관규칙을 추출해낸다.
또한, 본 발명은 이종 환경에서의 XML 문서들을 통합하는 시스템에 요구되는 복잡도와 저장공간 그리고 수행 시간이 적은 효율적인 방식이므로 인테그레이션 시스템에 적용 가능하다.

Claims (3)

  1. XML 데이터로부터 연관규칙을 추출하기 위한 방법에 있어서,
    XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환하는 단계;
    크로스필터링 알고리즘을 이용하여 페어셋(PairSet)에서 빈번하게 발생하는 서브트리를 찾는 단계;
    크로스필터링이 끝난 후 페어셋(PairSet)의 빈번하게 발생하는 집합(Frequent Set)으로부터 연관규칙을 축출하는 단계를 포함하는 XML 데이터로부터의 연관규칙 추출 방법.
  2. 제 1항에 있어서, 상기 XML집합 혹은 트리집합을 페어셋(PairSet)의 형태로 변환하는 단계는:
    트리 집합의 모든 트리를 하나씩 DFS방식으로 방문하면서 페어셋(PairSet)을 생성하는 단계;
    루트 노드에서부터 DFS방식으로 노드들을 방문하면서, 해당 깊이(depth)의 페어셋(PairSet)에 방문 중인 노드의 키(key)가 있으면 키(key)에 대응하는 tid_list에 현재 방문 중인 트리의 ID를 추가하는 단계를 포함하는 것을 특징으로 하는 XML 데이터로부터의 연관규칙 추출 방법.
  3. 제 1항에 있어서, 상기 크로스필터링 알고리즘은:
    사용자가 정의한 최소지지도 (minsup: minimum support)를 이용하여 상기 페어셋(PairSet)을 두개의 집합 후보집합[C]와 빈번하게 발생하는 집합[F]으로 나누는 단계;
    인접 레벨의 후보집합[C]에 속하는 어떤 키(key)가 현 레벨의 빈번하게 발생하는 집합[F]에 속하면 그 키(key)에 대응하는 tid_list를 통합하고 키(key)를 후보집합[C]에서 삭제하는 단계; 및
    여전히 남아있는 후보집합[C]에 속하는 (key, tid_list)쌍들은 걸러내어 다음 레벨로 이동시키고, 빈번하게 발생하는 집합[F]에 남게 되는 (key, tid_list) 쌍만을 추출하는 단계를 포함하는 것을 특징으로 하는 XML 데이터로부터의 연관규칙 추출 방법.
KR1020060067996A 2006-07-20 2006-07-20 Xml 데이터로부터 연관규칙을 추출하기 위한 방법 KR20080008573A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060067996A KR20080008573A (ko) 2006-07-20 2006-07-20 Xml 데이터로부터 연관규칙을 추출하기 위한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060067996A KR20080008573A (ko) 2006-07-20 2006-07-20 Xml 데이터로부터 연관규칙을 추출하기 위한 방법

Publications (1)

Publication Number Publication Date
KR20080008573A true KR20080008573A (ko) 2008-01-24

Family

ID=39221358

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060067996A KR20080008573A (ko) 2006-07-20 2006-07-20 Xml 데이터로부터 연관규칙을 추출하기 위한 방법

Country Status (1)

Country Link
KR (1) KR20080008573A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208833A1 (ko) * 2013-06-28 2014-12-31 주식회사 케이티 문자 자동응답서비스 제공 방법, 문자 자동응답서비스 개발툴을 제공하는 방법 및 서버, 그리고 확장마크업언어 생성 방법
CN105303045A (zh) * 2015-10-27 2016-02-03 中国石油天然气股份有限公司 一种长输管道线性数据关联规则挖掘方法
CN111582603A (zh) * 2020-05-19 2020-08-25 中煤科工集团重庆研究院有限公司 基于多源信息融合的煤与瓦斯突出的智能预警方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208833A1 (ko) * 2013-06-28 2014-12-31 주식회사 케이티 문자 자동응답서비스 제공 방법, 문자 자동응답서비스 개발툴을 제공하는 방법 및 서버, 그리고 확장마크업언어 생성 방법
US10095668B2 (en) 2013-06-28 2018-10-09 Kt Corporation Text automatic response service providing method, text automatic response service development tool providing method and server, and extensible markup language generating method
CN105303045A (zh) * 2015-10-27 2016-02-03 中国石油天然气股份有限公司 一种长输管道线性数据关联规则挖掘方法
CN105303045B (zh) * 2015-10-27 2018-05-04 中国石油天然气股份有限公司 一种长输管道线性数据关联规则挖掘方法
CN111582603A (zh) * 2020-05-19 2020-08-25 中煤科工集团重庆研究院有限公司 基于多源信息融合的煤与瓦斯突出的智能预警方法

Similar Documents

Publication Publication Date Title
Nijssen et al. Efficient discovery of frequent unordered trees
KR100493882B1 (ko) Xml 데이터 검색을 위한 질의 처리 방법
US8103705B2 (en) System and method for storing text annotations with associated type information in a structured data store
JP5092165B2 (ja) データ構築方法とシステム
KR101105363B1 (ko) 롱 트랜잭션 데이터 스트림을 위한 빈발항목집합 탐색 방법
CN111506621B (zh) 一种数据统计方法及装置
CN111026874A (zh) 知识图谱的数据处理方法及服务器
JPWO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
US8082492B2 (en) Structured-document management apparatus, search apparatus, storage method, search method and program
Gole et al. Frequent Itemset Mining for Big Data in social media using ClustBigFIM algorithm
Yang et al. Mining frequent query patterns from XML queries
CN103064966B (zh) 一种从单记录网页中抽取规律噪音的方法
Bramandia et al. On incremental maintenance of 2-hop labeling of graphs
US20070220420A1 (en) System and method for efficient maintenance of indexes for XML files
KR20080008573A (ko) Xml 데이터로부터 연관규칙을 추출하기 위한 방법
CN103927373A (zh) 基于增量式关联规则技术的动态大数据模型高效建立方法
Hsu et al. UCIS-X: an updatable compact indexing scheme for efficient extensible markup language document updating and query evaluation
Thomas et al. A survey on extracting frequent subgraphs
Hellal et al. Nodar: mining globally distributed substructures from a single labeled graph
Chang et al. An efficient algorithm of frequent XML query pattern mining for ebXML applications in e-commerce
KR20080026943A (ko) 연관규칙 탐사 방법
Maw An improvement of FP-growth mining algorithm using linked list
JP5374456B2 (ja) 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム
Kim et al. A partition index for XML and semi-structured data
KR20020061886A (ko) 엑스엠엘 문서의 저장방법 및 엑스엠엘 문서 또는 인덱스노드 탐색방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application