KR101022643B1 - 전자 카탈로그 관리 장치 및 방법 - Google Patents

전자 카탈로그 관리 장치 및 방법 Download PDF

Info

Publication number
KR101022643B1
KR101022643B1 KR1020080115730A KR20080115730A KR101022643B1 KR 101022643 B1 KR101022643 B1 KR 101022643B1 KR 1020080115730 A KR1020080115730 A KR 1020080115730A KR 20080115730 A KR20080115730 A KR 20080115730A KR 101022643 B1 KR101022643 B1 KR 101022643B1
Authority
KR
South Korea
Prior art keywords
electronic catalog
index word
materialized view
index
electronic
Prior art date
Application number
KR1020080115730A
Other languages
English (en)
Other versions
KR20100056763A (ko
Inventor
이상구
이동주
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020080115730A priority Critical patent/KR101022643B1/ko
Publication of KR20100056763A publication Critical patent/KR20100056763A/ko
Application granted granted Critical
Publication of KR101022643B1 publication Critical patent/KR101022643B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Algebra (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다양한 형태의 전자 상거래에서 이용되는 전자 카탈로그의 색인 관리 장치를 관리하는 장치 및 방법에 관한 것으로서, 본 발명의 목적은, 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 어느 하나를 구현하기 위한 실체화 뷰를 생성할 수 있는, 전자 카탈로그 관리 장치 및 방법에 관한 것이다. 이를 위해 본 발명은, 전자 카탈로그 관리 장치가, 기 저장되어 있는 전자 카탈로그로부터 색인어를 추출하고, 추출된 색인어로부터 기초 색인어 통계 정보 테이블을 생성하는 단계; 상기 전자 카탈로그 관리 장치가, 상기 기초 색인어 통계 정보 테이블을 이용하여, 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행 시 액세스 되는 실체화 뷰를 생성하는 단계; 및 상기 전자 카탈로그 관리 장치에 접속된 사용자 단말기 또는 관리자 단말기로부터 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행이 요구된 경우, 상기 전자 카탈로그 관리 장치가 상기 실체화 뷰를 액세스하여 상기 요구에 해당되는 데이터를 추출하여 상기 사용자 단말기 또는 관리자 단말기로 전송하는 단계를 포함한다.
카탈로그, 실체화 뷰, 질의

Description

전자 카탈로그 관리 장치 및 방법{APPARATUS AND METHOD FOR MANAGING E-CATALOGS}
본 발명은 정보를 관리하는 장치 및 방법에 관한 것으로서, 특히, 다양한 형태의 전자 상거래에서 이용되는 전자 카탈로그를 관리하는 장치 및 방법에 관한 것이다.
현재 전자 상거래는 그 규모나 질적인 측면에서 비약적으로 발전하고 있으며, 전자 카탈로그의 유통은 그에 상응하게 증가하고 있다. 전자 카탈로그란, 전자 상거래 시스템에서 거래되는 제품, 물품, 상품, 용역, 서비스 등의 품명과 코드, 생산 연월일, 규격, 특징 등의 제품 속성 정보와 가격, 배송 방법, 지급 방법 등의 판매에 필요한 다양한 정보를 저장하고 있는 목록을 말하는 것으로서 디지털 카탈로그라고도 한다.
한편, 전자 상거래 시스템을 이용하는 사용자는, 키워드를 이용하여 전자 카탈로그를 검색함으로써, 상품에 대한 정확한 속성 정보나 값에 대한 지식 없이도, 순위를 기반으로 한 결과를 얻을 수 있으며, 속성 정보를 알고 있는 경우에는, 해 당 정보를 가진 중복된 전자 카탈로그를 검색할 수도 있다.
또한, 전자 상거래 시스템을 관리하는 관리자는, 신규 전자 카탈로그가 등록된 경우에는 전자 카탈로그 관리 장치 및 방법을 이용함으로써, 기존 전자 카탈로그와의 비교를 통해 신규 전자 카탈로그에 대한 최적 분류가 자동으로 수행되도록 할 수도 있다.
이러한 전자 카탈로그에 대한 관리는, 통계적 데이터에 기반한 확률적 접근 방법에 의해 가능한데, Bayesian Belief Network은 이를 위한 좋은 적용 모델이 되며, 이미 웹문서의 검색이나 주제어에 따른 분류에 많이 사용되고 있는 방법이다.
그러나, 기존의 웹문서와는 달리 전자 카탈로그는 변경이 빈번하며, 새로운 상품이 발생하면 새로운 전자 카탈로그가 생성되어 통계 데이터가 빈번히 변경되는 특징이 있다. 따라서, 이를 응용에서 모두 처리하기 위해서는 많은 통계 데이터를 수정해야 하는 문제가 있으며, 응용에서 발생하는 에러나 시스템의 예기치 않은 문제 발생 시 데이터간의 일치성 확보가 어렵다는 문제가 있다.
즉, 전자 카탈로그에 대해서 검색, 중복확인, 자동분류를 수행하는 기술은 매우 중요한 기술임에도 불구하고, 이를 구현하기 위한 비용이 과다하며, 더욱이, 종래의 전자 카탈로그 관리 방법은 지속적으로 변경되는 카탈로그에 대한 관리가 용이하지 않다는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 어느 하나를 구현하기 위한 실체화 뷰를 생성할 수 있는, 전자 카탈로그 관리 장치 및 방법에 관한 것이다.
상기 목적을 달성하기 위한 본 발명은, 전자 카탈로그 관리 장치에 적용되는 전자 카탈로그 관리 방법에 있어서, 상기 전자 카탈로그 관리 장치가, 기 저장되어 있는 전자 카탈로그로부터 색인어를 추출하고, 추출된 색인어로부터 기초 색인어 통계 정보 테이블을 생성하는 단계; 상기 전자 카탈로그 관리 장치가, 상기 기초 색인어 통계 정보 테이블을 이용하여, 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행 시 액세스 되는 실체화 뷰를 생성하는 단계; 및 상기 전자 카탈로그 관리 장치에 접속된 사용자 단말기 또는 관리자 단말기로부터 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행이 요구된 경우, 상기 전자 카탈로그 관리 장치가 상기 실체화 뷰를 액세스하여 상기 요구에 해당되는 데이터를 추출하여 상기 사용자 단말기 또는 관리자 단말기로 전송하는 단계를 포함한다.
본 발명은 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 어느 하나를 구현하기 위한 실체화 뷰를 생성함으로써, 전자 상거래의 중요 정보인 전자 카탈로그에 대한 정확한 일치가 아니라, 확률적인 일치성을 확인하기 위한 복잡한 색인구조 관리를 쉽게 하여 색인 관리에서 오는 비용을 줄이고, 색인 관리 응용 개발에 필요한 비용을 절감할 수 있도록 한다는 우수한 효과가 있다.
또한, 본 발명은 전자 카탈로그에 대한 검색, 중복확인, 자동분류를 위해, 관계형 데이터베이스(Relational Database)를 이용하여 색인어를 저장함으로써, 종래의 파일시스템에서 하는 것에 비해 응용을 개발하는 시간을 단축할 수 있고, 실체화 뷰를 활용함으로써 지속적인 전자 카탈로그의 갱신에 대한 색인어 갱신을 위한 응용 개발 비용과 시간을 단축할 수 있다는 우수한 효과가 있다.
또한, 본 발명은 기초 색인어 통계 정보로부터 실체화 뷰를 생성함으로써, 질의 처리를 위한 수식이 변경되더라도 쉽게 대응할 수 있다는 우수한 효과가 있다.
또한, 현재 대부분의 기업이 상품이나 서비스 정보를 전자 카탈로그로 작성하여 유통 관리하고 있으며, 이에 대해 많은 기업에서 필요한 중요 기능들은 검색, 중복확인, 자동분류인데, 본 발명은 종래 기술보다 관리와 구축이 편한 관계형 데이터베이스를 기반으로 한 색인 기법을 적용함으로써, 많은 기업에서 매우 유용하게 적용될 수 있다는 우수한 효과가 있다.
또한, 본 발명은 응용에서의 색인어 추출 과정을 최소화하고, 실체화 뷰를 통해서 변경된 색인정보를 데이터베이스 관리 시스템에서 처리하도록 전가하여, 응용 개발 비용을 줄이고, 응용 오류에서 오는 데이터 불일치성 문제를 최소화한다는 우수한 효과가 있다.
또한, 본 발명은 상기한 바와 같이, 전자 카탈로그에 대한 검색, 중복확인, 자동분류를 위한, 관계형 데이터베이스를 이용한 색인어 저장 관리 구조에 대한 것으로서, 관계형 데이터베이스를 이용하여 색인어를 저장 함으로써 기존의 파일시스템에서 하는 것에 비해 응용을 개발하는 시간을 단축할 수 있고, 실체화 뷰를 활용함으로써 지속적인 전자 카탈로그의 갱신에 대한 색인어 갱신을 위한 응용 개발 비용과 시간을 단축할 수 있으며, 기초 색인어 통계 정보로부터 실체화 뷰를 생성함으로 질의 처리를 위한 수식이 변경되더라도 쉽게 대응할 수 있다는 우수한 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명이 상세히 설명된다.
도 1은 본 발명이 적용되는 전자 상거래 서비스 제공 시스템의 일실시예 구성도이다.
본 발명은 전자 카탈로그에 대한 검색, 중복확인, 자동분류를 확률적으로 접근하고 이에 필요한 통계 데이터를 생성하기 위한 기초 색인어 테이블을 정의하고, 부가적으로 필요한 어휘 빈도수 테이블 및 어휘별 역문서빈도수(Inverse Document Frequency) 테이블을 정의하여 필요한 색인 데이터를 저장할 수 있도록 한다. 이때, 기초 색인어 테이블만을 응용을 통해서 생성, 수정, 삭제하도록 하고, 부가적인 어휘 빈도수 테이블과 어휘 역문서빈도수 테이블은 실체화 뷰를 통해서 만들고 자 한다. 이 같은 방법으로 본 발명은 응용 수준에서의 색인어 관리를 최소화하여 응용 구현에 필요한 비용을 최소화하고, 색인 관리에 필요한 응용 구현 및 이의 관리 비용을 줄이고자 한다.
한편, 본 발명이 적용되는 전자 상거래 서비스 제공 시스템은 도 1에 도시된 바와 같이, 전자 상거래를 제공하는 전자 상거래 서버(10)와 전자 상거래 서버에서 이용되는 다양한 전자 카탈로그를 관리하기 위한 전자 카탈로그 장치(20)로 구성되어 다양한 전자 상거래를 제공하는 전자 상거래 시스템(30), 전자 상거래 시스템을 관리하는 관리자가 이용하는 관리자 단말기(40), 전자 상거래 시스템에 접속하여 다양한 서비스를 제공받고자 하는 사용자가 이용하는 사용자 단말기(50), 전자 상거래 시스템으로 전자 카탈로그를 전송하는 공급자가 이용하는 공급자 단말기(60)를 포함한다.
전자 상거래 시스템(30)은 제품, 물품, 상품, 용역, 서비스 등(이하, 간단히 '상품'이라 함)에 대한 상거래를 네트워크를 통해 제공하는 시스템으로서, 사용자 단말기와 연결되어 직접적으로 상거래를 유도하는 전자 상거래 서버(10) 및 전자 상거래 서버에서 제공되는 상품들에 대한 다양한 정보, 즉, 전자 카탈로그를 관리하는 전자 카탈로그 관리 장치(20)로 구성된다. 여기서, 전자 상거래 서버(10)는 전자 상거래를 위한 다양한 웹페이지를 구성하여 사용자가 이용할 수 있도록 하는 기능을 수행한다. 한편, 전자 카탈로그 관리 장치(20)는 공급자 단말기로부터 전송되어온 전자 카탈로그를 관리하는 한편, 사용자 단말기로부터 전자 카탈로그에 대한 요청이 있는 경우에는 전자 상거래 서버를 통해 전자 카탈로그를 제공하는 기능 을 수행하는 것으로서, 이에 대하여는 이하에서 도 2를 참조하여 상세히 설명된다.
관리자 단말기(40)는 전자 상거래 시스템을 관리하는 관리자가 이용하는 단말기로서, 관리자는 관리자 단말기를 이용하여 전자 상거래 서버에서 이용되는 웹페이지를 수정, 추가, 삭제할 수 있으며, 전자 카탈로그 관리 장치에서 관리되고 있는 전자 카탈로그에 대한 정보들을 열람할 수 있다.
사용자 단말기(50)는 전자 상거래 시스템을 이용하여 다양한 전자 상거래를 달성하고자 하는 사용자가 이용하는 단말기로서, 개인용 컴퓨터(PC), 노트북, 휴대폰, PDA 등과 같이 네트워크를 통해 정보를 송수신할 수 있는 다양한 매체가 이용될 수 있다.
공급자 단말기(60)는 전자 상거래 시스템을 통해 전자 카탈로그를 제공하고자하는 공급자가 이용하는 단말기로서, 공급자는 자신의 상품과 관련된 전자 카탈로그를 제작하는 한편, 제작된 전자 카탈로그가 전자 상거래 서버에서 이용될 수 있도록, 제작된 전자 카탈로그를 전자 카탈로그 관리 장치로 제공하는 기능을 수행한다.
도 2는 본 발명에 따른 전자 카탈로그 관리 장치의 일실시예 구성도로서, 도 1에 도시된 전자 카탈로그 관리 장치(20)의 내부 구성을 나타낸 것이다. 또한, 도 3은 본 발명에 적용되는 데이터의 구조들을 나타낸 예시도이다.
본 발명에 따른 전자 카탈로그 관리 장치는 도 2에 도시된 바와 같이, 데이터 관리기(21), 전자 카탈로그 변경 확인기(22), 색인어 추출기(23), 기초 테이블 관리기(25), 실체화 뷰 생성기(27) 및 질의 처리기(29)를 포함하여 구성되어 있으 며, 데이터 관리기(21)는 전자 카탈로그 데이터베이스(DB)(21a), 기초 색인어 테이블(21b), 기초 색인어 통계정보 테이블(21c) 및 실체화 뷰(21d)를 포함하여 구성되어 있다. 한편, 도 2에서, 기초 색인어 테이블(21b), 기초 색인어 통계정보 테이블(21c) 및 실체화 뷰(21d)는 저장매체로서의 데이터베이스를 말하는 것이나, 이하에서는 데이터 그 자체로서의 의미로도 사용될 수 있다.
색인어 추출기(23)는, 기초 색인어 테이블(21b)을 생성하는 기능을 수행한다. 여기서, 기초 색인어 테이블이란, 전자 카탈로그에 포함되어 있는 다수의 색인어가 단순히 일정한 정렬 순서에 따라 정렬된 데이터를 말하는 것으로서, 도 3의 B(응용에서 생성된 색인어 정보)와 같은 형태의 데이터를 말하는 것이다.
기초 테이블 관리기(25)는, 기초 색인어 통계 정보 테이블(21c)을 생성하는 기능을 수행한다. 여기서, 기초 색인어 통계 정보 테이블이란, 검색, 중복확인, 자동분류를 위해 적용되는 통계 정보, 예를 들어, 색인어 아이디(Index Term ID, T_ID) 및 색인어 빈도수(Index Term Frequency, TF)가 저장되는 테이블을 말하는 것으로서, 도 3의 C(기초 색인어 정보로 저장된 테이블 정보)와 같은 형태의 데이터를 말하는 것이다.
실체화 뷰 생성기(27)는, 실체화 뷰(실체화 테이블)(21d)를 생성하는 기능을 수행한다. 여기서, 실체화 뷰란, 검색, 중복검색, 자동분류 시 실질적으로 액세스(access)되는 데이터 테이블을 말하는 것으로서, 도 3의 D(실체화 뷰)와 같은 형태의 데이터를 말하는 것이다.
질의 처리기(29)는, 사용자 단말기 또는 관리자 단말기로부터, 검색, 중복확 인, 자동분류 중 적어도 하나의 실행이 요구된 경우, 실체화 뷰(21d)를 액세스하여 요구에 대한 필요한 정보를 사용자 단말기 또는 관리자 단말기로 전송하는 기능을 수행한다.
전자 카탈로그 변경 확인기(22)는, 전자 카탈로그의 변경 여부를 확인하는 기능을 수행한다.
데이터 관리기(21)는 상기한 바와 같은 다양한 종류의 데이터(테이블)들을 관리하는 기능을 수행한다.
도 4는 본 발명에 따른 전자 카탈로그 관리 방법의 일실시예 흐름도이다. 또한, 도 5는 본 발명에 적용되는 질의, 색인어, 문서의 상관관계를 나타낸 예시도로서, 특히, Belief Network Model에서의 질의, 색인어, 문서의 상관관계를 나타내고 있다.
본 발명에 따른 전자 카탈로그 관리 방법은 다음과 같은 순서로 진행된다.
첫째, 초기 대량 인덱스 데이터베이스를 만들기 위해서, 색인어 추출기는 전자 카탈로그 데이터베이스(21a)에서 색인어를 추출하고, 색인을 생성함으로써, 기초 색인어 테이블을 생성하여 데이터 관리기(21)에 저장한다(100).
둘째, 기초 테이블 관리기(25)는 기초 색인어 통계 정보 테이블을 생성하여 데이터 관리기에 저장한다(200).
셋째, 색인어 추출이 완료되면, 실체화 뷰 생성기(27)는 검색, 중복검사, 자동분류에 필요한 실체화 뷰를 생성하여 데이터 관리기에 저장한다(300).
넷째, 질의 처리기(29)는 사용자 단말기 또는 관리자 단말기로부터, 검색 시 에는 키워드 배열을, 중복 확인 시와 자동 분류 시에는 (속성, 값)쌍 열을 받아서 SQL 문을 생성하고, 이를 이용하여 실체화 뷰에 접근하여 확률에 기반한 순위를 생성하고, 생성된 결과를 사용자 단말기 또는 관리자 단말기로 반환한다(400).
다섯째, 카탈로그 변경 확인기(22)에 의해 전자 카탈로그의 변경이 확인되면, 색인어 추출기가 변경된 전자 카탈로그에 대해서 색인어 추출을 수행하고 기초 색인어 테이블에 저장된 기존 색인어를 삭제하고, 새로이 변경된 색인어를 저장한다(500). 전자 카탈로그에 대한 변경은 실체화 뷰를 통해서 응용수준이 아니라, 데이터베이스 관리 시스템 수준에서 처리된다.
상기한 바와 같은 본 발명은, 전자 카탈로그에 대한 확률적인 검색, 중복확인, 자동분류를 함에 있어 필요한 통계 정보를 가지는 인덱스 테이블 관리를 최소화함으로 관리비용을 줄이고자 한다. 그러나, 기존의 확률 기반 데이터를 그대로 활용해야만 충분한 정확도를 이끌어 낼 수 있으므로, 세 가지 기능에 필요한 인덱스 구조와 이의 생성 과정을 정의하여 관리해야 한다. 부연하여 설명하면, 본 발명의 내용은 검색, 중복확인, 자동분류에 필요한 통계 정보를 정의하고, 이를 관계형 데이터베이스에 저장하기 위한 인덱스 테이블구조를 정의한다. 다음으로 세 가지 기능을 지원하기 위한 기초 인덱스 테이블과 실체화 뷰로 구성되는 인덱스 테이블로 구분하고 이를 정의하는 스크립트를 정의한다. 끝으로 세 가지 확률에 기반한 전자 카탈로그 접근 기능에 대한 SQL 표현을 보임으로 최소한의 인덱스 구조를 활용한 본 발명의 구성과 작용을 보인다. 여기서, 관계형 데이터베이스는 일련의 정형화된 테이블로 구성된 데이터 항목들의 집합체로서, 그 데이터들은 데이터 테이 블을 재구성하지 않더라도 다양한 방법으로 접근하거나 조합될 수 있다.
이하에서는, 도 4에 도시된 각 과정이 상세히 설명된다.
첫 번째 과정(100)으로서, 기초 색인어 테이블(도 3의 B)을 생성하는 단계는 다음과 같다. 여기서, 기초 색인어 테이블이란 전자 카탈로그에 포함되어 있는 각종 색인어가, 단순히 특정 순서, 예를 들어, 속성 ID에 따라 정렬되어 있는 테이블을 말한다.
즉, 색인어 추출기(23)는 전자 카탈로그 DB에 저장되어 있는 전자 카탈로그를 각 속성별로 분류함으로써, 기초 색인어 테이블을 생성하며, 생성된 기초 색인어 테이블을 데이터 관리기에 저장한다.
두 번째 과정(200)으로서, 기초 색인어 통계 정보 테이블(도 3의 C)을 생성하는 단계는 다음과 같다. 여기서, 기초 색인어 통계 정보 테이블이란, 검색, 중복확인, 자동분류를 위해 적용되는 통계 정보가 저장되는 테이블을 말하는 것으로서, 이하에서 설명될 검색을 위한 통계 정보 정의, 중복확인을 위한 통계 정보 정의 및 자동분류를 위한 통계 정보 정의를 이용하여 저장되는 테이블을 말한다. 즉, 기초 색인어 통계 정보 테이블을 생성하기 위해 우선, 기초 테이블 관리기(25)는 확률 모델에 기반한 검색, 중복확인, 자동분류를 위한 통계 정보를 정의한다. 전자 카탈로그는 상품을 기술하기 위한 분류 체계, 상품의 특성을 기술하기 위한 속성, 해당 속성에 대한 값으로 정의된다. 전자 카탈로그는 기업이나, 정의하는 단체에 따라서 약간씩의 차이를 보이지만 대부분이 트리 구조의 분류 체계의 말단 분류에 상품을 지정하고, 해당 상품은 분류에 따라 상품을 기술하기 위한 속성이 정의된다. 따라 서, 상품은 특정 분류에 소속된 각 속성에 대한 값의 기술이라고 할 수 있으며, [수학식 1]과 같이 정의될 수 있다.
Figure 112008080089210-pat00001
키워드 질의를 이용한 상품의 검색과, 속성을 지정하고 각 속성 값을 질의로 한 중복확인 및 자동분류는 서로 다른 질의 값을 가진다. 본 발명은 Belief Network에 기반한 색인어와 전자 카탈로그 질의를 모델링함으로 각 질의에 필요한 통계 데이터를 정의할 수 있다.
우선, 기초 색인어 통계 정보 테이블을 생성하는 과정 중 검색을 위한 통계 정보를 정의하는 과정은 다음과 같다. 본 발명에서는 모든 기능을 빌리프 네트워크 모델(Belief Network Model)을 바탕으로 한다. Belief Network Model은 질의와 문서를 term 즉, 색인어를 이용하여 연결하는 것이다. 또한, 색인어와 질의, 색인어와 문서와의 직접적인 연관성만 존재하고, 질의와 문서의 직접적인 연관은 배제하는 모델이다. 도 5는 Belief Network Model에서의 질의와 색인어, 문서의 상관관계를 표현한다.
본 발명이 이용하고 있는 Belief Network 모델에서의 주어진 질의에 대해서 전자 카탈로그
Figure 112008080089210-pat00002
Figure 112008080089210-pat00003
가 채택될 확률은 다음과 같이 정의될 수 있다.
Figure 112008080089210-pat00004
Figure 112008080089210-pat00005
Figure 112008080089210-pat00006
벡터 공간상에서
Figure 112008080089210-pat00007
Figure 112008080089210-pat00008
Figure 112008080089210-pat00009
Figure 112008080089210-pat00010
는 다음과 같이 정의될 수 있다.
Figure 112008080089210-pat00011
Figure 112008080089210-pat00012
Figure 112008080089210-pat00013
Figure 112008080089210-pat00014
Figure 112008080089210-pat00015
이를 바탕으로
Figure 112008080089210-pat00016
Figure 112008080089210-pat00017
는 다음과 같이 표현될 수 있다.
Figure 112008080089210-pat00018
질의 q와 전자 카탈로그 d를 각 term에 대한 중요도 w를 각 차원으로 하는 벡터로 표현하면 다음과 같다.
Figure 112008080089210-pat00019
Figure 112008080089210-pat00020
Figure 112008080089210-pat00021
Figure 112008080089210-pat00022
Figure 112008080089210-pat00023
이를 [수학식 4]에 적용하면 다음과 같은 벡터의 절대값에 대한 내적으로 표현될 수 있다.
Figure 112008080089210-pat00024
Figure 112008080089210-pat00025
이와 같이 속성에 대한 구분 없이 주어진 질의에 대한 전자카탈로그 dj가 검색될 확률은 [수학식 6]의 두 번째 식과 같이 최종적으로 표현될 수 있다. [수학식 5]의 세 번째 식에서 표현한 대로 각 문서는 추출된 색인어에 대한 가중치로 계산 되고 이는 tf-idf에 의해서 계산될 수 있으므로 이를 최종적으로 색인하면 된다.
본 발명에서는 이를 직접적으로 추출하여 테이블에 저장하지 않는다. 먼저 응용 수준에서 각 카탈로그별로 색인어를 추출하여 기초 색인어 테이블을 생성한다. 도 3은 응용에서 생성된 정보와 데이터베이스에 기초 색인어 테이블과 실체화 뷰로 저장되는지를 보여준다.
다음므로, 기초 색인어 통계 정보 테이블을 생성하는 과정 중 중복확인을 위한 통계 정보를 정의하는 과정은 다음과 같다.
전자카탈로그 중복확인을 위한 확률 값은 속성이 지정되었기 때문에 검색과 다르게 계산된다. 즉, 질의 문서
Figure 112008080089210-pat00026
Figure 112008080089210-pat00027
가 기존에 전자 카탈로그 데이터베이스에 저장된 상품 p를 기술할 확률은 Bayes theorem에 의해서 다음과 같이 표현될 수 있다.
Figure 112008080089210-pat00028
각 속성이 독립이라고 하면 이는 다음과 같이 각 속성에 대한 속성 값의 확률 곱으로 나타낼 수 있다.
Figure 112008080089210-pat00029
데이터베이스에는 각 상품을 기술하는 전자 카탈로그가 유일하게 존재한다 면, 기존에 상품을 기술하는 전자 카탈로그
Figure 112008080089210-pat00030
Figure 112008080089210-pat00031
와 주어진 질의 문서
Figure 112008080089210-pat00032
Figure 112008080089210-pat00033
가 일치할 확률은 다음과 같이 나타낼 수 있다.
Figure 112008080089210-pat00034
각 값에 대한 일치 확률
Figure 112008080089210-pat00035
Figure 112008080089210-pat00036
는 Belief Network에 의해서 각 값으로부터 추출된 색인어휘로 확장될 수 있고, 다음과 같이 표현될 수 있다.
Figure 112008080089210-pat00037
[수학식 10]은 검색에서와 마찬가지로 벡터 공간에서 표현될 수 있고, [수학식 9]와 결합하여 다음과 같이 계산될 수 있다.
Figure 112008080089210-pat00038
Figure 112008080089210-pat00039
,where
Figure 112008080089210-pat00040
Figure 112008080089210-pat00041
Figure 112008080089210-pat00042
Figure 112008080089210-pat00043
Figure 112008080089210-pat00044
Figure 112008080089210-pat00045
이는 검색에서와 마찬가지로 tf-idf를 이용해서 구할 수 있다. 그러나, 검색에서는 tf, idf의 구분자가 카탈로그와 색인어인데 반해, 중복확인은 속성도 구분자에 포함된다.
위의 수학식들을 활용하면 주어진 질의 카탈로그에 대해서 일치하는 카탈로그를 찾아낼 수 있다.
마지막으로, 기초 색인어 통계 정보 테이블을 생성하는 과정 중 자동분류를 위한 통계 정보를 정의하는 과정은 다음과 같다.
자동분류는 상기에서 설명된 통계정보들과는 다른 확률 값을 구한다. 새로이 정의하고자 하는 전자 카탈로그
Figure 112008080089210-pat00046
Figure 112008080089210-pat00047
에 최적의 분류
Figure 112008080089210-pat00048
Figure 112008080089210-pat00049
는 다음과 같이 구해질 수 있다.
Figure 112008080089210-pat00050
각 분류에 대한 질의 문서
Figure 112008080089210-pat00051
Figure 112008080089210-pat00052
에 대한 조건부 확률
Figure 112008080089210-pat00053
Figure 112008080089210-pat00054
는 다음과 같이 정의된다.
Figure 112008080089210-pat00055
각 속성이 독립이라면, [수학식 13]은 Bayes Theorem 에 의해서 다음과 같이 표현될 수 있다.
Figure 112008080089210-pat00056
Figure 112008080089210-pat00057
Figure 112008080089210-pat00058
Figure 112008080089210-pat00059
Figure 112008080089210-pat00060
개의 색인어로 확장되어
Figure 112008080089210-pat00062
와 같이 표현되고, 각각의 색인어가 독립이라고 하면 이는 다음과 같이 표현될 수 있다 (
Figure 112008080089210-pat00063
Figure 112008080089210-pat00064
Figure 112008080089210-pat00065
Figure 112008080089210-pat00066
로 줄여서 표현).
Figure 112008080089210-pat00067
Figure 112008080089210-pat00068
, where
Figure 112008080089210-pat00069
Figure 112008080089210-pat00070
Figure 112008080089210-pat00071
[수학식 15]에서 정의된 조건부 확률을 계산하기 위해서는
Figure 112008080089210-pat00072
Figure 112008080089210-pat00073
를 계산하여 저장하는 테이블과
Figure 112008080089210-pat00074
Figure 112008080089210-pat00075
를 저장하는 테이블이 필요하다.
세 번째 과정(300)으로서, 실체화 뷰를 생성하는 단계는 다음과 같다. 여기서, 실체화 뷰란, 검색, 중복검색, 자동분류 시 실질적으로 액세스(access)되는 데이터 테이블을 말하는 것으로서, 실체화 뷰 생성기에 의해 기초 색인어 통계 정보 테이블을 이용하여 생성되며, 검색을 위한 실체화 뷰, 중복확인을 위한 실체화 뷰, 자동분류를 위한 실체화 뷰로 구분될 수 있다. 즉, 실체화 뷰 생성기는, 기초 색인어 통계 정보 테이블을 이용하여, 사용자 또는 관리자에 의한 검색, 중복확인 및 자동분류 요청 시 실질적으로 이용될 수 있는 실체화 뷰(데이터 테이블)을 생성한다.
즉, 도 3에 도시된 바와 같이, 전자 카탈로그는 속성 및 속성 값의 쌍의 집합으로 표현될 수 있다. 이는 대부분의 전자 카탈로그에서 적용되는 구조이고 물리적 저장 구조가 다르더라도 응용 상에서 색인어를 추출하는 데에는 영향을 주지 않 으므로 본 발명에서 같이 통계 정보를 추출하고 관리하는 데는 영향을 주지 않는다.
상품, 즉, 전자 카탈로그의 고유 번호를 O_ID라 하고, 각 속성의 아이디를 A_ID, 추출된 색인어의 아이디를 T_ID라 하고, 특정 전자카탈로그의 속성에서 추출된 색인어의 빈도수를 TF라 하면 응용에서는 O_ID, A_ID, T_ID, TF의 정보를 추출 할 수 있다. 이는 각각의 전자 카탈로그의 특정 속성에 대한 값에만 의존적이기 때문에 다른 정보와는 의존을 가지지 않는다. 따라서 본 발명에서는 이를 '기초 색인어 통계 정보'라하고, 이를 저장하는 테이블을 '기초 색인어 통계 정보 테이블' 이라 칭하고 T_PRO_TF라 명명한다. 본 발명에서는 각 테이블의 컬럼에 대한 데이터 유형에 대해서는 언급하지 않는다. 이는 색인어의 구조적 정보에는 영향을 주지 않기 때문이다.
우선, 실체화 뷰를 생성하는 과정 중 검색을 위한 실체화 뷰를 생성하는 과정은 다음과 같다.
단순한 확률적 검색에서는 각 속성에 대한 구분이 필요 없기 때문에 속성의 구분 없이 O_ID, T_ID, TF를 구하고, 이로부터 각 색인어의 가중치를 구한다. 즉, 최종적인 가중치는 tf-idf의 곱을 이용하는데, 이를 위해 TF, IDF를 저장하기 위한 실체화 뷰, 그리고 색인어의 가중치를 저장하는 실체화 뷰가 필요하다. 아래는 세 개의 실체화 뷰를 T_PRO_TF로부터 생성하는 실체화 뷰 생성 질의문으로서, [표 1]은 실체화 뷰 생성기가 TF를 저장하기 위한 실체화 뷰를 생성하는 실체화 뷰 생성 질의문이고, [표 2]는 IDF를 저장하기 위한 실체화 뷰를 생성하는 실체화 뷰 생성 질의문이며, [표 3]은 가중치를 저장하는 실체화 뷰를 생성하는 실체화 뷰 생성 질의문이다.
S_MV_PRO_TF <O_ID, T_ID, TF>
CREATE MATERIALIZED VIEW S_MV_PRO_TF
REFRESH COMPLETE
AS
SELECT O_ID, T_ID, SUM(TF) TF
FROM (
SELECT O_ID O_ID,
T_ID T_ID,
TF/(COUNT(DISTINCT A_ID) OVER (PARTITION BY O_ID)) TF
FROM S_T_PRO_TF )
GROUP BY O_ID, T_ID;
S_MV_PRO_IOF <T_ID, IOF>
CREATE MATERIALIZED VIEW S_MV_PRO_IOF
REFRESH COMPLETE
AS
SELECT T_ID,
LOG(2, (SELECT COUNT(*) FROM T_PRO)/COUNT(DISTINCT O_ID)) IOF
FROM S_T_PRO_TF
GROUP BY T_ID;
S_MV_PRO_TV <O_ID, T_ID, W>
CREATE MATERIALIZED VIEW S_MV_PRO_TV
REFRESH COMPLETE
AS
SELECT O_ID, T_ID,
W/POWER((SUM(POWER(W,2)) OVER (PARTITION BY O_ID)), 1/2) W
FROM (
SELECT S_TF.O_ID O_ID, S_TF.T_ID T_ID, TF*IOF W
FROM S_MV_PRO_TF S_TF, S_MV_PRO_IOF S_IOF
WHERE S_TF.T_ID = S_IOF.T_ID );
다음으로, 실체화 뷰를 생성하는 과정 중 중복확인을 위한 실체화 뷰를 생성하는 과정은 다음과 같다.
중복확인을 위해서는 기초 색인어 정보 테이블의 TF를 그대로 활용할 수 있기 때문에 IOF를 위한 실체화 뷰를 생성하고, 이로부터 색인어 가중치를 저장하는 테이블을 생성하면 된다. 아래는 이를 저장하는 실체화 뷰를 생성하는 실체화 뷰 생성 질의문으로서, [표 4]는 실체화 뷰 생성기가 IOF를 저장하기 위한 실체화 뷰를 생성하는 실체화 뷰 생성 질의문이고, [표 5]는 색인어의 가중치를 저장하는 실체화 뷰를 생성하는 실체화 뷰 생성 질의문이다.
D_MV_PRO_IOF <A_ID, T_ID, IOF>
CREATE MATERIALIZED VIEW D_MV_PRO_IOF
REFRESH COMPLETE
AS
SELECT A_ID, T_ID,
LOG(2, (SELECT COUNT(*) FROM T_PRO)/COUNT(DISTINCT O_ID)) IOF
FROM D_T_PRO_TF
GROUP BY T_ID, A_ID;
D_MV_PRO_TV <O_ID, A_ID, T_ID, W>
CREATE MATERIALIZED VIEW D_MV_PRO_TV
REFRESH COMPLETE
AS
SELECT O_ID, A_ID, T_ID,
W/POWER((SUM(POWER(W,2)) OVER (PARTITION BY O_ID, A_ID)), 1/2) W
FROM (
SELECT D_TF.PRO_ID O_ID, D_TF.ATT_ID A_ID, D_TF.VOC_ID T_ID, D_TF.TF*IOF W
FROM D_T_PRO_TF D_TF, ON_D_MV_PRO_IOF D_IOF
WHERE D_TF.T_ID = D_IOF.T_ID
AND D_TF.A_ID = D_IOF.A_ID);
마지막으로, 실체화 뷰를 생성하는 과정 중 자동분류를 위한 실체화 뷰(테이블)를 생성하는 과정은 다음과 같다.
자동분류를 위해서는 [수학식 15]에서 정의된 조건부 확률을 위해
Figure 112008080089210-pat00076
Figure 112008080089210-pat00077
Figure 112008080089210-pat00078
Figure 112008080089210-pat00079
를 저장하는 테이블이 필요하다.
Figure 112008080089210-pat00080
Figure 112008080089210-pat00081
를 위해서는 각 분류에 속한 카탈로그를 집계하여 저장하는 실체화 뷰 C_MV_CAT_CNT <C_ID, CNT>를 정의한다.
Figure 112008080089210-pat00082
Figure 112008080089210-pat00083
를 위해서는 먼저 각 분류에 속한 카탈로그에서 속성별로 추출된 색인어 빈도수를 분류 별로 집계하는 C_MV_CAT_T_CNT <C_ID, A_ID, T_ID, CNT>를 생성하고, 이로부터 각 분류 별로 속성에 속한 모든 색인어의 빈도수를 집계하는 C_MV_CAT_DL <C_ID, A_ID, DL> 을 생성한다. [표 6], [표 7], [표 8] 각각의 실체화 뷰를 생성하는 SQL 생성문이다.
C_MV_CAT_CNT <C_ID, CNT>
CREATE MATERIALIZED VIEW C_MV_CAT_CNT
REFRESH COMPLETE
AS
SELECT CAT_ID C_ID, COUNT(*) CNT
FROM T_PRO
GROUP BY CAT_ID;
C_MV_CAT_T_CNT <C_ID, A_ID, T_ID, CNT>
CREATE MATERIALIZED VIEW C_MV_CAT_T_CNT
REFRESH COMPLETE
AS
SELECT T2.CAT_ID C_ID, T1.A_ID A_ID, T1.T_ID T_ID, SUM(T1.CNT) CNT
FROM S_T_PRO_TF T1 JOIN T_PRO T2
ON T1.O_ID = T2.O_ID
GROUP BY T1.CAT_ID, T1.A_ID, T1.T_ID;
C_MV_CAT_DL <C_ID, A_ID, DL>
CREATE MATERIALIZED VIEW C_MV_CAT_DL
REFRESH COMPLETE
AS
SELECT C_ID, A_ID, SUM(CNT) DL
FROM C_MV_CAT_CNT
GROUP BY C_ID, A_ID;
네 번째 과정(400)으로서, 질의를 처리하는 단계는 다음과 같다. 여기서, 질의란 사용자 단말기 또는 관리자 단말기로부터 전송된 검색, 중복확인 및 자동분류를 위한 요청을 말하는 것으로서, 질의에 대한 처리는 SQL로 표현되고, 표현된 SQL 질의는 실체화 뷰에 접근하여 확률에 기반한 순위를 생성하고, 생성된 결과를 반환한다. 즉, 검색, 중복확인, 자동분류에 대한 질의문의 정의는 질의를 표현하는 질의 색인어와 이의 가중치로 표현된다. 중복확인과 자동분류는 각 질의 색인어가 속성에 대해서 구분되어 표현된다. 여기서, SQL(Structured Query Language)이란 사용자와 관계형 데이터베이스(데이터 관리기(21))를 연결시켜 주는 표준 검색언어를 말하는데, SQL 문장은 관계형 데이터베이스에 있는 데이터를 직접 조회하거나 또는 보고서를 추출하는데 사용된다.
우선, 질의문을 처리하는 과정 중 검색을 위한 SQL 질의문을 처리하는 과정은 다음과 같다.
검색을 위한 질의어는 가상적인 질의 색인어 테이블 S_Q_TF에 의해서 표현된다. 이는 질의 색인어 아이디와 질의 색인어에 대한 가중치를 가지는 가상적인 테이블로 구현에 따라서 다양한 방법으로 구현될 수 있고, 본 발명에서는 구현이 하나로 정해졌다고 보지 않는다.
상기 질의 테이블을 이용해서 최종적으로 각 전자 카탈로그의 확률적 방법에 의한 점수를 계산하는 SQL 질의문은 [표 9]과 같고, 이는 최종적으로 각 상품에 대한 전자 카탈로그 아이디(O_ID)와 이에 대한 점수(SCORE)를 반환한다.
SELECT O_ID, SUM(S_QV.W*S_TV.W) SCORE
FROM (
SELECT T_ID, W/POWER((SUM(POWER(W,2)) OVER ()), 1/2) W
FROM (
SELECT S_TF.T_ID T_ID, TF*IOF W
FROM S_Q_TF S_TF, S_MV_PRO_IOF S_IOF
WHERE S_TF.T_ID = S_IOF.T_ID )
) S_QV, S_MV_PRO_TV S_TV
WHERE S_TV.T_ID = S_QV.T_ID
GROUP BY O_ID;
다음으로, 질의문을 처리하는 과정 중 중복확인을 위한 SQL 질의문을 처리하는 과정은 다음과 같다.
중복확인은 각 속성에 대해서 질의 색인어가 지정되기 때문에 질의를 표현하는 가상적인 테이블이 D_Q_TF <A_ID, T_ID, TF>와 같이 정의된다.
아래의 [표 10]은 위의 질의 색인어 테이블로부터 각 상품에 대한 점수를 계산하여 반환하는 SQL 질의문이다. 최종적으로 상품에 대한 전자카탈로그 아이디와 점수를 반환한다. 질의문상의 attLen은 질의에서 주어진 속성의 개수로 [수학식 11]의 첫 번째 식에서의 Product값에서 0을 가지는 속성에 의해 전체 상품 점수가 0이 되는 것을 방지하기 위해 이용되는 정보이고, 일치하는 색인어가 없는 속성에 대해서는 1/105에 해당하는 패널티를 주어 계산한다.
SELECT O_ID, POWER(2, SUM(PB- 5 *( attLen -A_CNT)/A_CNT)) SCORE FROM (
SELECT O_ID, D_TV.A_ID, LOG(2, SUM(D_QV.W*D_TV.W)) PB,
COUNT(D_TV.A_ID) OVER (PARTITION BY O_ID) A_CNT
FROM (
SELECT T_ID, A_ID, W/POWER((SUM(POWER(W,2)) OVER (PARTITION BY A_ID)),1/2) W
FROM (
SELECT D_Q.T_ID T_ID, D_Q.A_ID, D_Q.TF*D_IOF.IOF W
FROM D_Q_TF D_Q, D_MV_PRO_IOF D_IOF
WHERE D_Q.T_ID = D_IOF.T_ID
AND D_Q.A_ID = D_IOF.A_ID )
) D_QV, D_MV_PRO_TV D_TV
WHERE D_TV.T_ID = D_QV.T_ID
AND D_TV.A_ID = D_QV.A_ID
GROUP BY O_ID, D_TV.A_ID
)
GROUP BY O_ID
ORDER BY SCORE DESC;
마지막으로, 질의문을 처리하는 과정 중 자동분류를 위한 SQL 질의문을 처리하는 과정은 다음과 같다.
자동분류를 위한 질의문은 중복확인과 마찬가지로 각 속성별 색인어와 이의빈도수로 표현된다. 추가적으로 각 속성별 총 색인어 수인 DOCLEN을 가지며, 주어진 문서의 속성 구분을 하지 않은 문서의 총 색인어 수인 TLEN을 추가하여 C_QV <A_ID, T_ID, CNT, DOCLEN, TLEN>로 표현된다.
자동분류에서는 최종적으로 해당 질의로 표현된 카탈로그가 속하는 최적 분류와 이에 대한 확률적으로 계산된 점수가 반환된다. 아래의 [표 9]는 이를 위한 SQL질의문이다.
SELECT PW.C_ID, (PW.LOGPB+LN(CNT.CNT)) LOGPB
FROM (
SELECT C_ID,
SUM(LN(PB)) + (AVG(TLEN) - COUNT(*))*LN(1/(400081)) LOGPB
FROM (
SELECT CAT.C_ID, CAT.ATT_ID, CAT.VOC_ID,
((CAT.CNT+DOC.CNT+1)/(CDL.DOCLEN+DOC.DOCLEN)) PB,
DOC.TLEN TLEN,
COUNT(*) OVER (PARTITION BY CAT.C_ID) CC
FROM C_QV DOC
JOIN C_MV_CAT_T_CNT CAT
ON DOC.T_ID = CAT.T_ID AND DOC.A_ID = CAT.A_ID
JOIN C_MV_CAT_DL CDL
ON CAT.C_ID = CDL.C_ID AND CAT.A_ID = CDL.A_ID
)
GROUP BY C_ID
) PW
JOIN C_MV_CAT_CNT CNT
ON PW.C_ID = CNT.C_ID
ORDER BY LOGPB DESC;
상기한 바와 같은 본 발명은, 전자 상거래에서 중요한 전자 카탈로그의 검색, 중복확인, 자동분류를 확률적으로 구현하기 위한 통합된 키워드 색인 기법 및 실체화 뷰를 통한 지속적인 색인 관리 방법에 관한 것으로서, 본 발명은 크게 초기 대량 색인 구축 단계(100 내지 400)와, 카탈로그 변경, 추가, 삭제에 의한 색인 관리 단계(500)로 나누어진다.
즉, 초기 색인 구축 시(100 ~ 400)에 기초 색인을 생성하고, 확률적 계산을 위해서 필요한 값들은, 생성된 기초 색인 테이블에 대한 질의를 통해 생성된 실체화 뷰로 구축된다.
또한, 카탈로그 정보의 변경에 의한 색인(500)은 기초 색인 테이블에만 반영되고, 실재 질의가 접근하는 값은 실체화 뷰에 저장되도록 한다.
상기한 바와 같은 본 발명은, 전자 카탈로그에 대한 검색, 중복확인, 자동분류를 위해, 관계형 데이터베이스를 이용하여 색인어를 저장 및 관리하는 장치 및 방법에 관한 것이다. 즉, 본 발명은 관계형 데이터베이스를 이용하여 색인어를 저장함으로써 기존의 파일시스템에서 하는 것에 비해 응용을 개발하는 시간을 단축할 수 있고, 실체화 뷰를 활용함으로써 지속적인 전자 카탈로그의 갱신에 대한 색인어 갱신을 위한 응용 개발 비용과 시간을 단축할 수 있다. 또한, 본 발명은 기초 색인어 통계 정보로부터 실체화 뷰를 생성함으로써, 질의 처리를 위한 수식이 변경되더라도 쉽게 대응할 수 있다.
본 발명의 특징들을 다시 한번 간단히 정리하면 다음과 같다.
일반적으로 전자 카탈로그의 기 등록 및 분류를 확인하기 위해서는 복잡한 인덱스 구조가 필요한데, 본 발명은 이를 간단히 하고 관리를 실체화 뷰를 통하여 응용에서의 관리를 최소화 하여 비용 절감 효과를 가지고 오도록 한다는 특징을 가지고 있다.
또한, 종래의 기술들은 색인의 구축과 이의 관리 방법을 포함하고 있지 않지만, 본 발명은 확률에 기반한 검색, 중복확인, 자동분류를 위한 인덱스의 구축 방법 및 관리 방법을 포함하고 있다.
또한, 본 발명은 확률적 검색이 가능한 색인어 인덱스 구조 및 이의 관리 방법에 관한 것으로서, 본 발명은 전자 카탈로그 분류를 위한 인덱스 구조를 다른 인덱스 구조와 통합하여 가져가는데 그 의의가 있다.
즉, 본 발명은 전자 카탈로그에 대한 확률적 검색, 중복확인, 자동분류에 있어서 필요한 색인어를 관리하는 장치 및 방법에 관한 것으로서, 특히, 전자 상거래 시 유통되는 상품(전자 카탈로그)에 대해서 키워드 검색, 상품 정보를 기반으로 한 기존 상품과의 중복확인, 새로운 상품에 대한 최적 분류를 확률적으로 검색하기 위한 인덱스를 생성하고 실체화 뷰를 통해서 관리하는 방법에 관한 것이다.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정하여 져야만 할 것이다.
도 1은 본 발명이 적용되는 전자 상거래 서비스 제공 시스템의 일실시예 구성도.
도 2는 본 발명에 따른 전자 카탈로그 관리 장치의 일실시예 구성도.
도 3은 본 발명에 적용되는 데이터의 구조들을 나타낸 예시도.
도 4는 본 발명에 따른 전자 카탈로그 관리 방법의 일실시예 흐름도.
도 5는 본 발명에 적용되는 질의, 색인어, 문서의 상관관계를 나타낸 예시도.
<도면의 주요 부호에 대한 설명>
20 : 전자 카탈로그 관리 장치 21 : 데이터 관리기
21a : 전자 카탈로그 데이터베이스 21b : 기초 색인어 테이블
21c : 기초 색인어 통계정보 테이블 21d : 실체화 뷰
22 : 전자 카탈로그 변경 확인기 23 : 색인어 추출기
25 : 기초 테이블 관리기 27 : 실체화 뷰 생성기
29 : 질의 처리기

Claims (11)

  1. 전자 상거래 시스템에 적용되는 전자 카탈로그 관리 장치에 있어서,
    전자 카탈로그 데이터베이스로부터 상기 각 전자 카탈로그의 색인어들을 추출하고, 상기 추출된 색인어들을 속성별로 분류하여 기초 색인어 테이블을 생성하는 색인어 추출기;
    상기 각 전자 카탈로그의 기초 색인어 테이블을 토대로, 상기 전자 카탈로그의 상기 속성, 상기 색인어 및 색인어 빈도수(term frequency, tf)가 저장된 기초 색인어 통계 정보 테이블을 생성하여 상기 전자 카탈로그 데이터베이스에 저장하는 기초 테이블 관리기;
    상기 기초 색인어 통계 정보 테이블을 이용하여, 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행 시 액세스 되는 실체화 뷰를 생성하는 실체화 뷰 생성기로서,
    상기 추출된 색인어로 구분되는 상기 색인어 빈도수, 역문서 빈도수(inverse document frequency, idf) 및 가중치(tf-idf)가 저장된, 상기 전자 카탈로그 검색을 위한 실체화 뷰와,
    상기 추출된 색인어 및 상기 속성으로 구분되는 상기 색인어 빈도수, 역문서 빈도수 및 가중치가 저장된, 상기 전자 카탈로그 중복확인을 위한 실체화 뷰와,
    상기 추출된 색인어 및 상기 전자 카탈로그의 상품의 분류 및 속성으로 구분되는 상기 색인어 빈도수, 역문서 빈도수 및 가중치가 저장된, 상기 전자 카탈로그 자동분류를 위한 실체화 뷰를 생성하는 실체화 뷰 생성기; 및
    상기 전자 상거래 시스템에 접속된 사용자 단말기 또는 관리자 단말기로부터 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행이 요구되면, 상기 요구에 대한 질의문을 생성하고 상기 실체화 뷰를 액세스하여, 상기 색인어 빈도수, 역문서 빈도수 및 가중치에 따른 통계 정보에 기반하는 결과를 상기 사용자 단말기 또는 관리자 단말기로 전송하는 질의 처리기를 포함하되,
    상기 전자 카탈로그 변경시, 상기 색인어 추출기는 기초 색인어 테이블을 변경하고, 상기 기초 테이블 관리기는 상기 변경된 기초 색인어 테이블을 토대로 상기 기초 색인어 통계 정보 테이블을 수정하는 것
    인 전자 카탈로그 관리 장치.
  2. 제 1 항에 있어서,
    상기 전자 카탈로그 데이터베이스, 상기 기초 색인어 테이블, 상기 기초 색인어 통계 정보 테이블 및 상기 실체화 뷰를 관리하는 데이터 관리기를 더 포함하는 것을 특징으로 하는 전자 카탈로그 관리 장치.
  3. 제 1 항에 있어서,
    상기 전자 카탈로그 데이터베이스는 네트워크를 통해 접속되어 있는 공급자 단말기로부터 새로운 전자 카탈로그를 전송받아 관리하는 것을 특징으로 하는 전자 카탈로그 관리 장치.
  4. 제 1 항에 있어서,
    상기 전자 카탈로그 데이터베이스를 모니터링하여, 상기 전자 카탈로그의 변경 여부를 확인하며, 상기 전자 카탈로그가 변경된 것으로 판단되면, 상기 변경 정보를 상기 색인어 추출기로 전송하는 전자 카탈로그 변경 확인기를 더 포함하는 전자 카탈로그 관리 장치.
  5. 전자 카탈로그 관리 장치가 수행하는 전자 카탈로그 관리 방법에 있어서,
    기 저장되어 있는 전자 카탈로그로부터 색인어를 추출하고, 추출된 색인어들을 이용하여, 상기 전자 카탈로그의 속성, 상기 색인어 및 색인어 빈도수(term frequency, tf)가 저장된 기초 색인어 통계 정보 테이블을 생성하여 전자 카탈로그 데이터베이스에 저장하는 단계;
    상기 기초 색인어 통계 정보 테이블을 이용하여, 전자 카탈로그에 대한 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행 시 액세스 되는 실체화 뷰를 생성하는 단계로서,
    상기 추출된 색인어로 구분되는 상기 색인어 빈도수, 역문서 빈도수(inverse document frequency, idf) 및 가중치(tf-idf)가 저장된, 상기 전자 카탈로그 검색을 위한 실체화 뷰와,
    상기 추출된 색인어 및 상기 속성으로 구분되는 상기 색인어 빈도수, 역문서 빈도수 및 가중치가 저장된, 상기 전자 카탈로그 중복확인을 위한 실체화 뷰와,
    상기 추출된 색인어 및 상기 전자 카탈로그의 상품의 분류 및 속성으로 구분되는 상기 색인어 빈도수, 역문서 빈도수 및 가중치가 저장된, 상기 전자 카탈로그 자동분류를 위한 실체화 뷰 중 적어도 하나를 생성하는 단계;
    상기 전자 카탈로그 관리 장치에 접속된 사용자 단말기 또는 관리자 단말기로부터 검색, 중복확인, 자동분류 중 적어도 어느 하나의 실행이 요구된 경우, 상기 전자 카탈로그 관리 장치가 상기 실체화 뷰를 액세스하여 상기 색인어 빈도수, 역문서 빈도수 및 가중치에 따른 통계 정보에 기반하는 결과를 상기 사용자 단말기 또는 관리자 단말기로 전송하는 단계; 및
    상기 전자 카탈로그 변경시, 상기 기초 색인어 통계 정보 테이블을 수정하는 단계
    를 포함하는 전자 카탈로그 관리 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제 5 항에 있어서,
    상기 기초 색인어 통계 정보 테이블은 빌리프 네트워크 모델(Belief Network Model)을 이용하여 생성되는 것을 특징으로 하는 전자 카탈로그 관리 방법.
  11. 제 5 항에 있어서,
    상기 실체화 뷰는, 관계형 데이터베이스로 구성되는 것을 특징으로 하는 전자 카탈로그 관리 방법.
KR1020080115730A 2008-11-20 2008-11-20 전자 카탈로그 관리 장치 및 방법 KR101022643B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080115730A KR101022643B1 (ko) 2008-11-20 2008-11-20 전자 카탈로그 관리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080115730A KR101022643B1 (ko) 2008-11-20 2008-11-20 전자 카탈로그 관리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100056763A KR20100056763A (ko) 2010-05-28
KR101022643B1 true KR101022643B1 (ko) 2011-03-22

Family

ID=42280715

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080115730A KR101022643B1 (ko) 2008-11-20 2008-11-20 전자 카탈로그 관리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101022643B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101416556B1 (ko) * 2013-02-15 2014-07-10 동서대학교산학협력단 스마트 폰 배터리 효율을 위한 모바일 뷰의 최적화 방법
KR102052315B1 (ko) * 2018-05-28 2019-12-04 주식회사 에이브레인 실시간으로 색인어 연관도가 업데이트되는 자동 문서 분류 시스템
KR102558742B1 (ko) 2021-04-22 2023-07-24 김태형 전자 카탈로그 운용 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020031390A (ko) * 1999-07-20 2002-05-01 엘그레시 도론 질의 최적화 계획에 대한 색인 변화의 효과를 보기 위한데이터베이스 시스템
KR20020068431A (ko) * 2001-02-21 2002-08-27 주식회사 이네트 유연한 전자상거래를 위한 카탈로그 정의 및 표시방법
KR100732789B1 (ko) * 2002-02-22 2007-06-27 아이피록스, 인코포레이티드 데이터 베이스 시스템을 모니터링하기 위한 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020031390A (ko) * 1999-07-20 2002-05-01 엘그레시 도론 질의 최적화 계획에 대한 색인 변화의 효과를 보기 위한데이터베이스 시스템
KR20020068431A (ko) * 2001-02-21 2002-08-27 주식회사 이네트 유연한 전자상거래를 위한 카탈로그 정의 및 표시방법
KR100732789B1 (ko) * 2002-02-22 2007-06-27 아이피록스, 인코포레이티드 데이터 베이스 시스템을 모니터링하기 위한 방법 및 장치

Also Published As

Publication number Publication date
KR20100056763A (ko) 2010-05-28

Similar Documents

Publication Publication Date Title
KR101114023B1 (ko) 확장형 문서 검색을 위한 콘텐츠 전파
Madhavan et al. Web-scale data integration: You can only afford to pay as you go
Chang Mining the World Wide Web: an information search approach
US7627558B2 (en) Information retrieval from a collection of information objects tagged with hierarchical keywords
CN101520784B (zh) 信息发布系统和信息发布方法
EP2823410B1 (en) Entity augmentation service from latent relational data
US8468156B2 (en) Determining a geographic location relevant to a web page
US10755179B2 (en) Methods and apparatus for identifying concepts corresponding to input information
US20060155751A1 (en) System and method for document analysis, processing and information extraction
US8103678B1 (en) System and method for establishing relevance of objects in an enterprise system
Lee et al. An ontology-based product recommender system for B2B marketplaces
US11748577B1 (en) Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models
CN105824872B (zh) 基于搜索的数据的检测、链接和获取的方法和系统
CN101000611A (zh) 利用互联网为公众提供和查询信息的方法
Lal et al. Comparison of ranking algorithms with dataspace
KR101022643B1 (ko) 전자 카탈로그 관리 장치 및 방법
US20050080774A1 (en) Ranking of business objects for search engines
Diao et al. Efficient exploration of interesting aggregates in RDF graphs
EP1505520A2 (en) Ranking of business objects for search engines
AT&T
Ade-Ibijola et al. XNorthwind: Grammar-driven synthesis of large datasets for db applications
US20240062019A1 (en) Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models
Chen et al. A novel user profile learning approach with fuzzy constraint for news retrieval
Hung et al. Reorganization of search results based on semantic clustering
Lawrence et al. Integrating data sources using a standardized global dictionary

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140228

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150212

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160122

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180222

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200302

Year of fee payment: 10